Gorące wyzwania, zimne rozwiązania
Jak chłodzenie cieczą przekształca centra danych
Rosnąca moc obliczeniowa nowoczesnych serwerów wyposażonych w procesory GPU wymaga nowatorskich metod chłodzenia. Chłodzenie cieczą, wcześniej stosowane głównie w superkomputerach, staje się zatem kluczowym rozwiązaniem w centrach danych.
Jakie wyzwania stoją przed branżą i jakie korzyści niesie ta technologia? O tym rozmawiamy z ekspertami Tomaszem Bukiem, dyrektorem operacyjnym i Maciejem Szadkowskim, dyrektorem technicznym z firmy DCX Polska.
Szafy rackowe charakteryzują się coraz większą gęstością, jeśli chodzi o zbycie energii. Czy mógłby Pan wyjaśnić, z czego to wynika i dlaczego chłodzenie cieczą jest odpowiedzią na problem fizycznego ograniczenia przestrzeni w centrach danych?
Tomasz Buk:. Obecnie na rynku serwerów widzimy istotną ewolucję: nowsze generacje są wydajniejsze, jednak ich większa moc obliczeniowa wiąże się z wyższym zużyciem energii i co za tym idzie, wydzielają więcej ciepła. Biorąc pod uwagę, że dzisiejsze szafy z serwerami rzadko przekraczają moc 10kW na szafę, mówimy o możliwym stopniu redukcji ilości szaf rzędu 5:1 czy 10:1.
Jest kilka czynników, które popychają właścicieli data center do inwestycji w chłodzenie cieczą. Poza oczywistym końcem możliwości schłodzenia powietrzem nowych serwerów jest to również kwestia ekonomiczna. Rosnące ceny energii każą szukać kosztowo efektywniejszych rozwiązań. Technologie chłodzenia cieczą pozwalają na znaczną redukcję zajmowanej powierzchni przez szafy serwerowe, przez co nowe data center można wybudować znacznie taniej lub w tym samym budynku zmieścić zdecydowanie więcej serwerów. Koszty obsługi i utrzymania serwerów chłodzonych cieczą są o dziesiątki procent niższe, co przekłada się na milionowe oszczędności. Do tego nie bez znaczenia jest presja legislacyjna dotycząca poboru energii elektrycznej i wody przez data center. I w końcu sami klienci, których rosnąca świadomość ekologiczna i chęć redukcji śladu węglowego w całym spektrum działań, nakazuje im wybór bardziej ekologicznych metod przetwarzania danych i chcą współpracować z firmami, które będą im mogły to zapewnić.
Tradycyjne metody chłodzenia, jak adiabatyczne systemy chłodzące zużywają duże ilości wody lub energii elektrycznej jeżeli myślimy o używaniu chillerów. Dla każdego megawata energii potrzebne jest odparowanie 2-3 ton wody dziennie. W regionach, gdzie dostęp do niej stanowi wyzwanie, jak Teksas czy Arizona, skutkuje to eksploatacją podziemnych źródeł wodnych, które powinny zostać zachowane dla przyszłych pokoleń.
W odpowiedzi na te wyzwania nasza firma opracowała technologię chłodzenia cieczą działającą w zamkniętym obiegu, co eliminuje potrzebę odparowywania wody. To rozwiązanie nie tylko obniża koszty operacyjne, ale jest także bardziej zrównoważone środowiskowo, zapobiegając marnotrawieniu cennych zasobów wodnych.
Maciej Szadkowski: Gdy technologie takie jak Chat GPT i Midjourney stały się dostępne dla wszystkich, uczenie maszynowe przeżyło prawdziwy boom. To już nie są tylko narzędzia dla ekspertów – teraz każdy może ich używać do tworzenia różnych treści. Wraz z nim wzrosło zapotrzebowanie na karty GPU w centrach danych. W rezultacie musieliśmy poszukać lepszych sposobów na obniżanie ich temperatury, co sprawiło, że technologia chłodzenia cieczą, znana wcześniej tylko z superkomputerów, stała się bardziej popularna.
Technologie, takie jak immersion cooling i direct chip cooling, daje nam możliwość podnoszenia temperatur na wejściu i wyjściu, co znacząco poprawia efektywność energetyczną systemu. Normy ASHRAE pozwalają teraz na utrzymanie temperatury wejściowej do serwerów na poziomie co najmniej 32 stopni Celsjusza, a nawet do 40 stopni. Dzięki wyższym temperaturom powrotnym, jak w immersion cooling, możemy uzyskać znaczące różnice temperaturowe, na przykład od 40 stopni na wejściu do 55 stopni na wyjściu, co pozwala na dalsze wykorzystanie ciepła.
Nowe procesory z mocą TDP do 500 W wymagają jeszcze bardziej efektywnego chłodzenia. Karty GPU, takie jak H100, zwiększają zapotrzebowanie energetyczne serwerów nawet do 7,6 kW. Gdy zamontujemy cztery takie serwery w jednym racku, gęstość mocy może wynosić 20 kW. W przypadku wyższych obciążeń, gdzie gęstość może osiągnąć 76 kW na rack, chłodzenie cieczą staje się nieodzowne.
Coraz więcej właścicieli centrów danych zainteresowanych jest rackami o mocy 100 kW, a nawet 200 kW w przypadku serwerów HPC z nowymi układami jak Grace czy Grace Blackwell. W Paragwaju nasz zespół wdraża hybrydowe środowiska o mocy do 214 kW na jeden rack, co daje łączną moc 2,3 MW z jednej pętli rackowej. I to właśnie głównym wyzwaniem staje się przygotowanie na przyszłość i przewidywanie zapotrzebowania klientów na obsługę tak dużych obciążeń serwerowych bez odpowiedniego chłodzenia.
Czy rynek jest gotowy do odbioru tego ciepła?
Czy rynek jest gotowy do odbioru tego ciepła?
Tomasz Buk: Zdecydowanie. Oczywiście, pojawia się konieczność zmiany podejścia do planowania lokalizacji centrów danych i rozwiązanie trudności technicznych z odzyskiwaniem ciepła i dostarczaniem go do miejsca przeznaczenia. I właśnie tym się zajmujemy. Rozproszone centra danych ulokowane tam gdzie jest możliwie najtańsza energia pochodządza ze źródeł odnawialnych i jednocześnie jest możliwość odbioru ciepła np. do sieci miejskiej, basenu, SPA, szklarni czy ciepła woda jest wykorzystywana w procesie przemysłowym. Niedawno ukończyliśmy projekt, w którym ponad 1MW energi cieplnej generowanej przez serwery obliczeniowe jest odzyskane dzięki naszemu systemowi i służy do ogrzewania pobliskiej miejscowości z 11.000 mieszkańców.
Trend ten wyraźnie widać w Europie, zwłaszcza w krajach skandynawskich, w których zapotrzebowanie na ciepło jest stałe przez cały rok i właśnie tam zastosowanie technologii z centrów danych do ogrzewania staje się coraz bardziej popularne i opłacalne.
Maciej Szadkowski: Mamy nową regulację prawną w Unii Europejskiej, która nakazuje odzyskiwanie ciepła z centrów danych. Jeśli tego nie zrobimy, musimy przeprowadzić audyt, który udowodni, że jest to ekonomicznie lub technicznie niewykonalne. Oprócz tego istotne są też kwestie odpowiedzialności społecznej, takie jak ślad węglowy. Wszystko to musimy zgrać z technologią chłodzenia cieczą, ponieważ większość istniejących centrów danych, nawet tych po modernizacji, nie jest przystosowana do tak dużych potrzeb chłodzenia.
Podczas modernizacji, zwłaszcza gdy zwiększamy gęstość mocy np. z 10 kW do 50 kW, napotykamy problem z odbiorem ciepła. Na dachach często brakuje miejsca na dodatkowe chłodnice wentylatorowe do liquid coolingu. W takich przypadkach odbiór ciepła staje się techniczną koniecznością, a nie tylko ciekawą opcją. Współpraca z firmami ciepłowniczymi lub wykorzystanie ciepła w lokalnych zastosowaniach staje się niezbędna, ponieważ nie mamy innej możliwości jego odprowadzenia.
Odzyskiwanie ciepła nie jest jedynie kwestią przestrzegania prawa — to także nasza odpowiedzialność wobec środowiska. Klienci coraz częściej zwracają uwagę na ekologiczne aspekty naszej pracy, więc musimy dbać o to, żeby nasze rozwiązania były jak najbardziej zrównoważone. Technologia chłodzenia cieczą nie tylko pozwala na efektywne zarządzanie ciepłem, ale również otwiera nowe możliwości jego ponownego wykorzystania, co jest korzystne zarówno dla nas, jak i dla społeczności, w których działamy.
Ile energii cieplnej można uzyskać z jednego megawata energii elektrycznej? Jaki jest ekwiwalent w megawatach ciepła, przy założeniu minimalnych strat?
Tomasz Buk: Jeśli mówimy o technologii zanurzeniowej, gdzie całe urządzenia znajdują się w naszym płynie dielektrycznym, pozwala ona na odzyskanie 100% ciepła. Straty na wymiennikach ciepła czy rurach są minimalne i stanowią około 1%.
Natomiast w technologii, w której chłodzone są tylko procesory, możemy odzyskać od 60% do 80% ciepła z pojedynczego serwera. To wciąż potężna ilość ciepła, którą można zagospodarować. Wyrzucanie go do atmosfery jest najłatwiejsze, ale nie pozwala na odzyskanie części zainwestowanych pieniędzy czy wręcz wygenerowania dodatkowego strumienia pieniędzy dla właściciela data center.
Filozofia budowania centrów danych musi się zmienić. Zapewne andal będą powstawały gigantyczne obiekty na pustych obszarach, z dala od miast, ale aby wykorzystać ciepło, trzeba będzie umieszczać centra danych jak najbliżej instytucji, które mogą je odebrać. Na przykład, możemy dostarczać centra danych w formie kontenerów, wyposażonych w zbiorniki zanurzeniowe. Można je postawić przy basenie olimpijskim, szklarni czy elektrociepłowni i, gdzie mamy tani prąd i od razu przekierować ciepło do sieci ciepłowniczej miasta.
Ile procent energii jest wykorzystywane na obliczenia, a ile przekształca się w ciepło? Czy jeden megawat energii zużytej na pracę serwera odpowiada jednemu megawatowi ciepła?
Maciej Szadkowski: Możemy założyć, że jeden megawat energii zużytej na pracę serwera przekształca się w około jeden megawat ciepła. Przy zastosowaniu płynu jako medium do transportu ciepła, możemy odebrać około 80% tej energii cieplnej. Pozostałe 20% to ciepło resztkowe, które musimy wentylować. Oznacza to, że nadal potrzebne będą systemy chłodzenia powietrza, choć w zdecydowanie mniejszym zakresie.
Tomasz Buk: Ta część energii, która jest zużywana na pracę serwerów, to tylko jedna kwestia. Jednakże na zewnątrz budynku, gdzie znajdują się chłodnice, chillery, wentylatory i inne urządzenia, zużycie energii może sięgać nawet 40% łącznego zapotrzebowania na prąd dla data center. Nasze systemy mogą skutecznie zredukować tę część, obniżając koszty związane z poborem energii elektrycznej niemal o połowę!
Maciej Szadkowski: Powiedzmy sobie wprost: w tradycyjnym centrum danych, systemy chłodzenia i wentylacji, czyli typowy HVAC, obejmujący sprężarki wody lodowej, agregaty wody lodowej oraz jednostki wentylujące, takie jak CRAC czy chillery adiabatyczne, pochłaniają średnio od 30% do 50% energii w data center. Dokładny udział zależy od klimatu, w którym znajduje się centrum danych.
Wprowadzenie technologii liquid cooling pozwala na eliminację sprężarek i chillerów adiabatycznych, co praktycznie wyzeruje zużycie wody w data center. W efekcie, w tym samym miejscu można umieścić znacznie więcej mocy obliczeniowej, na przykład, zamiast jednego megawata można zmieścić dziesięć megawatów.
Jak wygląda serwisowanie urządzeń w pełnym zanurzeniu?
Maciej Szadkowski: W 2020 roku Alibaba wdrożyła technologię immersion cooling na dużą skalę, obejmującą dziesiątki megawatów. Ich podsumowania wskazują na kilka kluczowych korzyści. Jednym z głównych efektów było zmniejszenie liczby awarii dysków twardych o 50%. Jest to zrozumiałe, biorąc pod uwagę, że głównymi przyczynami awarii elektroniki są przegrzewanie, wilgotność, kurz, korozja i wibracje. Technologia immersion cooling eliminuje te czynniki: nie ma wentylatorów, więc brak jest wibracji; warunki chłodzenia są idealne; i system jest odizolowany od wilgoci powodującej korozję czy kurzu innych zanieczyszczeń powietrza, powodujących konieczność ręcznej obsługi serwerów Natomiast w testach symulujących awarię zasilania serwery były skutecznie chłodzone dzięki dużej pojemności cieplnej płynu. Czas na podjęcie odpowiedniej reakcji wydłużył się z kilku sendund do kilkudziesięciu minut, skutecznie zapobiegając awariom gorących komponentów. Mówiąc wprost, zakładamy redukcję akcji serwisowych związanych z problemami sprzętowymi do minimum.
Choć immersion cooling ocenia się jako przyszłościową technologię chłodzenia, na razie spora część klientów decyduje się utrzymywać serwery na sucho z dodatkiem bezpośredniego chłodzenia chipów. Warunki chłodzenia są perfekcyjne, co znacznie zmniejsza awaryjność urządzeń. Wraz z nowymi generacjami serwerów przekonamy się, która technologia będzie bardziej odpowiadała potrzebom klientów.