Может ли дата-центр перегреться из-за ИИ? Да! И вот почему

В 2025 году дата-центры стали потреблять на 17% больше электроэнергии, чем годом ранее. Уже к 2030-му электропотребление ЦОД может вырасти вдвое. Отрасль бьёт тревогу: перегрев — большая проблема для развития ИИ, экологии и производительности бизнеса. Ниже — подробный разбор от оператора ИТ-решений «ОБИТ».

Может ли дата-центр перегреться из-за ИИ? Да! И вот почему

Почему ИИ нагревает инфраструктуру

Раньше корпоративные ЦОДы проектировались под умеренную плотность — условно 5–20 кВт на стойку. Для классических бизнес-систем, виртуализации, баз данных и корпоративных сервисов этого долго было достаточно.

Но высокопроизводительные ИИ-кластеры — другая история. В одной стойке может быть собрано так много графических процессоров (GPU), сетевого оборудования и систем питания, что обычной мощности не хватит. Например, мировой лидер по производству графических процессоров NVIDIA указывает в своей документации, что одной стойке ИИ-класса нужно примерно 120 кВт охлаждающей мощности.

Для большинства действующих российских ЦОД тепловые нагрузки выше 50–60 кВт на стойку — это критический порог для привычного воздушного охлаждения.

Серверы стали компактнее, мощнее и плотнее, а помещения, электропитание и охлаждение у многих площадок остались из прошлой эпохи.

Что происходит при перегреве

В первую очередь перегрев — это не риск физической деформации железа. Чаще всё начинается менее драматично: оборудование просто автоматически снижает производительность, чтобы не повредить компоненты. Для пользователя это выглядит как замедление сервиса и просадка качества работы ИИ-продукта.

Если температура продолжает расти, возможны аварийные отключения, сбои и простои. В дата-центрах такие события особенно неприятны: страдает не один сервер, а связанная инфраструктура — вычисления, хранилища, сеть, резервирование.

ИИ усугубляет проблему тем, что нагрузки часто идут длинными интенсивными циклами. Если охлаждение рассчитано впритык, запас быстро иссякает.

Есть и глобальный внешний эффект. Исследователи из Кембриджа, Национального университета Сингапура и других научных организаций оценили, что после запуска крупных ИИ-дата-центров температура поверхности земли рядом с ними в среднем повышалась на 2°C, а в отдельных случаях — до 9,1°C. Результаты исследования следует трактовать осторожно, но тема уже вызывает бурные профессиональные дискуссии.

Другая сторона медали — вода, которая необходима многим ЦОД для охлаждения. Средний дата-центр потребляет около 1 млн литров воды в сутки. Для сравнения — столько же используют в сутки 5–7 тысяч человек! Крупному ЦОД требуется уже до 20 млн литров в день.

Для регионов с избытком воды это сложная, но вполне решаемая инженерная задача. Для засушливых территорий — назревающий конфликт между цифровой инфраструктурой, городским водоснабжением, промышленностью и сельским хозяйством.

Как индустрия пытается не сварить собственные серверы

Есть три пути: менять охлаждение, менять инженерную архитектуру или менять окружение.

Первый путь — переход к жидкостному охлаждению.

Может ли дата-центр перегреться из-за ИИ? Да! И вот почему

В большинстве дата-центров используется воздушное охлаждение. Упрощённо схема выглядит так: холодный воздух подаётся в серверный зал, проходит через стойки с оборудованием, забирает тепло от серверов и возвращается уже нагретым.

Для классических нагрузок такой подход долго был достаточным, но ИИ-серверы выделяют значительно больше тепла. Воздуху сложнее быстро забрать тепло от самых горячих компонентов. Поэтому тепло «снимают» ближе к источнику: с чипов, плат, GPU, — с помощью жидкости.

Виды жидкостного охлаждения ЦОД:

  • Прямое жидкостное охлаждение чипов (D2C, или Direct-to-Chip). В этом случае тепло от процессоров и GPU отводится через холодные пластины, к которым подведён жидкий теплоноситель.
  • Теплообменник в задней дверце стойки (RDHx, или Rear Door Heat Exchanger). Горячий воздух, выходящий из серверов, проходит через дверцу-теплообменник, где охлаждается жидкостью.
  • Иммерсионное охлаждение — более радикальный вариант, при котором оборудование полностью или частично погружают в специальную диэлектрическую жидкость. Она не проводит электричество и при этом эффективно отводит тепло.
<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fnews.microsoft.com%2Fru-ru%2Ffeatures%2Fdatacenter-liquid-cooling%2F&postId=2913662" rel="nofollow noreferrer noopener" target="_blank">ЦОД Microsoft</a> в Редмонде (штат Вашингтон). Работа серверов заставляет жидкость кипеть, поднимающийся пар контактирует с охлаждающим элементом в крышке резервуара и выпадает обратно «дождём» 
ЦОД Microsoft в Редмонде (штат Вашингтон). Работа серверов заставляет жидкость кипеть, поднимающийся пар контактирует с охлаждающим элементом в крышке резервуара и выпадает обратно «дождём» 

Любая из этих модернизаций меняет требования к проектированию всей инфраструктуры ЦОД, эксплуатационной культуре, резервированию и мониторингу. Сложно — однако для стоек на 100+ кВт это практически необходимость.

Второй путь — оптимизация инженерной инфраструктуры. Даже если дата-центр остаётся на воздушном охлаждении, его можно сделать заметно устойчивее к высоким нагрузкам. Для этого нужно понять, где именно возникают перегретые зоны, как движется воздух, не смешиваются ли горячие и холодные потоки, выдержит ли электропитание новую нагрузку.

На практике это означает несколько шагов:

  1. Построить тепловую карту зала.
  2. Правильно разделить горячие и холодные коридоры.
  3. Устранить утечки холодного воздуха.
  4. Настроить скорость вентиляторов.
  5. Проверить всю систему электропитания и резервирования.

Иначе можно получить ситуацию, когда формально мощности кондиционирования достаточно, но стойки всё равно перегреваются из-за неправильного распределения воздуха.

Третий путь — использовать среду вокруг. Если это возможно, ЦОД строят там, где климат помогает охлаждению. Так, например, можно использовать морскую воду или переиспользовать избыточное тепло для отопления.

В Китае уже развивают подводные дата-центры: герметичные модули размещают под водой, чтобы море работало как естественный теплоотвод. Подводный ЦОД в Хайнане использует морскую воду как стабильный источник охлаждения и может быть на 40–60% энергоэффективнее традиционных объектов. Интересный подход! Но китайским инженерам ещё предстоит решить вопросы обслуживания, коррозии и влияния на морскую среду.

Установка одного из модулей подводного ЦОД в Хайнане 
Установка одного из модулей подводного ЦОД в Хайнане 

Чем тяжелее вычисления, тем важнее проектировать не только серверы, но и окружающую среду.

Что это значит для бизнеса

ИИ убивает дата-центры!

Шутка. Конечно, это не так. Но ИИ нельзя внедрять в неподготовленную инфраструктуру.

Если вы планируете поднимать сервисы для моделей машинного обучения (ML), внедрять GPU-кластер, развивать внутренние ИИ-инструменты или строить площадку под сложные вычисления, ответьте на эти вопросы:

  1. Какую плотность на стойку выдержит наш дата-центр?
  2. Хватит ли общего электропитания и резервирования?
  3. Справится ли охлаждение в каждой «горячей» точке?
  4. Можно ли масштабироваться без полной реконструкции архитектуры?
  5. С чем мы столкнёмся, если откажет хотя бы один элемент охлаждения?

ИИ снижает толерантность к приблизительным расчётам и учит бизнес проектировать инфраструктуру с учётом постоянно растущей нагрузки.

Строим дата-центры по всей стране

Инженеры оператора ИТ-решений «ОБИТ» создают дата-центры под любые задачи и разные масштабы. Также у нас есть собственные дата центры для размещения клиентов.

99,982% составляет отказоустойчивость построенного нами «Дата-центра №1» уровня Tier III 
99,982% составляет отказоустойчивость построенного нами «Дата-центра №1» уровня Tier III 

Мы помогаем на каждом этапе запуска дата-центра: разрабатываем проектную документацию, поставляем оборудование, обеспечиваем электроснабжение и т. д. А ещё можем модернизировать существующий дата-центр!

Больше о проектировании дата-центров по ссылке.

Чем раньше вы адаптируете инфраструктуру под растущую ИИ-нагрузку, тем меньше риск упереться в температурный потолок и потерять конкурентоспособность.

Подписывайтесь на наш VC-блог и Telegram-канал, чтобы регулярно получать полезную информацию об ИТ для бизнеса.

1
Начать дискуссию