Может ли дата-центр перегреться из-за ИИ? Да! И вот почему
В 2025 году дата-центры стали потреблять на 17% больше электроэнергии, чем годом ранее. Уже к 2030-му электропотребление ЦОД может вырасти вдвое. Отрасль бьёт тревогу: перегрев — большая проблема для развития ИИ, экологии и производительности бизнеса. Ниже — подробный разбор от оператора ИТ-решений «ОБИТ».
Почему ИИ нагревает инфраструктуру
Раньше корпоративные ЦОДы проектировались под умеренную плотность — условно 5–20 кВт на стойку. Для классических бизнес-систем, виртуализации, баз данных и корпоративных сервисов этого долго было достаточно.
Но высокопроизводительные ИИ-кластеры — другая история. В одной стойке может быть собрано так много графических процессоров (GPU), сетевого оборудования и систем питания, что обычной мощности не хватит. Например, мировой лидер по производству графических процессоров NVIDIA указывает в своей документации, что одной стойке ИИ-класса нужно примерно 120 кВт охлаждающей мощности.
Для большинства действующих российских ЦОД тепловые нагрузки выше 50–60 кВт на стойку — это критический порог для привычного воздушного охлаждения.
Серверы стали компактнее, мощнее и плотнее, а помещения, электропитание и охлаждение у многих площадок остались из прошлой эпохи.
Что происходит при перегреве
В первую очередь перегрев — это не риск физической деформации железа. Чаще всё начинается менее драматично: оборудование просто автоматически снижает производительность, чтобы не повредить компоненты. Для пользователя это выглядит как замедление сервиса и просадка качества работы ИИ-продукта.
Если температура продолжает расти, возможны аварийные отключения, сбои и простои. В дата-центрах такие события особенно неприятны: страдает не один сервер, а связанная инфраструктура — вычисления, хранилища, сеть, резервирование.
ИИ усугубляет проблему тем, что нагрузки часто идут длинными интенсивными циклами. Если охлаждение рассчитано впритык, запас быстро иссякает.
Есть и глобальный внешний эффект. Исследователи из Кембриджа, Национального университета Сингапура и других научных организаций оценили, что после запуска крупных ИИ-дата-центров температура поверхности земли рядом с ними в среднем повышалась на 2°C, а в отдельных случаях — до 9,1°C. Результаты исследования следует трактовать осторожно, но тема уже вызывает бурные профессиональные дискуссии.
Другая сторона медали — вода, которая необходима многим ЦОД для охлаждения. Средний дата-центр потребляет около 1 млн литров воды в сутки. Для сравнения — столько же используют в сутки 5–7 тысяч человек! Крупному ЦОД требуется уже до 20 млн литров в день.
Для регионов с избытком воды это сложная, но вполне решаемая инженерная задача. Для засушливых территорий — назревающий конфликт между цифровой инфраструктурой, городским водоснабжением, промышленностью и сельским хозяйством.
Как индустрия пытается не сварить собственные серверы
Есть три пути: менять охлаждение, менять инженерную архитектуру или менять окружение.
Первый путь — переход к жидкостному охлаждению.
В большинстве дата-центров используется воздушное охлаждение. Упрощённо схема выглядит так: холодный воздух подаётся в серверный зал, проходит через стойки с оборудованием, забирает тепло от серверов и возвращается уже нагретым.
Для классических нагрузок такой подход долго был достаточным, но ИИ-серверы выделяют значительно больше тепла. Воздуху сложнее быстро забрать тепло от самых горячих компонентов. Поэтому тепло «снимают» ближе к источнику: с чипов, плат, GPU, — с помощью жидкости.
Виды жидкостного охлаждения ЦОД:
- Прямое жидкостное охлаждение чипов (D2C, или Direct-to-Chip). В этом случае тепло от процессоров и GPU отводится через холодные пластины, к которым подведён жидкий теплоноситель.
- Теплообменник в задней дверце стойки (RDHx, или Rear Door Heat Exchanger). Горячий воздух, выходящий из серверов, проходит через дверцу-теплообменник, где охлаждается жидкостью.
- Иммерсионное охлаждение — более радикальный вариант, при котором оборудование полностью или частично погружают в специальную диэлектрическую жидкость. Она не проводит электричество и при этом эффективно отводит тепло.
Любая из этих модернизаций меняет требования к проектированию всей инфраструктуры ЦОД, эксплуатационной культуре, резервированию и мониторингу. Сложно — однако для стоек на 100+ кВт это практически необходимость.
Второй путь — оптимизация инженерной инфраструктуры. Даже если дата-центр остаётся на воздушном охлаждении, его можно сделать заметно устойчивее к высоким нагрузкам. Для этого нужно понять, где именно возникают перегретые зоны, как движется воздух, не смешиваются ли горячие и холодные потоки, выдержит ли электропитание новую нагрузку.
На практике это означает несколько шагов:
- Построить тепловую карту зала.
- Правильно разделить горячие и холодные коридоры.
- Устранить утечки холодного воздуха.
- Настроить скорость вентиляторов.
- Проверить всю систему электропитания и резервирования.
Иначе можно получить ситуацию, когда формально мощности кондиционирования достаточно, но стойки всё равно перегреваются из-за неправильного распределения воздуха.
Третий путь — использовать среду вокруг. Если это возможно, ЦОД строят там, где климат помогает охлаждению. Так, например, можно использовать морскую воду или переиспользовать избыточное тепло для отопления.
В Китае уже развивают подводные дата-центры: герметичные модули размещают под водой, чтобы море работало как естественный теплоотвод. Подводный ЦОД в Хайнане использует морскую воду как стабильный источник охлаждения и может быть на 40–60% энергоэффективнее традиционных объектов. Интересный подход! Но китайским инженерам ещё предстоит решить вопросы обслуживания, коррозии и влияния на морскую среду.
Чем тяжелее вычисления, тем важнее проектировать не только серверы, но и окружающую среду.
Что это значит для бизнеса
ИИ убивает дата-центры!
Шутка. Конечно, это не так. Но ИИ нельзя внедрять в неподготовленную инфраструктуру.
Если вы планируете поднимать сервисы для моделей машинного обучения (ML), внедрять GPU-кластер, развивать внутренние ИИ-инструменты или строить площадку под сложные вычисления, ответьте на эти вопросы:
- Какую плотность на стойку выдержит наш дата-центр?
- Хватит ли общего электропитания и резервирования?
- Справится ли охлаждение в каждой «горячей» точке?
- Можно ли масштабироваться без полной реконструкции архитектуры?
- С чем мы столкнёмся, если откажет хотя бы один элемент охлаждения?
ИИ снижает толерантность к приблизительным расчётам и учит бизнес проектировать инфраструктуру с учётом постоянно растущей нагрузки.
Строим дата-центры по всей стране
Инженеры оператора ИТ-решений «ОБИТ» создают дата-центры под любые задачи и разные масштабы. Также у нас есть собственные дата центры для размещения клиентов.
Мы помогаем на каждом этапе запуска дата-центра: разрабатываем проектную документацию, поставляем оборудование, обеспечиваем электроснабжение и т. д. А ещё можем модернизировать существующий дата-центр!
Больше о проектировании дата-центров по ссылке.
Чем раньше вы адаптируете инфраструктуру под растущую ИИ-нагрузку, тем меньше риск упереться в температурный потолок и потерять конкурентоспособность.
Подписывайтесь на наш VC-блог и Telegram-канал, чтобы регулярно получать полезную информацию об ИТ для бизнеса.