Электропитание процессоров кластерных систем искусственного интеллекта
Пол Йимен (Paul Yeaman), директор отдела по разработке приложений, Vicor Corporation
Вертикальная структура электропитания обеспечивает ток до 100 кА и подачу напряжения питания на множество шин.
Недавно появившиеся новые кластерные суперкомпьютеры, использующие в качестве процессоров специализированные интегральные схемы (ASIC), повышают уровни потребления энергии до величин, которые нельзя было даже представить всего несколько лет тому назад. Для обеспечения больших значений тока, приближающихся к 100 кА из расчета на один кластер ASIC, требуются инновационные архитектуры систем питания, топологии, управляющие системы и корпуса. Увеличение потребляемой мощности привело к необходимости повысить напряжение питания до 48 В. Кроме того, высокая плотность размещения процессорных кластеров ограничивает возможность подачи питания в горизонтальном направлении (lateral power delivery), требуя изменения подхода.
Реализованная компанией Vicor факторизованная архитектура электропитания (Factorized Power Architecture FPA) позволяет преобразовать напряжение 48 В напрямую в напряжение ниже 1 В, требующееся для процессорной нагрузки, чем существенно отличается от общепринятой архитектуры с промежуточной шиной (Intermediate Bus Architecture, IBA). При использовании 48 В источник электропитания, построенный по принципу IBA, состоит из преобразователя промежуточной шины и следующих за ним многофазных PoL-стабилизаторов. FPA-архитектура уникальным образом решает каждую из проблем подачи питания кластерным процессорным системам с помощью инновационных решений и вертикальной топологии подачи питания (Vertical Power Delivery, VPD), обеспечивая высокие токи в этих системах.
Проблемы с подачей электропитания кластерам
Группировка ASIC в кластеры с высокой плотностью монтажа обеспечивает широкую полосу пропускания и, тем самым, вычисления с терафлопсным быстродействием, необходимые системам искусственного интеллекта (ИИ) для обучения, например, автономному вождению с соответствующими рабочими нагрузками. Каждому процессору в кластере может потребоваться ток в диапазоне 600–1000 А, что сложно реализовать даже с помощью однопроцессорных карт ускорителей из-за больших потерь в проводниках печатной платы или подложки, так как их импеданс не может быть меньше определенного значения, если конечный преобразователь напряжения не находится в непосредственной близости с силовыми выводами процессора.
Кроме того, быстрое совершенствование приложений ИИ достигается с помощью графических и специализированных процессоров, изготовленных по технологиям 7, 5 нм и вскоре – по 3 нм. Номинальное рабочее напряжение ядра, соответствующее этим техпроцессам, в настоящее время составляет 0,75–0,85 В. Чтобы обеспечить рабочие нагрузки, требующиеся для ИИ, графические процессоры и специализированные процессоры устанавливаются на платах ускорителей, которые объединяются в серверную стойку из расчета четыре или восемь карт на стойку в центрах обработки данных (ЦОД) и высокопроизводительных компьютерах. Однако на недавних презентациях компании Cerebras и Tesla представили альтернативный метод кластеризации самих AI ASIC, который позволяет создавать суперкомпьютеры с очень высокой производительностью и плотностью размещения элементов, но имеет значительные проблемы с подачей электропитания и управлением температурным режимом/охлаждением.
Кластер ASIC/GPU исключает возможность подачи питания в горизонтальном направлении (в той же плоскости) при использовании одно- или двухпроцессорных карт ИИ, а высокоскоростная система ввода/вывода данных очень чувствительна к шуму переключения больших токов в многофазных понижающих стабилизаторах с жесткой коммутацией.
Установка многофазного стабилизатора напряжения с жесткой коммутацией ближе к процессору сопряжена с увеличением шума, что в еще большей мере усложняет проблему проектирования и поиск оптимальной конфигурации схемы распределенного питания (PDN) для чувствительных к шуму портов ввода/вывода. При типичном расчетном значении 40–60 А на одну фазу количество таких фаз на дискретных компонентах, необходимых для обеспечения высоких пиковых токов (во многих случаях больше 1500 А на ядро), может легко превысить 30 шт. на одну ASIC или один графический процессор приложения ИИ, что практически не обеспечивается с помощью горизонтальной топологии подачи питания.
Новые уровни тока в технологии FPA
Факторизованная архитектура системы электропитания основана на фундаментальном принципе разделения функций силового преобразователя на две основные функции с их последующей оптимизацией по отдельности и реализацией в виде системы. К этим двум функциям относятся регулирование напряжения и умножение тока.
Регулирование
Как известно, чем ближе значения входного и выходного напряжений стабилизатора друг к другу, тем меньше затраты энергии на стабилизацию и выше КПД. Благодаря оптимальному расположению стабилизатора в системе архитектура FPA сводит к минимуму перепад напряжения между его входом и выходом. Модуль предварительной регулировки PRM (см. рис. 1) реализован с помощью понижающе-повышающей топологии с переключением при нулевом напряжении (ZVS), которая отличается высокой эффективностью при небольшой разнице между входным и выходным напряжениями. ZVS-технология значительно сокращает коммутационные потери, обеспечивая работу на высоких частотах и существенно уменьшая габариты преобразователя. PRM-модуль обычно регулирует входное напряжение в диапазоне 40–60 В до выходного напряжения 30–50 В.
Рис. 1. PRM- и VTM-модули являются функциональными блоками архитектуры FPA. PRM-модули выбираются с учетом диапазона входного напряжения системы и требований к мощности, а VTM-модули – на основе диапазона выходного напряжения и требований к току. PRM-модуль можно установить в любом удобном месте системы; VTM-модуль устанавливается как можно ближе к ядру процессора
Мягкая коммутация и умножение тока
За PRM-модулем следует второй каскад, выполняющий функции понижения напряжения и повышения тока (см. рис. 2). Он реализован с использованием топологии SAC, название которой обусловлено близкой к синусоидальной форме тока в первичной и вторичной обмотках в токовом умножителе (VTM). Это устройство можно реализовать как идеальный трансформатор, у которого входное и выходное напряжения связаны фиксированным соотношением, а импеданс мал (сотни мкОм) на частотах выше 1 МГц.
Поскольку в этом умножителе энергия не запасается, он способен при правильном охлаждении работать с высокой мощностью, что позволяет согласовать допустимую мощность VTM-умножителя с тепловыми характеристиками процессора. В топологии SAC применяется система управления переключением при нулевом напряжении и нулевом токе, что в еще большей степени понижает коммутационный шум и потери мощности. PRM- и VTM-модули входят в состав FPA-архитектуры: первый из них регулирует напряжение, а второй осуществляет преобразование и умножение тока.
Корпус SM-ChiP снижает шум и улучшает тепловые характеристики
В не меньшей степени, чем топология и архитектура высокоэффективного стабилизатора, важна технология корпусирования. Внутри корпуса SM-ChiP, разработанного компанией Vicor, удалось интегрировать в одном устройстве пассивные и магнитные компоненты, полевые транзисторы и управляющую схему. Более того, этот корпус облегчает охлаждение, обеспечивая наиболее эффективный отвод тока при самом низком тепловом импедансе. Многие корпуса SM-ChiP оснащены также заземленным металлическим экраном для защиты значительной части поверхности устройства. Экран не только облегчает охлаждение, но и локализует высокочастотные паразитные токи, не допуская их распространения за пределы устройства.
Вертикальная подача электропитания снижает на 95% потери в подводящих проводниках
Практически невозможно осуществить горизонтальную подводку питания к кластерным процессорным массивам, если они велики. Лучшим решением для подачи электропитания процессору кластера является вертикальная топология VPD (см. рис. 2).
Рис. 2. Вертикальная подача электропитания с использованием расположенного под процессором токового умножителя тока с согласующим устройством (GTM) максимизирует КПД системы. При этом верхняя часть печатной платы высвобождается для, например, разводки цепей ввода/вывода данных, установки встроенной памяти или более высокой плотности размещения процессорных кластеров
При этом умножитель тока расположен непосредственно под процессором на противоположной стороне платы, что значительно снижает потери PDN-схемы за счет уменьшения расстояния, которое ток проходит через материнскую плату. Для реализации этой функции VPD-топология должна обладать двумя ключевыми особенностями.
Во-первых, на участке непосредственно под процессором должны находиться высокочастотные конденсаторы, подавляющие сверхвысокочастотные (>10 МГц) паразитные токи. Во-вторых, для максимальной эффективности физическое расположение VPD-решения и схема прохождения вытекающего тока должны быть точным зеркальным отражением местонахождения и схемы силовых выводов процессорного ядра. В таком случае обеспечивается корректное протекание большого тока в действительно вертикальной топологии. VPD-решение Vicor реализует эти функции в виде единого модуля, состоящего из трех уровней: массива токовых умножителей VTM с находящимся под ним согласующим устройством и установленного сверху PRM-регулятора. Такой блок (DCM) обеспечивает преобразование 48 В на входе в полностью стабилизированное напряжение на нагрузке для питания каждого отдельного процессора (см. рис. 3).
Рис. 3. DCM от компании Vicor – законченное VPD-решение с напряжением питания 48 В в усовершенствованном корпусе для ASIC-кластеров. Слои PRM, VTM и согласующий блок этого модуля обеспечивают регулировку, умножение тока, емкостную развязку и повыводное соответствие.
Согласующий блок выполняет две функции: содержит высокочастотные развязывающие конденсаторы и перераспределяет ток от VTM-модуля в соответствии со схемой выводов находящегося сверху процессора. Параметры массива VTM-модуля определяются требованиями к выходному току процессора, а параметры PRM-модуля – потребляемой мощностью. Если графическому процессору или ASIC необходимо несколько шин питания, реализуются уровни VTM и PRM с независимыми PRM- и VTM-модулями, параметры которых отвечают требованиям по току и напряжению питания каждой отдельной шины.
Архитектура FPA компании Vicor, система управления коммутацией при переходе напряжения/тока через ноль (ZVS/ZCS), топология высокочастотного умножителя тока SAC и технология корпусирования SM-ChiP обеспечивают все необходимое для построения совершенной VPD-топологии. Она решает проблему создания малошумящей кластерной системы подачи питания, упрощая механическую конструкцию охлаждения и управление тепловым режимом с помощью высокоэффективного и термически устойчивого блока электропитания. Решение VPD позволяет создавать высокопроизводительные системы искусственного интеллекта, обеспечивая высокую скорость обработки массивов данных в кластере, что дает возможность совершенствовать обучающие модели и машинное обучение, выводя их на значительно более высокий уровень.
Оптимальный метод обеспечения электропитания высокопроизводительных компьютеров
ИИ и машинное обучение пока находятся на ранних этапах своего развития, которое с годами наберет скорость. Для реализации достаточно сложных алгоритмов потребуется более быстрая обработка данных. Суперкомпьютерам на основе процессоров AI ASIC понадобится больше энергии, чем обеспечивают нынешние решения. Инновационные методы подачи электропитания – единственный способ реализовать те перспективы, которые сулят системы искусственного интеллекта. Потребуется согласованная работа в направлениях создания архитектур электропитания, топологий, систем управления и корпусов для обеспечения постоянно увеличивающихся токов. Вертикальная топология подачи электропитания с использованием токовых умножителей является наиболее предпочтительным решением. Она отвечает современным требованиям к высокопроизводительным вычислительным системам и может легко масштабироваться в соответствии с будущими потребностями. Компактные и эффективные решения на основе этой топологии позволяют сократить потери в PDN-сетях до 50%.
VA280