В 2019 г. состоялось несколько форумов, на которых заказчики смогли встретиться с инновационными компаниями, специализирующимися в области компьютерной техники. Среди этих мероприятий – конференция AI Hardware Summit и Supercomputing 2019 (SC19), а также мероприятия Open Compute Project (OCP) Global Summit и Open Data Center Committee (ODCC), посвященные проблемам ЦОД. На каждом из этих форумов были представлены перспективы решения ключевых задач, связанных с максимальным повышением скорости обработки данных и энергоэффективности для систем искусственного интеллекта (ИИ), суперкомпьютеров и ЦОД.
Системы искусственного интеллекта, которым требуется высокая вычислительная мощность для решения ресурсоемких задач, строятся на основе высокопроизводительных процессоров и больших ресурсов памяти с кластерной архитектурой, что уменьшает задержку при передаче сигналов между вычислительными блоками на платах.
В качестве примера инновационного решения для таких систем можно привести недавно анонсированный многоядерный 16-нм суперпроцессор WSE (Wafer Scale Engine) компании Cerebras – самый мощный на сегодняшний день процессор для систем ИИ. Это устройство, состоящее из 84 процессорных элементов на подложке и функционирующее как единый кристалл, позволяет значительно сократить задержку, обусловленную традиционным разделением архитектуры кристалла на сокеты.
Поскольку номинальная мощность процессора WSE равная 15 кВт на порядок превышает мощность существующих процессоров, ему требуется усовершенствованная архитектура питания, позволяющая равномерно распределять энергию по всем элементам при очень высоких токах. Для решения этой задачи компания Cerebras совместно с Vicor создала архитектуру, в которой вместо традиционных соединений, занимающих достаточно большую долю пространства на подложке, применяется архитектура VPD (Vertical Power Delivery), позволяющая уменьшить сопротивление схемы распределения питания (PDN) более чем на 50%. В результате повышается плотность размещения элементов и энергоэффективность системы. Благодаря архитектуре VPD увеличивается мощность, передаваемая в высокоплотных кластерных процессорных конфигурациях.
Актуальные методы охлаждения серверных стоек
Разумеется, спрос на повышение вычислительной мощности систем путем горизонтального масштабирования возник даже не вчера. Однако в области облачных ЦОД сложилось так, что использование стандартных процессоров помогло ограничить огибающую мощности для экономичного воздушного охлаждения серверных стоек. Во многом основное ограничение при изготовлении экономичных серверов обусловлено необходимостью ограничить потребляемую процессором мощность до управляемого порогового значения не выше 200 Вт. Однако с появлением систем ИИ появилась потребность в усовершенствованных методах жидкостного и даже иммерсионного охлаждения, применяемых не только в высокопроизводительных кластерах, но и в облачных ЦОД.
Спрос на повышение вычислительной мощности плат, возможно, наиболее заметно определился с появлением OAM (OCP Accelerator Module) – открытой спецификации для ускорителей вычислений, которая была разработана в сотрудничестве с инициаторами ее разработки – компаниями Intel и AMD при значительной поддержке других отраслевых лидеров, к которым относятся Facebook, Microsoft и Baidu. Спецификация OAM позволяет использовать новые ускорители в приложениях ИИ, упростив проектирование и внедрение проприетарного оборудования. Несколько поставщиков облачных вычислительных систем уже применяют OAM-модули класса ИИ в центрах обработки данных.
Появление OAM-модулей вызвало многочисленные дискуссии относительно идеи использовать специализированные стойки ИИ в ЦОД. Компания Facebook поделилась своими планами на этот счет. Многие производители уделяют самое пристальное внимание стойкам ИИ с иммерсионным охлаждением в облачных ЦОД, что еще два года тому назад было невозможно представить.
Плавный переход на 48-В стандарт
Еще одной немаловажной характеристикой OAM-модулей является то, что они поддерживают напряжение 12 и 48 В, т.е. отвечают не только требованиям 12-В систем в традиционной инфраструктуре ЦОД, но и нуждам перспективных 48-В систем. Ожидается, что большинство заказчиков OAM-модулей станет проектировать системы на 48 В, чтобы повысить напряжение питания с уровня 12 В.
Отчасти переход на 48-В серверы и использование стандарта для инфраструктуры распределенного питания, ранее представленного организацией OCP, произошел благодаря Google. По сравнению с 12-В архитектурой, архитектура 48-В шин позволяет системным разработчикам создавать решения, обеспечивающие более высокую эффективность преобразования, увеличить удельную мощность и снизить потери в сетях подвода питания. Поскольку 48-В серверная инфраструктура ЦОД позволяет уменьшить на макроуровне потери энергии более чем на 30%, легко понять, почему провайдеры облачных центров обработки данных все чаще переходят с 12-В на 48-В стандарт.
Тем временем поставщики облачных услуг, использующие 12-В инфраструктуру, имеют возможность задействовать неизолированные повышающие преобразователи на 12 В/48 В при пиковом КПД равном 98%. Провайдеры могут воспользоваться преимуществами плат ИИ следующего поколения, перейдя на 48-В сети распределения питания. Благодаря недавно выпущенным двунаправленным преобразователям 48 В/12 В у провайдеров облачных ЦОД появилась еще одна возможность обеспечить поддержку обоих стандартов или одного из них по мере совершенствования инфраструктур.
Эти тенденции, как и многие другие, в ближайшее время станут самыми значимыми в сегментах ИИ, супервычислений и облачных ЦОД. Если прежде направления развития этих сегментов считались совершенно разными, то теперь очевидно, что у них намного больше общего в плане решений по обеспечению питания и охлаждения.
V277