Новая схема адресации памяти в IBM Power10 изменит взгляд на ИИ приложения
Ведущий инженер IBM, Билл Старк, задаёт вопрос: «А что, если существует новый вид рабочей нагрузки, и я хочу собрать гораздо больше памяти, чем когда-либо могло поместиться в одном устройстве? Это совершенно новое применение: что, если я хочу, чтобы один компьютер разговаривал с петабайтом памяти? Но сегодня никто не знает, как построить такую систему."
С концепцией под названием распределенная дисагрегация памяти, применённой в новейших процессорах IBM Power10, "вы действительно можете использовать огромные, огромные объемы памяти и позволить работать целым новым видам рабочих нагрузок на компьютерах, работающих в едином облаке."
В новых процессорах IBM Power 10 компания переосмыслила подход к работе с оперативной памятью, и теперь например одно процессорное ядро одного сервера может адресовать физическую память, установленную в другом сервере, находящимся в том же кластере. Это достигается за счёт особенностей архитектуры, где несколько ядер, совместно использующих общее адресное пространство памяти, могут быть объединены для параллельного выполнения общих задач, которые потребовали бы асинхронных ускорителей, таких как графические процессоры, ASICs и ПЛИС, чтобы использовать гораздо больше потоков, а также отдельную схему оркестрации.
Сегодня GPU-акселераторы привязаны каждый к своему серверу. Они выполняют высоко рекурсивные алгоритмические задачи гораздо быстрее, чем обычный процессор, потоки параллелизма которого ограничены количеством доступных ядер. Хотя IBM приложила руку к разработке технологии ускорителей, в последнее время поддерживая архитектуру OpenCAPI для интерфейсов ускорителей, она не имеет таких же долей на этом рынке, как Intel (после покупки Altera в 2015 году), Nvidia или Xilinx.
С новым подходом к архитектуре памяти, многие типы ресурсоёмких вычислений не потребуют использования асинхронных ускорителей, в том числе GPU. AI-блок будет работать по классической SMP-схеме, более дружественной для программистов, чем разработка под GPU или ASIC. Различные AI-задачи смогут быть интегрированы в общий поток программного кода, что в свою очередь не помешает какие-либо масштабные задачи для обработки ИИ выносить на отдельные ускорители (GPU или ASIC). Это позволит обратно вернуть AI-задачи в последовательный, синхронизированный, симметричный рабочий поток на CPU.
IBM намерена в полной мере использовать свое подразделение Red Hat, сделав OpenShift, свою коммерческую платформу Kubernetes, механизмом развертывания рабочей нагрузки. Это означает, что кластер Power10 сможет организовать сильно распараллеленные рабочие нагрузки — возможно, не очень распараллеленные, хотя всё ещё несколько сложные — в единую группу задач, управляемых через Kubernetes, а не через какой-то внешний движок.
Рон Амадео
25/08.2020