Intel Xeon Phi Coprocessor 7120P относится к редкой категории вычислительных устройств, которые нельзя корректно оценивать по правилам обычных настольных процессоров или игровых видеокарт. Модель устанавливается в сервер либо профессиональную рабочую станцию как полноразмерная плата PCI Express и используется для ускорения параллельных расчётов. Она не заменяет центральный процессор, не устанавливается в процессорный разъём и не выводит изображение на монитор.

В основе Intel Xeon Phi 7120P лежит архитектура Knights Corner. На одной плате размещены 61 вычислительное ядро, 244 аппаратных потока, 30,5 МБ суммарного кэша L2 и 16 ГБ памяти GDDR5 с коррекцией ошибок ECC. Память работает через 16 каналов и обеспечивает пропускную способность до 352 ГБ/с. Базовая частота составляет 1,238 ГГц, а штатный Turbo Boost поднимает её до 1,333 ГГц. Пиковая производительность в вычислениях двойной точности достигает 1,208 TFLOPS.

Модель вышла во втором квартале 2013 года и стала одной из наиболее производительных плат первого поколения Intel Xeon Phi x100. Сейчас её практическая ценность определяется не сравнением с современными ускорителями, а конкретным сценарием эксплуатации. Она остаётся интересной для восстановления старых HPC-узлов, запуска программного окружения Intel MIC, изучения многопоточной оптимизации и сборки лабораторных стендов на вторичном рынке.

Intel Xeon Phi 7120P: что это за ускоритель и для каких задач он создан

Intel Xeon Phi 7120P представляет собой пассивно охлаждаемый вычислительный сопроцессор формата PCI Express. Полное наименование устройства — Intel Xeon Phi Coprocessor 7120P. В документации Intel встречаются обозначения 7120P, SC7120P и SC7120PEB. Модель входит в семейство Intel Xeon Phi x100 с кодовым названием Knights Corner.

Слово сопроцессор здесь имеет принципиальное значение. Операционная система сервера запускается на обычных хостовых процессорах Intel Xeon. Плата Xeon Phi подключается к серверу по PCI Express и получает подготовленные вычислительные задачи. В зависимости от режима работы программа переносит на ускоритель отдельные фрагменты расчёта либо запускает собранный для Intel MIC исполняемый файл непосредственно во встроенной Linux-среде платы.

Основная область применения Intel Xeon Phi 7120P — высокопроизводительные вычисления:

  • решение систем линейных уравнений;

  • плотная линейная алгебра;

  • инженерное моделирование;

  • расчёты вычислительной гидродинамики;

  • метеорологические модели;

  • обработка научных данных;

  • математическая оптимизация;

  • физические симуляции;

  • параллельные алгоритмы с большим количеством однотипных операций;

  • учебные стенды для изучения многопоточности и векторизации.

Устройство создавалось для задач, которые хорошо масштабируются на десятки вычислительных ядер и используют широкие 512-битные векторные блоки. Простое увеличение количества потоков не гарантирует высокую скорость. Код должен равномерно загружать ядра, рационально обращаться к памяти и выполнять достаточно большой объём векторных операций.

Intel Xeon Phi 7120P заметно отличается от привычных серверных процессоров Xeon.

Характеристика Intel Xeon Phi 7120P Обычный серверный Intel Xeon
Тип устройства Вычислительный PCIe-сопроцессор Центральный процессор
Способ установки Полноразмерный слот PCI Express Процессорный разъём материнской платы
Роль в системе Ускорение подготовленных параллельных расчётов Запуск ОС, приложений и системных служб
Количество вычислительных ядер 61 Зависит от конкретной модели
Аппаратные потоки 244 Зависит от конкретной модели
Собственная память 16 ГБ GDDR5 ECC Использует оперативную память сервера
Вывод изображения Отсутствует Отсутствует без отдельного графического устройства
Основной сценарий HPC, научные и инженерные вычисления Универсальные серверные нагрузки

От GPU-ускорителей того же периода Xeon Phi 7120P отличается моделью программирования. NVIDIA Tesla K40 и Tesla K80 ориентировались на CUDA, а Intel продвигала архитектуру MIC как среду для переноса существующего кода на C, C++ и Fortran с использованием знакомых компиляторов, библиотек и инструментов анализа. При этом исходный код всё равно требовал адаптации. Скалярные фрагменты выполнялись на совместимых с x86 ядрах, но максимальная скорость достигалась только после подготовки алгоритма к 512-битной векторизации Intel IMCI.

В карточке Intel ARK модель отмечена как снятая с производства. Поставки прекращены, срок обслуживания завершён. Это ограничивает применение платы в новых промышленных проектах, но не делает её бесполезной для лабораторных задач и поддержки старых вычислительных комплексов.

Где купить Intel Xeon Phi 7120P: цены и наличие

Intel Xeon Phi 7120P давно не поставляется как актуальное серверное оборудование. Российские магазины массовой электроники не держат эту модель на складе. В продаже встречаются бывшие в эксплуатации платы, складские остатки и OEM-версии для серверов HP.

На момент проверки прямые карточки Intel Xeon Phi 7120P отсутствовали на AliExpress, в Ситилинке и на Яндекс Маркете. В таблице оставлены кликабельные страницы поиска по точному наименованию модели. Они позволяют быстро проверить появление новых предложений.

Intel Xeon Phi 7120P не использовался в ноутбуках. Это полноразмерный серверный ускоритель с тепловым пакетом 300 Вт, отдельными силовыми разъёмами и пассивным радиатором. Готовые игровые компьютеры с такой платой также не выпускались. Исторические серверные конфигурации существовали у Dell, Lenovo и других производителей корпоративного оборудования.

На вторичном рынке предложения встречаются заметно чаще.

Площадка Состояние Цена на момент проверки
eBay Бывшая в эксплуатации плата 64,99 доллара
eBay Открытая упаковка 199,95 доллара
Notebookparts Новая OEM-плата 499,95 доллара
Newegg OEM-плата 619,99 доллара

Разница в цене объясняется состоянием, происхождением и комплектацией. Недорогая плата с разборки сервера часто продаётся без документации, кабелей питания и проверочного отчёта. Перед покупкой необходимо убедиться в наличии исправного пассивного радиатора, крепёжной планки и двух силовых разъёмов. Для запуска требуется сервер или рабочая станция с подходящим слотом PCI Express, отдельной видеокартой для вывода изображения и мощным направленным воздушным потоком.

Модель не стоит покупать только из-за низкой цены. Сам ускоритель может стоить дешевле современного настольного процессора, но полноценный стенд требует совместимой платформы, правильного охлаждения и старого программного окружения Intel MIC.

Полные характеристики Intel Xeon Phi Coprocessor 7120P

Intel Xeon Phi 7120P сочетает параметры серверного ускорителя и самостоятельного вычислительного узла. Внутри карты размещены многоядерный кристалл Knights Corner, собственная память GDDR5 ECC, контроллер управления, флеш-память для загрузки встроенной среды и подсистема питания.

Сводная мегатаблица характеристик

Раздел Параметр Значение
Идентификация Производитель Intel
Идентификация Полное название Intel Xeon Phi Coprocessor 7120P
Идентификация Номер модели 7120P
Идентификация Обозначение розничной платы SC7120P
Идентификация Код заказа SC7120PEB
Идентификация Семейство Intel Xeon Phi x100
Идентификация Архитектура Knights Corner
Идентификация Тип устройства Вычислительный сопроцессор PCI Express
Идентификация Целевой сегмент Серверы и HPC-системы
Жизненный цикл Период выхода Второй квартал 2013 года
Жизненный цикл Состояние продукта Снят с производства
Жизненный цикл Поставки Прекращены
Жизненный цикл Обслуживание Завершено
Производство Технологический процесс 22 нм
Вычислительный блок Количество ядер 61
Вычислительный блок Аппаратные потоки на ядро 4
Вычислительный блок Общее количество аппаратных потоков 244
Вычислительный блок Организация исполнения Многоядерная архитектура с ядрами последовательного исполнения команд и двухкомандной выдачей
Частоты Базовая частота 1,238 ГГц
Частоты Максимальная частота Turbo Boost 1,333 ГГц
Частоты Intel Turbo Boost Версия 1.0
Кэш Кэш L2 на ядро 512 КБ
Кэш Суммарный кэш L2 30,5 МБ
Кэш Связь кэшей L2 Кольцевая внутренняя шина
Векторные вычисления Набор расширений Intel IMCI
Векторные вычисления Ширина SIMD-блока 512 бит
Векторные вычисления Элементы FP32 в одном векторе 16
Векторные вычисления Элементы FP64 в одном векторе 8
Векторные вычисления Пиковая производительность FP32 Около 2,416 TFLOPS
Векторные вычисления Пиковая производительность FP64 Около 1,208 TFLOPS
Память Тип памяти GDDR5
Память Объём памяти 16 ГБ
Память Коррекция ошибок ECC
Память Количество каналов 16
Память Максимальная пропускная способность 352 ГБ/с
Интерфейс Подключение к хосту PCI Express 2.0 x16
Интерфейс Управляющий канал Поддержка SMBus
Форм-фактор Исполнение Полноразмерная серверная плата расширения
Форм-фактор Высота Full Height
Форм-фактор Длина Full Length
Форм-фактор Толщина Двухслотовое исполнение
Форм-фактор Длина платы с крепёжной планкой 247,9 мм
Форм-фактор Высота компонентов с основной стороны 34,8 мм
Форм-фактор Высота компонентов с обратной стороны 2,67 мм
Форм-фактор Масса пассивно охлаждаемой платы Около 1200 г
Охлаждение Тип охлаждения Пассивный радиатор
Охлаждение Встроенный вентилятор Отсутствует
Охлаждение Требования к корпусу Направленный серверный воздушный поток
Охлаждение Требуемый поток при температуре входящего воздуха 45 °C 33 CFM
Охлаждение Падение давления при 45 °C 0,54 дюйма водяного столба
Питание Тепловой пакет 300 Вт
Питание Мощность через слот PCI Express До 75 Вт
Питание Дополнительный разъём PCIe 8-контактный, до 150 Вт
Питание Дополнительный разъём PCIe 6-контактный, до 75 Вт
Питание Общая расчётная подводимая мощность До 300 Вт
Управление Встроенный контроллер SMC
Управление Мониторинг Температура, питание, состояние платы
Управление Защитные механизмы Температурное ограничение частоты, контроль мощности, восстановление после ошибок
Программная среда Встроенная среда Linux-based uOS
Программная среда Основной пакет управления Intel MPSS
Программная среда Режим вычислений Offload mode
Программная среда Режим вычислений Native mode
Программная среда Передача данных между хостом и платой Через PCI Express
Программная среда Средства взаимодействия SCIF и инструменты Intel MPSS
Программная среда Поддерживаемые языки в исходном коде C, C++, Fortran
Программная среда Библиотеки Intel MKL, Intel MPI и сопутствующие инструменты Intel
Графические функции Вывод изображения Отсутствует
Графические функции Видеовыходы Отсутствуют
Графические функции Игровой драйвер Не предусмотрен
Экспортные данные ECCN 3A991
Экспортные данные Код HTS США 8471500150
Встраиваемые системы Embedded Options Available Нет

Основные паспортные параметры собраны в Intel ARK, карточке заказа Intel и документации Intel Xeon Phi.

Теоретическая производительность

Пиковая скорость Intel Xeon Phi 7120P в операциях двойной точности рассчитывается по формуле:

61 ядро × 1,238 ГГц × 16 операций FP64 за такт = 1,208 TFLOPS

Для одинарной точности расчёт выглядит так:

61 ядро × 1,238 ГГц × 32 операции FP32 за такт = 2,416 TFLOPS

Значения 1,2 TFLOPS FP64 и 2,4 TFLOPS FP32 часто округляются в спецификациях и каталогах. Эти цифры отражают верхний предел вычислительного блока. Реальная скорость зависит от структуры алгоритма, качества векторизации, объёма обмена с памятью и распределения потоков.

Архитектура Knights Corner: как устроен 61-ядерный сопроцессор

Knights Corner стал первым массовым поколением Intel Xeon Phi. Intel использовала многоядерную архитектуру MIC — Many Integrated Core. Подход отличался от традиционного CPU и от GPU. На кристалле размещалось большое количество сравнительно компактных вычислительных ядер, каждое из которых получило собственный кэш и широкий векторный блок.

У Intel Xeon Phi 7120P активен 61 вычислительный модуль. Каждое ядро обрабатывает четыре аппаратных потока. Вся плата одновременно поддерживает до 244 потоков. Такое количество потоков нужно не для запуска множества независимых тяжёлых программ, а для заполнения исполнительных блоков и скрытия задержек доступа к данным.

Ядра построены по принципу последовательного исполнения команд. Они проще современных высокопроизводительных ядер Xeon и слабее в однопоточном режиме. Сильная сторона Knights Corner раскрывается в другом: десятки ядер одновременно обрабатывают большие массивы данных при помощи 512-битных SIMD-блоков.

Что даёт 512-битный SIMD-блок

Один 512-битный вектор вмещает:

Тип данных Размер одного элемента Количество элементов в одном векторе
FP32 32 бита 16
FP64 64 бита 8
Целое число 32 бита 32 бита 16
Целое число 64 бита 64 бита 8

Векторный блок выполняет одну операцию сразу над несколькими числами. Для плотной линейной алгебры, численного моделирования и обработки массивов это даёт значительный прирост. При использовании операций умножения со сложением одно ядро обрабатывает до 16 операций FP64 за такт либо до 32 операций FP32 за такт.

Широкая векторизация одновременно становится главным ограничением архитектуры. Код с короткими циклами, непредсказуемыми переходами, хаотичным доступом к памяти и плохо выровненными данными не загружает вычислительные блоки полностью. В таком сценарии 61 ядро не превращается в высокую прикладную скорость.

Кэш и кольцевая шина

Каждое ядро получает 512 КБ кэша L2. Суммарный объём составляет 30,5 МБ. Кэши связаны кольцевой внутренней шиной. Она соединяет вычислительные ядра, контроллеры памяти и интерфейсные блоки.

Такая организация решает несколько задач:

  • уменьшает количество обращений к памяти GDDR5;

  • позволяет ядрам обмениваться данными;

  • поддерживает согласованность кэшей;

  • распределяет обращения между контроллерами памяти;

  • помогает масштабировать архитектуру на десятки ядер.

Для высокой скорости данные должны повторно использоваться в локальном кэше. Постоянный перенос небольших фрагментов между хостовой оперативной памятью и ускорителем снижает эффективность. Intel Xeon Phi 7120P лучше работает с крупными задачами, где подготовленный массив помещается в 16 ГБ локальной памяти и обрабатывается продолжительное время.

Почему четыре потока на ядро имеют значение

Ядро Knights Corner рассчитано на параллельную подачу работы. Один поток не заполняет его полностью. Для стабильной загрузки Intel рекомендовала использовать несколько аппаратных потоков на ядро. В типичных вычислительных сценариях применяются три или четыре потока.

При полной загрузке карта обрабатывает 244 потока:

61 ядро × 4 потока = 244 аппаратных потока

Это не означает, что любая программа ускоряется в 244 раза. Итоговый прирост ограничивается последовательными участками кода, обменом данными, пропускной способностью памяти и накладными расходами управления.

Память GDDR5 ECC и пропускная способность 352 ГБ/с

Intel Xeon Phi 7120P оснащён 16 ГБ памяти GDDR5. Для своего периода такой объём был существенным преимуществом. Многие конкурирующие ускорители предлагали меньший локальный объём, из-за чего крупные массивы приходилось делить на части.

Память работает через 16 каналов. Максимальная пропускная способность достигает 352 ГБ/с. Микросхемы размещены с обеих сторон печатной платы. По конструкции каждый канал объединяет два 16-битных устройства в 32-битный путь передачи данных.

Характеристики подсистемы памяти

Параметр Значение
Тип памяти GDDR5
Объём 16 ГБ
Количество каналов 16
Максимальная пропускная способность 352 ГБ/с
Коррекция ошибок ECC Поддерживается
Размещение микросхем С обеих сторон платы
Максимальное количество микросхем памяти 32

ECC имеет особое значение для длительных научных расчётов. Ошибка в памяти способна испортить промежуточные данные и сделать многочасовой расчёт недостоверным. Коррекция ошибок снижает риск незаметного повреждения данных.

Пропускная способность 352 ГБ/с выглядит высокой даже по меркам серверного оборудования своего поколения. Однако сама по себе она не гарантирует высокой скорости. Алгоритм должен формировать последовательные обращения к памяти, повторно использовать данные и не создавать лишние пересылки между сервером и платой.

Когда локальная память становится преимуществом

16 ГБ GDDR5 ECC особенно полезны в задачах, где:

  • массивы помещаются в локальную память ускорителя;

  • данные многократно обрабатываются после одной загрузки;

  • вычислений на один переданный байт достаточно много;

  • циклы хорошо векторизуются;

  • нагрузка равномерно распределяется по ядрам.

Когда память становится ограничением

Даже высокая пропускная способность не спасает алгоритмы с:

  • хаотичным доступом к небольшим фрагментам массива;

  • частыми пересылками между хостом и ускорителем;

  • большим количеством ветвлений;

  • недостаточным повторным использованием данных;

  • объёмом рабочих массивов существенно больше 16 ГБ;

  • последовательными участками, которые не распределяются между ядрами.

Поэтому Intel Xeon Phi 7120P нельзя оценивать только по количеству ядер и объёму памяти. В HPC важна вся цепочка: структура данных, организация циклов, модель обмена и качество компиляции.

Форм-фактор, питание и пассивное охлаждение

Intel Xeon Phi 7120P предназначен для серверного корпуса с организованным воздушным потоком. Это полноразмерная двухслотовая плата PCI Express с массивным пассивным радиатором. Встроенного вентилятора у версии 7120P нет.

Модель легко спутать с Intel Xeon Phi 7120A. Версия 7120A оснащена активным охлаждением и подходит для корпусов, где нет мощного направленного потока через радиатор. Версия 7120P рассчитана на серверные вентиляторы корпуса.

Размеры платы

Параметр Значение
Длина с крепёжной планкой 247,9 мм
Толщина Два слота расширения
Максимальная высота компонентов с основной стороны 34,8 мм
Максимальная высота компонентов с обратной стороны 2,67 мм
Масса платы Около 1200 г
Исполнение Full Height, Full Length
Охлаждение Пассивное

Для установки требуется не только свободный слот PCI Express x16, но и свободное пространство рядом. Радиатор занимает два слота. Корпус должен выдерживать массу платы и обеспечивать равномерный продув от передней части к задней.

Питание

Тепловой пакет Intel Xeon Phi 7120P составляет 300 Вт. Питание распределяется между слотом и двумя отдельными кабелями.

Источник питания Максимальная мощность
Слот PCI Express 75 Вт
8-контактный разъём PCIe 150 Вт
6-контактный разъём PCIe 75 Вт
Общая расчётная мощность 300 Вт

Для запуска платы необходимы оба дополнительных разъёма: 8-контактный и 6-контактный. Использование случайных переходников в старом блоке питания создаёт лишний риск. Серверная платформа должна иметь штатные силовые линии и достаточный запас мощности.

Система с двумя Xeon Phi 7120P получает до 600 Вт нагрузки только от ускорителей. С четырьмя платами расчётная мощность ускорителей достигает 1200 Вт. К этому добавляется потребление двух центральных процессоров, памяти, накопителей, сетевых контроллеров и вентиляторов.

Требования к воздушному потоку

Пассивный радиатор не охлаждает карту самостоятельно. Он передаёт тепло потоку воздуха, который создают вентиляторы сервера.

Для 300-ваттной Intel Xeon Phi 7120P при температуре входящего воздуха 45 °C требуется поток 33 CFM. Падение давления составляет 0,54 дюйма водяного столба.

Температура входящего воздуха Требуемый суммарный поток Поток по основной стороне Поток по обратной стороне
20 °C 14,4 CFM 10,5 CFM 3,9 CFM
25 °C 16,0 CFM 12,0 CFM 4,0 CFM
29 °C 17,6 CFM 13,4 CFM 4,1 CFM
45 °C 33,0 CFM 25,8 CFM 7,2 CFM

Обычный домашний корпус с одним медленным вентилятором не подходит. Даже открытый стенд не решает задачу автоматически: без направленного потока воздух обходит плотный радиатор, а температура компонентов быстро растёт.

При перегреве контроллер снижает частоту. Защитные механизмы предотвращают повреждение платы, но производительность падает. Для стабильной работы требуется серверный корпус либо тщательно собранный воздушный канал.

Режимы работы, MPSS и программная среда

Intel Xeon Phi 7120P не превращается в универсальный ускоритель сразу после установки в слот. Для работы требуется программный стек Intel MPSS — Manycore Platform Software Stack. Он содержит драйверы, средства управления, службы и инструменты взаимодействия с платой.

Сопроцессор загружает встроенную Linux-среду. Через хостовую систему доступно управление запуском, диагностикой, состоянием и пользовательскими настройками. В описании Puget Systems карта представлена как дополнительный вычислительный узел во внутренней сети через PCI Express.

Основные элементы программной среды

Компонент Назначение
Intel MPSS Драйверы, службы и средства управления Xeon Phi
Linux-based uOS Встроенная среда на сопроцессоре
SCIF Средства обмена между хостом и Xeon Phi
Intel C++ Composer XE Компиляция и оптимизация кода
Intel Fortran Compiler Работа с научными программами на Fortran
Intel MKL Оптимизированные математические библиотеки
Intel MPI Распределённые расчёты между процессорами и ускорителями
Intel VTune Анализ производительности
micctrl Управление состоянием сопроцессора
micsmc Мониторинг и диагностика
micras Сбор сведений о надёжности и ошибках

Offload mode

В режиме offload основная программа запускается на хостовом процессоре. Вычислительно тяжёлые участки передаются на Intel Xeon Phi 7120P. Хост сохраняет контроль над приложением, а ускоритель выполняет выделенные фрагменты.

Схема работы выглядит так:

  1. Программа запускается на серверных процессорах Xeon.

  2. Подготавливаются массивы данных.

  3. Данные передаются в локальную память Xeon Phi через PCI Express.

  4. Ускоритель выполняет параллельный расчёт.

  5. Результат возвращается хосту.

  6. Центральные процессоры продолжают обработку.

Offload mode удобен для модернизации существующих приложений. При этом частые передачи небольших блоков снижают скорость. Наиболее эффективны крупные вычислительные участки, которые выполняют много операций после одной загрузки данных.

Native mode

В режиме native исполняемый файл собирается для архитектуры Intel MIC и запускается непосредственно во встроенной среде Xeon Phi. Карта обрабатывает задачу как отдельный вычислительный узел.

Этот режим подходит для программ, которые:

  • полностью помещаются в локальную память;

  • используют MPI или OpenMP;

  • не требуют постоянного обмена с хостом;

  • хорошо масштабируются на 244 потока;

  • подготовлены под Intel IMCI.

Native mode не превращает Xeon Phi 7120P в обычный настольный компьютер. Встроенная среда предназначена для вычислительных процессов, а не для пользовательского рабочего стола.

Symmetric mode и MPI

В распределённых системах хостовые процессоры и сопроцессоры работают как отдельные узлы MPI. Такой подход позволяет задействовать вычислительные ресурсы сервера и ускорителей одновременно. Он требует аккуратного распределения данных и правильной балансировки нагрузки.

Важные ограничения программного окружения

Intel Xeon Phi x100 относится к завершённой платформе. MPSS, старые версии компиляторов и библиотеки привязаны к программной экосистеме своего периода. Современная установка требует архивных пакетов и совместимой операционной системы.

Для лабораторного стенда удобнее использовать отдельный сервер, не связанный с основной инфраструктурой. Это упрощает сохранение старой ОС и исключает конфликт с актуальными драйверами.

Бенчмарки Intel Xeon Phi 7120P: результаты тестов в таблицах

Результаты Intel Xeon Phi 7120P сильно различаются в зависимости от характера нагрузки. Ни один тест не описывает карту полностью. Плотная линейная алгебра хорошо показывает верхний уровень эффективности, а плохо подготовленный код раскрывает архитектурные ограничения.

Тест Dell PowerEdge C4130 в HPL

Dell протестировала Intel Xeon Phi 7120P в сервере PowerEdge C4130. Для сравнения использовались три конфигурации:

  • сервер без ускорителей;

  • сервер с двумя Intel Xeon Phi 7120P;

  • сервер с четырьмя Intel Xeon Phi 7120P.

HPL — High Performance Linpack — измеряет скорость решения плотной системы линейных уравнений. Этот тест хорошо подходит для оценки FP64-производительности в научных вычислениях, но не отражает скорость всех возможных приложений.

Конфигурация тестового сервера Dell

Компонент CPU-only Configuration D Configuration C
Сервер Dell PowerEdge C4130 Dell PowerEdge C4130 Dell PowerEdge C4130
Хостовые процессоры 2 × Xeon E5-2690 v3 2 × Xeon E5-2690 v3 2 × Xeon E5-2690 v3
Ядра хостовых CPU 24 24 24
Частота хостовых CPU 2,6 ГГц 2,6 ГГц 2,6 ГГц
Оперативная память 128 ГБ DDR4-2133 128 ГБ DDR4-2133 128 ГБ DDR4-2133
Xeon Phi 7120P 0 2 4
Память ускорителей 32 ГБ суммарно 64 ГБ суммарно
Вычислительные ядра Xeon Phi 122 244
Аппаратные потоки Xeon Phi 488 976
Блоки питания 2 × 1600 Вт 2 × 1600 Вт 2 × 1600 Вт
ОС RHEL 6.5 RHEL 6.5 RHEL 6.5
MPSS 3.4 3.4
Intel MPI 5.0.1 5.0.1 5.0.1
Intel MKL 11.2 11.2 11.2
Режим Xeon Phi Offload Offload
ECC Включено Включено
Turbo Boost ускорителей Отключён Отключён

Dell отключила Turbo Boost ускорителей для получения сопоставимых результатов. Поэтому тест показывает стабильную производительность на базовой частоте, а не кратковременный максимум.

Результаты HPL

Конфигурация Количество Xeon Phi 7120P Производительность относительно CPU-only Эффективность вычислительного пика Производительность на ватт
CPU-only 0 1,0× 91,6% 1,56 GFLOPS/Вт
Configuration D 2 3,3× 81,2% 2,34 GFLOPS/Вт
Configuration C 4 5,3× 75,6% 2,44 GFLOPS/Вт

Добавление двух Intel Xeon Phi 7120P увеличило скорость HPL в 3,3 раза. Четыре платы дали прирост в 5,3 раза. Масштабирование не линейное, но результат остаётся значительным.

Энергопотребление в тесте Dell

Конфигурация Количество Xeon Phi 7120P Потребление относительно CPU-only Ориентировочное потребление системы
CPU-only 0 1,0× 520 Вт
Configuration D 2 2,1× Около 1092 Вт
Configuration C 4 3,3× Около 1716 Вт

Энергопотребление растёт заметно, но производительность на ватт тоже улучшается:

Конфигурация Производительность на ватт Прирост эффективности относительно CPU-only
CPU-only 1,56 GFLOPS/Вт 1,00×
2 × Xeon Phi 7120P 2,34 GFLOPS/Вт 1,50×
4 × Xeon Phi 7120P 2,44 GFLOPS/Вт 1,56×

Практический вывод Dell состоит не только в росте абсолютной скорости. Правильно подобранная конфигурация повышает отдачу от каждого ватта даже при существенном увеличении общего потребления.

Подробные графики и условия испытаний приведены в отчёте Dell по PowerEdge C4130 и Intel Xeon Phi.

Моделирование мелкой воды на Intel Xeon Phi 7120P

В исследовании масштабирования решателя уравнений мелкой воды одна карта Intel Xeon Phi 7120P сравнивалась с двухсокетным сервером на Xeon E5-2697 v2.

Конфигурация Результат относительно двух Xeon E5-2697 v2
2 × Xeon E5-2697 v2 1,0×
1 × Xeon Phi 7120P 1,6×
Два узла, по 4 × Xeon Phi 7120P в каждом 5,8×

Авторы получили около 90% эффективности параллельного масштабирования до восьми ускорителей в двух вычислительных узлах. Этот результат особенно показателен: Intel Xeon Phi 7120P хорошо справляется с подготовленным численным кодом, где вычисления распределяются равномерно, а алгоритм рационально использует широкие векторные блоки.

Аэродинамическая оптимизация: Xeon Phi 7120 и NVIDIA Tesla K80

В исследовании панельных методов для аэродинамических расчётов сопроцессор Xeon Phi 7120 сравнивался с NVIDIA Tesla K80.

Конфигурация Ускорение относительно двухсокетной рабочей станции
Двухсокетная рабочая станция без ускорителя 1,0×
Intel Xeon Phi 7120 Около 2,5×
NVIDIA Tesla K80 От 3,4× до 3,8×

Xeon Phi заметно ускорил расчёт, но Tesla K80 оказалась быстрее. Сравнение демонстрирует реальную рыночную ситуацию того периода: Intel Xeon Phi обеспечивал удобный путь для переноса CPU-кода, а GPU часто давал более высокий результат после специализированной оптимизации.

QCD: пример плохо подготовленного кода

Особенно полезен отрицательный пример. В работе по вычислениям lattice QCD тестировался алгоритм сопряжённых градиентов. Реализация для Intel Xeon Phi 7120P не использовала архитектуру полностью.

Устройство и реализация Производительность Относительный результат
Intel Xeon Phi 7120P 6,14 GFLOPS 1,00×
NVIDIA GTX Titan Black, CUDA 46,48 GFLOPS 7,57×
NVIDIA GTX Titan Black, QUDA 97,86 GFLOPS 15,94×

Авторы связывают слабый результат Xeon Phi с неполной 512-битной векторизацией и неудачным распределением данных. Эта таблица важнее рекламных цифр. Она показывает, что 61 ядро и 1,208 TFLOPS FP64 не превращают неподготовленную программу в быстрый вычислительный код.

Свёрточная нейронная сеть на самой карте

В работе по обучению свёрточной нейронной сети на Intel Xeon Phi 7120P исследователи сравнили многопоточную и однопоточную обработку на одном ускорителе.

Режим работы Intel Xeon Phi 7120P Количество потоков Скорость относительно одного потока
Однопоточный режим 1 1,0×
Полная загрузка карты 244 103,5×

Результат получен при обучении крупной сети на наборе MNIST в течение 15 эпох. Он не сравнивает Xeon Phi с современными GPU и не доказывает универсальное преимущество архитектуры. Таблица показывает внутреннее масштабирование конкретного алгоритма на 244 потока.

QPhiX и использование пропускной способности памяти

В работе QPhiX оптимизированное ядро Dslash на Intel Xeon Phi 7120P достигло 80% теоретической пропускной способности памяти.

Показатель Результат
Теоретическая пропускная способность памяти 352 ГБ/с
Достигнутая доля теоретического максимума 80%
Ориентировочная эффективная пропускная способность Около 282 ГБ/с

Этот пример показывает, что Knights Corner раскрывается после серьёзной оптимизации размещения данных, циклов и потоков.

Сводная таблица опубликованных результатов

Нагрузка Конфигурация Результат Что показывает тест
HPL Dell PowerEdge C4130, 2 × Xeon Phi 7120P 3,3× относительно CPU-only Хорошая эффективность в плотной линейной алгебре
HPL Dell PowerEdge C4130, 4 × Xeon Phi 7120P 5,3× относительно CPU-only Масштабирование в сервере с четырьмя ускорителями
Решатель уравнений мелкой воды 1 × Xeon Phi 7120P 1,6× относительно 2 × Xeon E5-2697 v2 Преимущество в подготовленном численном коде
Решатель уравнений мелкой воды 8 × Xeon Phi 7120P в двух узлах 5,8× относительно CPU-системы Масштабирование нескольких ускорителей
Аэродинамическая оптимизация Xeon Phi 7120 Около 2,5× Реальный прирост в инженерной задаче
Аэродинамическая оптимизация Tesla K80 3,4–3,8× GPU быстрее Xeon Phi в этой реализации
Lattice QCD Xeon Phi 7120P без полной адаптации 6,14 GFLOPS Сильное падение скорости при слабой векторизации
Свёрточная сеть 244 потока на одной 7120P 103,5× относительно одного потока Высокое внутреннее масштабирование
QPhiX Dslash Оптимизированная реализация 80% теоретической полосы памяти Высокая эффективность после глубокой оптимизации

Почему производительность Xeon Phi 7120P зависит от оптимизации

Intel Xeon Phi 7120P нельзя рассматривать как устройство для автоматического ускорения любой программы. Его архитектура требует дисциплинированной разработки. Слабая реализация иногда работает медленнее GPU и даже медленнее мощного двухсокетного CPU-сервера.

Векторизация важнее количества потоков

61 ядро создаёт большой вычислительный ресурс, но максимальная скорость достигается через 512-битные SIMD-блоки. Без них ядра выполняют недостаточно операций за такт.

Разница между двумя реализациями одного алгоритма бывает огромной:

Состояние кода Типичный результат
Циклы подготовлены для 512-битных векторов Высокая загрузка SIMD-блоков
Данные выровнены и читаются последовательно Эффективное использование GDDR5
Потоки распределены равномерно Хорошая загрузка 61 ядра
Преобладают ветвления Часть исполнительных блоков простаивает
Доступ к памяти хаотичный Пропускная способность используется плохо
Данные постоянно пересылаются через PCIe Накладные расходы снижают эффект ускорения
Работает один поток на ядро Задержки скрываются хуже
Код собран без адаптации под Intel IMCI Теоретический потенциал остаётся неиспользованным

Обмен через PCI Express

PCI Express 2.0 x16 обеспечивает связь между сервером и ускорителем. Локальная память карты работает заметно быстрее канала обмена с хостом. Поэтому передача данных должна происходить крупными блоками и как можно реже.

Плохая схема:

  1. Передать небольшой массив.

  2. Выполнить короткую операцию.

  3. Вернуть результат.

  4. Повторить тысячи раз.

Рациональная схема:

  1. Передать крупный массив.

  2. Выполнить продолжительную серию операций на Xeon Phi.

  3. Сохранить промежуточные данные в GDDR5.

  4. Вернуть только итоговый результат.

Баланс между вычислениями и памятью

Часть задач ограничена арифметической производительностью. Другая часть упирается в память. У Xeon Phi 7120P сильны обе подсистемы, но для достижения высокой скорости алгоритм должен соответствовать архитектуре.

Плотное умножение матриц хорошо загружает вычислительные блоки. Разреженные структуры данных часто создают нерегулярные обращения к памяти. В первом случае ускоритель приближается к высокому проценту теоретического пика, во втором случае результат падает.

Почему одна цифра бенчмарка недостаточна

Показатель 1,208 TFLOPS FP64 описывает верхнюю границу. HPL показывает эффективность в плотной линейной алгебре. Аэродинамический расчёт показывает прикладную инженерную задачу. Lattice QCD демонстрирует последствия слабой подготовки кода.

Корректная оценка Intel Xeon Phi 7120P всегда начинается с анализа конкретного приложения:

  • какой объём данных обрабатывается;

  • помещается ли рабочий набор в 16 ГБ;

  • насколько равномерно распределяется нагрузка;

  • сколько операций выполняется после одной передачи массива;

  • использует ли компилятор 512-битные инструкции;

  • достаточно ли потоков запущено на каждом ядре;

  • нет ли частых синхронизаций;

  • насколько предсказуем доступ к памяти.

Оценки профильных публикаций и исследовательских работ

Intel Xeon Phi 7120P получил неоднозначные, но логичные оценки. Устройство показывает сильные результаты в подходящих задачах и требует заметно больше инженерной работы, чем следует из одной таблицы характеристик.

Dell: высокий прирост в HPL при разумной эффективности

Dell использовала Xeon Phi 7120P в PowerEdge C4130 и получила ускорение HPL в 3,3 раза с двумя картами и в 5,3 раза с четырьмя. Производительность на ватт выросла с 1,56 до 2,44 GFLOPS/Вт.

Вывод Dell практичный: Xeon Phi 7120P полезен в сервере, где нагрузка соответствует архитектуре, а питание и охлаждение рассчитаны заранее. Четыре ускорителя обеспечивают высокий прирост, но общая мощность системы приближается к 1,7 кВт.

Puget Systems: знакомая среда разработки и строгие требования к охлаждению

В описании Puget Systems отмечены две особенности модели:

  • программная среда ближе к привычной разработке под CPU, чем CUDA-подход;

  • версия 7120P не имеет активного вентилятора и требует мощного потока воздуха через корпус.

Это точное описание сильной и слабой стороны платы. Xeon Phi облегчает перенос части научного кода, но физическая установка в обычный домашний корпус остаётся плохой идеей.

Lenovo: корпоративная установка через специальный модуль

В руководстве Lenovo Press для NeXtScale nx360 M4 Intel Xeon Phi 7120P включён в список поддерживаемых ускорителей. Для него предусмотрен PCIe Native Expansion Tray с двумя полноразмерными двухслотовыми разъёмами PCIe x16.

Lenovo допускает установку одной или двух одинаковых плат. Для такого узла требуется 1300-ваттный блок питания шасси и питание 200–240 В. Этот пример показывает, что 7120P создавался для подготовленной серверной инфраструктуры, а не для случайной сборки из бытовых компонентов.

Исследовательские работы: результат зависит от качества переноса

Опубликованные работы дают более полную картину:

Исследование Итог
Решатель уравнений мелкой воды Одна 7120P быстрее двух Xeon E5-2697 v2 в 1,6 раза
Аэродинамическая оптимизация Xeon Phi ускоряет расчёт примерно в 2,5 раза, Tesla K80 достигает 3,4–3,8 раза
Lattice QCD Неполная векторизация снижает скорость Xeon Phi до 6,14 GFLOPS
QPhiX Подготовленный код достигает 80% полосы памяти
Свёрточная сеть 244 потока дают ускорение 103,5× относительно одного потока на той же карте

Общий вывод однозначен: Intel Xeon Phi 7120P силён не в универсальности, а в хорошо подготовленных параллельных вычислениях.

Серверные конфигурации на базе Xeon Phi 7120P

Intel Xeon Phi 7120P использовался в вычислительных серверах и профессиональных рабочих станциях. При сборке важны не только слот PCI Express и мощность блока питания. Необходимо учитывать поток воздуха, компоновку корпуса, количество ускорителей и программное окружение.

Dell PowerEdge C4130 с двумя Intel Xeon Phi 7120P

Конфигурация Dell с двумя платами выглядит сбалансированно для компактного HPC-узла.

Компонент Конфигурация
Сервер Dell PowerEdge C4130
Хостовые CPU 2 × Intel Xeon E5-2690 v3
Ядра хостовых CPU 24 суммарно
Частота CPU 2,6 ГГц
Оперативная память 128 ГБ DDR4-2133
Ускорители 2 × Intel Xeon Phi 7120P
Память ускорителей 32 ГБ GDDR5 ECC суммарно
Аппаратные потоки ускорителей 488
Схема распределения Один ускоритель на один хостовый CPU
Блоки питания 2 × 1600 Вт
ОС в тесте Dell RHEL 6.5
MPSS 3.4
Режим Offload
Ускорение HPL 3,3× относительно CPU-only

Преимущество этой схемы — понятное соответствие между двумя хостовыми процессорами и двумя ускорителями. Она требует меньше энергии и проще охлаждается, чем вариант с четырьмя картами.

Dell PowerEdge C4130 с четырьмя Intel Xeon Phi 7120P

Максимальная конфигурация Dell ориентирована на высокий уровень плотности вычислений.

Компонент Конфигурация
Сервер Dell PowerEdge C4130
Хостовые CPU 2 × Intel Xeon E5-2690 v3
Оперативная память 128 ГБ DDR4-2133
Ускорители 4 × Intel Xeon Phi 7120P
Память ускорителей 64 ГБ GDDR5 ECC суммарно
Вычислительные ядра ускорителей 244
Аппаратные потоки ускорителей 976
Схема распределения Два ускорителя на один хостовый CPU
Блоки питания 2 × 1600 Вт
Ускорение HPL 5,3× относительно CPU-only
Производительность на ватт 2,44 GFLOPS/Вт
Потребление системы Около 1716 Вт

Такая сборка оправдана только при наличии задач, которые загружают все четыре ускорителя. Простая установка дополнительных плат без подготовки приложения не даёт пропорционального прироста.

Lenovo NeXtScale nx360 M4 с PCIe Native Expansion Tray

Lenovo предлагала серверный путь установки Intel Xeon Phi 7120P через отдельный модуль расширения.

Компонент Параметр
Серверный узел Lenovo NeXtScale nx360 M4
Хостовые CPU До 2 × Intel Xeon E5-2600 v2
Модуль расширения PCIe Native Expansion Tray
Слоты 2 × Full Height, Full Length, Double Width PCIe x16
Поддерживаемые Xeon Phi 7120P 1 или 2
Условие для двух плат Две одинаковые модели
Блок питания шасси 1300 Вт
Сеть питания 200–240 В
Охлаждение Серверные вентиляторы шасси

Эта конфигурация подходит для восстановления исторического вычислительного узла. Она ценна тем, что совместимость платы подтверждена производителем сервера.

Лабораторный стенд с одной Intel Xeon Phi 7120P

Для изучения Intel MIC достаточно одной карты. Практичный стенд строится вокруг серверной или рабочей станции с хорошей продувкой.

Компонент Требование
Корпус Серверный либо профессиональный корпус с направленным воздушным каналом
Материнская плата Полноразмерный слот PCI Express x16
Процессор Совместимый хостовый Xeon или другой серверный CPU
Оперативная память От 32 ГБ для лабораторных задач
Видеовывод Отдельная видеокарта или встроенный серверный контроллер
Блок питания Качественный блок с запасом мощности
Дополнительные кабели Один 8-контактный и один 6-контактный PCIe
Охлаждение Xeon Phi Направленный поток через пассивный радиатор
ОС Совместимая Linux-система для MPSS
Программный стек Архивная версия Intel MPSS и подходящие инструменты разработки

Главная ошибка при сборке такого стенда — попытка оценивать 7120P как дешёвую видеокарту. Она не выводит изображение и не охлаждается самостоятельно. Установка в обычный корпус без воздушного канала приводит к перегреву и снижению частоты.

Что проверить перед запуском

  • Плата занимает два слота.

  • Длина 247,9 мм помещается в корпус.

  • Радиатор не забит пылью.

  • В корпусе организован направленный поток.

  • Подключены оба силовых кабеля.

  • Блок питания рассчитан на 300 Вт ускорителя с запасом.

  • Для вывода изображения установлен отдельный адаптер.

  • ОС совместима с выбранной версией Intel MPSS.

  • Плата определяется средствами управления.

  • Мониторинг температуры работает до запуска длительной нагрузки.

Подходит ли Intel Xeon Phi 7120P для игр и разгона

Intel Xeon Phi 7120P не подходит для игровой сборки. Несмотря на форм-фактор платы расширения и память GDDR5, это не игровая видеокарта.

Почему игры не используют Xeon Phi 7120P

  • У карты нет видеовыходов.

  • У карты нет графического драйвера для запуска игр.

  • Она не выполняет роль DirectX- или Vulkan-видеокарты.

  • Она не заменяет центральный процессор.

  • Она не устанавливается в процессорный разъём.

  • Игровые движки не используют Intel MIC как стандартный вычислительный ускоритель.

  • Таблицы FPS для Xeon Phi 7120P не имеют практического смысла.

  • Для вывода изображения требуется отдельная видеокарта.

Даже при установке в настольную рабочую станцию карта остаётся HPC-сопроцессором. Она выполняет подготовленные вычислительные программы, а не рендерит игровую графику.

Разгон

Пользовательский разгон в стиле настольных процессоров для Intel Xeon Phi 7120P не предусмотрен. Штатная частота составляет 1,238 ГГц. Intel Turbo Boost поднимает её до 1,333 ГГц в допустимых тепловых и энергетических пределах.

Режим Частота
Базовая частота 1,238 ГГц
Максимальная частота Turbo Boost 1,333 ГГц
Разница 95 МГц
Прирост частоты Около 7,7%

Практическая оптимизация Intel Xeon Phi 7120P заключается не в разгоне, а в другом:

  • правильной продувке радиатора;

  • стабильном питании;

  • загрузке трёх или четырёх потоков на ядро;

  • подготовке циклов к 512-битным операциям;

  • сокращении обмена через PCI Express;

  • рациональном использовании 16 ГБ локальной памяти;

  • подборе подходящих версий MPSS, компилятора и библиотек.

Аналоги Intel Xeon Phi 7120P и альтернативные ускорители

Intel Xeon Phi 7120P нужно сравнивать прежде всего с вычислительными ускорителями, а не с обычными процессорами. Серверные Xeon выполняют другую роль: они запускают ОС, обслуживают универсальный код и управляют системой.

Для общего понимания семейства полезен отдельный материал о серии Intel Xeon Phi 7100 Knights Corner.

Близкие модели Intel Xeon Phi

Модель Ядра Базовая частота Максимальная частота Кэш L2 Память TDP Охлаждение Основное отличие
Xeon Phi 3120P 57 1,10 ГГц 28,5 МБ 6 ГБ GDDR5 300 Вт Пассивное Более доступная модель
Xeon Phi 5110P 60 1,053 ГГц 30 МБ 8 ГБ GDDR5 225 Вт Пассивное Ниже потребление и меньше памяти
Xeon Phi 7120P 61 1,238 ГГц 1,333 ГГц 30,5 МБ 16 ГБ GDDR5 ECC 300 Вт Пассивное Рассматриваемая модель
Xeon Phi 7120A 61 1,238 ГГц 1,333 ГГц 30,5 МБ 16 ГБ GDDR5 ECC 300 Вт Активное Встроенный вентилятор
Xeon Phi 7120D 61 1,238 ГГц 1,333 ГГц 30,5 МБ 16 ГБ GDDR5 ECC 270 Вт Для плотных серверных систем Другое исполнение и TDP 270 Вт
Xeon Phi 7120X 61 1,238 ГГц 1,333 ГГц 30,5 МБ 16 ГБ GDDR5 ECC 300 Вт OEM-интеграция Плата для специализированного охлаждения

Xeon Phi 7120P или Xeon Phi 7120A

Эти модели близки по вычислительным характеристикам. Различие связано с охлаждением.

Критерий Xeon Phi 7120P Xeon Phi 7120A
Ядра 61 61
Память 16 ГБ GDDR5 ECC 16 ГБ GDDR5 ECC
TDP 300 Вт 300 Вт
Радиатор Пассивный Активный
Встроенный вентилятор Нет Есть
Лучший сценарий Сервер с мощным воздушным каналом Рабочая станция с менее специализированным корпусом

Для стандартного серверного узла версия 7120P логична. Для одиночной установки в рабочую станцию версия 7120A проще в охлаждении.

Xeon Phi 7120P или Xeon Phi 5110P

Xeon Phi 5110P потребляет меньше энергии, но уступает по памяти и частоте.

Критерий Xeon Phi 5110P Xeon Phi 7120P
Ядра 60 61
Базовая частота 1,053 ГГц 1,238 ГГц
Кэш L2 30 МБ 30,5 МБ
Память 8 ГБ 16 ГБ
Пропускная способность памяти До 320 ГБ/с До 352 ГБ/с
TDP 225 Вт 300 Вт
Охлаждение Пассивное Пассивное

Xeon Phi 5110P рационален для задач с меньшими массивами и ограниченным энергобюджетом. Xeon Phi 7120P лучше подходит для вычислений, где нужны 16 ГБ локальной памяти и более высокая скорость.

NVIDIA Tesla K40

NVIDIA Tesla K40 относится к тому же историческому периоду и конкурирует с Xeon Phi 7120P в HPC-задачах.

Параметр Intel Xeon Phi 7120P NVIDIA Tesla K40
Архитектура Knights Corner Kepler
Вычислительная модель Intel MIC CUDA
Пиковая FP64-производительность 1,208 TFLOPS 1,43 TFLOPS
Пиковая FP32-производительность 2,416 TFLOPS 4,29 TFLOPS
Память 16 ГБ GDDR5 ECC 12 ГБ GDDR5 ECC
Пропускная способность памяти 352 ГБ/с 288 ГБ/с
Интерфейс PCIe 2.0 x16 PCIe 3.0 x16
TDP 300 Вт 235 Вт
Охлаждение Пассивное Пассивное

Xeon Phi 7120P предлагает больше памяти и более высокую полосу памяти. Tesla K40 выигрывает по FP32 и использует зрелую экосистему CUDA. Выбор зависит от программного кода, а не только от спецификаций.

NVIDIA Tesla K80

Tesla K80 вышла позже и содержит два GPU на одной плате.

Параметр Intel Xeon Phi 7120P NVIDIA Tesla K80
Вычислительные кристаллы 1 2
Пиковая FP64-производительность 1,208 TFLOPS До 2,91 TFLOPS
Пиковая FP32-производительность 2,416 TFLOPS До 8,74 TFLOPS
Память 16 ГБ 24 ГБ суммарно
Память на один GPU 16 ГБ на одном сопроцессоре 12 ГБ на GPU
Пропускная способность памяти 352 ГБ/с 480 ГБ/с суммарно
TDP 300 Вт 300 Вт
Модель программирования Intel MIC CUDA

Tesla K80 быстрее в аэродинамическом тесте, приведённом выше. При этом Xeon Phi сохранял привлекательность для проектов, где исходный CPU-код проще переносился в экосистему Intel.

AMD FirePro S9150

AMD FirePro S9150 выделяется сильной FP64-производительностью и умеренным потреблением.

Параметр Intel Xeon Phi 7120P AMD FirePro S9150
Пиковая FP64-производительность 1,208 TFLOPS До 2,53 TFLOPS
Пиковая FP32-производительность 2,416 TFLOPS До 5,07 TFLOPS
Память 16 ГБ GDDR5 ECC 16 ГБ GDDR5 ECC
Пропускная способность памяти 352 ГБ/с До 320 ГБ/с
TDP 300 Вт 235 Вт
Программная среда Intel MIC OpenCL и инструменты AMD

FirePro S9150 выигрывает по пиковой FP64-производительности на ватт. Xeon Phi 7120P отличается подходом Intel к переносу многопоточного CPU-кода.

Сводное сравнение исторических ускорителей

Модель FP64 FP32 Память Полоса памяти TDP Основная среда
Intel Xeon Phi 7120P 1,208 TFLOPS 2,416 TFLOPS 16 ГБ 352 ГБ/с 300 Вт Intel MIC
NVIDIA Tesla K40 1,43 TFLOPS 4,29 TFLOPS 12 ГБ 288 ГБ/с 235 Вт CUDA
NVIDIA Tesla K80 До 2,91 TFLOPS До 8,74 TFLOPS 24 ГБ 480 ГБ/с 300 Вт CUDA
AMD FirePro S9150 До 2,53 TFLOPS До 5,07 TFLOPS 16 ГБ До 320 ГБ/с 235 Вт OpenCL

Эта таблица не заменяет прикладные тесты. Пиковые значения раскрываются только в подходящих алгоритмах. Для реального выбора необходимо учитывать существующий код, доступные библиотеки и стоимость переноса.

Обычные серверные Xeon как альтернатива

Стандартные процессоры Xeon не являются прямой заменой Intel Xeon Phi 7120P. Они выполняют другую работу. При этом двухсокетный сервер на Xeon часто оказывается практичнее в универсальных задачах.

Сценарий Рациональное решение
Запуск ОС и серверных служб Обычный Xeon
Базы данных Обычный Xeon
Виртуализация Обычный Xeon
Веб-сервер Обычный Xeon
Универсальная рабочая станция Обычный Xeon
Хорошо распараллеливаемая научная задача Xeon Phi 7120P как дополнительный ускоритель
Изучение Intel MIC Xeon Phi 7120P
Восстановление старого HPC-узла Xeon Phi 7120P при наличии совместимого окружения

Современный сервер для новых проектов строится на актуальных CPU и поддерживаемых ускорителях. Xeon Phi 7120P имеет смысл там, где требуется именно Knights Corner или важна минимальная цена лабораторного оборудования.

Плюсы и минусы Intel Xeon Phi 7120P

Плюсы

  • 61 вычислительное ядро.

  • 244 аппаратных потока.

  • 16 ГБ локальной памяти GDDR5.

  • Поддержка ECC.

  • 16 каналов памяти.

  • Пропускная способность до 352 ГБ/с.

  • Суммарный кэш L2 объёмом 30,5 МБ.

  • 512-битные SIMD-блоки.

  • Пиковая FP64-производительность около 1,208 TFLOPS.

  • Пиковая FP32-производительность около 2,416 TFLOPS.

  • Заметное ускорение плотной линейной алгебры.

  • Хорошее масштабирование подготовленных научных программ.

  • Поддержка offload mode.

  • Поддержка native mode.

  • Работа с Intel MKL и Intel MPI.

  • Встроенная Linux-среда.

  • Наличие недорогих плат на вторичном рынке.

  • Интерес для учебных стендов и исследований архитектуры Intel MIC.

  • Применимость для восстановления исторических HPC-систем.

  • Пассивный радиатор без изнашивающегося встроенного вентилятора.

Минусы

  • Снятие с производства.

  • Завершение обслуживания.

  • Устаревший программный стек Intel MPSS.

  • Необходимость совместимой старой операционной системы.

  • Тепловой пакет 300 Вт.

  • Обязательное подключение 8-контактного и 6-контактного силовых кабелей.

  • Жёсткие требования к направленному воздушному потоку.

  • Отсутствие встроенного вентилятора у версии 7120P.

  • Неудобство установки в обычный домашний корпус.

  • Отсутствие видеовыходов.

  • Непригодность для игр.

  • Непригодность для стандартной настольной сборки.

  • Отсутствие смысла в пользовательском разгоне.

  • Зависимость результата от глубокой векторизации.

  • Падение эффективности при частом обмене через PCI Express.

  • Ограничение локальной памяти объёмом 16 ГБ.

  • PCI Express 2.0 x16 вместо более новых версий интерфейса.

  • Слабая однопоточная производительность отдельных ядер.

  • Высокие затраты времени на адаптацию программ.

  • Отсутствие рационального применения в новых универсальных серверах.

Кому стоит покупать Intel Xeon Phi 7120P сегодня

Intel Xeon Phi 7120P больше не является универсальным выбором для высокопроизводительных вычислений. Современные ускорители быстрее, экономичнее и лучше поддерживаются актуальным программным обеспечением. Однако у 7120P остаются конкретные сценарии, где покупка оправдана.

Лаборатория и обучение

Недорогая плата с вторичного рынка подходит для изучения:

  • устройства многоядерных ускорителей;

  • архитектуры Intel MIC;

  • работы с 244 потоками;

  • векторизации Intel IMCI;

  • влияния памяти на численные алгоритмы;

  • различий между offload mode и native mode;

  • мониторинга серверных ускорителей;

  • оптимизации старого HPC-кода.

Для обучения ценность 7120P определяется не рекордной скоростью, а доступом к необычной архитектуре. За небольшую цену можно получить 61-ядерный вычислительный сопроцессор с собственной памятью и полноценным серверным стеком.

Поддержка старой инфраструктуры

Организации, которые сохранили приложения для Intel MIC, используют Xeon Phi 7120P как запасную часть. Это относится к вычислительным узлам, где перенос кода на новую платформу ещё не завершён.

В таком сценарии важны:

  • совпадение модели платы;

  • совместимость с установленной версией MPSS;

  • наличие резервного сервера;

  • исправный пассивный радиатор;

  • проверка памяти ECC;

  • контроль температуры под длительной нагрузкой.

Восстановление исторического HPC-узла

Xeon Phi 7120P подходит для реконструкции серверов Dell PowerEdge C4130, Lenovo NeXtScale nx360 M4 и других платформ своего периода. Такой проект полезен для музея вычислительной техники, учебной лаборатории или исследовательского стенда.

Эксперименты с переносом кода

Плата интересна разработчикам, которые изучают влияние архитектуры на производительность. Один и тот же алгоритм можно сравнить:

  • на хостовом Xeon;

  • на Xeon Phi в offload mode;

  • на Xeon Phi в native mode;

  • на GPU через CUDA или OpenCL;

  • с векторизацией и без неё;

  • при разном количестве потоков;

  • при разной структуре памяти.

Такой стенд наглядно показывает, почему теоретический пик и прикладная скорость часто различаются в десятки раз.

Кому Xeon Phi 7120P не нужен

Плата не подходит:

  • для игрового компьютера;

  • для офисного ПК;

  • для домашнего сервера;

  • для медиасервера;

  • для виртуализации;

  • для базы данных;

  • для рендеринга игр;

  • для замены обычного процессора;

  • для замены современной видеокарты;

  • для нового промышленного проекта без зависимости от Intel MIC;

  • для сборки без серверного охлаждения;

  • для человека, которому нужен простой запуск без настройки старого программного окружения.

Итоговый вердикт

Intel Xeon Phi Coprocessor 7120P — один из наиболее интересных серверных ускорителей эпохи Knights Corner. Он объединяет 61 вычислительное ядро, 244 аппаратных потока, 16 ГБ GDDR5 ECC, 352 ГБ/с пропускной способности памяти и 1,208 TFLOPS пиковой FP64-производительности.

В правильно подготовленных задачах карта показывает убедительный результат. В тесте Dell HPL две платы ускорили сервер в 3,3 раза, а четыре платы — в 5,3 раза. В решателе уравнений мелкой воды одна Xeon Phi 7120P обошла двухсокетную систему на Xeon E5-2697 v2 в 1,6 раза. В QPhiX оптимизированный код использовал около 80% теоретической полосы памяти.

Ускоритель одновременно требователен к условиям эксплуатации. Пассивный радиатор нуждается в мощном направленном потоке воздуха. Тепловой пакет достигает 300 Вт. Для питания необходимы отдельные 8-контактный и 6-контактный кабели. Программный стек устарел, а эффективный код требует 512-битной векторизации и грамотного распределения данных.

Покупка Intel Xeon Phi 7120P оправдана для лаборатории, учебного стенда, восстановления старого HPC-сервера и экспериментов с Intel MIC. Для игр, бытового компьютера, универсального сервера и нового промышленного комплекса эта карта не подходит. Её главная ценность сегодня заключается в доступной цене, необычной архитектуре и возможности на практике изучить вычислительный подход, который занимал важное место в развитии серверных ускорителей Intel.