Intel Xeon Phi Coprocessor 7120P относится к редкой категории вычислительных устройств, которые нельзя корректно оценивать по правилам обычных настольных процессоров или игровых видеокарт. Модель устанавливается в сервер либо профессиональную рабочую станцию как полноразмерная плата PCI Express и используется для ускорения параллельных расчётов. Она не заменяет центральный процессор, не устанавливается в процессорный разъём и не выводит изображение на монитор.
В основе Intel Xeon Phi 7120P лежит архитектура Knights Corner. На одной плате размещены 61 вычислительное ядро, 244 аппаратных потока, 30,5 МБ суммарного кэша L2 и 16 ГБ памяти GDDR5 с коррекцией ошибок ECC. Память работает через 16 каналов и обеспечивает пропускную способность до 352 ГБ/с. Базовая частота составляет 1,238 ГГц, а штатный Turbo Boost поднимает её до 1,333 ГГц. Пиковая производительность в вычислениях двойной точности достигает 1,208 TFLOPS.
Модель вышла во втором квартале 2013 года и стала одной из наиболее производительных плат первого поколения Intel Xeon Phi x100. Сейчас её практическая ценность определяется не сравнением с современными ускорителями, а конкретным сценарием эксплуатации. Она остаётся интересной для восстановления старых HPC-узлов, запуска программного окружения Intel MIC, изучения многопоточной оптимизации и сборки лабораторных стендов на вторичном рынке.
Intel Xeon Phi 7120P: что это за ускоритель и для каких задач он создан
Intel Xeon Phi 7120P представляет собой пассивно охлаждаемый вычислительный сопроцессор формата PCI Express. Полное наименование устройства — Intel Xeon Phi Coprocessor 7120P. В документации Intel встречаются обозначения 7120P, SC7120P и SC7120PEB. Модель входит в семейство Intel Xeon Phi x100 с кодовым названием Knights Corner.
Слово сопроцессор здесь имеет принципиальное значение. Операционная система сервера запускается на обычных хостовых процессорах Intel Xeon. Плата Xeon Phi подключается к серверу по PCI Express и получает подготовленные вычислительные задачи. В зависимости от режима работы программа переносит на ускоритель отдельные фрагменты расчёта либо запускает собранный для Intel MIC исполняемый файл непосредственно во встроенной Linux-среде платы.
Основная область применения Intel Xeon Phi 7120P — высокопроизводительные вычисления:
-
решение систем линейных уравнений;
-
плотная линейная алгебра;
-
инженерное моделирование;
-
расчёты вычислительной гидродинамики;
-
метеорологические модели;
-
обработка научных данных;
-
математическая оптимизация;
-
физические симуляции;
-
параллельные алгоритмы с большим количеством однотипных операций;
-
учебные стенды для изучения многопоточности и векторизации.
Устройство создавалось для задач, которые хорошо масштабируются на десятки вычислительных ядер и используют широкие 512-битные векторные блоки. Простое увеличение количества потоков не гарантирует высокую скорость. Код должен равномерно загружать ядра, рационально обращаться к памяти и выполнять достаточно большой объём векторных операций.
Intel Xeon Phi 7120P заметно отличается от привычных серверных процессоров Xeon.
| Характеристика | Intel Xeon Phi 7120P | Обычный серверный Intel Xeon |
|---|---|---|
| Тип устройства | Вычислительный PCIe-сопроцессор | Центральный процессор |
| Способ установки | Полноразмерный слот PCI Express | Процессорный разъём материнской платы |
| Роль в системе | Ускорение подготовленных параллельных расчётов | Запуск ОС, приложений и системных служб |
| Количество вычислительных ядер | 61 | Зависит от конкретной модели |
| Аппаратные потоки | 244 | Зависит от конкретной модели |
| Собственная память | 16 ГБ GDDR5 ECC | Использует оперативную память сервера |
| Вывод изображения | Отсутствует | Отсутствует без отдельного графического устройства |
| Основной сценарий | HPC, научные и инженерные вычисления | Универсальные серверные нагрузки |
От GPU-ускорителей того же периода Xeon Phi 7120P отличается моделью программирования. NVIDIA Tesla K40 и Tesla K80 ориентировались на CUDA, а Intel продвигала архитектуру MIC как среду для переноса существующего кода на C, C++ и Fortran с использованием знакомых компиляторов, библиотек и инструментов анализа. При этом исходный код всё равно требовал адаптации. Скалярные фрагменты выполнялись на совместимых с x86 ядрах, но максимальная скорость достигалась только после подготовки алгоритма к 512-битной векторизации Intel IMCI.
В карточке Intel ARK модель отмечена как снятая с производства. Поставки прекращены, срок обслуживания завершён. Это ограничивает применение платы в новых промышленных проектах, но не делает её бесполезной для лабораторных задач и поддержки старых вычислительных комплексов.
Где купить Intel Xeon Phi 7120P: цены и наличие
Intel Xeon Phi 7120P давно не поставляется как актуальное серверное оборудование. Российские магазины массовой электроники не держат эту модель на складе. В продаже встречаются бывшие в эксплуатации платы, складские остатки и OEM-версии для серверов HP.
На момент проверки прямые карточки Intel Xeon Phi 7120P отсутствовали на AliExpress, в Ситилинке и на Яндекс Маркете. В таблице оставлены кликабельные страницы поиска по точному наименованию модели. Они позволяют быстро проверить появление новых предложений.
Intel Xeon Phi 7120P не использовался в ноутбуках. Это полноразмерный серверный ускоритель с тепловым пакетом 300 Вт, отдельными силовыми разъёмами и пассивным радиатором. Готовые игровые компьютеры с такой платой также не выпускались. Исторические серверные конфигурации существовали у Dell, Lenovo и других производителей корпоративного оборудования.
На вторичном рынке предложения встречаются заметно чаще.
| Площадка | Состояние | Цена на момент проверки |
| eBay | Бывшая в эксплуатации плата | 64,99 доллара |
| eBay | Открытая упаковка | 199,95 доллара |
| Notebookparts | Новая OEM-плата | 499,95 доллара |
| Newegg | OEM-плата | 619,99 доллара |
Разница в цене объясняется состоянием, происхождением и комплектацией. Недорогая плата с разборки сервера часто продаётся без документации, кабелей питания и проверочного отчёта. Перед покупкой необходимо убедиться в наличии исправного пассивного радиатора, крепёжной планки и двух силовых разъёмов. Для запуска требуется сервер или рабочая станция с подходящим слотом PCI Express, отдельной видеокартой для вывода изображения и мощным направленным воздушным потоком.
Модель не стоит покупать только из-за низкой цены. Сам ускоритель может стоить дешевле современного настольного процессора, но полноценный стенд требует совместимой платформы, правильного охлаждения и старого программного окружения Intel MIC.
Полные характеристики Intel Xeon Phi Coprocessor 7120P
Intel Xeon Phi 7120P сочетает параметры серверного ускорителя и самостоятельного вычислительного узла. Внутри карты размещены многоядерный кристалл Knights Corner, собственная память GDDR5 ECC, контроллер управления, флеш-память для загрузки встроенной среды и подсистема питания.
Сводная мегатаблица характеристик
| Раздел | Параметр | Значение |
| Идентификация | Производитель | Intel |
| Идентификация | Полное название | Intel Xeon Phi Coprocessor 7120P |
| Идентификация | Номер модели | 7120P |
| Идентификация | Обозначение розничной платы | SC7120P |
| Идентификация | Код заказа | SC7120PEB |
| Идентификация | Семейство | Intel Xeon Phi x100 |
| Идентификация | Архитектура | Knights Corner |
| Идентификация | Тип устройства | Вычислительный сопроцессор PCI Express |
| Идентификация | Целевой сегмент | Серверы и HPC-системы |
| Жизненный цикл | Период выхода | Второй квартал 2013 года |
| Жизненный цикл | Состояние продукта | Снят с производства |
| Жизненный цикл | Поставки | Прекращены |
| Жизненный цикл | Обслуживание | Завершено |
| Производство | Технологический процесс | 22 нм |
| Вычислительный блок | Количество ядер | 61 |
| Вычислительный блок | Аппаратные потоки на ядро | 4 |
| Вычислительный блок | Общее количество аппаратных потоков | 244 |
| Вычислительный блок | Организация исполнения | Многоядерная архитектура с ядрами последовательного исполнения команд и двухкомандной выдачей |
| Частоты | Базовая частота | 1,238 ГГц |
| Частоты | Максимальная частота Turbo Boost | 1,333 ГГц |
| Частоты | Intel Turbo Boost | Версия 1.0 |
| Кэш | Кэш L2 на ядро | 512 КБ |
| Кэш | Суммарный кэш L2 | 30,5 МБ |
| Кэш | Связь кэшей L2 | Кольцевая внутренняя шина |
| Векторные вычисления | Набор расширений | Intel IMCI |
| Векторные вычисления | Ширина SIMD-блока | 512 бит |
| Векторные вычисления | Элементы FP32 в одном векторе | 16 |
| Векторные вычисления | Элементы FP64 в одном векторе | 8 |
| Векторные вычисления | Пиковая производительность FP32 | Около 2,416 TFLOPS |
| Векторные вычисления | Пиковая производительность FP64 | Около 1,208 TFLOPS |
| Память | Тип памяти | GDDR5 |
| Память | Объём памяти | 16 ГБ |
| Память | Коррекция ошибок | ECC |
| Память | Количество каналов | 16 |
| Память | Максимальная пропускная способность | 352 ГБ/с |
| Интерфейс | Подключение к хосту | PCI Express 2.0 x16 |
| Интерфейс | Управляющий канал | Поддержка SMBus |
| Форм-фактор | Исполнение | Полноразмерная серверная плата расширения |
| Форм-фактор | Высота | Full Height |
| Форм-фактор | Длина | Full Length |
| Форм-фактор | Толщина | Двухслотовое исполнение |
| Форм-фактор | Длина платы с крепёжной планкой | 247,9 мм |
| Форм-фактор | Высота компонентов с основной стороны | 34,8 мм |
| Форм-фактор | Высота компонентов с обратной стороны | 2,67 мм |
| Форм-фактор | Масса пассивно охлаждаемой платы | Около 1200 г |
| Охлаждение | Тип охлаждения | Пассивный радиатор |
| Охлаждение | Встроенный вентилятор | Отсутствует |
| Охлаждение | Требования к корпусу | Направленный серверный воздушный поток |
| Охлаждение | Требуемый поток при температуре входящего воздуха 45 °C | 33 CFM |
| Охлаждение | Падение давления при 45 °C | 0,54 дюйма водяного столба |
| Питание | Тепловой пакет | 300 Вт |
| Питание | Мощность через слот PCI Express | До 75 Вт |
| Питание | Дополнительный разъём PCIe | 8-контактный, до 150 Вт |
| Питание | Дополнительный разъём PCIe | 6-контактный, до 75 Вт |
| Питание | Общая расчётная подводимая мощность | До 300 Вт |
| Управление | Встроенный контроллер | SMC |
| Управление | Мониторинг | Температура, питание, состояние платы |
| Управление | Защитные механизмы | Температурное ограничение частоты, контроль мощности, восстановление после ошибок |
| Программная среда | Встроенная среда | Linux-based uOS |
| Программная среда | Основной пакет управления | Intel MPSS |
| Программная среда | Режим вычислений | Offload mode |
| Программная среда | Режим вычислений | Native mode |
| Программная среда | Передача данных между хостом и платой | Через PCI Express |
| Программная среда | Средства взаимодействия | SCIF и инструменты Intel MPSS |
| Программная среда | Поддерживаемые языки в исходном коде | C, C++, Fortran |
| Программная среда | Библиотеки | Intel MKL, Intel MPI и сопутствующие инструменты Intel |
| Графические функции | Вывод изображения | Отсутствует |
| Графические функции | Видеовыходы | Отсутствуют |
| Графические функции | Игровой драйвер | Не предусмотрен |
| Экспортные данные | ECCN | 3A991 |
| Экспортные данные | Код HTS США | 8471500150 |
| Встраиваемые системы | Embedded Options Available | Нет |
Основные паспортные параметры собраны в Intel ARK, карточке заказа Intel и документации Intel Xeon Phi.
Теоретическая производительность
Пиковая скорость Intel Xeon Phi 7120P в операциях двойной точности рассчитывается по формуле:
61 ядро × 1,238 ГГц × 16 операций FP64 за такт = 1,208 TFLOPS
Для одинарной точности расчёт выглядит так:
61 ядро × 1,238 ГГц × 32 операции FP32 за такт = 2,416 TFLOPS
Значения 1,2 TFLOPS FP64 и 2,4 TFLOPS FP32 часто округляются в спецификациях и каталогах. Эти цифры отражают верхний предел вычислительного блока. Реальная скорость зависит от структуры алгоритма, качества векторизации, объёма обмена с памятью и распределения потоков.
Архитектура Knights Corner: как устроен 61-ядерный сопроцессор
Knights Corner стал первым массовым поколением Intel Xeon Phi. Intel использовала многоядерную архитектуру MIC — Many Integrated Core. Подход отличался от традиционного CPU и от GPU. На кристалле размещалось большое количество сравнительно компактных вычислительных ядер, каждое из которых получило собственный кэш и широкий векторный блок.
У Intel Xeon Phi 7120P активен 61 вычислительный модуль. Каждое ядро обрабатывает четыре аппаратных потока. Вся плата одновременно поддерживает до 244 потоков. Такое количество потоков нужно не для запуска множества независимых тяжёлых программ, а для заполнения исполнительных блоков и скрытия задержек доступа к данным.
Ядра построены по принципу последовательного исполнения команд. Они проще современных высокопроизводительных ядер Xeon и слабее в однопоточном режиме. Сильная сторона Knights Corner раскрывается в другом: десятки ядер одновременно обрабатывают большие массивы данных при помощи 512-битных SIMD-блоков.
Что даёт 512-битный SIMD-блок
Один 512-битный вектор вмещает:
| Тип данных | Размер одного элемента | Количество элементов в одном векторе |
| FP32 | 32 бита | 16 |
| FP64 | 64 бита | 8 |
| Целое число 32 бита | 32 бита | 16 |
| Целое число 64 бита | 64 бита | 8 |
Векторный блок выполняет одну операцию сразу над несколькими числами. Для плотной линейной алгебры, численного моделирования и обработки массивов это даёт значительный прирост. При использовании операций умножения со сложением одно ядро обрабатывает до 16 операций FP64 за такт либо до 32 операций FP32 за такт.
Широкая векторизация одновременно становится главным ограничением архитектуры. Код с короткими циклами, непредсказуемыми переходами, хаотичным доступом к памяти и плохо выровненными данными не загружает вычислительные блоки полностью. В таком сценарии 61 ядро не превращается в высокую прикладную скорость.
Кэш и кольцевая шина
Каждое ядро получает 512 КБ кэша L2. Суммарный объём составляет 30,5 МБ. Кэши связаны кольцевой внутренней шиной. Она соединяет вычислительные ядра, контроллеры памяти и интерфейсные блоки.
Такая организация решает несколько задач:
-
уменьшает количество обращений к памяти GDDR5;
-
позволяет ядрам обмениваться данными;
-
поддерживает согласованность кэшей;
-
распределяет обращения между контроллерами памяти;
-
помогает масштабировать архитектуру на десятки ядер.
Для высокой скорости данные должны повторно использоваться в локальном кэше. Постоянный перенос небольших фрагментов между хостовой оперативной памятью и ускорителем снижает эффективность. Intel Xeon Phi 7120P лучше работает с крупными задачами, где подготовленный массив помещается в 16 ГБ локальной памяти и обрабатывается продолжительное время.
Почему четыре потока на ядро имеют значение
Ядро Knights Corner рассчитано на параллельную подачу работы. Один поток не заполняет его полностью. Для стабильной загрузки Intel рекомендовала использовать несколько аппаратных потоков на ядро. В типичных вычислительных сценариях применяются три или четыре потока.
При полной загрузке карта обрабатывает 244 потока:
61 ядро × 4 потока = 244 аппаратных потока
Это не означает, что любая программа ускоряется в 244 раза. Итоговый прирост ограничивается последовательными участками кода, обменом данными, пропускной способностью памяти и накладными расходами управления.
Память GDDR5 ECC и пропускная способность 352 ГБ/с
Intel Xeon Phi 7120P оснащён 16 ГБ памяти GDDR5. Для своего периода такой объём был существенным преимуществом. Многие конкурирующие ускорители предлагали меньший локальный объём, из-за чего крупные массивы приходилось делить на части.
Память работает через 16 каналов. Максимальная пропускная способность достигает 352 ГБ/с. Микросхемы размещены с обеих сторон печатной платы. По конструкции каждый канал объединяет два 16-битных устройства в 32-битный путь передачи данных.
Характеристики подсистемы памяти
| Параметр | Значение |
| Тип памяти | GDDR5 |
| Объём | 16 ГБ |
| Количество каналов | 16 |
| Максимальная пропускная способность | 352 ГБ/с |
| Коррекция ошибок ECC | Поддерживается |
| Размещение микросхем | С обеих сторон платы |
| Максимальное количество микросхем памяти | 32 |
ECC имеет особое значение для длительных научных расчётов. Ошибка в памяти способна испортить промежуточные данные и сделать многочасовой расчёт недостоверным. Коррекция ошибок снижает риск незаметного повреждения данных.
Пропускная способность 352 ГБ/с выглядит высокой даже по меркам серверного оборудования своего поколения. Однако сама по себе она не гарантирует высокой скорости. Алгоритм должен формировать последовательные обращения к памяти, повторно использовать данные и не создавать лишние пересылки между сервером и платой.
Когда локальная память становится преимуществом
16 ГБ GDDR5 ECC особенно полезны в задачах, где:
-
массивы помещаются в локальную память ускорителя;
-
данные многократно обрабатываются после одной загрузки;
-
вычислений на один переданный байт достаточно много;
-
циклы хорошо векторизуются;
-
нагрузка равномерно распределяется по ядрам.
Когда память становится ограничением
Даже высокая пропускная способность не спасает алгоритмы с:
-
хаотичным доступом к небольшим фрагментам массива;
-
частыми пересылками между хостом и ускорителем;
-
большим количеством ветвлений;
-
недостаточным повторным использованием данных;
-
объёмом рабочих массивов существенно больше 16 ГБ;
-
последовательными участками, которые не распределяются между ядрами.
Поэтому Intel Xeon Phi 7120P нельзя оценивать только по количеству ядер и объёму памяти. В HPC важна вся цепочка: структура данных, организация циклов, модель обмена и качество компиляции.
Форм-фактор, питание и пассивное охлаждение
Intel Xeon Phi 7120P предназначен для серверного корпуса с организованным воздушным потоком. Это полноразмерная двухслотовая плата PCI Express с массивным пассивным радиатором. Встроенного вентилятора у версии 7120P нет.
Модель легко спутать с Intel Xeon Phi 7120A. Версия 7120A оснащена активным охлаждением и подходит для корпусов, где нет мощного направленного потока через радиатор. Версия 7120P рассчитана на серверные вентиляторы корпуса.
Размеры платы
| Параметр | Значение |
| Длина с крепёжной планкой | 247,9 мм |
| Толщина | Два слота расширения |
| Максимальная высота компонентов с основной стороны | 34,8 мм |
| Максимальная высота компонентов с обратной стороны | 2,67 мм |
| Масса платы | Около 1200 г |
| Исполнение | Full Height, Full Length |
| Охлаждение | Пассивное |
Для установки требуется не только свободный слот PCI Express x16, но и свободное пространство рядом. Радиатор занимает два слота. Корпус должен выдерживать массу платы и обеспечивать равномерный продув от передней части к задней.
Питание
Тепловой пакет Intel Xeon Phi 7120P составляет 300 Вт. Питание распределяется между слотом и двумя отдельными кабелями.
| Источник питания | Максимальная мощность |
| Слот PCI Express | 75 Вт |
| 8-контактный разъём PCIe | 150 Вт |
| 6-контактный разъём PCIe | 75 Вт |
| Общая расчётная мощность | 300 Вт |
Для запуска платы необходимы оба дополнительных разъёма: 8-контактный и 6-контактный. Использование случайных переходников в старом блоке питания создаёт лишний риск. Серверная платформа должна иметь штатные силовые линии и достаточный запас мощности.
Система с двумя Xeon Phi 7120P получает до 600 Вт нагрузки только от ускорителей. С четырьмя платами расчётная мощность ускорителей достигает 1200 Вт. К этому добавляется потребление двух центральных процессоров, памяти, накопителей, сетевых контроллеров и вентиляторов.
Требования к воздушному потоку
Пассивный радиатор не охлаждает карту самостоятельно. Он передаёт тепло потоку воздуха, который создают вентиляторы сервера.
Для 300-ваттной Intel Xeon Phi 7120P при температуре входящего воздуха 45 °C требуется поток 33 CFM. Падение давления составляет 0,54 дюйма водяного столба.
| Температура входящего воздуха | Требуемый суммарный поток | Поток по основной стороне | Поток по обратной стороне |
| 20 °C | 14,4 CFM | 10,5 CFM | 3,9 CFM |
| 25 °C | 16,0 CFM | 12,0 CFM | 4,0 CFM |
| 29 °C | 17,6 CFM | 13,4 CFM | 4,1 CFM |
| 45 °C | 33,0 CFM | 25,8 CFM | 7,2 CFM |
Обычный домашний корпус с одним медленным вентилятором не подходит. Даже открытый стенд не решает задачу автоматически: без направленного потока воздух обходит плотный радиатор, а температура компонентов быстро растёт.
При перегреве контроллер снижает частоту. Защитные механизмы предотвращают повреждение платы, но производительность падает. Для стабильной работы требуется серверный корпус либо тщательно собранный воздушный канал.
Режимы работы, MPSS и программная среда
Intel Xeon Phi 7120P не превращается в универсальный ускоритель сразу после установки в слот. Для работы требуется программный стек Intel MPSS — Manycore Platform Software Stack. Он содержит драйверы, средства управления, службы и инструменты взаимодействия с платой.
Сопроцессор загружает встроенную Linux-среду. Через хостовую систему доступно управление запуском, диагностикой, состоянием и пользовательскими настройками. В описании Puget Systems карта представлена как дополнительный вычислительный узел во внутренней сети через PCI Express.
Основные элементы программной среды
| Компонент | Назначение |
| Intel MPSS | Драйверы, службы и средства управления Xeon Phi |
| Linux-based uOS | Встроенная среда на сопроцессоре |
| SCIF | Средства обмена между хостом и Xeon Phi |
| Intel C++ Composer XE | Компиляция и оптимизация кода |
| Intel Fortran Compiler | Работа с научными программами на Fortran |
| Intel MKL | Оптимизированные математические библиотеки |
| Intel MPI | Распределённые расчёты между процессорами и ускорителями |
| Intel VTune | Анализ производительности |
| micctrl | Управление состоянием сопроцессора |
| micsmc | Мониторинг и диагностика |
| micras | Сбор сведений о надёжности и ошибках |
Offload mode
В режиме offload основная программа запускается на хостовом процессоре. Вычислительно тяжёлые участки передаются на Intel Xeon Phi 7120P. Хост сохраняет контроль над приложением, а ускоритель выполняет выделенные фрагменты.
Схема работы выглядит так:
-
Программа запускается на серверных процессорах Xeon.
-
Подготавливаются массивы данных.
-
Данные передаются в локальную память Xeon Phi через PCI Express.
-
Ускоритель выполняет параллельный расчёт.
-
Результат возвращается хосту.
-
Центральные процессоры продолжают обработку.
Offload mode удобен для модернизации существующих приложений. При этом частые передачи небольших блоков снижают скорость. Наиболее эффективны крупные вычислительные участки, которые выполняют много операций после одной загрузки данных.
Native mode
В режиме native исполняемый файл собирается для архитектуры Intel MIC и запускается непосредственно во встроенной среде Xeon Phi. Карта обрабатывает задачу как отдельный вычислительный узел.
Этот режим подходит для программ, которые:
-
полностью помещаются в локальную память;
-
используют MPI или OpenMP;
-
не требуют постоянного обмена с хостом;
-
хорошо масштабируются на 244 потока;
-
подготовлены под Intel IMCI.
Native mode не превращает Xeon Phi 7120P в обычный настольный компьютер. Встроенная среда предназначена для вычислительных процессов, а не для пользовательского рабочего стола.
Symmetric mode и MPI
В распределённых системах хостовые процессоры и сопроцессоры работают как отдельные узлы MPI. Такой подход позволяет задействовать вычислительные ресурсы сервера и ускорителей одновременно. Он требует аккуратного распределения данных и правильной балансировки нагрузки.
Важные ограничения программного окружения
Intel Xeon Phi x100 относится к завершённой платформе. MPSS, старые версии компиляторов и библиотеки привязаны к программной экосистеме своего периода. Современная установка требует архивных пакетов и совместимой операционной системы.
Для лабораторного стенда удобнее использовать отдельный сервер, не связанный с основной инфраструктурой. Это упрощает сохранение старой ОС и исключает конфликт с актуальными драйверами.
Бенчмарки Intel Xeon Phi 7120P: результаты тестов в таблицах
Результаты Intel Xeon Phi 7120P сильно различаются в зависимости от характера нагрузки. Ни один тест не описывает карту полностью. Плотная линейная алгебра хорошо показывает верхний уровень эффективности, а плохо подготовленный код раскрывает архитектурные ограничения.
Тест Dell PowerEdge C4130 в HPL
Dell протестировала Intel Xeon Phi 7120P в сервере PowerEdge C4130. Для сравнения использовались три конфигурации:
-
сервер без ускорителей;
-
сервер с двумя Intel Xeon Phi 7120P;
-
сервер с четырьмя Intel Xeon Phi 7120P.
HPL — High Performance Linpack — измеряет скорость решения плотной системы линейных уравнений. Этот тест хорошо подходит для оценки FP64-производительности в научных вычислениях, но не отражает скорость всех возможных приложений.
Конфигурация тестового сервера Dell
| Компонент | CPU-only | Configuration D | Configuration C |
| Сервер | Dell PowerEdge C4130 | Dell PowerEdge C4130 | Dell PowerEdge C4130 |
| Хостовые процессоры | 2 × Xeon E5-2690 v3 | 2 × Xeon E5-2690 v3 | 2 × Xeon E5-2690 v3 |
| Ядра хостовых CPU | 24 | 24 | 24 |
| Частота хостовых CPU | 2,6 ГГц | 2,6 ГГц | 2,6 ГГц |
| Оперативная память | 128 ГБ DDR4-2133 | 128 ГБ DDR4-2133 | 128 ГБ DDR4-2133 |
| Xeon Phi 7120P | 0 | 2 | 4 |
| Память ускорителей | — | 32 ГБ суммарно | 64 ГБ суммарно |
| Вычислительные ядра Xeon Phi | — | 122 | 244 |
| Аппаратные потоки Xeon Phi | — | 488 | 976 |
| Блоки питания | 2 × 1600 Вт | 2 × 1600 Вт | 2 × 1600 Вт |
| ОС | RHEL 6.5 | RHEL 6.5 | RHEL 6.5 |
| MPSS | — | 3.4 | 3.4 |
| Intel MPI | 5.0.1 | 5.0.1 | 5.0.1 |
| Intel MKL | 11.2 | 11.2 | 11.2 |
| Режим Xeon Phi | — | Offload | Offload |
| ECC | — | Включено | Включено |
| Turbo Boost ускорителей | — | Отключён | Отключён |
Dell отключила Turbo Boost ускорителей для получения сопоставимых результатов. Поэтому тест показывает стабильную производительность на базовой частоте, а не кратковременный максимум.
Результаты HPL
| Конфигурация | Количество Xeon Phi 7120P | Производительность относительно CPU-only | Эффективность вычислительного пика | Производительность на ватт |
| CPU-only | 0 | 1,0× | 91,6% | 1,56 GFLOPS/Вт |
| Configuration D | 2 | 3,3× | 81,2% | 2,34 GFLOPS/Вт |
| Configuration C | 4 | 5,3× | 75,6% | 2,44 GFLOPS/Вт |
Добавление двух Intel Xeon Phi 7120P увеличило скорость HPL в 3,3 раза. Четыре платы дали прирост в 5,3 раза. Масштабирование не линейное, но результат остаётся значительным.
Энергопотребление в тесте Dell
| Конфигурация | Количество Xeon Phi 7120P | Потребление относительно CPU-only | Ориентировочное потребление системы |
| CPU-only | 0 | 1,0× | 520 Вт |
| Configuration D | 2 | 2,1× | Около 1092 Вт |
| Configuration C | 4 | 3,3× | Около 1716 Вт |
Энергопотребление растёт заметно, но производительность на ватт тоже улучшается:
| Конфигурация | Производительность на ватт | Прирост эффективности относительно CPU-only |
| CPU-only | 1,56 GFLOPS/Вт | 1,00× |
| 2 × Xeon Phi 7120P | 2,34 GFLOPS/Вт | 1,50× |
| 4 × Xeon Phi 7120P | 2,44 GFLOPS/Вт | 1,56× |
Практический вывод Dell состоит не только в росте абсолютной скорости. Правильно подобранная конфигурация повышает отдачу от каждого ватта даже при существенном увеличении общего потребления.
Подробные графики и условия испытаний приведены в отчёте Dell по PowerEdge C4130 и Intel Xeon Phi.
Моделирование мелкой воды на Intel Xeon Phi 7120P
В исследовании масштабирования решателя уравнений мелкой воды одна карта Intel Xeon Phi 7120P сравнивалась с двухсокетным сервером на Xeon E5-2697 v2.
| Конфигурация | Результат относительно двух Xeon E5-2697 v2 |
| 2 × Xeon E5-2697 v2 | 1,0× |
| 1 × Xeon Phi 7120P | 1,6× |
| Два узла, по 4 × Xeon Phi 7120P в каждом | 5,8× |
Авторы получили около 90% эффективности параллельного масштабирования до восьми ускорителей в двух вычислительных узлах. Этот результат особенно показателен: Intel Xeon Phi 7120P хорошо справляется с подготовленным численным кодом, где вычисления распределяются равномерно, а алгоритм рационально использует широкие векторные блоки.
Аэродинамическая оптимизация: Xeon Phi 7120 и NVIDIA Tesla K80
В исследовании панельных методов для аэродинамических расчётов сопроцессор Xeon Phi 7120 сравнивался с NVIDIA Tesla K80.
| Конфигурация | Ускорение относительно двухсокетной рабочей станции |
| Двухсокетная рабочая станция без ускорителя | 1,0× |
| Intel Xeon Phi 7120 | Около 2,5× |
| NVIDIA Tesla K80 | От 3,4× до 3,8× |
Xeon Phi заметно ускорил расчёт, но Tesla K80 оказалась быстрее. Сравнение демонстрирует реальную рыночную ситуацию того периода: Intel Xeon Phi обеспечивал удобный путь для переноса CPU-кода, а GPU часто давал более высокий результат после специализированной оптимизации.
QCD: пример плохо подготовленного кода
Особенно полезен отрицательный пример. В работе по вычислениям lattice QCD тестировался алгоритм сопряжённых градиентов. Реализация для Intel Xeon Phi 7120P не использовала архитектуру полностью.
| Устройство и реализация | Производительность | Относительный результат |
| Intel Xeon Phi 7120P | 6,14 GFLOPS | 1,00× |
| NVIDIA GTX Titan Black, CUDA | 46,48 GFLOPS | 7,57× |
| NVIDIA GTX Titan Black, QUDA | 97,86 GFLOPS | 15,94× |
Авторы связывают слабый результат Xeon Phi с неполной 512-битной векторизацией и неудачным распределением данных. Эта таблица важнее рекламных цифр. Она показывает, что 61 ядро и 1,208 TFLOPS FP64 не превращают неподготовленную программу в быстрый вычислительный код.
Свёрточная нейронная сеть на самой карте
В работе по обучению свёрточной нейронной сети на Intel Xeon Phi 7120P исследователи сравнили многопоточную и однопоточную обработку на одном ускорителе.
| Режим работы Intel Xeon Phi 7120P | Количество потоков | Скорость относительно одного потока |
| Однопоточный режим | 1 | 1,0× |
| Полная загрузка карты | 244 | 103,5× |
Результат получен при обучении крупной сети на наборе MNIST в течение 15 эпох. Он не сравнивает Xeon Phi с современными GPU и не доказывает универсальное преимущество архитектуры. Таблица показывает внутреннее масштабирование конкретного алгоритма на 244 потока.
QPhiX и использование пропускной способности памяти
В работе QPhiX оптимизированное ядро Dslash на Intel Xeon Phi 7120P достигло 80% теоретической пропускной способности памяти.
| Показатель | Результат |
| Теоретическая пропускная способность памяти | 352 ГБ/с |
| Достигнутая доля теоретического максимума | 80% |
| Ориентировочная эффективная пропускная способность | Около 282 ГБ/с |
Этот пример показывает, что Knights Corner раскрывается после серьёзной оптимизации размещения данных, циклов и потоков.
Сводная таблица опубликованных результатов
| Нагрузка | Конфигурация | Результат | Что показывает тест |
| HPL | Dell PowerEdge C4130, 2 × Xeon Phi 7120P | 3,3× относительно CPU-only | Хорошая эффективность в плотной линейной алгебре |
| HPL | Dell PowerEdge C4130, 4 × Xeon Phi 7120P | 5,3× относительно CPU-only | Масштабирование в сервере с четырьмя ускорителями |
| Решатель уравнений мелкой воды | 1 × Xeon Phi 7120P | 1,6× относительно 2 × Xeon E5-2697 v2 | Преимущество в подготовленном численном коде |
| Решатель уравнений мелкой воды | 8 × Xeon Phi 7120P в двух узлах | 5,8× относительно CPU-системы | Масштабирование нескольких ускорителей |
| Аэродинамическая оптимизация | Xeon Phi 7120 | Около 2,5× | Реальный прирост в инженерной задаче |
| Аэродинамическая оптимизация | Tesla K80 | 3,4–3,8× | GPU быстрее Xeon Phi в этой реализации |
| Lattice QCD | Xeon Phi 7120P без полной адаптации | 6,14 GFLOPS | Сильное падение скорости при слабой векторизации |
| Свёрточная сеть | 244 потока на одной 7120P | 103,5× относительно одного потока | Высокое внутреннее масштабирование |
| QPhiX Dslash | Оптимизированная реализация | 80% теоретической полосы памяти | Высокая эффективность после глубокой оптимизации |
Почему производительность Xeon Phi 7120P зависит от оптимизации
Intel Xeon Phi 7120P нельзя рассматривать как устройство для автоматического ускорения любой программы. Его архитектура требует дисциплинированной разработки. Слабая реализация иногда работает медленнее GPU и даже медленнее мощного двухсокетного CPU-сервера.
Векторизация важнее количества потоков
61 ядро создаёт большой вычислительный ресурс, но максимальная скорость достигается через 512-битные SIMD-блоки. Без них ядра выполняют недостаточно операций за такт.
Разница между двумя реализациями одного алгоритма бывает огромной:
| Состояние кода | Типичный результат |
| Циклы подготовлены для 512-битных векторов | Высокая загрузка SIMD-блоков |
| Данные выровнены и читаются последовательно | Эффективное использование GDDR5 |
| Потоки распределены равномерно | Хорошая загрузка 61 ядра |
| Преобладают ветвления | Часть исполнительных блоков простаивает |
| Доступ к памяти хаотичный | Пропускная способность используется плохо |
| Данные постоянно пересылаются через PCIe | Накладные расходы снижают эффект ускорения |
| Работает один поток на ядро | Задержки скрываются хуже |
| Код собран без адаптации под Intel IMCI | Теоретический потенциал остаётся неиспользованным |
Обмен через PCI Express
PCI Express 2.0 x16 обеспечивает связь между сервером и ускорителем. Локальная память карты работает заметно быстрее канала обмена с хостом. Поэтому передача данных должна происходить крупными блоками и как можно реже.
Плохая схема:
-
Передать небольшой массив.
-
Выполнить короткую операцию.
-
Вернуть результат.
-
Повторить тысячи раз.
Рациональная схема:
-
Передать крупный массив.
-
Выполнить продолжительную серию операций на Xeon Phi.
-
Сохранить промежуточные данные в GDDR5.
-
Вернуть только итоговый результат.
Баланс между вычислениями и памятью
Часть задач ограничена арифметической производительностью. Другая часть упирается в память. У Xeon Phi 7120P сильны обе подсистемы, но для достижения высокой скорости алгоритм должен соответствовать архитектуре.
Плотное умножение матриц хорошо загружает вычислительные блоки. Разреженные структуры данных часто создают нерегулярные обращения к памяти. В первом случае ускоритель приближается к высокому проценту теоретического пика, во втором случае результат падает.
Почему одна цифра бенчмарка недостаточна
Показатель 1,208 TFLOPS FP64 описывает верхнюю границу. HPL показывает эффективность в плотной линейной алгебре. Аэродинамический расчёт показывает прикладную инженерную задачу. Lattice QCD демонстрирует последствия слабой подготовки кода.
Корректная оценка Intel Xeon Phi 7120P всегда начинается с анализа конкретного приложения:
-
какой объём данных обрабатывается;
-
помещается ли рабочий набор в 16 ГБ;
-
насколько равномерно распределяется нагрузка;
-
сколько операций выполняется после одной передачи массива;
-
использует ли компилятор 512-битные инструкции;
-
достаточно ли потоков запущено на каждом ядре;
-
нет ли частых синхронизаций;
-
насколько предсказуем доступ к памяти.
Оценки профильных публикаций и исследовательских работ
Intel Xeon Phi 7120P получил неоднозначные, но логичные оценки. Устройство показывает сильные результаты в подходящих задачах и требует заметно больше инженерной работы, чем следует из одной таблицы характеристик.
Dell: высокий прирост в HPL при разумной эффективности
Dell использовала Xeon Phi 7120P в PowerEdge C4130 и получила ускорение HPL в 3,3 раза с двумя картами и в 5,3 раза с четырьмя. Производительность на ватт выросла с 1,56 до 2,44 GFLOPS/Вт.
Вывод Dell практичный: Xeon Phi 7120P полезен в сервере, где нагрузка соответствует архитектуре, а питание и охлаждение рассчитаны заранее. Четыре ускорителя обеспечивают высокий прирост, но общая мощность системы приближается к 1,7 кВт.
Puget Systems: знакомая среда разработки и строгие требования к охлаждению
В описании Puget Systems отмечены две особенности модели:
-
программная среда ближе к привычной разработке под CPU, чем CUDA-подход;
-
версия 7120P не имеет активного вентилятора и требует мощного потока воздуха через корпус.
Это точное описание сильной и слабой стороны платы. Xeon Phi облегчает перенос части научного кода, но физическая установка в обычный домашний корпус остаётся плохой идеей.
Lenovo: корпоративная установка через специальный модуль
В руководстве Lenovo Press для NeXtScale nx360 M4 Intel Xeon Phi 7120P включён в список поддерживаемых ускорителей. Для него предусмотрен PCIe Native Expansion Tray с двумя полноразмерными двухслотовыми разъёмами PCIe x16.
Lenovo допускает установку одной или двух одинаковых плат. Для такого узла требуется 1300-ваттный блок питания шасси и питание 200–240 В. Этот пример показывает, что 7120P создавался для подготовленной серверной инфраструктуры, а не для случайной сборки из бытовых компонентов.
Исследовательские работы: результат зависит от качества переноса
Опубликованные работы дают более полную картину:
| Исследование | Итог |
| Решатель уравнений мелкой воды | Одна 7120P быстрее двух Xeon E5-2697 v2 в 1,6 раза |
| Аэродинамическая оптимизация | Xeon Phi ускоряет расчёт примерно в 2,5 раза, Tesla K80 достигает 3,4–3,8 раза |
| Lattice QCD | Неполная векторизация снижает скорость Xeon Phi до 6,14 GFLOPS |
| QPhiX | Подготовленный код достигает 80% полосы памяти |
| Свёрточная сеть | 244 потока дают ускорение 103,5× относительно одного потока на той же карте |
Общий вывод однозначен: Intel Xeon Phi 7120P силён не в универсальности, а в хорошо подготовленных параллельных вычислениях.
Серверные конфигурации на базе Xeon Phi 7120P
Intel Xeon Phi 7120P использовался в вычислительных серверах и профессиональных рабочих станциях. При сборке важны не только слот PCI Express и мощность блока питания. Необходимо учитывать поток воздуха, компоновку корпуса, количество ускорителей и программное окружение.
Dell PowerEdge C4130 с двумя Intel Xeon Phi 7120P
Конфигурация Dell с двумя платами выглядит сбалансированно для компактного HPC-узла.
| Компонент | Конфигурация |
| Сервер | Dell PowerEdge C4130 |
| Хостовые CPU | 2 × Intel Xeon E5-2690 v3 |
| Ядра хостовых CPU | 24 суммарно |
| Частота CPU | 2,6 ГГц |
| Оперативная память | 128 ГБ DDR4-2133 |
| Ускорители | 2 × Intel Xeon Phi 7120P |
| Память ускорителей | 32 ГБ GDDR5 ECC суммарно |
| Аппаратные потоки ускорителей | 488 |
| Схема распределения | Один ускоритель на один хостовый CPU |
| Блоки питания | 2 × 1600 Вт |
| ОС в тесте Dell | RHEL 6.5 |
| MPSS | 3.4 |
| Режим | Offload |
| Ускорение HPL | 3,3× относительно CPU-only |
Преимущество этой схемы — понятное соответствие между двумя хостовыми процессорами и двумя ускорителями. Она требует меньше энергии и проще охлаждается, чем вариант с четырьмя картами.
Dell PowerEdge C4130 с четырьмя Intel Xeon Phi 7120P
Максимальная конфигурация Dell ориентирована на высокий уровень плотности вычислений.
| Компонент | Конфигурация |
| Сервер | Dell PowerEdge C4130 |
| Хостовые CPU | 2 × Intel Xeon E5-2690 v3 |
| Оперативная память | 128 ГБ DDR4-2133 |
| Ускорители | 4 × Intel Xeon Phi 7120P |
| Память ускорителей | 64 ГБ GDDR5 ECC суммарно |
| Вычислительные ядра ускорителей | 244 |
| Аппаратные потоки ускорителей | 976 |
| Схема распределения | Два ускорителя на один хостовый CPU |
| Блоки питания | 2 × 1600 Вт |
| Ускорение HPL | 5,3× относительно CPU-only |
| Производительность на ватт | 2,44 GFLOPS/Вт |
| Потребление системы | Около 1716 Вт |
Такая сборка оправдана только при наличии задач, которые загружают все четыре ускорителя. Простая установка дополнительных плат без подготовки приложения не даёт пропорционального прироста.
Lenovo NeXtScale nx360 M4 с PCIe Native Expansion Tray
Lenovo предлагала серверный путь установки Intel Xeon Phi 7120P через отдельный модуль расширения.
| Компонент | Параметр |
| Серверный узел | Lenovo NeXtScale nx360 M4 |
| Хостовые CPU | До 2 × Intel Xeon E5-2600 v2 |
| Модуль расширения | PCIe Native Expansion Tray |
| Слоты | 2 × Full Height, Full Length, Double Width PCIe x16 |
| Поддерживаемые Xeon Phi 7120P | 1 или 2 |
| Условие для двух плат | Две одинаковые модели |
| Блок питания шасси | 1300 Вт |
| Сеть питания | 200–240 В |
| Охлаждение | Серверные вентиляторы шасси |
Эта конфигурация подходит для восстановления исторического вычислительного узла. Она ценна тем, что совместимость платы подтверждена производителем сервера.
Лабораторный стенд с одной Intel Xeon Phi 7120P
Для изучения Intel MIC достаточно одной карты. Практичный стенд строится вокруг серверной или рабочей станции с хорошей продувкой.
| Компонент | Требование |
| Корпус | Серверный либо профессиональный корпус с направленным воздушным каналом |
| Материнская плата | Полноразмерный слот PCI Express x16 |
| Процессор | Совместимый хостовый Xeon или другой серверный CPU |
| Оперативная память | От 32 ГБ для лабораторных задач |
| Видеовывод | Отдельная видеокарта или встроенный серверный контроллер |
| Блок питания | Качественный блок с запасом мощности |
| Дополнительные кабели | Один 8-контактный и один 6-контактный PCIe |
| Охлаждение Xeon Phi | Направленный поток через пассивный радиатор |
| ОС | Совместимая Linux-система для MPSS |
| Программный стек | Архивная версия Intel MPSS и подходящие инструменты разработки |
Главная ошибка при сборке такого стенда — попытка оценивать 7120P как дешёвую видеокарту. Она не выводит изображение и не охлаждается самостоятельно. Установка в обычный корпус без воздушного канала приводит к перегреву и снижению частоты.
Что проверить перед запуском
-
Плата занимает два слота.
-
Длина 247,9 мм помещается в корпус.
-
Радиатор не забит пылью.
-
В корпусе организован направленный поток.
-
Подключены оба силовых кабеля.
-
Блок питания рассчитан на 300 Вт ускорителя с запасом.
-
Для вывода изображения установлен отдельный адаптер.
-
ОС совместима с выбранной версией Intel MPSS.
-
Плата определяется средствами управления.
-
Мониторинг температуры работает до запуска длительной нагрузки.
Подходит ли Intel Xeon Phi 7120P для игр и разгона
Intel Xeon Phi 7120P не подходит для игровой сборки. Несмотря на форм-фактор платы расширения и память GDDR5, это не игровая видеокарта.
Почему игры не используют Xeon Phi 7120P
-
У карты нет видеовыходов.
-
У карты нет графического драйвера для запуска игр.
-
Она не выполняет роль DirectX- или Vulkan-видеокарты.
-
Она не заменяет центральный процессор.
-
Она не устанавливается в процессорный разъём.
-
Игровые движки не используют Intel MIC как стандартный вычислительный ускоритель.
-
Таблицы FPS для Xeon Phi 7120P не имеют практического смысла.
-
Для вывода изображения требуется отдельная видеокарта.
Даже при установке в настольную рабочую станцию карта остаётся HPC-сопроцессором. Она выполняет подготовленные вычислительные программы, а не рендерит игровую графику.
Разгон
Пользовательский разгон в стиле настольных процессоров для Intel Xeon Phi 7120P не предусмотрен. Штатная частота составляет 1,238 ГГц. Intel Turbo Boost поднимает её до 1,333 ГГц в допустимых тепловых и энергетических пределах.
| Режим | Частота |
| Базовая частота | 1,238 ГГц |
| Максимальная частота Turbo Boost | 1,333 ГГц |
| Разница | 95 МГц |
| Прирост частоты | Около 7,7% |
Практическая оптимизация Intel Xeon Phi 7120P заключается не в разгоне, а в другом:
-
правильной продувке радиатора;
-
стабильном питании;
-
загрузке трёх или четырёх потоков на ядро;
-
подготовке циклов к 512-битным операциям;
-
сокращении обмена через PCI Express;
-
рациональном использовании 16 ГБ локальной памяти;
-
подборе подходящих версий MPSS, компилятора и библиотек.
Аналоги Intel Xeon Phi 7120P и альтернативные ускорители
Intel Xeon Phi 7120P нужно сравнивать прежде всего с вычислительными ускорителями, а не с обычными процессорами. Серверные Xeon выполняют другую роль: они запускают ОС, обслуживают универсальный код и управляют системой.
Для общего понимания семейства полезен отдельный материал о серии Intel Xeon Phi 7100 Knights Corner.
Близкие модели Intel Xeon Phi
| Модель | Ядра | Базовая частота | Максимальная частота | Кэш L2 | Память | TDP | Охлаждение | Основное отличие |
| Xeon Phi 3120P | 57 | 1,10 ГГц | — | 28,5 МБ | 6 ГБ GDDR5 | 300 Вт | Пассивное | Более доступная модель |
| Xeon Phi 5110P | 60 | 1,053 ГГц | — | 30 МБ | 8 ГБ GDDR5 | 225 Вт | Пассивное | Ниже потребление и меньше памяти |
| Xeon Phi 7120P | 61 | 1,238 ГГц | 1,333 ГГц | 30,5 МБ | 16 ГБ GDDR5 ECC | 300 Вт | Пассивное | Рассматриваемая модель |
| Xeon Phi 7120A | 61 | 1,238 ГГц | 1,333 ГГц | 30,5 МБ | 16 ГБ GDDR5 ECC | 300 Вт | Активное | Встроенный вентилятор |
| Xeon Phi 7120D | 61 | 1,238 ГГц | 1,333 ГГц | 30,5 МБ | 16 ГБ GDDR5 ECC | 270 Вт | Для плотных серверных систем | Другое исполнение и TDP 270 Вт |
| Xeon Phi 7120X | 61 | 1,238 ГГц | 1,333 ГГц | 30,5 МБ | 16 ГБ GDDR5 ECC | 300 Вт | OEM-интеграция | Плата для специализированного охлаждения |
Xeon Phi 7120P или Xeon Phi 7120A
Эти модели близки по вычислительным характеристикам. Различие связано с охлаждением.
| Критерий | Xeon Phi 7120P | Xeon Phi 7120A |
| Ядра | 61 | 61 |
| Память | 16 ГБ GDDR5 ECC | 16 ГБ GDDR5 ECC |
| TDP | 300 Вт | 300 Вт |
| Радиатор | Пассивный | Активный |
| Встроенный вентилятор | Нет | Есть |
| Лучший сценарий | Сервер с мощным воздушным каналом | Рабочая станция с менее специализированным корпусом |
Для стандартного серверного узла версия 7120P логична. Для одиночной установки в рабочую станцию версия 7120A проще в охлаждении.
Xeon Phi 7120P или Xeon Phi 5110P
Xeon Phi 5110P потребляет меньше энергии, но уступает по памяти и частоте.
| Критерий | Xeon Phi 5110P | Xeon Phi 7120P |
| Ядра | 60 | 61 |
| Базовая частота | 1,053 ГГц | 1,238 ГГц |
| Кэш L2 | 30 МБ | 30,5 МБ |
| Память | 8 ГБ | 16 ГБ |
| Пропускная способность памяти | До 320 ГБ/с | До 352 ГБ/с |
| TDP | 225 Вт | 300 Вт |
| Охлаждение | Пассивное | Пассивное |
Xeon Phi 5110P рационален для задач с меньшими массивами и ограниченным энергобюджетом. Xeon Phi 7120P лучше подходит для вычислений, где нужны 16 ГБ локальной памяти и более высокая скорость.
NVIDIA Tesla K40
NVIDIA Tesla K40 относится к тому же историческому периоду и конкурирует с Xeon Phi 7120P в HPC-задачах.
| Параметр | Intel Xeon Phi 7120P | NVIDIA Tesla K40 |
| Архитектура | Knights Corner | Kepler |
| Вычислительная модель | Intel MIC | CUDA |
| Пиковая FP64-производительность | 1,208 TFLOPS | 1,43 TFLOPS |
| Пиковая FP32-производительность | 2,416 TFLOPS | 4,29 TFLOPS |
| Память | 16 ГБ GDDR5 ECC | 12 ГБ GDDR5 ECC |
| Пропускная способность памяти | 352 ГБ/с | 288 ГБ/с |
| Интерфейс | PCIe 2.0 x16 | PCIe 3.0 x16 |
| TDP | 300 Вт | 235 Вт |
| Охлаждение | Пассивное | Пассивное |
Xeon Phi 7120P предлагает больше памяти и более высокую полосу памяти. Tesla K40 выигрывает по FP32 и использует зрелую экосистему CUDA. Выбор зависит от программного кода, а не только от спецификаций.
NVIDIA Tesla K80
Tesla K80 вышла позже и содержит два GPU на одной плате.
| Параметр | Intel Xeon Phi 7120P | NVIDIA Tesla K80 |
| Вычислительные кристаллы | 1 | 2 |
| Пиковая FP64-производительность | 1,208 TFLOPS | До 2,91 TFLOPS |
| Пиковая FP32-производительность | 2,416 TFLOPS | До 8,74 TFLOPS |
| Память | 16 ГБ | 24 ГБ суммарно |
| Память на один GPU | 16 ГБ на одном сопроцессоре | 12 ГБ на GPU |
| Пропускная способность памяти | 352 ГБ/с | 480 ГБ/с суммарно |
| TDP | 300 Вт | 300 Вт |
| Модель программирования | Intel MIC | CUDA |
Tesla K80 быстрее в аэродинамическом тесте, приведённом выше. При этом Xeon Phi сохранял привлекательность для проектов, где исходный CPU-код проще переносился в экосистему Intel.
AMD FirePro S9150
AMD FirePro S9150 выделяется сильной FP64-производительностью и умеренным потреблением.
| Параметр | Intel Xeon Phi 7120P | AMD FirePro S9150 |
| Пиковая FP64-производительность | 1,208 TFLOPS | До 2,53 TFLOPS |
| Пиковая FP32-производительность | 2,416 TFLOPS | До 5,07 TFLOPS |
| Память | 16 ГБ GDDR5 ECC | 16 ГБ GDDR5 ECC |
| Пропускная способность памяти | 352 ГБ/с | До 320 ГБ/с |
| TDP | 300 Вт | 235 Вт |
| Программная среда | Intel MIC | OpenCL и инструменты AMD |
FirePro S9150 выигрывает по пиковой FP64-производительности на ватт. Xeon Phi 7120P отличается подходом Intel к переносу многопоточного CPU-кода.
Сводное сравнение исторических ускорителей
| Модель | FP64 | FP32 | Память | Полоса памяти | TDP | Основная среда |
| Intel Xeon Phi 7120P | 1,208 TFLOPS | 2,416 TFLOPS | 16 ГБ | 352 ГБ/с | 300 Вт | Intel MIC |
| NVIDIA Tesla K40 | 1,43 TFLOPS | 4,29 TFLOPS | 12 ГБ | 288 ГБ/с | 235 Вт | CUDA |
| NVIDIA Tesla K80 | До 2,91 TFLOPS | До 8,74 TFLOPS | 24 ГБ | 480 ГБ/с | 300 Вт | CUDA |
| AMD FirePro S9150 | До 2,53 TFLOPS | До 5,07 TFLOPS | 16 ГБ | До 320 ГБ/с | 235 Вт | OpenCL |
Эта таблица не заменяет прикладные тесты. Пиковые значения раскрываются только в подходящих алгоритмах. Для реального выбора необходимо учитывать существующий код, доступные библиотеки и стоимость переноса.
Обычные серверные Xeon как альтернатива
Стандартные процессоры Xeon не являются прямой заменой Intel Xeon Phi 7120P. Они выполняют другую работу. При этом двухсокетный сервер на Xeon часто оказывается практичнее в универсальных задачах.
| Сценарий | Рациональное решение |
| Запуск ОС и серверных служб | Обычный Xeon |
| Базы данных | Обычный Xeon |
| Виртуализация | Обычный Xeon |
| Веб-сервер | Обычный Xeon |
| Универсальная рабочая станция | Обычный Xeon |
| Хорошо распараллеливаемая научная задача | Xeon Phi 7120P как дополнительный ускоритель |
| Изучение Intel MIC | Xeon Phi 7120P |
| Восстановление старого HPC-узла | Xeon Phi 7120P при наличии совместимого окружения |
Современный сервер для новых проектов строится на актуальных CPU и поддерживаемых ускорителях. Xeon Phi 7120P имеет смысл там, где требуется именно Knights Corner или важна минимальная цена лабораторного оборудования.
Плюсы и минусы Intel Xeon Phi 7120P
Плюсы
-
61 вычислительное ядро.
-
244 аппаратных потока.
-
16 ГБ локальной памяти GDDR5.
-
Поддержка ECC.
-
16 каналов памяти.
-
Пропускная способность до 352 ГБ/с.
-
Суммарный кэш L2 объёмом 30,5 МБ.
-
512-битные SIMD-блоки.
-
Пиковая FP64-производительность около 1,208 TFLOPS.
-
Пиковая FP32-производительность около 2,416 TFLOPS.
-
Заметное ускорение плотной линейной алгебры.
-
Хорошее масштабирование подготовленных научных программ.
-
Поддержка offload mode.
-
Поддержка native mode.
-
Работа с Intel MKL и Intel MPI.
-
Встроенная Linux-среда.
-
Наличие недорогих плат на вторичном рынке.
-
Интерес для учебных стендов и исследований архитектуры Intel MIC.
-
Применимость для восстановления исторических HPC-систем.
-
Пассивный радиатор без изнашивающегося встроенного вентилятора.
Минусы
-
Снятие с производства.
-
Завершение обслуживания.
-
Устаревший программный стек Intel MPSS.
-
Необходимость совместимой старой операционной системы.
-
Тепловой пакет 300 Вт.
-
Обязательное подключение 8-контактного и 6-контактного силовых кабелей.
-
Жёсткие требования к направленному воздушному потоку.
-
Отсутствие встроенного вентилятора у версии 7120P.
-
Неудобство установки в обычный домашний корпус.
-
Отсутствие видеовыходов.
-
Непригодность для игр.
-
Непригодность для стандартной настольной сборки.
-
Отсутствие смысла в пользовательском разгоне.
-
Зависимость результата от глубокой векторизации.
-
Падение эффективности при частом обмене через PCI Express.
-
Ограничение локальной памяти объёмом 16 ГБ.
-
PCI Express 2.0 x16 вместо более новых версий интерфейса.
-
Слабая однопоточная производительность отдельных ядер.
-
Высокие затраты времени на адаптацию программ.
-
Отсутствие рационального применения в новых универсальных серверах.
Кому стоит покупать Intel Xeon Phi 7120P сегодня
Intel Xeon Phi 7120P больше не является универсальным выбором для высокопроизводительных вычислений. Современные ускорители быстрее, экономичнее и лучше поддерживаются актуальным программным обеспечением. Однако у 7120P остаются конкретные сценарии, где покупка оправдана.
Лаборатория и обучение
Недорогая плата с вторичного рынка подходит для изучения:
-
устройства многоядерных ускорителей;
-
архитектуры Intel MIC;
-
работы с 244 потоками;
-
векторизации Intel IMCI;
-
влияния памяти на численные алгоритмы;
-
различий между offload mode и native mode;
-
мониторинга серверных ускорителей;
-
оптимизации старого HPC-кода.
Для обучения ценность 7120P определяется не рекордной скоростью, а доступом к необычной архитектуре. За небольшую цену можно получить 61-ядерный вычислительный сопроцессор с собственной памятью и полноценным серверным стеком.
Поддержка старой инфраструктуры
Организации, которые сохранили приложения для Intel MIC, используют Xeon Phi 7120P как запасную часть. Это относится к вычислительным узлам, где перенос кода на новую платформу ещё не завершён.
В таком сценарии важны:
-
совпадение модели платы;
-
совместимость с установленной версией MPSS;
-
наличие резервного сервера;
-
исправный пассивный радиатор;
-
проверка памяти ECC;
-
контроль температуры под длительной нагрузкой.
Восстановление исторического HPC-узла
Xeon Phi 7120P подходит для реконструкции серверов Dell PowerEdge C4130, Lenovo NeXtScale nx360 M4 и других платформ своего периода. Такой проект полезен для музея вычислительной техники, учебной лаборатории или исследовательского стенда.
Эксперименты с переносом кода
Плата интересна разработчикам, которые изучают влияние архитектуры на производительность. Один и тот же алгоритм можно сравнить:
-
на хостовом Xeon;
-
на Xeon Phi в offload mode;
-
на Xeon Phi в native mode;
-
на GPU через CUDA или OpenCL;
-
с векторизацией и без неё;
-
при разном количестве потоков;
-
при разной структуре памяти.
Такой стенд наглядно показывает, почему теоретический пик и прикладная скорость часто различаются в десятки раз.
Кому Xeon Phi 7120P не нужен
Плата не подходит:
-
для игрового компьютера;
-
для офисного ПК;
-
для домашнего сервера;
-
для медиасервера;
-
для виртуализации;
-
для базы данных;
-
для рендеринга игр;
-
для замены обычного процессора;
-
для замены современной видеокарты;
-
для нового промышленного проекта без зависимости от Intel MIC;
-
для сборки без серверного охлаждения;
-
для человека, которому нужен простой запуск без настройки старого программного окружения.
Итоговый вердикт
Intel Xeon Phi Coprocessor 7120P — один из наиболее интересных серверных ускорителей эпохи Knights Corner. Он объединяет 61 вычислительное ядро, 244 аппаратных потока, 16 ГБ GDDR5 ECC, 352 ГБ/с пропускной способности памяти и 1,208 TFLOPS пиковой FP64-производительности.
В правильно подготовленных задачах карта показывает убедительный результат. В тесте Dell HPL две платы ускорили сервер в 3,3 раза, а четыре платы — в 5,3 раза. В решателе уравнений мелкой воды одна Xeon Phi 7120P обошла двухсокетную систему на Xeon E5-2697 v2 в 1,6 раза. В QPhiX оптимизированный код использовал около 80% теоретической полосы памяти.
Ускоритель одновременно требователен к условиям эксплуатации. Пассивный радиатор нуждается в мощном направленном потоке воздуха. Тепловой пакет достигает 300 Вт. Для питания необходимы отдельные 8-контактный и 6-контактный кабели. Программный стек устарел, а эффективный код требует 512-битной векторизации и грамотного распределения данных.
Покупка Intel Xeon Phi 7120P оправдана для лаборатории, учебного стенда, восстановления старого HPC-сервера и экспериментов с Intel MIC. Для игр, бытового компьютера, универсального сервера и нового промышленного комплекса эта карта не подходит. Её главная ценность сегодня заключается в доступной цене, необычной архитектуре и возможности на практике изучить вычислительный подход, который занимал важное место в развитии серверных ускорителей Intel.