Intel Xeon Phi 7210 занимает необычное место в истории серверного оборудования. Это не привычный Xeon для базы данных, виртуализации или универсального корпоративного сервера. Перед нами специализированный 64-ядерный HPC-процессор, рассчитанный на интенсивные параллельные вычисления, широкую векторизацию и работу с большим количеством потоков. Модель относится к семейству Xeon Phi x200, построена на архитектуре Knights Landing и выпускается в исполнении для сокета SVLCLGA3647, который в каталогах магазинов обычно сокращают до LGA3647.

Основная особенность Xeon Phi 7210 заключается в сочетании большого количества сравнительно медленных ядер, 256 аппаратных потоков, 32 МБ кеша L2, поддержки AVX-512 и встроенных 16 ГБ высокоскоростной памяти MCDRAM. В отличие от старых Xeon Phi поколения Knights Corner, выполненных в виде PCIe-сопроцессоров, Knights Landing способен самостоятельно загружать операционную систему. Процессор устанавливается в отдельную серверную плату и работает как центральный вычислительный узел.

Xeon Phi 7210 вышел во втором квартале 2016 года. Сейчас модель снята с производства, а срок сервисного обслуживания завершён. При этом процессор не утратил интерес для домашней лаборатории, учебного HPC-стенда, исследования старого серверного оборудования и переноса параллельного кода на AVX-512. Низкая цена экземпляров на вторичном рынке делает модель привлекательной для экспериментов, но стоимость готовой системы заметно выше цены самого процессора.

Параметр Значение
Модель Intel Xeon Phi Processor 7210
Семейство Intel Xeon Phi x200
Архитектура Knights Landing
Назначение HPC, научные расчёты, параллельная обработка данных
Техпроцесс 14 нм
Ядра 64
Аппаратные потоки 256
Потоки на ядро 4
Базовая частота 1,30 ГГц
Максимальная частота Turbo Boost 1,50 ГГц
Кеш L2 32 МБ
Встроенная память 16 ГБ MCDRAM
Оперативная память до 384 ГБ DDR4-2133 ECC
Каналы памяти 6
Максимальная пропускная способность DDR4 102 ГБ/с
PCI Express PCIe 3.0, до 36 линий
Сокет SVLCLGA3647
TDP 215 Вт
Набор инструкций Intel 64, AVX-512, AES-NI
Статус снят с производства

Для массового домашнего компьютера Intel Xeon Phi 7210 не подходит. Его нельзя оценивать по тем же правилам, что Core i5, Core i7, Ryzen 5 или Ryzen 7. Большое число ядер не превращает эту модель в быстрый игровой процессор. Главная задача Xeon Phi 7210 состоит в выполнении кода, который заранее подготовлен к масштабированию на десятки ядер, эффективно использует память MCDRAM и нагружает 512-битные векторные блоки.

Подробное положение модели внутри семейства раскрывается в материалах о линейке Intel Xeon Phi и серии Intel Xeon Phi 7200 Knights Landing.

Где купить Intel Xeon Phi 7210

Intel Xeon Phi 7210 давно не продаётся как актуальный серверный процессор через массовую розницу. Встречаются складские остатки, снятые с рабочих серверов экземпляры и восстановленные процессоры. При покупке необходимо учитывать состояние товара, наличие гарантии, стоимость доставки и совместимость с конкретной платой.

На AliExpress, в Ситилинке и на Яндекс Маркете отдельные карточки Intel Xeon Phi 7210 появляются нерегулярно. На момент проверки точное предложение модели в российской рознице отсутствует. В таблице приведены страницы, на которых удобно повторно проверить наличие перед заказом.

Площадка Цена на момент проверки
Memory4Less 76,01 доллара
Servero 10 фунтов без НДС
TechMikeNY 19,95 доллара
eBay от 50 долларов

Цены вторичного рынка сильно различаются. Один и тот же Xeon Phi 7210 продаётся дешевле обычного современного настольного процессора, но это не означает, что на его основе легко собрать недорогой компьютер. Сам процессор является только одним элементом платформы. Потребуются совместимая серверная плата, охлаждение для TDP 215 Вт, ECC-память, блок питания, подходящий корпус и время на настройку Linux.

Ноутбуков с Intel Xeon Phi 7210 не существует. Модель рассчитана на серверные платы и специализированные вычислительные узлы. Готовые системы встречаются преимущественно на вторичном рынке, среди лабораторного оборудования и старых HPC-решений. Перед покупкой отдельного процессора разумно проверить стоимость полноценного сервера: иногда готовая система оказывается выгоднее набора разрозненных компонентов.

Место Xeon Phi 7210 в развитии Intel Xeon Phi

Первые коммерческие Xeon Phi поколения Knights Corner были ускорителями в формате PCIe-карты. Такой сопроцессор устанавливался в сервер рядом с обычным Xeon и выполнял отдельные параллельные задачи. У него имелась собственная память, а приложение требовало переноса вычислений между центральным процессором и ускорителем.

Knights Landing изменил подход. Intel Xeon Phi 7210 стал самостоятельным загрузочным CPU. Он получил исполнение для сокета LGA3647, контроллер DDR4, PCI Express 3.0, встроенную MCDRAM и поддержку стандартной 64-битной архитектуры Intel. На сервере можно загрузить Linux непосредственно на Xeon Phi 7210, запустить компилятор, использовать OpenMP, MPI и библиотеки для численных вычислений.

Поколение Формат Роль в системе Память Основное отличие
Knights Corner, Xeon Phi x100 PCIe-карта сопроцессор рядом с обычным CPU собственная память ускорителя приложение переносит вычисления на карту
Knights Landing, Xeon Phi x200 сокетный CPU самостоятельный процессор MCDRAM и DDR4 загружает операционную систему напрямую
Knights Landing с суффиксом F сокетный CPU самостоятельный процессор MCDRAM и DDR4 дополнительно поддерживает интегрированный fabric

Xeon Phi 7210 относится к младшим сокетным моделям x200. Рядом с ним выпускались Xeon Phi 7210F, 7230, 7230F, 7250, 7250F, 7290 и 7290F. Суффикс F обозначает вариант с интегрированным высокоскоростным сетевым fabric. У обычного Xeon Phi 7210 такого встроенного fabric нет, поэтому для кластерной сети применяется отдельный адаптер PCIe.

Развитие Xeon Phi остановилось. Intel прекратила выпуск линейки, а дальнейшие серверные решения компании пошли по другому пути. Из-за этого Xeon Phi 7210 интересен не как современная покупка для продакшена, а как редкая вычислительная платформа со своими сильными и слабыми сторонами.

Архитектура Knights Landing внутри Xeon Phi 7210

Intel Xeon Phi 7210 содержит 64 активных вычислительных ядра. Каждое ядро поддерживает четыре аппаратных потока, поэтому операционная система видит до 256 логических процессоров. Высокое число потоков помогает скрывать задержки доступа к памяти и удерживать вычислительные блоки занятыми в параллельных нагрузках.

Ядра организованы по плиточному принципу. В одной плитке находятся два ядра, два векторных блока на каждое ядро и общий кеш L2 объёмом 1 МБ. Для 64-ядерного Xeon Phi 7210 активны 32 вычислительные плитки, что даёт суммарные 32 МБ кеша L2. Отдельного кеша L3 нет.

Связь между плитками, контроллерами памяти и другими блоками кристалла обеспечивает двумерная mesh-сеть. Такая схема лучше подходит для большого количества ядер, чем классическая кольцевая шина. При этом расстояние между ядром и нужным участком памяти различается, поэтому режим кластеризации влияет на задержки и производительность.

Элемент архитектуры Реализация в Xeon Phi 7210 Практическое значение
Активные ядра 64 высокая пропускная способность в параллельных задачах
Потоки на ядро 4 до 256 аппаратных потоков
Плитки 32 активные плитки по два ядра локальная организация вычислений
Кеш L1 32 КБ инструкций и 32 КБ данных на ядро быстрый доступ для текущих операций
Кеш L2 1 МБ на два ядра, суммарно 32 МБ общий кеш внутри плитки
Кеш L3 отсутствует его роль частично компенсирует MCDRAM в Cache Mode
Векторные блоки два VPU на ядро обработка широких векторных операций
Векторные инструкции AVX-512 ускорение хорошо подготовленного численного кода
Межсоединение 2D mesh связь плиток и контроллеров памяти
MCDRAM 16 ГБ внутри корпуса процессора высокая пропускная способность памяти
DDR4 шесть каналов до 384 ГБ системной памяти

Основа производительности Xeon Phi 7210 заключается не в частоте. Базовые 1,30 ГГц выглядят скромно даже на фоне серверных процессоров середины 2010-х годов. Модель выигрывает только там, где вычисления масштабируются по десяткам ядер, данные удаётся разместить рационально, а код использует векторные инструкции.

При полной загрузке векторных блоков расчётный предел производительности на базовой частоте составляет около 2,66 TFLOPS в операциях двойной точности и около 5,32 TFLOPS в операциях одинарной точности. Эти значения являются теоретическим потолком. Реальное приложение достигает только части максимума, поскольку итог зависит от ветвлений, доступа к памяти, компиляции, структуры данных и степени параллелизма.

Полные характеристики Intel Xeon Phi 7210

Раздел Параметр Значение
Общие сведения Полное название Intel Xeon Phi Processor 7210
Общие сведения Семейство Intel Xeon Phi x200
Общие сведения Кодовое имя Knights Landing
Общие сведения Сегмент сервер
Общие сведения Номер процессора 7210
Общие сведения Техпроцесс 14 нм
Общие сведения Дата выхода второй квартал 2016 года
Общие сведения Состояние модели снята с производства
Общие сведения Сервисное обслуживание завершено
Общие сведения Встраиваемое исполнение отсутствует
Вычислительные блоки Ядра 64
Вычислительные блоки Аппаратные потоки 256
Вычислительные блоки Потоки на ядро 4
Вычислительные блоки Активные плитки 32
Вычислительные блоки Векторные блоки два VPU на ядро
Частоты Базовая частота 1,30 ГГц
Частоты Максимальная Turbo-частота 1,50 ГГц
Частоты Intel Turbo Boost версия 2.0
Кеш L1 для инструкций 32 КБ на ядро
Кеш L1 для данных 32 КБ на ядро
Кеш L2 1 МБ на два ядра
Кеш Общий объём L2 32 МБ
Кеш L3 отсутствует
MCDRAM Встроенная память 16 ГБ
MCDRAM Расположение внутри корпуса процессора
MCDRAM Основные режимы Cache, Flat, Hybrid, Auto
MCDRAM Практическая пропускная способность более 300 ГБ/с в тесте STREAM с gcc
MCDRAM Оптимизированные показатели свыше 450 ГБ/с в опубликованных измерениях Intel
DDR4 Максимальный объём 384 ГБ
DDR4 Поддерживаемый тип DDR4-2133
DDR4 Каналы памяти 6
DDR4 Максимальная пропускная способность 102 ГБ/с
DDR4 ECC поддерживается
Расширение PCI Express версия 3.0
Расширение Максимальное число линий PCIe 36
Расширение Основные порты два x16 и один x4
Расширение Понижение ширины линий поддерживается
Корпусировка Сокет SVLCLGA3647
Корпусировка Упрощённое обозначение LGA3647
Энергопотребление TDP 215 Вт
Энергопотребление Диапазон VID 0,550–1,125 В
Инструкции Архитектура Intel 64
Инструкции Разрядность 64 бита
Инструкции Расширения Intel AVX-512
Инструкции AVX-512 для Knights Landing AVX-512F, AVX-512CD, AVX-512ER, AVX-512PF
Безопасность Intel AES New Instructions поддерживается
Безопасность Execute Disable Bit поддерживается
Безопасность Intel SGX отсутствует
Безопасность Intel MPX отсутствует
Безопасность Intel TXT отсутствует
Безопасность Intel Boot Guard отсутствует
Виртуализация Intel VT-x отсутствует
Виртуализация Intel VT-d отсутствует
Виртуализация EPT отсутствует
Системные функции Idle States поддерживаются
Системные функции Температурный мониторинг поддерживается
Поставка Формат Tray
Поставка Код заказа HJ8066702859300
Поставка Spec Code SR2ME и SR2X4
Поставка Stepping B0

У Xeon Phi 7210 есть важное ограничение: аппаратная виртуализация отсутствует. Процессор не поддерживает VT-x, VT-d и EPT. Для сервера с виртуальными машинами, гипервизором и пробросом устройств нужно выбирать обычный Xeon Scalable, Xeon E5 или AMD EPYC. В этом сценарии Xeon Phi 7210 изначально является неподходящей основой.

Зачем Xeon Phi 7210 нужны 16 ГБ MCDRAM

Обычная оперативная память подключается к Xeon Phi 7210 через шесть каналов DDR4-2133. Её объём достигает 384 ГБ, а максимальная пропускная способность составляет 102 ГБ/с. Для универсального сервера этого достаточно, но HPC-приложения часто ограничиваются не арифметикой, а скоростью передачи данных.

MCDRAM решает эту проблему. В корпус процессора встроены 16 ГБ высокоскоростной памяти. Она заметно быстрее DDR4 и располагается ближе к вычислительным блокам. В тестах STREAM на Xeon Phi 7210 пропускная способность MCDRAM превышала 300 ГБ/с уже при компиляции gcc. При дополнительной оптимизации публиковались результаты выше 450 ГБ/с.

Высокая скорость MCDRAM не означает автоматического ускорения любого приложения. Память помогает только тогда, когда код действительно ограничен пропускной способностью, а рабочий набор данных либо помещается в 16 ГБ, либо рационально разделён между MCDRAM и DDR4. Для задач с нерегулярным доступом важнее задержка, поэтому обычная DDR4 иногда оказывается быстрее.

Свойство MCDRAM DDR4-2133
Объём в системе Xeon Phi 7210 16 ГБ до 384 ГБ
Расположение внутри корпуса процессора внешние модули DIMM
Основная сила высокая пропускная способность большой объём
Практическая роль горячие данные, кеш, интенсивный обмен основное хранилище данных
Ограничение малый объём более низкая пропускная способность
Лучшие сценарии матричные операции, численные методы, потоковая обработка крупные наборы данных, нагрузки с упором на объём

Cache Mode

В Cache Mode вся MCDRAM используется как большой кеш для DDR4. Приложение не управляет памятью вручную и работает с обычным адресным пространством. Такой режим удобен для первого запуска: он позволяет получить ускорение без изменения кода.

Cache Mode полезен, когда программа ещё не адаптирована к Xeon Phi 7210. При этом разработчик не контролирует размещение данных. Поведение зависит от характера обращения к памяти, размера рабочего набора и повторного использования информации.

Flat Mode

В Flat Mode операционная система видит MCDRAM как отдельную адресуемую область памяти. При установленных 96 ГБ DDR4 доступный объём увеличивается до 112 ГБ: 96 ГБ обычной памяти и 16 ГБ MCDRAM. Разработчик размещает наиболее интенсивно используемые данные в MCDRAM и получает предсказуемый результат.

Flat Mode требует настройки приложения. Для запуска применяются NUMA-инструменты, библиотеки управления памятью и осознанное распределение массивов. Такой подход оправдан в расчётах, где небольшой набор горячих данных определяет скорость всего приложения.

Hybrid Mode

Hybrid Mode разделяет MCDRAM между кешем и отдельной адресуемой областью. Часть памяти работает автоматически, а часть остаётся под управлением приложения. Режим применяется в более сложных проектах, где удобно сохранить кеширование и вручную разместить самые важные структуры данных.

Режим Как используется MCDRAM Доработка приложения Сильная сторона Ограничение
Cache кеш для DDR4 не требуется простой запуск меньше контроля
Flat отдельная память требуется предсказуемое размещение данных необходимо управлять NUMA
Hybrid кеш и отдельная память требуется гибкая настройка усложняется конфигурация
Auto выбор конфигурации платформой зависит от системы упрощение первого запуска меньше предсказуемости

Режимы кластеризации Xeon Phi 7210

Кристалл Knights Landing содержит большое количество плиток и распределённые контроллеры памяти. Для управления доступом к памяти используются режимы кластеризации. Они задаются в BIOS и влияют на задержки, локальность данных и поведение NUMA.

Режим Принцип работы Что видит операционная система Где использовать
All-to-All обращения распределяются по mesh-сети без выраженной локальности один узел первый запуск и совместимость
Quadrant кристалл логически разделён на четыре области обычно один узел универсальные HPC-нагрузки
Hemisphere кристалл разделён на две области обычно один узел промежуточный вариант
SNC-2 две NUMA-области два узла NUMA-осведомлённые приложения
SNC-4 четыре NUMA-области четыре узла тонкая оптимизация локальности
Auto выбор режима платформой зависит от BIOS первичная настройка

Для обычного переноса кода разумно начинать с Quadrant и Cache Mode. Такой вариант не требует ручного распределения MCDRAM. После проверки стабильности имеет смысл сравнить Flat Mode, а затем подобрать режим кластеризации.

ServeTheHome тестировал несколько сочетаний параметров на рабочей станции с Xeon Phi 7210. В простом AVX2-нагруженном приложении лучшим вариантом оказался All-to-All с Flat Mode. Переход с Quadrant на All-to-All также сократил время компиляции ядра Linux примерно на 8%. Этот пример показывает, что универсального режима для всех программ нет.

Исследования обработки графов дают такой же вывод. Часть приложений ускоряется благодаря MCDRAM, часть предпочитает DDR4 из-за меньшей задержки, а SNC способен снижать производительность программ, которые не учитывают NUMA. Настройка памяти является обязательным этапом работы с Xeon Phi 7210, а не дополнительной возможностью для энтузиаста.

Совместимость: плата, сокет, память и охлаждение

На корпусе процессора и в магазинах встречается обозначение LGA3647. В спецификации Intel используется более точное название SVLCLGA3647. Механического совпадения сокета недостаточно. Xeon Phi 7210 устанавливается только в платы с поддержкой Knights Landing, подходящей схемой питания и совместимой прошивкой BIOS.

Обычная серверная плата LGA3647 для Xeon Scalable не становится совместимой автоматически. Перед покупкой необходимо проверить список поддерживаемых процессоров конкретной модели платы. Учитываются версия BIOS, конструкция сокета, допустимый TDP и наличие нужной обвязки.

Хорошим ориентиром является рабочая станция Supermicro SYS-5038K-I-ES1. В ней использовались:

  • серверная плата Supermicro K1SPE;

  • Intel Xeon Phi 7210;

  • жидкостная система охлаждения CoolIT;

  • шесть модулей DDR4 RDIMM по 16 ГБ;

  • блок питания Seasonic мощностью 600 Вт с сертификатом 80 Plus Gold;

  • два сетевых порта 1GbE;

  • отдельный порт IPMI;

  • три слота PCI Express;

  • накопители SATA и возможность установки PCIe SSD.

TDP процессора составляет 215 Вт. Для постоянной вычислительной нагрузки требуется мощное охлаждение и направленный воздушный поток. Обычный компактный кулер для настольного процессора не подходит. В серверном корпусе применяется производительный радиатор с активным обдувом, а в рабочей станции Supermicro использовалась замкнутая жидкостная система.

Память устанавливается по шести каналам. Для сбалансированной конфигурации используются шесть одинаковых ECC RDIMM. Минимально разумный объём для лабораторного стенда составляет 96 ГБ при схеме 6 × 16 ГБ. Конфигурация 6 × 32 ГБ даёт 192 ГБ. Верхний предел процессора достигает 384 ГБ, но конкретная плата способна ограничивать доступный объём.

Компонент Практическая рекомендация
Материнская плата только специализированная плата с поддержкой Knights Landing
BIOS версия с настройками MCDRAM и кластеризации
Оперативная память шесть одинаковых ECC RDIMM
Минимальный разумный объём DDR4 96 ГБ
Охлаждение серверный кулер или жидкостная система для 215 Вт
Блок питания качественная модель от 600 Вт для одиночного узла
Накопитель SSD вместо медленного HDD
Сеть 10GbE как минимум для активной передачи данных
Кластерная сеть 25/40/50GbE, InfiniBand или Omni-Path через отдельную карту
Корпус полноразмерный серверный или workstation-корпус с направленным потоком воздуха

Для вычислительного узла желательно установить SSD. Смена MCDRAM и cluster mode требует перезагрузки. На старом HDD цикл тестирования заметно замедляется. В лабораторной системе быстрый накопитель экономит время при многократной настройке BIOS и повторных измерениях.

Операционные системы и программная среда

Xeon Phi 7210 загружает стандартную 64-битную операционную систему. Основной средой остаётся Linux. Для работы подходят серверные дистрибутивы с необходимым ядром, компиляторами и инструментами NUMA.

ServeTheHome запускал на системе с Xeon Phi 7210 CentOS 7 и Ubuntu 16.04.1. Работали контейнеры Docker с Alpine Linux. На той же платформе загружались Windows Server 2012 R2 и Windows Server 2016 Datacenter. Для FreeBSD стабильной отправной точкой стала версия 11, тогда как старые ветки FreeBSD 10.x не загружались корректно.

Сегодня старые дистрибутивы из первоначальных тестов не подходят для подключения к открытому интернету без дополнительной защиты. Для лабораторного стенда рациональнее использовать изолированную сеть и совместимый Linux-дистрибутив с обновляемыми пакетами. При необходимости старую среду сохраняют внутри закрытого контура для воспроизводимости измерений.

Для раскрытия производительности нужны:

  • OpenMP для многопоточной обработки;

  • MPI для распределённых расчётов;

  • NUMA-инструменты;

  • Intel oneAPI или совместимые компиляторы;

  • оптимизированные математические библиотеки;

  • отчёты о векторизации;

  • контроль привязки потоков;

  • мониторинг использования DDR4 и MCDRAM.

Xeon Phi 7210 чувствителен к компилятору. ServeTheHome фиксировал прирост производительности от перехода с gcc на icc в отдельных тестах на 30% и более. Причина заключается в оптимизации под Knights Landing, выборе векторных инструкций и более эффективной генерации кода.

Для gcc применяются расширения:

-mavx512f -mavx512cd -mavx512er -mavx512pf

Для старых Intel Compiler использовался параметр:

-xMIC-AVX512

Сам факт успешной компиляции не гарантирует ускорения. Необходимо проверить, векторизованы ли циклы, правильно ли размещены данные, хватает ли параллельных участков и не упирается ли приложение в синхронизацию потоков.

Теоретическая производительность и реальные ограничения

При оценке Xeon Phi 7210 легко допустить ошибку: увидеть 64 ядра и ожидать, что процессор превзойдёт обычный Xeon в любой задаче. На практике модель работает иначе.

Каждое ядро Xeon Phi 7210 медленнее ядра универсального серверного процессора. Частота составляет 1,30 ГГц, а Turbo Boost достигает 1,50 ГГц только в подходящем режиме нагрузки. Программы с небольшим количеством потоков выполняются медленно. Это касается браузера, офисного ПО, части серверных служб, архиваторов без достаточного распараллеливания, игровых движков и компиляции проектов с большим количеством последовательных этапов.

Сильная сторона процессора раскрывается при одновременном выполнении четырёх условий:

  1. нагрузка масштабируется на десятки или сотни потоков;

  2. код использует AVX-512;

  3. данные размещены с учётом MCDRAM и NUMA;

  4. синхронизация потоков не съедает выигрыш от распараллеливания.

Характер нагрузки Ожидаемое поведение Xeon Phi 7210
Один или несколько потоков низкая скорость
До нескольких десятков потоков без AVX-512 обычный Xeon часто быстрее
Сотни потоков с нерегулярным доступом к памяти результат сильно зависит от программы
Потоковая обработка данных MCDRAM даёт заметный выигрыш
Хорошо векторизованный численный код сильная сторона платформы
Виртуализация аппаратная поддержка отсутствует
Игры нерациональный выбор
Учебный HPC-стенд интересная платформа

ServeTheHome сформулировал практическое правило: для нагрузки менее чем примерно на 44 потока без AVX-512 проще использовать стандартный Xeon E5. Эта граница не является строгой характеристикой процессора, но хорошо показывает специфику Knights Landing.

Бенчмарки Intel Xeon Phi 7210

PassMark PerformanceTest

В базе PassMark для Intel Xeon Phi 7210 сохранён результат PerformanceTest V10. Выборка состоит из одного подтверждённого результата, поэтому погрешность высокая. Эти цифры подходят для общей ориентации, но не заменяют HPC-тесты.

Тест PassMark Результат Xeon Phi 7210
CPU Mark 7 306
Single Thread Rating 460
Integer Math 84 874 MOps/s
Floating Point Math 29 356 MOps/s
Find Prime Numbers 10 млн простых чисел/с
Random String Sorting 8 956 тыс. строк/с
Data Encryption 3 455 МБ/с
Data Compression 332 960 КБ/с
Physics 198 кадров/с
Extended Instructions 18 359 млн матриц/с

Однопоточный результат 460 баллов показывает главное ограничение модели. Современный настольный CPU выполняет одиночный поток в несколько раз быстрее. Xeon Phi 7210 не компенсирует этот недостаток количеством ядер там, где приложение не масштабируется.

В карточке PassMark встречается упрощённое отображение 64 потоков. Реальная конфигурация Xeon Phi 7210 включает четыре потока на ядро и до 256 аппаратных потоков. Это подтверждается результатами SPEC и конфигурациями рабочих станций Knights Landing.

CPU-Z Benchmark

В базе CPU-Z для Xeon Phi 7210 сохранён результат 56 баллов в однопоточном режиме и 5 648 баллов в многопоточном режиме.

CPU-Z Benchmark Xeon Phi 7210
Single Thread 56
Multi Thread 5 648
Отношение многопоточного результата к однопоточному около 100,9

Это необычный профиль производительности. У настольных процессоров разница между однопоточным и многопоточным режимом намного меньше. Xeon Phi 7210 слаб в одиночном потоке, но способен масштабироваться при правильной загрузке большого числа ядер.

SPEC OMPG2012

Результат SPEC OMPG2012 получен на Intel Xeon Phi 7210 с частотой 1,30 ГГц, включённым SMT, отключённым Turbo Boost, 96 ГБ ECC-памяти и режимом Flat DRAM + MCDRAM. Тест запускался на 256 потоках. Итоговый показатель SPECompG_base2012 составил 4,25.

Параметр тестовой системы SPEC Значение
Процессор Intel Xeon Phi 7210
Частота 1,30 ГГц
Ядра 64
Потоки 256
SMT включён
Turbo Boost отключён
Оперативная память 96 ГБ ECC
MCDRAM Flat Mode
Cluster Mode Quadrant
ОС CentOS Linux 7.2
Компилятор Intel Composer XE 2016
Общий результат SPECompG_base2012 = 4,25
Тест SPEC OMPG2012 Потоки Медианное время, с Медианное отношение
350.md 256 541 8,56
351.bwaves 256 785 5,77
352.nab 256 699 5,57
357.bt331 256 1 822 2,60
358.botsalgn 256 1 193 3,64
359.botsspar 256 2 338 2,25
360.ilbdc 256 691 5,15
362.fma3d 256 650 5,84
363.swim 256 996 4,55
367.imagick 256 1 985 3,54
370.mgrid331 256 1 799 2,46
371.applu331 256 1 487 4,07
372.smithwa 256 1 058 5,06
376.kdtree 256 1 037 4,34

Таблица наглядно показывает, что разные приложения масштабируются неодинаково. Даже в подготовленном OpenMP-наборе отношение производительности различается почти в четыре раза. Нельзя взять один результат и распространить его на любое программное обеспечение.

STREAM и пропускная способность MCDRAM

ServeTheHome измерял пропускную способность MCDRAM в Flat Mode с gcc. По мере увеличения числа потоков результат превысил 300 ГБ/с. В оптимизированных материалах Intel встречаются показатели выше 450 ГБ/с.

Сценарий STREAM Результат
DDR4-2133 до 102 ГБ/с по спецификации контроллера
MCDRAM Flat Mode, тест ServeTheHome с gcc более 300 ГБ/с
Оптимизированные измерения Intel более 450 ГБ/с

STREAM не показывает скорость всех приложений. Он измеряет потоковую работу с памятью. Результат полезен для понимания MCDRAM: встроенные 16 ГБ действительно дают пропускную способность, недоступную обычной DDR4 этого поколения.

Рабочая станция Supermicro SYS-5038K-I-ES1

ServeTheHome измерял энергопотребление и шум готовой рабочей станции с Xeon Phi 7210.

Параметр системы Результат
Потребление в простое 109 Вт
Среднее потребление под нагрузкой 248 Вт
Максимальное зафиксированное потребление 331 Вт
Уровень шума 33–37 дБА

В рабочей станции использовалось жидкостное охлаждение. Уровень шума оставался умеренным для офиса, но такая система всё равно требует больше внимания, чем обычный настольный компьютер. При круглосуточной работе необходимо следить за температурой, насосом, вентиляторами и чистотой радиатора.

Измерения прикладных нагрузок

Научные публикации и профильные обзоры показывают, что итог зависит от качества оптимизации.

Источник и нагрузка Результат Что показывает измерение
Lincoln Laboratory, Caffe ускорение в 2,7 раза относительно Xeon E5 v3 Xeon Phi 7210 способен ускорять подготовленные ML-нагрузки
Lincoln Laboratory, DGEMM около 3,5 раза относительно предыдущих Xeon в однопоточном тесте DGEMM векторные блоки эффективны в матричных операциях
Lincoln Laboratory, аналитические приложения около 60% теоретического максимума хорошо подготовленный код использует заметную часть потенциала
ServeTheHome, компиляция ядра Linux All-to-All сократил время примерно на 8% относительно Quadrant BIOS-настройки влияют даже на разработческие задачи
ServeTheHome, отдельные тесты icc давал прирост от 30% компилятор имеет большое значение
Исследование обработки графов разные приложения требуют разного числа потоков максимальная загрузка 256 потоков не всегда оптимальна
Исследование обработки графов MCDRAM полезна не для всех алгоритмов высокая пропускная способность не заменяет низкую задержку DDR4

Отдельные исследования Knights Landing показывали ускорение примерно до четырёх раз относительно Knights Corner или двух обычных CPU, когда задача помещалась в 16 ГБ MCDRAM. Такие данные характеризуют архитектуру KNL в целом. Их нельзя механически считать результатом именно Xeon Phi 7210 без проверки конфигурации конкретного стенда.

Для каких задач подходит Intel Xeon Phi 7210

Xeon Phi 7210 создавался для вычислительных задач с высокой степенью параллелизма. Процессор способен приносить пользу там, где приложение заранее рассчитано на многопоточность и векторизацию.

Подходит хорошо

  • численное моделирование;

  • матричные вычисления;

  • операции DGEMM;

  • физические симуляции;

  • расчёты методом конечных разностей;

  • обработка больших массивов данных;

  • научные пакеты с OpenMP;

  • MPI-задачи в вычислительном кластере;

  • исследование AVX-512;

  • обучение оптимизации памяти;

  • тестирование NUMA;

  • отдельные задачи машинного обучения;

  • потоковая обработка данных;

  • лабораторные стенды HPC.

Подходит после настройки

  • рендеринг с хорошим масштабированием;

  • обработка графов;

  • компиляция крупных проектов;

  • контейнерные вычислительные службы;

  • аналитика;

  • экспериментальная обработка изображений;

  • серверные сценарии с большим количеством независимых процессов;

  • исследование распределённых приложений.

Не подходит как рациональная основа

  • игровой компьютер;

  • обычная домашняя система;

  • офисный ПК;

  • сервер виртуализации;

  • хост для большого количества виртуальных машин;

  • универсальная рабочая станция без HPC-программ;

  • NAS для домашнего хранения файлов;

  • веб-сервер, где важна скорость отдельных потоков;

  • сборка с расчётом на низкое энергопотребление.

Главное правило выбора простое: Intel Xeon Phi 7210 покупают под конкретную вычислительную задачу. Использовать его только из-за 64 ядер бессмысленно.

Серверные конфигурации на Xeon Phi 7210

Лабораторная рабочая станция

Такой вариант подходит для изучения Knights Landing, переноса старого кода и локальной разработки.

Компонент Рекомендация
Процессор Intel Xeon Phi 7210
Материнская плата специализированная плата Knights Landing
Оперативная память 6 × 16 ГБ DDR4 ECC RDIMM
Общий объём DDR4 96 ГБ
MCDRAM 16 ГБ
Накопитель SATA SSD или PCIe SSD от 480 ГБ
Охлаждение жидкостная система или серверный кулер для 215 Вт
Блок питания качественный БП от 600 Вт
Сеть 10GbE
ОС совместимый Linux
Первичная настройка Quadrant + Cache Mode
Оптимизированная настройка сравнение Flat Mode и All-to-All

Для такого стенда имеет смысл искать готовую рабочую станцию Supermicro или аналогичную систему. Покупка отдельного процессора оправдана только при наличии совместимой платы.

Вычислительный узел с упором на MCDRAM

Этот вариант предназначен для задач, где важна пропускная способность памяти.

Компонент Рекомендация
Процессор Intel Xeon Phi 7210
DDR4 6 × 32 ГБ ECC RDIMM
Общий объём DDR4 192 ГБ
MCDRAM Flat Mode
Cluster Mode Quadrant, затем сравнение с SNC-4 и All-to-All
Накопитель NVMe SSD
Сеть 25GbE или InfiniBand
ОС Linux
Инструменты OpenMP, MPI, NUMA, отчёты о векторизации
Назначение численные методы, матрицы, потоковая обработка

В Flat Mode горячие данные размещаются в 16 ГБ MCDRAM вручную. DDR4 используется для общего массива данных. Такая конфигурация требует работы с NUMA, но даёт более предсказуемый результат.

Учебный HPC-кластер

Для распределённых вычислений используются несколько одинаковых узлов.

Компонент Рекомендация
Узлы 2–4 одинаковые системы Xeon Phi 7210
DDR4 на узел 96 или 192 ГБ ECC
MCDRAM одинаковый режим на всех узлах
Сеть 25/40/50GbE, InfiniBand или другая HPC-сеть
Накопитель локальный SSD на каждом узле
Управление IPMI
ОС единый Linux-образ
Программная среда MPI, OpenMP, NUMA-инструменты
Назначение обучение MPI, профилирование, тесты масштабирования

Базовая модель 7210 не содержит интегрированного fabric. Для сети требуется отдельный PCIe-адаптер. Для узлов с интегрированным сетевым интерфейсом рассматривался Xeon Phi 7210F.

Сервер общего назначения

Xeon Phi 7210 не стоит использовать как обычный сервер. Отсутствие аппаратной виртуализации, слабая производительность отдельных потоков и сложность платформы делают такую сборку нерациональной.

Для базы данных, CRM, файлового хранилища, веб-приложений и виртуальных машин лучше выбрать Xeon Scalable, Xeon E5 или AMD EPYC. Xeon Phi 7210 оправдан только тогда, когда сервер выполняет вычисления, ради которых и создавалась архитектура Knights Landing.

Игровая сборка на Xeon Phi 7210

Intel Xeon Phi 7210 не является игровым процессором. Для игр важны высокая производительность отдельных ядер, низкие задержки, совместимость с массовыми платами и стабильная работа современных драйверов. Xeon Phi 7210 проигрывает по этим критериям обычным настольным моделям.

Показатель CPU-Z Single Thread составляет 56 баллов, а PassMark Single Thread Rating — 460 баллов. Частота 1,30–1,50 ГГц слишком низкая для игр. Даже при наличии 64 ядер игровой движок не превращает их в высокий FPS. Большинство игр не распределяет нагрузку на сотни потоков, а MCDRAM и AVX-512 почти не дают преимущества.

Публиковать таблицу FPS для Xeon Phi 7210 без воспроизводимых тестов неправильно. Достоверных игровых измерений для этой модели недостаточно. Подбор видеокарты, игрового корпуса и настроек графики не имеет практического смысла.

Игровая сборка с Xeon Phi 7210 остаётся только техническим экспериментом. Для реального игрового компьютера подойдёт обычный Core, Ryzen или современный процессор для рабочей станции.

Частоты, Turbo Boost, охлаждение и настройка

Базовая частота Intel Xeon Phi 7210 составляет 1,30 ГГц. Максимальная частота Turbo Boost достигает 1,50 ГГц. Это верхняя частота для подходящего режима работы, а не гарантированная частота всех ядер при длительной AVX-512-нагрузке.

Для Xeon Phi 7210 важнее не разгон, а настройка платформы:

  • выбор Cache Mode или Flat Mode;

  • размещение данных в MCDRAM;

  • выбор режима кластеризации;

  • привязка потоков;

  • настройка NUMA;

  • выбор компилятора;

  • включение AVX-512;

  • проверка отчётов о векторизации;

  • настройка охлаждения;

  • контроль температуры под длительной нагрузкой.

Достоверные данные о классическом разгоне Xeon Phi 7210 отсутствуют. У модели нет практического сценария повышения множителя, характерного для настольных процессоров. Экспериментировать с напряжением и частотой на редкой серверной платформе нерационально: выигрыш ограничен, а риск потери стабильности и повреждения оборудования высок.

TDP 215 Вт требует серьёзного охлаждения. Рабочая станция Supermicro с жидкостной системой потребляла до 331 Вт целиком при максимальной зафиксированной нагрузке. В серверном корпусе следует обеспечить направленный поток воздуха через радиатор и область преобразователей питания.

Сравнение Xeon Phi 7210 с другими процессорами Xeon Phi x200

Модель Ядра Потоки Базовая частота Turbo Boost Кеш L2 TDP Особенность
Xeon Phi 7210 64 256 1,30 ГГц 1,50 ГГц 32 МБ 215 Вт базовая модель
Xeon Phi 7210F 64 256 1,30 ГГц 1,50 ГГц 32 МБ 230 Вт интегрированный fabric
Xeon Phi 7230 64 256 1,30 ГГц 1,50 ГГц 32 МБ 215 Вт старшая модификация
Xeon Phi 7230F 64 256 1,30 ГГц 1,50 ГГц 32 МБ 230 Вт интегрированный fabric
Xeon Phi 7250 68 272 1,40 ГГц 1,60 ГГц 34 МБ 215 Вт больше ядер и выше частота
Xeon Phi 7250F 68 272 1,40 ГГц 1,60 ГГц 34 МБ 230 Вт fabric и 68 ядер
Xeon Phi 7290 72 288 1,50 ГГц 1,70 ГГц 36 МБ 245 Вт старшая модель x200
Xeon Phi 7290F 72 288 1,50 ГГц 1,70 ГГц 36 МБ 260 Вт старшая модель с fabric

Xeon Phi 7210 интересен низкой ценой вторичного рынка. Xeon Phi 7250 и 7290 быстрее, но встречаются реже и требуют такого же внимательного подбора платы. Модель 7210F полезна для специализированного кластера с интегрированным сетевым fabric, но для одиночной рабочей станции обычный 7210 проще.

Аналоги Intel Xeon Phi 7210

Прямого универсального аналога у Xeon Phi 7210 нет. Выбор замены зависит от задачи. Для научного приложения важны AVX-512, MCDRAM и масштабирование. Для универсального сервера важнее производительность отдельных ядер, аппаратная виртуализация, объём памяти и доступность платформы. Для машинного обучения часто рациональнее использовать GPU.

Модель или платформа Тип Сильная сторона Слабая сторона относительно Xeon Phi 7210 Рациональный сценарий
Xeon Phi 7250 HPC-процессор 68 ядер, выше частота редкость и сложность платформы более быстрый узел Knights Landing
Xeon Phi 7290 HPC-процессор 72 ядра, до 1,70 ГГц выше TDP и цена максимальная производительность x200
Два Xeon E5-2697 v4 серверные CPU универсальность, сильнее отдельные потоки нет MCDRAM старый сервер для широкого набора задач
Два Xeon E5-2698 v4 серверные CPU высокая скорость компиляции и универсальных нагрузок выше суммарное потребление рабочая станция общего назначения
Xeon Scalable серверные CPU виртуализация, современные платы, удобная эксплуатация нет встроенной MCDRAM у большинства моделей корпоративный сервер
AMD EPYC 7601 серверный CPU 32 ядра, 64 потока, восемь каналов DDR4, PCIe 3.0 x128 другая архитектура, нет MCDRAM универсальный сервер на вторичном рынке
Современные AMD EPYC серверные CPU высокая плотность ядер и актуальная экосистема выше стоимость рабочий продакшен-сервер
NVIDIA Tesla P40 GPU-ускоритель 24 ГБ памяти, высокая производительность GPU-задач требует CUDA и подходящего приложения инференс и GPU-вычисления
Современные вычислительные GPU ускорители высокая производительность в ML и параллельных расчётах другой подход к программированию новые проекты машинного обучения

AMD EPYC 7601 является интересным историческим конкурентом для универсального сервера. У него 32 ядра, 64 потока, базовая частота 2,20 ГГц, Boost до 3,20 ГГц, TDP 180 Вт, восемь каналов DDR4 и 128 линий PCIe 3.0. EPYC 7601 заметно практичнее в обычных серверных задачах и поддерживает виртуализацию. Xeon Phi 7210 выигрывает только в специализированных вычислениях, где раскрываются MCDRAM и AVX-512.

NVIDIA Tesla P40 относится к другой категории оборудования. Это PCIe-ускоритель с 24 ГБ GDDR5, пропускной способностью памяти 346 ГБ/с и максимальным потреблением 250 Вт. Для приложений CUDA, инференса и части параллельных расчётов Tesla P40 удобнее. Xeon Phi 7210 остаётся интересным там, где важна работа с привычным CPU-кодом, OpenMP и стандартной 64-битной средой.

Оценки профильных изданий и исследований

ServeTheHome подробно тестировал рабочую станцию Supermicro SYS-5038K-I-ES1 с Xeon Phi 7210. Итог получился двойственным. Платформа производит сильное впечатление как средство разработки для Knights Landing, поддерживает широкий набор операционных систем и даёт высокую пропускную способность MCDRAM. Одновременно она требует ручной настройки, подходящего компилятора и осознанного использования AVX-512. Для обычного кода стандартный Xeon остаётся проще и быстрее.

Важные выводы ServeTheHome:

  • одиночное ядро Knights Landing работает медленно;

  • нагрузки менее чем примерно на 44 потока без AVX-512 рациональнее запускать на Xeon E5;

  • переход с gcc на icc способен дать прирост от 30%;

  • MCDRAM в STREAM превышает 300 ГБ/с;

  • режимы памяти и кластеризации заметно влияют на итог;

  • готовая рабочая станция подходит для изучения KNL лучше самодельной сборки;

  • высокоскоростная сеть нужна даже для лабораторного узла.

Исследование Lincoln Laboratory посвящено анализу данных и машинному обучению. На Xeon Phi 7210 приложение Caffe показало ускорение в 2,7 раза относительно Xeon E5 v3. Аналитические приложения достигали примерно 60% теоретического пика, а DGEMM демонстрировал заметное преимущество KNL. Эти результаты подтверждают, что процессор раскрывается в математически насыщенных нагрузках.

Исследование графовых приложений показало более сложную картину. Одним алгоритмам помогает MCDRAM, другим выгоднее DDR4 с меньшей задержкой. Оптимальное количество потоков отличается не только между программами, но и между наборами данных. AVX-512 в нерегулярных графовых задачах используется не полностью. SNC снижает скорость приложений, которые не учитывают NUMA.

Тип нагрузки Итоговая оценка
Потоковая работа с памятью сильная сторона MCDRAM
Векторизованные матричные операции сильная сторона Xeon Phi 7210
Машинное обучение старого поколения возможен заметный выигрыш после оптимизации
Графовые алгоритмы результат зависит от структуры данных
Компиляция приемлемо, но обычные Xeon часто быстрее
Универсальный сервер нерационально
Виртуализация не подходит
Игры не подходит
Учебный стенд интересный вариант

Плюсы и минусы Intel Xeon Phi 7210

Плюсы

  • 64 физических ядра;

  • до 256 аппаратных потоков;

  • встроенные 16 ГБ MCDRAM;

  • пропускная способность MCDRAM свыше 300 ГБ/с в практических измерениях;

  • поддержка AVX-512;

  • шесть каналов DDR4-2133;

  • поддержка ECC;

  • до 384 ГБ оперативной памяти;

  • самостоятельная загрузка операционной системы;

  • совместимость со стандартной 64-битной программной средой;

  • возможность запускать Linux напрямую;

  • интересная платформа для OpenMP и MPI;

  • полезный стенд для изучения NUMA;

  • доступные цены вторичного рынка;

  • высокая ценность для исследования HPC-кода;

  • возможность настройки Cache Mode, Flat Mode и Hybrid Mode;

  • несколько режимов кластеризации;

  • поддержка PCIe 3.0 с 36 линиями.

Минусы

  • низкая производительность отдельных потоков;

  • базовая частота всего 1,30 ГГц;

  • Turbo Boost ограничен 1,50 ГГц;

  • отсутствие аппаратной виртуализации;

  • нет VT-x;

  • нет VT-d;

  • нет EPT;

  • редкие совместимые платы;

  • обычная плата LGA3647 не гарантирует совместимость;

  • сложный подбор охлаждения;

  • TDP 215 Вт;

  • необходимость настройки BIOS;

  • необходимость подбирать режим MCDRAM;

  • заметная зависимость от компилятора;

  • AVX-512 раскрывается только в подготовленном коде;

  • современные приложения редко оптимизируются под Knights Landing;

  • платформа снята с производства;

  • сервисное обслуживание завершено;

  • готовая система обходится дороже самого процессора;

  • для игр не подходит;

  • для офисного ПК не подходит;

  • для универсального сервера не подходит;

  • для виртуальных машин не подходит.

Итоговый вывод

Intel Xeon Phi 7210 — редкий 64-ядерный HPC-процессор Knights Landing с 256 аппаратными потоками, 16 ГБ MCDRAM и поддержкой AVX-512. Он интересен не количеством ядер само по себе, а архитектурой, рассчитанной на масштабируемые вычисления и интенсивную работу с памятью.

Покупать Xeon Phi 7210 стоит для домашней лаборатории, учебного кластера, исследования NUMA, изучения AVX-512, переноса OpenMP-кода и экспериментов с MCDRAM. Низкая цена вторичного рынка делает процессор доступным, но полноценная сборка остаётся сложной. Основные расходы связаны с платой, памятью, охлаждением и поиском совместимых компонентов.

Для игр, повседневного компьютера и универсального сервера модель не подходит. Слабая однопоточная производительность, частота 1,30–1,50 ГГц и отсутствие виртуализации ограничивают практическое применение. Современный Xeon Scalable или AMD EPYC проще в эксплуатации и лучше работает в типовых серверных задачах.

Xeon Phi 7210 остаётся интересным памятником эпохи, когда Intel пыталась объединить удобство CPU и пропускную способность специализированного ускорителя. В правильно подготовленной задаче процессор демонстрирует серьёзные результаты. Без оптимизации он превращается в медленную, горячую и сложную платформу, преимущества которой остаются неиспользованными.