Intel Xeon Phi 3120A — не обычный серверный процессор для установки в сокет и не видеокарта для вывода изображения. Это вычислительный PCIe-сопроцессор семейства Intel Xeon Phi, созданный для ускорения хорошо распараллеливаемых задач: линейной алгебры, численного моделирования, инженерных расчётов, финансовых моделей, научного программного обеспечения и тестов класса LINPACK. Плата устанавливается в сервер или рабочую станцию как карта расширения, получает питание от слота PCI Express и двух дополнительных разъёмов, а затем работает совместно с основным центральным процессором.
Модель относится к первому коммерческому поколению Xeon Phi x100 с архитектурой Knights Corner. На плате размещены 57 вычислительных ядер с частотой 1,10 ГГц, 6 ГБ собственной памяти GDDR5 с коррекцией ошибок ECC и 28,5 МБ кеша второго уровня. Интерфейс памяти обеспечивает пропускную способность 240 ГБ/с. Пиковая производительность двойной точности находится около отметки 1 ТФЛОПС. Для ускорителя 2013 года это серьёзный результат, особенно в расчётах FP64, где массовые игровые видеокарты того периода заметно уступали специализированным решениям.
Буква A в названии указывает на активную систему охлаждения. Intel Xeon Phi 3120A получил закрытый кожух и встроенную турбину. Близкая версия Xeon Phi 3120P использует пассивное охлаждение и рассчитана на серверное шасси с направленным потоком воздуха. Внешне платы похожи, но условия эксплуатации различаются принципиально. Модель 3120A удобнее для рабочей станции и лабораторного стенда: собственный вентилятор самостоятельно прогоняет воздух через радиатор.
Семейство Xeon Phi развивалось дальше. Старшие карты Knights Corner разобраны в материале Intel Xeon Phi 7100 Series Knights Corner x100 MIC, а более позднее поколение представлено в статье Intel Xeon Phi 7200 Knights Landing x200. Общая история линейки собрана в обзоре Intel Xeon Phi: Knights Corner, Knights Landing и Knights Mill.
У Xeon Phi 3120A отсутствует универсальность привычного CPU. Большое количество ядер не ускоряет браузер, офисные приложения, игры или обычные программы для Windows. Сопроцессор раскрывается только в программном обеспечении, подготовленном для архитектуры MIC, большого числа потоков и широких 512-битных векторных инструкций. Его ценность определяется не количеством ядер само по себе, а соответствием алгоритма устройству платы.
Intel выпустила Xeon Phi 3120A во втором квартале 2013 года. Модель снята с производства, а срок сервисного обслуживания завершён. Для новых коммерческих серверов карта устарела. Для лаборатории, учебного стенда, сохранённого HPC-проекта или экспериментов с параллельным программированием она остаётся интересным устройством: на вторичном рынке встречаются рабочие экземпляры по цене, несопоставимой с первоначальной стоимостью ускорителя.
Где купить Intel Xeon Phi 3120A
Intel Xeon Phi 3120A давно отсутствует в обычной рознице. Новые поставки прекращены, поэтому основная часть предложений относится к складским остаткам, восстановленным платам и экземплярам после эксплуатации в серверных системах. Перед покупкой важно отличать сам сопроцессор от запасных вентиляторов: на торговых площадках часто встречаются турбины для Xeon Phi 3120A, а не полноценные вычислительные карты.
Цены в таблице отражают состояние страниц на момент подготовки материала. Стоимость вторичного оборудования меняется вместе с наличием у конкретного продавца.
| Магазин или площадка | Состояние предложения | Цена |
|---|---|---|
| Computing Parts | Восстановленная карта доступна для заказа | 1 695,52 £ |
На старте продаж семейство Xeon Phi 3100 оценивалось примерно в 1 695 долларов. Современная стоимость определяется не исходным ценником, а состоянием конкретного экземпляра, наличием системы охлаждения, исправностью турбины и подтверждённым запуском. Очень дешёвая карта без проверки несёт риск дополнительных расходов: ремонт вентилятора, поиск совместимой платформы, покупка блока питания и настройка старой программной среды нередко обходятся дороже самого ускорителя.
Что проверить перед покупкой
Перед оформлением заказа требуется получить фотографии именно приобретаемой платы. Изображение из каталога продавца не заменяет снимки реального экземпляра.
-
На наклейке должно присутствовать обозначение SC3120A.
-
Синий кожух и встроенная турбина должны быть установлены на плате.
-
Разъём PCI Express не должен иметь сколов, следов окисления и повреждённых контактных площадок.
-
На печатной плате не должно быть следов перегрева, потемневших участков и повреждений около силовых разъёмов.
-
Необходимы фотографии дополнительного 8-контактного и 6-контактного разъёмов питания.
-
Турбина должна вращаться без постороннего шума и вибрации.
-
Продавец должен предоставить подтверждение запуска карты в системе.
-
Полезен скриншот телеметрии с температурой, частотой и состоянием сопроцессора.
-
Комплектная крепёжная планка упрощает установку в корпус.
-
Для импортной покупки важны условия возврата.
На вторичном рынке встречается версия 3120P. Она не заменяет 3120A в обычном корпусе без направленного серверного обдува. У 3120P нет встроенной турбины. Установка пассивной платы в рабочую станцию без отдельного воздушного канала приводит к перегреву.
Сколько стоит готовый стенд
Цена сопроцессора составляет только часть бюджета. Рабочая конфигурация включает хостовый компьютер, полноразмерный корпус, материнскую плату с подходящим слотом, мощный блок питания и отдельное устройство вывода изображения. Xeon Phi 3120A не подключается к монитору и не выполняет функции видеокарты.
Для лабораторного стенда с одной картой разумен запас блока питания не менее 850–1000 Вт при наличии основного CPU и дискретной видеокарты. Для двух карт требуется более мощная платформа с достаточным количеством линий PCIe и тщательно организованным охлаждением. Система с четырьмя платами относится к классу специализированных рабочих станций и серверов.
Полные характеристики Intel Xeon Phi 3120A
Ниже собраны параметры конкретной модели Intel Xeon Phi 3120A. Данные относятся именно к версии с активным охлаждением. Близкие модификации 3120P, 31S1P, 5110P и 7120A отличаются памятью, энергопотреблением, частотой и конструкцией системы охлаждения.
| Раздел | Параметр | Значение | Практическое значение |
| Общие сведения | Полное название | Intel Xeon Phi Coprocessor 3120A | Вычислительный сопроцессор, а не сокетный CPU |
| Общие сведения | Обозначение платы | SC3120A | Используется при поиске товара и документации |
| Общие сведения | Семейство | Intel Xeon Phi x100 | Первое коммерческое поколение Xeon Phi |
| Общие сведения | Архитектура | Knights Corner | Архитектура MIC первого поколения |
| Общие сведения | Сегмент | Server | Серверные и HPC-системы |
| Общие сведения | Дата выпуска | Второй квартал 2013 года | Историческое оборудование для существующих проектов и лабораторий |
| Общие сведения | Статус | Discontinued | Серийное производство прекращено |
| Общие сведения | Сервисный жизненный цикл | Завершён | Новые производственные внедрения нецелесообразны |
| Производство | Техпроцесс | 22 нм | Характерный техпроцесс поколения Knights Corner |
| Вычислительная часть | Количество ядер | 57 | Массовый параллелизм вместо высокой скорости одного ядра |
| Вычислительная часть | Частота | 1,10 ГГц | Базовая частота всех вычислительных ядер |
| Вычислительная часть | Intel Turbo Boost | Нет | Автоматического повышения частоты сверх номинала нет |
| Вычислительная часть | Аппаратные потоки | 4 потока на ядро | До 228 потоков на всей карте |
| Вычислительная часть | Набор инструкций | 64-битный | Исполнение программ для MIC с 64-битной адресацией |
| Вычислительная часть | Векторное расширение | Intel IMCI | 512-битные векторные операции |
| Вычислительная часть | Пиковая FP64-производительность | Около 1,0 ТФЛОПС | Ориентир для вычислений двойной точности |
| Вычислительная часть | Пиковая FP32-производительность | Около 2,0 ТФЛОПС | Ориентир для вычислений одинарной точности |
| Кеш | Кеш L1 | 32 КБ инструкций и 32 КБ данных на ядро | Локальная работа ядра с инструкциями и данными |
| Кеш | Кеш L2 | 512 КБ на ядро | Распределённый когерентный кеш |
| Кеш | Общий объём L2 | 28,5 МБ | 57 ядер × 512 КБ |
| Память | Тип памяти | GDDR5 | Собственная память ускорителя |
| Память | Объём памяти | 6 ГБ | Ограничивает размер локальной задачи |
| Память | Количество каналов | 12 | Параллельный доступ к GDDR5 |
| Память | Пропускная способность | 240 ГБ/с | Сильная сторона платы в расчётах с интенсивным доступом к памяти |
| Память | Коррекция ошибок | ECC | Защита данных при длительных вычислениях |
| Память | Отношение к RAM хоста | Отдельное адресное пространство | Данные передаются между системной памятью и памятью платы |
| Интерфейс | Подключение | PCI Express 2.0 x16 | Основной интерфейс обмена с хостом |
| Интерфейс | Работа в слоте x8 | Поддерживается | Пропускная способность обмена снижается |
| Интерфейс | SMBus | Поддерживается | Телеметрия и взаимодействие с серверной системой управления |
| Интерфейс | Отдельный сетевой интерфейс внутри ОС | Используется программной средой | Хост взаимодействует с картой как с отдельным вычислительным узлом |
| Питание | TDP | 300 Вт | Требуется мощный блок питания и интенсивное охлаждение |
| Питание | Питание через PCIe | До 75 Вт | Подаётся через слот |
| Питание | Дополнительный разъём | 8-контактный, 2×4 | До 150 Вт |
| Питание | Дополнительный разъём | 6-контактный, 2×3 | До 75 Вт |
| Питание | Суммарный бюджет | До 300 Вт | Оба дополнительных разъёма обязательны |
| Питание | Мониторинг линии +12 В | Есть | Контроль подачи питания |
| Питание | Ограничение мощности | Power capping | Управление верхним пределом энергопотребления |
| Охлаждение | Тип охлаждения | Активное | Встроенная турбина |
| Охлаждение | Конструкция | Закрытый кожух с радиатором | Воздух проходит через внутренний канал платы |
| Охлаждение | Управление вентилятором | Автоматическое | Контроллер регулирует обороты по температуре |
| Охлаждение | Максимальная скорость турбины | До 5400 об/мин | Высокий уровень воздушного потока под нагрузкой |
| Охлаждение | Мощность двигателя вентилятора | До 20 Вт | Турбина рассчитана на интенсивную работу |
| Охлаждение | Воздушный поток без препятствий | До 35 CFM | Максимум в свободных условиях |
| Охлаждение | Воздушный поток без соседней блокировки | Около 31 CFM | Реалистичный режим в корпусе |
| Охлаждение | Воздушный поток при соседней блокировке | Около 23 CFM | Плотная установка ухудшает охлаждение |
| Охлаждение | Датчики температуры | Есть | Контроль входящего и выходящего воздуха, памяти и компонентов платы |
| Охлаждение | Защита от перегрева | Thermal throttling и PROCHOT | Частота снижается при опасном нагреве |
| Управление | Контроллер SMC | Есть | Сбор телеметрии и управление состоянием платы |
| Управление | Телеметрия | Температура, напряжение, обороты вентилятора, состояние питания | Диагностика через программные средства |
| Надёжность | ECC памяти | Есть | Снижение риска ошибок при продолжительных расчётах |
| Надёжность | Card-level RAS | Поддерживается | Контроль состояния и восстановление после отдельных сбоев |
| Загрузка | Встроенная flash-память | Есть | Хранение компонентов загрузки среды сопроцессора |
| Загрузка | Собственная операционная среда | Embedded Linux uOS | Карта загружается как отдельный вычислительный узел |
| Программная среда | Intel MPSS | Используется | Драйверы и средства управления Manycore Platform Software Stack |
| Программная среда | Native mode | Поддерживается | Программа запускается непосредственно на сопроцессоре |
| Программная среда | Offload mode | Поддерживается | Хост передаёт отдельные вычислительные участки на карту |
| Программная среда | OpenMP | Поддерживается в соответствующей среде разработки | Распараллеливание вычислений по потокам |
| Программная среда | MPI | Используется в HPC-проектах | Координация вычислительных процессов |
| Программная среда | Intel MKL | Используется для оптимизированной математики | Ускорение линейной алгебры и связанных операций |
| Программная среда | Intel C/C++ Compiler | Использовался для сборки MIC-приложений | Компиляция кода для сопроцессора |
| Программная среда | Intel Fortran Compiler | Использовался для инженерных и научных проектов | Компиляция Fortran-кода для MIC |
| Программная среда | OpenCL | Поддерживался программным стеком | Запуск вычислительных задач через OpenCL |
| Форм-фактор | Тип платы | Полноразмерная двухслотовая PCIe-карта | Требуется свободное пространство в корпусе |
| Форм-фактор | Масса | Около 1400 г | Нужна надёжная фиксация платы |
| Форм-фактор | Ориентировочные размеры | Около 9,8 × 4,4 × 1,6 дюйма | Карта не подходит для компактных корпусов |
| Форм-фактор | Разъёмы вывода изображения | Нет | Плата не заменяет видеокарту |
| Игровое применение | DirectX-графика | Не предназначена | Игры не используют Xeon Phi как графический ускоритель |
| Игровое применение | Увеличение FPS | Отсутствует | Карта не добавляет производительность в играх |
| Современное применение | Новые производственные серверы | Неактуально | Производство и сервис завершены |
| Современное применение | Лабораторные стенды | Актуально | Подходит для обучения и воспроизведения старых HPC-проектов |
Варианты поставки
Intel выпускала несколько вариантов комплектации SC3120A. Вычислительная плата во всех случаях относится к той же модели, но крепёж и назначение комплекта различаются.
| Код поставки | Комплектация | Назначение |
| SC3120A | Активное охлаждение, крепёжная планка PCIe | Стандартная карта расширения |
| SC3120AEB | Активное охлаждение, крепёжная планка PCIe | Отдельная поставка платы |
| SC3120AIB | Активное охлаждение, установленная планка ISA | Специализированные корпуса |
| SC3120AKIT | Developer Starter Kit for Workstation | Комплект для рабочей станции |
Архитектура Knights Corner: как устроен Xeon Phi 3120A
Xeon Phi 3120A построен вокруг большого количества сравнительно простых вычислительных ядер. Такой подход заметно отличается от архитектуры обычных серверных Xeon. Центральный процессор стремится быстро выполнять широкий набор задач, поддерживает сложные механизмы предсказания переходов и обеспечивает высокую скорость одного потока. Xeon Phi рассчитан на другой режим: тысячи однотипных математических операций распределяются между десятками ядер и сотнями аппаратных потоков.
57 ядер и 228 аппаратных потоков
Каждое ядро Knights Corner обслуживает четыре аппаратных потока. Для Xeon Phi 3120A итоговое количество потоков составляет 228:
| Параметр | Значение |
| Вычислительные ядра | 57 |
| Аппаратные потоки на ядро | 4 |
| Максимальное количество аппаратных потоков | 228 |
| Частота ядра | 1,10 ГГц |
Большое число потоков помогает скрывать задержки доступа к памяти и поддерживать загрузку исполнительных блоков. Для этого программа должна создавать достаточное количество параллельной работы. Однопоточная задача использует лишь малую часть возможностей платы и выполняется неэффективно.
512-битные векторные инструкции Intel IMCI
Главная вычислительная особенность Knights Corner — 512-битный векторный блок. За одну операцию он обрабатывает сразу несколько чисел. Для двойной точности FP64 в один 512-битный регистр помещаются восемь 64-битных значений. Операция fused multiply-add одновременно выполняет умножение и сложение, поэтому учитываются две математические операции на каждый элемент.
Расчёт теоретического пика FP64 выглядит так:
| Элемент расчёта | Значение |
| Ядра | 57 |
| Частота | 1,10 ГГц |
| Значения FP64 в 512-битном векторе | 8 |
| Операции на значение при FMA | 2 |
| Теоретический пик | 57 × 1,10 × 8 × 2 = 1003,2 GFLOPS |
Для одинарной точности FP32 в вектор помещаются 16 чисел:
| Элемент расчёта | Значение |
| Ядра | 57 |
| Частота | 1,10 ГГц |
| Значения FP32 в 512-битном векторе | 16 |
| Операции на значение при FMA | 2 |
| Теоретический пик | 57 × 1,10 × 16 × 2 = 2006,4 GFLOPS |
Эти значения описывают идеальный режим. Реальная программа достигает меньшей скорости из-за обращений к памяти, ветвлений, обмена через PCIe, неполной загрузки потоков и особенностей алгоритма. Высокий результат требует векторизации кода.
Распределённый кеш второго уровня
У каждого ядра присутствует 512 КБ кеша L2. Суммарный объём равен 28,5 МБ. Кеши объединены когерентной системой, поэтому ядра согласованно работают с данными. Внутренняя кольцевая шина связывает вычислительные блоки, кеш, контроллеры памяти и интерфейс PCIe.
| Параметр кеша | Значение |
| L1 инструкций на ядро | 32 КБ |
| L1 данных на ядро | 32 КБ |
| L2 на ядро | 512 КБ |
| Общий L2 | 28,5 МБ |
| Когерентность L2 | Поддерживается |
Распределённый кеш полезен для параллельной обработки блоков данных, но не отменяет важность локальности. Алгоритм с хаотичными обращениями к памяти теряет значительную часть производительности.
Собственная память GDDR5
На плате установлено 6 ГБ памяти GDDR5 с ECC. Это отдельная память сопроцессора, а не продолжение оперативной памяти сервера. Хост передаёт данные через PCI Express. В native mode приложение запускается непосредственно внутри среды карты и работает с локальной памятью. В offload mode центральный процессор отправляет вычислительный фрагмент и необходимые данные на Xeon Phi.
| Параметр памяти | Значение |
| Тип | GDDR5 |
| Объём | 6 ГБ |
| Каналы | 12 |
| Пропускная способность | 240 ГБ/с |
| ECC | Есть |
| Доступ со стороны хоста | Через PCI Express |
Шесть гигабайт ограничивают размер локальной задачи. Часть памяти занимает встроенная операционная среда. В тесте Puget Systems размер матрицы для LINPACK подбирался так, чтобы расчёт помещался в доступный объём карты.
Почему обычная программа не ускоряется автоматически
После установки Xeon Phi 3120A в компьютер операционная система не получает ещё 57 универсальных ядер рядом с основным CPU. Карта загружает собственную среду и взаимодействует с хостом как отдельный вычислительный узел. Обычный EXE-файл Windows не запускается на встроенной Linux-среде без специальной сборки. Код компилируется под архитектуру MIC, а математические участки подготавливаются к многопоточному и векторному исполнению.
Это важное отличие от замены процессора на более быстрый Xeon. Установка нового CPU ускоряет широкий круг программ. Установка Xeon Phi приносит пользу только подготовленному программному обеспечению.
Устройство платы, питание и активное охлаждение
Xeon Phi 3120A потребляет до 300 Вт. Для платы такого класса охлаждение и питание имеют такое же значение, как архитектура. Недостаточный воздушный поток приводит к снижению частоты, а неподключённый силовой разъём нарушает нормальную работу ускорителя.
Схема питания
Карта получает энергию из трёх источников:
| Источник питания | Максимальная мощность | Назначение |
| Слот PCI Express | 75 Вт | Базовое питание платы |
| Дополнительный разъём 2×4 | 150 Вт | Основной внешний силовой канал |
| Дополнительный разъём 2×3 | 75 Вт | Второй внешний силовой канал |
| Суммарно | 300 Вт | Полный бюджет Xeon Phi 3120A |
Оба дополнительных кабеля обязательны. Intel предусмотрела контроль достаточности питания. При неполном подключении карта не работает штатно. Переходники низкого качества и перегруженные линии блока питания не подходят для продолжительной вычислительной нагрузки.
Для одной платы нужен блок питания с реальным запасом мощности. Система с Xeon Phi 3120A одновременно питает центральный процессор, оперативную память, накопители, вентиляторы и отдельную видеокарту для вывода изображения. Номинальная мощность блока питания не должна совпадать с расчётным максимумом системы вплотную.
Конструкция охлаждения
Активная версия оснащена турбиной с двумя зонами забора воздуха. Внутри кожуха расположены радиатор, тепловые трубки, металлические элементы отвода тепла от силовой части и памяти. Кожух одновременно направляет поток и придаёт конструкции жёсткость.
| Параметр охлаждения | Значение |
| Тип вентилятора | Турбина |
| Максимальные обороты | До 5400 об/мин |
| Мощность двигателя | До 20 Вт |
| Максимальный поток в свободных условиях | До 35 CFM |
| Поток без соседней блокировки | Около 31 CFM |
| Поток при плотной установке | Около 23 CFM |
| Управление оборотами | Автоматическое |
| Контроль температуры | Через датчики платы и SMC |
Соседняя плата расширения уменьшает забор воздуха. Для Xeon Phi 3120A лучше оставлять свободное пространство около воздухозаборника. Плотная многокарточная установка требует серверного корпуса с мощными корпусными вентиляторами.
Контроль температуры и защитные механизмы
Контроллер SMC отслеживает состояние ускорителя. Телеметрия включает температуру, обороты турбины, напряжение и параметры питания. При перегреве срабатывает снижение частоты. Это защищает плату, но одновременно уменьшает скорость расчётов.
Для диагностики важны четыре признака:
-
частота не падает во время длительного теста;
-
температура стабилизируется после выхода на нагрузку;
-
турбина увеличивает обороты без постороннего шума;
-
вычислительный результат не сопровождается ошибками ECC и аварийными сообщениями.
Короткий тест не показывает поведение системы под продолжительной нагрузкой. TweakTown измеряла производительность одной карты после 15–20 минут работы, когда температурный режим уже стабилизировался.
Шум
Xeon Phi 3120A не относится к тихим компонентам. Турбина рассчитана на серверную нагрузку и поднимает обороты при длительных вычислениях. В домашней лаборатории шум заметен сильнее, чем у обычной видеокарты среднего класса. Закрытый корпус с хорошим потоком воздуха уменьшает необходимость работы вентилятора на максимальной скорости.
Установка Intel Xeon Phi 3120A в сервер или рабочую станцию
Установка Xeon Phi 3120A отличается от монтажа игровой видеокарты. Плата требует свободного слота, двух силовых кабелей, совместимой прошивки материнской платы и программного стека Intel MPSS.
Аппаратные требования
| Компонент | Требование | Причина |
| Основной CPU | Обязателен | Xeon Phi работает как сопроцессор |
| Материнская плата | Свободный PCIe x16 | Подключение карты |
| Версия интерфейса | PCIe 2.0 x16 | Штатный режим Xeon Phi 3120A |
| BIOS или UEFI | Поддержка Above 4G Decoding | Корректное выделение адресного пространства |
| Корпус | Полноразмерный | Длина и высота двухслотовой платы |
| Свободное пространство | Не менее двух слотов | Кожух и забор воздуха |
| Блок питания | Достаточная мощность и два кабеля | 8-контактный и 6-контактный разъёмы |
| Видеовывод | Отдельная видеокарта или встроенная графика | На Xeon Phi нет видеовыходов |
| Охлаждение корпуса | Интенсивный приток и удаление горячего воздуха | TDP 300 Вт |
| Оперативная память хоста | Отдельная системная RAM | Программы и данные на стороне сервера |
Above 4G Decoding
При установке Xeon Phi материнская плата должна корректно выделить адресное пространство устройству PCIe. В профессиональных платформах для этого используется настройка Above 4G Decoding. В тестовой системе TweakTown её включали перед запуском четырёх карт. Puget Systems также использовала совместимую прошивку при тестировании платы в рабочей станции.
При выключенной настройке ускоритель не определяется или работает некорректно. Особенно важен этот параметр для системы с несколькими крупными PCIe-устройствами.
Порядок установки
-
Отключить питание компьютера.
-
Освободить полноразмерный слот PCIe x16 и соседнее пространство.
-
Установить карту до полного входа разъёма в слот.
-
Зафиксировать крепёжную планку.
-
Подключить отдельный 8-контактный кабель питания.
-
Подключить отдельный 6-контактный кабель питания.
-
Проверить свободный забор воздуха турбиной.
-
Включить Above 4G Decoding в BIOS или UEFI.
-
Загрузить хостовую операционную систему.
-
Установить совместимую версию Intel MPSS.
-
Проверить обнаружение платы.
-
Запустить телеметрию.
-
Выполнить продолжительный вычислительный тест.
-
Проверить температуру, обороты вентилятора и стабильность частоты.
PCIe x16 и PCIe x8
Xeon Phi 3120A рассчитан на PCIe 2.0 x16, но работает и при меньшем количестве линий. Ограничение особенно заметно в offload mode, где хост регулярно пересылает данные на карту. В native mode данные заранее находятся в локальной памяти, поэтому влияние интерфейса на вычислительную часть почти исчезает.
Puget Systems сравнила работу Xeon Phi 3120A в режимах x16 и x8:
| Тест | PCIe x8 | PCIe x16 | Разница |
| DGEMM native mode | 811 GFLOPS | 812 GFLOPS | Практически отсутствует |
| DGEMM offload mode | 589 GFLOPS | 645 GFLOPS | x16 быстрее примерно на 9,5% |
| SHOC download | 3,308 ГБ/с | 7,203 ГБ/с | x16 быстрее более чем в два раза |
Результаты показывают важное правило. Для native mode слот x8 остаётся рабочим вариантом. Для частого обмена между хостом и сопроцессором нужен полноценный x16.
Совместимые серверные платформы
Xeon Phi 3120A устанавливался в профессиональные серверы и рабочие станции. Среди подтверждённых примеров:
-
Supermicro 7048GR-TR с четырьмя картами Xeon Phi 3120A;
-
Lenovo System x3650 M5 с поддержкой ускорителей Xeon Phi;
-
серверные платформы Intel R2308WTTYS;
-
серверные платформы Intel R2208GZ4GC.
Для новой сборки старые серверы представляют интерес только как лабораторная база. Для работающей инфраструктуры важнее сохранить совместимую версию BIOS, MPSS и операционной системы.
Программная среда Intel MPSS и режимы работы
Intel Xeon Phi 3120A требует отдельного программного стека. Установка платы в слот не превращает обычные приложения в многопоточные HPC-программы. Разработчик выбирает режим исполнения, собирает код под MIC и контролирует передачу данных.
Intel MPSS
Manycore Platform Software Stack включает драйверы, средства управления и компоненты взаимодействия между хостом и сопроцессором. После загрузки карта запускает встроенную Linux-среду. Хостовая система видит отдельный вычислительный узел.
MPSS решает несколько задач:
-
обнаружение платы;
-
запуск встроенной среды;
-
обмен данными;
-
мониторинг состояния;
-
доступ к телеметрии;
-
управление служебными параметрами;
-
запуск приложений на сопроцессоре;
-
диагностика ошибок.
В историческом тесте Puget Systems Xeon Phi 3120A работал в Windows 7 Professional. Для современных систем этот сценарий относится к архивным экспериментам. Для лабораторного стенда практичнее использовать сохранённую Linux-конфигурацию с совместимыми пакетами MPSS.
Native mode
В native mode приложение собирается под MIC и запускается непосредственно на Xeon Phi. Код и данные размещаются в памяти сопроцессора. Этот режим хорошо подходит для тестов, где задача целиком помещается в 6 ГБ локальной памяти.
Преимущества native mode:
-
минимизация повторного обмена через PCIe;
-
предсказуемая работа с локальной памятью;
-
удобство для LINPACK и DGEMM;
-
наглядная оценка вычислительной части карты.
Ограничения native mode:
-
рабочий объём памяти меньше номинальных 6 ГБ из-за встроенной среды;
-
приложение требует отдельной сборки;
-
обычные исполняемые файлы Windows не подходят;
-
ввод и вывод данных проходят через хост.
Offload mode
В offload mode основная программа работает на CPU, а тяжёлые участки отправляются на Xeon Phi. Вместе с вычислениями передаются данные. Этот режим полезен для программ, где только часть алгоритма хорошо масштабируется.
Преимущества offload mode:
-
постепенная адаптация существующего проекта;
-
сохранение основной логики на CPU;
-
передача на ускоритель наиболее тяжёлых математических циклов.
Ограничения offload mode:
-
обмен через PCIe создаёт накладные расходы;
-
частая пересылка небольших блоков снижает эффективность;
-
слот x8 заметно ограничивает скорость передачи;
-
структура данных требует тщательной подготовки.
Координация процессов через MPI
В HPC-системах Xeon Phi использовался как отдельный узел вычислений. MPI-процессы распределялись между хостом и сопроцессорами. Такой подход подходит для задач с естественным разделением данных и редким обменом крупными блоками.
OpenMP и векторизация
OpenMP распределяет работу между потоками, но одного распараллеливания недостаточно. Для высокой скорости нужен векторный код. Цикл должен обрабатывать последовательные элементы массива, избегать лишних ветвлений и эффективно использовать 512-битные регистры.
Практическая оптимизация состоит из трёх уровней:
-
распределение работы между ядрами;
-
использование нескольких аппаратных потоков на ядро;
-
загрузка векторных блоков IMCI.
Программа без векторизации использует только часть вычислительного потенциала Xeon Phi 3120A.
Производительность Intel Xeon Phi 3120A в тестах
Xeon Phi 3120A создавался для расчётов двойной точности. Его производительность корректно оценивать не игровыми тестами и не офисными приложениями, а математическими нагрузками: LINPACK, DGEMM и измерением пропускной способности обмена.
Теоретический пик
| Тип вычислений | Теоретический результат |
| FP64, двойная точность | 1003,2 GFLOPS |
| FP32, одинарная точность | 2006,4 GFLOPS |
| Пропускная способность памяти | 240 ГБ/с |
| Пропускная способность PCIe 2.0 x16 | Ограничивает обмен с хостом |
Теоретический пик отражает максимальную скорость при полной загрузке векторных блоков. Практический результат зависит от структуры задачи.
LINPACK в тесте Puget Systems
Puget Systems установила Xeon Phi 3120A в рабочую станцию с двумя процессорами Xeon E5-2650 и Windows 7 Professional. Тест запускался непосредственно на сопроцессоре. Использовалась задача размером 22528 × 22592, подобранная под доступную локальную память.
| Устройство | Режим | Результат LINPACK |
| Intel Xeon Phi 3120A | Native mode | 707 GFLOPS |
Практический результат составляет около 70% от теоретического пика FP64. Для реального LINPACK это достойный показатель. Он подтверждает, что карта действительно выдаёт сотни гигафлопс в подходящей математической нагрузке.
LINPACK в тесте TweakTown
TweakTown проверила рабочую станцию Supermicro 7048GR-TR с четырьмя картами Xeon Phi 3120A. Одна плата после 15–20 минут нагрузки показала около 713 GFLOPS. Четыре платы достигли примерно 2852 GFLOPS.
| Конфигурация | Количество карт | Результат LINPACK | Масштабирование |
| Xeon Phi 3120A | 1 | 713 GFLOPS | Базовый уровень |
| Xeon Phi 3120A | 4 | 2852 GFLOPS | Почти линейное увеличение |
| Два Xeon E5-2699 v3 в той же системе | 0 | 885 GFLOPS | Результат хостовых CPU |
Четыре сопроцессора обеспечили более чем втрое больший результат LINPACK по сравнению с двумя центральными процессорами Xeon E5-2699 v3. Это не означает превосходство Xeon Phi во всех программах. LINPACK идеально подходит для массового параллелизма и интенсивной линейной алгебры.
Сравнение x8 и x16
Отдельный тест Puget Systems хорошо показывает влияние интерфейса:
| Тест | PCIe x8 | PCIe x16 | Вывод |
| DGEMM native | 811 GFLOPS | 812 GFLOPS | Вычисления внутри карты почти не зависят от слота |
| DGEMM offload | 589 GFLOPS | 645 GFLOPS | Передача данных влияет на итог |
| SHOC download | 3,308 ГБ/с | 7,203 ГБ/с | Для обмена нужен полноценный x16 |
При постоянной пересылке данных интерфейс PCIe становится узким местом. Для эффективной работы разработчик уменьшает количество передач и укрупняет блоки данных.
Энергопотребление рабочей станции Supermicro
TweakTown измерила потребление системы Supermicro 7048GR-TR с двумя Xeon E5-2699 v3 и четырьмя Xeon Phi 3120A.
| Режим работы | Потребление системы |
| Загрузка после включения | Около 680 Вт |
| Обычная работа без полной вычислительной нагрузки | Около 540 Вт |
| Нагрузка с одной Xeon Phi 3120A | Около 700 Вт |
| Полная нагрузка четырёх Xeon Phi и двух CPU | Почти 1600 Вт |
Эти цифры объясняют требования к серверному корпусу и питанию. Четыре карты создают вычислительный модуль с суммарным TDP до 1200 Вт только по линии сопроцессоров. Обычный настольный корпус для такой конфигурации не подходит.
Что влияет на результат
Разница между теоретическими и реальными значениями определяется несколькими факторами:
-
качеством векторизации;
-
числом потоков;
-
размером задачи;
-
локальностью данных;
-
количеством обращений к памяти;
-
частотой обмена через PCIe;
-
режимом исполнения;
-
температурой;
-
снижением частоты при перегреве;
-
версией компилятора;
-
настройками математической библиотеки;
-
распределением процессов.
Xeon Phi 3120A не прощает неэффективный код. Хорошо подготовленный DGEMM приближается к пику, а программа с ветвлениями и хаотичным доступом к памяти показывает значительно меньший результат.
Оценки профильных изданий и практические выводы
Puget Systems
Puget Systems подробно разобрала запуск Xeon Phi 3120A в Windows. Главный вывод относится не к цифре LINPACK, а к модели работы. Карта не становится набором дополнительных ядер Windows. На ней запускается отдельная встроенная Linux-среда, а приложение требует сборки под MIC.
Результат 707 GFLOPS подтвердил работоспособность Xeon Phi 3120A в рабочей станции. Одновременно тест показал высокий порог входа: пользователю нужна совместимая программная среда и понимание native mode.
В отдельном сравнении PCIe x8 и x16 Puget Systems продемонстрировала почти двукратную разницу скорости передачи данных. Этот результат важен при подборе материнской платы. Механический слот x16 с электрическим режимом x8 подходит для native mode, но ограничивает offload-задачи.
TweakTown
TweakTown протестировала Supermicro 7048GR-TR как мощную рабочую станцию для HPC. Система получила оценку 97%. Издание отметило возможность установки четырёх Xeon Phi 3120A, высокую производительность и серьёзные требования к питанию.
| Категория оценки TweakTown | Балл |
| Производительность | 99% |
| Конструкция и качество сборки | 98% |
| Функции | 95% |
| Комплектация | 95% |
| Соотношение цены и возможностей | 98% |
| Итог | 97% |
Практический результат четырёх плат — 2852 GFLOPS в LINPACK. Он показывает хорошее масштабирование в задаче, подходящей для архитектуры MIC.
The Register
На старте продаж The Register рассматривала Xeon Phi 3100 как ответ Intel на GPU-ускорители NVIDIA Tesla. Серия получила агрессивное позиционирование по цене: около 1695 долларов за младшие карты. Издание отдельно обращало внимание на сложность прямого сравнения теоретических терафлопс разных архитектур. Реальная скорость определяется программным обеспечением.
Этот вывод остаётся актуальным. Сравнение только по FP64 не показывает стоимость адаптации кода, ограничения памяти и накладные расходы PCIe.
Исследовательские работы
Академические тесты Knights Corner подтверждают высокий потенциал в идеальных математических ядрах и заметные потери в менее подходящих нагрузках. Архитектура чувствительна к векторизации, распределению памяти и организации потоков. Для Xeon Phi программная оптимизация важнее попыток аппаратного разгона.
Для каких задач подходит Xeon Phi 3120A
Intel Xeon Phi 3120A полезен там, где большая задача разбивается на множество однотипных операций. Высокая производительность FP64, широкие векторные блоки и память GDDR5 делают плату интересной для вычислений, а не для повседневного использования.
Подходящие сценарии
-
LINPACK и HPL;
-
DGEMM и другие операции плотной линейной алгебры;
-
матричные вычисления;
-
численное моделирование;
-
инженерные расчёты;
-
моделирование физических процессов;
-
Monte Carlo;
-
Black-Scholes и другие финансовые модели;
-
обработка массивов;
-
параллельные циклы OpenMP;
-
MPI-задачи;
-
изучение архитектуры MIC;
-
восстановление старого научного проекта;
-
обучение параллельному программированию;
-
демонстрационный HPC-стенд;
-
исследование влияния PCIe на offload;
-
тестирование оптимизированных математических библиотек.
Неподходящие сценарии
-
игры;
-
увеличение FPS;
-
вывод изображения;
-
замена видеокарты;
-
замена основного CPU;
-
обычные офисные приложения;
-
браузер;
-
домашний мультимедийный компьютер;
-
современный CUDA-проект без порта под MIC;
-
нейросетевые задачи с актуальными фреймворками;
-
новая коммерческая инфраструктура;
-
компактный компьютер;
-
тихая домашняя система;
-
сервер без совместимого MPSS;
-
программа с большим количеством ветвлений;
-
задача с постоянной пересылкой данных небольшими блоками.
Научные расчёты
Основная область применения Xeon Phi 3120A — научное программное обеспечение. При расчёте матриц, решении систем уравнений и моделировании физических процессов ускоритель обрабатывает множество чисел параллельно. Наличие ECC важно для продолжительных вычислений: одиночная ошибка памяти не должна искажать итог многодневной задачи.
Финансовые модели
Monte Carlo и Black-Scholes относятся к характерным нагрузкам для массового параллелизма. Множество независимых сценариев распределяется между потоками. Эффективность зависит от подготовки кода и объёма данных. Xeon Phi 3120A интересен для воспроизведения исторических вычислительных экспериментов и обучения оптимизации.
Образовательный стенд
В домашней лаборатории карта полезна как необычная платформа. Она наглядно показывает разницу между CPU, GPU и сопроцессором MIC. На одном устройстве изучаются:
-
архитектура manycore;
-
работа нескольких аппаратных потоков;
-
векторизация;
-
память NUMA-подобного характера;
-
обмен через PCIe;
-
native mode;
-
offload mode;
-
MPI;
-
OpenMP;
-
температурные ограничения;
-
power capping;
-
масштабирование нескольких ускорителей.
Подходит ли Intel Xeon Phi 3120A для игр
Нет. Xeon Phi 3120A не подходит ни для одной игры и не увеличивает FPS.
У платы отсутствуют видеовыходы, игровые драйверы и графический конвейер для DirectX. Она не заменяет GeForce, Radeon или Intel Arc. Монитор подключается к отдельной видеокарте или встроенной графике хостового процессора.
Количество ядер в названии не имеет отношения к игровым ядрам CPU. Игры ожидают производительные центральные ядра и графический ускоритель с поддержкой игрового API. Xeon Phi 3120A предоставляет среду MIC для вычислительного кода. Обычная игра не отправляет на него физику, графику или логику автоматически.
Почему сборка с Xeon Phi не становится игровой
| Компонент | Роль в игровом компьютере | Роль Xeon Phi 3120A |
| Центральный процессор | Логика игры, подготовка кадров, системные процессы | Не заменяет CPU |
| Игровая видеокарта | Рендеринг изображения | Не выполняет эту задачу |
| Оперативная память | Данные игры и системы | 6 ГБ GDDR5 Xeon Phi не используются игрой |
| Xeon Phi 3120A | Не требуется | Остаётся отдельным HPC-сопроцессором |
Система с Xeon Phi 3120A запускает игры только за счёт обычного центрального процессора и отдельной видеокарты. Сопроцессор остаётся незадействованным. Покупать его для игрового компьютера бессмысленно.
Разгон для игр
У Xeon Phi 3120A отсутствует игровой разгон. Карта не участвует в построении кадров и не влияет на производительность игрового движка. Настройка частоты или охлаждения не меняет FPS.
Серверные и лабораторные конфигурации на базе Xeon Phi 3120A
После завершения производства Xeon Phi 3120A не относится к актуальным ускорителям для новой серверной инфраструктуры. Практический интерес сохраняют три направления:
-
восстановление существующей системы;
-
воспроизведение старого HPC-проекта;
-
сборка лабораторного стенда.
Рабочая станция с одной картой
Одна Xeon Phi 3120A подходит для изучения MIC, запуска LINPACK и разработки небольших демонстрационных проектов.
| Компонент | Рекомендуемый профиль | Пояснение |
| Хостовый CPU | Многоядерный x86-64 процессор | Выполняет роль основного CPU |
| Материнская плата | Полноразмерная плата с PCIe x16 и Above 4G Decoding | Требуется для корректного подключения |
| Оперативная память | От 32 ГБ | Удобный объём для хоста и подготовки данных |
| Сопроцессор | Intel Xeon Phi 3120A | Одна карта с активным охлаждением |
| Видеовывод | Встроенная графика или отдельная простая видеокарта | Xeon Phi не выводит изображение |
| Блок питания | Качественный БП от 850–1000 Вт | Запас под 300-ваттную карту и остальные компоненты |
| Корпус | Full Tower | Пространство и воздушный поток |
| Система хранения | SSD | Быстрая загрузка среды и проектов |
| Операционная система | Совместимая Linux-конфигурация | Практичный вариант для архивного MPSS |
| Назначение | Обучение, LINPACK, DGEMM, эксперименты с OpenMP | Реалистичный современный сценарий |
Такой стенд не требует дорогого серверного шасси. Главные условия — свободный слот, полноценное питание и хорошая вентиляция.
Сервер с двумя картами
Две Xeon Phi 3120A увеличивают вычислительный потенциал до уровня около 2 ТФЛОПС FP64 в теории. Конфигурация требует более серьёзного блока питания и платформы с двумя подходящими слотами.
| Компонент | Требование |
| Слоты | Два PCIe x16 с достаточным количеством линий |
| Пространство | По два слота на каждую карту |
| Питание ускорителей | Четыре дополнительных кабеля: два 8-контактных и два 6-контактных |
| Охлаждение | Интенсивный поток воздуха через корпус |
| Адресное пространство | Above 4G Decoding |
| Видеовывод | Отдельное устройство |
| Программная среда | Совместимый MPSS |
| Назначение | Масштабирование MIC-приложений и MPI |
При двух картах обмен между узлами и распределение данных становятся частью оптимизации. Увеличение количества ускорителей приносит пользу только приложению с подходящей структурой.
Lenovo System x3650 M5
Lenovo System x3650 M5 относится к серверным платформам, для которых указывалась поддержка Xeon Phi 3120A. Такой сервер представляет интерес для восстановления старой конфигурации и лабораторного использования.
Преимущества готовой серверной платформы:
-
рассчитанное охлаждение;
-
надёжное крепление карт;
-
серверное питание;
-
управляемая вентиляция;
-
поддержка профессиональных PCIe-устройств;
-
удобство диагностики;
-
удалённое администрирование.
Недостатки для домашней лаборатории:
-
высокий шум;
-
значительное энергопотребление;
-
крупный корпус;
-
старое поколение платформы;
-
необходимость сохранённой программной среды.
Supermicro 7048GR-TR с четырьмя Xeon Phi 3120A
Самый показательный пример — рабочая станция Supermicro 7048GR-TR, протестированная TweakTown. Внутри использовались два Xeon E5-2699 v3, 256 ГБ DDR4 и четыре Intel Xeon Phi 3120A.
| Компонент | Конфигурация TweakTown |
| Корпус | Supermicro 7048GR-TR |
| Материнская плата | Supermicro X10DRG-Q |
| Центральные процессоры | 2 × Intel Xeon E5-2699 v3 |
| Оперативная память | 256 ГБ DDR4 |
| Сопроцессоры | 4 × Intel Xeon Phi 3120A |
| Блоки питания | 2 × 2000 Вт, резервируемые |
| Накопители | 8 отсеков hot-swap |
| PCIe-слоты | 7 |
| Максимум ускорителей | 4 |
| LINPACK одной карты | 713 GFLOPS |
| LINPACK четырёх карт | 2852 GFLOPS |
| Потребление под полной нагрузкой | Почти 1600 Вт |
Эта конфигурация показывает исходный смысл Xeon Phi 3120A. Несколько карт устанавливаются в мощный хост и создают плотный вычислительный узел. Главная задача корпуса — обеспечить питание, охлаждение и линии PCIe.
Для домашнего использования такой сервер избыточен. Для изучения масштабирования он остаётся интересным историческим примером.
Разгон и настройка производительности
Intel Xeon Phi 3120A не поддерживает Turbo Boost. У карты нет потребительского сценария разгона через множитель и BIOS материнской платы. Обычная практика разгона Xeon, Core или игровой видеокарты здесь неприменима.
Что действительно настраивается
-
число потоков;
-
распределение потоков;
-
привязка потоков к ядрам;
-
размер блоков данных;
-
векторизация;
-
режим native или offload;
-
количество передач через PCIe;
-
power capping;
-
охлаждение корпуса;
-
контроль троттлинга;
-
версия математической библиотеки;
-
параметры компилятора;
-
схема MPI-процессов.
Потоки
Одно ядро Knights Corner поддерживает четыре аппаратных потока. Полная карта предоставляет до 228 потоков. Максимальное число не всегда даёт лучший результат. Для конкретного приложения подбирается количество потоков и схема их размещения.
При недостатке потоков исполнительные блоки простаивают во время ожидания памяти. При чрезмерном количестве растут накладные расходы. Оптимальная конфигурация определяется тестированием приложения.
Векторизация
Векторизация влияет сильнее частоты. Код без загрузки 512-битных блоков теряет основное преимущество архитектуры MIC. Для высокой скорости циклы строятся вокруг последовательной обработки массивов и минимального количества ветвлений.
Передача данных
Для offload mode важен объём обмена. Частая отправка маленьких блоков снижает производительность. Тест PCIe x8 и x16 показывает двукратную разницу скорости передачи. Эффективная программа укрупняет блоки и удерживает данные в локальной памяти столько времени, сколько требуется вычислительному этапу.
Охлаждение
Снижение температуры сохраняет стабильную частоту. Для 300-ваттной платы практический прирост достигается не разгоном, а предотвращением троттлинга:
-
свободный воздухозаборник;
-
чистый радиатор;
-
исправная турбина;
-
достаточный приток воздуха;
-
удаление горячего воздуха из корпуса;
-
отсутствие плотной блокировки соседней картой.
Power capping
Ограничение мощности используется для контроля энергопотребления. Это полезно в многокарточном сервере, где суммарная нагрузка приближается к пределу блоков питания и охлаждения. Power capping снижает максимальное потребление ценой производительности. Он не является разгоном.
Сравнение Xeon Phi 3120A с другими Intel Xeon Phi
Ближайший аналог — Intel Xeon Phi 3120P. Вычислительная часть почти совпадает, но охлаждение различается. Версия 3120A получила турбину, а 3120P рассчитана на серверный воздушный поток.
| Модель | Ядра | Частота | L2 | Память | Пропускная способность памяти | TDP | Охлаждение | Назначение |
| Xeon Phi 3120A | 57 | 1,10 ГГц | 28,5 МБ | 6 ГБ | 240 ГБ/с | 300 Вт | Активное | Рабочая станция и сервер с подходящим корпусом |
| Xeon Phi 3120P | 57 | 1,10 ГГц | 28,5 МБ | 6 ГБ | 240 ГБ/с | 300 Вт | Пассивное | Сервер с направленным обдувом |
| Xeon Phi 31S1P | 57 | 1,10 ГГц | 28,5 МБ | 8 ГБ | 320 ГБ/с | 270 Вт | Пассивное | Серверный вариант с увеличенной памятью |
| Xeon Phi 5110P | 60 | Около 1,05 ГГц | 30 МБ | 8 ГБ | 320 ГБ/с | 225 Вт | Пассивное | Более энергоэффективный серверный вариант |
| Xeon Phi 7120A | 61 | 1,24 ГГц | 30,5 МБ | 16 ГБ | 352 ГБ/с | 300 Вт | Активное | Старшая карта для рабочей станции |
| Xeon Phi 7120P | 61 | 1,24 ГГц | 30,5 МБ | 16 ГБ | 352 ГБ/с | 300 Вт | Пассивное | Старшая серверная карта |
Xeon Phi 3120A против 3120P
| Характеристика | Xeon Phi 3120A | Xeon Phi 3120P |
| Ядра | 57 | 57 |
| Частота | 1,10 ГГц | 1,10 ГГц |
| Память | 6 ГБ | 6 ГБ |
| TDP | 300 Вт | 300 Вт |
| Встроенный вентилятор | Есть | Нет |
| Рабочая станция | Подходит при хорошем охлаждении | Требует отдельного направленного потока |
| Серверное шасси | Подходит | Подходит при рассчитанном обдуве |
Для самостоятельной сборки удобнее 3120A. Для профессионального серверного корпуса с мощными вентиляторами пассивная версия 3120P не создаёт дополнительного источника отказа в виде собственной турбины.
Xeon Phi 3120A против 5110P
Xeon Phi 5110P интереснее для плотной серверной установки. У него больше ядер, 8 ГБ памяти и заметно меньший TDP 225 Вт. У 3120A есть практическое преимущество для рабочей станции — встроенное охлаждение.
Xeon Phi 3120A против 7120A
Xeon Phi 7120A относится к старшему уровню Knights Corner. Он предлагает 61 ядро, 16 ГБ памяти и более высокую пропускную способность. Для задач, ограниченных шестью гигабайтами локальной памяти, 7120A заметно удобнее. Xeon Phi 3120A выигрывает ценой на вторичном рынке.
Сравнение с обычными Intel Xeon
Xeon Phi 3120A не является прямой заменой серверного CPU. Сравнение нужно для понимания роли устройства.
| Характеристика | Xeon Phi 3120A | Обычный серверный Xeon |
| Установка | PCIe-карта | Процессорный сокет |
| Роль | Сопроцессор | Основной CPU |
| Ядра | Много простых ядер | Меньше более универсальных ядер |
| Частота одного ядра | Низкая | Выше |
| Операционная система | Отдельная встроенная среда | Основная ОС сервера |
| Память | 6 ГБ GDDR5 на плате | Системная DDR-память |
| Игры | Не подходит | Выполняет игровую логику при наличии видеокарты |
| Обычные программы | Не ускоряет автоматически | Выполняет напрямую |
| FP64 в LINPACK | Сильная сторона | Зависит от модели и количества сокетов |
| Программная адаптация | Обязательна | Для обычных приложений не требуется |
В тестовой станции TweakTown два Xeon E5-2699 v3 показали 885 GFLOPS в LINPACK. Одна Xeon Phi 3120A достигла 713 GFLOPS, а четыре карты — 2852 GFLOPS. Хостовые CPU нужны в любом случае: они запускают систему, управляют данными и выполняют неподходящие для MIC участки кода.
Сравнение с NVIDIA Tesla и AMD FirePro
Историческими конкурентами Xeon Phi выступали вычислительные ускорители NVIDIA Tesla и AMD FirePro. Они тоже устанавливались в PCIe-слоты и предназначались для серверных расчётов. Прямой перенос приложения между платформами невозможен без адаптации программного обеспечения.
| Ускоритель | Архитектура | FP64 | Память | Пропускная способность памяти | TDP | Программная модель | Период |
| Intel Xeon Phi 3120A | Knights Corner | Около 1,0 ТФЛОПС | 6 ГБ GDDR5 ECC | 240 ГБ/с | 300 Вт | MIC, OpenMP, MPI, offload, native mode | 2013 |
| NVIDIA Tesla K20 | Kepler | До 1,17 ТФЛОПС | 5 ГБ GDDR5 | 208 ГБ/с | 225 Вт | CUDA и OpenCL | 2012 |
| NVIDIA Tesla K20X | Kepler | До 1,31 ТФЛОПС | 6 ГБ GDDR5 | 250 ГБ/с | 235 Вт | CUDA и OpenCL | 2012 |
| NVIDIA Tesla K40 | Kepler | До 1,43 ТФЛОПС | 12 ГБ GDDR5 | 288 ГБ/с | 235 Вт | CUDA и OpenCL | 2013 |
| AMD FirePro S9150 | Hawaii | До 2,53 ТФЛОПС | 16 ГБ GDDR5 | 320 ГБ/с | 235 Вт | OpenCL | 2014 |
Xeon Phi 3120A против Tesla K20
Tesla K20 потребляет меньше энергии и использует экосистему CUDA. Xeon Phi 3120A предлагает знакомую для CPU-разработчиков модель программирования с x86-ориентированными ядрами, OpenMP и MPI. Выбор определялся существующим кодом и компетенциями команды.
Xeon Phi 3120A против Tesla K20X
Tesla K20X ближе по памяти и пропускной способности. У неё выше заявленный FP64-пик и ниже TDP. Xeon Phi сохраняет преимущество в проектах, изначально подготовленных для MIC.
Xeon Phi 3120A против Tesla K40
Tesla K40 получила 12 ГБ памяти и более высокий вычислительный пик. Для задач с крупными наборами данных дополнительная память снижает ограничения. Xeon Phi 3120A остаётся интересным только для сохранённой MIC-среды и учебных экспериментов.
Xeon Phi 3120A против AMD FirePro S9150
FirePro S9150 значительно превосходит 3120A по FP64, объёму памяти и энергоэффективности. Однако программная модель отличается. Для старого MIC-проекта переход требует переработки кода.
Современная оценка
Все перечисленные ускорители относятся к историческому поколению. Для нового вычислительного сервера они устарели. Xeon Phi 3120A покупают не как конкурент актуального GPU, а как недорогую лабораторную платформу или замену вышедшей из строя карте в существующем стенде.
Типичные проблемы и диагностика
Карта не определяется
Причины проверяются в фиксированном порядке:
-
плата установлена в слот не до конца;
-
8-контактный кабель питания не подключён;
-
6-контактный кабель питания не подключён;
-
Above 4G Decoding выключен;
-
слот работает некорректно;
-
прошивка материнской платы не поддерживает конфигурацию;
-
версия MPSS не соответствует системе;
-
экземпляр повреждён.
Первый тест выполняется с одной картой в основном слоте x16. После успешного запуска добавляются остальные PCIe-устройства.
Турбина шумит или вибрирует
Вентилятор Xeon Phi 3120A работает на высоких оборотах. Резкий механический шум, скрежет и вибрация указывают на износ. На торговых площадках встречаются запасные турбины, поэтому вентилятор заменяется отдельно. После ремонта требуется длительная проверка температуры.
Частота падает под нагрузкой
Снижение частоты связано с температурой или ограничением мощности. Проверяются:
-
чистота радиатора;
-
свободный забор воздуха;
-
температура внутри корпуса;
-
обороты турбины;
-
качество подключения питания;
-
параметры power capping;
-
соседние платы расширения;
-
поток корпусных вентиляторов.
Низкая скорость в offload mode
Главная причина — чрезмерный обмен данными через PCIe. Программа отправляет слишком много небольших блоков. Решение состоит в укрупнении данных, сокращении передач и переносе большего объёма работы внутрь одного вычислительного этапа.
Низкая скорость в native mode
Причины:
-
код не векторизован;
-
потоков недостаточно;
-
потоки распределены неэффективно;
-
задача плохо масштабируется;
-
доступ к памяти хаотичен;
-
данные не помещаются в локальную память;
-
происходит троттлинг;
-
математическая библиотека настроена неправильно.
Приложение не запускается
Обычный исполняемый файл для Windows не подходит для встроенной Linux-среды MIC. Приложение собирается под сопроцессор. При offload mode хостовая часть и вычислительные участки подготавливаются отдельно.
Куплена версия 3120P вместо 3120A
У 3120P нет встроенной турбины. Пассивная карта требует направленного серверного обдува. В обычном корпусе она перегревается. Для рабочей станции нужна версия 3120A или отдельная профессиональная система охлаждения.
Плата работает в x8
Для native mode это допустимо. Для offload mode скорость передачи заметно снижается. Проверяется электрическая конфигурация слота в документации материнской платы. Полноразмерный разъём не всегда предоставляет 16 линий.
Не хватает памяти
На карте установлено 6 ГБ GDDR5. Часть объёма занята встроенной средой. Задача разбивается на блоки или переносится на модель с большим объёмом памяти. Старшие Xeon Phi 7120A и 7120P получили 16 ГБ.
Плюсы и минусы Intel Xeon Phi 3120A
Плюсы
-
57 вычислительных ядер;
-
до 228 аппаратных потоков;
-
пиковая производительность FP64 около 1 ТФЛОПС;
-
пиковая производительность FP32 около 2 ТФЛОПС;
-
512-битные векторные инструкции Intel IMCI;
-
6 ГБ собственной памяти GDDR5;
-
пропускная способность памяти 240 ГБ/с;
-
коррекция ошибок ECC;
-
распределённый когерентный кеш L2 объёмом 28,5 МБ;
-
активная система охлаждения;
-
встроенная турбина;
-
мониторинг температуры и питания;
-
power capping;
-
thermal throttling;
-
поддержка native mode;
-
поддержка offload mode;
-
работа с OpenMP, MPI и оптимизированными математическими библиотеками;
-
интересная стоимость отдельных экземпляров на вторичном рынке;
-
полезность для лабораторного стенда;
-
наглядное изучение manycore-архитектуры;
-
почти линейное масштабирование четырёх карт в LINPACK;
-
документированные результаты реальных тестов.
Минусы
-
модель снята с производства;
-
сервисный жизненный цикл завершён;
-
устаревший программный стек MPSS;
-
сложная настройка;
-
необходимость отдельного хостового CPU;
-
отсутствие автоматического ускорения обычных приложений;
-
отсутствие игровых функций;
-
отсутствие видеовыходов;
-
отсутствие пользы для FPS;
-
TDP 300 Вт;
-
обязательное подключение двух дополнительных кабелей питания;
-
высокий шум турбины;
-
крупный двухслотовый форм-фактор;
-
масса около 1,4 кг;
-
всего 6 ГБ локальной памяти;
-
PCI Express 2.0;
-
заметные потери offload-производительности при работе через x8;
-
чувствительность к качеству векторизации;
-
снижение скорости при перегреве;
-
необходимость хорошего охлаждения корпуса;
-
ограниченная совместимость с современными системами;
-
нецелесообразность для новой коммерческой инфраструктуры;
-
слабая практическая ценность без сохранённого MIC-проекта.
Кому стоит покупать Xeon Phi 3120A
Подходит для покупки
Intel Xeon Phi 3120A оправдан в нескольких сценариях:
-
требуется заменить такую же карту в работающем старом сервере;
-
сохраняется проект под MIC;
-
нужен лабораторный стенд для изучения HPC;
-
проводится обучение OpenMP, MPI и векторизации;
-
исследуется влияние PCIe на offload;
-
требуется историческая платформа Knights Corner;
-
воспроизводятся старые научные публикации;
-
собирается необычная домашняя лаборатория;
-
нужен недорогой эксперимент с FP64;
-
изучается масштабирование нескольких сопроцессоров.
Не подходит для покупки
От покупки стоит отказаться в следующих случаях:
-
нужен игровой компьютер;
-
требуется ускорение Windows-программ без доработки;
-
планируется современный сервер машинного обучения;
-
необходим тихий домашний ПК;
-
используется компактный корпус;
-
отсутствует опыт Linux и HPC;
-
нет совместимой материнской платы;
-
отсутствуют два силовых кабеля;
-
требуется актуальная гарантия производителя;
-
создаётся новая коммерческая инфраструктура;
-
требуется современный программный стек;
-
нужен универсальный вычислительный ускоритель.
Итоговый вердикт
Intel Xeon Phi 3120A — необычный и узкоспециализированный вычислительный сопроцессор. Его нельзя оценивать по правилам выбора обычного Xeon или игровой видеокарты. Устройство создавалось для научных вычислений и HPC, где десятки ядер, сотни потоков, 512-битные векторные операции и память GDDR5 раскрываются в подготовленном коде.
В подходящих тестах карта показывает убедительные результаты. Puget Systems получила 707 GFLOPS в LINPACK. TweakTown зафиксировала 713 GFLOPS на одной плате и 2852 GFLOPS на четырёх ускорителях. Для модели 2013 года это серьёзная FP64-производительность.
Главные ограничения тоже существенны. Xeon Phi 3120A потребляет до 300 Вт, требует двух дополнительных кабелей питания, занимает два слота, шумит под нагрузкой и нуждается в совместимом MPSS. Шесть гигабайт памяти ограничивают размер локальной задачи. PCIe 2.0 x16 снижает эффективность сценариев с частой пересылкой данных. Обычные программы не используют сопроцессор автоматически.
Для игр Xeon Phi 3120A бесполезен. Он не выводит изображение, не увеличивает FPS и не заменяет видеокарту. Игровые сборки на его основе не имеют практического смысла.
Для нового промышленного сервера модель тоже не подходит: производство прекращено, сервис завершён, а программная экосистема устарела. Современные GPU-ускорители намного производительнее и удобнее для новых проектов.
Сильная сторона Xeon Phi 3120A сегодня — лабораторная ценность. Это доступный способ изучить архитектуру MIC, многопоточность, векторизацию, native mode, offload, влияние PCIe и особенности серверного охлаждения. Исправный экземпляр SC3120A с рабочей турбиной, подтверждённой телеметрией и разумной ценой остаётся интересным приобретением для энтузиаста HPC и владельца старой вычислительной инфраструктуры.