Производительность современных серверов на процессорах Intel Xeon 6 во многом зависит от эффективности их памяти. Это влияние распространяется на все типы задач, будь то приложения, требующие низкой задержки, или системы, ориентированные на обработку потоков данных. Даже при одинаковом количестве RAM, распределение модулей памяти по каналам и процессорам может существенно повлиять на пропускную способность и, соответственно, на скорость работы приложений.
На серверных системах Lenovo ThinkSystem V4 и HPE Proliant Gen12, где каждый процессор имеет восемь каналов памяти с двумя слотами DIMM на канал, проблема неравномерного заполнения памяти приобретает особую остроту. Именно неравномерное распределение нагрузки по каналам памяти часто становится причиной того, что производительность сервера не достигает ожидаемых показателей, и узким местом выступает именно память, а не процессорные ресурсы.
Архитектура Intel Xeon 6, c модульной конструкцией, заслуживает особого внимания. В ее основе лежит соединение вычислительных кристаллов и кристаллов ввода вывода с помощью моста EMIB (Embedded Multi-die Interconnect Bridge) . Такая схема предъявляет повышенные требования к конфигурации памяти: для достижения стабильной производительности, особенно в системах с двумя процессорами, крайне важно обеспечить симметрию и равномерное распределение нагрузки на контроллеры памяти.
Для наглядности описания заполнения памяти процессора, конфигурации будем обозначать в виде H:G:F:E:A:B:C:D. Где каждая буква соответствует отдельному каналу памяти, а число рядом показывает, сколько модулей DIMM установлено в этом канале. Например, запись 2:2:2:2:1:1:1:1 означает, что в каналах H, G, F и E установлено по два модуля DIMM, а в каналах A, B, C и D - по одному модулю.
Чередование доступа к памяти
Процессоры Intel Xeon Scalable 6-го поколения повышают эффективность работы с оперативной памятью за счёт объединения контроллеров памяти и каналов в группы чередования. К примеру, если два канала обладают равным общим объёмом, они могут быть сгруппированы в одну двухканальную зону чередования.
Такой подход увеличивает пропускную способность подсистемы памяти, поскольку последовательные запросы распределяются между несколькими каналами, а не обрабатываются только одним. Важным условием для объединения каналов в группу чередования является равенство их суммарной ёмкости (совпадение емкости памяти в каналах).
Если конфигурация установленных модулей памяти не позволяет объединить все задействованные каналы в единую группу чередования, формируется несколько независимых групп. В такой ситуации производительность доступа к памяти зависит от двух факторов: к какой именно области памяти происходит обращение и сколько модулей DIMM входит в конкретную группу.
Как следствие, конфигурации с несколькими группами могут демонстрировать неравномерную пропускную способность: доступ к областям, обслуживаемым меньшим числом каналов, будет выполняться медленнее, чем к тем, которые используют больше каналов.
Сбалансированные конфигурации памяти
Сбалансированная конфигурация оперативной памяти обеспечивает оптимальное чередование обращений, что приводит к достижению максимальной пропускной способности подсистемы. Согласно рекомендациям Intel по организации памяти, при задействовании каналов необходимо соблюдение следующих условий: каналы A, E, C и G должны иметь одинаковый суммарный объём на каждом канале, аналогичное требование применяется к каналам B, D, F и H.
Основополагающие принципы построения сбалансированной подсистемы памяти формулируются следующим образом:
- Все используемые каналы памяти должны обладать идентичным суммарным объёмом и содержать одинаковое количество рангов на канал.
- Все контроллеры памяти (iMC) в пределах одного процессорного сокета должны иметь идентичную конфигурацию установленных модулей DIMM.
- Конфигурация модулей DIMM должна быть полностью одинаковой во всех процессорных сокетах сервера.
В дальнейшем эти принципы будут обозначаться как **«Правило 1»**, **«Правило 2»** и **«Правило 3»** сбалансированной памяти.
Тестирование
Intel Memory Latency Checker (Intel MLC) — это специализированный инструмент для оценки задержек доступа к оперативной памяти и измерения её пропускной способности. В данном тесте он применялся для определения максимально достижимой пропускной способности подсистемы памяти при различных типах нагрузки, включая разные соотношения операций чтения и записи. С помощью Intel MLC проводились замеры устойчивой пропускной способности для различных конфигураций памяти, поддерживаемых процессорами Intel Xeon Scalable 6-го поколения.
Тестировались все конфигурации с установкой одного и двух модулей DIMM на канал. Испытания проводились на следующих номинальных скоростях работы памяти для стандартных RDIMM, соответствующих плановым режимам Intel для процессоров Intel Xeon 6-го поколения (кодовые имена «Granite Rapids (GNR-SP)» и «Sierra Forest (SRF-SP)»):- 1 модуль DIMM на канал (RDIMM): до 6400 МГц
- 2 модуля DIMM на канал (RDIMM): до 5200 МГц
Применение правил сбалансированной конфигурации памяти
Вводится основное правило: на всех процессорных сокетах одного физического сервера установлены модули DIMM с одинаковой конфигурацией, что соответствует правилу сбалансированной памяти. Поэтому для описания каждой схемы достаточно рассматривать только один процессорный сокет.
В испытаниях были использованы модули памяти объемом 64 ГБ, двухранговые (2R) RDIMM. Примеры, представленные ниже, соответствуют рекомендуемой последовательности установки модулей, указанной в таблице.
Несбалансированная конфигурация с 1 DIMM
Начальная точка - установка одного модуля памяти, (конфигурация 0:0:0:0:1:0:0:0), показанно на рисунке ниже.
При таком варианте установки памяти, только в одном канале, правило сбалансированной памяти «2» не выполняется - в одном процессорном разъеме задействован лишь один контроллер памяти: несбалансированная конфигурация.
В этом варианте формируется одна группа чередования на один канал. Когда память установлена только в одном канале, пропускная способность резко снижается: по измерениям она составляет 13% - 15% в зависимости от характера нагрузки (соотношения чтения и записи), то есть около одной восьмой от максимально возможного уровня.
Несбалансированная конфигурация с 4 DIMM
Рекомендуемая схема установки модулей памяти - 0:1:0:1:1:0:1:0, показана на рисунке ниже.
Данная конфигурация соблюдает Правило 1 балансировки памяти: все используемые каналы имеют одинаковый объём установленной памяти. Однако в целом схема остаётся несбалансированной, поскольку не выполняются другие ключевые правила — в частности, конфигурации контроллеров памяти не идентичны.
В результате формируется единая четырёхканальная группа чередования, при этом задействованы лишь половина от общего числа доступных каналов (4 из 8). Из-за неполного использования подсистемы памяти измеренная пропускная способность составляет **50–60%** от максимального теоретически достижимого значения, что соответствует примерно половине пиковой производительности.
Сбалансированная конфигурация с 8 DIMM
Рекомендуемая схема установки модулей памяти - 1:1:1:1:1:1:1:1, показана на рисунке ниже.
Эта схема уже соответствует правилам сбалансированной памяти 1 и 2. Все каналы заполнены одинаковой емкостью, а конфигурация установки модулей одинакова для всех контроллеров памяти (iMC). Это сбалансированная конфигурация.
Формируется одна группа чередования на восемь каналов, и измеренная пропускная способность памяти достигает 100% от максимально возможного уровня.
Несбалансированная конфигурация с 12 DIMM
Рекомендуемая схема установки модулей памяти - 1:2:1:2:2:1:2:1, показана на рисунке ниже.
Представленная схема не соответствует правилам сбалансированной памяти 1 и 2. Данная конфигурация является несбалансированной.
Образуются две группы чередования: одна включает восемь каналов, другая — четыре. В результате пропускная способность, составляет от 50% до 81% от возможного максимума. Это снижение по сравнению с потенциалом объясняется тем, что в группе с четырьмя каналами используется не полный комплект из восьми каналов. Кроме того, при установке двух модулей DIMM на канал применяются поддерживаемые Intel режимы частоты памяти, которые отличаются от тех, что используются при одном модуле DIMM на канал.
Сбалансированная конфигурация с 16 DIMM
Это полностью заполненная схема 2:2:2:2:2:2:2:2, как показано на рисунке.
Эта схема соответствует правилам сбалансированной памяти 1 и 2, то есть является сбалансированной.
В каждом канале установлены по два модуля DIMM - модули двухранговые (2R), что в итоге даёт 4 ранга (4R) на канал. Измеренная пропускная способность составляет от 75% до 82% от теоретического максимума. Это связано с тем, что при установке двух модулей DIMM на канал частота памяти уменьшается в соответствии с предусмотренными режимами Intel.
Итоговые результаты производительности памяти на процессоре Intel Xeon 6
В таблице приведены сводные результаты относительной пропускной способности памяти для всех рассмотренных выше конфигураций.
| Количество установленных модулей DIMM | Конфигурация | Число групп чередования | Относительная производительность | Сбалансированная или несбалансированная |
|---|---|---|---|---|
| 1 | 0:0:0:0:1:0:0:0 | 1 | 13% - 14% Granite Rapids 14% - 15% Sierra Forest | Несбалансированная |
| 4 | 0:1:0:1:1:0:1:0 | 1 | 50% - 53% Granite Rapids 56% - 60% Sierra Forest | Несбалансированная |
| 8 | 1:1:1:1:1:1:1:1 | 1 | 100% Granite Rapids 100% Sierra Forest | Сбалансированная |
| 12* | 1:2:1:2:2:1:2:1 | 2 | 50% - 81% Granite Rapids | Несбалансированная |
| 16 | 2:2:2:2:2:2:2:2 | 1 | 75% - 81% Granite Rapids 80% - 82% Sierra Forest | Сбалансированная |
(*) Двенадцать модулей DIMM на один процессорный разъем не поддерживается для процессоров Sierra Forest (SRF-SP).
При использовании одинаковых модулей памяти, наибольшую потенциальную пропускную способность обеспечивает конфигурация с 8 DIMM. С точки зрения производительности, это оптимальный вариант.
Сбалансированную конфигурацию можно достичь и с 4 DIMM, однако в этом случае не все каналы памяти будут задействованы, что может снизить пропускную способность и общую производительность.
Также возможно создание сбалансированной конфигурации с 16 DIMM, но это потребует установки по два DIMM на каждый канал. В результате этого частота памяти будет снижена в соответствии с режимами работы Intel, что ограничит пропускную способность.
Для достижения наибольшей эффективности работы памяти сервера необходимо соблюдать следующие рекомендации:
- Для обеспечения равномерной работы памяти необходимо, чтобы все процессорные слоты на одном физическом сервере имели одинаковую конфигурацию размещения модулей оперативной памяти.
- Для обеспечения равномерной работы всех контроллеров памяти в одном процессорном слоте необходимо настроить одинаковую схему установки модулей оперативной памяти DIMM.
- Для обеспечения равновесия в памяти необходимо добиться равенства суммарной емкости и суммарного числа рангов по всем используемым каналам.
Для достижения максимальной производительности памяти необходимо установить восемь модулей DIMM на один процессорный слот. При определении общего объема памяти для сервера следует стремиться к конфигурации, которая обеспечит наилучшую пропускную способность.
Двухсокетные серверы на процессорах Intel Xeon 6
Использование двухсокетных серверов на базе процессоров Intel Xeon 6 происходит, когда важны стабильная производительность при различных корпоративных нагрузках, возможность масштабирования оперативной памяти и высокая плотность ресурсов в серверной стойке. Окончательный результат работы платформы зависит не только от выбора процессоров, но и от правильной настройки памяти и подсистемы ввода-вывода. Поэтому при выборе конкретной модели сервера важно учитывать его форм-фактор, объем памяти и соответствие целям использования - от виртуализации и работы с базами данных до вычислений и использования ускорителей.
Примеры серверов
Dell PowerEdge R770
Двухсокетный стоечный 2U-сервер на платформе Intel Xeon 6 для универсальных корпоративных нагрузок с балансом вычислений, памяти и ввода-вывода.
Сценарии использования: виртуализация, консолидация сервисов, прикладные системы, инфраструктура корпоративных приложений.
Преимущества: гибкость конфигураций, прогнозируемая масштабируемость, удобная базовая платформа под рост нагрузки.
Lenovo ThinkSystem SR650 V4
Двухсокетная 2U-платформа на Intel Xeon 6 (серии 6500/6700), рассчитанная на плотные развертывания и длительный жизненный цикл в стойке.
Сценарии использования: виртуализация, программно-определяемые хранилища (SDS), корпоративные сервисы, инфраструктурные задачи уровня стойки.
Преимущества: предсказуемая производительность, удобство сопровождения, масштабирование без смены класса оборудования.
SuperMicro SYS-122H-TN (X14 DP Hyper)
Высокоплотный двухсокетный сервер 1U на Intel Xeon 6 6700 series, ориентированный на максимальную концентрацию вычислительных ресурсов в минимальном пространстве.
Сценарии использования: облачные и виртуализированные среды, плотные вычислительные кластеры, сервисы с ограничениями по месту в стойке.
Преимущества: высокая плотность размещения, быстрый ввод в эксплуатацию, возможность наращивать память в рамках платформы.
xFusion FusionServer G6500E V8
Двухсокетная платформа на Intel Xeon 6 для тяжелых вычислительных сценариев и конфигураций с ускорителями, где важны питание, охлаждение и высокая плотность.
Сценарии использования: ИИ/ML, вычислительные кластеры, HPC, проекты с ускорителями и высоким теплопакетом.
Преимущества: рассчитан на плотные конфигурации, продуман под питание и охлаждение, подходит для «тяжелых» вычислений.
При выборе двухсокетного сервера, важно учитывать не только бренд (Dell, HPE, Lenovo, SuperMicro, xFusion), но и требования к пропускной способности памяти в реальной нагрузке. Для большинства сценариев оптимально устанавливать 8 DIMM на каждый процессорный разъем с одинаковой емкостью и зеркальной конфигурацией между ними.
Различия между производителями проявляются в удобстве и безопасности сборки и поддержки симметричной схемы памяти, наличии разнообразных вариантов ввода-вывода при правильной топологии памяти, а также в предсказуемости поставок и сервиса. При равных характеристиках процессоров и модулей памяти, итоговая производительность зависит от правильной конфигурации и выбранной топологии. Поэтому важно выбирать производителя исходя из конкретных требований эксплуатации и планируемого расширения, а не просто ожидать, что один бренд будет "лучше" других в плане производительности памяти.
Заключение
Влияние подсистемы памяти на производительность двухсокетных серверов с процессорами Intel Xeon 6 необходимо учитывать наравне с выбором процессоров. Правильная топология обеспечивает высокую пропускную способность и низкие задержки, в то время как неправильная конфигурация может стать узким местом в работе всей системы. Оптимальная производительность достигается при выравнивании памяти по каналам и контроллерам, обеспечивая симметричное распределение обращений по всем DIMM через чередование. Несбалансированная установка памяти может снизить пропускную способность до 13% относительно сбалансированной конфигурации с 8 DIMM на каждый процессорный разъем.
Для серверов Dell PowerEdge G17, где важна высокая пропускная способность памяти, рекомендуется использовать 8 DIMM на каждый процессорный разъем как базовую конфигурацию для достижения максимальных значений производительности. Если важен объем памяти, то возможно использование 16 DIMM на разъем, но при этом следует учитывать снижение частоты при двух DIMM на канал и оценивать влияние на целевые нагрузки заранее.
Источник: itelon.ru