Google

Второе поколение IBM V7000

Опубликовано:Октябрь 23, 2014
Comments
Add One
0

Компания IBM 6 мая 2014 года анонсировала появление второго поколения систем хранения данных Storwize V7000. В этой статье сделаем небольшой обзор этой системы и поговорим о некоторых её особенностях.

Конкуренция на рынке систем хранения данных требует от производителей оборудования внедрения новых технологий, которые должны удовлетворять растущим требованиям по производительности, доступности и емкости, при этом, позволяя заказчикам экономить.

Как и в предыдущем поколении, система V7000 Gen2 может состоять из нескольких контроллерных пар (Control Enclosures) объединенных в кластерную систему с единым управлением.

По сути, контроллерная пара это обычная СХД с двумя контроллерами (node canisters). Она имеет свои порты ввода-вывода для взаимодействия с хостами и свою дисковую подсистему. Набор, состоящий из пары котроллеров и дисковой подсистемы, в терминологии IBM называется IO-группой.

IBM называет систему из 4-х пар котроллеров кластерной, но по сути это 4 различные СХД, объединенные общим управлением. При сбое контроллерной пары нет возможности перехвата IO-группы другой контроллерной парой. Т.е. данные управляемые этой контроллерной парой становятся недоступными. Поэтому при рассмотрении данной системы мы не будем следовать её маркетинговому описанию, а будем рассматривать возможности в рамках одной IO-группы.

Базовые вещи в рамках одной контроллерной пары (Type – Model: 2076-524):

  • На каждом контроллере установлен современный 8-ми ядерный 64-битный процессор Intel, а также аппаратный ускоритель  компрессии. Т.О. одна контроллерная пара содержит 16 ядер и 2 аппаратных ускорителя компрессии.
  • Опционально, в каждый контроллер  может быть установлена карта с дополнительным аппаратным ускорителем компрессии.
  • Объем кеш-памяти на контроллерную пару – 64ГБ, т.е. 32ГБ на контроллер. Опционально, объем кеш-памяти на контроллерную пару может быть увеличен до 128ГБ, однако, это расширение может быть использовано только с дополнительными аппаратными ускорителями компрессии.
  • Доступ к хостам может быть организован следующими внешними интерфейсами для блочного доступа: FC — 8Gbps, iSCSI – 1Gbps и 10Gbps, FCoE – 10Gbps.
  • Для ввода-вывода используется современный стандарт PCIE V 3. Пропускная способность этого стандарта позволяет использовать SAS BackEnd  на скорости 12Gbps. Т.О. к контроллерам могут подключаться дисковые полки и диски на скорости 12Gbps.
  • Максимальное количество дисков на контроллерную пару – 504.
  • Максимальное количество дисков на 4 контроллерные пары – 1056.
  • Форм-фактор полки с контроллерной парой – 2U в 19-ти дюймовом шкафу.
  • В полку с контроллерной парой (2076-524) может быть установлено 24 диска размером 2.5”.
  • В дисковую полку (2076-24F) может быть установлено 24 диска размером 2.5”.
  • В дисковую полку (2076-12F) может быть установлено 12 дисков размером 3.5”.
  • Поддерживаются Flashдиски с форм-фактором 2.5”, размером 200, 400, 800 ГБ cинтерфейсом 12 Gbps SAS.
  • Поддерживаются SAS диски с форм-фактором 2.5”, размером 300, 600 ГБ со скоростью вращения 15К, интерфейсом 12 Gbps SAS.
  • Поддерживаются SAS диски с форм-фактором 2.5”, размером 600, 900, 1200 ГБ со скоростью вращения 10К и интерфейсом 6 Gbps SAS.
  • Поддерживаются NL-SAS диски с форм-фактором 2.5”, размером 1 ТБ со скоростью вращения 7.2К и интерфейсом 6 Gbps SAS.
  • Поддерживаются NL-SAS диски с форм-фактором 3.5”, размером 2, 3, 4 ТБ со скоростью вращения 7.2К и интерфейсом 6 Gbps SAS.
  • Диски разных типов одного форм-фактора могут быть использованы в одной дисковой полке.
  • Одна контроллерная пара может поддерживать до 20 дисковых полок.
  • Контроллерные пары совместимы с файловыми модулями, которые позволяют организовать Unifiedрешение с  файловым доступом (NAS).
  • Технология тонкого выделения ресурсов (Thin Provisioning, входит в базовый комплект)
  • Гибридные пулы с автоматической миграцией данных между уровнями хранения (Hybrid Pools with Automated Tiering – EasyTier, входит в базовый комплект).
  • Виртуализация внешних СХД (Storage Virtualization, требует дополнительного лицензирования).
  • Компрессия в режиме реального времени (Real-time Compression, требует дополнительного лицензирования).
  • Локальная репликация (Flash Copy, входит в базовый комплект).
  • Удаленная репликация синхронная и асинхронная (Remote Mirror, требует дополнительного лицензирования)
  • Поддерживается версия ПО 7.3 или выше.

Программное обеспечение

В свое время компания IBM, решила создать унифицированную платформу среднего уровня на основе виртуализаторов San Volume Controller (SVC). Это позволило сократить инвестиции в разработку и поддержку программного обеспечения для данных продуктов. При этом компания IBM получила два решения (SVC и Storwize), основанные на одном и том же программном обеспечении, которое совершенствуется уже более 10 лет.
Кроме этого необходимый функционал для работы с RAID группами и пулами был взят от систем уровня предприятия серии DS8xxx.

Этот подход дал хороший результат в первом поколении систем Storwize V7000. Новое поколение систем развивает этот подход и добавляет новые возможности.

Аппаратура

Давайте посмотрим, что нового в части аппаратной конфигурации контроллерной пары. Ниже на рисунке представлена её компоновка.

10112014_control_enclosure_inside

В первую очередь стоит обратить внимание на то, что произошло изменение форм-фактора контроллеров. В предыдущем поколении V7000 Gen1 в каждый контроллер можно было установить только одну дополнительную интерфейсную карту Ethernet 10 Гбит/c, а сами котроллеры располагались друг над другом. Однако современные тенденции привели к тому, что этот подход стал менее эффективным, и потребовались изменения, которые привели к более гибкой конфигурации. Многие вендоры уже давно используют данный подход.

Заметим, что плата Midplane является единой точкой отказа. Такая ситуация характерна для большинства вендоров, хотя маркетинговые материалы рассказывают нам, что в системах нет единой точки отказа. Эта ситуация не критичная, потому что вероятность отказа платы мала, так как на ней почти нет активных компонентов.

10112014_control_enclosure_ports

В V7000 Gen2 разработчики изменили форм-фактор котроллеров и расположили их на одном уровне. Это дало возможность размещения 3-х PCIE слотов для установки карт на контроллере.

Из рисунка видно, что на контроллерах нет встроенных портов FC для подключения хостов. Теперь этот функционал обеспечиваться за счет установки хост карт, которые могут обеспечить доступ по FC 8Gbps, FCoE и iSCSI 10Gbps. Это решение так же хорошо тем, что в последующей линейке при переходе, например, с 8Gbps FC на 16Gbps не потребуется сильно изменять контроллерную плату, а нужно будет просто обновить хост карту. При этом на коммутационном уровне уже заложен необходимый запас пропускной способности, так как коммутация построена на стандарте PCIE v3. Вот такие небольшие закладки вендоры делают для того, чтобы сократить свои издержки, что весьма разумно с их стороны.

10112014_control_enclosure_ports1

Встроенные порты на контроллере:

  • 4 разъема Ethernet 1Gbps, при этом 1 порт используется для технических нужд (первоначальная настройка и т.п.). Остальные 3 порта могут быть использованы для блочного доступа по протоколу iSCSI 1Gbps.
  • 2 USB разъема (используются для конфигурации)
  • 2 разъема SAS используются для подключения дисковых полок. Один разъем состоит из 4-х двунаправленных последовательных линий, работает на скорости 12Gbps.

Подключение дисковых полок

К одному SAS разъему можно подключить до 10 дисковых полок. При этом первые SAS разъемы обоих контроллеров используются для подключения одной группы из 10-ти дисковых полок, а вторые SAS разъемы используются для подключения других 10-ти дисковых полок. Таким образом, суммарно к контроллерной паре можно подключить до 20 полок c 2.5” дисками. Типовая схема подключения представлена на рисунке ниже.

10112014_enclosures_cabling

Карты для контроллеров

На данный момент можно установить различные карты, это

    • 4 портовая карта FC 8Gbps. В базе комплектуется Shot Wave SFP 8Gbps трансиверами. Есть возможность использовать Long Wave SFP 8Gbps трансиверы.

10112014_fc_card

    • 4 портовая карта iSCSI, FCoE 10Gbps. В базе комплектуется SFP+ трансиверами.
    • Дополнительный ускоритель компрессии (устанавливается опционально) или специальная карта, обеспечивающая подключение встроенного ядра компрессии (входит в базовый комплект).

10112014_acceleration_card

В таблице указана информация о том, в какие слоты могут быть установлены карты:

# слота Карта
1 Compression path-through или Compression Acceleration card
2 None, 4 port 8Gbps FC, 4 port 10Gbps iSCSI/FCoE
3 None, 4 port 8Gbps FC, 4 port 10Gbps iSCSI/FCoE

Особенности

В текущей версии 7.3 программного обеспечения, есть некоторые ограничения на количество карт. Так в каждый контроллер можно установить две карты FC 8Gbps с 4-мя портами, но только одна 4-х портовая карта iSCSI/FCoE 10Gbps поддерживается.

Из новых вещей хочется отметить, что теперь появилась возможность настройки репликации по протоколу Ethernet, используя встроенные порты 1Gbps и порты на 10Gbps картах.

При использовании карт FCoE 10Gbps поддерживается подключение хостов только через сетевую инфраструктуру, т.е. прямое подключение к хостам не поддерживается.

Так же есть рекомендация разделения протоколов FCoE и iSCSI между различными портами.

Батарейки и отключение питания

Батарейки достаточно компактно расположены внутри контроллеров. Их основная задача, в случае отказа гарантированного питания, позволить контроллерам сохранить текущую конфигурацию и кеш на запись на внутренний Flash накопитель.

10112014_node_battery

Архитектурная схема контроллера и компоненты решения

На рисунке ниже представлена принципиальная схема контроллера:

10112014_block_diagram_node_canister

Ключевым элементом в новом контроллере является использование современного 8-ми ядерного процессора Intel Xeon E5-2628L v2, основанного на архитектуре Ivy Bridge.

Данный процессор, как и другие процессоры этой серии (E5-2618L v2, E5-2628L v2, E5-2648L v2 и E5-2658L v2) ориентирован на встраиваемые системы и пониженное энергопотребление.

Одной из замечательных особенностей данного процессора является наличие встроенного ввода-вывода, поддерживающего редакцию PCIE v3. При этом процессор имеет 40 линий (lane) PCIE v3.

Схема процессора:

10132014_intel_E5-2628L_v2_scheme

Схема разделения по линиям и портам:

10132014_intel_E5-2628L_v2_lanes

Рассмотрим чуть подробнее схему контроллера и попробуем разобраться в пропускной способности между отдельными компонентами.

Увеличение пропускной способности по вводу-выводу в новом процессоре позволило достаточно просто подключить основные компоненты. Начнем с хост адаптеров (FrontEnd).

fab10029

Из картинки видно, что слоты PCIE имеют размеры x8. При этом известно, что в новой линейке используется тот же FC HBA, что и в первом поколении. Это 4-х портовый адаптер фирмы PMC-Sierra, Inc. PM8032 Tachyon QE8, который поддерживает стандарт PCIE v2.

Заметим, что слот PCIE x8, работающий по стандарту версии 2, может иметь пропускную способность до 3,2 GBps в одном направлении. Что в 2 раза меньше, чем при использовании стандарта 3 в такой же конфигурации (6,4 GBps). Т.е. мы видим запас на будущее для новых 16 Gbps адаптеров, которые будут работать по стандарту PCIE v3.

Про новый 10 Gbps адаптер iSCSI/FCoE пока известно мало. Из картинки видно, что он устанавливается в слот PCIE x8.

Интересна ситуация с контроллером Intel, который пооддерживает аппаратную компрессию, обеспечивает 4-мя портами ethernet 1Gbps, 2-мя портами USB 2.0 и позволяет подключить встроенный Flash накопитель, на котором расположено ПО контроллера.

10232014_V7000_controller

Эта серия контроллеров Intel 89xx (Coleto Greek) прекрасно интегрируются с процессором и позволяет на аппаратном уровне реализовывать шифрование и компрессию. Пока IBM про аппаратное шифрование молчит, возможно мы это увидим в последующем поколении систем. Хотя на схеме многие заметили небольшой блок с TPM (Trusted Platform Module), так что криптопроцессор там есть, но когда он официально заработает пока не понятно.

На следующей картинке представлены основные характеристики чипсетов Intel серии 89xx (Coleto Greek):

10202014_chipset_89xx_spec

Наиболее интересный параметр для нас это скорость компрессии до 24 Gbps.

Для адаптера аппаратной компрессии используется слот PCIE x16. Из таблички видно, что для чипсетов Intel серии 89xx может использоваться различное количество PCIE линий (x16. x8, x4) и используется спецификация версии 2.

При этом, один чип находится на плате контроллера, а второй может быть установлен в слот PCIE. Контроллер, установленный на плате, подключается напрямую к процессору только 4-мя линиями PCIE, это можно увидеть на картинке со слотами. Эти линии соответствуют интерфейсу DMI (Direct Media Interface).

Возникает вопрос, каким образом подключаются остальные PCIE линии контроллера?!

Известно, что для работы контроллера, установленного на плате, необходимо, чтобы в слоте PCIE x16 был установлен специальный path-through адаптер. Но, если 2 устройства соединяются через слот x16, то каждое устройство должно иметь для подключения 8 линий PCIE.

В случае, когда используется 2-й контроллер Intel 89xx, то он и встроенный контроллер подключаются к процессору через PCIE коммутатор (PEX 8xxx) компании PLX Technology (в V7000 Gen1 использовался коммутатор PEX8648, информацию по id аппаратных компонент, используемых в первом поколении V7000 можно посмотреть в статье http://it-consultant.su/page/2/ ).

На картинке с адаптером аппаратной компрессии видно два больших чипа с радиаторами. Тот, который поменьше, это скорее всего PCIE коммутатор, а тот, который по больше и есть контроллер Intel серии 89xx.

Из этого всего следует, что разводка слота PCIE x16 выполнена таким образом, что половина линий используется для подключения PCIE коммутатора к процессору, а другая половина для подключения к установленному на процессорной плате контроллеру Intel 89xx, а второй контроллер подключается к PCIE коммутатору напрямую.

Предполагаю, что используется PEX8xxx, поддерживающий до процессора спецификацию PCIE v3. И к нему напрямую подключаются 8 линий от процессора (PCIE v3) и суммарно 16 линий (PCIE v2) от 2-х контроллеров Intel серии 89xx.

Таким образом, максимальная пропусная способность 8 линий PCIE v3 (6,4 GBps) соответствует пропускной способности двум соединениям по 8 линий PCIE v2 (3,2 GBps).

Отдельные коммутаторы PCIE v3 (PEX8xxx) фирмы PLX Technology используются для организации обмена данными между контроллерами СХД. Предположительно, коммутатор подключается к процессору с помощью 8 линий PCIE V3. Таким образом взаимодействие между контроллерами СХД в одном направлении выполняется на скорости до 6,4 GBps.

На коммутаторах PLX Technology вероятно используется расширение PCIE, которое позволяет выполнять низко латентный обмен данными между кеш памятью контроллеров через RDMA (Remote Direct Memory Access).

Рассмотрим последний компонент схемы. Это подключение дисковых устройств (BackEnd) к фабрике PCIE. Если пересчитать количество линий (lane), которые были использованы под задачи перечисленные выше, то окажется, что из 40 линий осталось только 8. Предполагаю, что именно столько линий PCIE V3 используется для подключения BackEnd устройств. Т.О. скорость в одном напралении не превышает 6,4GBps.

В итоге получается такая схема подключения компонент:

10182014_v7000_gen2_node

Backend организован в виде встроенного в плату SAS контроллера PCM-S SPC серии PM8xxx фирмы PMC-Sierra, Inc., который позволяет получить несколько SAS портов, работающих на скоростях 12 Gbps (в V7000 Gen1 использовался контроллер PM8001, который имеет 8 портов по 6Gbps и подключается к фабрике PCIE V2).

К этим портам подключаются SAS экспандеры, которые используются в дисковых полках. К этим экспандерам подключаются диски. Так же у каждого SAS экспандера есть дополнительный порт, который позволяет подключить следующий SAS экспандер по цепочке.

Схема подключения выглядит следующим образом:

10112014_sas_backend

Каждый SAS 12Gbps порт контроллера PCM-S SPC серии PM8xxx состоит из 4-х линий (SAS x4) и имеет пропускную способность 4,4 GBps.

Заметим, что диски в контроллерной полке подключаются 2-мя такими портами. Это говорит о том, что пропускная способность контроллерной полки гораздо выше. Поэтому, например, при использовании высокопроизводительных дисков есть рекомендация размещать их в первую очередь в контроллерной полке. В этом случае будет соблюдаться определенный баланс.

Остальные 2 порта используются для организации 2-х каскадов для подключения дополнительных дисковых полок.

Распределение ресурсов процессора и памяти при использовании аппаратной компрессии

Использование компрессии в режиме реального времени (Real time Compression или RtC) требует значительных ресурсных затрат.

При активации RtC может быть использовано до 4-х ядер процессора на контроллере.

Если не используется дополнительный аппаратный ускоритель компрессии, то из 32 ГБ памяти контроллера выделяется 12 ГБ для нужд RtC.

В случае использования дополнительного ускорителя на каждый контроллер устанавливаются дополнительные 32 ГБ памяти, которые используются только для RtC. Из основной памяти так же выделяется 6 ГБ. Таким образом, для нужд RtC выделяется 38 ГБ памяти на каждом контроллере.

При этом, контроллерная пара может поддерживать до 200 сжатых томов.

Архитектура кеш памяти

На рисунках ниже представлены схемы обработки операций ввода-вывода для V7000 Gen1 и Gen2:

10112014_cache_pre_7.3

10112014_cache_7.3.x

Во втором поколении V7000 появилось разделение кеш памяти на 2 области – Upper Cache и Lower Cache.

По-видимому, структура и алгоритмы работы кеш памяти (Cache Partitioning, Destaging, LRU, Write Throttling, Prefetching, Full Stripe Writes) остались такими же, как и в V7000 Gen1, но теперь Flash Copy, Volume Mirroring, Real Time Compression модули находятся выше, чем Lower Cache, который отвечает за R/W кеширование, метаданные и т.п. Скорее всего, это дает дополнительные преимущества в скорости обработки данных.

Основная роль Upper Cache это оптимизация передачи копии данных, при операциях записи, второму контроллеру.

Некоторые параметры кеш памяти:

  • Размер страницы памяти (Page) – 4 КБ.
  • Гранулярность данных в процессе Destage – 32 КБ ( 8 x Pages ).
  • Размер Upper Cache – 256 МБ.
  • Размер Lower Cache = Cache – Upper Cache.

Распределение кеш памяти под задачи для одного контроллера:

Cache size, GB RtC Linux kernel,GB RtC, GB Max Write Cache, GB
32 no 4 0 12
32 yes 4 6 12
64 no 4 0 12
64 yes 4 38 12

Гибридные пулы на основе EasyTier v3

В новом поколении систем появился механизм автоматической балансировки нагрузки и возможность использовать до 3-х уровней хранения данных.

Возможные конфигурации уровней:

10232014_v7000_3_tier_conf

При этом балансировка возможна, как между блоками внутри уровня, так и между уровнями. Размер блока это размер экстента (extent), на которые разделяются устройства MDISKs в пуле.

Размер экстента задается на этапе создания пула и может варьироваться от 16 МБ до 8192 МБ. От размера экстента зависит максимальный размер луна в пуле и максимальная емкость системы, так как количество экстентов ограничено.

Механизм EasyTier собирает статистику по утилизации экстентов (IOPS, Response time и т.п.) и создает план по перемещению экстентов между уровнями хранения. План строится через каждые 24 часа. Далее, запускается процесс миграции экстентов. Максимальная скорость – до 30 MBps.

Аппаратная совместимость с V7000 Gen1

  • Дисковые полки и диски от V7000 Gen1 не могут быть использованы с контроллерной парой V7000 Gen2.
  • Контроллерная пара V7000 Gen2 может кластеризоваться с V7000 Gen1.
  • Удаленная репликация – нет ограничений для V7000 Gen1 и SVC.

10112014_investment_protection

Оценки производительности контроллеров, сделанные на основе backend калькулятора, можно найти в статье «Оценка IOPS для IBM V7000 Gen2».

Заканчиваем наш обзор небольшой сравнительной таблицей:

IBM Storwize V7000 Gen2
Макс число дисков на контроллерную пару (IO Group) 504
ОЗУ на контроллер, ГБ 64
ОЗУ на контроллерную пару (IO Group), ГБ 128
Тип процессора Xeon E5
Процессоров на контроллер 1
Кол-во ядер на процессор 8
Частота ядра, ГГц 1,9
Макс к-во FC 8Гбит/c портов на контроллер (для доступа серверов) 8
Макс к-во FC 8Гбит/c портов на систему (для доступа серверов) 16
Макс к-во iSCSI 10Гбит/c портов на контроллер 4
Макс к-во iSCSI 10Гбит/c портов на систему 8
Типы RAID 0,5,6,10
Макс кол-во дисков в RAID группе 16
Макс кол-во дисков в пуле 128
Add Comment Register



Leave a Comment