Tmavé pozadí

IBM Storage Scale – benefity technologie MROT

Oldřich Štefek
Oldřich Štefek 9. 9. 2024
IBM Storage Scale –  benefity technologie MROT

Článek popisuje možnosti využití technologie MROT (Multi-rail over TCP) v rámci softwarově definovaného úložiště IBM Storage Scale v kombinaci s technologií RoCE (RDMA over Converged Ethernet). Cílem článku je objasnění benefitů, které spojení těchto dvou technologií v reálném nasazení poskytuje.

IBM Storage Scale – RoCE s využitím technologie MROT

 

IBM již řadu let nabízí robustní, vysoce škálovatelný paralelní systém souborů pod názvem IBM General Parallel Filesystem (dále jen GPFS), který spadá do rodiny širšího produktového portfolia označovaného jako IBM Storage Scale. 

V předchozím článku https://datera.cz/blog/article/storage-scale-rdma-roce/ jsme si představili technologii RoCE (RDMA over Converged Ethernet). Tématem dnešního článku je síťová technologie zvaná MROT (Multi-rail over TCP), kterou lze využít v kombinaci s RoCE. Tato technologie dokáže eliminovat některé ne zcela optimální konfigurační požadavky síťových adaptérů na úrovni operačního systému, resp. GPFS clusteru a dokáže navýšit propustnost už tak velmi výkonné RoCE konfigurace síťové vrstvy clusteru.

Podpora technologie MROT je v rámci IBM Storage Scale k dispozici od verze 5.1.5. MROT umožňuje paralelní TCP/IP komunikaci serverů v rámci clusteru s využitím více podsítí (IP rozsahů), čímž lze dosáhnout vyšší propustnosti a redundance spojení mezi zdrojovým a cílovým uzlem clusteru bez nutnosti další konfigurace na úrovni operačního systému (s výjimkou konfigurace IP adresy síťového rozhraní). Efekt využití technologie MROT se výrazně projeví při využití specifické topologie sítě clusteru, v rámci které každý uzel clusteru disponuje více fyzickými síťovými adaptéry, které jsou zapojeny do různých fyzických přepínačů a mají nastavenu IP adresu z různých IP rozsahů. Ideální kombinací pro dosažení maximální možné propustnosti síťové vrstvy je využití vlastností a rychlosti RoCE topologie (jak na straně Ethernet adaptérů uzlů clusteru, tak na straně Ethernet přepínačů). 

Tímto způsobem lze snadno a efektivně obejít omezení propustnosti na úrovni operačního systému Linux, které by bez využití MROT technologie vzniklo spojením dvou fyzických Ethernet adaptérů do jednoho logického síťového zařízení (bond). Vzhledem k tomu, že RoCE Ethernet adaptéry neumožňují za běžných okolností konfiguraci active/active“ režimu bondu, muselo by se jednat o bond v konfiguraci active/backup“, při kterém je aktivní vždy pouze jeden ze dvou síťových adaptérů. V případě topologie s využitím vysoce rychlostních adaptérů (např. 100/200 Gbps RoCE) tak přijdeme o polovinu síťové propustnosti – jeden ze dvou adaptérů se nebude využívat (resp. se využije pouze v případě chyby primárního adaptéru nebo části sítě, do které je primární adaptér zapojen).

 

Popis MROT z pohledu Storage Scale konfigurace

Pro využití MROT technologie je nutné na úrovni Storage Scale clusteru nastavit atribut "subnets", který se nastavuje příkazem "mmchconfig" (v ideálním případě se nastaví více IP rozsahů). Nastavením atributu "subnets" dojde k automatickému navázání spojení mezi všemi uzly clusteru (každá dvojice uzlů clusteru má nezávislé spojení) s využitím všech IP rozsahů, které byly nastaveny a do kterých mají konkrétní uzly clusteru připojen aktivní fyzický síťový adaptér s nastavenou IP adresou. Počet spojení mezi každou dvojicí uzlů clusteru je závislý na počtu specifikovaných IP rozsahů, který vychází z počtu fyzických adaptérů a přímého přístupu konkrétního uzlu clusteru ke specifikovanému IP rozsahu.

 

Storage Scale cluster automaticky udržuje tabulku těchto spojení (tzv. IP Pair table“), kterou lze získat jako výstup příkazu "mmdiag --network". Storage Scale cluster automaticky reaguje při výpadku jednoho síťového adaptéru uzlu clusteru, spojení přes nefunkční adaptér automaticky vyřadí a síťová komunikace pokračuje bez výpadku přes fyzický adaptér v rámci druhého IP rozsahu. V případě, že je do clusteru zapojen uzel, který nemá žádný síťový adaptér ve specifikovaném IP rozsahu (což není neobvyklá situace), budou s ním ostatní uzly clusteru komunikovat přes tzv. daemon“ IP síť.

 

Cluster „daemon“ IP komunikace vs. technologie RoCE/MROT

Daemon“ síť clusteru se primárně využívá pro interní komunikaci uzlů v clusteru, např. při startu a zastavení služeb nebo změně rolí uzlů clusteru a mnoha dalších interních událostech. Tato vlastnost je nezávislá na využití MROT technologie. 

V případě využití MROT technologie je ale nutné klást větší důraz na topologii daemon“ sítě s ohledem na zajištění redundance této z pohledu clusteru zásadní komunikace. Omezení pro daemon“ IP komunikaci, které je nutné brát v úvahu, vychází z faktu, že pro IP adresaci daemon“ sítě musí být zvolen jediný IP rozsah (více IP rozsahů není podporováno). V takovém případě ale přicházíme o redundanci této sítě, protože v případě výpadku fyzického síťového adaptéru, na kterém je provozována daemon" komunikace, dojde k výpadku této komunikace, což má negativní důsledky na provoz clusteru.

S ohledem na výše uvedené je nutné se zamýšlet nad dodatečným síťovým technickým řešením, které by zajistilo redundanci daemon“ sítě a zároveň by neznamenalo snížení propustnosti síťových adaptérů (např. s využitím active/passive“ bond zařízení na úrovni operačního systému Linux). Takové řešení existuje, ale je nutné na něj myslet již v rámci návrhu konfigurace uzlů clusteru a související síťové infrastruktury. Řešením může být využití jiné, paralelní IP sítě pro daemon“ komunikaci clusteru s využitím active/active" nebo active/passive" bondu nad více fyzickými adaptéry zajišťujícími dostatečnou redundanci na úrovni operačního systému Linux. Toto řešení dává smysl především v případě, že je technologie MROT využita v kombinaci s technologií RoCE. Využití RoCE zajistí, že naprostá většina síťového provozu mezi uzly clusteru obchází daemon“ síť a přes daemon“ síť je řešena pouze nezbytná interní komunikace clusteru, která není náročná na datový tok.

Příkaz "ip -c -4 a" - IP adresace síťových adaptérů

IP configuration of network adapters

Příkaz "mmlsconfig | egrep -i 'subnets|verbs'" - MROT konfigurace

Output of

Příkaz "mmlscluster" - daemon IP konfigurace

Output of

Příkaz "mmdiag --network" - IP Pair table

IP Pair table example

Příkaz "mmdiag --network" - MROT konfigurace

Output of

IBM Redbooks / Documentation

Pro zájemce o větší technický detail jsou dostupné další online materiály od společnosti IBM, která je tvůrcem softwaru, např.: 

  1. Konfigurační manuál - Konfigurace Storage Scale MROT 
  2. Implementační manuál - Implementation Guide for IBM Elastic Storage System 3500

Společnost DATERA se oblastí paralelního clusteru IBM Storage Scale a souvisejícími síťovými technologiemi zabývá velmi intenzivně. Má za sebou celou řadu pokročilých, úspěšných nasazení, dlouholeté implementační i provozní zkušenosti a odpovídající tým specialistů. 

Oldřich Štefek
Oldřich Štefek 9. 9. 2024