Generativní úlohy s umělou inteligencí přinášejí jinou sadu technických kompromisů než tradiční cloudové úlohy. V Oracle navrhli účelovou síť GenAI přizpůsobenou potřebám těch nejlepších pracovních zátěží Gen AI.
Na Oracle CloudWorld společnost Oracle oznámila, že je k dispozici Oracle Cloud Infrastructure (OCI) Supercluster s až 131 072 GPU NVIDIA Blackwell, které poskytují bezprecedentní 2,4 zettaflopů špičkového výkonu. Clusterová síť zettascale poskytuje 52 Pbps neblokované síťové šířky pásma při 400 Gbps na port s latencí pouhých 2 µs (mikrosekundy). Toto měřítko je pětkrát vyšší výkon šířky pásma sítě a poskytuje až pětkrát nižší latenci sítě ve srovnání s konkurencí. Tento blogový příspěvek zkoumá některé klíčové inženýrské inovace, které jsou základem těchto vylepšení.
Cluster network na zettascale je třívrstvá topologie Clos, která podporuje až 131 072 GPU s 400 Gbps neblokující konektivitou ke každému GPU. Obr. 1: Nabídka OCI Supercluster pro generativní AI Tato síť nejenže podporuje největší clustery GPU, ale zachovává si nízkou latenci, vysokou propustnost a vysokou odolnost vůči pracovní zátěži. Dosažení tohoto cíle vyžaduje, abychom inovovali novými způsoby. Zde diskutujeme o následujících inovacích, které umožňují tuto síť:
- RDMA v zettascale s ultra vysokou propustností.
- Ultra nízká latence.
- Pokročilá odolnost propojení pro zvýšenou spolehlivost pracovní zátěže.
- Pokročilé vyrovnávání dopravní zátěže.
RDMA na Zettascale s ultra vysokou propustností
Škálování RDMA
OCI Superclusters dosahují ultra vysokého výkonu v masivním měřítku. Spoléhají na osvědčené principy distribuovaných systémů a distribuovaných sítí při škálování sítě v jakémkoli měřítku. Jedním z těchto principů je volné propojení mezi koncovými body a jádrem sítě. Předchozí pokusy o RDMA přes konvergovaný Ethernet (RoCE) se spoléhaly na použití prioritního řízení toku (PFC) jako primárního mechanismu řešení přetížení. Je známo, že PFC občas vede k problémům s blokováním sítě, což je v prostředí s více nájemci nebo s více pracovními zátěžemi nepřijatelné. Zvolili jiný přístup a spoléhali na řízení přetížení místo na PFC jako na primární mechanismus vyhnutí se přetížení. Řízení přetížení je proaktivní mechanismus řízení přetížení a funguje na všech vrstvách sítě klastru. To umožnilo škálování sítě v jakémkoli měřítku, které naši zákazníci potřebovali, bez rizika zablokování sítě.
S rostoucí velikostí clusteru se stává kritickou flexibilita pro souběžné používání více úloh clusteru. Aby podpořili více souběžných pracovních zátěží, umožňují více tříd provozu v síti, kde každá třída zátěže, jako je GenAI a rozhraní pro přenos zpráv s vysokým výkonem (HPC-MPI), získává svou vlastní třídu a kvalitu služeb přizpůsobenou svým jedinečným potřebám.
Ultra vysoká propustnost a ultra nízká latence
Generativní pracovní zátěže AI mohou využívat veškerou šířku pásma, kterou může síť poskytnout. Cílem je poskytovat propustnost line-rate při nejnižší možné latenci s reálným pracovním zatížením. V praktických scénářích, dokonce i u neblokující sítě, může být pozorovaná šířka pásma sítě nižší z důvodu lokalizovaného zahlcení na úrovni linky způsobené kolizí toku a výsledným zahlcením.
Použili následující inovativní techniky k zajištění propustnosti line-rate pro reálné pracovní zátěže AI, včetně:
- Inteligentní umístění GPU: Řídicí rovina OCI se pokouší umístit GPU do zákaznického clusteru v nejbližší možné blízkosti. Tato kratší vzdálenost pomáhá současně snížit latenci sítě a automaticky zlepšit propustnost poskytnutím lokality sítě. Více síťového provozu zůstává lokální na nižších úrovních sítě, což snižuje pravděpodobnost kolize toku na vyšších úrovních sítě.
- Služba umístění sítě: OCI má službu, která inzeruje informace o topologii sítě všem GPU, což pomáhá GPU identifikovat, jak blízko jsou umístěny ve vztahu ke všem ostatním GPU. Tyto informace umožňují plánovačům GenAI plánovat úlohy tak, aby úlohy náročné na šířku pásma a citlivé na latenci zůstaly na nižších úrovních sítě.
- Pokročilé techniky vyrovnávání dopravní zátěže: S průmyslovými partnery jsme vytvořili několik nových technik vyrovnávání dopravní zátěže, o kterých pojednáváme v části „Pokročilé vyvažování dopravní zátěže“. Tyto techniky vyvažování zátěže snižují latenci a zvyšují propustnost snížením pravděpodobnosti zahlcení a snížením hloubky fronty v síti.
Síť má celkovou kapacitu 52 Pbps propustnost linky při 400 G pro všech 131 072 GPU NVIDIA Blackwell.
Dosažení ultra nízké latence
Následující schéma znázorňuje topologii sítě klastrové sítě OCI. V této třívrstvé síti Clos první vrstva přepínačů obsluhuje až 256 GPU NVIDIA s jednosměrnou latencí až 2 µs (mikrosekundy). Druhá řada přepínačů obsluhuje až 2048 GPU NVIDIA s latencí až 5 µs. Třetí vrstva přepínačů obsluhuje až 131 072 GPU NVIDIA s latencí až 8 µs.
Obr. 2: OCI Cluster Network Fabric
Při přenosu síťového paketu nejsou 2 mikrosekundy mnoho času a každá součást hardwaru a firmwaru, která paket zpracovává, musí být navržena a nakonfigurována tak, aby byla minimalizována latence. Následující schéma ilustruje rozdělení latence sítě, zahrnující latenci síťové karty (NIC), latenci přepínače, latenci transceiveru a latenci rychlosti světla. Přepínač ASIC má rozpočet latence pod mikrosekundu, obvykle kolem devíti set nanosekund.
Přepínač ASIC provádí následující klíčové funkce:
- Ověřování paketu.
- Provedení vyhledávání na cílové adrese paketu za účelem určení, který výstupní port jej odeslat.
- Přepsání cílové MAC adresy (Layer-2) na adresu dalšího skoku.
- V případě potřeby umístěte paket do dočasné fronty.
- Kontrola a respektování priority paketu pro poskytování správné úrovně služby.
- Pro přetížení označení paketu na signalizaci přetížení, předání paketu na vybraný výstupní port.
Obr. 3: Latence napříč komponentami
Rychlost latence světla je pevná. Optickým signálům trvá jeden kilometr v optickém vláknu 5 µs, což je 5 nanosekund na metr. S cílem minimalizovat latenci specifikujeme maximální povolené vzdálenosti kabelů pro síťové spoje a navrhneme uspořádání datového centra tak, aby vyhovovalo specifikacím vzdálenosti kabelů. Jako příklad omezujeme vzdálenost kabelu mezi GPU a přepínačem prvního skoku (přepínač úrovně 0) na maximálně 40 metrů.
Latence NIC, přepínače a transceiveru jsou navrženy tak, aby minimalizovaly latenci, a křemíková logika výhradně zpracovává pakety, aby se minimalizovala latence sítě. Dynamická paměť s náhodným přístupem (DRAM) a dokonce i vyhledávání HBM s vysokou šířkou pásma (paměť) jsou drahé a naším cílem je eliminovat takový přístup do paměti z cesty zpracování paketů. Pomáháme zajistit, aby konfigurace směrování a přepínání kriticky vyžadovaná pro NIC a křemík přepínače pro zpracování paketů byla vždy dostupná v paměťových komponentách s velmi nízkou latencí, jako jsou SRAM nebo TCAM.
Pokročilá odolnost propojení pro zvýšenou spolehlivost pracovní zátěže
Výkon úloh AI a strojového učení (ML) je extrémně citlivý na narušení sítě. Malá narušení sítě mohou mít mimořádný dopad na výkon pracovní zátěže. Základní přenos RDMA je také citlivý na ztrátu paketů a malá množství zahození paketů mohou vést k opakovanému přenosu mnoha paketů. A konečně, naprostý rozsah těchto pracovních zátěží s tisíci přepínači a desítkami tisíc optických transceiverů znamená, že pravděpodobnost selhání součásti je vyšší než u typické výpočetní zátěže.
Vylepšili odolnost pracovních zátěží našich zákazníků o následující funkce:
- Přizpůsobené konfigurace přepínačů a NIC zaměřené na zmírnění momentálních přerušení spojení.
- Pokročilé monitorovací a automatizační systémy pro shromažďování a analýzu statistik síťového spojení a pro předvídání hrozících poruch.
- Automatizační systémy pro detekci odkazů opakujících se pachatelů a automatickou nápravu přesunutím provozu z těchto spojení a zahájením oprav, aniž by bylo nutné, aby se lidé probírali síťovými řídicími panely.
- Cloudový agent OCI hostovaný na GPU, který hledá spojení na straně hostitele nebo anomálie prostředí a předpovídá hrozící selhání.
Podívejme se hlouběji na jeden z poruchových vektorů, nazývaný linkové klapky.
Definování spojovacích klapek
Link klapky jsou charakterizovány přechody mezi stavy spojení nahoru a dolů, často spouštěnými sekvencí neopravitelných bitových chyb během krátkého časového okna. Předpokládejme například, že máme 400G ethernetové spojení. Specifikace IEEE 400G poskytuje ochranu dopředné korekce chyb (FEC) na těchto spojích, kde ne více než tři sekvenční bloky kódu FEC o délce 5 140 bitů mohou mít každý jednu neopravitelnou bitovou chybu. K neopravitelným bitovým chybám dochází, když kód FEC, vložený do ethernetového rámce, nedokáže opravit bitové chyby. FEC může opravit až 15bitové chyby v bloku kódu FEC. V nejhorším případě můžeme mít tři neopravitelné bitové chyby v rozmezí pouhých 20 ns (nanosekund) a skončit s událostí link-down.
Zatímco optická vrstva takového spojení se obnoví během milisekund, skutečným problémem takové události, jakkoli může být pomíjivá, je to, že má za následek dlouhotrvající událost trvající 10–15 sekund, protože na těchto spojích je zabudováno více vrstev logiky. Tyto vrstvy zahrnují vrstvy závislé na fyzickém médiu (PMD), připojení fyzického média (PMA), FEC, podvrstvu fyzického kódování (PCS), řízení přístupu k médiím (MAC), datové spojení a vrstvy IP. Každá z těchto vrstev má své vlastní nezávislé algoritmy pro trénování, stabilizaci a odolnost spojů, které zkracují dobu vytvoření spoje.
Následující obrázek znázorňuje tyto vrstvy ve vztahu k propojení otevřených systémů.
Obr. 4: Zásobník protokolu OSI
Každá klapka spoje spouští událost konvergence v celé síti ve směrovacím protokolu IP, jako je protokol BGP (Broad Gateway Protocol) a otevřená nejkratší cesta (OSPF). Ve skutečnosti nastanou dvě události: jedna pro link down a druhá pro link up. Samotné události rekonvergence sítě mohou mít své vlastní účinky druhého řádu, jako jsou přechodné mikrosmyčky.
Link klapky zpomalují pracovní zátěž a mohou dokonce přerušit tréninkové sekvence GPU, což vyžaduje vyřazení hostitelů z pracovní zátěže. Stručně řečeno, klapky odkazů mohou výrazně ovlivnit zátěž GPU a prodloužit dobu školení. Klapky odkazů jsou nákladné události a my jim chceme zabránit nebo je minimalizovat.
Příčiny spojovacích klapek
Klapka odkazu se může objevit z mnoha důvodů, včetně následujících příkladů:
- Vady v transceiverech a dílčích součástech, jako jsou lasery, spojka vláken nebo digitální signálové procesory (DSP), které způsobují zhoršený signál nebo ztrátu signálu.
- Špatná hygiena rozmístění ve vláknu a konektorech, jako je prach na vláknu, může zhoršit optický signál.
- Teplotní změny a náhlé změny okolních provozních podmínek.
- Elektrostatický výboj (ESD) poškození citlivých součástí.
- Montážní a výrobní vady.
- Problémy se softwarem nebo firmwarem v zařízení.
Pozorování je, že většina událostí klapky spojení je způsobena přechodnými událostmi, které nevyžadují konkrétní opravu.
Zmírnění klapek spojek
Chvilkové narušení optického signálu na vrstvě PMD může vést k události klopení dlouhého spoje. Máme automatizační systémy, které předpovídají spojení, u kterých se očekává selhání, a máme také automatizační systémy, které zjišťují spojení s opakovanými pachateli a opravují je. To nám stále ponechává nenulovou pravděpodobnost, že se některé odkazy neopakují. Chceme minimalizovat dopady takových jednorázových pachatelů, proto nasazujeme debounce odkazu.
Link debounce je technika, kdy pokud dojde k chvilkovému a jednorázovému přerušení optického signálu (vrstva PMA na NIC nebo přepínači), nesnímáme horní vrstvy (vrstvy MAC nebo IP) a vyhneme se protažení krátké přechodové události do dlouhého výpadku. Další výhodou je, že odskok spojení také zabraňuje události konvergence směrovacího protokolu IP.
Advanced Traffic Load Balancing
Problémy s propustností v síti jsou běžným důsledkem neefektivního vyvažování provozního zatížení, které způsobuje dopravní zácpy, přeplňování toků na cestách a kolize toků s rovnými náklady (ECMP). ECMP je technika vyvažování zátěže paketů, kde přepínač distribuuje více toků přes dostupné paralelní cesty, přičemž všechny pakety toku udržuje na dané cestě. K dopravním zácpám může dojít i v sítích, které nejsou přeplaceny. Přepínače si neuvědomují požadavky na šířku pásma jednotlivých toků a kombinaci toků očekávaných od pracovního zatížení. Jinými slovy, přepínače si nejsou vědomy složení toku pro pracovní zátěž, kterou podporují.
Kolektivní vyrovnávání zátěže
Zavedli několik pokročilých technik vyrovnávání dopravní zátěže, které mohou významně snížit dopravní zácpy. Na jedné z těchto technik spolupracovali s jedním z dodavatelů přepínačů. Tato technika se opírá o to, že přepínač si je vědom kolektivů AI a ML a využívá tyto znalosti k mapování toků ML na cesty, přičemž se vyhýbá přeplňování toků na cestách.
Kolektivní vyvažování zátěže je inovativní technika vyrovnávání zátěže provozu, kde přepínač využívá své znalosti kolektivů ML k optimalizaci mapování dopravních toků na dostupných trasách. Tato pokročilá technika vyvažování zátěže pomáhá současně snížit latenci a zvýšit propustnost snížením pravděpodobnosti přetížení.
Následující obrázek ukazuje kolektivní vyrovnávání zátěže:
Obr. 5: Průtok a přetížení založené na ECMP vs. Kolektivní tok
Schéma nalevo ukazuje standardní vyvažování zátěže ECMP, kde přepínač nezná kolektivy ML a míchá červený a modrý tok, což vede ke kolizím toku nebo přetížení. Schéma vpravo ukazuje vyvažování zátěže s vědomím kolektivu, kde přepínač zná kolektivy ML a vyhýbá se smíchání červeného a modrého toku, čímž se vyhne kolizím toků.
Závěr
Oracle Cloud Infrastructure nově definuje škálovatelnost a výkon sítě pro generativní AI a hloubkové učení s klastrovými sítěmi na zettascale. S ultra vysokou propustností RDMA, ultranízkou latencí, vylepšenou odolností sítě a inteligentním vyrovnáváním provozní zátěže poskytuje infrastrukturu potřebnou pro modely umělé inteligence nové generace a rozsáhlá školení.
Oracle Cloud Infrastructure Engineering zvládá nejnáročnější pracovní zátěže pro podnikové zákazníky, což nás přimělo přemýšlet o návrhu naší cloudové platformy jinak.
Pro další informace nás neváhejte kontaktovat.
Zdroj: Oracle