Společnosti se snaží využívat vysoce výkonné výpočty (HPC) v cloudu z různých důvodů. Někteří zákazníci chtějí plně převést své místní HPC do cloudu způsobem „lift-and-shift“, zatímco jiní chtějí svou místní infrastrukturu rozšířit hybridním nebo nárazovým způsobem. Oracle Cloud Infrastructure (OCI) nedávno vydala dva nové Compute tvary s procesorem AMD EPYC „Genoa“ 4. generace, bare-metal (BM) BM.Standard.E5.192 se 192 fyzickými jádry a virtuální stroje (VM) VM.Standard.E5.Flex s až 94 fyzickými jádry. Prozkoumali jsme výkonnostní potenciál těchto nových tvarů pomocí Ansys Fluent verze 2023 R1, což je špičková výpočetní dynamika tekutin (CFD) a multifyzikální aplikace. Připravované HPC, optimalizované a husté I/O Compute tvary nebyly pro tyto testy brány v úvahu.
Srovnávací hodnoty
Naší referencí byl cluster s pravým uzlem založený na našem aktuálním tvaru pro HPC, BM.Optimized3.36, s duálními 18jádrovými procesory Intel Xeon „Ice Lake“ 3. generace, pamětí 512 GB, 3,2 TB NVMe a ultranízkým latence 100 Gbps RDMA přes konvergovanou ethernetovou (RoCE) v2 síť. O novém tvaru AMD Genoa určeném pro HPC diskutujeme v připravovaném dokumentu. Testovali jsme také cluster BM.Standard.E4.128 založený na procesoru AMD EPYC „Milan“ 3. generace. Všechny clustery byly vytvořeny pomocí HPC stacku v OCI Resource Manager pomocí šablony Terraform, čímž se kolekce instancí změnila na funkční HPC cluster, jak je popsáno v této referenční architektuře. Následující tabulka popisuje testovací systémy.
U tvarů bez sítě RDMA jsme testovali pouze úlohy jednoho výpočetního uzlu, protože výkon sítě bez RDMA může způsobit, že výsledky testu s více uzly budou proměnlivé. Jediný uzel na bázi AMD Genoa s až 192 jádry však může nabídnout výkon srovnatelný s mnoha současnými víceuzlovými clustery. Holé kovové tvary mají pevné jádro a paměť. Nový tvar VM.Standard.E5.Flex Compute je flexibilní a umožňuje uživateli určit počet jader a paměti (v závislosti na omezeních) pro uzel. Vybrali jsme 92 jader a 384 GB paměti (4 GB/jádro), které vyvažují cenu a výkon pro širokou škálu CFD analýz.
Testovali jsme následující standardní Fluent benchmarky: sedan_4m, aircraft_wing_14m, combustor_71m, f1_racecar_140m a open_racecar_280m, představující různé pracovní zátěže CFD. Uvedli jsme výkon benchmarku na základě „hodnocení Řešitel“ hlášeného z výstupního souboru skriptu „fluentbench.pl“, který představuje celkový počet úloh za den. V následujícím grafu platí, že čím vyšší, tím lepší.
Výsledky byly normalizovány na výkon získaný z jednoho uzlu BM.Optimized3.36, v legendě zkráceně BM.O3(1-node). Největší případ, open_racecar_280m, se nevešel do paměti zde nakonfigurovaného jediného uzlu BM.Optimized3.36 ani VM.Standard.E5.Flex, takže jsme vzali metriku výkonu jednouzlového BM.Optimized3.36 jako polovina výsledku dvou uzlů.
Víceuzlové paralelní zrychlení clusteru BM.Optimized3.36 je téměř lineární díky síti RDMA. Jediný uzel BM.Standard.E5.192 nabízí třikrát vyšší výkon než referenční samostatný uzel BM.Optimized3.36. VM.Standard.E5.Flex má srovnatelný výkon jednoho uzlu s BM.Standard.E4.128 s použitím o 30 % méně jader, přičemž obě nabízejí dvojnásobný výkon jednoho uzlu ve srovnání s BM.Optimized3.36.
Náklady na zdroj HPC jsou pro mnoho zákazníků často srovnatelné s výkonem. Graf 2 zobrazuje naše výsledky z hlediska nákladů na hardware OCI na úlohu s použitím jednouzlového BM.Optimized3.36 jako reference. Na tomto obrázku platí, že nižší je lepší.
Pro každý tvar uzlu byla použita možnost s nejnižšími náklady ( na vyžádání pro holý kov a preemptibilní pro virtuální počítače ). BM.Standard.E4.128 měl nejvyšší náklady na zakázku, zatímco podobně výkonný VM.Standard.E5.Flex měl výrazně nižší náklady než všechny ostatní. Cena úlohy se u BM.Optimized3.36 příliš nelišila při použití více uzlů na úlohu pro větší sady modelů. Náklady na BM.Standard.E5.192 byly asi o 20 % vyšší než na BM.Optimized3.36.
Pozorování
Naše výsledky ukazují, že různé tvary Compute společnosti OCI nabízejí různé atributy pro HPC. I když je možné provádět takové různé úlohy na clusteru složeném z jednoho tvaru, migrace úloh do cloudu umožňuje používat různé tvary výpočtů u různých úloh. Obrázek 1 uvádí různé atributy pro tvary, které jsme testovali, kde je vzdálenost od středu žádoucí.
Výkon je založen na pracovní době, cena-výkon je založen na snížení celkových nákladů na hardware na úlohu, všestrannost je založena na schopnosti řešit různé úlohy na jednom tvaru, flexibilita je založena na schopnosti rychle přidat nebo snížit kapacitu clusteru a jednoduchost je založena na snadném použití a správě clusteru. Graf ukazuje, že preferovaný tvar výpočtu se může změnit v závislosti na požadovaných atributech úlohy.
Závěr
Analýzy HPC jsou obvykle řízeny člověkem, kde je doba obratu úlohy kritická, nebo algoritmem, jako je návrh experimentu (DOE), kde není nutný lidský zásah pro každou úlohu, ale čas a náklady na spuštění velkého množství úloh. hmota. Analýzy řízené člověkem jsou často složité simulace vyžadující vysoký výkon a všestrannost clusteru, jako je paměť, I/O, síť, přirozeně mapované na BM.Optimize3.36. Pro zákazníky s omezenou podporou HPC IT nabízí BM.Standard.E5 vysoký výkon a všestrannost s jednodušší správou ve srovnání s clusterem BM.Optimized3.36. DOE analýzy vyžadující tisíce skromnějších analýz upřednostňují nízkonákladový VM.Standard.E5.Flex.
Zdroj: Oracle