Článek přečtěte do 5 min.

NVIDIA NIM TM  je sada snadno použitelných mikroslužeb navržených pro bezpečné a spolehlivé nasazení vysoce výkonného odvození modelu AI napříč cloudy, datovými centry a pracovními stanicemi. NIM nabízí mikroslužby pro nejnovější modely umělé inteligence ve více doménách. Například NVIDIA NIM věnovaná velkým jazykovým modelům (LLM) vybavuje podnikové aplikace pokročilými LLM a poskytuje vynikající schopnosti zpracování přirozeného jazyka a porozumění. NIM zjednodušuje týmům IT a DevOps proces správy LLM hostingu v rámci služby OCI Data Science a zároveň poskytuje vývojářům standardní API. Tato rozhraní API umožňují vytvářet sofistikované kopiloty, chatboty a asistenty umělé inteligence, což přináší revoluci v obchodních operacích. Využitím pokročilé akcelerace GPU a škálovatelných možností nasazení NVIDIA zajišťuje NIM rychlé odvození a bezkonkurenční výkon.

                                              Architektura NIM

Vysoce výkonné vlastnosti NIM

NIM abstrahuje vnitřní prvky odvození modelu, jako jsou procesory a operace za běhu. Běhové moduly NIM inference jsou postaveny na robustních základech včetně Triton Inference Server, TensorRT, TensorRT-LLM a PyTorch, jsou předem sestaveny a optimalizovány tak, aby poskytovaly nejnižší latenci a nejvyšší propustnost inferencí na akcelerované infrastruktuře NVIDIA.

NIM nabízí následující vysoce výkonné funkce:

  • Škálovatelné nasazení: Výkonné a lze jej snadno a hladce škálovat od několika uživatelů po miliony.
  •  Podpora pokročilého jazykového modelu: Používá předem vygenerované optimalizované motory pro rozmanitou řadu špičkových architektur LLM.
  • Flexibilní integrace: Snadno začleňte mikroslužbu do stávajících pracovních postupů a aplikací. Vývojáři mají k dispozici programovací model kompatibilní s OpenAI API a vlastní rozšíření NVIDIA pro více funkcí.
  • Zabezpečení na podnikové úrovni: Zdůrazňuje zabezpečení pomocí safetenzorů, neustálého sledování a opravování běžných zranitelností a rizik (CVE ) v našem zásobníku a provádění interních penetračních testů.

Proč zvolit OCI

Zákazníci volí OCI pro všechny své cloudové úlohy z následujících důvodů:

  • Mnohem snazší migrace kritických podnikových úloh.
  • Vše, co potřebujete k vytváření moderních cloudových nativních aplikací.
  • Autonomní služby automaticky zabezpečují, ladí a škálují vaše aplikace.
  • OCI poskytuje největší podporu pro hybridní cloudové strategie.
  • Náš přístup k zabezpečení: Vestavěný, ve výchozím nastavení, bez příplatku.
  • OCI nabízí vynikající poměr cena/výkon.

Aplikace

Zákazníci použili NIM pro LLM v následujících případech použití:

  • Chatboti a virtuální asistenti: Umožněte robotům porozumění jazyku a schopnost reagovat.
  • Generování obsahu a sumarizace: Snadno generujte vysoce kvalitní obsah nebo destilujte dlouhé články do stručných souhrnů.
  • Analýza sentimentu: Porozumějte pocitům uživatelů v reálném čase a přinášejte lepší obchodní rozhodnutí.
  • Jazykový překlad: Prolomte jazykové bariéry pomocí efektivních a přesných překladatelských služeb.

Přehled řešení na vysoké úrovni

Mikroslužby NIM jsou dodávány jako obrazy kontejnerů pro každý model. Každý kontejner obsahuje inferenční runtime, jako je TensorRT, Triton Inference Server a další, které běží na libovolném GPU NVIDIA s dostatečnou pamětí, s optimalizovanými motory dostupnými pro rostoucí počet kombinací modelů a GPU. Kontejnery NIM stahují modely z NVIDIA NGC pomocí místní mezipaměti souborového systému, pokud je k dispozici. Stahování více mikroslužeb NIM je vytvořeno ze společné základny a po stažení jedné je rychlé. Po nasazení NIM zkontroluje místní hardware a dostupné optimalizované modely a vybere nejlepší verzi pro daný hardware. Pro konkrétní GPU NVIDIA NIM stáhne optimalizovaný engine TensorRT a spouští odvození pomocí knihovny TensorRT-LLM, zatímco pro ostatní GPU používá alternativy včetně knihoven s otevřeným zdrojovým kódem, jako je vLLM.

Následující diagram znázorňuje architekturu řešení na vysoké úrovni, která ukazuje, jak můžete využít NVIDIA NIM v pronájmu OCI:

Přehled implementace NIM na vysoké úrovni

Chcete-li nasadit NIM v OCI, použijte následující kroky:

  1. Vytvoření klíče API a ověřovacího tokenu: V doméně NVIDIA vytvořte klíč API a ověřovací token pro přístup do katalogu NGC.
  2. Získat přihlašovací údaje: Získejte potřebné přihlašovací údaje pomocí vytvořeného klíče API a ověřovacího tokenu.
  3. Docker pull obraz NIM pro cílový model: Pomocí příkazu Docker pull načtěte obraz NIM pro cílový model z katalogu NGC.
  4. Obrázek Docker: Vytažený obrázek NIM je nyní k dispozici jako obrázek Docker.
  5. Odeslat do registru Oracle Cloud Infrastructure Registry (OCIR): Odeslat obraz Dockeru do OCIR.
  6. Vytvořit nasazení modelu: Uživatel vytvoří nasazení modelu v pronájmu OCI s využitím obrazu Dockeru zaslaného do OCIR.
  7. Stáhnout bitovou kopii NIM: V pronájmu OCI stáhněte bitovou kopii NIM z OCIR do prostředí virtuálního počítače nebo holého kovu.
  8. Vytáhněte model z katalogu NGC pomocí klíče API NGC: Nasazení modelu načte model z katalogu NGC pomocí klíče API NGC a v případě potřeby odešle požadavek na výstup do domény NVIDIA.

Komponenty tohoto nasazení se vzájemně ovlivňují následujícími způsoby:

  • Prostředí virtuálního počítače nebo prostého kovu: V pronájmu OCI je prostředí virtuálního počítače nebo holé kovové prostředí nastaveno pro zpracování předpovědí a dokončení chatu. Toto prostředí zahrnuje kontejner proxy virtuálního počítače a kontejner NIM pro nasazení modelu.
  • Kontejner proxy virtuálního počítače: Usnadňuje komunikaci mezi požadavkem uživatele, jako je předvídání a dokončení chatu, a kontejnerem NIM pro nasazení modelu.
  • Kontejner NIM nasazení modelu: Spustí odvození modelu a zpracuje požadavek uživatele pomocí nasazeného modelu NIM.

Při prvním nasazení NIM zkontroluje NIM místní konfiguraci hardwaru a dostupný optimalizovaný model v registru modelů – a poté automaticky vybere nejlepší verzi modelu pro dostupný hardware. Pro podmnožinu GPU NVIDIA si NIM stáhne optimalizovaný engine TensorRT a spustí odvození pomocí knihovny TensorRT-LLM. Pro všechny ostatní GPU NVIDIA NIM stáhne neoptimalizovaný model a spustí jej pomocí alternativní knihovny, jako je vLLM. Mikroslužby NIM jsou distribuovány jako obrazy kontejnerů NGC prostřednictvím katalogu NVIDIA NGC. Pro každý kontejner v katalogu NGC je k dispozici zpráva o bezpečnostním skenování, která poskytuje hodnocení bezpečnosti daného obrazu, rozdělení závažnosti CVE podle balíčku a odkazy na podrobné informace o CVE.

Pojďme si ukázat, jak integrovat funkce NVIDIA NIM do OCI. NIM, který lze bez problémů integrovat s OCI Data Science, může transformovat nasazení a správu generativních modelů umělé inteligence. Rozšiřuje možnosti OCI Data Science následujícími způsoby:

  1. Zjednodušené nasazení AI: Zjednodušuje operace a umožňuje efektivní správu velkých jazykových modelů (LLM) vývojářskými týmy.
  2. Škálovatelná řešení: Nabízí škálovatelné možnosti nasazení, které udržují výkon při různé zátěži, od několika uživatelů až po miliony.
  3. Pokročilé schopnosti umělé inteligence: Poskytuje robustní podporu pro pokročilé LLM, vylepšuje OCI pomocí výkonného zpracování přirozeného jazyka a porozumění pro aplikace, jako jsou chatboti a asistenti AI.
  4. Flexibilní vývojářské nástroje: Vybavuje vývojáře programovacími modely kompatibilními s OpenAI API a vlastními rozšířeními NVIDIA, což usnadňuje integraci do stávajících i nových aplikací.
  5. Optimalizovaný výkon: Každý kontejner je optimalizován pro konkrétní GPU NVIDIA, aby pomohl zajistit optimální výkon v prostředí OCI.
  6. Vylepšené zabezpečení: Implementuje komplexní bezpečnostní opatření, včetně nepřetržitého monitorování a proaktivní správy zranitelnosti, aby pomohla udržet vysoké standardy ochrany dat.

Začínáme

Chcete-li začít s NIM na OCI, mohou zákazníci přinést požadovaný obraz NIM do OCIR. Mohou tyto obrázky použít jako nabídku Bring Your Own Container (BYOC) v nasazení modelu OCI Data Science. Chcete-li ukázat příklad nasazení Llama 3 8B pomocí NIM, podívejte se na úplný soubor Readme v našem úložišti GitHub. Podrobně popisuje kroky, jak přizpůsobit obrazy založené na NIM a učinit je kompatibilními, aby je bylo možné úspěšně spustit na OCI Data Science. Chcete-li se dozvědět více o NVIDIA NIM, její nabídce a aktivaci těchto nabídek v Oracle Cloud Infrastructure, použijte následující zdroje:

Zdroj: Oracle