NVIDIA NIM TM je sada snadno použitelných mikroslužeb navržených pro bezpečné a spolehlivé nasazení vysoce výkonného odvození modelu AI napříč cloudy, datovými centry a pracovními stanicemi. NIM nabízí mikroslužby pro nejnovější modely umělé inteligence ve více doménách. Například NVIDIA NIM věnovaná velkým jazykovým modelům (LLM) vybavuje podnikové aplikace pokročilými LLM a poskytuje vynikající schopnosti zpracování přirozeného jazyka a porozumění. NIM zjednodušuje týmům IT a DevOps proces správy LLM hostingu v rámci služby OCI Data Science a zároveň poskytuje vývojářům standardní API. Tato rozhraní API umožňují vytvářet sofistikované kopiloty, chatboty a asistenty umělé inteligence, což přináší revoluci v obchodních operacích. Využitím pokročilé akcelerace GPU a škálovatelných možností nasazení NVIDIA zajišťuje NIM rychlé odvození a bezkonkurenční výkon.
Vysoce výkonné vlastnosti NIM
NIM abstrahuje vnitřní prvky odvození modelu, jako jsou procesory a operace za běhu. Běhové moduly NIM inference jsou postaveny na robustních základech včetně Triton Inference Server, TensorRT, TensorRT-LLM a PyTorch, jsou předem sestaveny a optimalizovány tak, aby poskytovaly nejnižší latenci a nejvyšší propustnost inferencí na akcelerované infrastruktuře NVIDIA.
NIM nabízí následující vysoce výkonné funkce:
- Škálovatelné nasazení: Výkonné a lze jej snadno a hladce škálovat od několika uživatelů po miliony.
- Podpora pokročilého jazykového modelu: Používá předem vygenerované optimalizované motory pro rozmanitou řadu špičkových architektur LLM.
- Flexibilní integrace: Snadno začleňte mikroslužbu do stávajících pracovních postupů a aplikací. Vývojáři mají k dispozici programovací model kompatibilní s OpenAI API a vlastní rozšíření NVIDIA pro více funkcí.
- Zabezpečení na podnikové úrovni: Zdůrazňuje zabezpečení pomocí safetenzorů, neustálého sledování a opravování běžných zranitelností a rizik (CVE ) v našem zásobníku a provádění interních penetračních testů.
Proč zvolit OCI
Zákazníci volí OCI pro všechny své cloudové úlohy z následujících důvodů:
- Mnohem snazší migrace kritických podnikových úloh.
- Vše, co potřebujete k vytváření moderních cloudových nativních aplikací.
- Autonomní služby automaticky zabezpečují, ladí a škálují vaše aplikace.
- OCI poskytuje největší podporu pro hybridní cloudové strategie.
- Náš přístup k zabezpečení: Vestavěný, ve výchozím nastavení, bez příplatku.
- OCI nabízí vynikající poměr cena/výkon.
Aplikace
Zákazníci použili NIM pro LLM v následujících případech použití:
- Chatboti a virtuální asistenti: Umožněte robotům porozumění jazyku a schopnost reagovat.
- Generování obsahu a sumarizace: Snadno generujte vysoce kvalitní obsah nebo destilujte dlouhé články do stručných souhrnů.
- Analýza sentimentu: Porozumějte pocitům uživatelů v reálném čase a přinášejte lepší obchodní rozhodnutí.
- Jazykový překlad: Prolomte jazykové bariéry pomocí efektivních a přesných překladatelských služeb.
Přehled řešení na vysoké úrovni
Mikroslužby NIM jsou dodávány jako obrazy kontejnerů pro každý model. Každý kontejner obsahuje inferenční runtime, jako je TensorRT, Triton Inference Server a další, které běží na libovolném GPU NVIDIA s dostatečnou pamětí, s optimalizovanými motory dostupnými pro rostoucí počet kombinací modelů a GPU. Kontejnery NIM stahují modely z NVIDIA NGC pomocí místní mezipaměti souborového systému, pokud je k dispozici. Stahování více mikroslužeb NIM je vytvořeno ze společné základny a po stažení jedné je rychlé. Po nasazení NIM zkontroluje místní hardware a dostupné optimalizované modely a vybere nejlepší verzi pro daný hardware. Pro konkrétní GPU NVIDIA NIM stáhne optimalizovaný engine TensorRT a spouští odvození pomocí knihovny TensorRT-LLM, zatímco pro ostatní GPU používá alternativy včetně knihoven s otevřeným zdrojovým kódem, jako je vLLM.
Následující diagram znázorňuje architekturu řešení na vysoké úrovni, která ukazuje, jak můžete využít NVIDIA NIM v pronájmu OCI:
Chcete-li nasadit NIM v OCI, použijte následující kroky:
- Vytvoření klíče API a ověřovacího tokenu: V doméně NVIDIA vytvořte klíč API a ověřovací token pro přístup do katalogu NGC.
- Získat přihlašovací údaje: Získejte potřebné přihlašovací údaje pomocí vytvořeného klíče API a ověřovacího tokenu.
- Docker pull obraz NIM pro cílový model: Pomocí příkazu Docker pull načtěte obraz NIM pro cílový model z katalogu NGC.
- Obrázek Docker: Vytažený obrázek NIM je nyní k dispozici jako obrázek Docker.
- Odeslat do registru Oracle Cloud Infrastructure Registry (OCIR): Odeslat obraz Dockeru do OCIR.
- Vytvořit nasazení modelu: Uživatel vytvoří nasazení modelu v pronájmu OCI s využitím obrazu Dockeru zaslaného do OCIR.
- Stáhnout bitovou kopii NIM: V pronájmu OCI stáhněte bitovou kopii NIM z OCIR do prostředí virtuálního počítače nebo holého kovu.
- Vytáhněte model z katalogu NGC pomocí klíče API NGC: Nasazení modelu načte model z katalogu NGC pomocí klíče API NGC a v případě potřeby odešle požadavek na výstup do domény NVIDIA.
Komponenty tohoto nasazení se vzájemně ovlivňují následujícími způsoby:
- Prostředí virtuálního počítače nebo prostého kovu: V pronájmu OCI je prostředí virtuálního počítače nebo holé kovové prostředí nastaveno pro zpracování předpovědí a dokončení chatu. Toto prostředí zahrnuje kontejner proxy virtuálního počítače a kontejner NIM pro nasazení modelu.
- Kontejner proxy virtuálního počítače: Usnadňuje komunikaci mezi požadavkem uživatele, jako je předvídání a dokončení chatu, a kontejnerem NIM pro nasazení modelu.
- Kontejner NIM nasazení modelu: Spustí odvození modelu a zpracuje požadavek uživatele pomocí nasazeného modelu NIM.
Při prvním nasazení NIM zkontroluje NIM místní konfiguraci hardwaru a dostupný optimalizovaný model v registru modelů – a poté automaticky vybere nejlepší verzi modelu pro dostupný hardware. Pro podmnožinu GPU NVIDIA si NIM stáhne optimalizovaný engine TensorRT a spustí odvození pomocí knihovny TensorRT-LLM. Pro všechny ostatní GPU NVIDIA NIM stáhne neoptimalizovaný model a spustí jej pomocí alternativní knihovny, jako je vLLM. Mikroslužby NIM jsou distribuovány jako obrazy kontejnerů NGC prostřednictvím katalogu NVIDIA NGC. Pro každý kontejner v katalogu NGC je k dispozici zpráva o bezpečnostním skenování, která poskytuje hodnocení bezpečnosti daného obrazu, rozdělení závažnosti CVE podle balíčku a odkazy na podrobné informace o CVE.
Pojďme si ukázat, jak integrovat funkce NVIDIA NIM do OCI. NIM, který lze bez problémů integrovat s OCI Data Science, může transformovat nasazení a správu generativních modelů umělé inteligence. Rozšiřuje možnosti OCI Data Science následujícími způsoby:
- Zjednodušené nasazení AI: Zjednodušuje operace a umožňuje efektivní správu velkých jazykových modelů (LLM) vývojářskými týmy.
- Škálovatelná řešení: Nabízí škálovatelné možnosti nasazení, které udržují výkon při různé zátěži, od několika uživatelů až po miliony.
- Pokročilé schopnosti umělé inteligence: Poskytuje robustní podporu pro pokročilé LLM, vylepšuje OCI pomocí výkonného zpracování přirozeného jazyka a porozumění pro aplikace, jako jsou chatboti a asistenti AI.
- Flexibilní vývojářské nástroje: Vybavuje vývojáře programovacími modely kompatibilními s OpenAI API a vlastními rozšířeními NVIDIA, což usnadňuje integraci do stávajících i nových aplikací.
- Optimalizovaný výkon: Každý kontejner je optimalizován pro konkrétní GPU NVIDIA, aby pomohl zajistit optimální výkon v prostředí OCI.
- Vylepšené zabezpečení: Implementuje komplexní bezpečnostní opatření, včetně nepřetržitého monitorování a proaktivní správy zranitelnosti, aby pomohla udržet vysoké standardy ochrany dat.
Začínáme
Chcete-li začít s NIM na OCI, mohou zákazníci přinést požadovaný obraz NIM do OCIR. Mohou tyto obrázky použít jako nabídku Bring Your Own Container (BYOC) v nasazení modelu OCI Data Science. Chcete-li ukázat příklad nasazení Llama 3 8B pomocí NIM, podívejte se na úplný soubor Readme v našem úložišti GitHub. Podrobně popisuje kroky, jak přizpůsobit obrazy založené na NIM a učinit je kompatibilními, aby je bylo možné úspěšně spustit na OCI Data Science. Chcete-li se dozvědět více o NVIDIA NIM, její nabídce a aktivaci těchto nabídek v Oracle Cloud Infrastructure, použijte následující zdroje: