V neustále se vyvíjející sféře umělé inteligence (AI) průkopnické pokroky ve velkých jazykových modelech (LLM) neustále utvářejí naše interakce s možnostmi umělé inteligence a jejich využití. Jednou z takových pozoruhodných špičkových inovací je Mistral-7B, model nadace s otevřeným zdrojovým kódem vyvinutý společností Mistral AI. Mistral-7B je vydán pod licencí Apache 2.0, která umožňuje neomezené použití. Tento model podtrhuje myšlenku, že velikost jazykového modelu v počtu parametrů není jediným určujícím faktorem pro jeho efektivitu. Přestože má tento optimalizovaný model skromný počet parametrů, vyniká ve zhušťování znalostí a zlepšování schopností hlubokého uvažování.
Mistral-7B je navržen tak, aby vynikal ve dvou klíčových oblastech: Úlohy přirozeného jazyka a úlohy kódování. Tato dvojí schopnost jej odlišuje od ostatních modelů a spojuje lingvistické znalosti s technickou odborností nezbytnou pro aplikace kódování. Mistral-7B využívá pozornost seskupeného dotazu (GQA) ke zvýšení rychlosti inference a Sliding Window Attention (SWA) pro efektivní správu delších sekvencí při snížených výpočetních nákladech. S rozsáhlou délkou kontextu 8 000 tokenů vykazuje minimální latenci a působivou propustnost, čímž překonává protějšky větších modelů při zachování nízkých požadavků na paměť. Mistral-7B-Instruct je vyladěná verze základního modelu využívající různé veřejně dostupné konverzační datové sady.
Srovnání s Llama2 13B
Navzdory tomu, že má parametry 7B, Mistral 7B překonává Llama2 13B ve všech metrikách a je na stejné úrovni jako Llama 34B v klíčových benchmarcích. Kompaktnost Mistral 7B usnadňuje nasazení na menší GPU ve srovnání s modelem Llama2 13B. V následující tabulce jsou uvedeny hardwarové požadavky pro oba modely.
Modelka | minimální VRAM | Je vyžadován hardware |
---|---|---|
Mistral 7B | 12 GB + závěr | 1 A10 (24 GB VRAM) |
Volejte 2 13B | 26 GB + závěr | 2 A10 (24 GB VRAM) |
Snížení paměťové stopy modelu Mistral 7B z hlediska odvození dále zasahuje do sekundárních aspektů, zejména snížení uhlíkové stopy. K výpočtu přibližné uhlíkové stopy pro odvození obou modelů jsme použili kalkulátor dopadu ML CO2. Maximální limit výkonu pro jeden NVIDIA A10 GPU je 150 W. Inferenční server Mistral 7B využívající A10 generuje ekvivalent 4,5 kg CO2, zatímco ekvivalent CO2 odhad pro provoz Llama2 13B na 2 tvaru A10 po dobu 100 hodin je 9 kg ekvivalentu CO2, což je stejné množství ekvivalentu CO2 jako u průměrného jízdního auta ICE na 39,3 km.
Nasazení LLM představuje problémy kvůli nedostatku špičkových GPU, což vede k časově náročnému a pracovně náročnému hledání dostupných instancí GPU v různých regionech. Další výzvou jsou značné výdaje spojené s GPU. Kompaktnost Mistral 7B oproti Llama2 13B se ukazuje jako cenné řešení při zefektivnění procesu nasazení a snížení finanční zátěže spojené s velkými jazykovými modely.
Zde představujeme propustnost pro rostoucí počet souběžných uživatelů na A10.2 s konstantní maximální hodnotou výstupních tokenů 512. Použili jsme vLLM< i=2> kontejner inferenčního serveru pro nasazení modelu. Propustnost ukazuje rychlost, jakou jsou tokeny zpracovávány za sekundu pro pevný počet vstupních a výstupních tokenů.
Čísla v grafu ukazují efektivitu zpracování těchto modelů při současném zacházení s různým počtem uživatelů. Propustnost pro Mistral 7B Instruct je vyšší než u modelu Llama2 13B, bez ohledu na počet souběžných uživatelů.
Nasazení na platformě OCI Cloud
Oracle Cloud Infrastructure (OCI) Data Science je plně spravovaná platforma pro datové vědce a inženýry strojového učení (ML), aby mohli školit, spravovat, nasazovat a monitorovat modely ML ve škálovatelném, zabezpečeném podnikovém prostředí. Ve službě Data Science můžete trénovat a nasazovat jakýkoli model, včetně LLM.
Tento příspěvek na blogu znamená krok vpřed ve sjednocení nasazení LLM v rámci Oracle Cloud Infrastructure (OCI) Data Science Platform a další rozšiřování předchozí blog, Deploy Llama 2 in OCI Data Science.
Podrobný návod k tomuto procesu naleznete v úložišti GitHub ukázek AI.
Zdroj: Oracle