Představte si přední světovou společnost poskytující profesionální služby poskytující širokou škálu rizikových a majetkových řešení. Společnost se více zaměřuje na řízení digitální transformace prostřednictvím řízení vztahů se zákazníky a získávání poznatků z průzkumů zpětné vazby od klientů. Analýzou nálad vyjádřených v odpovědích se společnost snaží identifikovat trendy v tom, jak jsou vnímány její produkty a služby, a potenciální oblasti pro zlepšení – ale jak?
Navzdory obrovskému množství dat společnost postrádala efektivní metodu, jak rychle a spolehlivě získat cennou zpětnou vazbu od zákazníků, aby zdokonalila své operace a rozšířila své portfolio. K řešení této výzvy se společnost rozhodla pro Oracle Cloud Infrastructure (OCI), využívající OCI AI a další služby pro rozsáhlé zpracování dat. Společnost shromažďuje formuláře a recenze zákazníků každý měsíc, což vede k rozsáhlému množství dat. Problém však spočívá v nestrukturované povaze dat, zejména textových přehledů, které znesnadňovaly rychlou a konzistentní analýzu v měřítku, zejména v průběhu času. Cílem bylo porozumět náladám jejich zákazníků a rychle identifikovat klíčová slova označující různé nálady a entity, jako jsou produkty, služby a organizace, které obdržely pozitivní nebo negativní zpětnou vazbu.
Řešení případu použití na OCI
Společnost využívala různé služby OCI, sady pro vývojáře softwaru (SDK) a rámce. Jazyk OCI, který je součástí kolekce OCI AI, umožňuje sofistikovanou analýzu textu ve velkém měřítku. Vývojáři mohou do svých aplikací integrovat funkce umělé inteligence, jako je analýza sentimentu, extrakce klíčových frází, klasifikace textu a rozpoznávání entit, aniž by potřebovali odborné znalosti AI. OCI Autonomous Data Warehouse nabízí plně automatizovanou databázovou službu, která usnadňuje vývoj a nasazení aplikačních úloh složitosti, rozsahu nebo kritičnosti. Jeho konvergovaný engine podporuje různé typy dat, zefektivňuje vývoj aplikací od modelování, kódování, extrahování transformačního zatížení (ETL), optimalizace databáze až po analýzu dat. Oracle Analytics Cloud (OAC) je cloudová nativní služba, která řeší celý analytický proces, od příjmu dat a modelování až po přípravu dat, obohacení, vizualizaci a spolupráci.
- Data jsou replikována z prodejního cloudu pomocí Oracle Data Integrator (ODI). K replikaci dat z cloudu prodeje do autonomní databáze doporučujeme použít nástroj transformace extrahování zatížení (ELT).
- Data jsou předzpracována pomocí vestavěných funkcí SQL a PL/SQL Autonomous Data Warehouse.
- OCI Language API je voláno z Autonomous Data Warehouse prostřednictvím služby PL/SQL a provádí analýzu sentimentu.
- Výsledek analýzy z jazyka OCI je uložen v tabulkách v Autonomous Data Warehouse a připraven k vizualizaci v pohledech.
- Koncoví uživatelé přistupují k těmto pohledům prostřednictvím datového modelu v OAC a používají je k vývoji vizualizací, které poskytují užitečné informace.
A co analýza sentimentu pro podporu jiných jazyků, jako je hebrejština?
Navzdory svému technologickému významu Izrael zaostává ve zpracování přirozeného jazyka (NLP), zejména v hebrejštině a arabštině. Některé odhady naznačují, že přesný hebrejský model může být ještě 5–10 let daleko. Složitost hebrejštiny, včetně jejího flexibilního slovosledu a nedostatku samohlásek, komplikuje tvorbu přesného jazykového modelu. Současné hebrejské modely dosahují pouze asi 70–80% přesnosti kvůli omezeným školicím datům a zdrojům.
Pokud jsou datové sady rozsáhlé, jejich zpracování vyžaduje značný výkon GPU, takže tvary OCI holého kovu a GPU virtuálního stroje (VM) jsou silnou volbou. Bar-Ilan University vyvinula hebrejský model s názvem AlephBERT založený na 100 milionech vět s 80% přesností. Dosažení produkčních standardů přesnosti 95 % však zůstává výzvou, zejména s ohledem na pokles přesnosti při překladech mezi jazyky. Takže, jaké je řešení?
Příklad s hebrejštinou
Kvůli absenci dominantního hebrejského modelu se mnoho společností zabývajících se hebrejštinou uchýlí k použití pluginu Google Translate ve svém kódu.
V experimentu jsme použili následující kroky:
- Nasadili jsme instanci VM.GPU.A10 pro spuštění mého kódu Pythonu.
- Vytvořili jsme tabulku obsahující přibližně 1 100 recenzí hotelů v hebrejštině.
- Každá recenze byla přeložena do angličtiny pomocí pluginu Google Translate a vložena do nového sloupce v tabulce.
- K tabulce bylo přistupováno pomocí OAC a aplikace Python v tabulce detekuje hebrejštinu a angličtinu, spouští jazyk OCI pro analýzu sentimentu a vrací výsledky.
Použití modelu BERT, který rozumí hebrejštině bez Překladače Google, přineslo odlišné výsledky sentimentu ve srovnání s pluginem Překladač Google, což zvýraznilo složitost a nuance jazykového zpracování.
Sémantické vyhledávání je zásadní. Zužuje význam dotazů tím, že hlouběji rozumí konkrétním slovům a frázím v kontextu a jde nad rámec pouhého vyhledávání klíčových slov. Ještě lepších výsledků můžeme dosáhnout použitím generování rozšířeného vyhledávání (RAG).
Závěr
Síla porozumění a analýzy pocitů v různých jazycích se stává nejen přínosem, ale i nepostradatelným nástrojem. Naše služba umělé inteligence překonává jazykové bariéry a nabízí nuancovanou analýzu sentimentu v angličtině i jiných jazycích. Je to cesta za hranice pouhého výkladu slov. Jde o zachycení podstaty emocí a pohledů napříč různými kulturami.
Jádrem Oracle systému je robustní rámec navržený pro výkon AI. Výběrem a optimalizací našich GPU nabízíme lepší přesnost, rychlost a efektivitu v analýze sentimentu. Tato technická zdatnost nejen analyzuje pocity, ale chápe je v reálném čase a vybavuje vás poznatky nezbytnými pro informované rozhodování v multikulturní krajině.
Jste připraveni pustit se do budoucnosti analýzy sentimentu a odhalit vesmír vhledů? Vstupte do světa, kde jazyk není překážkou, ale mostem k porozumění a spojení. Spojme se s námi.
Zdroj: Oracle