V mnoha společnostech hrají IT oddělení klíčovou roli při shromažďování a organizování dat z různých zdrojů. V ideálním případě by tyto společnosti implementovaly procesy pro zpracování velkého množství dat a měly by nástroj pro efektivní přípravu dat pro reporting a analýzu. Je obtížné správně naformátovat a agregovat velké množství dat pro každý případ použití sestav. Mnoho společností spoléhá na tabulkové procesory při přípravě dat pro reportování a analýzu, ale tabulkové procesory představují několik problémů:
- Tabulky jsou často náchylné k chybám při zadávání dat a vzorců.
- Chybí jim přehled o transformacích, které byly použity.
- Chybí jim automatizace.
- Při zasílání e-mailem zavádějí bezpečnostní obavy.
- Tabulky nepodporují pokročilé možnosti statistiky a strojového učení.
Datové toky v Oracle Analytics Cloud (OAC) umožňují uživatelům využívat výhod nástrojů založených na tabulkových procesorech a zároveň zmírňovat mnohé z těchto problémů. Prostředí s nízkým kódem usnadňuje stávajícím uživatelům tabulek vytvářet pracovní postupy přípravy a odvozovat význam z jejich datových úložišť.
Tento článek zdůrazňuje některé pokročilé funkce, které datové toky poskytují, včetně schopnosti sledovat transformace dat prostřednictvím vizuálního uživatelského rozhraní, automatizovat běhy pracovních postupů, sdílet pracovní postupy s ostatními uživateli bezpečným způsobem a využívat pokročilé modely strojového učení bez zkušeností s kódováním.
Sledování transformací
Datové toky v OAC jsou navrženy tak, že každý „krok“ implementuje změnu datové sady. Je jasné, jaké kroky byly použity, spolu s pořadím, ve kterém byly použity. Existují čtyři hlavní „kategorie“ kroků toku dat: příjem dat, příprava dat, strojové učení a analýza databáze. Každá z těchto kategorií nabízí řadu funkcí pro přípravu dat. Datové toky umožňují uživatelům zobrazit náhled dat po každém kroku, aby si ověřili, že transformace přinášejí požadovaný výsledek. Na rozdíl od nástrojů založených na tabulkových procesorech usnadňuje editor toku dat v kombinaci s náhledem dat snadné sledování změn a sledování, jak každá transformace ovlivňuje výslednou datovou sadu.
Automatizace a plánování
Uživatelé OAC mohou konfigurovat plány svých datových toků, aby řídili, kdy a jak často se datový tok spouští. To zavádí vrstvu automatizace, která zajišťuje, že výstupní datové sady používané v sešitech jsou aktuální a odrážejí informace obsažené ve zdrojích. Plány toku dat můžete nakonfigurovat tak, aby vyhovovaly vašim obchodním potřebám: můžete například nakonfigurovat plány tak, aby se spouštěly v určitou dobu po aktualizaci vašich zdrojových databázových systémů. Můžete také nakonfigurovat plány tak, aby se spouštěly v hodinových, denních, týdenních, měsíčních nebo ročních přírůstcích. Spouštění datových toků pomocí plánů zabraňuje uživatelům ručně spouštět pracovní postupy a zavádí vrstvu automatizace, která u tabulkových nástrojů často chybí. Následující animovaný obrázek ukazuje, jak mohou uživatelé vytvářet a konfigurovat plány pro datové toky.
Sdílení toku dat
Uživatelé v OAC mohou sdílet datové toky s jinými uživateli a aplikačními rolemi, což představuje několik výhod souvisejících se spoluprací a správou. Mezi výhody a případy použití související se sdílením datových toků patří:
- Týmy mohou snadno spolupracovat na jednotlivých pracovních postupech přípravy dat, což snižuje duplicitní úsilí.
- Sdílení datových toků umožňuje kontrolu kvality a snížení chyb. Umožnění více uživatelům pracovat a/nebo mít přístup k datovému toku může potenciálně zabránit přehlédnutí chyb při přípravě dat.
- Pokud někdo odejde z firmy nebo odjede na dovolenou, je datový tok přístupný dalším uživatelům. Společnost nemusí vytvářet datové toky od začátku.
- Sdílení datových toků usnadňuje odstraňování problémů. Pokud uživatel narazí na problém, může jej sdílet s někým jiným ve svém týmu a požádat o pomoc.
Na míru pro Citizen Data Scientists
Pokud jste se strojovým učením nováčkem nebo nemáte mnoho zkušeností s kódováním v Pythonu nebo R, datové toky v OAC nabízejí možnost snadno připravit data a aplikovat modely strojového učení ve stejném pracovním postupu s nízkým obsahem kódu. K využití mnoha nabídek strojového učení toku dat nejsou potřeba žádné zkušenosti s kódováním. Pokud se chcete dozvědět více o nabídkách strojového učení, podívejte se na tento odkaz. Mnoho tabulkových nástrojů nenabízí širokou škálu algoritmů strojového učení, které jsou poskytovány v OAC.
Zdroj: Oracle