Sekvence v Oracle Analytics slouží jako výkonný nástroj pro organizaci a spouštění datových toků, datových sad a dalších sekvencí logickým způsobem. Sekvence jsou zvláště výhodné, pokud potřebujete provádět tyto položky podle stanoveného plánu nebo v určitém pořadí, nebo chcete využít paralelní provádění pro optimalizovaný výkon. V tomto článku prozkoumáme technické výhody sekvencí prostřednictvím případu použití souvisejícího s fitness.
Fitness Use Case
Představte si, že máte data streamovaná z vašeho nositelného zařízení, která každý týden zaplňuje nové záznamy do tabulky Oracle Autonomous Data Warehouse (ADW). Vaším cílem je transformovat a vyčistit tato data a vytvořit kurátorskou datovou sadu pro vizualizaci v sešitu. Kromě toho chcete trénovat model strojového učení, abyste předpovídali počet spálených kalorií během cvičení, které chcete pravidelně opakovat. Zde je přehled kroků:
- Příprava a transformace dat: Pomocí datových toků vyčistěte nezpracovaná data nositelných zařízení a vytvořte datové sady, které lze použít ve vizualizacích a pro školení a testování strojového učení.
- Školení modelu strojového učení bez kódu: Pomocí funkcí strojového učení bez kódu v tocích dat vytvořte model pro předpovídání spalování kalorií.
- Hodnocení výkonu modelu: Prozkoumejte výkon modelu na testovací datové sadě a vizualizujte výsledky v sešitu.
- Začlenění externích datových sad: Znovu načtěte mezipaměť datovou sadu související s počasím, abyste ji mohli použít v sešitu k analýze trendů, jako je průměrné tempo běhu na základě venkovních teplot a běžných běžeckých podmínek.
Následující schéma architektury na vysoké úrovni znázorňuje řešení využívající data nositelného zařízení k řešení požadavků v předchozím seznamu. Toto řešení zahrnuje více artefaktů a vyžaduje různé běhy úloh.
Pro zjednodušení a automatizaci tohoto procesu můžeme tyto procesy seskupit do sekvence, která běží podle nastaveného plánu. Spoléhání se na sekvenci eliminuje potřebu konfigurovat individuální plány pro každý artefakt. Sekvence nejen zjednodušují plánování a provádění, ale mnohem rychlejší sdílení s ostatními uživateli. Uživatelé mohou snadno sdílet sekvence a automaticky sdílet jejich obsah a související artefakty pomocí několika jednoduchých kliknutí.
Budování efektivního pracovního postupu
Následující části vysvětlují, jak vytvořit datové řešení nositelného zařízení. Řešení běží v naplánovaném pořadí v osobním prostředí Oracle Analytics Cloud (OAC), aby byla zajištěna aktuálnost dat.
Krok 1: Příprava a transformace dat
Vytváříme datový tok, který vyčistí data nositelného zařízení a vytvoří upravenou datovou sadu, která se použije pro vytváření vizualizací v sešitu. Tento tok dat také vytváří tréninkové a testovací datové sady pro účely strojového učení. Následující snímek obrazovky ukazuje různé kroky transformace, které byly použity, a tři výstupní datové sady, které byly vygenerovány.
Tento datový tok jsem použil k vytvoření testovacích a trénovacích datových sad pro strojové učení. Použil jsem krok Pobočka k vytvoření větve po vyčištění dat a Přidat sloupce< a i=4> krok s funkcí RAND(). Tato funkce vytvořila sloupec s pseudonáhodnými čísly, která spadají mezi 0 a 1. Vytvořil jsem další větev pro vytvoření dvou odlišných testovacích a tréninkových datových sad. K vytvoření testovací datové sady jsem použil krok Filtr k selektivnímu načtení řádků, kde nově přidaný sloupec přesáhl 0,7. K vytvoření trénovací datové sady jsem použil krok Filtr k načtení řádků, kde jsou hodnoty v novém sloupci menší nebo rovné 0,7. Tento proces mi umožnil náhodně vybrat vlaková a testovací data.
Krok 2: Školení modelu strojového učení bez kódu
Druhý datový tok zapojený do řešení využívá tréninkovou datovou sadu vytvořenou ve výše uvedeném datovém toku ke generování numerického predikčního modelu pro predikci počtu spálených kalorií v každém tréninku. Jinými slovy, výstup datového toku 1 je použit jako vstup v datovém toku 2.
Krok 3: Hodnocení výkonnosti modelu
Třetí a poslední datový tok aplikuje model strojového učení vygenerovaný výše na testovací datovou sadu vygenerovanou v prvním datovém toku. Účelem je ověřit, jak dobře model strojového učení předpovídá spálené kalorie.
Krok 4: Začlenění externích datových sad a skupinových položek v sekvenci
Je jasné, že výše uvedené datové toky mají mnoho závislostí (například datový tok 1 generuje artefakty používané datovými toky 2 a 3, což znamená, že je třeba jej spustit jako první). Tento krok zahrnuje přidání těchto datových toků do sekvence spolu s datovou sadou počasí uloženou v mezipaměti, která vyžaduje aktualizaci, aby se získaly aktuální informace o počasí. Následující snímek obrazovky ukazuje tyto tři položky v pořadí. Všimněte si, že položky sekvence nejsou na následujícím snímku obrazovky uvedeny v pořadí a že přepínač Ordered v horní části stránky je , záleží na pořadí, ve kterém položky umístíte; položky jsou prováděny v pořadí, v jakém jsou umístěny. zaškrtnutý. Když tento přepínač není zaškrtnutý, systém provádí co nejvíce úloh paralelně, aby se optimalizoval výkon. Bere v úvahu všechny závislosti artefaktů, aby určil pořadí, ve kterém je třeba položky provést. Pokud je přepínač Objednáno nezaškrtnuto
Jak již bylo zmíněno, tato sekvence běží podle plánu.
Vizualizace výsledků
Následující snímek obrazovky ukazuje vizualizace vytvořené jako součást tohoto řešení. Protože sekvence běží podle plánu, data jsou vždy aktuální. První plátno obsahuje vizualizace, které ilustrují nejběžnější typ tréninku, jak se měnilo tempo běhu během tréninku a jak se tempo mění v závislosti na venkovní teplotě.
Další plátno obsahuje grafy generované z předpovědí modelu strojového učení. Z těchto vizualizací je jasné, že model funguje dobře při předpovídání spálených kalorií pro určité tréninky. Vizualizace zobrazuje celkový kalorický výdej vs. předpokládaný kalorický výdej pro různé typy tréninku a specifické aktivity.
Zdroj: Oracle