pátek 2. března 2007

Rozdieľ medzi ETL a ELT

Skratka ETL (extract, transfer, load) sa stala takmer synonymom pre dátový sklad. Vývoj ETL mappingov zaberie najviac času a energie pri implementácií dátového skladu.

Z pohľadu každodennej prevádzky je to "najužšie " miesto - pokiaľ sa vyskytne niekde chyba tak na 99% je to niekde v ETL procese. Časom rastú objemy dát, ktoré je potrebné počas rovnakého časového okna spracovať a vyvstáva otázka ako ladiť a zvyšovať priepustnosť týchto procesov. Klasický prístup reprezentujú riešenia s dedikovanými ETL serverami. Takýto mlynček na dáta funguje ako čierna skrinka, ktorá sa vloží medzi zdrojové systémy a dátový sklad.

Znie to logicky, ale v praxi to vyzerá ináč. ETL engine sa nemôže priamo pripájať na zdrojové systémy alebo ak áno, tak len na minimálny čas, aby urobil 1:1 kópiu zdrojových dát do dočasných tabúľ v dátovom sklade, ktoré mu následne slúžia ako zdroj pre ďalšie výpočty. To znamená, že všetky dáta sa prechádzajú 4krát hore dole medzi serverami (zdroj - ETL - stage, stage - ETL - cieľ). Pokiaľ narazíte na výkonnostné problémy, tak väčšinou nemáte možnosť ovplyvniť ako sú transformácie vykonávané.



Alternatívny postup je vykonávať transformácie priamo v databázy namiesto seperátneho servera. "Priniesť algoritmy k dátam a nie dáta k algoritmom".

Toto riešenie má viacero výhod:
# ETL server musí dimenzovaný na maximálne zaťaženie počas nahrávacieho okna. Zvyšok času je hardware nevyužitý. Naproti tomu je databázový stroj po nahraní dát využívaný na zodpovedanie dotazov.

# Eliminujú sa prenosy veľkých objemov dát po sieti.

# Databáza sa dá ladiť štandardnými nástrojmi

# Nepotrebujete školiť ľudí na nové technológie

# Infraštruktúra má menej prvkov - zjednodušuje sa správa a TCO

Oracle Warehouse Builder (OWB) je ELT nástroj, ktorý na základe namodelovaných dátových tokov generuje balíky s transormačnou logikou do databázy. OWB vie generovať kód len do Oracle platformy. Nedávno Oracle kúpil dodávateľa ELT platformy - Sunopsis, ktorý vie vygenerovať kód do všetkých hlavných databázových platforiem. Oracle ponuka Sunopsis platformu pod názvom Oracle Data Integrator.

Na prvý pohľad sa môže zdať, že ide iba o prehodenie písmeniek v zaužívanej skratke. Musím sa priznať, že sám naďalej používam ETL a ako to už býva - podstatná zmena je skrytá príliš hlboko v technológií na to, aby si ju verejnosť všimla a nepovažovala ju len za ďalší marketingový ťah.

Žádné komentáře: