Acasă Audio Analiza Hadoop: nu este atât de ușor pe mai multe surse de date

Analiza Hadoop: nu este atât de ușor pe mai multe surse de date

Cuprins:

Anonim

Hadoop este un loc minunat pentru a descărca date pentru procesarea analitice sau pentru a modela volume mai mari dintr-o singură sursă de date care nu sunt posibile cu sistemele existente. Cu toate acestea, întrucât companiile aduc date din mai multe surse în Hadoop, există o cerere din ce în ce mai mare pentru analiza datelor din diferite surse, ceea ce poate fi extrem de dificil de realizat. Acest post este primul dintr-o serie în trei părți care explică problemele cu care se confruntă organizațiile, în timp ce încearcă să analizeze diferite surse și tipuri de date din Hadoop și cum să rezolvi aceste provocări. Postarea de astăzi se concentrează asupra problemelor care apar la combinarea mai multor surse interne. Următoarele două postări explică de ce aceste probleme cresc în complexitate, pe măsură ce sunt adăugate surse de date externe și modul în care abordările noi ajută la rezolvarea lor.

Date din diferite surse greu de conectat și de hartă

Datele din surse diverse au structuri diferite care îngreunează conectarea și maparea tipurilor de date împreună, chiar și datele din surse interne. Combinarea datelor poate fi deosebit de grea dacă clienții au mai multe numere de cont sau o organizație a dobândit sau fuzionat cu alte companii. În ultimii ani, unele organizații au încercat să folosească aplicații de descoperire a datelor sau de știință a datelor pentru a analiza date din mai multe surse stocate în Hadoop. Această abordare este problematică, deoarece implică o mulțime de ghicitori: utilizatorii trebuie să decidă ce chei străine să folosească pentru a conecta diverse surse de date și să facă presupuneri atunci când creează suprapuneri ale modelului de date. Aceste ghiciri sunt greu de testat și adesea incorecte atunci când sunt aplicate la scară, ceea ce duce la analiza defectuoasă a datelor și neîncrederea surselor.

Experții Hadoop încearcă să îmbine datele împreună

Prin urmare, organizațiile care doresc să analizeze datele pe surse de date au apelat la angajarea de experți Hadoop pentru a crea scripturi personalizate, specifice sursei, pentru a îmbina seturile de date împreună. Acești experți Hadoop nu sunt de obicei experți în integrarea datelor sau în rezolvarea entității, dar fac tot posibilul pentru a rezolva nevoile imediate ale organizației. Acești experți folosesc de obicei Pig sau Java pentru a scrie reguli dure și rapide care determină cum să combine date structurate din surse specifice, de exemplu, potrivirea înregistrărilor bazate pe un număr de cont. Odată ce s-a scris un script pentru două surse, dacă trebuie adăugată o a treia sursă, primul script trebuie aruncat și un nou script conceput pentru a combina trei surse specifice. Același lucru se întâmplă dacă se adaugă o altă sursă și așa mai departe. Nu numai că această abordare este ineficientă, dar, de asemenea, nu reușește atunci când este aplicată la scară, gestionează deficitul de cazuri, poate duce la un număr mare de înregistrări duplicate și deseori îmbină multe înregistrări care nu ar trebui combinate.

Analiza Hadoop: nu este atât de ușor pe mai multe surse de date