Î:
Cum pot învăța să folosesc Hadoop pentru a analiza datele mari?
A:Setul de software Apache cunoscut sub numele de Hadoop devine o resursă foarte populară pentru a face față seturilor de date mari. Acest tip de cadru software de gestionare a datelor a fost creat pentru a ajuta la agregarea datelor în moduri specifice, pe baza unor proiecte care pot face unele tipuri de proiecte de date mai eficiente. Acestea fiind spuse, Hadoop este doar unul dintre multe instrumente pentru gestionarea seturilor de date mari.
Unul dintre primele și cele mai fundamentale moduri de a afla despre analiza datelor mari cu Hadoop este de a înțelege unele dintre componentele de nivel superior ale Hadoop și ce face. Acestea includ o „platformă de gestionare a resurselor” Hadoop YARN, care poate fi aplicată anumitor tipuri de configurari de rețea, precum și un set de funcții Hadoop MapReduce care se aplică seturilor de date mari. Există, de asemenea, un sistem de fișiere distribuit Hadoop (HDFS), care ajută la stocarea datelor pe sistemele distribuite, astfel încât acestea să poată fi indexate sau regăsite rapid și eficient.
Dincolo de aceasta, cei care doresc să se familiarizeze cu Hadoop se pot uita la resursele publicate individual pentru profesioniștii care explică software-ul la un nivel relatabil. Acest exemplu din Chris Stucchio de pe un blog personal oferă un set excelent de puncte despre Hadoop și scala de date. Unul dintre aspectele de bază este că Hadoop poate fi utilizat mai frecvent decât este necesar și poate să nu fie cea mai bună soluție pentru un proiect individual. Revizuirea acestor tipuri de resurse îi va ajuta pe profesioniști să se familiarizeze cu detaliile privind utilizarea Hadoop în orice scenariu dat. Stucchio oferă de asemenea metafore pentru corelarea funcțiilor lui Hadoop cu sarcini fizice specifice. Aici, exemplul numără numărul de cărți dintr-o bibliotecă, în timp ce o funcție Hadoop ar putea descompune acea bibliotecă în secțiuni, oferind numărate individuale care sunt amestecate într-un rezultat de date agregate.
O modalitate mai aprofundată prin care profesioniștii pot afla mai multe despre Hadoop și despre aplicarea acesteia la datele mari este prin resurse și programe de formare specifice. De exemplu, compania de învățare online Cloudera, un furnizor important de sesiuni de instruire la distanță, are o serie de opțiuni interesante în jurul utilizării Hadoop și tipuri similare de gestionare a datelor.