Cuprins:
Datele mari, denumirea atrăgătoare pentru volumele masive de date structurate, nestructurate sau semi-structurate, este notoriu dificil de captat, stocat, gestionat, distribuit, analizat și vizualizat, cel puțin folosind baze de date și aplicații software tradiționale. De aceea, tehnologiile de date mari au potențialul de a gestiona și procesa volumele masive de date în mod eficient și eficient. Și este Apache Hadoop care oferă cadrul și tehnologiile asociate pentru a prelucra seturi mari de date în grupuri de computere într-un mod distribuit. Deci, pentru a înțelege cu adevărat datele mari, trebuie să înțelegeți un pic despre Hadoop. Aici vom arunca o privire asupra termenilor de top pe care îi veți auzi în ceea ce privește Hadoop - și ce înseamnă ei.
Webinar: Big Iron, Meet Big Data: Liberating Data Mainframe with Hadoop & Spark Înregistrează-te aici |
Dar, mai întâi, o privire la cum funcționează Hadoop
Înainte de a intra în ecosistemul Hadoop, trebuie să înțelegeți clar două lucruri fundamentale. Primul este modul în care un fișier este stocat în Hadoop; al doilea este modul în care sunt procesate datele stocate. Toate tehnologiile legate de Hadoop funcționează în principal pe aceste două domenii și îl fac mai ușor de utilizat. (Obțineți elementele de bază despre cum funcționează Hadoop în modul în care Hadoop ajută la rezolvarea problemei de date mari.)
Acum, la termeni.