Acasă tendinţe Ce $ @! este hadoop?

Ce $ @! este hadoop?

Cuprins:

Anonim

Toată lumea vorbește despre Hadoop, tehnologia nouă și fierbinte, care este foarte apreciată printre dezvoltatori și ar putea schimba lumea (din nou). Dar ce este, oricum? Este un limbaj de programare? O bază de date? Un sistem de procesare? Un ceai indian confortabil?


Răspunsul larg: Hadoop este toate aceste lucruri (cu excepția ceaiului confortabil) și multe altele. Este o bibliotecă software care oferă un cadru de programare pentru o prelucrare ieftină și utilă a unui alt text modern: date mari.

De unde a venit Hadoop?

Apache Hadoop face parte din Proiectul Fundației de la Apache Software Foundation, o organizație non-profit a cărei misiune este „a oferi software pentru binele public”. Ca atare, biblioteca Hadoop este gratuită pentru software, open-source, disponibilă tuturor dezvoltatorilor.


Tehnologia care stă la baza lui Hadoop a fost inventată de Google. În primele zile, motorul de căutare nu tocmai uriaș avea nevoie de o modalitate de a indexa cantitățile masive de date pe care le colectau de pe Internet și de a-l transforma în rezultate semnificative și relevante pentru utilizatorii săi. Cu nimic disponibil pe piață care ar putea satisface cerințele lor, Google și-a construit propria platformă.


Aceste inovații au fost lansate într-un proiect open-source numit Nutch, pe care Hadoop l-a folosit ulterior ca fundație. În esență, Hadoop aplică puterea Google pe datele mari într-un mod accesibil pentru companiile de toate dimensiunile.

Cum funcționează Hadoop?

După cum am menționat anterior, Hadoop nu este un lucru - este multe lucruri. Biblioteca software care este Hadoop este formată din patru părți (module) primare și o serie de soluții suplimentare (cum ar fi baze de date și limbaje de programare) care îmbunătățesc utilizarea sa din lumea reală. Cele patru module sunt:

  • Hadoop Common: Aceasta este colecția de utilități comune (biblioteca comună) care acceptă modulele Hadoop.
  • Sistem de fișiere distribuite Hadoop (HDFS): un sistem de fișiere distribuit robust, fără restricții asupra datelor stocate (ceea ce înseamnă că datele pot fi structurate sau nestructurate și schemale, în care multe DFS vor stoca doar date structurate) care oferă acces cu un randament ridicat cu redundanță ( HDFS permite stocarea datelor pe mai multe mașini - deci dacă o mașină eșuează, disponibilitatea este menținută prin celelalte mașini).
  • Hadoop YARN: Acest cadru este responsabil pentru planificarea lucrărilor și gestionarea resurselor clusterului; se asigură că datele sunt răspândite suficient pe mai multe mașini pentru a menține redundanța. YARN este modulul care face din Hadoop un mod accesibil și rentabil de a procesa date mari.
  • Hadoop MapReduce: Acest sistem bazat pe YARN, bazat pe tehnologia Google, realizează procesarea paralelă a seturilor de date mari (structurate și nestructurate). MapReduce poate fi găsit și în majoritatea marilor cadre de procesare a datelor de astăzi, inclusiv bazele de date MPP și NoSQL.
Toate aceste module care lucrează împreună generează procesare distribuită pentru seturi mari de date. Cadrul Hadoop folosește modele simple de programare, care sunt replicate pe grupuri de calculatoare, ceea ce înseamnă că sistemul se poate extinde de la servere individuale la mii de mașini pentru o putere de procesare crescută, mai degrabă decât să se bazeze doar pe hardware.


Hardware-ul care poate gestiona cantitatea de putere de procesare necesară pentru a lucra cu date mari este scump, pentru a o spune ușor. Aceasta este adevărata inovație a lui Hadoop: capacitatea de a descompune cantități masive de putere de procesare pe mai multe mașini mai mici, fiecare având propriile calcule și stocare localizate, împreună cu redundanța încorporată la nivelul aplicației pentru a preveni eșecurile.

Ce face Hadoop?

În mod simplu, Hadoop face ca datele mari să fie accesibile și accesibile tuturor.


Înainte de Hadoop, companiile care foloseau date mari făceau acest lucru mai ales cu baze de date relaționale și depozite de date pentru întreprinderi (care folosesc cantități masive de hardware scump). Deși aceste instrumente sunt excelente pentru prelucrarea datelor structurate - care sunt date care sunt deja sortate și organizate într-un mod gestionabil - capacitatea de prelucrare a datelor nestructurate a fost extrem de limitată, astfel încât practic nu exista. Pentru a putea fi utilizate, datele trebuiau mai întâi structurate astfel încât să se încadreze bine în tabele.


Cadrul Hadoop modifică această cerință și face acest lucru ieftin. Cu Hadoop, cantități masive de date cuprinse între 10 și 100 de gigabyte și mai sus, atât structurate cât și nestructurate, pot fi procesate folosind servere obișnuite (mărfuri).


Hadoop aduce aplicații de date mari potențiale pentru întreprinderile de toate dimensiunile, în fiecare industrie. Cadrul open-source le permite companiilor financiare să creeze modele sofisticate pentru evaluarea portofoliului și analiza riscurilor, sau retailerilor online pentru a-și regla răspunsurile de căutare și a orienta clienții către produsele pe care le vor cumpăra mai mult.


Cu Hadoop, posibilitățile sunt cu adevărat nelimitate.

Ce $ @! este hadoop?