Acasă tendinţe 7 lucruri de știut despre hadoop

7 lucruri de știut despre hadoop

Cuprins:

Anonim

Ce este Hadoop? Este un elefant de jucărie galbenă. Nu ceea ce te așteptai? Ce zici de asta: Doug Cutting - co-creatorul acestui proiect software open-source - a împrumutat numele de la fiul său, care s-a întâmplat să-și numească elefantul de jucărie Hadoop. Pe scurt, Hadoop este un cadru software dezvoltat de Apache Software Foundation, utilizat pentru dezvoltarea calculatoarelor distribuite intensiv în date. Și este o componentă cheie într-un alt cuvânt cuvinte cheie cititorii nu pot părea niciodată să obțină suficient: date mari. Iată șapte lucruri pe care ar trebui să le știi despre acest software unic, cu licență liberă.

Cum a început Hadoop să înceapă?

În urmă cu doisprezece ani, Google a construit o platformă pentru a manipula cantitățile masive de date pe care le colecta. Așa cum face compania adesea, Google și-a pus la dispoziția publicului designul sub forma a două lucrări: Google File System și MapReduce.


În același timp, Doug Cutting și Mike Cafarella lucrau la Nutch, un nou motor de căutare. Cei doi s-au luptat și cu modul de gestionare a unor cantități mari de date. Apoi, cei doi cercetători s-au aruncat cu ziarele documentelor Google. Această intersecție norocoasă a schimbat totul introducând Cutting și Cafarella într-un sistem de fișiere mai bun și o modalitate de a ține evidența datelor, ducând în cele din urmă la crearea Hadoop.

Ce este atât de important despre Hadoop?

Astăzi, colectarea datelor este mai ușoară ca niciodată. A avea toate aceste date prezintă multe oportunități, dar există și provocări:

  • Cantități masive de date necesită noi metode de prelucrare.
  • Datele capturate sunt într-un format nestructurat.
Pentru a depăși provocările de a manipula cantități imense de date nestructurate, Cutting și Cafarella au venit cu o soluție din două părți. Pentru a rezolva problema cantității de date, Hadoop folosește un mediu distribuit - o rețea de servere de mărfuri - creând un cluster de procesare paralel, care aduce mai multă putere de procesare pe sarcina atribuită.


Apoi, au trebuit să abordeze date sau date nestructurate în formate pe care sistemele de baze de date relaționale standard nu au putut să le gestioneze. Cutting and Cafarella a conceput Hadoop pentru a lucra cu orice tip de date: structurate, nestructurate, imagini, fișiere audio, chiar text. Această carte albă Cloudera (integratorul Hadoop) explică de ce este important acest lucru:

    "Făcând toate datele dvs. utilizabile, nu doar ceea ce există în bazele de date, Hadoop vă permite să descoperiți relații ascunse și dezvăluie răspunsuri care au fost întotdeauna la îndemână. Puteți începe să luați mai multe decizii bazate pe date grele, în loc de contorizări și să vă uitați. la seturi de date complete, nu doar eșantioane și rezumate. "

Ce este Schema citită?

Așa cum am menționat anterior, unul dintre avantajele Hadoop este capacitatea sa de a trata date nestructurate. Într-un anumit sens, aceasta este „lovirea cutiei în drum”. În cele din urmă, datele au nevoie de un fel de structură pentru a le analiza.


Acolo intră în joc schema de citit. Schema la citire este topirea formatului în care se află datele, unde se pot găsi datele (amintiți-vă că datele sunt împrăștiate printre mai multe servere) și ce trebuie făcut pentru date - nu o sarcină simplă. S-a spus că manipularea datelor într-un sistem Hadoop necesită abilitățile unui analist de afaceri, un statisticist și un programator Java. Din păcate, nu există multe persoane care au aceste calificări.

Ce este stupul?

Dacă Hadoop avea să aibă succes, lucrul cu datele trebuiau simplificate. Deci, mulțimea open-source a ajuns să funcționeze și a creat Hive:

    "Hive oferă un mecanism pentru proiectarea structurii acestor date și interogarea datelor folosind un limbaj asemănător SQL numit HiveQL. În același timp, acest limbaj permite, de asemenea, programatorilor tradiționale de hartă / reducere să conecteze maparele și reductoarele lor personalizate atunci când este incomod sau ineficient pentru a exprima această logică în HiveQL. "

Hive permite cel mai bun din ambele lumi: personalul bazei de date familiarizat cu comenzile SQL poate manipula datele, iar dezvoltatorii familiarizați cu schema procesului de citire sunt în continuare capabili să creeze interogări personalizate.

Ce fel de date analizează Hadoop?

Analiza web este primul lucru care vine în minte, analizarea jurnalelor Web și a traficului Web pentru a optimiza site-urile web. Facebook, de exemplu, este cu siguranță în analiză Web, folosind Hadoop pentru a sorta terabyte de date pe care le acumulează compania.


Companiile folosesc clusterele Hadoop pentru a realiza analiza riscurilor, detectarea fraudei și segmentarea bazei de clienți. Companiile de servicii publice folosesc Hadoop pentru a analiza datele senzorilor din rețeaua electrică, permițându-le să optimizeze producția de energie electrică. Companii importante precum Target, 3M și Medtronics utilizează Hadoop pentru a optimiza distribuția produselor, evaluările riscurilor de afaceri și segmentarea bazei de clienți.


Universitățile sunt investite și în Hadoop. Brad Rubin, profesor asociat la programele de absolvire a software-ului de la Universitatea St. Thomas, a menționat că expertiza sa Hadoop ajută la sortarea cantităților copioase de date compilate de grupurile de cercetare de la universitate.

Puteți da un exemplu real de Hadoop?

Unul dintre cele mai cunoscute exemple este TimesMachine. New York Times are o colecție de imagini TIFF de ziar cu pagină întreagă, metadate asociate și text de articol din 1851 până în 1922, reprezentând terabyte de date. Derek Gottfrid din NYT, folosind un sistem EC2 / S3 / Hadoop și un cod specializat:

    "A ingerat 405.000 de imagini TIFF foarte mari, 3, 3 milioane de articole în fișiere SGML și 405.000 de fișiere xml de mapare a articolelor în regiuni dreptunghiulare în TIFF-urile. Aceste date au fost transformate într-un 810.000 de imagini PNG mai prietenoase cu web (miniaturi și imagini complete) și 405.000 de fișiere JavaScript. "

Folosind serverele din cloud Web Services Amazon, Gottfrid a menționat că sunt capabile să proceseze toate datele necesare pentru TimesMachine în mai puțin de 36 de ore.

Hadoop este deja învechit sau doar morfează?

Hadoop este în jur de peste un deceniu acum. Asta spune mulți spun că este învechită. Un expert, dr. David Rico, a spus că "produsele IT au o durată scurtă de viață. În anii de câine, produsele Google sunt de aproximativ 70, în timp ce Hadoop are 56 de ani."


Este posibil să existe un adevăr pentru ceea ce spune Rico. Se pare că Hadoop trece printr-o revizuire majoră. Pentru a afla mai multe despre aceasta, Rubin m-a invitat la o întâlnire a Grupului de Utilizatori din Twin Cities Hadoop, iar subiectul discuției a fost Introducere în YARN:

    "Apache Hadoop 2 include un nou motor MapReduce, care are o serie de avantaje față de implementarea anterioară, inclusiv o mai bună scalabilitate și o utilizare a resurselor. Noua implementare este construită pe un sistem general de gestionare a resurselor pentru rularea aplicațiilor distribuite numit YARN."
Hadoop primește o mulțime de sunete în cercurile de baze de date și de gestionare a conținutului, dar există încă multe întrebări în jurul acesteia și cum poate fi folosit cel mai bine. Acestea sunt doar câteva. Dacă aveți mai multe, trimiteți-le drumul nostru. Vom răspunde celor mai bune pe Techopedia.com.

7 lucruri de știut despre hadoop