Cuprins:
- Cât de mari date sunt utilizate
- Unde este valoarea reală?
- Uneori, datele mici au un impact mai mare (și mai puțin costisitor)
Datele mari este un cuvânt curat folosit pentru a face referire la gestionarea volumelor mari de date. Cu toții înțelegem că, cu cât volumul de date este mai mare, cu atât acestea devin mai complexe. Soluțiile tradiționale de baze de date nu reușesc adesea să gestioneze în mod corespunzător volume mari de date, datorită complexității și dimensiunii acestora. Prin urmare, gestionarea volumelor mari de date și extragerea informațiilor reale este o sarcină dificilă. Același concept de „valoare” se aplică și datelor mici.
Cât de mari date sunt utilizate
Soluțiile convenționale de baze de date bazate pe conceptul RDBMS pot gestiona foarte bine datele tranzacționale și sunt utilizate pe scară largă în diferite aplicații. Dar când vine vorba de gestionarea unui set mare de date (date care sunt arhivate și se află în terabytes sau petabytes), aceste soluții ale bazelor de date eșuează adesea. Aceste seturi de date sunt prea mari și, de cele mai multe ori, nu se încadrează în arhitectura bazelor de date tradiționale. În aceste zile, datele mari au devenit o abordare rentabilă pentru gestionarea seturilor mai mari de date. Din punct de vedere organizațional, utilizarea datelor mari poate fi împărțită în următoarele categorii, în care rezidă valoarea reală a datelor mari:- Utilizare analitică
Analistii de date mari au dezvăluit multe aspecte ascunse importante ale datelor care sunt prea costisitoare pentru a fi procesate. De exemplu, dacă trebuie să verificăm interesul de tendință al studenților pe un anumit subiect nou, putem face acest lucru analizând înregistrările zilnice de prezență și alte fapte sociale și geografice. Aceste fapte sunt capturate în baza de date. Dacă nu putem accesa aceste date într-un mod eficient, nu putem vedea rezultatele.
- Activați produse noi
În trecutul trecut, o mulțime de companii web noi, precum Facebook, au început să folosească date mari ca soluție pentru lansarea de noi produse. Cu toții știm cât de popular este Facebook - a pregătit cu succes o experiență de utilizator performantă folosind date mari.
Unde este valoarea reală?
Diferite soluții de date mari diferă în abordarea în care stochează datele, dar în final, toate stochează date într-o structură plană de fișiere. În general, Hadoop constă din sistemul de fișiere și câteva abstractizări de date la nivel de sistem de operare. Aceasta include un motor MapReduce și sistemul de fișiere distribuite Hadoop (HDFS). Un cluster Hadoop simplu include un nod principal și mai multe noduri de lucru. Nodul principal este format din următoarele:- Task Tracker
- Urmărirea locurilor de muncă
- Nume Nod
- Nodul de date
- Task Tracker
- Nodul de date
Unele implementări au doar nodul de date. Nodul de date este zona reală în care se află datele. HDFS stochează fișiere mari (în intervalul de terabyți până la petabytes) distribuite pe mai multe mașini. Fiabilitatea datelor pe fiecare nod este obținută prin reproducerea datelor pe toate gazdele. Astfel, datele sunt disponibile chiar și atunci când unul dintre noduri este scăzut. Acest lucru ajută la obținerea unui răspuns mai rapid la întrebări. Acest concept este foarte util în cazul aplicațiilor uriașe precum Facebook. Ca utilizator, primim un răspuns la solicitarea noastră de chat, de exemplu, aproape imediat. Luați în considerare un scenariu în care un utilizator trebuie să aștepte mult timp în timp ce vorbește. Dacă mesajul și răspunsul ulterior nu sunt livrate imediat, atunci câți oameni vor utiliza aceste instrumente de chat?
Revenind la implementarea Facebook, dacă datele nu sunt reproduse în grupuri, nu va fi posibilă o implementare atrăgătoare. Hadoop distribuie datele pe mașini într-un cluster mai mare și stochează fișierele ca o secvență de blocuri. Aceste blocuri sunt de dimensiuni identice, cu excepția ultimului bloc. Dimensiunea blocului și factorul de replicare pot fi personalizate după necesități. Fișierele în HDFS urmează cu strictețe abordarea de scriere o singură dată și, prin urmare, pot fi scrise sau editate doar de către un utilizator la un moment dat. Deciziile referitoare la replicarea blocurilor sunt luate de nodul de nume. Nodul nume primește rapoarte și răspunsuri la impulsuri de la fiecare nod de date. Răspunsurile la impuls asigură disponibilitatea nodului de date corespunzător. Raportul conține detaliile blocurilor de pe nodul de date.
O altă implementare de date mari, Cassandra, folosește și un concept similar de distribuție. Cassandra distribuie date pe baza locației geografice. Prin urmare, în Cassandra, datele sunt segregate în funcție de locația geografică a utilizării datelor.
Uneori, datele mici au un impact mai mare (și mai puțin costisitor)
În conformitate cu Rufus Pollock, de la Open Knowledge Foundation, nu are rost să creăm hype în jurul datelor mari, în timp ce datele mici rămân încă locul unde se află adevărata valoare.
După cum sugerează și numele, datele mici sunt un set de date vizate dintr-un set mai mare de date. Datele mici intenționează să schimbe atenția de la utilizarea datelor și, de asemenea, urmărește să contracareze tendința de a trece către datele mari. Abordarea pentru date mici ajută la culegerea de date pe baza cerințelor specifice, utilizând mai puțin efort. Drept urmare, este practica de afaceri mai eficientă în timp ce implementează informații de afaceri.
La baza sa, conceptul de date mici se învârte în jurul întreprinderilor care necesită rezultate care necesită acțiuni suplimentare. Aceste rezultate trebuie obținute rapid, iar acțiunile ulterioare ar trebui să fie, de asemenea, executate prompt. Astfel, putem elimina tipurile de sisteme utilizate frecvent în analiza datelor mari.
În general, dacă luăm în considerare unele dintre sistemele specifice care sunt necesare pentru achiziția de date mari, o companie ar putea investi în configurarea multor spații de stocare a serverului, să utilizeze servere sofisticate de ultimă generație și cele mai recente aplicații de extragere a datelor pentru a trata diferite biți de date., inclusiv datele și orele acțiunilor utilizatorilor, informații demografice și alte informații. Acest întreg set de date se deplasează într-un depozit de date central, unde algoritmi complexi sunt folosiți pentru a sorta și prelucra datele pentru a fi afișate sub formă de rapoarte detaliate.
Știm cu toții că aceste soluții au beneficiat multe afaceri din punct de vedere al scalabilității și disponibilității; există organizații care consideră că adoptarea acestor abordări necesită eforturi substanțiale. Este, de asemenea, adevărat că, în unele cazuri, rezultate similare se obțin folosind o strategie mai puțin robustă de extragere a datelor.
Datele mici oferă o modalitate prin care organizațiile se pot întoarce dintr-o obsesie cu cele mai noi și noi tehnologii care susțin procese de afaceri mai sofisticate. Companiile care promovează date mici susțin că este important din punct de vedere al afacerii să-și folosească resursele într-o manieră eficientă, astfel încât cheltuielile pe tehnologie să poată fi evitate într-o anumită măsură.
Am discutat mult despre realitatea datelor mari și a datelor mici, dar trebuie să înțelegem că selectarea platformei corecte (date mari sau date mici) pentru utilizarea corectă este cea mai importantă parte a întregului exercițiu. Și adevărul este că, deși datele mari pot oferi multe avantaje, nu este întotdeauna cel mai bun.