Cuprins:
- Mitul: Toată lumea este înaintea noastră în adoptarea datelor mari.
- Mitul: avem atât de multe date; nu trebuie să ne facem griji cu privire la fiecare mic defect de date.
- Mit: Tehnologia de date mari va elimina nevoia de integrare a datelor.
- Mit: Utilizarea unui depozit de date pentru analize avansate nu are rost.
- Mit: Lacurile de date vor înlocui depozitul de date.
- Lucrări de date mari - noi metode de manipulare a datelor nu pot fi
În mai 2014, Forrester Research a publicat două rapoarte care au tras anumite concluzii cu privire la hype-ul din jurul datelor mari. Firma de cercetare a examinat peste 250 de directori de marketing și dezvoltare de afaceri. Potrivit autorilor raportului, retorica de date mari este la un nivel constant, iar vânzătorii de tehnologie oferă produse cu ceea ce par a fi afirmații incredibile.
Gartner este de acord cu Forrester Research; Hype substanțial înconjoară date mari. În raportul din septembrie 2014, Gartner scoate la iveală cinci dintre cele mai mari mituri de date, iar analiștii Gartner își oferă părerea cu privire la ceea ce a înțeles greșit cu privire la datele mari și la manipularea acestora. Care sunt cele mai mari mituri ale datelor mari? Haideți să aruncăm o privire.
Mitul: Toată lumea este înaintea noastră în adoptarea datelor mari.
Gartner spune că interesul pentru datele mari este la un nivel constant. În ciuda acestui fapt, 13% dintre cei chestionați au sisteme de lucru. Motivul: majoritatea companiilor încă nu și-au dat seama cum să extragă orice valoare din depozitele mari de date. Aici, sondajul lui Gartner este mai optimist decât raportul Forrester, care a constatat că doar 9 la sută dintre participanții la sondaj au spus că au planificat să implementeze tehnologii cu date mari pe parcursul anului următor. (Datele mari au multe de oferit. Aflați mai multe în 5 probleme din lumea reală Big Data Solve.)Mitul: avem atât de multe date; nu trebuie să ne facem griji cu privire la fiecare mic defect de date.
Gartner este îngrijorat de o ferabilitate pe care o avem oamenii: „Avem atât de multe, puținul rău nu va conta”. Ted Friedman, vicepreședinte și distins analist la Gartner consideră că acesta este un mod greșit de a privi situația.
"În realitate, deși fiecare defect individual are un impact mult mai mic asupra întregului set de date decât a făcut-o atunci când existau mai puține date, există mai multe defecte decât înainte, deoarece există mai multe date", a spus Friedman. "Prin urmare, impactul general al datelor de calitate slabă asupra întregului set de date rămâne același."
Friedman adaugă un alt motiv de îngrijorare. Captarea de date mari include adesea date din afara afacerii, care sunt, prin urmare, de structură și origine necunoscute. Aceasta crește potențialul de erori.
Mit: Tehnologia de date mari va elimina nevoia de integrare a datelor.
Există două strategii cheie de analiză a datelor care pot fi aplicate datelor mari: „schemă pe scriere” sau „schemă citită”. Până de curând, schema la scriere era singura metodă folosită. Schema de citire este neclaritatea actuală în gestionarea bazelor de date. Spre deosebire de schema pe scriere, care necesită un format structurat, datele sunt încărcate în baze de date schema pe citit în formatul brut. Apoi, dezvoltatorii - folosind platforme de baze de date nestructurate precum Hadoop - îndoaie datele disparate într-un format utilizabil. Schema de citire are avantaje evidente, dar, după cum menționează Gartner, integrarea datelor trebuie să apară la un moment dat.Mit: Utilizarea unui depozit de date pentru analize avansate nu are rost.
Petrecerea timpului pentru crearea unui depozit de date pare inutil pentru mai mulți manageri de informații, în special atunci când datele recent captate sunt diferite de cele din depozitul de date. Cu toate acestea, Gartner avertizează din nou chiar și analitele avansate de date vor folosi depozite de date și date noi, ceea ce înseamnă că integratorii de date trebuie:- Rafinați tipurile de date noi pentru a le face adecvate pentru analiză
- Decideți ce date sunt relevante și nivelul calității datelor necesare
- Determinați modul de agregare a datelor
- Înțelegeți că rafinarea datelor poate avea loc în alte locuri decât depozitul de date
Mit: Lacurile de date vor înlocui depozitul de date.
Lacurile de date sunt depozite de date diferite, spre deosebire de depozitele de date unde datele sunt într-un format structurat. Crearea unui lac de date necesită puțin efort avansat (nu este necesară formatarea datelor) în comparație cu depozitele de date, motiv pentru care lacurile de date sunt de interes.
Gartner subliniază faptul că deținerea datelor nu este ideea - faptul că este capabil să manipuleze datele capturate pentru a lua o decizie în cunoștință de cauză. Mai mult, utilizarea unor lacuri de date (oarecum neprobate) pentru a facilita luarea deciziilor este problematică.
"Depozitele de date au deja capacitățile de a sprijini o mare varietate de utilizatori în întreaga organizație", a declarat Nick Heudecker, director de cercetare la Gartner. "Liderii de gestionare a informațiilor nu trebuie să aștepte ca lacurile de date să fie în pas." (Aflați mai multe despre adoptarea datelor mari în 7 lucruri pe care trebuie să le cunoașteți despre datele mari înainte de adoptare.)
Lucrări de date mari - noi metode de manipulare a datelor nu pot fi
Motivul pentru care Gartner a spus că „cele mai mari mituri de date” în loc de „mituri cu date mari” devine clar după citirea raportului. Gartner nu este suficient de mare. Gartner este demn de cei care simt că metodele mai noi de manipulare a datelor mari sunt gata pentru „prime time”.