Acasă Audio Poate fi vreodată prea multe date în date mari?

Poate fi vreodată prea multe date în date mari?

Anonim

Î:

Poate fi vreodată prea multe date în date mari?

A:

Răspunsul la întrebare este un DA răsunător. Pot fi absolut prea multe date într-un proiect de date mari.

Există numeroase modalități prin care acest lucru se poate întâmpla și diverse motive pentru care profesioniștii trebuie să limiteze și să curateze datele în orice fel de moduri pentru a obține rezultatele corecte. (Citiți 10 Mituri mari despre date mari.)

În general, experții vorbesc despre diferențierea „semnalului” de „zgomotul” dintr-un model. Cu alte cuvinte, într-o mare de date mari, datele relevante din perspectiva devin dificil de vizat. În unele cazuri, căutați un ac într-un căptuș de fân.

De exemplu, să presupunem că o companie încearcă să utilizeze date mari pentru a genera informații specifice pe un segment al unei baze de clienți și achizițiile acestora pe un anumit interval de timp. (Citiți Ce face datele mari?)

Preluarea unei cantități enorme de active de date poate duce la introducerea de date aleatorii care nu sunt relevante, sau poate chiar produce o prejudecată care înșeală datele într-o direcție sau în alta.

De asemenea, încetinește procesul în mod dramatic, deoarece sistemele de calcul trebuie să se lupte cu seturi de date mai mari și mai mari.

În atâtea tipuri diferite de proiecte, este foarte important ca inginerii de date să curateze datele la seturi de date restrânse și specifice - în cazul de mai sus, acestea ar fi studiate numai pentru acel segment de clienți, doar datele pentru acel moment cadru care este studiat și o abordare care elimină identificatori suplimentari sau informații de fundal care pot confunda lucruri sau încetini sistemele. (Rolul ReadJob: Data Engineer.)

Pentru mai multe, să vedem cum funcționează acest lucru în frontiera învățării automate. (Citiți învățarea mașinii 101.)

Experții în învățarea mașinilor vorbesc despre ceva numit „overfitting”, unde un model excesiv de complex duce la rezultate mai puțin eficiente atunci când programul de învățare a mașinilor este dezvăluit pe noile date de producție.

Suprapunerea se întâmplă atunci când un set complex de puncte de date se potrivesc prea mult cu un set de instruire inițial și nu permit programului să se adapteze cu ușurință la datele noi.

Acum, din punct de vedere tehnic, supra-montarea este cauzată nu de existența prea multor probe de date, ci de încoronarea prea multor puncte de date. Dar puteți susține că faptul că există prea multe date poate fi un factor care contribuie la acest tip de problemă. Abordarea blestemului dimensionalității implică unele dintre aceleași tehnici care au fost făcute în proiectele de date mari anterioare, în timp ce profesioniștii au încercat să identifice ceea ce alimentau sistemele IT.

Concluzia este că datele mari pot fi foarte utile pentru companii sau pot deveni o provocare majoră. Un aspect al acestui lucru este dacă compania are datele corecte în joc. Experții știu că nu este indicat să aruncați pur și simplu toate activele de date într-un buncăr și să prezentați informații în acest fel - în noile sisteme de date sofisticate din cloud și sofisticate, există un efort de a controla și de a gestiona și de a curata datele pentru a obține mai exacte și utilizarea eficientă din activele de date.

Poate fi vreodată prea multe date în date mari?