Î:
Cum a devenit zgâriarea datelor pentru învățarea automată a devenit cea mai intensă gât de blocaj de la intrarea manuală a datelor în migrarea moștenită?
A:Una dintre problemele practice pe care le-ar putea întâmpina companiile atunci când încearcă să înceapă un proiect de învățare automată (ML) este provocarea dobândirii seturilor de date de formare inițială. Aceasta ar putea include procese intensiv de muncă, cum ar fi razuirea web sau alte razuiri de date.
Termenii de razuire web și razuire a datelor se referă în mare parte la activitatea automatizată de către software-ul computerului, dar pentru multe proiecte ML, vor exista cazuri în care computerele nu au sofisticarea de a colecta datele direcționate adecvate, așa că va trebui să fie făcut "de mana." Acest lucru s-ar putea să numiți „web-ul uman / razuirea datelor” și este o treabă de mulțumire. În general, implică ieșirea și căutarea de date sau imagini pentru a „alimenta” programul ML prin seturi de instruire. Adesea este destul de iterativ, ceea ce face o muncă obositoare, lentă și solicitantă.
Descărcare gratuită: învățarea mașinii și de ce contează |
Răspândirea datelor pentru seturile de instruire ML reprezintă un blocaj problematic în mod deosebit în învățarea mașinii, în parte, deoarece o mare parte din cealaltă lucrare este foarte conceptuală și nu repetitivă. Mulți oameni pot veni cu o idee excelentă pentru o aplicație nouă, care îndeplinește sarcini de învățare automată, dar piulițele și șuruburile și munca practică pot fi mult mai grele. În special, delegarea activității de asamblare a seturilor de antrenament poate fi de fapt una dintre cele mai dificile părți ale unui proiect ML, așa cum este explorat pe deplin în emisiunea TV „Silicon Valley” de Mike Judge. Într-un episod din sezonul patru, un antreprenor de început începe să-și facă un partener în a-și desfășura munca intensivă în muncă, apoi încearcă să-l transmită elevilor de la colegiu, deghizându-l ca temă.
Acest exemplu este instructiv, deoarece arată cât de neplăcut și aparent lipsit de importanță este razuirea manuală a datelor. Cu toate acestea, arată, de asemenea, că acest proces este necesar pentru o gamă largă de produse de învățare automată. Deși majoritatea oamenilor urăsc introducerea de date, seturile de instruire trebuie asamblate într-un fel. Experții în acest proces recomandă adesea utilizarea unui serviciu de razuire web - în esență, doar externalizarea acestei lucrări care necesită foarte multă muncă părților externe, dar care ar putea avea ramificări de securitate și pot cauza alte probleme. Atunci când păstrați lucrările de colectare manuală a datelor în casă, trebuie să existe din nou o dispoziție pentru ceea ce este adesea un proces foarte manual și care necesită mult timp.
În unele moduri, „razuirea datelor umane” pentru învățarea mașinii arată ca introducerea manuală a datelor care uneori trebuia făcută în migrarea moștenită. Pe măsură ce cloud-ul devenea din ce în ce mai popular, iar companiile își pun procesele și fluxurile de lucru în cloud, unii au descoperit că nu au lucrat prin aspectele practice ale modului de a-și transforma datele corporative dintr-un sistem moștenit izolat în aplicații native. Drept urmare, unii oameni care erau altfel oameni de știință în date sau oameni creativi cu abilități esențiale în IT s-au găsit că efectuează sarcini neplăcute de introducere a datelor.
Același lucru este probabil să se întâmple și cu învățarea automată. S-ar putea să auzi un om de știință de date care se plânge că „sunt o persoană creatoare” sau „sunt pe partea de dezvoltare” - dar cineva trebuie să facă munca murdară.
Din nou, dacă fluxul creativ nu este asociat cu o evaluare practică a delegării fluxului de lucru, va exista o nepotrivire a modului în care este direcționată gestionarea sarcinilor. Atunci când o companie nu are oameni care să facă lucrările de razuire a datelor în colectarea seturilor de date, îi lipsește o parte cheie a lanțului de procedură pentru un proiect de succes. Merită să ții cont de acest lucru oricând o companie încearcă să-și facă bine pe o idee bazată pe dezvoltarea de noi aplicații de învățare a mașinilor.