Dintre startup-urile tehnologice, oamenii de știință sunt un termen din ce în ce mai obișnuit folosit pentru a se referi la geek-urile de date capabile să pună în legătură, în mod tradițional, zone funcționale separate de informații. Un om de știință de date este cineva care îndeplinește confortabil mai multe (dacă nu toate) aspecte ale proiectelor de informații:
- Achiziționarea datelor: Aceasta poate implica scrierea de către analizatori personalizați și crawler web sau scripturi care vizează anumite servicii web sau API-uri pentru surse de date care nu sunt tradiționale.
- Gestionarea datelor: ETL, manipularea, interogarea și menținerea datelor în baze de date, în magazinele cu valori cheie sau Hadoop.
- Vizualizare informațională: descoperirea tiparelor prin utilizarea seturilor de instrumente de vizualizare statică și / sau a platformelor interactive bazate pe Flash, JavaScript sau procesare.
- Analitică: aceasta poate varia de la tehnici simple la complexe în statistici multivariate, învățare automată și NLP.
- Insight: extrageți, rezumați și prezentați concluziile cheie unui public larg.
Există multe instrumente, abilități și detalii tehnice, iar unul poate petrece ani stăpânind fiecare dintre elementele enumerate mai sus. În timp ce un om de știință de date poate să nu dețină cunoștințe de adevărat expert în niciunul din domenii, el sau ea se lasă confortabil înainte și înapoi și îndeplinește sarcini de bază în toate acestea. Rezultatul este un geek de date suficient de ușor pentru a investiga rapid un proiect de date și pentru a produce răspunsuri la întrebări (la nivel înalt) din partea managementului. (despre datele oamenilor de știință din Data Scientists: The New Rock Stars of the Tech World.)
Pentru a alimenta oamenii de știință de date, companiile trebuie să se concentreze mai mult pe cultură și structura organizațională. Mulți lucrători de date au suficiente abilități și instruire pentru a deveni rapid productivi în mai multe domenii de informații. Problema este că majoritatea nu funcționează în medii care îi încurajează să devină oameni de știință de date. Sunt blocați în silozuri și limitați la una sau două domenii de informații. Deseori, acestea sunt limitate la utilizarea instrumentelor „aprobate” de managerii lor.