Acasă Audio Care sunt câteva modalități cheie de automatizare și optimizare a proceselor de știință a datelor?

Care sunt câteva modalități cheie de automatizare și optimizare a proceselor de știință a datelor?

Anonim

Î:

Care sunt câteva modalități cheie de automatizare și optimizare a proceselor de știință a datelor?

A:

Procesele de știință a datelor în contextul învățării automate și AI pot fi împărțite în patru faze distincte:

  1. achiziția și explorarea datelor,
  2. construirea modelului,
  3. implementarea modelului și
  4. evaluare și perfecționare online.

Din experiența mea, cele mai împiedicate faze sunt achiziționarea de date și fazele de implementare a modelelor în orice proces de știință a datelor bazat pe învățarea automată și iată două moduri de optimizare a acestora:

1. Stabiliți un magazin de date extrem de accesibil.

În majoritatea organizațiilor, datele nu sunt stocate într-o singură locație centrală. Să luăm doar informații legate de clienți. Aveți informații de contact pentru clienți, e-mailuri de asistență pentru clienți, feedback-ul clienților și istoricul navigării clienților dacă afacerea dvs. este o aplicație web. Toate aceste date sunt risipite în mod natural, deoarece servesc scopuri diferite. Acestea pot avea rezidențe în diferite baze de date, iar unele pot fi complet structurate și altele nestructurate și chiar pot fi stocate ca fișiere text simplu.

Din păcate, dispersia acestor seturi de date se limitează extrem de mult la activitatea de știință a datelor, deoarece baza tuturor problemelor NLP, învățării automate și AI sunt datele . Așadar, având toate aceste date într-un singur loc - baza de date - este esențial în accelerarea dezvoltării și implementării modelului. Având în vedere că aceasta este o piesă crucială pentru toate procesele de știință a datelor, organizațiile ar trebui să angajeze ingineri de date calificați pentru a-i ajuta să își construiască baza de date. Acest lucru poate porni cu ușurință, deoarece simplele descărcări de date într-o singură locație și pot crește încet într-un depozit de date bine gândit, complet documentat și interogabil cu instrumente de utilitate pentru a exporta subseturi de date în diferite formate în scopuri diferite.

2. Expuneti-va modelele ca serviciu pentru o integrare perfecta.

Pe lângă faptul că permite accesul la date, este important să poți integra modelele dezvoltate de oamenii de știință de date în produs. Poate fi extrem de dificil să integrezi modelele dezvoltate în Python cu o aplicație web care rulează pe Ruby. În plus, modelele pot avea o mulțime de dependențe de date pe care produsul dvs. nu le poate furniza.

O modalitate de a rezolva acest lucru este să configurați o infrastructură puternică în jurul modelului dvs. și să expuneți suficient de multe funcționalități necesare produsului dvs. pentru a utiliza modelul ca „serviciu web”. De exemplu, dacă aplicația dvs. are nevoie de clasificare sentimentală la recenziile produsului., tot ce trebuie să facă este să invoce serviciul web, furnizând textul relevant și serviciul ar da înapoi clasificarea sentimentului adecvat pe care produsul îl poate utiliza direct. În acest fel, integrarea este pur și simplu sub forma unui apel API. Decuplarea modelului și a produsului care îl folosește face foarte ușor pentru produsele noi cu care veniți să utilizați, de asemenea, aceste modele cu puțin dificultăți.

Acum, configurarea infrastructurii în jurul modelului dvs. este o altă poveste și necesită o investiție inițială grea din partea echipelor dumneavoastră de inginerie. Odată ce infrastructura este acolo, este doar o problemă de a construi modele într-un mod care să se încadreze în infrastructură.

Care sunt câteva modalități cheie de automatizare și optimizare a proceselor de știință a datelor?