Cum pot evalua inginerii seturi de pregătire și seturi de testare pentru a detecta posibile potriviri în învățarea mașinii?

2026

Î:

Cum pot evalua inginerii seturi de pregătire și seturi de testare pentru a detecta posibile potriviri în învățarea mașinii?

Pentru a înțelege cum se face acest lucru, este necesar să se înțeleagă de bază rolurile diferitelor seturi de date într-un proiect tipic de învățare a mașinilor. Setul de instruire este creat pentru a oferi tehnologiei un cadru de referință - o bază de date pe care programul o folosește pentru a lua decizii predictive și probabilistice. Setul de testare este locul în care testați aparatul pe date.

Suprafațarea este un sindrom al învățării automate în care modelul nu se potrivește complet datelor sau scopului.

Descărcare gratuită: învățarea mașinii și de ce contează

Una dintre poruncile generale ale învățării automate este că datele de instruire și datele de testare ar trebui să fie seturi de date separate. Există un consens destul de larg în acest sens, cel puțin în multe aplicații, din cauza unor probleme specifice cu utilizarea aceluiași set pe care l-ați folosit la antrenament pentru a testa un program de învățare automată.

Atunci când un program de învățare automată folosește un set de instruire, care ar putea fi numit în esență un set de intrări, se lucrează la acel set de pregătire pentru a lua decizii cu privire la rezultatele predictive. Un mod foarte de bază de a gândi acest lucru este că setul de pregătire este „alimentul” pentru procesul de calcul intelectual.

Acum, atunci când același set este utilizat pentru testare, mașina poate da deseori rezultate excelente. Asta pentru că deja a văzut aceste date. Dar, în multe cazuri, întregul obiectiv al învățării automate este de a face rezultate despre date care nu au fost văzute până acum. Programele de învățare automată cu scop general sunt create pentru a funcționa pe diverse seturi de date. Cu alte cuvinte, principiul învățării automate este descoperirea și nu obțineți de obicei la fel de mult folosind un set de pregătire inițială în scopuri de testare.

În evaluarea seturilor de antrenament și a seturilor de teste pentru o potrivire posibilă, inginerii ar putea evalua rezultatele și să-și dea seama de ce un program ar putea face acest lucru în mod diferit pe baza rezultatelor comparative ale acestor două seturi sau, în unele cazuri, cum mașina ar putea merge prea bine pe datele de antrenament în sine .

În descrierea capabilă a unora dintre aceste probleme în învățarea mașinii într-o piesă din 2014, Jason Brownlee la Mașina de învățare a mașinilor descrie o potrivire în acest fel:

"Un model care este selectat pentru exactitatea sa pe setul de date de formare, mai degrabă decât pentru exactitatea acestuia într-un set de date test nevăzut este foarte probabil să aibă precizie mai mică pe un set de date test nevăzut", scrie Brownlee. "Motivul este că modelul nu este la fel de generalizat. S- a concretizat la structura din setul de date de instruire (adăugate italice). Aceasta se numește supra-montare și este mai insidioasă decât crezi."

În termeni laici, ai putea spune că, în specializarea setului de date de formare, programul devine prea rigid. Acesta este un alt mod metaforic de a analiza motivul pentru care un program de învățare automată nu este servit în mod optim prin utilizarea setului de pregătire pentru setul de teste. Este, de asemenea, o modalitate bună de a aborda evaluarea acestor două seturi diferite, deoarece rezultatele vor arăta inginerilor multe despre modul în care funcționează programul. Vrei un decalaj mai mic între precizie pentru ambele modele. Doriți să vă asigurați că sistemul nu este supraalimentat sau „fuzionat cu precizie” pentru un anumit set de date, dar acesta este mai general și capabil să crească și să evolueze la comandă.

Cum pot evalua inginerii seturi de pregătire și seturi de testare pentru a detecta posibile potriviri în învățarea mașinii?

Cum folosesc administratorii monitorizarea serverului pentru a evalua performanța rețelei?

Cum pot folosi inginerii să crească gradient pentru a îmbunătăți sistemele de învățare a mașinilor?

De ce este prejudecata mașinii o problemă în învățarea mașinii?

Alegerea editorilor

Ce este echilibrarea sarcinii? - definiție din techopedia

Ce este lotus domino? - definiție din techopedia

Ce este un server proxy? - definiție din techopedia

Ce este o fermă de servere? - definiție din techopedia

Alegerea editorilor

Ce este un led organic flexibil? - definiție din techopedia

Ce este în timp real lista blackhole (rbl)? - definiție din techopedia

Ce este utilizarea grea a internetului? - definiție din techopedia

Ce este un traseu adaptiv? - definiție din techopedia

Alegerea editorilor

Care este hipermedia ca motor al stării de aplicare (hateoas)? - definiție din techopedia

Ce este multiplexorul de acces la linia de abonat digital? - definiție din techopedia

Ce este memoria ternară adresată de conținut (tcam)? - definiție din techopedia

Ce este un pește pisic? - definiție din techopedia

Alegerea editorilor

Ce este reprografia? - definiție din techopedia

Ce este imprimarea termografică? - definiție din techopedia

Ce este o baterie? - definiție din techopedia

Ce este un supercomputer desktop? - definiție din techopedia

Alegerea editorilor

Ce este un transportor electronic personal personalizat (animal de companie)? - definiție din techopedia

Ce este un palmpilot? - definiție din techopedia

Ce este disponibilitatea mare (ha)? - definiție din techopedia

Ce este zahărul sintactic? - definiție din techopedia

Categorii populare