Î:
Cum ar putea companiile să folosească modele de pădure aleatoare pentru predicții?
A:Companiile folosesc deseori modele de pădure aleatorii pentru a face predicții cu procesele de învățare automată. Pădurea aleatorie folosește arbori de decizie multiple pentru a face o analiză mai holistică a unui set de date.
Un arbore de decizie unic funcționează pe baza separării unei anumite variabile sau variabile în funcție de un proces binar. De exemplu, în evaluarea seturilor de date referitoare la un set de mașini sau vehicule, un arbore de decizie unic ar putea sorta și clasifica fiecare vehicul individual în greutate, separându-le în vehicule grele sau ușoare.
Pădurea întâmplătoare se bazează pe modelul arborelui decizional și îl face mai sofisticat. Experții vorbesc despre pădurile aleatorii ca reprezentând „discriminarea stocastică” sau metoda „ghicire stocastică” pe datele aplicate spațiilor multidimensionale. Discriminarea stocistică tinde să fie o modalitate de a îmbunătăți analiza modelelor de date dincolo de ceea ce poate face un singur arbore de decizie.
Practic, o pădure aleatoare creează mulți arbori de decizie individuali care lucrează pe variabile importante cu un anumit set de date aplicat. Un factor cheie este că, într-o pădure aleatorie, setul de date și analiza variabilă a fiecărui arbore decizional se vor suprapune de obicei. Acest lucru este important pentru model, deoarece modelul forestier aleatoriu ia rezultatele medii pentru fiecare arbore de decizie și le determină într-o decizie ponderată. În esență, analiza preia toate voturile diferiților arbori de decizie și creează un consens pentru a oferi rezultate productive și logice.
Un exemplu de utilizare a unui algoritm aleatoriu forestier este disponibil pe site-ul R-blogger, unde scriitorul Teja Kodali ia exemplul determinării calității vinului prin factori precum aciditatea, zahărul, nivelul de dioxid de sulf, valoarea pH-ului și conținutul de alcool. Kodali explică modul în care un algoritm forestier aleatoriu folosește un mic subset aleatoriu de caracteristici pentru fiecare arbore individual și apoi utilizează mediile rezultate.
Având în vedere acest lucru, întreprinderile care doresc să folosească algoritmi de învățare ale mașinilor forestiere aleatorii pentru modelarea predictivă vor izola mai întâi datele predictive care trebuie reduse într-un set de producții și apoi le vor aplica modelului forestier aleatoriu folosind un anumit set de instruire. date. Algoritmii de învățare automată iau aceste date de formare și lucrează cu ele pentru a evolua dincolo de constrângerile programării lor originale. În cazul modelelor de pădure aleatorii, tehnologia învață să formeze rezultate predictive mai sofisticate folosind acei arbori de decizie individuali pentru a-și construi consensul forestier aleatoriu.
Un mod în care acest lucru ar putea fi aplicat afacerilor este de a lua diverse variabile de proprietate a produsului și de a utiliza o pădure aleatoare pentru a indica interesul potențial al clienților. De exemplu, dacă există factori de interes pentru clienți cunoscuți, cum ar fi culoarea, dimensiunea, durabilitatea, portabilitatea sau orice altceva pentru care clienții au indicat interes, acele atribute pot fi introduse în seturile de date și analizate pe baza propriului impact unic pentru multifactor. analiză.