Acasă Dezvoltare Ce este învățarea de consolidare? - definiție din techopedia

Ce este învățarea de consolidare? - definiție din techopedia

Cuprins:

Anonim

Definiție - Ce înseamnă învățare de consolidare?

Învățarea de consolidare, în contextul inteligenței artificiale, este un tip de programare dinamică care antrenează algoritmi folosind un sistem de recompensă și pedeapsă.

Un algoritm de învățare de întărire, sau un agent, învață interacționând cu mediul său. Agentul primește recompense prin efectuarea corectă și penalități pentru efectuarea incorectă. Agentul învață fără intervenție de la un om maximizându-și recompensa și minimizând pedeapsa.

Techopedia explică învățarea de armare

Învățarea de consolidare este o abordare a învățării automate care este inspirată de psihologia comportamentală. Este similar cu modul în care un copil învață să îndeplinească o nouă sarcină. Învățarea de consolidare contrastează cu alte abordări de învățare automată prin faptul că algoritmul nu i se spune în mod explicit cum să îndeplinească o sarcină, ci funcționează singur prin problemă.

Ca agent, care ar putea fi o mașină auto-conducătoare sau un program care joacă șah, interacționează cu mediul său, primește o stare de recompensă în funcție de performanțele sale, cum ar fi conducerea la destinație în siguranță sau câștigarea unui joc. În schimb, agentul primește o sancțiune pentru efectuarea incorectă, cum ar fi ieșirea de pe drum sau a fost verificat.

De-a lungul timpului, agentul ia decizii pentru a-și maximiza recompensa și a-i minimiza pedeapsa folosind o programare dinamică. Avantajul acestei abordări a inteligenței artificiale este că permite unui program AI să învețe fără ca un programator să descrie modul în care un agent ar trebui să îndeplinească sarcina.

Ce este învățarea de consolidare? - definiție din techopedia