Acasă Audio De ce sunt adesea greu de antrenat rețelele neuronale recurente artificiale?

De ce sunt adesea greu de antrenat rețelele neuronale recurente artificiale?

Anonim

Î:

De ce sunt adesea greu de antrenat rețelele neuronale recurente artificiale?

A:

Dificultatea antrenării rețelelor neuronale recurente artificiale are legătură cu complexitatea lor.

Unul dintre cele mai simple moduri de a explica de ce rețelele neuronale recurente sunt greu de antrenat este faptul că acestea nu sunt rețele neuronale avansate.

În rețelele neuronale avansate, semnalele se mișcă doar într-un singur sens. Semnalul se mută de la un strat de intrare la diferite straturi ascunse și înainte, la stratul de ieșire al unui sistem.

În schimb, rețelele neuronale recurente și alte tipuri diferite de rețele neuronale au mișcări de semnal mai complexe. Clasificate ca rețele „feedback”, rețelele neuronale recurente pot avea semnale care se deplasează atât înainte cât și înapoi și pot conține diverse „bucle” în rețea în care numerele sau valorile sunt introduse în rețea. Experții asociază acest lucru cu aspectul rețelelor neuronale recurente care este asociat cu memoria lor.

În plus, există un alt tip de complexitate care afectează rețelele neuronale recurente. Un exemplu excelent în acest sens este în domeniul procesării limbajului natural.

În procesarea sofisticată a limbajului natural, rețeaua neuronală trebuie să poată aminti lucruri. Trebuie să ia aporturi și în context. Să presupunem că există un program care dorește să analizeze sau să prezică un cuvânt în cadrul unei propoziții cu alte cuvinte. Poate fi, de exemplu, o lungime fixă ​​de cinci cuvinte pentru evaluarea sistemului. Aceasta înseamnă că rețeaua neuronală trebuie să aibă inputuri pentru fiecare dintre aceste cuvinte, împreună cu capacitatea de a „aminti” sau de a se antrena în contextul acestor cuvinte. Din aceste motive și din alte motive similare, rețelele neuronale recurente au de obicei aceste mici bucle și feedback-uri ascunse în sistem.

Experții lamentează că aceste complicații îngreunează formarea rețelelor. Unul dintre cele mai comune moduri de a explica acest lucru este citând problema gradientului care explodează și dispărește. În esență, ponderile rețelei vor conduce fie la explodarea, fie la dispariția valorilor cu un număr mare de treceri.

Pionierul rețelei neuronale, Geoff Hinton, explică acest fenomen pe web, spunând că trecerile liniare înapoi vor face ca greutățile mai mici să se micșoreze exponențial și să explodeze greutăți mai mari.

Această problemă, continuă el, se agravează cu secvențe lungi și cu mai mulți pași de timp, în care semnalele cresc sau se descompun. Initializarea greutatii poate ajuta, dar aceste provocari sunt integrate in modelul recurentei de retea neuronala. Întotdeauna va exista această problemă atașată de proiectarea și construcția lor specială. În esență, unele dintre cele mai complexe tipuri de rețele neuronale sfidează cu adevărat capacitatea noastră de a le gestiona cu ușurință. Putem crea o cantitate practic infinită de complexitate, dar vedem adesea creșterea provocărilor de predictibilitate și scalabilitate.

De ce sunt adesea greu de antrenat rețelele neuronale recurente artificiale?