Acasă Audio Cum ajută mass-pool-ul să facă din alexnet o tehnologie excelentă pentru procesarea imaginilor?

Cum ajută mass-pool-ul să facă din alexnet o tehnologie excelentă pentru procesarea imaginilor?

Anonim

Î:

Cum ajută mass-pool-ul să facă din AlexNet o tehnologie excelentă pentru procesarea imaginilor?

A:

În AlexNet, o rețea neuronală convoluțională inovativă, conceptul de reuniune maximă este inserat într-un model complex cu mai multe straturi convolutive, parțial pentru a ajuta la montarea și eficientizarea lucrărilor pe care rețeaua neuronală le lucrează cu imagini cu ceea ce apelează experții. o „strategie de eșantionare neliniară.”

AlexNet este considerat pe scară largă drept un CNN destul de mare, câștigând ILSVRC 2012 (ImageNet Large-Scale Visual Recognition Challenge), care este privit ca un eveniment bazin pentru învățarea mașinilor și progresul rețelei neuronale (unii îl numesc „Olimpiada” viziunii computerizate). ).

În cadrul rețelei, unde formarea este împărțită în două GPU-uri, există cinci straturi convoluționale, trei straturi complet conectate și o oarecare implementare maximă de reuniune.

În esență, colectarea maximă ia „piscina” rezultatelor dintr-o colecție de neuroni și le aplică valorilor unui strat ulterior. Un alt mod de a înțelege acest lucru este faptul că o abordare de regrupare maximă poate consolida și simplifica valorile de dragul de a se potrivi mai corect modelului.

Combinarea maximă poate ajuta la calcularea gradienților. S-ar putea spune că „reduce povara calculului” sau „micșorează supraîncadrarea” - prin eșantionare, combinarea maximă implică ceea ce se numește „reducerea dimensionalității”.

Reducerea dimensionalității abordează problema de a avea un model supracomplicat greu de rulat printr-o rețea neuronală. Imaginează-ți o formă complexă, cu multe contururi zimțate mici și fiecare bucată din această linie reprezentată de un punct de date. Odată cu reducerea dimensionalității, inginerii ajută programul de învățare a mașinilor să „micșoreze” sau să probeze mai puține puncte de date, pentru a face modelul în ansamblu mai simplu. De aceea, dacă vă uitați la un strat de reuniune maximă și la ieșirea acestuia, puteți vedea uneori o pixelare mai simplă corespunzătoare unei strategii de reducere a dimensionalității.

AlexNet folosește, de asemenea, o funcție numită unități lineare redresate (ReLU), iar colectarea maximă poate fi complementară acestei tehnici în procesarea imaginilor prin CNN.

Experții și cei implicați în proiect au oferit modele vizuale abundente, ecuații și alte detalii pentru a arăta construirea specifică a AlexNet, dar, într-un sens general, puteți gândi cum să faceți colectarea maximă ca coalizant sau consolidarea producției mai multor neuroni artificiali. Această strategie este o parte a dezvoltării generale a CNN, care a devenit sinonimă cu viziunea de ultimă oră a mașinii și clasificarea imaginilor.

Cum ajută mass-pool-ul să facă din alexnet o tehnologie excelentă pentru procesarea imaginilor?