Acasă Audio Care este diferența dintre vorbirea la text și chatbots?

Care este diferența dintre vorbirea la text și chatbots?

Anonim

Î:

Care este diferența dintre vorbirea la text și chatbots?

A:

Numeroasele diferențe semnificative între tehnologiile vorbire-text și chatbot-urile fac parte din ceea ce este examinat în evoluția rapidă a proiectelor chatbot și voicebot.

O tehnologie vorbire-text este pur și simplu una care transformă vorbirea verbală în text într-o pagină digitală. Aceasta este funcția sa completă, dar nu este una simplu de proiectat. Pentru a converti vorbirea verbală în text, tehnologia trebuie să descompună cuvintele și propozițiile în foneme individuale și să lucreze cu ele în funcție de algoritmi complexi pentru a crea un text care să fie exact și să reprezinte ceea ce a spus vorbitorul.

Chatbots, pe de altă parte, sunt tehnologii care îndeplinesc scopul comunicării cu un om. Există două tipuri de chatbots: chatbots de text și vocale. Chatbot-urile de text au fost în jur de mult mai mult, deoarece nu au nevoie de elementul vorbire-text pe care îl folosesc vocalele.

Principala diferență între tehnologiile vorbire-text și chatbots este domeniul de aplicare. După cum am menționat, toată tehnologia vorbire-text trebuie să facă este să transcrieți vorbirea verbală. Pe de altă parte, chatbot-ul trebuie să ia discurs în orice formă pentru care este făcut, să o înțeleagă și să ofere răspunsuri care încearcă să treacă testul Turing - testul dacă o tehnologie poate păcăli un om să creadă că el sau ea este vorbind cu o altă persoană.

În acest sens, chatbots-urile sunt mult mai ușor de creat decât vocal-urile. Chatbot preia textul uman și oferă un răspuns text. Chiar și chat-urile relativ simple au reușit să ofere rezultate interesante și plăcute oamenilor de la sfârșitul anilor '80 și începutul anilor '90.

Pe de altă parte, vocala trebuie să preia vorbirea verbală, să o transforme în text, să o verifice cu exactitate, să producă un răspuns și să construiască acel răspuns din limbajul mașinii în vorbire audibilă. Acest număr mare de sarcini destul de semnificative înseamnă că vocala necesită multă putere de calcul și o mulțime de design pentru a construi.

Proiecte precum Siri, Cortana și Alexa demonstrează o parte din avangarda tehnologiilor vocale. Ei ilustrează, de asemenea, că această tehnologie este încă la început. Deși Alexa și alte tehnologii pot răspunde verbal la vorbirea umană, nu sunt extrem de capabile în sensul în care ne asociem cu vorbirea umană verbală în general. Cu alte cuvinte, există destul de multe limitări la răspunsurile pe care le pot oferi aceste tehnologii. Există chiar și o abilitate limitată a generației de asistenți personali de azi să genereze cu adevărat vorbire la text, de exemplu, în scopul transcrierii unui e-mail sau a ajuta pe cineva să scrie un eseu fără a-și folosi mâinile. Unele dintre programele specifice vorbire pe text de pe piață fac acest lucru mai bine decât Siri sau Cortana, probabil datorită alocării resurselor. Cu toate acestea, există semne că progresul voicebot va fi în curând decolat - cum ar fi platforma Amazon Lex care permite un mediu de studio pentru construirea acestor tipuri de tehnologii.

Într-un eseu inteligent și instructiv pe această temă, Tobias Goebel vorbește despre diferența dintre aceste tehnologii, contrastând procesul de „transcriere”, pe care discursul la text îl face, la meseria de înțelegere, care ar trebui să facă chatbots.

„În timp ce eliminarea nevoii de recunoaștere a vorbirii face lucrurile mai ușoare pentru un chatbot, principala provocare de a construi bot-uri funcționale constă în înțelegerea limbajului natural”, scrie Goebel.

De asemenea, Goebel identifică mulți dintre actorii actuali din industrie:

Liderul de piață pentru recunoașterea vorbirii este Nuance, care se află în spatele unor sisteme cunoscute, cum ar fi Dragon NaturallySpeaking pentru dictare pe un PC, care a existat încă din anii nouăzeci, dar și Siri: sarcina de recunoaștere / transcriere a vorbirii desfășurată în cloud-ul Apple folosește Tehnologia nuance în culise. Alții sunt LumenVox, Verbio sau Interacțiuni, dar acum recunoașterea vorbirii este oferită și ca un serviciu cloud prin API-uri de către Amazon, Google, Microsoft și IBM.

Pe măsură ce chatbots-urile se dezvoltă, se presupune că înțelegerea lor va continua să crească pe o anumită traiectorie - și, de asemenea, în mare parte se presupune că mai multă tehnologie bot va trece de la interfețele text la interfețele verbale, necesitând cantități suplimentare de putere de calcul.

Care este diferența dintre vorbirea la text și chatbots?