Acasă Audio Aud oameni morți? tehnologia limbajului natural face ca vocile trecute și prezente să devină vii

Aud oameni morți? tehnologia limbajului natural face ca vocile trecute și prezente să devină vii

Cuprins:

Anonim

În aceste zile, majoritatea vocilor computerului sunt pasate. Probabil că nu vă încurajați prea mult despre cyborguri și roboți când auziți „droidul” de pe telefonul dvs. care vă ajută să plătiți o factură sau vă întrebați ce departament doriți. Dar dacă ai auzit dintr-o dată pe Kurt Cobain făcându-ți informații despre carduri? Sau John F. Kennedy vă povestește despre minunile votului anticipat? Sau Elvis să-ți iasă numele și adresa înainte de a te sfâșia în „un hunk, o bucată de dragoste arzătoare?”


Toate acestea ar fi … cam ciudate, dar ceea ce este și mai fascinant este faptul că tehnologia este practic deja aici. În urmă cu doar un deceniu, am fost uimiți de capacitatea unui computer de a vorbi chiar deloc. Acum, suntem pe cale să fim plasați de voci gratuite, generate de computer, care sună la fel ca oamenii pe care îi știm.

Modificări majore în PNL

Dacă acordați atenție domeniului prelucrării limbajului natural (NLP), este posibil să fi auzit despre unele progrese recente care depășesc tipurile de voci asistente virtuale conserve pe care le auzim acum în sistemele noastre de poziționare globală (GPS) și în afacerile automate. linii telefonice.


Începutul PNL a necesitat o mulțime de cercetări privind mecanica generală a vorbirii umane. Cercetătorii și inginerii au fost nevoiți să identifice fonetica individuală, să-i împacheteze în algoritmi mai mari pentru a genera fraze și propoziții și apoi să încerce să gestioneze toate acestea la un nivel meta pentru a genera ceva care suna real. De-a lungul timpului, liderii NLP au stăpânit acest lucru și au început să construiască algoritmi avansați pentru a înțelege ce spun oamenii. Îmbinând aceste două, companiile au venit cu driverele pentru asistenții virtuali de astăzi și pentru funcționarii de plată cu factura complet digitală, ale căror manevre - deși enervante - sunt încă uimitoare atunci când vă opriți să vă gândiți la munca care le-a făcut.


Acum, unele companii depășesc vocea virtuală generică pentru a crea un rezultat personalizat mai specific. Acest lucru necesită parcurgerea lexicului unei anumite persoane și colectarea unor cantități mari de videoclipuri vocale unice, apoi aplicarea acestei arhive la ritmurile complexe pentru fonetică, accent, cadență și toate celelalte semne minuscule pe care lingvistii le grupează adesea sub stindardul larg al „prozodiei”.


Ceea ce iese este o voce pe care ascultătorii o consideră „deținută” de o anumită persoană - fie pe cineva cu care cunosc și au vorbit, fie pe cineva a cărui voce recunosc ca urmare a faimei persoanei.


De la Elvis la Martin Luther King, vocea oricui poate fi „clonată” în acest fel - cu condiția să existe o înregistrare substanțială preînregistrată a discursului lor. Prin aplicarea unei analize și manipulări și mai detaliate la sunetele individuale mici, companiile sunt capabile să realizeze o copie carbonică virtuală a vocii cuiva care sună foarte mult ca la adevăratul lucru.

Creații incitante „Text la voce” la VivoText

VivoText, de exemplu, este o companie care lucrează pentru a revoluționa utilizarea vocilor umane artificiale pentru toate tipurile de campanii, de la cărți audio la răspuns vocal interactiv (IVR). La VivoText, echipele de cercetare și producție lucrează la procese care, teoretic, ar putea replică în mod special vocile celebrităților decedate, precum însuși Ol 'Blue Eyes.


"Pentru a clona vocea lui Frank Sinatra, am trece de fapt prin moștenirea sa înregistrată", spune CEO-ul VivoText, Gershon Silbert, vorbind despre modul în care acest tip de tehnologie ar putea funcționa.


În acest moment, VivoText lucrează la arhivarea vocilor celor care sunt încă alături de noi, cum ar fi corespondentul NPR, Neal Conan, care s-a înscris ca model pentru acest proiect de pionier IT. Un videoclip promoțional îi arată pe lucrătorii VivoText creând cu atenție module de cod fonetice folosind inputul vocal furnizat de la Conan. Apoi creează modelele pentru instrumente text-vorbire (TTS) care evocă un rezultat dramatic uman și personificat.


Potrivit lui Ben Feibleman, vicepreședinte de strategie și dezvoltare de afaceri la VivoText, computerul funcționează la nivel de foneme (folosind cele mai mici părți unice ale vorbirii) pentru a se conforma unui model prosodic pentru o voce umană individuală.


„Știe cum vorbește vocea”, spune Feibleman, adăugând că folosind „selecția unității”, computerul alege o serie de piese pentru a reuni un singur cuvânt scurt, precum locul în care cuvântul „vineri” este dat de cinci componente care ajută la dezvoltarea un accent deosebit și rezultatul tonal.

Voce artificială în marketing

Deci, cum funcționează acest lucru în marketing? Produsele VivoText ar putea fi extrem de utile în crearea de produse, precum cărțile audio, care ar putea ajunge la un public țintă. De exemplu, cât de eficientă ar fi o voce Elvis comparată cu una dintre vocile generice, în termen de timp, automatizate, dacă ar fi folosită pentru a vinde produse legate de divertisment?


Sau, ce zici în politică? Feibleman a lucrat la diverse idei pentru a utiliza proiecte ca acestea pentru a îmbunătăți marketingul pentru companii sau alte părți care au nevoie de mesagerie mai eficientă.


"Dacă cunoașteți politicieni care candidează pentru președinte, acest lucru ar putea face ca 10 milioane de alegători din statul swing să primească un apel personal de la un candidat, mulțumindu-le pentru sprijinul lor, spunându-le unde trebuie să meargă la vot, vremea și toate garnituri. cu o noapte înainte de alegeri ", a spus Feibleman.

Vocea ta trăiește

Există o altă aplicație evidentă pentru toată această tehnologie. Companiile de limbaj natural precum VivoText ar putea crea un serviciu personal care ar încărca toate datele vocale ale unui client într-un produs care să permită persoanei respective „să vorbească pentru totdeauna”.


Implementarea practică ar ridica probabil o serie de întrebări despre modul în care auzim și interiorizăm vocile rostite. De exemplu, ce este nevoie pentru ca un flux de sunet să sune exact ca cineva? Cât de bine trebuie să cunoaștem o persoană pentru a recunoaște o anumită voce? Și, interesant, ce se întâmplă dacă un serviciu de limbaj natural produce o caricatură brută, mai degrabă decât o mimică convingătoare?


Evaluarea rezultatelor, spune Feibleman, depinde adesea de luarea în considerare a contextului. De exemplu, el spune că de obicei copiii nu pun întrebări despre cine vorbește când ascultă o poveste. Vor doar mai mult. Dar, de asemenea, este posibil ca mulți adulți să nu se gândească la cine le vorbește, având în vedere un anumit scenariu, cum ar fi o transmisie pasivă sau un mesaj telefonic. De asemenea, este mai ușor să vă lăsați păcălit de un computer la telefon, deoarece sunetul înăbușit poate masca sclipici sau alte discrepanțe între rezultatele computerului și o voce umană.


„Nu vi se întâmplă să contestați autenticitatea vocii”, spune Feibleman.

În anul 2525

Pe măsură ce companiile avansează în dezvoltarea de produse și servicii și a răspunde la aceste întrebări, tehnologiile „vorbire vie” ne-ar putea înainta către acea convergență a tehnologiei și a minții umane, denumită clasic inteligență artificială (AI).


Dacă computerele pot vorbi ca noi, s-ar putea să poată păcăli alți utilizatori să creadă că ei gândesc ca noi, alimentându-se cu principiul mai mare al singularității, așa cum a fost introdus în lexicul nostru de John von Neumann, un pionier al tehnologiei din anii 1950 evanghelizat de scriitori și gânditori precum Ray Kurzweil. Cartea lui Kurzweil din 2005, „Singularitatea este aproape”, îi încântă pe unii și îi sperie pe alții. Kurzweil a prezis că până în 2045, „inteligența” ca fenomen va deveni puternic dezlănțuită de creierul uman și va migra în tehnologie, estompând liniile dintre mașini și stăpânii lor umani.


Imortalizat în versurile lui Zager & Evans, „In the Year 2525” (nimeni nu face balade ciudate de știință ca acești tipi) …


În anul 4545

Nu o să ai nevoie de dinți, nu vei avea nevoie

ochii tăi

Nu veți găsi nimic de mestecat

Nimeni nu te va privi


În anul 5555

Brațele tale atârnă în picioare

Picioarele voastre nu au de făcut

Unele mașini fac asta pentru tine


Sunt vocile computerului un pas în această direcție? Ca o nouă modalitate de a externaliza unele dintre funcțiile corpului uman (sau mai des, de a le simula), acest tip de progres tehnologic este unul dintre cele mai mari - și probabil sub raportate - avansează la orizont, în timp ce ne uităm la un viitor singular . (despre „singularitatea” din Calculatoarele vor fi capabile să imite mintea umană?)

Aud oameni morți? tehnologia limbajului natural face ca vocile trecute și prezente să devină vii