Speech recognition sau cum vorbim cu calculatoarele [infografic]

MedicalTranscription.net este un loc unde mesajele audio sunt transpuse în text. După ce vezi că viața de transcripționist nu este chiar așa de roză îți dai seama că trebuie să automatizezi procesul, tocmai de acceea ASR (automated speech recognition) sunt așa de apreciate.

Așa cum zic și autorii infograficului de mai jos, ASR este și va fi un instrument important în dezvoltarea tehnologiei tocmai pentru că computerele nu înțeleg ceea ce zicem noi. Da, fac ce le zicem, dar nu înțeleg. Este o diferență. Visul multora dintre noi este să putem comunica cu lucrurile din jurul nostru. ASR is the way.

ASR este folosit în gadgeturi ca iPhone (când ceri să apeleze un coleg), la servicii de răspuns la apeluri, dictare digitală, în GPS-uri, avioane militare sau în transcrieri medicale.

Totuși, cum funcționează speech recognition (recunoașterea vorbirii)? Ei bine, calculatoarele nu înțeleg ce zici tu, dar folosesc diferiți algoritmi pentru a calcula probabilitatea ca un text să determine o acțiune.

Când folosești un astfel de program se întâmplă următoarele: tu vorbești (1), calculatorul ascultă (2) și măsoară undele sonore (3), împarte semnalul în ceva mai simplu (4), îl transformă în foneme (5 – sunetele din care sunt formate cuvintele), calculatorul caută cuvinte care încep cu primul fonem (6 – primul fonem = prima literă), la fel și pentru al doilea fonem (7) și tot așa până la ultimul (9).

Și uite cum, folosind probabilitățile statistice, calculatorul poate găsi corespondentul a ceea ce ai zis în baza sa de date pentru ca mai apoi să facă ce dorești. Încă este departe de computerele cu adevărat inteligente, dar ele își fac treaba cu conștiinciozitate.

În 1993, când au apărut primele programe de recunoaștere a vorbirii, acuratețea era de 10%. Acum este de 96%. Ceea ce este foarte bine. Să tot fie ASR în jurul nostru. Până să vină era dominației mașinilor încă ne permitem să numim calculatoarele tinichele amărâte 😀 Restul detaliilor le găsești în infografic.
Speech Recognition

4 Responses to “Speech recognition sau cum vorbim cu calculatoarele [infografic]”

  1. Aia cu Mike Tyson e pe bune? 😆

    • Manuel Cheta 23. Aug, 2011 at 00:32

      Eh, mai sunt si mistouri aruncate-Ce sa stie Mike Tyson? Bum, bum, bang. Gata, 20 00 de cuvinte :)))

  2. Din cate am inteles dintr-un documetar, este indicat ca discutiile dintre om si calculator sa fie evitate. Important este ca pc-ul sa iti cunoasca necesitatile si sa ia decizii in locul tau – de ex: sa comande automat cand mai ai doar o sticla de lapte in frigider, sa stinga lumina dupa ai iesit din camera, sa traga apa in wc dupa ce te-ai ridicat de pe tron, sa cheme femeia de servici cand nu mai ai camasi calcate pe umeras, sa comande un buchet de flori cand e ziua sotiei etc. Un exemplu existent deja este plata automata a facturilor curente – tu depui banii intr-un cont si de acolo se platesc automat toate facturile curente – tie doar ti se aduce la cunostinta ca a fost achitata inca o factura.

    • Manuel Cheta 23. Aug, 2011 at 22:44

      Riscul este mare, dar acolo ne indreptam. Asa de mult ne dorim sisteme informatice autonome (!) incat suntem gata sa cream computere care gandesc pentru eel insele. Solutia nu e sa evitam vorbitul, ci cum sa o facem in mod eficient.