Tecnologia de reconeixement de la parla

Reconeixement de la veu, la capacitat dels dispositius per respondre als ordres parlats. El reconeixement de veu permet el control de mans lliures de diversos dispositius i equips (un tema especial per a moltes persones amb discapacitat), proporciona entrada a la traducció automàtica i crea un dictat preparat per a imprimir. Entre les primeres aplicacions per al reconeixement de la veu hi havia sistemes de telefonia automatitzats i programes de dictat mèdic. S'utilitza freqüentment per al dictat, per a la consulta de bases de dades i per donar comandaments als sistemes basats en ordinadors, especialment en professions que es basen en vocabularis especialitzats. També habilita els assistents personals en vehicles i telèfons intel·ligents, com el Siri d'Apple.

Abans que qualsevol màquina pugui interpretar la parla, un micròfon ha de traduir les vibracions de la veu d’una persona en un senyal elèctric d’ona. Aquest senyal al seu torn es converteix pel maquinari del sistema, per exemple, la targeta de so de l’ordinador, en un senyal digital. És el senyal digital que un programa de reconeixement de veu analitza per tal de reconèixer fonemes separats, els blocs bàsics bàsics de la parla. Els fonemes es tornen a recombinar en paraules. Tot i això, moltes paraules semblen iguals i, per seleccionar la paraula adequada, el programa ha de dependre del context. Molts programes estableixen el context mitjançant l’anàlisi del trigrama, un mètode basat en una base de dades de freqüents clústers de tres paraules en què s’assigna probabilitats que les dues paraules siguin seguides d’una tercera paraula. Per exemple, si un parlant diu "qui sóc", la següent paraula es reconeixerà com a pronom "jo" en lloc de semblar semblant, però amb menys probabilitat "d'ull". No obstant això, de vegades és necessària la intervenció humana per corregir els errors.

Els programes per reconèixer algunes paraules aïllades, com ara sistemes de navegació per veu, funcionen per a gairebé tots els usuaris. D'altra banda, els programes de parla continuada, com els programes de dictat, han de ser entrenats per reconèixer els patrons de parla d'un individu; la formació implica que l’usuari llegeixi mostres de text en veu alta. Avui, amb la creixent potència dels ordinadors personals i dispositius mòbils, la precisió del reconeixement de la veu ha millorat notablement. Els índexs d’error s’han reduït fins al 5% aproximadament en els vocabulars que contenen desenes de milers de paraules. S'aconsegueix una precisió encara més gran en vocabularis limitats per a aplicacions especialitzades com ara dictats de diagnòstics radiològics.