Reconocimiento de voz, una tecnología emergente

La voz es el interfaz natural de la comunicación humana. El lenguaje, el discurso, el habla son primarios. La escritura, los gadgets de ordenador son secundarios. La tecnología de reconocimiento de voz tendrá un impacto económico sobresaliente.

En el mundo hay millones de analfabetos. Hay millones de personas que no se acercan a un ordenador. Un potencial mercado gigantesco. Desarrollar una tecnología de reconocimiento de voz mucho mejor que los balbuceantes esbozos actuales puede dar la primacía a la empresa que lo consiga. Nuance es una de ellas: desde el ordenador Watson hasta televisores, está tratando de llevar su conocimiento a todos lados.

Hasta hace dos años el reconocimiento de voz era un objeto de investigación científica más o menos pintoresco. Hoy nuestros smartphones pueden hacerlo, aunque con muchos problemas. En realidad no es el teléfono el que lo hace. Este graba la voz y la envía a un servidor. Allí se compara con una base de datos de millones de ejemplos y se traduce a texto que es enviado de vuelta al teléfono. Cada vez que usas el reconocimiento de voz, la base de datos se amplía y mejora. Es la tecnología de Google, similar a lo que hace Translator. Un gigantesco proceso estadístico. Es también lo que hace Siri, aunque en este caso incorpora un intento de entender el mensaje y responder a él.

Entender la voz es muy complejo. Nos cuesta a los humanos. En un ambiente ruidoso pedimos a nuestro interlocutor que repita la frase, más alto y más claro. De forma similar los ordenadores tienen grandes problemas. Uno de ellos es el acento. La ventana de edad óptima para aprender la fonología, el sonido de la lengua, se cierra a los diez años, aunque es óptima hasta tan solo los cinco años. Después es muy complicado perder el acento extranjero al aprender una nueva lengua.

Watson, el ordenador más listo del mundo compitió en Jeopardy sin implementar reconocimiento de voz. Recibía las preguntas como texto. Para incorporar a Watson al mundo médico, IBM estableció un acuerdo con Nuance, una compañía que entre otras cosas trabaja en el reconocimiento de voz.

Nuance está extendiendo su software a muchos ámbitos. Acaba de presentar Dragon TV, una televisión con reconocimiento de voz. Puedes pedirle que busque programas en los que aparezca Brad Pitt. O que cambie a la cadena 3. O que reproduzca música de David Guetta.

El sistema de entretenimiento Sync de los coches de la Ford usa la tecnología de Nuance para preguntar la dirección al conductor, el lugar de destino para proporcionar la información del tiempo o que canciones quiere oír.

El mundo del teclado, ratón y pantalla táctil evoluciona hacia el interfaz de voz, mucho más natural.

También en Hipertextual: