
La voz es el interfaz natural de la comunicación humana. El lenguaje, el discurso, el habla son primarios. La escritura, los gadgets de ordenador son secundarios. La tecnología de reconocimiento de voz tendrá un impacto económico sobresaliente.
En el mundo hay millones de analfabetos. Hay millones de personas que no se acercan a un ordenador. Un potencial mercado gigantesco. Desarrollar una tecnología de reconocimiento de voz mucho mejor que los balbuceantes esbozos actuales puede dar la primacía a la empresa que lo consiga. Nuance es una de ellas: desde el ordenador Watson hasta televisores, está tratando de llevar su conocimiento a todos lados.
Hasta hace dos años el reconocimiento de voz era un objeto de investigación científica más o menos pintoresco. Hoy nuestros smartphones pueden hacerlo, aunque con muchos problemas. En realidad no es el teléfono el que lo hace. Este graba la voz y la envía a un servidor. Allí se compara con una base de datos de millones de ejemplos y se traduce a texto que es enviado de vuelta al teléfono. Cada vez que usas el reconocimiento de voz, la base de datos se amplía y mejora. Es la tecnología de Google, similar a lo que hace Translator. Un gigantesco proceso estadístico. Es también lo que hace Siri, aunque en este caso incorpora un intento de entender el mensaje y responder a él.
Entender la voz es muy complejo. Nos cuesta a los humanos. En un ambiente ruidoso pedimos a nuestro interlocutor que repita la frase, más alto y más claro. De forma similar los ordenadores tienen grandes problemas. Uno de ellos es el acento. La ventana de edad óptima para aprender la fonología, el sonido de la lengua, se cierra a los diez años, aunque es óptima hasta tan solo los cinco años. Después es muy complicado perder el acento extranjero al aprender una nueva lengua.
Watson, el ordenador más listo del mundo compitió en Jeopardy sin implementar reconocimiento de voz. Recibía las preguntas como texto. Para incorporar a Watson al mundo médico, IBM estableció un acuerdo con Nuance, una compañía que entre otras cosas trabaja en el reconocimiento de voz.
Nuance está extendiendo su software a muchos ámbitos. Acaba de presentar Dragon TV, una televisión con reconocimiento de voz. Puedes pedirle que busque programas en los que aparezca Brad Pitt. O que cambie a la cadena 3. O que reproduzca música de David Guetta.
El sistema de entretenimiento Sync de los coches de la Ford usa la tecnología de Nuance para preguntar la dirección al conductor, el lugar de destino para proporcionar la información del tiempo o que canciones quiere oír.
El mundo del teclado, ratón y pantalla táctil evoluciona hacia el interfaz de voz, mucho más natural.














Mercado Potencial ? pero si los analfabetos no tienen dinero !!!
Emergente???... pero si este programa lo conocí desde hace como 5 años :/
5 años?? desde que toque mi primer pentium MMX ya estaba en el mercado
si pero nadie lo ha perfeccionado, solo con puros comando, ni samsung ni apple lo han logrado que funcione de manera natural.
los softwares de reconomiento de voz tienen poca flexibilidad, además de estar aún un poco en pañales (pañales MUY caros). he trabajado un poco con ellos, y según me han comentado de primera mano el peor es Loquendo -gracias a su documentación- y el mejor es el que trae integrado el Windows 7. aunque claro, depende de las exigencias del usuario/aplicación. por ejemplo, el que trae siri o android cierra el buffer y no escucha mientras está reconociendo; mientras que el de Windows sigue escuchando mientras reconoce.
El problema de este tipo de software es que se basa en unos comandos previamente establecidos. Esto mejorara cuando de manera natural reconozca las tareas sin que el locutor parezca un robot.
Definitivamente, esto cambia la interacción nuestros moviles. Apple por un lado, Samsung por el otro. http://www.konitio.com/samsung-y-apple-las-tecnologias-de-reconocimiento. Se los recomiendo, adios
Hay que entender la diferencia entre una característica, como el caso de los simples comandos de voz, y una interfaz, un todo que te permite comunicarte abiertamente con la máquina, sin intermediarios, como el caso del teclado y el ratón. A cualquier interacción, surge una respuesta de la máquina. Es por eso que el reconocimiento de la voz es uno de los grandes deseos de la ingeniería tanto de software como de hardware, porque la voz es demasiado compleja como para digitalizarla así como así.
Por el lado del software libre también existe el proyecto VoxForge ( http://voxforge.org/es ), el cual es un repositorio de corpus orales y de modelos acústicos libre (o sea, recoge la voz que la gente done) enfocado hacia herramientas de reconocimiento de voz libre y de código abierto, tales como Julius, ISIP, y Sphinx.