Las tecnologías de voz han llegado para quedarse, pero quizá no puedan ofrecer a los usuarios el grado de interacción que esperan.
Ángel Maldonado, fundador de EmpathyBroker, analiza en este artículo cómo pueden evolucionar los asistentes de voz actuales y en qué medida están preparadas para cumplir las expectativas del mercado.
Si nos dejásemos influir por el ordenador HAL 9000 de 2001: Odisea en el espacio (Stanley Kubrick, 1968) probablemente desconectaríamos nuestro Alexa.
De hecho, solo el 2% de los usuarios que poseen un Alexa ha comprado alguna vez por voz, según The Information, que cita fuentes internas de la propia Amazon.
Y de los que compraron, solo uno de cada diez repitió la experiencia. Esto indica que todavía existe gran distancia entre lo que Amazon espera de su asistente de voz y el valor que el mercado percibe.
La voz, como cualquier otra innovación que permita a las personas interactuar, puede tener éxito o fracasar, dependiendo no solo de su capacidad para resolver una serie de funciones lógicas, sino también de su capacidad para hacernos sentir. Lo que está claro es que de momento las tecnologías de voz no generan en los usuarios las sensaciones que se esperaban.
¿Qué esperamos de los asistentes de voz?
Como siempre ocurre con cualquier tecnología orientada al consumidor, suele haber diferencias entre la visión que tienen sus creadores y la percepción de los usuarios; una distancia que en el caso de la tecnología de voz es significativa. De hecho, los usuarios de altavoces inteligentes esperan más de lo que están recibiendo, y la clave está en la naturaleza humana de estas expectativas.
Cuando nos enfrentamos por primera vez a la tecnología de voz generalmente tenemos la percepción de que se trata de algo “vivo”, que está presente, algo con lo que podemos relacionarnos de manera natural. Por eso, cuando nos damos cuenta de que estos dispositivos son de todo menos “inteligentes” aparecen la desilusión y la frustración.
¿Se puede crear tecnología “humana”?
Atribuir cualidades humanas a tecnologías como la voz no lleva a ningún sitio, teniendo en cuenta que implicaría crear una tecnología capaz de comportarse como un ser humano.
La emulación del comportamiento humano exige dilucidar en términos neuro-biológicos todos los aspectos de la relación cuerpo-mente que, en su mayor parte, seguirán siendo un misterio durante muchos años más.
Crear una tecnología capaz de comprender, expresarse y conversar como las personas requiere más que machine learning. Inevitablemente, implica la creación de tecnologías que involucren software (mente) e interfaz (cuerpo) como una unidad que funcione de forma integrada y permanezca alerta y consciente.
Una tecnología de este tipo tendría que ser capaz de generar un flujo de contenidos mentalescomo los humanos (causados por respuestas emocionales) y de identificar, originar y desarrollar estados emocionales que se puedan considerar causa y origen de inteligencia.
También tendría que ser capaz de comprender y expresarse más allá del reconocimiento de frases, palabras o imágenes. Tendría que poder “pensar”; Santo Grial de la Inteligencia Artificial y todavía muy lejos de lo que el machine learning puede ofrecernos hoy en día.
Un futuro aún incierto
El futuro de las tecnologías de ambición “humana”, como la voz, es todavía incierto. No obstante, teniendo en cuenta los enormes esfuerzos que se están destinando a la investigación en este campo, es probable que se sigan haciendo muchos progresos.
Dicho esto, deberíamos darnos cuenta de que estos avances solo tendrán lugar en áreas muy concretas donde se puedan minimizar las frustraciones de los usuarios.
Google, Apple, Facebook y Microsoft invertirán 5.000 millones de dólares al año en tecnologías de voz, según las previsiones de Lupe Ventures. Estamos hablando de una fuerza bruta que me parece especialmente reveladora si nos fijamos en las inversiones que Amazon está realizando en startups como Bamboo Learning, Endel o Aiva y su herramienta de asistencia al paciente (que también cuenta con inversión de Google).
Y de nuevo, es interesante ver cómo estas innovaciones se están realizando en áreas específicas en las que se reduce la frustración y se maximiza la percepción de valor.
Imaginemos un asistente digital diseñado para guiar a un estudiante en el aprendizaje de piano, o una herramienta orientada a ayudar a un estudiante de secundaria con el álgebra.
Todas estas herramientas existen ya, y pronto evolucionarán para que se pueda interactuar también con voz, igual que con imágenes y texto, proporcionando un intercambio que revolucione las búsquedas para que nos ofrezcan, en lugar de simples listas de resultados, interacciones más completas. Hablamos de un asistente que sea más que un simple sistema de información, que se pueda definir como un “sistema de comunicación” (emisor-mensaje-receptor).
El futuro es siempre incierto, y la evolución de las tecnologías conversacionales y el machine learningque impulsa sus capacidades aún es desconocida.
La evolución de las tecnologías de voz pasará de herramientas diseñadas para lanzar comandos sencillos a una nueva propuesta de valor que permita interactuar con las personas mediante diferentes objetivos hacia un resultado esperado.
Los casos en los que se interactúa con máquinas no dan como resultado conversaciones de tipo “humano” sino interacciones de voz-imagen-texto de tipo “máquina”. Y tendrán lugar en contextos muy específicos en los que estas herramientas tendrán objetivos previamente establecidos.
En Empathy Broker trabajamos para que la relación de las personas con las marcas sea lo más humana posible, ya sea a través de interacciones de texto, a través de imágenes, y también con la voz, con EmpathySpeak, que nos permitirá convertir las búsquedas de voz en una conversación interactiva.
Así que… ¿puede la tecnología de voz cumplir su promesa?
Sí, pero solo en áreas muy específicas en las que la variedad de opciones de la conversación se reduzcan a un mínimo. ¿Conversaremos alguna vez con nuestros dispositivos como Dave hacía con HAL 9000? Si cambiamos la nave de 2001 por un coche y a HAL 9000 por un drive-through de cualquier cadena de hamburguesas tendremos un ejemplo de lo que podrá ofrecernos la voz.
Ángel Maldonado – fundador de EmpathyBroker