La Batalla de los Asistentes de Voz

batalla_asistentes

Aunque parezca salido de una película de ciencia ficción, a día de hoy estamos asistiendo a una auténtica batalla en el mundo de los asistentes de voz, también conocidos como asistentes virtuales o asistentes personales. Estos asistentes son capaces de ayudarnos en tareas cotidianas como fijar una alarma, enviar un email así como responder a preguntas de conocimiento general y utilizar un sin fin de servicios, convirtiéndose en los mayordomos del siglo XXI. ¿Os suena esta conversación?:

HAL: I could sing a song for you.
Dave: Yes, I’d like to hear it, HAL. Sing it for me.
HAL: It’s called “Daisy”.

Sí, es una conversación de 2001: Odisea en el Espacio, y ha dejado de ser ficción para convertirse en realidad.

Estoy a su Servicio

¿Qué son capaces de hacer estos asistentes? Nos ayudan con nuestro día a día mejorando la productividad, son capaces de enviar emails, fijar citas en el calendario, crear alarmas y temporizadores a través del reloj e incluso nos ayudan a redactar documentos ofimáticos.

Nos mantienen al día de nuestros viajes y desplazamientos, gestionan los billetes de avión y tren, nos avisan cuando debemos salir de casa si queremos llegar a tiempo a nuestra cita, nos dicen cuánto tardaremos en llegar a nuestro destino en distintos transportes y nos ofrecen las mejores rutas teniendo en cuenta el estado del tráfico.

Son capaces de recomendarnos lugares de ocio y restauración, nos ofrecen restaurantes cerca de nosotros, nos informan de los resultados deportivos y nos muestran el progreso de nuestra actividad diaria a través de la información recogida a través de las pulseras de actividad o los sensores del móvil.

Nos ofrecen entretenimiento a través de recomendaciones de música, películas, series, dónde poder verlas, comprarlas, y en qué dispositivos reproducirlas. Incluso si nos aburrimos pueden mantener una conversación con nosotros y jugar a sencillos juegos.

Nos ayudan con nuestra comunicación, asistiéndonos para enviar mensajes a través de mensajería instantánea o redes sociales y son capaces de traducir multitud de idiomas.

Podemos pedirles que colaboren con nuestra Smart Home, donde a través de sensores y diferentes dispositivos podemos controlar las luces, termostatos, aspersores y cámaras de seguridad.

Nos ayudan a resolver dudas de conocimiento general, pregúntales por la capital de un país, o por hechos recientes como los resultados deportivos, los asistentes de voz te proveerán de una respuesta, aunque con ciertas limitaciones. No siempre entienden la pregunta o no saben responderla, por los que en ocasiones acaban llevándonos a una simple búsqueda web sobre los términos.

Los Competidores

Existen multitud de compañías de software desarrollando sus asistentes de voz. Todos ellos tienen algo en común: han invertido fuerte en inteligencia artificial para aprender de los usuarios y han lanzado al mercado sus propios Smart Home Hubs que nos permiten hablar con los asistentes sin necesidad de tener el móvil o el portátil cerca y conectarnos con diferentes sensores de nuestra casa.

Podemos clasificar a los competidores en tres categorías:

  • Las big four de los asistentes de voz, grandes compañías que ya tienen en el mercado a sus asistentes con un volumen de usuarios importante, como son Google Assistant, Apple Siri, Amazon Alexa y Microsoft Cortana.
  • Los aspirantes, compañías importantes que están apunto de lanzar sus asistentes y pequeñas empresas que llevan tiempo en el sector y que prometen dar guerra a los primeros. En este grupo incluimos a Samsung Bixby, que no tardará en aparecer en el mercado, de la mano de la absorbida Viv Labs, creadores iniciales de Siri, Sony Xperia Agent aun en fase conceptual y Sherpa, un asistente creado por una empresa española que te ayuda sin necesidad de hablarle.
  • Los luchadores en el mundo open source como Mycroft y Lucida que ponen a disposición de los desarrolladores poderosas armas para prestar batalla a los grandes competidores

A continuación se muestra una comparativa de los diferentes asistentes, con sus Smart Home Hubs y una descripción de sus principales fortalezas.

Asistente Smart Home Hub Fortalezas
Google Assistant Google Home Está presente en Android, que copa el mercado de la telefonía y trata de aumentar su presencia a través de Android Wear, Android TV, Android Auto y Android Things. Su gran capacidad de inversión y su ecosistema de productos y servicios lo coloca en una posición privilegiada.
Apple Siri Apple TV Al igual que el anterior, posee un gran volumen de clientes en móviles, pero además, dispone de sus propios wearables, portátiles, PCs, Apple TV, una legión de fans incondicionales y una fuerte inversión en I+D.
Amazon Alexa Amazon Echo Su principal fortaleza viene de las alianzas estratégicas con diferentes fabricantes dispositivos, que pueden integrarse de manera sencilla para aprovechar todas las capacidades de Alexa. No olvidemos también que Amazon es la mayor tienda online y por tanto a través de Alexa puedes realizar tus compras de forma sencilla.
Microsoft Cortana Invoke (Próximamente) Con la mayor cuota de mercado en PCs y portátiles, Cortana se presenta como el asistente mejor posicionado para las tareas de productividad. Al igual que Alexa, deberá establecer alianzas para poder difundir Cortana entre los principales fabricantes de dispositivos.
Samsung Bixby SmartThings El principal potencial de Samsung son los dispositivos. Samsung es fabricante de TVs, cámaras de fotos, electrodomésticos del hogar, móviles y tablets. Esta es su principal baza para poder posicionar a su asistente de voz, y poder colocarse en las posiciones de arriba.
Sony Xperia Agent Sony Xperia Agent Sony está posicionada como fabricante de dispositivos electrónicos, TVs, móviles, cámaras, tablets, wearables y video consolas. A diferencia de Samsung, Sony ha optado por utilizar Android en sus televisores y relojes inteligentes. Veremos si Sony se presenta como un aliado estratégico de Google, o si bien piensa plantar cara y producir su propio software para competir.
Sherpa N/A Destacamos este asistente por haber sido implementado para el idioma español, por una start-up del País Vasco que ha conseguido una ronda de financiación de 6 millones de euros en el 2016 y que realizó acuerdos con Samsung para llevar instalada su app en los Samsung S7. Debemos seguir de cerca esta compañía para ver cómo evoluciona después de que Samsung lance su propio asistente.
Mycroft Mark I y Raspberry Pi Con origen en una campaña de crowdfunding, Mycroft es una compañía joven con una gran capacidad para innovar. El motor está en continuo desarrollo y como proyecto open source una de sus mejores oportunidades de crecimiento es la colaboración de la comunidad, para aportar nuevas ideas, nuevo software y conectores a diferentes dispositivos.
Lucida N/A Creado en el Clarity Lab de la Universidad de Michigan, la principal fortaleza es la de disponer de servicios no solo de reconocimiento de voz, si no de reconocimiento de imágenes y la posibilidad de integrar tus propios servicios. Su desarrollo se mantiene activo según puede verse en la actividad del proyecto en Github.

Para ver una comparativa entre las capacidades de los big four puedes consultar esta entrada de Business Insider. Si quieres ver un listado más o menos completo de los asistentes y sus funcionalidades, puedes visitar el artículo sobre Asistentes de Voz de la Wikipedia.

Cómo funcionan

Los asistentes de voz tienen varios componentes en común. En primer lugar, para poder entender el audio hablado, es necesario disponer un de un sistema de reconocimiento de voz o speech recognition, que les permite trascribir la voz del usuario a texto. Este texto es entonces tratado por diferentes algoritmos de procesamiento del lenguaje, en concreto de entendimiento del lenguaje (NLU). Los asistentes tratan de analizar sintácticamente la frase (parsing) para entender el objetivo del usuario y poder entonces conectar con el servicio adecuado para lanzarle la consulta. Es en el componente NLU donde surge toda la magia, la parte más importante del asistente y que analizaremos más adelante en otro post. Por último, el asistente compone una frase a partir del resultado y la sintetiza para que podamos oír la respuesta.

Y el ganador es…

Sin duda el ganador es el usuario final, que se beneficia de una competencia feroz pudiendo elegir entre diferentes posibilidades que puedan cubrir sus necesidades.

¿Qué nos deparará el futuro?. Bien, parece que ya estamos inmersos en un mundo conectado y en cuanto a los asistentes de voz se refiere queda un largo camino por recorrer. En particular, algunas de las tendencias que se persiguen, son la introducción de un modo más conversacional en lugar de comandos individuales, de manera que exista un contexto previo sobre el que hablar de forma natural. Otra de las bazas que deben jugar es la integración con más dispositivos Internet of Things que permitan ampliar las funcionalidades, si bien veremos una nueva batalla por formatos y estándares que esperemos que dure poco y nos permitan disfrutar de las ilimitadas capacidades de estos asistentes.

Y para terminar, ¿quieres construir tu propio asistente de voz para tu casa? Google te ayuda a través de la nueva iniciativa AIY con este sencillo KIT de voz.

Israel Varea Rojo

Estudié Ingeniería en Informática y Máster en Computación Avanzada en la UAM. Soy un apasionado por la Inteligencia Artificial, NLP, Smart Home, Smart Cities y series de TV. La Inteligencia Artificial está aquí para ayudarnos y como bien decía Dijkstra: «La pregunta de si un computador puede pensar no es más interesante que la pregunta de si un submarino puede nadar».