IMAGE: DavidRockDesign / CC0 Creative CommonsLa presentación de una tecnología experimental, Google Duplex en la conferencia de apertura del Google I/O 2018 parece no haber dejado indiferente a nadie. Inmediatamente tras la demostración de dos llamadas para hacer reservas, una en una peluquería y otra en un restaurante, llevadas a cabo por un asistente con dos voces distintas que resultado completamente imposible identificar como no humanas, ha surgido una fuerte corriente de rechazo que considera a la compañía “insensible”, “inquietante” o incluso “horripilante (…) éticamente perdida, sin timón e incapaz de aprender de sus errores“.

La reacción es tristemente primaria: ante una conversación entre una máquina y una persona, el observador humano asume inmediatamente una identificación con el participante humano, y rápidamente pasa a pensar que el hecho de que esté hablando con una máquina sin saberlo es algún tipo de ofensa, un  insulto a su capacidad de discernimiento, o incluso algún tipo de abuso… cuando en realidad, lo que quiere el humano al otro lado del hilo es vender, y lo que hará en cuanto le sea posible será poner a su vez a otro agente automatizado al otro lado. Vamos a ver: ¿alguna vez han tenido algún tipo de problema las empresas en engañar a sus clientes y hacerles pensar que hay un humano al otro lado cuando no lo hay? No, jamás. El rosario de torpes intentos de hacer pasar interacciones como humanas va desde las robocalls automatizadas hasta los mail merge, pasando por lo que se nos ocurra. Si una compañía puede ahorrarse costes – porque ni siquiera, en la mayor parte de las ocasiones, se han planteado hacerlo para mejorar la experiencia del cliente o para incrementar su fidelidad – haciendo pasar a un robot por un humano, no lo dudemos: lo hará, sin plantearse ningún tipo de dilema ético. En gestión empresarial, los costes lo justifican todo, y pocas veces nos escandalizamos por ello.

Lo que más me puede preocupar de Google Duplex es, precisamente, su uso empresarial: su posible aplicación al telemarketing por parte de empresas irresponsables (el perfecto empleado al que no le importa repetir la llamada cien veces, no se desmotiva cuando lo rechazas y tiene un argumentario infinito ideado mediante machine learning a partir de millones de llamadas) y la evidencia de que siempre hay una empresa con un directivo suficientemente imbécil como para hacer lo que nadie con un mínimo de sentido común o inteligencia haría. Y sin embargo, lo que nos encontramos inmediatamente es a un puñado de usuarios bienpensantes que se preocupan por la ética de que el empleado de una compañía no sepa si está hablando con un posible cliente o con su asistente robótico…

Ante la corriente de críticas y las peticiones de hacer obligatorio que los robots se identifiquen como tales en sus conversaciones, la compañía ha asegurado que hará precisamente eso: incluirá un disclosure en el asistente, algún tipo de advertencia inicial que deje claro a quien esté al otro lado que está hablando con un asistente robótico. Quien sabe, a lo mejor tendremos que pasar un captcha o un test de Turing para demostrar que somos humanos antes de empezar una llamada. Algo que, muy posiblemente, hará que funcione peor y se convertirá en una excusa para que, conociendo la habitual estupidez humana, las peticiones que hagamos a través de nuestros asistentes sean consideradas como “de segunda”, reciban un peor trato, o incluso se utilicen como pretexto cuando haya un error… que por supuesto, vendrá invariablemente de la parte humana (¿o no llevamos años “echando la culpa al ordenador” cuando nos da la gana para justificar lo injustificable?) Es, sencillamente, es-tú-pi-do, así, com todas sus sílabas: se crea una tecnología para hacernos la vida más sencilla y llevar a cabo esas interacciones que tanto nos molesta hacer a nosotros mismos, pero vamos nosotros y nos preocupamos por los derechos del humano al que le toca levantar el teléfono, pobrecito, que ahora no va a saber si está hablando con otro humano o con una máquina…

Repito: lo que quiere el humano que levanta el teléfono es VENDER. De la manera más rápida y eficiente posible. Si hablar con un asistente, dado que es más eficiente y comete menos errores que el torpe de su amo, hace que surjan menos problemas y que la transacción tenga lugar con menos fricción, mejor aún. El dilema ético de si el empleado sabe si habla con una máquina o no es un dilema ético de andar por casa, un problema inventado y absurdo, y de hecho, la compañía sustituirá a ese empleado por un asistente robótico en cuanto tenga la mínima oportunidad, y no se preocupará lo más mínimo de si el que llama sabe o no que habla con un robot – salvo si vende menos. No, al empleado no le va a pasar nada: no va a tener problemas psicológicos, no va a experimentar efectos secundarios y no se va a enamorar de la voz que le llama (y si lo hace, peor para él). Estamos magnificando un problema que no existe. Si acaso, habrá que plantearnos, y más pos curiosidad sociológica que porque haya ningún problema, cómo evolucionarán las normas y protocolos sociales en un mundo en el que la voz de las máquinas es indiscernible de la de las personas, o si es sostenible que muchos humanos a la vez utilicen a su incansable asistente para peticiones sobredimensionadas, exhaustivas o que jamás tendría sentido que se plantease hacer una persona.

Ante una tecnología en su fase experimental, saltar y rasgarse las vestiduras con la violación de los supuestos derechos de una persona porque, pobrecita, no sabe que está hablando con una máquina es, en mi opinión, una soberana estupidez. Desarrollemos la tecnología sin cortapisas, veamos qué problemas emergen de su uso, e intentemos corregirlos introduciendo mejoras de manera paulatina mediante ensayo y error. Así funciona el progreso, no con mentes bienpensantes que saltan histéricas a la mínima pretendiendo que “es inmoral” que nos llame una máquina “porque no sabemos que lo es”. Si no te gusta el asistente robótico de Google, no lo uses. Pero déjanos en paz y no plantees absurdos dilemas morales a los que le estamos deseando sacarle partido, por favor.

 

Gmail Smart Compose (IMAGE: Google)Si ayer no dedicaste un par de horas durante la tarde a ver la conferencia de apertura del Google I/O, hiciste mal. Este tipo de conferencias, teóricamente para desarrolladores, son cada día más en sus sesiones inaugurales un muy buen escaparate de lo que la tecnología nos trae y de las posibilidades que tendremos en nuestras manos en muy poco tiempo – quizá algo más si lo que esperas es tenerlo disponible en tu idioma y este es distinto del inglés, pero pronto en cualquier caso.

Entre los “prodigios” que Google nos presentó, de la mano de un Sundar Pichai que iba dando paso a distintos especialistas de producto, puede verse claramente que el camino que la compañía inició hace ahora unos dos años, con mensajes como “nuestra inteligencia artificial es más inteligente que la de nuestros competidores” porque “llevamos más tiempo“, “poner AI en todas partes” o “repensarnos como una compañía machine learning first” no eran en absoluto un brindis al sol. Las palabras AI, inteligencia artificial o machine learning fueron una repetición constante asociada a absolutamente todo, en cada producto, en cada prestación, en cada momento. El cambio es tan profundo, tan obsesivo, que ahora hasta Google Research ha sido rebautizada como Google AI: toda la investigación que se hace en la compañía tiene que ver con la incorporación de machine learning e inteligencia artificial. En todo y para todo.

Entre las novedades presentadas, un asistente de escritura de mensajes para Gmail. La idea de que un asistente sea quien te escribe los mensajes proponiéndote frases completas a medida que escribes lleva años sonando tentadora, y en algunos casos limitados, es posible que hasta la hayamos experimentado ya: cuando contesto uno de los entre dos y tres correos electrónicos que recibo cada semana interesándose por la posibilidad de introducir publicidad o posts patrocinados en esta página, propuesta a la que siempre respondo cordialmente pero en idénticos términos negativos, he comprobado que puedo componer un mensaje completo (unas dos líneas de texto) simplemente utilizando el teclado predictivo, que me va sugiriendo, una detrás de otra, las palabras que he utilizado en ocasiones anteriores. Pero claro, una cosa es una respuesta estándar a un tema repetitivo, y otra cosa lo que pudimos ver ayer: el mensaje que ilustra estas líneas está compuesto en más de un 90% por un algoritmo, con el humano simplemente iniciando algunas de las frases con un par de letras. Dentro de las sugerencias que el usuario acepta hay de todo: desde salutaciones y despedidas cordiales, hasta propuestas sobre qué llevar a una cena, pasando por fechas, horas o direcciones. Presenciar la secuencia tiene algo de inquietante: no solo es que la máquina sepa cómo sueles dirigirte a esa persona, sino que entiende perfectamente cosas como de qué va el mensaje en función de una palabra en su asunto, sabe qué ingredientes tiene una cena con ese elemento principal, calcula qué día puedes cenar con esas persona, sugiere una hora adecuada, y hasta le da tu dirección!

En realidad, tiendo a pensar que lo que me resulta inquietante – o me genera, por qué no decirlo, un cierto rechazo – es el hecho de que el ejemplo escogido sea un mensaje a una amiga proponiéndole una cena. No sé vosotros, pero cuando imagino la automatización de tareas, tiendo a verla asociada con tareas de trabajo, con cuestiones formales, funcionales, relativamente carentes de emoción. La idea de escribir a un amigo no entra dentro de ese conjunto: a los amigos les escribo de otra manera, con otra mentalidad… es, para mí, una tarea que seguramente, aunque pudiese, no querría automatizar. Igualmente en recíproco: no me gustaría pensar que mis amigos me escriben o contestan mis mensajes de manera automatizada, aunque es evidente que hay cuestiones, como la felicitación anual de mi cumpleaños, que dependen prácticamente de forma exclusiva de los recordatorios que Facebook, LinkedIn y otras redes lanzan a todos los que me tienen como parte de su red.

Otro caso particularmente interesante y, en muchos sentidos, futurista, es la posibilidad de hacer que el asistente de Google haga llamadas por ti a personas de carne y hueso para, por ejemplo, reservar una cita para cortarte el pelo o en un restaurante. Las conversaciones que Sundar Pichai utilizó como ejemplo de Google Duplex provienen del análisis y entrenamiento del algoritmo con miles de horas de conversaciones anónimas, y se desarrollaron de manera aterradoramente perfecta, con el asistente no solo expresándose como una persona en todos los sentidos, con una entonación completamente humana indiscernible de una persona real e incluso con uso de partículas de asentimiento o espera, o tomando decisiones sobre la marcha en situaciones de incertidumbre. Las personas reales que había al otro lado, una empleada de una peluquería y una de un restaurante con un dominio del inglés más bien escaso, no tuvieron oportunidad alguna de imaginarse que no estaban hablando con una persona.

En este caso, la situación resulta algo más aceptable, aunque algunos la sigan considerando “inquietante”: una llamada de ese tipo, para pedir una cita, es algo que consideramos mecánico, donde buscamos la eficiencia, y de hecho seguramente muchas personas ya preferimos hacerlo fríamente online en lugar de mediante el teléfono cuando tenemos oportunidad. Es, al menos para mí, un caso claramente distinto del anterior, del mensaje a un amigo. Pero sin duda, una tecnología así, en cuanto esté razonablemente desplegada y popularizada, va a cambiar las relaciones sociales: que millones de personas empiecen a utilizar de manera habitual un asistente para ese tipo de tareas llevará a que personas al otro lado del hilo empiecen a asumir que hablan con un asistente, y probablemente cambien su forma de expresarse buscando una mayor eficiencia y prescindiendo de determinadas normas clásicas de educación, o que incluso pasen a utilizar otro asistente para que “converse” con el nuestro.

Estamos ante uno de esos “momentos de la verdad” que últimamente vemos parece que a menudo: Google ya no solo demuestra sin paliativos que su tecnología conversacional, su AI y su machine learning está por encima de las de otras compañías de su entorno – algo que podemos comprobar en cualquier momento con un iPhone en la mano si le hacemos la misma pregunta precedida por un “Oye, Siri” frente a un “OK, Google” y comparamos la calidad de las respuestas – sino que, además, ha presentado opciones realistas de uso, tecnologías razonablemente maduras que soportan casos de uso extremadamente versátiles, situaciones cotidianas de todo tipo, coyunturas que cabe pensar que muchas compañías utilizarán para proponer ya no un servicio más barato, sino posiblemente, un servicio mejor, más predecible o con menos errores. Automatización que ya no significa “actuar de forma automática”, sino “resolver un problema complejo”, con máquinas que se han entrenado previamente para ello con miles de situaciones similares, que tienen siempre la respuesta perfecta, la palabra precisa, la decisión ideal.

¿Queremos asistentes para automatizar tareas que consideramos mecánicas o aburridas? Sin duda, sí. ¿Los queremos para automatizar nuestras relaciones con nuestros amigos, para solucionar esas eternas conversaciones de WhatsApp intentando quedar un día o en un sitio? Ahí ya empiezo a tener mis dudas… seguramente valoraría herramientas para algunas cosas, pero creo que prefiero seguir teniendo cierta seguridad de que estoy hablando con mi amigo, no con el asistente digital de mi amigo. Pero tal vez en unos años ya no sea así, y hayamos desarrollado todo un nuevo conjunto de protocolos sociales para esas ocasiones. Si no viste Google I/O, de verdad, dedícale un rato. Vale la pena. Si te inquieta algo de lo que veas, considéralo normal. Pero sobre todo, asume que este tipo de cosas ya han llegado, ya están disponibles, ya se pueden utilizar, ya no es ciencia-ficción, y te las vas a encontrar más pronto que tarde… quién sabe, si en el mensaje de un amigo que te invita a cenar!

 

Home assistants: Amazon Echo, Google Home and Apple HomePodLos home assistants, asistentes virtuales o smart speakers (la categoría no tiene todavía claramente definido un nombre unívoco) están viviendo una competencia muy interesante. Un mercado que contó con Amazon como decidida pionera con su Amazon Echo, lanzado en noviembre de 2014 y actualmente líder absoluto en ventas y penetración de mercado, pero al que se sumó Google con su Google Home en noviembre del pasado 2016, y Apple HomePod, presentado en el último WWDC y con disponibilidad anunciada para diciembre de 2017.

Este tipo de dispositivos son, en realidad, la combinación de un sofisticado hardware compuesto por sensores, altavoces y micrófonos pensados para proporcionar un sonido de calidad y un reconocimiento de voz desde cualquier punto de la habitación (y con sistemas de cancelación para poder reconocer un comando aunque esté sonando la música), con un asistente virtual desarrollado de manera independiente, y que, de hecho, puede ser asociado a otros dispositivos. Hablamos de Alexa, Google Assistant y Siri, que proporcionan a la combinación de micrófonos y altavoces sus características de “inteligencia”.

La batalla, lógicamente, tiene una connotación mucho más importante en este segundo segmento, que en realidad comenzó con una secuencia diferente: aquí el papel de pionera corresponde a Apple, que lanzó Siri al mercado en octubre de 2011, seguida de Google, que lanzó su Google Now en julio de 2012 para posteriormente evolucionarla a Google Assistant, y de Amazon, que puso en el mercado su Alexa en noviembre de 2014 coincidiendo, lógicamente, con el lanzamiento de Amazon Echo.

Las fechas, en este terreno, resultan sumamente relevantes: cuanto más tiempo están en el mercado este tipo de plataformas, más datos generan con los que trabajar y con los que adiestrar sus algoritmos, y más mejora la funcionalidad. Mientras Apple y Google se dedicaron a utilizar sus asistentes en la plataforma smartphone, apostando por una funcionalidad que, en el hogar, podría seguir siendo llevada a cabo por ese mismo dispositivo, Amazon pensó que un dispositivo dedicado podría ofrecer mejores prestaciones, y desarrolló su Alexa directamente vinculada a Echo, en lugar de ofrecerla para una plataforma smartphone que no tenía, tras el fallido lanzamiento de su Fire Phone. El éxito de Amazon Echo, que comenzó a crecer de manera impresionante en el mercado norteamericano hasta alcanzar una cuota de mercado del 70%  y está presente ya en Alemania y el Reino Unido, alarmó a Google y a Apple, temerosas al ver cómo su competidor se hacía con una plataforma doméstica que podía terminar siendo estratégica. Mientras, Amazon convirtió su asistente en un ecosistema abierto, y ofreció a los desarrolladores la posibilidad de crear skills, o habilidades con las que dotar al dispositivo de funcionalidad. Actualmente, la mayor difusión de Amazon Echo hace que sea el ecosistema para el que existe un número superior de skills: prácticamente todos los fabricantes de dispositivos para la automatización de funciones en el hogar, desde bombillas inteligentes hasta termostatos o cerraduras.

Mientras Apple aún parece posicionar fundamentalmente su HomeKit como un dispositivo para escuchar música, la lucha entre Amazon Echo y Google Home parece centrarse más en la calidad del asistente y la integración de funciones. Recientemente, un estudio llevado a cabo por una agencia de publicidad estableció que, en términos de calidad y tomando una muestra de tres mil preguntas, el asistente de Google contestaba de manera correcta en seis veces más ocasiones que la Alexa de Amazon.

¿Qué quiere decir esto? Simplemente, que mientras Google lleva ya muchos años, desde 2012, alimentando y desarrollando su Knowledge Graph y convirtiéndolo en una parte fundamental de su buscador, Amazon cuenta únicamente con el material que obtiene a través de la interacción de sus usuarios con sus dispositivos, sensiblemente inferior tanto en calidad como en cantidad. Sin embargo, ¿es esto suficiente como para otorgar una medalla de ganador definitiva? Todo indica que no: en este momento, los propietarios de dispositivos de este tipo parecen inclinarse por una funcionalidad para sus asistentes más centrada en la automatización de tareas y la petición de funciones sencillas, como el tiempo, las noticias u otro tipo de peticiones rutinarias, más que por la posibilidad de hacerle preguntas de un tipo algo más complejo. En efecto, Google Home puede ser más inteligente a la hora de responderte a preguntas de propósito general, pero los usuarios no parecen querer eso, sino que conecte con dispositivos de más fabricantes, con habilidades creadas por más desarrolladores, y con funcionalidades más del día a día. Por lo que se ve, queremos más un mayordomo diligente que un tipo listo capaz de contestar a todas nuestras preguntas.

¿Cómo evolucionará esta dinámica competitiva? ¿Es más importante centrarse en el desarrollo de ecosistema y en la funcionalidad por encima de todo, o en desarrollar el cociente intelectual del asistente? ¿O, como parece sugerir Apple, en hacer una cosa muy bien – poner música – y dejar que el resto de funcionalidades se conviertan en una propuesta creciente (Apple solo menciona la posibilidad de usar su HomePod para cuestiones sencillas como encender las luces, poner un cronómetro o leer las noticias al final de la página de descripción)?

La batalla está servida, y los jugadores son de los que prometen una competición verdaderamente interesante. En caso de tenerlos disponibles actualmente en tu mercado, ¿por cuál te parece que optarías, si efectivamente quisieses tener uno? ¿Qué elementos introducirías en tu decisión?

 

Google Assistant, la inteligencia pervasiva de Google de Denken Über

“Pensamos en este asistente como una experiencia ambiental que se extiende a través de dispositivos, estará en sus teléfonos, en los dispositivos que usen, en sus autos y en sus casas.” Sundar Pichai CEO de Google, en Google IO 2016 hablando de Google Assistant

Google I/O está sucediendo en estos momentos pero la demostración de Google Assistant y Google Home al mismo tiempo que Allo como mensajero y su integración con el lenguaje natural es la forma de llevar la inteligencia artificial de Google a la vida cotidiana y es, más allá de los problemas que pueda tener su implementación, simplemente impresionante.

Si uno se queda con la demo que se vio, que es muy similar a Google Gboard es interesante porque parece tener no sólo un nivel más de entendimiento que los “robotic bots” que vimos en las demo de Facebook o Microsoft sino que su integración con aplicaciones de terceros y también con hardware de terceros de forma casi nativa (aprovechando Android como plataforma) lo hizo parecer mucho más natural… si, ya se que es una demo pero es una demo ambiciosa.

Ahora, el entendimiento del contexto sumado al “always on” que se testeó con Google Now, nos da una inteligencia transparente o pervasiva que es capaz de entender que si estás frente a al Cloud Gate y preguntás “¿Quien diseñó esto?” estás hablando de ese objeto y no del Millenium Park lo cual parece ¿mágico? pero es simplemente un avance impresionante en IA.

Si extendemos eso a Google Home como interfaz de Google Assistant y es capaz de entender multiples usuarios o perfiles que interactúan con Google y no con “una cuenta de Google” como pasaba hasta ahora es una verdadera pasada… y su primer gran desafío ¿como integrar UNA inteligencia a un ambiente multipersona con UNA sola interfaz? lo que no es fácil y nos lleva al segundo desafío ¿como definen que todo lo que se habla es público o se puede responder en público? que nos lleva a otro desafío ¿como se continúan conversaciones cuando son diferentes sujetos los que interactúan en un ambiente con diferentes dispositivos en una sola línea de tiempo? y finalmente ¿como hacer esto amigable y no un “robotic robot” como estamos acostumbrados? Son desafíos maravillosos!

Más allá de todos los debates que esto debería generar y no parece preocupar demasiado, repito ¿como definen que todo lo que se habla es público o se puede responder en público o es un query para alimentar sus sistemas de entrenamiento? porque esto es clave para que ese mundo ideal de información constante, contextual, transparente y pervasiva sea una realidad.