Los datos y la fe - LUCAMi segunda colaboración para el blog corporativo de LUCA, la unidad de Big Data e Inteligencia Artificial de Telefonica (aquí la primera) se titula “Los datos y la fe” (pdf), e intenta ahondar en el concepto de revolución frente a evolución que supone el machine learning y la idea de tratar a una máquina que se encuentra introducida en nuestra rutina diaria desde hace décadas, el ordenador, no tanto como una simple automatización de tareas, sino como algo capaz de captar datos y derivar sus propias reglas de funcionamiento a partir de ellos. 

Lograr extraer una ventaja competitiva de una revolución como el machine learning, con efectos comparables a lo que en su momento supuso el desarrollo y adopción masiva de internet, requiere por un lado directivos con el perfil adecuado convencidos del papel de la ciencia en el management de las compañías – un aspecto en el que incidí en mi primer artículo de la serie – y, por otro, de un convencimiento pleno de la necesidad de dotar a esas compañías de una cultura de datos que permita reorientar la totalidad de los productos y servicios de la compañía hacia ellos, como anteriormente lo hicimos con respecto a internet. Las mismas compañías que en los años ’90 creían que internet no supondría un cambio en su forma de hacer las cosas están ahora, un par de décadas después, completamente orientadas a la red, o si no llevaron a cabo ese cambio de mentalidad, muy probablemente hayan desaparecido. Ahora, las compañías deben tomar la decisión de formar a la totalidad de su personal en una tecnología que va a suponer un cambio fortísimo en la manera de entender el mundo en las próximas décadas, la que marcará la próxima gran discontinuidad entre los que la entienden y la saben aplicar y los que no.

Estamos aún, obviamente, en fases experimentales. Aún veremos en muchas ocasiones algoritmos capaces de aprender de los datos de maneras erróneas, de heredar sesgos o de crearlos en función de patrones que no sabíamos que estaban ahí. Si históricamente hemos incorporado menos mujeres que hombres a nuestras compañías, es posible que un algoritmo diseñado para optimizar procesos de reclutamiento alimentado con nuestro histórico de datos tienda, sin la supervisión adecuada, a discriminar a las mujeres en esos procesos, con todo lo que ello podría conllevar de pérdida de oportunidades para la atracción de talento. La adopción tecnológica tiene este comportamiento que requiere de procesos de ensayo y error, del desarrollo de una cultura que posibilite entender los mecanismos que conforman el aprendizaje de una máquina, la generación de algoritmos a partir de los datos, mediante procesos relativamente toscos al principio, pero que pueden evolucionar hasta mostrar patrones intrínsecamente superiores a los exhibidos por los tomadores de decisiones humanos.

No hablamos simplemente de hacer o plantear Machine Learning: hablamos de automatizarlo, de convertirlo en una parte integrante de nuestros procesos empresariales. Entender ese tipo de procesos no es simplemente el fruto de un proceso de reflexión o de aprendizaje individual: requiere la fe necesaria para trasformar las compañías y sus procesos de negocio – que en muchas ocasiones no mostraban signos especialmente preocupantes de ningún tipo de problema – para adaptarlos a las posibilidades que ofrece el machine learning. Las resistencias serán importantes, y van a requerir no solo argumentos, sino la capacidad de rodearse de personas que entiendan ese cambio, que crean en él, y que estén dispuestos a invertir en el proselitismo necesario para convencer a otros. Decididamente, no una tarea sencilla.

 

El directivo analitico - LUCADesde LUCA, la unidad de Big Data e Inteligencia Artificial de Telefonica, me pidieron un artículo para su blog corporativo sobre los nuevos entornos que precisan, cada vez más, tomar decisiones inteligentes a partir de los datos, y la importancia del análisis de esos datos de cara al desarrollo de un nuevo perfil de directivo. Una tendencia creciente en las compañías modernas que se encuadra en desmitificar el llamado gut feeling, esa supuesta “intuición” de los directivos que, cada día más, prueba que por cada una de esas decisiones acertadas hay, en realidad, un número similar o en ocasiones mayor de decisiones erróneas en contextos similares. 

Mi artículo, titulado “El directivo analítico” (pdf), trata de exponer cómo la llegada del machine learning y la analítica avanzada de datos al mundo directivo nos acerca cada vez más a entornos con un mayor nivel de profesionalización, más científicos y menos dados a sacralizar “la experiencia por la experiencia”, en beneficio de unas herramientas analíticas adecuadas y de unos procedimientos más rigurosos. El management, como ocurre en todas las disciplinas, está destinado a ser cada vez menos “magia” y más ciencia. Para las compañías, entender el funcionamiento de los proyectos de machine learning, sus requerimientos y los pasos que hay que dar para poder alimentar los algoritmos adecuados con datos resulta cada vez más importante – sí, todos los directivos piensan que “tienen muchísimos datos” y que “todos ellos pueden ser utilizados inmediatamente”, pero la realidad es otra muy diferente y mucho más compleja. Sabes qué podemos pedir a un algoritmo, qué posibilidades reales tiene de generar resultados tangibles y qué tiempos de desarrollo cabe esperar en un proyecto de este tipo es cada día más importante para las compañías.

A lo largo de la próxima década, como bien comentan Erik Brynjolfsson y Andrew McAfee en ese gran artículo titulado The business of artificial intelligence, la inteligencia artificial va a cambiar la forma de entender el management hasta el punto de que “aunque la inteligencia artificial no sustituya a los directivos, los directivos que utilicen inteligencia artificial sí sustituyan a los que no lo hacen.” Si como directivo sigues viendo el desarrollo de machine learning e inteligencia artificial desde lejos, como quien ve una película de ciencia-ficción, deberías saber que lo que haces, sea lo que sea, será en algún momento mejorado por otros directivos que sí han aprendido a aprovechar sus posibilidades. Entender el funcionamiento de este tipo de proyectos, su dimensionamiento, sus diferentes fases y lo que se les puede pedir de manera realista se está convirtiendo, tanto a nivel corporativo como personal, en una necesidad cada vez más acuciante. 

 

IMAGE: Nick Youngson CC BY-SA 3.0 Alpha Stock ImagesEste artículo largo en The Verge, How Tesla and Waymo are tackling a major problem for self driving cars: data es de lo mejor que he leído últimamente, y no tanto por los interesantes detalles sobre las estrategias de cara al desarrollo de la conducción autónoma de ambas compañías, que de por sí es susceptible de dar lugar a muchas interesantes discusiones, sino por la evidencia que presenta de manera palmaria: solo aquellas compañías que desarrollen y ejecuten una buena estrategia de datos lograrán ser competitivas en el futuro.

Puedes ser muy bueno haciendo lo que haces, pero a menos que elabores una estrategia específica que te permita producir, recoger y analizar datos, ten por seguro que va a aparecer alguien que terminará, en poco tiempo, haciendo lo que haces mucho mejor que tú. Esa es la esencia de la actividad empresarial hoy: los datos, convertidos en el nuevo elemento que define la competitividad.

Ese, de hecho, es el principal problema de todos los negacionistas que no aceptan que proyectos como el vehículo autónomo puedan convertirse en realidad en plazos mucho más reducidos de los que se manejan hoy en día: creen que las máquinas son eso, objetos inmutables que son diseñados de una manera determinada, y funcionan así a partir del momento en que son fabricados. Nada más lejos de la realidad: las máquinas han pasado de ser ingenios destinados a la automatización de tareas, a ser objetos capaces de incorporar aprendizaje de manera automática, de adquirir nuevos datos, procesarlos y obrar en consecuencia en función de reglas que derivan del análisis de esos mismos datos. Y no solo de los datos que genera esa máquina, sino de los que son capaces de generar a través de todo el parque de máquinas disponibles y de las distintas estrategias que podamos añadir. En el caso de compañías como Tesla o Waymo, esas estrategias no solo utilizan los datos que puedan generar sus flotas de vehículos – propia y directamente gestionada en el caso de Waymo, o en manos de terceros, de clientes de la compañía, en el caso de Tesla – sino que, además, incluyen todo tipo de tests en circuitos, en entornos virtuales o en todas las estrategias imaginables que permitan obtener y probar situaciones que puedan resultar más problemáticas, menos probables o más complejas.

El resultado es el que es: un vehículo autónomo “ha visto muchísimo más” que cualquier conductor humano por mucho que haya conducido en su vida, se ha enfrentado a más problemas que el mejor de los conductores, y además, lleva a cabo las posibles soluciones a problemas de una manera infinitamente más precisa. Pero vayamos más allá de la conducción autónoma, porque ese razonamiento, en realidad, puede extenderse a prácticamente cualquier actividad, y sobre todo, puede convertirse en una importante fuente de ventaja competitiva. Estamos llegando a un punto en el que lo más importante no es dar más préstamos, firmar más pólizas de seguros o vender más cursos que nadie: lo verdaderamente importante es cuánta información eres capaz de extraer de esas actividades, y de qué manera puedes procesarla para que tu compañía sea capaz de aprender de esos datos y mejorar su eficiencia frente al trabajo que desarrollan sus competidores.

Lo importante no es que la estrategia de datos de Tesla o la de Waymo puedan ser mejores, más eficientes o más rápidas: lo importante es entender que esas compañías son lo que son gracias al hecho de tener una estrategia de datos. ¿Tiene tu compañía una? Los datos, su generación y su análisis, convertidos en la verdadera arma competitiva. Eso es lo que la gran mayoría de directivos aún no han logrado entender. La necesidad de una adecuada estrategia de datos: no simplemente una que sea buena, sino además, que sea mejor que la de tus competidores. Se compite en generación de datos, en formas de obtener más datos, y en técnicas que permitan analizarlos de manera que podamos extraer más rendimiento en términos de aprendizaje. Esa es la nueva variable competitiva. Quien no lo entienda, que vaya pensando en una lenta, inexorable y asegurada deriva hacia la pérdida de competitividad. Quien no entienda y lleve a cabo ese tipo de estrategias en su compañía – y no es en absoluto tan sencillo como podría parecer en una primera interpretación – no será capaz de mantener su posición competitiva en el futuro.

 

LinkedIn scrapingUn juez norteamericano ha ordenado a Microsoft que elimine en un plazo de 24 horas toda tecnología destinada a impedir que una compañía, hiQ Labs, obtenga datos públicos de LinkedIn mediante web scraping. Específicamente, lo que el juez afirma al conceder el recurso interpuesto por hiQ Labs ante la afirmación de LinkedIn de que era ilegal hacer scraping de su página web sin su permiso, es que LinkedIn no puede prohibir ni bloquear el acceso selectivo de una compañía a datos que han sido hechos públicos a través de su servicio.

La compañía, hiQ Labs, se dedica a recolectar datos de diversas fuentes para, según ellos mismos, ayudar a los directivos a tomar mejores decisiones sobre las personas, básicamente atraer o retener talento. La práctica de extraer datos de diversos servicios es habitual entre startups de analítica, sobre todo en la fase en la que intentan construir su oferta de servicios y aun no cuentan con la masa crítica suficiente como para intentar obtener esos datos por sí mismas. Los servicios de analítica de ese tipo son cada vez más habituales a medida que resulta más posible obtener imágenes útiles de un usuario a partir de los datos que comparte en páginas sociales de diversos tipos.

En otras ocasiones, como en el caso de Facebook contra Power Ventures en 2009, los tribunales han decidido en favor de la página objeto del scraping: en ese caso, lo que Power Ventures intentaba era ofrecer un servicio que supuestamente consolidaba todos los contactos de un usuario en diversas redes sociales en una sola página, con lo que el scraping de los datos se llevaba a cabo con el permiso explícito de un usuario que permitía a la aplicación acceder a su Facebook. Sin embargo, el hecho de que Facebook hubiese enviado a Power Ventures un cease and desist conminándole a dejar de acceder  su servicio suponía una rescisión de ese permiso, y por tanto, daba la razón a Facebook. En el caso de LinkedIn contra hiQ Labs, en el que también medió el envío de un cease and desist, el juez ha optado, sin embargo, por dar la razón a la pequeña startup, posiblemente en parte porque la propia LinkedIn permite el scraping de los perfiles de sus usuarios por otras compañías como motores de búsqueda con el fin de mejorar su propia propuesta de valor. 

Obviamente, no parece lo mismo obtener datos de una página mediante scraping cuando lo que pretendes hacer con esos datos es sustituir el servicio que proporciona la compañía en cuestión, frente a cuando ese scraping es simplemente una manera de desarrollar un servicio completamente diferente y no esencialmente relacionado con el original. Como todo, la cuestión tiene sus matices: acciones de scraping aisladas para completar perfiles de usuario concretos, por ejemplo, no parecen tener la misma naturaleza que acciones masivas destinadas a extraer cantidades masivas de datos.

En cualquier caso, la resolución de ayer no es más que el principio de la cuestión: Microsoft ha anunciado que apelará la medida, y por el momento, todo indica que quien pretenda basarse en datos de terceros para construir su propuesta de valor debería hacerlo en virtud de un acuerdo con la compañía correspondiente, o arriesgarse a verse implicada en costosos procesos judiciales.

 

Es la hora de las empresas con algoritmos inteligentes - Cinco DíasMarimar Jiménez, de Cinco Días, me envió algunas preguntas por correo electrónico para documentar un artículo sobre las ventajas competitivas que puede suponer el machine learning para las compañías, artículo que publicó ayer viernes bajo el título “Es la hora de las empresas con algoritmos inteligentes” (pdf).

Machine learning es, ante todo, un conjunto de herramientas que permiten que una máquina aprenda de manera iterativa de unos datos y sea capaz de desarrollar modelos de forma automatizada, modelos que no han sido específicamente programados por una persona. La herramienta, como tal, tiene suficiente capacidad de disrupción en la forma en la que hacemos muchas cosas como para convertirse en una ventaja competitiva: dado que los algoritmos que se desarrollan se adaptan a los datos y terminan por generar mejores predicciones y resultados que los desarrollados por personas, la compañía que utiliza machine learning obtiene de ello una mayor eficiencia, mejores prestaciones, más agilidad o funciones que antes podían resultar imposibles de obtener.

Pero como herramienta, el machine learning no es algo que se pueda “comprar e instalar”, porque depende de los datos, de su calidad y de su accesibilidad, y requiere por ello toda una orientación al dato, una “data-centricidad” que, para muchas compañías, se antoja aún una quimera, un imposible. Una gran parte de lo que hoy se pretende que es el machine learning está compuesto de expectativas hiper-infladas, de promesas incumplidas y de esperanzas irreales de compañías que pagan por una herramienta y creen que va a convertirlas en la empresa del futuro, cuando la realidad es que simplemente el desarrollo de procedimientos que permitan la obtención y la preparación de los datos se convierte en un trabajo enormemente complejo, que no está al alcance de cualquiera. Como sucede con todas las herramientas, el machine learning se encuentra ahora ante una epidemia de desinformación que pretende que una compañía puede desarrollar poco menos que robots asesinos, cuando la realidad es muy diferente y, sobre todo, mucho más pragmática. Solo aquellas compañías que sean capaces de orientarse a la generación y proceso de datos serán capaces de recoger los frutos del machine learning y convertirlos en verdaderas ventajas competitivas.

A continuación, las preguntas y respuestas que crucé con Marimar:

 

P. ¿Estás de acuerdo en que los datos se han convertido en el principal activo de las compañías? ¿Por qué? Resulta curioso ver cómo empresas como General Electric o Siemens se autodefinen hoy como empresas de datos. ¿Qué está pasando?

R. Los datos permiten obtener la ventaja competitiva en el nuevo planteamiento de los negocios en torno al machine learning. Solo las empresas que sean capaces de obtener y mantener algoritmos más inteligentes y potentes que sus competidores estarán aquí la próxima década, y lo fundamental para obtener esos algoritmos es tener datos con los que alimentarlos. Es algo que llevamos diciendo mucho tiempo ya: si no orientas tu negocio a los datos, maximizando tu intensidad informativa y trabajando con arreglo a tu nivel de permiso, aparecerá otra compañía que sí sea capaz de hacerlo y que proporcione a sus usuarios mejores productos y servicios que tú. Los datos se convierten en el combustible que alimenta el motor de tus algoritmos, pero con los datos no sirve: hay que saber definir los objetivos, prepararlos, transformarlos, construir modelos, evaluaciones, predicciones… orientar la compañía a los datos es solo un primer paso, y los subsiguientes no son tan sencillos o triviales como muchos pretenden vender.

P. Se habla de big data, de analítica de datos, de machine learning, todo como piezas de un mismo puzzle. ¿Es el aprendizaje automático the next big thing? ¿Cómo va a impactar (o está impactando ya) en los negocios? ¿qué podemos esperar de los algoritmos aplicados a los negocios?

R. Hace ya mucho tiempo que el machine learning es the next big thing, lo puedes ver simplemente viendo la evolución de las etiquetas relacionadas en mi página: desde hace un par de años, no paro de hablar del tema y de sus aplicaciones, las compañías que se dedican a ello están siendo objeto de adquisiciones importantísimas, y los gigantes de la red como Google, Amazon, Facebook, Apple o Microsoft están reorientando todas sus estrategias en torno al tema. Hemos pasado de ver a un algoritmo como algo con más capacidad de cálculo, más fuerza bruta matemática que una persona (cuando Deep Blue ganó a Kasparov) a verlo como algo capaz de entender el lenguaje humano mejor que muchas personas (Watson ganando al Jeopardy), capaz de hacer cosas que un humano nunca había hecho gracias al deep learning (AlphaGo ganando a los campeones mundiales de Go) o incluso, a tomar decisiones mejor que un humano en situaciones de información imperfecta (Libratus ganando al póker). La cuestión no es ya que una máquina pueda llegar a hacer lo que hace una persona, sino que, además, lo hace muchísimo mejor. En todo entorno competitivo, quien no sepa extraer partido de algo así, desaparecerá.

P. El profesor de UC Berkeley y experto en aprendizaje automático, Michael I. Jordan, asegura que más y más datos aumenta la probabilidad de hacer conexiones falsas. ¿Será esto un handicap para el avance de la economía de los datos, y cómo puede evitarse?

R. Todo correlaciona con todo dadas las circunstancias adecuadas. Pero precisamente ese es el ámbito en el que el machine learning destaca: se pueden evaluar muchos algoritmos en función de los resultados obtenidos, y aplicar procesos de mejora para que esos resultados sean cada vez mejores. Los algoritmos analizan datos y extraen reglas que permiten generar predicciones, detectar excepciones, aislar patrones… a medida que alimentamos a los algoritmos con más datos, mejoran en esas capacidades, y permiten incluso ponerlos a inventar nuevas situaciones hipotéticas que no han ocurrido anteriormente, a “jugar contra sí mismos” para mejorar los resultados obtenidos. Los datos se obtienen en escenarios de todo tipo, y son aplicados a todo el sistema: cada vehículo autónomo que conduce por un lugar determinado aporta datos que sirven para toda la flota, y los algoritmos son capaces, además, de aprender jugando a juegos como el Grand Theft Auto para generar nuevas situaciones que no se darían en conducción real. Lo importante es entender el proceso: no se trata de sistemas de reglas o de menus, de programación al uso: el machine learning permite posibilidades que sobrepasan aquello para lo que creíamos que era un ordenador.

P. ¿Cuáles son los retos a los que se enfrentan las corporaciones en esta nueva economía, tanto desde el punto de vista tecnológico como cultural o de otro tipo?

R. En este momento, los retos están en orientar la compañía a la generación de datos que puedan ser analizados. Si lo único que generas cuando vendes un producto es eso, una venta, y no tienes más datos ni sobre quién lo compró, ni sus características, ni la evaluación del producto, ni su uso, ni nada, cualquiera que pueda llevar a cabo tu negocio en un entorno más rico en datos superará tus posibilidades muy rápidamente, hará mejores predicciones y convertirá su oferta en más competitiva que la tuya. Pero además de obtener datos (todos pensamos que los tenemos, pero no es así), hay que desarrollar las capacidades para su explotación. Las compañías tienen personas que hacen medias, medianas y modas, con suerte alguna regresión. Esto va mucho más allá. En Amazon, la intuición humana está prohibida a la hora de tomar decisiones: si tomas una decisión, enséñame los datos que la justifican.

P. ¿Hay empresas que han nacido al calor del big data y del machine learning, que no existirían si no fuera por estas tecnologías? Ponme algún ejemplo. ¿Y alguna empresa tradicional que esté haciendo un uso magistral de los datos?

R. Lo más tangible ahora son las adquisiciones y movimientos en torno a las herramientas: todas las grandes han llevado a cabo adquisiciones cuantiosas de compañías de machine learning, adquisiciones que están entre el acqui-hire (la adquisición para incorporar talento) y la aplicación directa de capacidades a sus procesos. Todas las grandes empresas están posicionándose para incorporar esas capacidades, esos especialistas, y ofrecerles entornos en los que puedan desarrollarse. Estamos viviendo los inicios del mayor cambio que la tecnología ha provocado, con un impacto más importante que el propio desarrollo de internet.