IMAGE: Freestocks - CC0 licenseVarios artículos inciden en la enorme inquietud que ha generado en los estudios de Hollywood, entre las productoras de cine y televisión y, en general, entre los actores tradicionales de la industria la reciente oleada de acuerdos multimillonarios de Netflix con estrellas como Shonda Rhymes, Ryan Murphy o el matrimonio Obama para la producción de contenidos y su explotación a través de la plataforma. Frente al dinamismo de Netflix, la industria tradicional de los contenidos se encuentra atrapada por un mecanismo de producción anquilosado, que depende enormemente de las secuelas, precuelas y remakes de producciones que anteriormente demostraron algo de éxito, y en la que los ingresos o la popularidad que genera cada producción depende aparentemente de factores casi aleatorios o desconocidos.

La gran realidad del momento es que Netflix, alimentado por una corriente incesante de éxitos mundiales y con una entrada constante de dinero fresco procedente de las cuotas de sus ciento veinticinco millones de suscriptores, puede comprar absolutamente cualquier cosa y atraer a quien buenamente considere interesante atraer. La valoración de la compañía ha crecido más de un 70% desde el pasado enero, y de hecho, ha superado a Disney como compañía de medios más valiosa del mercado. La valoración actual de Netflix, 164,000 millones de dólares, contrasta con los 152,000 de Disney, con algunas diferencias fundamentales: la primera tiene en plantilla algo menos de cinco mil empleados frente a los casi doscientos mil de la segunda, y además, parece haber encontrado el secreto del éxito permanente para la inmensa mayoría de sus producciones.

En octubre de 2015, justo antes de la entrada de Netflix en el mercado español, escribí un position paper con las expectativas que dicha entrada podía generar, y apunté a “un primer año de toma de posiciones moderado, seguido de una expansión intensa y de un crecimiento progresivo a medida que incrementa su oferta gracias a la recuperación de los contratos de sus series más conocidas y al desarrollo de su oferta de producción propia”. A la luz de los datos, mi optimismo inicial se ha visto incluso superado por los resultados, y ello se debe, fundamentalmente, al hecho de introducir en el análisis un factor fundamental: la supremacía de los modelos basados en la analítica de datos.

Para el viejo Hollywood y para las productoras de contenidos tradicionales, el éxito es una variable escurridiza y difícil de entender. El mix entre temática, estilo, argumento, estrellas, directores y demás factores que afectan a la aceptación del producto en el mercado ha sido analizado durante décadas sin resultados demasiado concluyentes, o que simplemente afirman que “a más, mejor”: fuera de la obviedad de que acumular talento y argumentos o temáticas probadas en una producción supone un éxito, poco más se sabe, y los éxitos ocasionales inesperados en producciones de bajo presupuesto o que generan sorpresa se tratan como eso, como excepciones derivadas de algún tipo de capricho de los mercados. A lo largo de muchas décadas de historia, la industria de los contenidos no ha sabido hacer mucho más que eso, y la predicción del éxito es cosa de algunos cotizados expertos trabajando con metodologías parecidas a la alquimia.

Frente a eso, llega Netflix y aplica algo mejor: la analítica. Cada usuario de Netflix deja en la compañía no solo sus sustanciosas cuotas mensuales, sino también algo mucho más valioso: una gran cantidad de información detallada sobre sus gustos, sus hábitos y sus intereses. Con todos esos datos, Netflix es capaz de elaborar un cuidadoso análisis que permite no solo elaborar un algoritmo de recomendación en el que los usuarios confían porque tiende a acertar de manera muy habitual, sino además, toda una maquinaria de predicción de la demanda. Cuando Netflix cierra un acuerdo con Shonda Rhymes, Ryan Murphy o el matrimonio Obama no lo hace siguiendo algún tipo de inspiración, sexto sentido o instinto: lo hace siguiendo un modelo de datos que le dice que esa combinación de talento junto con una serie de argumentos esperables en función de su trayectoria y sobre los que Netflix podría, además, influir, tiene un porcentaje determinado de probabilidad de éxito. De hecho, no solo sabe qué probabilidad de éxito tiene, sino prácticamente quienes de sus clientes van a ver esa producción, y hasta con qué cadencia. Una capacidad de análisis que la industria tradicional, a pesar de los avances que ha supuesto la actividad de compañías como Rentrak (desde 2016, parte de ComScore) que intentan aproximarse a esas metodologías, se limita habitualmente a trabajar con datos agregados de distintas plataformas y con un nivel de información sociodemográfica mucho más básico.

La industria de los contenidos está siendo sometida a un tratamiento que vamos a ver en todas las demás: para ser exitosos, los modelos de negocio en la actualidad deben ser capaces de apalancarse en una generación de datos lo más detallada posible – y además, como bien sabemos en pleno momento de la entrada en vigor de GDPR, percibidos como razonablemente respetuosos con la privacidad – que sean capaces de alimentar modelos de datos sofisticados, algoritmos de machine learning adecuadamente entrenados que permitan entender el negocio: predicciones, expectativas, excepciones y todo tipo de información que permita gestionar de una manera cada vez más cuantitativa, más exacta, más científica. Las series de Netflix no están ahí porque un productor haya tenido una inspiración divina o un momento de lucidez, sino porque un modelo de datos afirma que van a funcionar. Netflix, en ese sentido, es claramente un modelo analítico del siglo XXI frente a los modelos trasnochados y basados en la intuición de las productoras de contenidos del siglo XX. Y en consecuencia, llegan unos resultados sostenidos a lo largo del tiempo que, para quien entienda el poder de la analítica, de los algoritmos y del machine learning… tienen poco de sorprendentes.

 

IMAGE: Nick Youngson CC BY-SA 3.0 Alpha Stock ImagesDos noticias aparentemente contrapuestas me llaman la atención esta semana en el complejo asunto de la Facebook post-Cambridge Analytica y el futuro que la espera: por un lado, la compañía está llevando a cabo estudios de mercado destinados a intentar averiguar qué porcentaje de usuarios podría estar interesado en un modelo de suscripción, un pago mensual a cambio de utilizar la red social sin verse sometido a ningún tipo de publicidad ni a tratamiento de sus datos. Por otro, unas declaraciones de Matt Hancock, Secretario de Estado de Digital, Cultura, Medios y Deporte del Reino Unido, en las que afirma estar abierto a la idea de obligar a plataformas digitales como Facebook o Google a pagar por los datos que extraen de sus cientos de millones de usuarios.

¿Cuál es el futuro de nuestros datos personales? En el momento actual, y a la espera del escenario que resulte tras la entrada en vigor, el próximo 25 de mayo, del Reglamento General de Protección de Datos en la Unión Europea (que afecta a todo aquel qe pretenda desarrollar relaciones o negocio de algún tipo con sus ciudadanos), nuestros datos están simplemente ahí, abiertos a prácticamente cualquier tipo de recolección, análisis o transacción de cualquier tipo. Poco ayuda a la especulación sobre el futuro el enorme analfabetismo de la mayoría de la población en este aspecto, carente de cualquier tipo de fundamento o lógica empresarial y que lleva a una gran cantidad de personas a pensar que sus datos son un objeto constante de compraventa entre compañías: con excepciones, nuestros datos son recopilados, procesados y explotados por las mismas compañías, que no los venden a terceros por una simple cuestión de lógica y viabilidad, sino que se limitan – que no es poco – a permitir su explotación, con sus términos, sus condiciones y sus herramientas.

Ambos futuros, de hecho, podrían ser compatibles, aunque arrastran connotaciones relativamente complejas. Muchos han querido relacionar la idea de que las compañías que explotan nuestros datos paguen por ellos a sus legítimos propietarios un cierto porcentaje de las ganancias que generan con ellos, una suerte de “renta básica” que provendría de esa cesión consciente de nuestros datos para su explotación. La posibilidad de combinar esa idea con un modelo freemium que, potencialmente, excluyese a aquellos que pueden pagar por ellos de ese modelo basado en publicidad y de ese tratamiento de sus datos evoca una sociedad estratificada, con una capa privilegiada que paga por el derecho a su privacidad mientras otra se ve obligada a sacrificarla y ponerle un precio para obtener a cambio un determinado ingreso.

Por otro lado, una dualidad así requeriría de algunos análisis de escenarios: obviamente, eliminar a los perfiles potencialmente más interesantes del abanico al que un posible anunciante puede impactar a través de una red social es un factor que reduce el atractivo total de anunciarse en esa red social. Si la propuesta mayoritaria de una campaña en Facebook pasa a ser únicamente la de impactar a los que no pueden pagar para salvaguardar su privacidad, la inversión potencialmente realizada por esas marcas podría reducirse en consecuencia, y habría que ver hasta qué punto los ingresos recibidos por Facebook en concepto de suscripciones puede ser suficiente como para compensar esas pérdidas. El correspondiente análisis implica entender no solo el porcentaje de usuarios potencialmente interesados en pagar por ese servicio freemium,  sino también la correspondiente sensibilidad al precio, que podría buscar una estrategia de posicionamiento amplio o más o menos elitista.

¿Cuál es el futuro escenario para la explotación de nuestros datos personales, una actividad que hoy implica a unas pocas compañías, pero que muy posiblemente sea cada vez planteado por compañías en más y más ramos de actividad? Pagar a los usuarios por el acceso a esos datos? ¿Que sean los usuarios los que paguen para evitarlo? ¿Ambos? Muchas posibilidades, que posiblemente dependan de la evolución del escenario que se genere tras la aplicación de GPRD, y muy pocas certidumbres.

 

Library archive systemFacebook comenta, en una de las conferencias de su F8, cómo utiliza las etiquetas en los varios miles de millones de fotografías que los usuarios suben a Instagram, para entrenar a sus algoritmos de reconocimiento de imágenes, y cómo eso le ha permitido mejorar los estándares de la industria en este sentido y que sus algoritmos sean capaces de alcanzar una fiabilidad del 85.4%

La idea de Facebook de utilizar las imágenes subidas y etiquetadas por sus usuarios para entrenar algoritmos de reconocimiento ya había sido puesta en práctica anteriormente por Google, que utiliza los vídeos etiquetados de YouTube también de manera sistemática para exactamente lo mismo: a la hora de explicar a un algoritmo en qué consisten verbos como abrazarse, pelearse o cocinar, por ejemplo, pocas cosas pueden ser más explicativas que un vídeo etiquetado con esas palabras. El sistema, obviamente, no es perfecto, pero los errores cuando hablamos de etiquetado de una fotografía o vídeo llevado a cabo por el usuario que lo ha subido son más bien escasos, porque por norma general, el etiquetado tiene como misión facilitar una mejor localización del contenido.

Quien tiene un conjunto de datos etiquetados de manera razonablemente fiable tiene un tesoro, porque puede utilizarlos para entrenar a un algoritmo y conseguir que una máquina sea capaz de entender el significado de lo que hay en esos datos. Recientemente comenté el caso de Qure.ai, una compañía con la que entré en contacto a través de Netexplo, que recopilaba archivos de radiólogos y otros profesionales médicos que trabajaban con imágenes (escáneres, tomografías, etc.) y que solían guardarlos etiquetados con el diagnóstico correspondiente. Eso permitía, alimentando al correspondiente algoritmo, desarrollar un sistema capaz de diagnosticar tumores a partir de imágenes médicas, algo que hoy es preciso llevar a cabo de manera manual y que, obviamente, no está exento de error. Con el tiempo, la predicción de la compañía era que, a medida que la fiabilidad del algoritmo se incrementaba, los médicos muy probablemente dejarían de querer diagnosticar esas imágenes manualmente por miedo a pasar por alto determinados patrones que la máquina sí podía reconocer, algo que eventualmente, a lo largo del tiempo, podría determinar que esa habilidad se perdiese.

Cada vez está más clara la importancia de que las compañías de todo tipo sean conscientes de estas cuestiones. La clave ya no está en contar con los mejores profesionales, sino en el hecho de que tu actividad te permita generar datos estructurados que puedan ser utilizados para entrenar a los correspondientes algoritmos. Da igual lo que hagas, plantéatelo: ¿cómo podrías hacer que el día a día, la operativa de tu compañía sea capaz de generar ese repositorio de datos correctamente etiquetados que puedan ser suministrados a un algoritmo para su aprendizaje? ¿Qué podríamos llegar a hacer si un algoritmo consigue un nivel de fiabilidad elevada en ese sentido?

Como en todo, la cuestión es más de mentalidad que de otra cosa. Entender el problema permite llegar antes no solo a una definición de objetivos razonables, sino también a una identificación más rápida de problemas potenciales que permita trabajar en su resolución. A la hora de imaginar qué tareas puede llegar a hacer un algoritmo, la mayor parte de los directivos se encuentran con limitaciones de planteamiento: ven una gran cantidad de sus procesos como intrínsecamente humanos, y son incapaces de imaginar que determinadas habilidades para las que hoy se requiere una persona puedan llegar a ser dominadas por una máquina. Obviamente, los algoritmos no van a hacerlo todo, o al menos no de la noche a la mañana: los proyectos de machine learning precisan de una primera fase sumamente compleja y dura en la que que hay de definir objetivos concretos, recolectar datos, transformarlos y suplementarlos con más datos adicionales antes de poder pasar a armar modelos y hacer predicciones o diagnósticos que puedan ser evaluados… pero a pesar de la dificultad de esos proyectos, una cosa está clara: los datos son la auténtica barrera de entrada, la clave de la cuestión, lo que va a diferenciar a las compañías capaces de avanzar en ese sentido de aquellas que no lo consigan.

Orientar la actividad de una compañía a la generación de datos analizables no es algo que requiera un enorme esfuerzo ni cambios radicales: simplemente requiere entender los objetivos y atacar el problema de la manera adecuada. Empezar pronto, en cambio, es una garantía de, cuando menos, tener hechos los deberes para lo que pueda venir. Los datos como auténtica ventaja competitiva. Las compañías tecnológicas hace tiempo que lo tienen claro. ¿Qué puedes hacer tú en la tuya?

 

IMAGE: Nick Youngson CC BY-SA 3.0 Alpha Stock ImagesEste artículo largo en The Verge, How Tesla and Waymo are tackling a major problem for self driving cars: data es de lo mejor que he leído últimamente, y no tanto por los interesantes detalles sobre las estrategias de cara al desarrollo de la conducción autónoma de ambas compañías, que de por sí es susceptible de dar lugar a muchas interesantes discusiones, sino por la evidencia que presenta de manera palmaria: solo aquellas compañías que desarrollen y ejecuten una buena estrategia de datos lograrán ser competitivas en el futuro.

Puedes ser muy bueno haciendo lo que haces, pero a menos que elabores una estrategia específica que te permita producir, recoger y analizar datos, ten por seguro que va a aparecer alguien que terminará, en poco tiempo, haciendo lo que haces mucho mejor que tú. Esa es la esencia de la actividad empresarial hoy: los datos, convertidos en el nuevo elemento que define la competitividad.

Ese, de hecho, es el principal problema de todos los negacionistas que no aceptan que proyectos como el vehículo autónomo puedan convertirse en realidad en plazos mucho más reducidos de los que se manejan hoy en día: creen que las máquinas son eso, objetos inmutables que son diseñados de una manera determinada, y funcionan así a partir del momento en que son fabricados. Nada más lejos de la realidad: las máquinas han pasado de ser ingenios destinados a la automatización de tareas, a ser objetos capaces de incorporar aprendizaje de manera automática, de adquirir nuevos datos, procesarlos y obrar en consecuencia en función de reglas que derivan del análisis de esos mismos datos. Y no solo de los datos que genera esa máquina, sino de los que son capaces de generar a través de todo el parque de máquinas disponibles y de las distintas estrategias que podamos añadir. En el caso de compañías como Tesla o Waymo, esas estrategias no solo utilizan los datos que puedan generar sus flotas de vehículos – propia y directamente gestionada en el caso de Waymo, o en manos de terceros, de clientes de la compañía, en el caso de Tesla – sino que, además, incluyen todo tipo de tests en circuitos, en entornos virtuales o en todas las estrategias imaginables que permitan obtener y probar situaciones que puedan resultar más problemáticas, menos probables o más complejas.

El resultado es el que es: un vehículo autónomo “ha visto muchísimo más” que cualquier conductor humano por mucho que haya conducido en su vida, se ha enfrentado a más problemas que el mejor de los conductores, y además, lleva a cabo las posibles soluciones a problemas de una manera infinitamente más precisa. Pero vayamos más allá de la conducción autónoma, porque ese razonamiento, en realidad, puede extenderse a prácticamente cualquier actividad, y sobre todo, puede convertirse en una importante fuente de ventaja competitiva. Estamos llegando a un punto en el que lo más importante no es dar más préstamos, firmar más pólizas de seguros o vender más cursos que nadie: lo verdaderamente importante es cuánta información eres capaz de extraer de esas actividades, y de qué manera puedes procesarla para que tu compañía sea capaz de aprender de esos datos y mejorar su eficiencia frente al trabajo que desarrollan sus competidores.

Lo importante no es que la estrategia de datos de Tesla o la de Waymo puedan ser mejores, más eficientes o más rápidas: lo importante es entender que esas compañías son lo que son gracias al hecho de tener una estrategia de datos. ¿Tiene tu compañía una? Los datos, su generación y su análisis, convertidos en la verdadera arma competitiva. Eso es lo que la gran mayoría de directivos aún no han logrado entender. La necesidad de una adecuada estrategia de datos: no simplemente una que sea buena, sino además, que sea mejor que la de tus competidores. Se compite en generación de datos, en formas de obtener más datos, y en técnicas que permitan analizarlos de manera que podamos extraer más rendimiento en términos de aprendizaje. Esa es la nueva variable competitiva. Quien no lo entienda, que vaya pensando en una lenta, inexorable y asegurada deriva hacia la pérdida de competitividad. Quien no entienda y lleve a cabo ese tipo de estrategias en su compañía – y no es en absoluto tan sencillo como podría parecer en una primera interpretación – no será capaz de mantener su posición competitiva en el futuro.

 

Beam Dental InsuranceUna aseguradora dental norteamericana, Beam Dental, genera inquietud en algunos de sus clientes al decidir enviarles, como parte de un paquete de beneficios o perks incluidos en su póliza, un cepillo de dientes conectado que deben utilizar en combinación con una app en su smartphone, y que transmite los datos sobre sus hábitos de higiene bucodental a la compañía.

La aseguradora afirma que los datos de los usuarios no son vendidos o compartidos con ninguna otra compañía, y que son utilizados para promover mejores hábitos de higiene entre sus clientes y para, convenientemente agregados, poder proponer las mejores tarifas a cada grupo: muchas de estas pólizas en los Estados Unidos son financiadas por compañías que las ofrecen a sus empleados, lo que lleva al fundador y CEO de la compañía, Alex Frommeyer, a escribir artículos como este A CEO’s guide to group health 2.0, a tomar una aproximación proactiva e intensiva en datos de cara al cuidado de la salud de sus empleados.

¿Tiene sentido que la compañía que se hace responsable de los gastos derivados de la salud de tus dientes pretenda tener información detallada y exacta de tus hábitos de salud bucodental, o hablamos de una violación de la privacidad? Si lo pensamos, las aseguradoras de automóvil tienen información completa sobre nuestra accidentalidad, y en el caso de algunos países, es ya prácticamente imposible obtener un seguro para un conductor novel si no aceptamos que la compañía instale en su vehículo una caja negra que evalúa sus hábitos al volante. Las aseguradoras de salud o vida, por ejemplo, preguntan en sus cuestionarios las características y hábitos de sus asegurados y excluyen o incrementan el precio a aquellas personas con hábitos poco saludables, como el tabaco o el consumo excesivo de alcohol, o a aquellos que practican actividades o deportes que puedan suponer una elevación del riesgo.

La diferencia, a juzgar por la indignación de algunos consumidores, parece estar cuando se pasa de una información declarativa – el cliente declarando sobre sus hábitos, costumbres o factores que puedan afectar al riesgo – a una información retransmitida en tiempo real mediante un aparato conectado a internet y directamente a los ficheros de la compañía. Mientras en el primer caso, el usuario se siente dueño de sus datos y simplemente, salvo en el caso de que le demanden pruebas, análisis o diagnósticos, tiene cierta potestad para tomar la decisión de declarar o no una información determinada, en el segundo, esa información pasa sin prácticamente control por su parte de manera directa a la compañía, que puede tomar las decisiones oportunas en función de lo que esa información le revele acerca del posible riesgo implicado en la operación.

¿Debe la póliza dental de una persona con malos hábitos de higiene bucodental ser más cara que la de una persona con hábitos impolutos? Dado que los cálculos de una aseguradora se llevan a cabo sobre la totalidad de su cartera, cabe argumentar que si una aseguradora consigue tener en esa cartera a un número más elevado de clientes con buenos hábitos, podría obtener un beneficio superior y, por tanto, sería susceptible de ofrecer mejores precios – si tomase, lógicamente, la opción de trasladar esos ahorros al cliente final – que si se viese obligada a incurrir en muchos más gastos por tener muchos asegurados con malos hábitos. Desde el punto de vista del cliente, cuantos mejor sea la calidad media de la cartera, mejores precios podría aspirar a obtener, lo que permitiría a la aseguradora ser más competitiva si consigue mantener esa calidad. En una situación así, los clientes que decidiesen mantener unos hábitos de higiene malos, se verían obligados a incurrir en un gasto superior o a buscar aseguradoras que estuviesen dispuestas a aceptar un riesgo mayor.

En realidad, es exactamente lo que desde hace muchos años ocurre con otros ramos del seguro como el automóvil, y que en los últimos tiempos se procura evaluar de una manera cada vez más fehaciente recurriendo a esas cajas negras, sensores, apps, etc. En el caso de la salud, se está detectando un incremento cada vez mayor en el número de compañías que ofrecen a sus trabajadores el acceso a tests genéticos, algo que, según algunos, pone en manos del trabajador una información que no necesariamente está preparado para aceptar y es susceptible de generar incertidumbre, preocupación o incluso toma de decisiones no completamente racionales, como extirparse determinados órganos en función de una supuesta propensión a un carcinoma que no tendría necesariamente que expresarse y para cuyo riesgo, posiblemente, sería más que suficiente generar una rutina de monitorización periódica adecuada. Por otro lado, tener a un trabajador con riesgos sensiblemente incrementados podría, hipotéticamente, conllevar un aumento en el precio de la póliza colectiva de salud que las compañías ofrecen a sus empleados, lo que sería susceptible de provocar discriminación, en contra de lo que establece la Genetic Information Nondiscrimination Act (GINA) promulgada en 2008.

Resulta fácil imaginar otros tipos de usos: ¿podría beneficiarme de un seguro de hogar en mejores condiciones si decidiese compartir los datos generados por determinados dispositivos en mi hogar que son susceptibles de evitar, por ejemplo, una inundación o un incendio? ¿O si comparto los datos de mi alarma, que demuestran que soy muy riguroso en su uso y, por tanto, reducen sensiblemente la probabilidad de un robo? El uso de pulseras monitorizadoras de la actividad física en entornos corporativos, por ejemplo, sería un caso similar, pero con algunos detalles adicionales: toda compañía está, en principio, interesada en tener empleados más sanos y con hábitos de ejercicio más saludables. Pero cuando ese interés se traduce, además, en mejores precios en la póliza de salud corporativa, la cuestión podría, hipotéticamente, dar lugar a discriminación en aquellos empleados que no mantienen esos hábitos saludables, dado que supondrían un empeoramiento neto de la cartera y, por tanto, un riesgo superior.

El negocio asegurador siempre ha consistido en llevar a cabo la estimación de un riesgo y ofrecer un contrato que recoja la eventualidad de que ese riesgo se produzca, contrato tasado en función de la probabilidad que la compañía le asigna. Los baremos que tradicionalmente se aplican en la mayoría de los ramos del seguro son simples indicaciones en función de parámetros que no afectan demasiado a la privacidad, como la edad, el sexo o algunas circunstancias evaluadas en función de cuestionarios. En ese sentido, las aseguradoras llevan a cabo su trabajo en un entorno de incertidumbre, aseguran relativamente a ciegas, y confían en que esos parámetros les permitan aproximar esa probabilidad de riesgo. En plena era de la internet de las cosas, la lógica apunta a que las aseguradoras intenten cada vez tener la mayor información posible sobre los riesgos que aseguran. ¿Es esto compatible con la idea de privacidad que tienen sus clientes? ¿Debe serlo? ¿Quieren los clientes que lo sea o prefieren, supuestamente, acceder a beneficios – o a precios más elevados – en función de las circunstancias que revelen esos dispositivos? ¿Vamos hacia un entorno cada vez más controlado, en el que la mayoría de los riesgos puedan ser detectados de manera inmediata y eventualmente afecten a lo que pagamos por nuestros seguros o a otro tipo de elementos, potencialmente incluyendo el desarrollo de un modelo de salud cada vez más basada en la prevención? ¿Cuál es la sensibilidad del cliente medio a la hora de compartir información con su aseguradora?