IMAGE: Nick Youngson CC BY-SA 3.0 Alpha Stock ImagesDos noticias aparentemente contrapuestas me llaman la atención esta semana en el complejo asunto de la Facebook post-Cambridge Analytica y el futuro que la espera: por un lado, la compañía está llevando a cabo estudios de mercado destinados a intentar averiguar qué porcentaje de usuarios podría estar interesado en un modelo de suscripción, un pago mensual a cambio de utilizar la red social sin verse sometido a ningún tipo de publicidad ni a tratamiento de sus datos. Por otro, unas declaraciones de Matt Hancock, Secretario de Estado de Digital, Cultura, Medios y Deporte del Reino Unido, en las que afirma estar abierto a la idea de obligar a plataformas digitales como Facebook o Google a pagar por los datos que extraen de sus cientos de millones de usuarios.

¿Cuál es el futuro de nuestros datos personales? En el momento actual, y a la espera del escenario que resulte tras la entrada en vigor, el próximo 25 de mayo, del Reglamento General de Protección de Datos en la Unión Europea (que afecta a todo aquel qe pretenda desarrollar relaciones o negocio de algún tipo con sus ciudadanos), nuestros datos están simplemente ahí, abiertos a prácticamente cualquier tipo de recolección, análisis o transacción de cualquier tipo. Poco ayuda a la especulación sobre el futuro el enorme analfabetismo de la mayoría de la población en este aspecto, carente de cualquier tipo de fundamento o lógica empresarial y que lleva a una gran cantidad de personas a pensar que sus datos son un objeto constante de compraventa entre compañías: con excepciones, nuestros datos son recopilados, procesados y explotados por las mismas compañías, que no los venden a terceros por una simple cuestión de lógica y viabilidad, sino que se limitan – que no es poco – a permitir su explotación, con sus términos, sus condiciones y sus herramientas.

Ambos futuros, de hecho, podrían ser compatibles, aunque arrastran connotaciones relativamente complejas. Muchos han querido relacionar la idea de que las compañías que explotan nuestros datos paguen por ellos a sus legítimos propietarios un cierto porcentaje de las ganancias que generan con ellos, una suerte de “renta básica” que provendría de esa cesión consciente de nuestros datos para su explotación. La posibilidad de combinar esa idea con un modelo freemium que, potencialmente, excluyese a aquellos que pueden pagar por ellos de ese modelo basado en publicidad y de ese tratamiento de sus datos evoca una sociedad estratificada, con una capa privilegiada que paga por el derecho a su privacidad mientras otra se ve obligada a sacrificarla y ponerle un precio para obtener a cambio un determinado ingreso.

Por otro lado, una dualidad así requeriría de algunos análisis de escenarios: obviamente, eliminar a los perfiles potencialmente más interesantes del abanico al que un posible anunciante puede impactar a través de una red social es un factor que reduce el atractivo total de anunciarse en esa red social. Si la propuesta mayoritaria de una campaña en Facebook pasa a ser únicamente la de impactar a los que no pueden pagar para salvaguardar su privacidad, la inversión potencialmente realizada por esas marcas podría reducirse en consecuencia, y habría que ver hasta qué punto los ingresos recibidos por Facebook en concepto de suscripciones puede ser suficiente como para compensar esas pérdidas. El correspondiente análisis implica entender no solo el porcentaje de usuarios potencialmente interesados en pagar por ese servicio freemium,  sino también la correspondiente sensibilidad al precio, que podría buscar una estrategia de posicionamiento amplio o más o menos elitista.

¿Cuál es el futuro escenario para la explotación de nuestros datos personales, una actividad que hoy implica a unas pocas compañías, pero que muy posiblemente sea cada vez planteado por compañías en más y más ramos de actividad? Pagar a los usuarios por el acceso a esos datos? ¿Que sean los usuarios los que paguen para evitarlo? ¿Ambos? Muchas posibilidades, que posiblemente dependan de la evolución del escenario que se genere tras la aplicación de GPRD, y muy pocas certidumbres.

 

Library archive systemFacebook comenta, en una de las conferencias de su F8, cómo utiliza las etiquetas en los varios miles de millones de fotografías que los usuarios suben a Instagram, para entrenar a sus algoritmos de reconocimiento de imágenes, y cómo eso le ha permitido mejorar los estándares de la industria en este sentido y que sus algoritmos sean capaces de alcanzar una fiabilidad del 85.4%

La idea de Facebook de utilizar las imágenes subidas y etiquetadas por sus usuarios para entrenar algoritmos de reconocimiento ya había sido puesta en práctica anteriormente por Google, que utiliza los vídeos etiquetados de YouTube también de manera sistemática para exactamente lo mismo: a la hora de explicar a un algoritmo en qué consisten verbos como abrazarse, pelearse o cocinar, por ejemplo, pocas cosas pueden ser más explicativas que un vídeo etiquetado con esas palabras. El sistema, obviamente, no es perfecto, pero los errores cuando hablamos de etiquetado de una fotografía o vídeo llevado a cabo por el usuario que lo ha subido son más bien escasos, porque por norma general, el etiquetado tiene como misión facilitar una mejor localización del contenido.

Quien tiene un conjunto de datos etiquetados de manera razonablemente fiable tiene un tesoro, porque puede utilizarlos para entrenar a un algoritmo y conseguir que una máquina sea capaz de entender el significado de lo que hay en esos datos. Recientemente comenté el caso de Qure.ai, una compañía con la que entré en contacto a través de Netexplo, que recopilaba archivos de radiólogos y otros profesionales médicos que trabajaban con imágenes (escáneres, tomografías, etc.) y que solían guardarlos etiquetados con el diagnóstico correspondiente. Eso permitía, alimentando al correspondiente algoritmo, desarrollar un sistema capaz de diagnosticar tumores a partir de imágenes médicas, algo que hoy es preciso llevar a cabo de manera manual y que, obviamente, no está exento de error. Con el tiempo, la predicción de la compañía era que, a medida que la fiabilidad del algoritmo se incrementaba, los médicos muy probablemente dejarían de querer diagnosticar esas imágenes manualmente por miedo a pasar por alto determinados patrones que la máquina sí podía reconocer, algo que eventualmente, a lo largo del tiempo, podría determinar que esa habilidad se perdiese.

Cada vez está más clara la importancia de que las compañías de todo tipo sean conscientes de estas cuestiones. La clave ya no está en contar con los mejores profesionales, sino en el hecho de que tu actividad te permita generar datos estructurados que puedan ser utilizados para entrenar a los correspondientes algoritmos. Da igual lo que hagas, plantéatelo: ¿cómo podrías hacer que el día a día, la operativa de tu compañía sea capaz de generar ese repositorio de datos correctamente etiquetados que puedan ser suministrados a un algoritmo para su aprendizaje? ¿Qué podríamos llegar a hacer si un algoritmo consigue un nivel de fiabilidad elevada en ese sentido?

Como en todo, la cuestión es más de mentalidad que de otra cosa. Entender el problema permite llegar antes no solo a una definición de objetivos razonables, sino también a una identificación más rápida de problemas potenciales que permita trabajar en su resolución. A la hora de imaginar qué tareas puede llegar a hacer un algoritmo, la mayor parte de los directivos se encuentran con limitaciones de planteamiento: ven una gran cantidad de sus procesos como intrínsecamente humanos, y son incapaces de imaginar que determinadas habilidades para las que hoy se requiere una persona puedan llegar a ser dominadas por una máquina. Obviamente, los algoritmos no van a hacerlo todo, o al menos no de la noche a la mañana: los proyectos de machine learning precisan de una primera fase sumamente compleja y dura en la que que hay de definir objetivos concretos, recolectar datos, transformarlos y suplementarlos con más datos adicionales antes de poder pasar a armar modelos y hacer predicciones o diagnósticos que puedan ser evaluados… pero a pesar de la dificultad de esos proyectos, una cosa está clara: los datos son la auténtica barrera de entrada, la clave de la cuestión, lo que va a diferenciar a las compañías capaces de avanzar en ese sentido de aquellas que no lo consigan.

Orientar la actividad de una compañía a la generación de datos analizables no es algo que requiera un enorme esfuerzo ni cambios radicales: simplemente requiere entender los objetivos y atacar el problema de la manera adecuada. Empezar pronto, en cambio, es una garantía de, cuando menos, tener hechos los deberes para lo que pueda venir. Los datos como auténtica ventaja competitiva. Las compañías tecnológicas hace tiempo que lo tienen claro. ¿Qué puedes hacer tú en la tuya?

 

IMAGE: Nick Youngson CC BY-SA 3.0 Alpha Stock ImagesEste artículo largo en The Verge, How Tesla and Waymo are tackling a major problem for self driving cars: data es de lo mejor que he leído últimamente, y no tanto por los interesantes detalles sobre las estrategias de cara al desarrollo de la conducción autónoma de ambas compañías, que de por sí es susceptible de dar lugar a muchas interesantes discusiones, sino por la evidencia que presenta de manera palmaria: solo aquellas compañías que desarrollen y ejecuten una buena estrategia de datos lograrán ser competitivas en el futuro.

Puedes ser muy bueno haciendo lo que haces, pero a menos que elabores una estrategia específica que te permita producir, recoger y analizar datos, ten por seguro que va a aparecer alguien que terminará, en poco tiempo, haciendo lo que haces mucho mejor que tú. Esa es la esencia de la actividad empresarial hoy: los datos, convertidos en el nuevo elemento que define la competitividad.

Ese, de hecho, es el principal problema de todos los negacionistas que no aceptan que proyectos como el vehículo autónomo puedan convertirse en realidad en plazos mucho más reducidos de los que se manejan hoy en día: creen que las máquinas son eso, objetos inmutables que son diseñados de una manera determinada, y funcionan así a partir del momento en que son fabricados. Nada más lejos de la realidad: las máquinas han pasado de ser ingenios destinados a la automatización de tareas, a ser objetos capaces de incorporar aprendizaje de manera automática, de adquirir nuevos datos, procesarlos y obrar en consecuencia en función de reglas que derivan del análisis de esos mismos datos. Y no solo de los datos que genera esa máquina, sino de los que son capaces de generar a través de todo el parque de máquinas disponibles y de las distintas estrategias que podamos añadir. En el caso de compañías como Tesla o Waymo, esas estrategias no solo utilizan los datos que puedan generar sus flotas de vehículos – propia y directamente gestionada en el caso de Waymo, o en manos de terceros, de clientes de la compañía, en el caso de Tesla – sino que, además, incluyen todo tipo de tests en circuitos, en entornos virtuales o en todas las estrategias imaginables que permitan obtener y probar situaciones que puedan resultar más problemáticas, menos probables o más complejas.

El resultado es el que es: un vehículo autónomo “ha visto muchísimo más” que cualquier conductor humano por mucho que haya conducido en su vida, se ha enfrentado a más problemas que el mejor de los conductores, y además, lleva a cabo las posibles soluciones a problemas de una manera infinitamente más precisa. Pero vayamos más allá de la conducción autónoma, porque ese razonamiento, en realidad, puede extenderse a prácticamente cualquier actividad, y sobre todo, puede convertirse en una importante fuente de ventaja competitiva. Estamos llegando a un punto en el que lo más importante no es dar más préstamos, firmar más pólizas de seguros o vender más cursos que nadie: lo verdaderamente importante es cuánta información eres capaz de extraer de esas actividades, y de qué manera puedes procesarla para que tu compañía sea capaz de aprender de esos datos y mejorar su eficiencia frente al trabajo que desarrollan sus competidores.

Lo importante no es que la estrategia de datos de Tesla o la de Waymo puedan ser mejores, más eficientes o más rápidas: lo importante es entender que esas compañías son lo que son gracias al hecho de tener una estrategia de datos. ¿Tiene tu compañía una? Los datos, su generación y su análisis, convertidos en la verdadera arma competitiva. Eso es lo que la gran mayoría de directivos aún no han logrado entender. La necesidad de una adecuada estrategia de datos: no simplemente una que sea buena, sino además, que sea mejor que la de tus competidores. Se compite en generación de datos, en formas de obtener más datos, y en técnicas que permitan analizarlos de manera que podamos extraer más rendimiento en términos de aprendizaje. Esa es la nueva variable competitiva. Quien no lo entienda, que vaya pensando en una lenta, inexorable y asegurada deriva hacia la pérdida de competitividad. Quien no entienda y lleve a cabo ese tipo de estrategias en su compañía – y no es en absoluto tan sencillo como podría parecer en una primera interpretación – no será capaz de mantener su posición competitiva en el futuro.

 

Beam Dental InsuranceUna aseguradora dental norteamericana, Beam Dental, genera inquietud en algunos de sus clientes al decidir enviarles, como parte de un paquete de beneficios o perks incluidos en su póliza, un cepillo de dientes conectado que deben utilizar en combinación con una app en su smartphone, y que transmite los datos sobre sus hábitos de higiene bucodental a la compañía.

La aseguradora afirma que los datos de los usuarios no son vendidos o compartidos con ninguna otra compañía, y que son utilizados para promover mejores hábitos de higiene entre sus clientes y para, convenientemente agregados, poder proponer las mejores tarifas a cada grupo: muchas de estas pólizas en los Estados Unidos son financiadas por compañías que las ofrecen a sus empleados, lo que lleva al fundador y CEO de la compañía, Alex Frommeyer, a escribir artículos como este A CEO’s guide to group health 2.0, a tomar una aproximación proactiva e intensiva en datos de cara al cuidado de la salud de sus empleados.

¿Tiene sentido que la compañía que se hace responsable de los gastos derivados de la salud de tus dientes pretenda tener información detallada y exacta de tus hábitos de salud bucodental, o hablamos de una violación de la privacidad? Si lo pensamos, las aseguradoras de automóvil tienen información completa sobre nuestra accidentalidad, y en el caso de algunos países, es ya prácticamente imposible obtener un seguro para un conductor novel si no aceptamos que la compañía instale en su vehículo una caja negra que evalúa sus hábitos al volante. Las aseguradoras de salud o vida, por ejemplo, preguntan en sus cuestionarios las características y hábitos de sus asegurados y excluyen o incrementan el precio a aquellas personas con hábitos poco saludables, como el tabaco o el consumo excesivo de alcohol, o a aquellos que practican actividades o deportes que puedan suponer una elevación del riesgo.

La diferencia, a juzgar por la indignación de algunos consumidores, parece estar cuando se pasa de una información declarativa – el cliente declarando sobre sus hábitos, costumbres o factores que puedan afectar al riesgo – a una información retransmitida en tiempo real mediante un aparato conectado a internet y directamente a los ficheros de la compañía. Mientras en el primer caso, el usuario se siente dueño de sus datos y simplemente, salvo en el caso de que le demanden pruebas, análisis o diagnósticos, tiene cierta potestad para tomar la decisión de declarar o no una información determinada, en el segundo, esa información pasa sin prácticamente control por su parte de manera directa a la compañía, que puede tomar las decisiones oportunas en función de lo que esa información le revele acerca del posible riesgo implicado en la operación.

¿Debe la póliza dental de una persona con malos hábitos de higiene bucodental ser más cara que la de una persona con hábitos impolutos? Dado que los cálculos de una aseguradora se llevan a cabo sobre la totalidad de su cartera, cabe argumentar que si una aseguradora consigue tener en esa cartera a un número más elevado de clientes con buenos hábitos, podría obtener un beneficio superior y, por tanto, sería susceptible de ofrecer mejores precios – si tomase, lógicamente, la opción de trasladar esos ahorros al cliente final – que si se viese obligada a incurrir en muchos más gastos por tener muchos asegurados con malos hábitos. Desde el punto de vista del cliente, cuantos mejor sea la calidad media de la cartera, mejores precios podría aspirar a obtener, lo que permitiría a la aseguradora ser más competitiva si consigue mantener esa calidad. En una situación así, los clientes que decidiesen mantener unos hábitos de higiene malos, se verían obligados a incurrir en un gasto superior o a buscar aseguradoras que estuviesen dispuestas a aceptar un riesgo mayor.

En realidad, es exactamente lo que desde hace muchos años ocurre con otros ramos del seguro como el automóvil, y que en los últimos tiempos se procura evaluar de una manera cada vez más fehaciente recurriendo a esas cajas negras, sensores, apps, etc. En el caso de la salud, se está detectando un incremento cada vez mayor en el número de compañías que ofrecen a sus trabajadores el acceso a tests genéticos, algo que, según algunos, pone en manos del trabajador una información que no necesariamente está preparado para aceptar y es susceptible de generar incertidumbre, preocupación o incluso toma de decisiones no completamente racionales, como extirparse determinados órganos en función de una supuesta propensión a un carcinoma que no tendría necesariamente que expresarse y para cuyo riesgo, posiblemente, sería más que suficiente generar una rutina de monitorización periódica adecuada. Por otro lado, tener a un trabajador con riesgos sensiblemente incrementados podría, hipotéticamente, conllevar un aumento en el precio de la póliza colectiva de salud que las compañías ofrecen a sus empleados, lo que sería susceptible de provocar discriminación, en contra de lo que establece la Genetic Information Nondiscrimination Act (GINA) promulgada en 2008.

Resulta fácil imaginar otros tipos de usos: ¿podría beneficiarme de un seguro de hogar en mejores condiciones si decidiese compartir los datos generados por determinados dispositivos en mi hogar que son susceptibles de evitar, por ejemplo, una inundación o un incendio? ¿O si comparto los datos de mi alarma, que demuestran que soy muy riguroso en su uso y, por tanto, reducen sensiblemente la probabilidad de un robo? El uso de pulseras monitorizadoras de la actividad física en entornos corporativos, por ejemplo, sería un caso similar, pero con algunos detalles adicionales: toda compañía está, en principio, interesada en tener empleados más sanos y con hábitos de ejercicio más saludables. Pero cuando ese interés se traduce, además, en mejores precios en la póliza de salud corporativa, la cuestión podría, hipotéticamente, dar lugar a discriminación en aquellos empleados que no mantienen esos hábitos saludables, dado que supondrían un empeoramiento neto de la cartera y, por tanto, un riesgo superior.

El negocio asegurador siempre ha consistido en llevar a cabo la estimación de un riesgo y ofrecer un contrato que recoja la eventualidad de que ese riesgo se produzca, contrato tasado en función de la probabilidad que la compañía le asigna. Los baremos que tradicionalmente se aplican en la mayoría de los ramos del seguro son simples indicaciones en función de parámetros que no afectan demasiado a la privacidad, como la edad, el sexo o algunas circunstancias evaluadas en función de cuestionarios. En ese sentido, las aseguradoras llevan a cabo su trabajo en un entorno de incertidumbre, aseguran relativamente a ciegas, y confían en que esos parámetros les permitan aproximar esa probabilidad de riesgo. En plena era de la internet de las cosas, la lógica apunta a que las aseguradoras intenten cada vez tener la mayor información posible sobre los riesgos que aseguran. ¿Es esto compatible con la idea de privacidad que tienen sus clientes? ¿Debe serlo? ¿Quieren los clientes que lo sea o prefieren, supuestamente, acceder a beneficios – o a precios más elevados – en función de las circunstancias que revelen esos dispositivos? ¿Vamos hacia un entorno cada vez más controlado, en el que la mayoría de los riesgos puedan ser detectados de manera inmediata y eventualmente afecten a lo que pagamos por nuestros seguros o a otro tipo de elementos, potencialmente incluyendo el desarrollo de un modelo de salud cada vez más basada en la prevención? ¿Cuál es la sensibilidad del cliente medio a la hora de compartir información con su aseguradora?

 

IMAGE: Ryoji Ikeda (CC BY SA)Los recientes escándalos en torno al uso de los datos personales de los usuarios, las reacciones de Facebook y de otras compañías para mejorar su forma de tratar los datos y tratar de retomar el control de la situación, unidos a la próxima entrada en vigor de la Directiva General de Protección de Datos (GDPR) en la Unión Europea, están trayendo una corriente de pensamiento significativa en torno a la vieja idea de los datos personales como nuevo petróleo, la posible regulación de aquellas compañías que los utilizan para su negocio, y los modelos económicos que puedan surgir a partir de este tipo de esquemas de explotación.

La idea, obviamente, se encuentra en una fase inicial ampliamente especulativa, pero resulta interesante como food for thought: ¿qué traería consigo una economía fundamentada en el reparto de los ingresos que pueden obtenerse a partir de los datos de las personas? ¿No supone, en cierto sentido, una referencia circular (el que vende un producto o servicio paga por utilizar unos datos personales para vender mejor, y el que compra paga gracias a la cesión de esos mismos datos personales) o, en realidad, una entelequia como tal, una forma de plantearse justificar algún tipo de renta básica incondicional en base a la explotación de un recurso? El caso del Fondo Permanente de Alaska, que reparte una parte de los ingresos del petróleo extraído en el subsuelo del estado con sus residentes en forma de pagos periódicos, es utilizado en muchos artículos como un elemento de inspiración, como un paralelismo entre un estado que reparte los ingresos de la explotación de un recurso con unos ciudadanos que son, en muchos sentidos, copropietarios del mismo. ¿Hasta dónde puede llegar la idea de que las compañías que se enriquecen con los datos personales de sus usuarios se vean obligadas a compartir una parte de las rentas generadas por el uso de esos datos con los legítimos propietarios de los mismos, dando lugar así a unos ingresos? ¿Puede basarse una economía digital en la propiedad pública o privada de los datos de las personas, y constituirse fondos que remuneran a esas personas en función del uso de sus datos y de la rentabilidad potencial extraída a partir de los mismos? ¿Estamos hablando, como sugiere Wired, de una nueva guerra fría derivada de los modelos de explotación de datos de las distintas economías y países?

¿Qué características tendría una economía de este tipo, suponiendo que fuese posible? ¿Cuántos recursos pueden extraerse de las compañías que hoy explotan nuestros datos de manera que hacerlo siguiesen representando un negocio razonablemente rentable, pero además, brindase una fuente de ingresos a los propietarios de esos datos, y una serie de alternativas u opciones de control sobre el uso que se lleva a cabo de esos datos? ¿Podríamos llegar a definir las violaciones de privacidad, o el simple hecho de recibir un anuncio al margen de la explotación que hemos autorizado de nuestros datos, como los nuevos tipos delictivos? ¿Quiénes serían los pobres y los ricos en una economía definida en función de esas variables? ¿Tendería ese sistema a la desigualdad – después de todo, podríamos considerar que los datos de una persona son susceptibles de valer más si su poder adquisitivo es más elevado – o a una ecualización progresiva de la sociedad? ¿Qué pasa si los usuarios pasan a tener control total sobre sus datos y toman decisiones en función de sus intereses, como cederlos a unas compañías sí y a otras no, al tiempo que participan de los ingresos generados por ellas? ¿Encontraríamos a “ricos” que no precisan de cesiones de sus datos y viven una vida plácida, no castigados por constantes impactos publicitarios, mientras otros, “pobres”, se ven obligados a aceptar un bombardeo permanente? ¿Y qué ocurre con alternativas como China, en las que es el estado el que tiene acceso a todos los datos y lo utiliza como parte de un sistema de control social?

La entrada de hoy es todo preguntas. sí. ¿Estamos empezando a especular sobre algo que podría terminar siendo la base de todo un nuevo sistema económico y social? Hasta el momento, algunas de las compañías más grandes del mundo lo son porque descubrieron una manera de explotar los datos de sus usuarios que podía brindarles cuantiosos ingresos: ¿es sostenible ese modelo, o estamos viendo, merced a los recientes escándalos, el final del mismo y la llegada de formas alternativas de control sobre la actividad de esas compañías? Y si fuese así, considerando que hablamos de un modelo económico, el de la explotación de los datos, que ha probado su capacidad de generación de ingresos millonarios…  ¿tiene sentido que pasemos a otro, presuntamente más avanzado, en el que esos ingresos revierten no solo en esas compañías y en sus accionistas, sino también en sus usuarios? ¿O es todo parte de un proceso de alucinación colectiva? ¿Cuánto hay de realidad posible en la idea de una economía basada en los datos y en su control?