OscarLa ceremonia de entrega de los Oscars, recién concluida hace unos instantes, me ha dejado un sabor de boca muy interesante: los galardones han ido cayendo, uno detrás de otro, siguiendo las predicciones publicadas anteriormente por los algoritmos que, el pasado 1 de marzo, publicó BigML, la compañía de machine learning en la que soy asesor estratégico. Y cuando digo “uno detrás de otro”, realmente me refiero a eso: un pleno. Absoluto. Los candidatos de todas y cada una de las seis grandes categorías que  el algoritmo señaló como favoritos (mejor película, mejor director, mejor actor, mejor actriz, mejor actor secundario y mejor actriz secundaria) han terminado obteniendo el correspondiente galardón.

¿Magia? Suerte? No, simplemente machine learning. Es lo que tiene trabajar con la optimización de un algoritmo. Como ingredientes, las características de la película (duración, presupuesto, género, etc.), su evaluación en IMDB, y sus nominaciones en una serie de premios anteriores (Globos de Oro, BAFTA, Screen Actors Guild, y Critics Choice), aplicados además a la misma base de datos histórica desde el 2000 al 2017 utilizada en las predicciones del año anterior. En total, algo más de cien datos por película. Este año, se eliminaron del cálculo las puntuaciones otorgadas por los usuarios en IMDB, que el año anterior no resultaron ser importantes y que resultan complejas de adquirir. Finalmente, se evaluaron los resultados de las predicciones aplicándolos a los de las películas entre 2013 y 2016, con muy buenos resultados: los modelos fueron capaces de predecir los ganadores de cada categoría en durante cuatro años consecutivos con muy pocos errores.

Cuando ves un resultado así, y además, entiendes cómo se ha obtenido, tienes una extraña sensación de predictibilidad, entre el “qué lógico es todo” y el “ya lo decía yo”. En realidad, se trata simplemente de aplicar la metodología adecuada a los datos adecuados: el año pasado, ensembles. Este año, deepnets, redes neuronales profundas. Un modelo por categoría premiada, que tarda alrededor de media hora en ser entrenado probando docenas de redes diferentes en segundo plano, y que termina generando la construcción de un clasificador de alto rendimiento. Obviamente, podríamos encontrarnos una categoría en la que, por la razón que fuese, surgiese un ganador que rompiese con todas las predicciones, que ganase contra todo pronóstico… pero es menos probable cuanto más y mejores datos vas teniendo para educar tus algoritmos.

Esto no es más que un ejercicio. Muchas empresas lo hacen: todos sabemos que el objetivo de IBM, el de Google o el de la Universidad de Carnegie Mellon cuando crean algoritmos capaces de ganar al ajedrez, al Jeopardy, al Go o al poker no está en ganar esos juegos, sino en ser capaz de demostrar las posibilidades de su tecnología. El resultado está, muchas veces, sujeto al sensacionalismo o al riesgo de quedarse en lo meramente anecdótico, según cómo se cuente y cómo se lea. Pero como ejercicio, va un poco más allá de lo meramente anecdótico: puede servir para que algunos en situación de tomar decisiones empiecen a entender el tipo de cosas que se pueden hacer con herramientas como el machine learning, y las posibles aplicaciones que pueden tener a sus compañías. Repetimos: no es magia: una parte importantísima del trabajo está en la definición del objetivo, en obtener los datos adecuados, en su transformación y en todos los aspectos que hay que llevar a cabo antes de obtener un modelo y evaluarlo. Las empresas reales no suelen ser así: los datos no suelen ser fácil de encontrar, ni estar en el formato adecuado, ni poder importarse a una base de datos de manera inmediata y sencilla, ni siquiera estar completos. En muchas ocasiones, ni siquiera el objetivo está adecuadamente definido. No, no es magia, es trabajo. Alguien tiene que definirlo adecuadamente, hacerlo, y contar para ello con las herramientas adecuadas que combinen capacidad y facilidad para la interpretación. Pero cuando se tienen esos datos y esas herramientas, los resultados obtenidos tienen sentido, y pueden servir para que algunos entiendan de qué estamos hablando. Los Oscars de 2018 los ha ganado… el machine learning.

 

Comments are closed.