¿Jugar a ser el mejor con los datos?
Fecha de la noticia: 31-01-2019

Competir públicamente con tus colegas de profesión para solucionar un problema complejo basado en datos es una motivación irresistible para algunos. Casi tan tentador, como obtener relevancia en un campo de especialización tan emocionante y lucrativo como la ciencia de datos.
Las competiciones públicas para resolver problemas complejos, cuya materia prima de trabajo son datos públicamente disponibles, son una tendencia consolidada en el mundo de la ciencia de datos. Desde la predicción de terremotos hasta anticipar una rotura de stock en un gran centro de distribución son problemas basados en datos. Los nuevos métodos de machine learning y deep learning, así como la facilidad de acceso a potente tecnología de cálculo, han hecho posible que empresas y organizaciones de todo el mundo hayan abierto sus problemas de negocio a comunidades de científicos de datos que compiten entre sí para resolver el problema de la mejor forma posible a cambio de una recompensa económica.
Hace diez años que la, ahora todo poderosa y conocida, plataforma de vídeo en streaming Netflix, publicaba su Netflix Prize. El Premio Netflix fue una competición abierta que buscaba mejorar el algoritmo de filtrado colaborativo para predecir las calificaciones que los usuarios daban a las películas. El algoritmo se basa en las calificaciones anteriores sin ninguna otra información sobre los usuarios o las películas. El concurso estuvo abierto a cualquier persona que no tuviera vinculación estrecha con la compañía. El 21 de septiembre de 2009, se otorgó el gran premio de 1.000.000 $ al equipo Pragmatic Chaos de BellKor, que superó al algoritmo actual (en aquel entonces) de Netflix para predecir las calificaciones en más de un 10%.
El Premio Netflix abrió una nueva veta en el fértil campo de la ciencia de datos recompensando económicamente (con la nada desdeñable cantidad de 1M$) a aquellos equipos externos que fueran capaces de mejorar la clave de su negocio (su sistema de recomendaciones). Netflix, como muchas otras, era y es consciente de que el talento necesario para mejorar su, de por sí, sofisticado algoritmo, no se encontraba dentro de su organización si no fuera de ella.
A partir de ese momento, muchas otras competiciones similares se han abierto para solucionar toda clase de problemas basados en datos. Hasta han aparecido plataformas para gestionar este tipo de competiciones y crear una comunidad de talentosos científicos de datos alrededor de los mayores desafíos del mundo en materia de ciencia de datos. Quizás el sitio web Kaggle sea una de las plataformas de este tipo más populares para este tipo de competiciones. En el momento de escribir este artículo, existen en Kaggle 9 competiciones (activas) remuneradas por valor de 370.000 $. También hay competiciones no remuneradas económicamente (otras 9) que otorgan a los ganadores conocimiento y puntos (kudos) dentro de la propia plataforma para incentivar su uso continuado. Para cada competición, la plataforma gestiona los conjuntos de datos disponibles (datasets) así como los kernels - unos entornos de trabajo en la nube que permiten ejecutar los algoritmos de forma desatendida y reproducible por todos los participantes. Además, la plataforma establece las formas de valorar la competición así como los códigos éticos y las licencias de uso de los datos hospedados.
Además de su función como plataforma de competiciones públicas de datos, Kaggle y otras plataformas similares como ImageNet o KDD realizan una gran función como repositorios de datos abiertos. En la actualidad Kaggle registra más de 14.000 conjuntos de datos en diferentes formatos, listos para ser explotados y analizados por los científicos de datos más atrevidos del planeta. Kaggle documenta de forma extensa los conjuntos de datos disponibles en la plataforma. Los formatos de datos, comúnmente aceptados, son CSVs, JSON, SQLite, archivos comprimidos en formato ZIP y BigQuery (el formato SQL para BigData diseñado por Google). Las licencias más habituales para el uso y la redistribución de datos de la plataforma son Creative Commons, GPL y Open Database.
Plataformas como Kaggle son fantásticas. En mi opinión, el mayor beneficio de Kaggle es la capacidad de aprendizaje que ofrece, especialmente a los científicos de datos más jóvenes. En Kaggle puedes aprender mucho sobre el modelado de datos, quizás incluso mucho más de lo que normalmente se necesita en el 90% de los trabajos relacionados con Machine Learning. Aunque no hay que olvidar que, en vida real, un científico de datos necesita mucho más que conocimientos sobre modelado. Un buen científico de datos dedica el 10% de su tiempo al modelado. El 90% restante se divide entre otras habilidades técnicas en el manejo de datos y las llamadas habilidades blandas, como la capacidad de comunicación, síntesis, relación con colaboradores y liderazgo.
Recuerda, si quieres aprender mucho sobre machine learning en problemas reales, juega en Kaggle, pero no te olvides de entrenar y conocer las habilidades blandas.
Contenido elaborado por Alejandro Alija,experto en Transformación Digital e Innovación.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.