La profesión del científico de datos está en auge. Según el Informe de Empleos Emergentes de LinkedIn de 2020, la demanda de especialistas en ciencia de datos creció un 46.8% con respecto al año anterior, siendo especialmente reclamado en sectores como la banca, las telecomunicaciones o la investigación. El informe también indica que entre las capacidades que demandan las empresas están “Machine Learning, R, Apache Spark, Python, Data Science, Big Data, SQL, Data Mining, Estadística y Hadoop”. Formarnos en este tipo de herramientas y capacidades es por tanto una notable ventaja competitiva en el ámbito laboral.
En este contexto, no es de extrañar que la oferta universitaria en estas materias no deje de crecer. Pero al mismo tiempo también surgen alternativas que permiten ampliar nuestros conocimientos de una forma lúdica.
Gamificación para aprender ciencia de datos
Una de las mejores formas de aprender nuevas habilidades, es a través del juego. La resolución de retos y casos reales nos permite poner a prueba nuestros conocimientos y ejercitar nuevas destrezas de una manera entretenida y motivadora. Es lo que se conoce como gamificación, una técnica de aprendizaje que aplica elementos del diseño de juego a contextos no lúdicos. En este caso hablamos de aprendizaje, pero también se puede aplicar al marketing o incluso a sectores como la salud y el bienestar, entre otros.
La gamificación es una técnica perfecta para adquirir capacidades relacionadas con los datos, que se pone de manifiesto a través de competiciones como hackathons o los concursos de aplicaciones e ideas – como nuestro Desafío Aporta-. Pero en los últimos años también han crecido las plataformas en la red que proponen competiciones abiertas en forma de retos a los usuarios.
Kaggle, un espacio de competiciones abiertas
De entre todas esas plataformas, la más conocida es Kaggle, que reúne a más de 7 millones de usuarios registrados de todo el mundo. Se trata de una plataforma gratuita que pone a disposición de los usuarios problemas a solucionar utilizando ciencia de datos, análisis predictivo o técnicas de machine learning, entre otros.
Hay problemas para principiantes, como predecir la supervivencia en el Titanic -un problema de clasificación binaria- o los precios de las viviendas, para el que es necesario usar técnicas avanzadas de regresión. Algunas competiciones parten directamente de empresas que buscan resolver un reto que se les resiste y optan por abrirlo a los usuarios de las plataformas, como hizo el Banco Santander. En ocasiones, puede haber cuantiosos premios en metálico para aquel usuario que encuentre la solución más acertada. Un ejemplo es la liga de Fútbol Americana, que busca predecir los golpes contra los cascos de los jugadores y premia con 100.000 dólares a quien lo logre .También hay empresas que crean específicamente concursos en los que los ganadores tienen la oportunidad de una entrevista con su equipo de ciencia de datos, como hizo Facebook, hace unos años. Kaggle es por tanto una buena fórmula para ampliar las posibilidades de encontrar un buen trabajo. Muchos reclutadores ponen su ojo en la plataforma a la hora de localizar nuevos talentos, prestando especial atención a los ganadores de las competiciones.
Además de competiciones, Kaggle ofrece otras funcionalidades:
- Un apartado para compartir datasets. Actualmente hay más de 50.000 conjuntos de datos públicos compartidos, que pueden ser utilizados de manera libre para practicar, resolver competiciones o entrenar algoritmos.
- Cursos gratuitos, que abarcan temas como Python, introducción al machine learning, análisis geoespacial o procesamiento del lenguaje natural. Están diseñados para introducir al usuario rápidamente en los temas esenciales y orientarle en la plataforma Kaggle. Una vez que se dispone de los conocimientos básicos, es el momento de participar en las competiciones.
- Notebooks, compartidos por los usuarios de Kaggle. Se trata del código, junto con tutoriales, que han utilizado los participantes en las competiciones para resolver diferentes problemas. Actualmente hay más de 500.000. Para poder ejecutarlos y practicar, Kaggle cuenta con un entorno computacional diseñado para facilitar la reproducción del trabajo de ciencia de datos.
- Un foro de discusión, donde resolver dudas y compartir feedback. Al registrase en Kaggle, no solo se obtienen numerosos recursos, sino que también te conviertes en parte de una comunidad de expertos. Estar presente en el foro es clave para ampliar conocimientos y conocer a otros usuarios, hacer equipo y enriquecerse con la experiencia de aquellos que dominan la materia en cuestión.
Kaggle utiliza un sistema de progresión con distintos tipos de usuario, según su nivel de rendimiento en cada área. Por un lado, existen 5 niveles de rendimientos: Novice, Contributor, Expert, Master y Grandmaster. Por otro, cuatro categorías de experiencia en ciencia de datos de Kaggle: Competiciones, Notebooks, Datasets y Discusión, que hacen referencia a la participación del usuario en cada área. El avance a través de los niveles de rendimiento se realiza de forma independiente dentro de cada categoría de experiencia, de tal forma que un mismo usuario puede ser Master en Competiciones, pero Novice en Discusión.
El éxito de Kaggle es tanto, que en 2017 fue adquirida por Google.
Si estás pensando en participar en alguna competición, tienes algunos consejos en este post, video y presentación.
Otras plataformas similares a Kaggle
Además de Kaggle, en la red también encontramos otras plataformas similares que albergan competiciones y retos relacionadas con los datos.
- DrivenData. Organiza retos online, que suelen durar entre 2 y 3 meses, algunos de ellas con premios económico. Un ejemplo de competición es la construcción de algoritmos de aprendizaje automático capaces de cartografiar inundaciones utilizando imágenes satélites de Sentinel-1. También disponen de un datalab donde ofrecen a las compañías sus servicios para construir soluciones relacionadas con los datos.
- Devpost. Ofrece un repositorio de hackathons a los que los usuarios se pueden apuntar, gran parte de ellos online. Incluye competiciones de empresas como Amazon o Microsoft. Alguna competición acumula hasta 5 millones de dólares a repartir en premios.
- Innocentive. Recoge retos de diversas organizaciones – algunos también con grandes cifras en premios-. Aunque tiene competiciones técnicas, también incluye retos teóricos o estratégicos en los que solo es necesaria una propuesta teórica.
- CrowdAnalytix. Con más de 25.000 usuarios, crowdAnalytix es una comunidad donde expertos en datos colaboran y compiten para customizar y optimizar algoritmos. Un ejemplo es esta competición, donde había que predecir la evolución de los cultivos utilizando imágenes satélite públicas.
Un buen perfil en Kaggle, o en el resto de plataformas que hemos visto, te ayudará a adquirir mayor experiencia y crear un buen portfolio de trabajos. También te hará más atractivo ante los reclutadores, aumentando tus posibilidades de conseguir un buen trabajo. Un buen desempeño en Kaggle demuestra habilidades de resolución de problemas y trabajo en equipo, que son algunas características necesarias para convertirse en un buen científico de datos.
Contenido elaborado por el equipo de datos.gob.es.
Competir públicamente con tus colegas de profesión para solucionar un problema complejo basado en datos es una motivación irresistible para algunos. Casi tan tentador, como obtener relevancia en un campo de especialización tan emocionante y lucrativo como la ciencia de datos.
Las competiciones públicas para resolver problemas complejos, cuya materia prima de trabajo son datos públicamente disponibles, son una tendencia consolidada en el mundo de la ciencia de datos. Desde la predicción de terremotos hasta anticipar una rotura de stock en un gran centro de distribución son problemas basados en datos. Los nuevos métodos de machine learning y deep learning, así como la facilidad de acceso a potente tecnología de cálculo, han hecho posible que empresas y organizaciones de todo el mundo hayan abierto sus problemas de negocio a comunidades de científicos de datos que compiten entre sí para resolver el problema de la mejor forma posible a cambio de una recompensa económica.
Hace diez años que la, ahora todo poderosa y conocida, plataforma de vídeo en streaming Netflix, publicaba su Netflix Prize. El Premio Netflix fue una competición abierta que buscaba mejorar el algoritmo de filtrado colaborativo para predecir las calificaciones que los usuarios daban a las películas. El algoritmo se basa en las calificaciones anteriores sin ninguna otra información sobre los usuarios o las películas. El concurso estuvo abierto a cualquier persona que no tuviera vinculación estrecha con la compañía. El 21 de septiembre de 2009, se otorgó el gran premio de 1.000.000 $ al equipo Pragmatic Chaos de BellKor, que superó al algoritmo actual (en aquel entonces) de Netflix para predecir las calificaciones en más de un 10%.
El Premio Netflix abrió una nueva veta en el fértil campo de la ciencia de datos recompensando económicamente (con la nada desdeñable cantidad de 1M$) a aquellos equipos externos que fueran capaces de mejorar la clave de su negocio (su sistema de recomendaciones). Netflix, como muchas otras, era y es consciente de que el talento necesario para mejorar su, de por sí, sofisticado algoritmo, no se encontraba dentro de su organización si no fuera de ella.
A partir de ese momento, muchas otras competiciones similares se han abierto para solucionar toda clase de problemas basados en datos. Hasta han aparecido plataformas para gestionar este tipo de competiciones y crear una comunidad de talentosos científicos de datos alrededor de los mayores desafíos del mundo en materia de ciencia de datos. Quizás el sitio web Kaggle sea una de las plataformas de este tipo más populares para este tipo de competiciones. En el momento de escribir este artículo, existen en Kaggle 9 competiciones (activas) remuneradas por valor de 370.000 $. También hay competiciones no remuneradas económicamente (otras 9) que otorgan a los ganadores conocimiento y puntos (kudos) dentro de la propia plataforma para incentivar su uso continuado. Para cada competición, la plataforma gestiona los conjuntos de datos disponibles (datasets) así como los kernels - unos entornos de trabajo en la nube que permiten ejecutar los algoritmos de forma desatendida y reproducible por todos los participantes. Además, la plataforma establece las formas de valorar la competición así como los códigos éticos y las licencias de uso de los datos hospedados.
Además de su función como plataforma de competiciones públicas de datos, Kaggle y otras plataformas similares como ImageNet o KDD realizan una gran función como repositorios de datos abiertos. En la actualidad Kaggle registra más de 14.000 conjuntos de datos en diferentes formatos, listos para ser explotados y analizados por los científicos de datos más atrevidos del planeta. Kaggle documenta de forma extensa los conjuntos de datos disponibles en la plataforma. Los formatos de datos, comúnmente aceptados, son CSVs, JSON, SQLite, archivos comprimidos en formato ZIP y BigQuery (el formato SQL para BigData diseñado por Google). Las licencias más habituales para el uso y la redistribución de datos de la plataforma son Creative Commons, GPL y Open Database.
Plataformas como Kaggle son fantásticas. En mi opinión, el mayor beneficio de Kaggle es la capacidad de aprendizaje que ofrece, especialmente a los científicos de datos más jóvenes. En Kaggle puedes aprender mucho sobre el modelado de datos, quizás incluso mucho más de lo que normalmente se necesita en el 90% de los trabajos relacionados con Machine Learning. Aunque no hay que olvidar que, en vida real, un científico de datos necesita mucho más que conocimientos sobre modelado. Un buen científico de datos dedica el 10% de su tiempo al modelado. El 90% restante se divide entre otras habilidades técnicas en el manejo de datos y las llamadas habilidades blandas, como la capacidad de comunicación, síntesis, relación con colaboradores y liderazgo.
Recuerda, si quieres aprender mucho sobre machine learning en problemas reales, juega en Kaggle, pero no te olvides de entrenar y conocer las habilidades blandas.
Contenido elaborado por Alejandro Alija,experto en Transformación Digital e Innovación.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
Más allá de los datos de administraciones públicas, bibliotecas, museos y fundaciones culturales, el atractivo de los datos abiertos no conoce fronteras. Te invitamos a descubrirlo en este post.
Normalmente se asocia el concepto de datos abiertos con aquellos repositorios gestionados por las administraciones públicas, fundaciones y organizaciones culturales como Bibliotecas y museos. Pero los datos abiertos abarcan mucho más y, si nos empleamos a fondo en la búsqueda, podemos encontrar auténticas joyas esperando ser exploradas. Muchas veces se trata de repositorios de temas muy específicos, de gran utilidad para los profesionales que desarrollan su actividad laboral en ese campo. Otras se trata de repositorios generales con conjuntos de datos poco habituales.
Veamos algunos ejemplos.
Datos abiertos y ciencia
Para ilustrar los repositorios de datos específicos, vamos a centrarnos en dos ejemplos del ámbito científico:
1) Portal de datos abiertos de la Agencia Espacial Europea. En este sitio web podemos encontrar gran cantidad de imágenes y datos procedentes de las diferentes misiones espaciales de la Agencia Espacial Europea (por su acrónimo en inglés, ESA). Por ejemplo, la mayoría de imágenes de satélite del programa Copernicus - el programa de observación de la Tierra más ambicioso hasta la fecha - proporcionan información precisa, oportuna y de fácil acceso para mejorar la gestión del medio ambiente, comprender y mitigar los efectos del cambio climático y garantizar la seguridad civil.
Monte Fuji en Japón. Ejemplo de imágen abierta bajo licencia CC BY-SA 3.0 IGO procedente del repositorio open data de la ESA, en particular del programa Copérnico de observación terrestre.
La ESA, no solamente pone a disposición imágenes y videos procedentes de los satélites, sino una gran cantidad de datos de observación que pueden ser procesados para generar nuestras propias imágenes o análisis. Como ejemplo, los datos generados por la misión Gaia - la misión más ambiciosa para trazar un mapa tridimensional de nuestra Galaxia - están disponibles para descarga directa en este enlace. Navegando por los enlaces que dependen del repositorio principal podemos acceder a ficheros en formato .csv de varios decenas de MB de tamaño listos para su análisis.
2) Portal de datos abiertos del CERN. El CERN es el laboratorio europeo para la investigación nuclear. El lugar donde nació lo que hoy conocemos como La Web (World Wide Web), concentra buena parte del mejor talento científico de Europa y genera varias decenas de petabytes de datos al año. De esta forma, el CERN también cuenta con su propio sitio web dedicado a los datos abiertos. El sitio de datos abiertos del CERN es una web muy amigable para el usuario no experto que nos propone diferentes formas de acercarnos a los datos que allí se guardan. Existen diferentes caminos para explorar el sitio dependiendo de si seguimos la ruta Learn, Visualise o Analyse. Este sitio web es un auténtico vergel de datos si no fuera porque es necesario tener nociones básicas (o no tan básicas) de física de partículas, para explotar todo su potencial.
Adicionalmente al sitio raíz, el CERN pone a disposición de los usuarios (avanzados) un sitio de Github para que, aquellos desarrolladores que quieran trabajar con los datos abiertos, dispongan de un entorno más indicado para la explotación de los datos de forma programática. Los sitios de Github u otros repositorios de código abiertos potencian el desarrollo de comunidades colaborativas de usuarios en torno a los datos abiertos.
Datos muy, pero que muy, diversos
Pero además de estos repositorios específicos, también existen repositorios de temática general donde encontrar conjuntos de datos poco habituales. Ya hemos hablado en anteriores ocasiones del sitio web Kaggle. Kaggle es una plataforma web abierta orientada a científicos de datos en la que se plantean desafíos (algunos de ellos remunerados con cuantiosos premios en metálico). En esta ocasión nos acercamos a Kaggle solamente para explorar su extenso catálogo de datos (en su mayoría publicados bajo licencia Creative Commons en alguna de sus variantes).
Por citar algunos ejemplos variados, buscando en las primeras entradas de su catálogo nos encontramos con conjuntos de datos sobre la altura de las olas en la costa australiana o por ejemplo, un conjunto de datos que incluye una lista de 10.000 zapatos de mujer con sus precios publicado bajo licencia CC BY-NC-SA 4.0. No podía faltar en esta lista uno de los conjuntos de datos más populares y usados en la actualidad. Cada trimestre, Stackoverflow, la comunidad online más grande para programadores, publica una extracción de su base de datos con los post, votaciones, etiquetas y comentarios que han pasado por su plataforma. El análisis de este conjunto de datos (publicado bajo CC BY-SA 3.0) de más de 100 GB de volumen es, probablemente, la manera más precisa de medir las tendencias del mercado en cuanto a popularidad y uso de los lenguajes de programación que existe.
En definitiva, además de los conjuntos de datos existentes sobre movilidad, medio ambiente, localización de servicios básicos en las ciudades o colecciones culturales, existen repositorios de datos abiertos, mucho más específicos, para aquellos usuarios intrépidos que se atreven a investigar en busca de los datos menos comunes. Desde luego, el futuro de los datos abiertos no tiene fronteras.
Contenido elaborado por Alejandro Alija,experto en Transformación Digital e Innovación.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.