Kaggle y otras plataformas alternativas para aprender ciencia de datos

Fecha de la noticia: 16-09-2021

Kaggle y otras plataformas alternativas para aprender ciencia de datos

La profesión del científico de datos está en auge. Según el Informe de Empleos Emergentes de LinkedIn de 2020, la demanda de especialistas en ciencia de datos creció un 46.8% con respecto al año anterior, siendo especialmente reclamado en sectores como la banca, las telecomunicaciones o la investigación. El informe también indica que entre las capacidades que demandan las empresas están “Machine Learning, R, Apache Spark, Python, Data Science, Big Data, SQL, Data Mining, Estadística y Hadoop”. Formarnos en este tipo de herramientas y capacidades es por tanto una notable ventaja competitiva en el ámbito laboral.

En este contexto, no es de extrañar que la oferta universitaria en estas materias no deje de crecer. Pero al mismo tiempo también surgen alternativas que permiten ampliar nuestros conocimientos de una forma lúdica.

Gamificación para aprender ciencia de datos

Una de las mejores formas de aprender nuevas habilidades, es a través del juego. La resolución de retos y casos reales nos permite poner a prueba nuestros conocimientos y ejercitar nuevas destrezas de una manera entretenida y motivadora. Es lo que se conoce como gamificación, una técnica de aprendizaje que aplica elementos del diseño de juego a contextos no lúdicos. En este caso hablamos de aprendizaje, pero también se puede aplicar al marketing o incluso a sectores como la salud y el bienestar, entre otros.

La gamificación es una técnica perfecta para adquirir capacidades relacionadas con los datos, que se pone de manifiesto a través de competiciones como hackathons o los concursos de aplicaciones e ideas – como nuestro Desafío Aporta-. Pero en los últimos años también han crecido las plataformas en la red que proponen competiciones abiertas en forma de retos a los usuarios.

Kaggle, un espacio de competiciones abiertas

De entre todas esas plataformas, la más conocida es Kaggle, que reúne a más de 7 millones de usuarios registrados de todo el mundo. Se trata de una plataforma gratuita que pone a disposición de los usuarios problemas a solucionar utilizando ciencia de datos, análisis predictivo o técnicas de machine learning, entre otros.

Hay problemas para principiantes, como predecir la supervivencia en el Titanic -un problema de clasificación binaria- o los precios de las viviendas, para el que es necesario usar técnicas avanzadas de regresión. Algunas competiciones parten directamente de empresas que buscan resolver un reto que se les resiste y optan por abrirlo a los usuarios de las plataformas, como hizo el Banco Santander. En ocasiones, puede haber cuantiosos premios en metálico para aquel usuario que encuentre la solución más acertada. Un ejemplo es la liga de Fútbol Americana, que busca predecir los golpes contra los cascos de los jugadores y premia con 100.000 dólares a quien lo logre .También hay empresas que crean específicamente concursos en los que los ganadores tienen la oportunidad de una entrevista con su equipo de ciencia de datos, como hizo Facebook, hace unos años. Kaggle es por tanto una buena fórmula para ampliar las posibilidades de encontrar un buen trabajo. Muchos reclutadores ponen su ojo en la plataforma a la hora de localizar nuevos talentos, prestando especial atención a los ganadores de las competiciones.

Además de competiciones, Kaggle ofrece otras funcionalidades:

  • Un apartado para compartir datasets. Actualmente hay más de 50.000 conjuntos de datos públicos compartidos, que pueden ser utilizados de manera libre para practicar, resolver competiciones o entrenar algoritmos.
  • Cursos gratuitos, que abarcan temas como Python, introducción al machine learning, análisis geoespacial o procesamiento del lenguaje natural. Están diseñados para introducir al usuario rápidamente en los temas esenciales y orientarle en la plataforma Kaggle. Una vez que se dispone de los conocimientos básicos, es el momento de participar en las competiciones.
  • Notebooks, compartidos por los usuarios de Kaggle. Se trata del código, junto con tutoriales, que han utilizado los participantes en las competiciones para resolver diferentes problemas. Actualmente hay más de 500.000. Para poder ejecutarlos y practicar, Kaggle cuenta con un entorno computacional diseñado para facilitar la reproducción del trabajo de ciencia de datos.
  • Un foro de discusión, donde resolver dudas y compartir feedback. Al registrase en Kaggle, no solo se obtienen numerosos recursos, sino que también te conviertes en parte de una comunidad de expertos. Estar presente en el foro es clave para ampliar conocimientos y conocer a otros usuarios, hacer equipo y enriquecerse con la experiencia de aquellos que dominan la materia en cuestión.

Kaggle utiliza un sistema de progresión con distintos tipos de usuario, según su nivel de rendimiento en cada área. Por un lado, existen 5 niveles de rendimientos: Novice, Contributor, Expert, Master y Grandmaster. Por otro, cuatro categorías de experiencia en ciencia de datos de Kaggle: Competiciones, Notebooks, Datasets y Discusión, que hacen referencia a la participación del usuario en cada área. El avance a través de los niveles de rendimiento se realiza de forma independiente dentro de cada categoría de experiencia, de tal forma que un mismo usuario puede ser Master en Competiciones, pero Novice en Discusión.

El éxito de Kaggle es tanto, que en 2017 fue adquirida por Google.

Si estás pensando en participar en alguna competición, tienes algunos consejos en este post, video y presentación.

Otras plataformas similares a Kaggle

Además de Kaggle, en la red también encontramos otras plataformas similares que albergan competiciones y retos relacionadas con los datos.

  • DrivenData. Organiza retos online, que suelen durar entre 2 y 3 meses, algunos de ellas con premios económico. Un ejemplo de competición es la construcción de algoritmos de aprendizaje automático capaces de cartografiar inundaciones utilizando imágenes satélites de Sentinel-1. También disponen de un datalab donde ofrecen a las compañías sus servicios para construir soluciones relacionadas con los datos.
  • Devpost. Ofrece un repositorio de hackathons a los que los usuarios se pueden apuntar, gran parte de ellos online. Incluye competiciones de empresas como Amazon o Microsoft. Alguna competición acumula hasta 5 millones de dólares a repartir en premios.
  • Innocentive. Recoge retos de diversas organizaciones – algunos también con grandes cifras en premios-. Aunque tiene competiciones técnicas, también incluye retos teóricos o estratégicos en los que solo es necesaria una propuesta teórica.
  • CrowdAnalytix. Con más de 25.000 usuarios, crowdAnalytix es una comunidad donde expertos en datos colaboran y compiten para customizar y optimizar algoritmos. Un ejemplo es esta competición, donde había que predecir la evolución de los cultivos utilizando imágenes satélite públicas.

 

Plataformas para aprender ciencia de datos a través de la gamificación: kaggle, datadriven, innocentive, crowdanalytix, devpost

 

Un buen perfil en Kaggle, o en el resto de plataformas que hemos visto, te ayudará a adquirir mayor experiencia y crear un buen portfolio de trabajos. También te hará más atractivo ante los reclutadores, aumentando tus posibilidades de conseguir un buen trabajo. Un buen desempeño en Kaggle demuestra habilidades de resolución de problemas y trabajo en equipo, que son algunas características necesarias para convertirse en un buen científico de datos.


Contenido elaborado por el equipo de datos.gob.es.