Pódcast: Cómo aprender ciencia de datos de manera autodidacta
Fecha: 31-03-2025
Nombre: Juan Benavente, ingeniero industrial y científico de datos y Alejandro Alija, doctor en física, científico de datos y experto en transformación digital
Sector: Ciencia y tecnología, Educación

¿Sabías que las habilidades de ciencia de datos están entre las más demandadas por las empresas? En este pódcast, te vamos a contar cómo puedes formarte en este campo, de manera autodidacta. Para ello, contaremos con dos expertos en ciencia de datos:
- Juan Benavente, ingeniero industrial e informático con más de 12 años de experiencia en innovación tecnológica y transformación digital. Además, lleva años formando a nuevos profesionales en escuelas tecnológicas, escuelas de negocio y universidades.
- Alejandro Alija, doctor en física, científico de datos y experto en transformación digital. Además de su amplia experiencia profesional enfocada en el Internet of Things (internet de las cosas), Alejandro también trabaja como profesor en diferentes escuelas de negocio y universidades.
Resumen de la entrevista
-
¿Qué es la ciencia de datos? ¿Por qué es importante y para qué nos puede servir?
Alejandro Alija: La ciencia de datos podría definirse como una disciplina cuyo principal objetivo es entender el mundo, los procesos propios de un negocio y de la vida, analizando y observando los datos. En los últimos 20 años ha cobrado una relevancia excepcional debido a la explosión en la generación de datos, principalmente por la irrupción de internet y del mundo conectado.
Juan Benavente: El término ciencia de datos ha ido evolucionando desde su creación. Hoy, un científico de datos es la persona que está trabajando en el nivel más alto en análisis de datos, frecuentemente asociado con la construcción de algoritmos de machine learning o inteligencia artificial para empresas o sectores específicos, como predecir u optimizar la fabricación en una planta.
La profesión está evolucionando rápidamente, y probablemente en los próximos años se vaya fragmentando. Hemos visto aparecer nuevos roles como ingenieros de datos o especialistas en MLOps. Lo importante es que hoy cualquier profesional, independientemente de su área, necesita trabajar con datos. No cabe duda de que cualquier posición o empresa requiere análisis de datos, cada vez más avanzados. Da igual si estás en marketing, ventas, operaciones o en la universidad. Cualquiera hoy en día está trabajando con datos, manipulándolos y analizándolos. Si además aspiramos a la ciencia de datos, que sería el mayor nivel de expertise, estaremos en una posición muy beneficiosa. Pero, sin duda, recomendaría a cualquier profesional que tenga esto en radar.
-
¿Cómo os iniciasteis en la ciencia de datos y qué hacéis para manteneros actualizados? ¿Qué estrategias recomendaríais tanto para principiantes como para perfiles más experimentados?
Alejandro Alija: Mi formación básica es en física, e hice mi doctorado en ciencia básica. En realidad, podría decirse que cualquier científico, por definición, es un científico de datos, porque la ciencia se basa en formular hipótesis y demostrarlas con experimentos y teorías. Mi relación con los datos comenzó temprano en la academia. Un punto de inflexión en mi carrera fue cuando empecé a trabajar en el sector privado, específicamente en una compañía de gestión medioambiental que se dedica a medir y observar la contaminación atmosférica. El medio ambiente es un campo que tradicionalmente es gran generador de datos, especialmente por ser un sector regulado donde las administraciones y empresas privadas están obligadas, por ejemplo, a registrar los niveles de contaminación atmosférica en determinadas condiciones. Encontré series históricas de hasta 20 años de antigüedad que estaban a mi disposición para analizar. A partir de ahí empezó mi curiosidad y me especialicé en herramientas concretas para analizar y entender lo que está ocurriendo en el mundo.
Juan Benavente: Yo me identifico con lo que ha comentado Alejandro porque tampoco soy informático. Me formé en ingeniería industrial y aunque la informática es uno de mis intereses, no fue mi base. A diferencia, hoy en día, sí veo que se están formando más especialistas desde la universidad. Actualmente, un científico de datos tiene muchas skills a la espalda como cuestiones de estadística, matemáticas y la capacidad de entender todo lo que pasa en el sector. Yo he ido adquiriendo estos conocimientos en base a la práctica. Sobre cómo mantenerse actualizado, yo creo que, en muchos casos, puedes estar en contacto con empresas que están innovando en este campo. También en eventos sectoriales o tecnológicos se puede aprender mucho. Yo empecé en las smart cities y he ido pasando por el mundo industrial hasta aprender poco a poco.
Alejandro Alija: Por añadir otra fuente en la que mantenerse actualizado. A parte de las que ha comentado Juan, creo que es importante identificar lo que llamamos outsiders, los fabricantes de tecnologías, los actores del mercado. Son una fuente de información muy útil para estar actualizado: identificar sus estrategias de futuros y por qué apuestan.
-
Pongámonos en el caso hipotético de que alguien con pocos o nulos conocimientos técnicos, quiera aprender ciencia de datos, ¿por dónde empieza?
Juan Benavente: En formación, me he encontrado perfiles muy diferentes: desde gente que acabe de salir de la carrera hasta perfiles que se han formado en ámbitos muy diferentes y encuentran en la ciencia de datos una oportunidad para transformarse y dedicarse a esto. Pensando en alguien que está empezando, creo que lo mejor es poner en práctica tus conocimientos. En proyectos en los que he trabajado definíamos la metodología en tres fases: una primera fase más de aspectos teóricos teniendo en cuenta matemáticas, programación y todo lo que necesita saber un científico de datos; una vez tengas esas bases, cuanto antes empieces a trabajar y practicar esos conocimientos, mejor. Creo que la habilidad agudiza el ingenio y, tanto para estar actualizado, como para formarte e ir adquiriendo conocimiento útil, cuanto antes entres en proyecto, mejor. Y más, hablando de un mundo que se actualiza tan recurrentemente. Estos últimos años, la aparición de la IA generativa ha supuesto otras oportunidades. En estas herramientas también hay oportunidades para nuevos perfiles que quieran formarse. Aunque no seas experto en programación tienes herramientas que te puedan ayudar a programar, y lo mismo te puede suceder en matemáticas o estadística.
Alejandro Alija: Por complementar un poco lo que dice Juan desde una perspectiva diferente. Creo que vale la pena destacar la evolución de la profesión de ciencia de datos. Recuerdo cuando se hizo famoso aquel paper en el que se hablaba de "la profesión más sexy del mundo", que se volvió muy viral, aunque luego las cosas se fueron ajustando. Los primeros pobladores del mundo de la ciencia de datos no venían tanto de ciencias de la computación o informática. Eran más los outsiders: físicos, matemáticos, con bases robustas en matemáticas y física, e incluso algunos ingenieros que por su trabajo y desarrollo profesional terminaban utilizando muchas herramientas del ámbito informático. Poco a poco se ha ido balanceando. Ahora es una disciplina que sigue teniendo esas dos vertientes: personas que vienen del mundo de la física y matemáticas hacia los datos más básicos, y personas que vienen con conocimientos de programación. Cada uno sabe lo que tiene que balancear de su caja de herramientas. Pensando en un perfil junior que esté empezando, creo que una cosa muy importante - y así lo vemos cuando damos clase - es la capacidad de programación. Diría que tener skills de programación no es solo un plus, sino un requisito básico para avanzar en esta profesión. Es verdad que algunas personas pueden desempeñarse bien sin muchas habilidades de programación, pero yo diría que un principiante necesita tener esas primeras skills de programación con un toolset básico. Estamos hablando de lenguajes como Python y R, que son los lenguajes de cabecera. No se trata de ser un gran codificador, pero sí de tener conocimientos básicos para poder arrancar. Luego, evidentemente, la formación específica sobre fundamentos matemáticos de la ciencia de datos es crucial. La estadística fundamental y la estadística más avanzada son complementos que, si se tienen, harán que la persona avance mucho más rápido en la curva de aprendizaje de la ciencia de datos. En tercer lugar, diría que la especialización en herramientas particulares es importante. Hay gente que se orienta más hacia la ingeniería de datos, otros hacia el mundo de los modelos. Lo ideal es especializarse en algunos frameworks y utilizarlos de manera conjunta, de la forma más óptima posible.
-
Además de como profesores, ambos trabajáis en empresas tecnológicas, ¿qué certificaciones técnicas son más valoradas en el sector empresarial y qué fuentes abiertas de conocimiento recomendáis para prepararse para ellas?
Juan Benavente: Personalmente, no es lo que más miro, pero creo que puede ser relevante, sobre todo para personas que están comenzando y que necesitan ayuda para estructurar su forma de aproximarse al problema y entenderlo. Recomiendo certificaciones de tecnologías que están en uso en cualquier empresa donde quieras acabar trabajando. Especialmente de proveedores de cloud computing y herramientas ampliamente extendidas de análisis de datos. Son certificaciones que recomendaría para alguien que quiere aproximarse a este mundo y necesita una estructura que le ayude. Cuando no tienes una base de conocimiento, puede ser un poco confuso entender por dónde empezar. Quizás deberías reforzar primero la programación o los conocimientos matemáticos, pero todo puede parecer un poco lioso. Donde sin duda te ayudan estas certificaciones es, además de reforzar conceptos, para garantizar que te mueves bien y conoces el ecosistema de herramientas típico con el que vas a trabajar mañana. No se trata solo de conceptos teóricos, sino de conocer los ecosistemas que te encontrarás cuando empieces a trabajar, ya sea fundando tu propia empresa o trabajando en una empresa establecida. Te facilita mucho conocer el ecosistema típico de herramientas. Llámalo Microsoft Computing, Amazon u otros proveedores de este tipo de soluciones. Así podrás centrarte más rápidamente en el trabajo en sí, y no tanto en todas las herramientas que lo rodean. Creo que este tipo de certificaciones son útiles, sobre todo para perfiles que se están acercando a este mundo con ilusión. Les ayudará tanto a estructurarse como a aterrizar bien en su destino profesional. Probablemente también se valoren en los procesos de selección.
Alejandro Alija: Si alguien nos escucha y quiere directrices más específicas, se podría estructurar en bloques. Hay una serie de cursos masivos en línea que, para mí, fueron un punto de inflexión. En mis comienzos, traté de inscribirme en varios de estos cursos en plataformas como Coursera, edX, donde incluso los propios fabricantes de tecnología son los que diseñan estos cursos. Creo que este tipo de cursos online masivos, que se pueden hacer de manera autoservicio, proporcionan una buena base inicial. Un segundo bloque serían los cursos y las certificaciones de los grandes proveedores de tecnología, como Microsoft, Amazon Web Services, Google y otras plataformas que son referentes en el mundo de los datos. Estas compañías tienen la ventaja de que sus rutas de aprendizaje están muy bien estructuradas, lo que facilita el crecimiento profesional dentro de sus propios ecosistemas. Se pueden ir combinando certificaciones de diferentes proveedores. Para una persona que quiera dedicarse a este campo, el camino va desde las certificaciones más sencillas hasta las más avanzadas, como ser un arquitecto de soluciones en el área de datos o un especialista en un servicio o producto específico de análisis de datos. Estos dos bloques de aprendizaje están disponibles en internet, la mayoría son abiertos y gratuitos o cercanos a la gratuidad. Más allá del conocimiento, lo que se valora es la certificación, especialmente en las compañías que buscan estos perfiles profesionales.
-
Además de la formación teórica, la práctica es clave, uno de los métodos más interesantes para aprender es replicar ejercicios paso a paso. En este sentido, desde datos.gob.es ofrecemos recursos didácticos, muchos de ellos desarrollados por vosotros como expertos en el proyecto, ¿nos podéis contar en qué consisten estos ejercicios? ¿Cómo se plantean?
Alejandro Alija: El planteamiento que siempre hicimos fue pensado para un público amplio, sin requisitos previos complejos. Queríamos que cualquier usuario del portal pudiera replicar los ejercicios, aunque es evidente que cuanto más conocimiento se tiene, más se puede aprovechar. Los ejercicios tienen una estructura bien definida: un apartado documental, generalmente un post de contenido o un informe que describe en qué consiste el ejercicio, qué materiales se necesitan, cuáles son los objetivos y qué se pretende conseguir. Además, acompañamos cada ejercicio con dos recursos adicionales. El primer recurso es un repositorio de código donde subimos los materiales necesarios, con una descripción breve y el código del ejercicio. Puede ser un notebook de Python, un Jupyter Notebook o un script simple, donde está el contenido técnico. Y luego otro elemento fundamental que creemos importante y que va dirigido a facilitar la ejecución de los ejercicios. En ciencia de datos y programación, los usuarios no especialistas suelen tener dificultades para configurar un entorno de trabajo. Un ejercicio en Python, por ejemplo, requiere tener instalado un entorno de programación, conocer las librerías necesarias y realizar configuraciones que para profesionales son triviales, pero para principiantes pueden ser muy complejas. Para mitigar esta barrera, publicamos la mayoría de nuestros ejercicios en Google Colab, una herramienta maravillosa y abierta. Google Colab es un entorno de programación web donde el usuario solo necesita un navegador para acceder. Básicamente, Google nos proporciona un ordenador virtual donde podemos ejecutar nuestros programas y ejercicios sin necesidad de configuraciones especiales. Lo importante es que el ejercicio esté listo para usarse y siempre lo verificamos en este entorno, lo que facilita enormemente el aprendizaje para usuarios principiantes o con menos experiencia técnica.
Juan Benavente: Sí, siempre planteamos un enfoque orientado para cualquier usuario, paso a paso, intentando que sea abierto y accesible. Se busca que cualquiera pueda ejecutar un ejercicio sin necesidad de configuraciones complejas, centrándose en temáticas lo más cercanas a la realidad que sea posible. Aprovechamos, muchas veces, datos abiertos publicados por entidades como la DGT u otros organismos para hacer análisis realistas. Hemos desarrollado ejercicios muy interesantes, como predicciones del mercado energético, análisis de materiales críticos para baterías y electrónica, que permiten aprender no solo tecnología, sino también sobre la temática específica. En seguida puedes ponerte manos a la obra, no solo aprender, sino además averiguar sobre la temática.
-
Para cerrar, nos gustaría que pudierais ofrecer un consejo más orientado a actitud que a conocimientos técnicos, ¿qué le diríais a alguien que esté empezando en ciencia de datos?
Alejandro Alija: En cuanto a un consejo de actitud para alguien que está empezando en ciencia de datos, sugiero ser valiente. No hay que preocuparse por no estar preparado, porque en este campo todo está por hacer y cualquier persona puede aportar valor. La ciencia de datos tiene múltiples vertientes: hay profesionales más cercanos al mundo de negocio que pueden aportar conocimientos valiosos, y otros más técnicos que necesitan comprender el contexto de cada área. Mi consejo es formarse con los recursos disponibles sin asustarse, porque, aunque el camino parezca complejo, las oportunidades son muy altas. Como consejo técnico, es importante tener sensibilidad hacia el desarrollo y uso de datos. Cuanta más comprensión se tenga de este mundo, más fluida será la aproximación a los proyectos.
Juan Benavente: Suscribo el consejo de ser valiente y añado una reflexión sobre la programación: mucha gente encuentra atractivo el concepto teórico, pero cuando llegan a la práctica y ven la complejidad de programar, algunos se desaniman por falta de conocimientos previos o expectativas diferentes. Es importante añadir los conceptos de paciencia y constancia. Al comenzar en este campo, te enfrentas a múltiples áreas que necesitas dominar: programación, estadística, matemáticas, y conocimiento específico del sector en el que trabajarás, ya sea marketing, logística u otro ámbito. La expectativa de convertirse en un experto rápidamente no es realista. Es una profesión que, aunque se puede comenzar sin miedo y colaborando con profesionales, requiere un recorrido y un proceso de aprendizaje. Hay que ser constante y paciente, gestionando las expectativas adecuadamente. La mayoría de las personas que llevan tiempo en este mundo coinciden en que no se arrepienten de dedicarse a la ciencia de datos. Es una profesión muy atractiva donde puedes aportar valor significativo, con un componente tecnológico importante. Sin embargo, el camino no siempre es directo. Habrá proyectos complejos, momentos de frustración cuando los análisis no arrojan los resultados esperados o cuando trabajar con datos resulta más desafiante de lo previsto. Pero mirando hacia atrás, son pocos los profesionales que se arrepienten de haber invertido tiempo y esfuerzo en formarse y desarrollarse en este campo. En resumen, los consejos fundamentales son: valentía para empezar, constancia en el aprendizaje y desarrollo de habilidades de programación.
Suscríbete a nuestro perfil de Spotify para estar al día de nuestros pódcasts