Educación

Diseñar visualizaciones de datos con integridad: más allá de los gráficos bonitos

Blog

La visualización de datos es una práctica fundamental para democratizar el acceso a la información pública. Sin embargo, crear gráficos efectivos va mucho más allá de elegir colores atractivos o utilizar las últimas herramientas tecnológicas. Como señala Alberto Cairo, experto en visualización de datos y docente de la academia del portal europeo de datos abiertos (data.europa.eu), “cada decisión de diseño debe ser deliberada: inevitablemente subjetiva, pero nunca arbitraria”. A través de una serie de tres webinar que puedes volver a ver aquí, el experto ofreció consejos innovadores para estar a la vanguardia de la visualización de datos.

Cuando trabajamos con visualización de datos, especialmente en el contexto de la información pública, es crucial desmontar algunos mitos arraigados en nuestra cultura profesional. Frases como "los datos hablan por sí mismos", "una imagen vale más que mil palabras" o "muestra, no cuentes" suenan bien, pero esconden una verdad incómoda: los gráficos no siempre comunican automáticamente.

La realidad es más compleja. Un/a profesional del diseño puede querer comunicar algo específico, pero los lectores pueden interpretar algo completamente diferente. ¿Cómo se puede superar la brecha entre intención y percepción en visualización de datos? En este post, ofrecemos algunas claves de la serie formativa.

Un marco estructurado para diseñar con propósito

En lugar de seguir "reglas" rígidas o aplicar plantillas predefinidas, en el curso se propone un marco de pensamiento basado en cinco componentes interrelacionados:

Contenido: la naturaleza, origen y limitaciones de los datos
Personas: la audiencia a la que nos dirigimos
Intención: los propósitos que definimos
Restricciones: las limitaciones que enfrentamos
Resultados: cómo es recibido el gráfico

Este enfoque holístico nos obliga a preguntarnos constantemente: ¿qué necesitan realmente saber nuestros lectores? Por ejemplo, cuando comunicamos información sobre riesgos de huracanes o emergencias sanitarias, ¿es más importante mostrar trayectorias exactas o comunicar impactos potenciales? La respuesta correcta depende del contexto y, sobre todo, de las necesidades informativas de la ciudadanía.

El peligro de la agregación excesiva

Aún sin perder de vista el propósito es importante no caer en añadir demasiada información o presentar solo promedios. Imaginemos, por ejemplo, un conjunto de datos sobre seguridad ciudadana a nivel nacional: un promedio puede esconder que la mayoría de las localidades son muy seguras, mientras unas pocas con tasas extremadamente altas distorsionan el indicador nacional.

Como explica Claus O. Wilke en su libro "Fundamentals of Data Visualization", esta práctica puede ocultar patrones cruciales, valores atípicos y paradojas que son precisamente los más relevantes para la toma de decisiones. Para evitar este riesgo, en la formación se propone visualizar una gráfica como un sistema de capas que debemos construir cuidadosamente desde la base:

1. Codificación (Encoding)

Es la base de todo: cómo traducimos datos en atributos visuales. Las investigaciones en percepción visual nos muestran que no todos los "canales visuales" son igual de efectivos. La jerarquía sería:

Más efectivos: posición, longitud y altura
Medianamente efectivos: ángulo, área y pendiente
Menos efectivos: color, saturación y forma

¿Cómo ponemos esto en práctica? Pues, por ejemplo, para realizar comparaciones precisas, un gráfico de barras será casi siempre mejor opción que un gráfico circular. Sin embargo, como se matiza en los materiales formativos, "efectivo" no siempre significa "apropiado". Un gráfico circular puede ser perfecto cuando queremos expresar la idea de un "todo y sus partes", aunque las comparaciones precisas sean más difíciles.

2. Disposición (Arrangement)

El posicionamiento, orden y agrupación de los elementos afecta profundamente a la percepción. ¿Queremos que el lector compare entre categorías dentro de un grupo, o entre grupos? La respuesta determinará si organizamos nuestra visualización con barras agrupadas o apiladas, con paneles múltiples o en una única vista integrada.

3. Andamiaje (Scaffolding)

Los títulos, introducciones, anotaciones, escalas y leyendas son fundamentales. En datos.gob.es hemos visto cómo las visualizaciones interactivas pueden condensar información compleja, pero sin un andamiaje adecuado, la interactividad puede confundir más que aclarar.

El valor de una correcta escala

Uno de los aspectos técnicos más delicados —y a menudo más manipulables— de una visualización es la elección de la escala. Una simple modificación en el eje Y puede cambiar por completo la interpretación del lector: una tendencia suave puede parecer una crisis repentina, o un crecimiento sostenido puede pasar desapercibido.

Como se menciona en el segundo webinar de la serie, las escalas no son un detalle menor: son un componente narrativo. Decidir dónde empieza un eje, qué intervalos se usan o cómo se representan los periodos de tiempo implica hacer elecciones que afectan directamente la percepción de la realidad. Por ejemplo, si una gráfica de empleo comienza el eje Y en 90 % en lugar de 0 %, el descenso puede parecer dramático, aunque, en realidad, sea mínimo.

Por eso, las escalas deben ser honestas con los datos. Ser “honesto” no significa renunciar a decisiones de diseño, sino mostrar claramente qué decisiones se tomaron y por qué. Si existe una razón válida para empezar el eje Y en un valor distinto de cero, debe explicarse explícitamente en la gráfica o en su pie de texto. La transparencia debe prevalecer sobre el dramatismo.

La integridad visual no solo protege al lector de interpretaciones engañosas, sino que refuerza la credibilidad de quien comunica. En el ámbito de los datos públicos, esa honestidad no es opcional: es un compromiso ético con la verdad y con la confianza ciudadana.

Accesibilidad: visualizar para todos

Por otro lado, uno de los aspectos frecuentemente olvidado es la accesibilidad. Aproximadamente el 8 % de los hombres y el 0,5 % de las mujeres tienen algún tipo de daltonismo. Herramientas como Color Oracle permiten simular cómo se ven nuestras visualizaciones para personas con diferentes tipos de deficiencias en la percepción del color.

Además, en el webinar se mencionó el proyecto Chartability, una metodología para evaluar la accesibilidad de las visualizaciones de datos. En el sector público español, donde la accesibilidad web es un requisito legal, esto no es opcional: es una obligación democrática. Bajo esta premisa publicó la Federación Española de Municipios y Provincias publicó una Guía de Visualización de Datos para Entidades Locales.

Narrativa visual: cuando los datos cuentan historias

Una vez resueltas las cuestiones técnicas, podemos abordar el aspecto narrativo que cada día es más importante para comunicar correctamente. En este sentido, el curso plantea un método sencillo pero poderoso:

Escribe una frase larga que resuma los puntos que quieres comunicar.
Divide esa frase en componentes, aprovechando las pausas naturales.
Transforma esos componentes en secciones de tu infografía.

Este enfoque narrativo es especialmente efectivo para proyectos como los que encontramos en data.europa.eu, donde se combinan visualizaciones con explicaciones contextuales para comunicar el valor de los conjuntos de datos de alto valor o en los ejercicios de visualización y ciencia de datos de datos de datos.gob.es.

El futuro de la visualización de datos también incluye aproximaciones más creativas y centradas en el usuario. Proyectos que incorporan elementos personalizados, que permiten a los lectores situarse en el centro de la información, o que utilizan técnicas narrativas para generar empatía, están redefiniendo lo que entendemos por "comunicación de datos".

Incluso emergen formas alternativas de "sensificación de datos": la fisicalización (crear objetos tridimensionales con datos) y la sonificación (traducir datos a sonido) abren nuevas posibilidades para hacer la información más tangible y accesible. La empresa española Tangible Data, de la que nos hacemos eco en datos.gob.es porque reutiliza conjuntos de datos abiertos, es prueba de ello.

Figura 1. Ejemplos de sensificación de datos. Fuente: https://data.europa.eu/sites/default/files/course/webinar-data-visualisation-episode-3-slides.pdf

A modo de conclusión, podemos resaltar que la integridad en el diseño no es un lujo: es un requisito ético. Cada gráfico que publicamos en plataformas oficiales influye en cómo los ciudadanos perciben la realidad y toman decisiones. Por eso, dominar herramientas técnicas como las bibliotecas y API de visualización, que se analizan en otros artículos del portal, es tan relevante.

La próxima vez que crees una visualización con datos abiertos, no te preguntes solo "¿qué herramienta uso?" o "¿qué gráfico se ve mejor?". Pregúntate: ¿qué necesita realmente saber mi audiencia? ¿Esta visualización respeta la integridad de los datos? ¿Es accesible para todos? Las respuestas a estas preguntas son las que transforman un gráfico bonito en una herramienta de comunicación verdaderamente efectiva.

30/10/2025

Recursos Educativos Abiertos (REA): innovación, colaboración y acceso universal

Blog

La educación tiene el poder de transformar vidas. Reconocida como un derecho fundamental por la comunidad internacional, constituye un pilar clave para el desarrollo humano y social. Sin embargo, según datos de la UNESCO, 272 millones de niños y jóvenes siguen sin acceso a la escuela, el 70% de los países destina menos del 4% de su PIB a la educación y aún son necesarios 69 millones de docentes más para lograr la educación primaria y secundaria universal en 2030. Ante este desafío global, los recursos educativos abiertos y las iniciativas de acceso libre se presentan como herramientas decisivas para fortalecer los sistemas de enseñanza, reducir desigualdades y avanzar hacia una educación inclusiva, equitativa y de calidad.

Los recursos educativos abiertos (REA) ofrecen tres beneficios principales: aprovechan las posibilidades de las tecnologías digitales para solucionar retos educativos comunes; actúan como catalizadores de innovación pedagógica y social al transformar la relación entre docentes, estudiantes y conocimiento; y contribuyen a mejorar el acceso equitativo a materiales educativos de alta calidad.

Qué son los recursos educativos abiertos (REA)

Según la UNESCO, los recursos educativos abiertos son "materiales de aprendizaje, enseñanza e investigación en cualquier formato y soporte que existen en el dominio público o están bajo derechos de autor y fueron liberados bajo una licencia abierta". El concepto, acuñado en el foro celebrado en París en el año 2002, tiene como característica fundamental que estos recursos permiten "su acceso sin coste, su reutilización, reorientación, adaptación y redistribución por parte de terceros".

Los REA abarcan una amplia variedad de formatos, desde cursos completos, libros de texto y programas curriculares hasta mapas, vídeos, pódcasts, aplicaciones multimedia, herramientas de evaluación, aplicaciones móviles, bases de datos e incluso simulaciones.

Los recursos educativos abiertos están constituidos por tres elementos que funcionan de manera inseparable:

Contenidos educativos: incluyen todo tipo de material utilizable en el proceso de enseñanza-aprendizaje, desde objetos formales hasta recursos externos y sociales. Es aquí donde entrarían los datos abiertos, los cuales se pueden aprovechar para generar este tipo de recursos.
Herramientas tecnológicas: software que permite desarrollar, utilizar, modificar y distribuir el contenido, incluyendo aplicaciones para la creación de contenidos y plataformas para comunidades de aprendizaje.
Licencias abiertas: elemento diferenciador que respeta la propiedad intelectual mientras proporciona permisos para el uso, adaptación y redistribución de los materiales.

Por tanto, los REA se caracterizan principalmente por su accesibilidad universal, eliminando barreras económicas y geográficas que tradicionalmente limitan el acceso a la educación de calidad.

Innovación educativa y transformación pedagógica

La transformación pedagógica constituye uno de los principales impactos de los recursos educativos abiertos en el panorama educativo actual. Los REA no son simples contenidos digitales gratuitos, sino catalizadores de innovación que están redefiniendo los procesos de enseñanza-aprendizaje a nivel global.

Combinados con metodologías pedagógicas adecuadas y objetivos de aprendizaje bien diseñados, los REA ofrecen nuevas opciones de enseñanza innovadoras para lograr que tanto los docentes como los estudiantes asuman un papel más activo en el proceso educativo e incluso en la creación de contenidos. Fomentan competencias esenciales como el pensamiento crítico, la autonomía y la capacidad de “aprender a aprender”, superando los modelos tradicionales basados en la memorización.

La innovación educativa impulsada por los REA se materializa a través de herramientas tecnológicas abiertas que facilitan su creación, adaptación y distribución. Programas como eXeLearning permiten desarrollar contenidos educativos digitales de manera sencilla, mientras que LibreOffice e Inkscape ofrecen alternativas libres para la producción de materiales.

La interoperabilidad lograda mediante estándares abiertos, como IMS Global o SCORM, garantiza que estos recursos puedan integrarse en diferentes plataformas y, por tanto, la accesibilidad para todos los usuarios, incluidas personas con discapacidades.

Otra innovación prometedora para el futuro de los REA es la combinación de tecnologías descentralizadas como Nostr con herramientas de autoría como LiaScript. Este enfoque resuelve la dependencia de servidores centrales, permitiendo crear un curso completo y distribuirlo a través de una red abierta y resistente a la censura. El resultado es un único y permanente enlace (URI de Nostr) que encapsula todo el material, otorgando al creador la soberanía total sobre su contenido y garantizando su perdurabilidad. En la práctica, esto supone una revolución para el acceso universal al conocimiento. Los educadores comparten su trabajo con la seguridad de que el enlace será siempre válido, mientras que los estudiantes acceden al material de forma directa, sin necesidad de plataformas o intermediarios. Esta sinergia tecnológica es un paso fundamental para materializar la promesa de un ecosistema educativo verdaderamente abierto, resiliente y global, donde el conocimiento fluye sin barreras.

El potencial de los Recursos Educativos Abiertos se concreta gracias a las comunidades y proyectos que los desarrollan y difunden. Iniciativas institucionales, repositorios colaborativos y programas promovidos por organismos públicos y docentes aseguran que los REA sean accesibles, reutilizables y sostenibles.

Colaboración y comunidades de aprendizaje abiertas

La dimensión colaborativa representa uno de los pilares fundamentales que sostienen el movimiento de recursos educativos abiertos. Este enfoque trasciende fronteras y conecta a profesionales de la educación a nivel global.

Las comunidades educativas alrededor de los REA han generado espacios donde docentes comparten experiencias, acuerdan aspectos metodológicos y resuelven dudas sobre la aplicación práctica de estos recursos. La coordinación entre profesionales suele producirse en redes sociales o a través de canales digitales como Telegram, en los que participan tanto usuarios como creadores de contenidos. Este "claustro virtual" facilita la implementación efectiva de metodologías activas en el aula.

Más allá de los espacios surgidos por iniciativa de los propios docentes, distintos organismos e instituciones han promovido proyectos colaborativos y plataformas que facilitan la creación, el acceso y el intercambio de Recursos Educativos Abiertos, ampliando así su alcance e impacto en la comunidad educativa.

Proyectos y repositorios de REA en España

En el caso de España, los Recursos Educativos Abiertos cuentan con un ecosistema consolidado de iniciativas que reflejan la colaboración entre administraciones públicas, centros educativos, comunidades docentes y entidades culturales. Plataformas como Procomún, proyectos de creación de contenidos como EDIA (Educativo, Digital, Innovador y Abierto) o CREA (Creación de Recursos Educativos Abiertos), y repositorios digitales como Hispana muestran la diversidad de enfoques adoptados para poner a disposición de la ciudadanía recursos educativos y culturales en abierto. A continuación, te contamos un poco más sobre ellos:

El Proyecto EDIA (Educativo, Digital, Innovador y Abierto), desarrollado por el Centro Nacional de Desarrollo Curricular en Sistemas no Propietarios (CEDEC), se centra en la creación de recursos educativos abiertos diseñados para integrarse en entornos que fomentan las competencias digitales y que se adaptan a metodologías activas. Los recursos se crean con eXeLearning, que facilita la edición, e incluyen plantillas, guías, rúbricas y todos los documentos necesarios para llevar al aula la propuesta didáctica.
La red Procomún nació fruto del Plan de Cultura Digital en la Escuela puesto en marcha en 2012 por el Ministerio de Educación, Cultura y Deporte. Actualmente este repositorio cuenta con más de 74.000 recursos y 300 itinerarios de aprendizaje, junto a un banco multimedia de 100.000 activos digitales bajo la licencia Creative Commons y que, por tanto, se pueden reutilizar para crear nuevos materiales. Dispone, además, de una aplicación móvil. Procomún también utiliza eXeLearning y el estándar LOM-ES, lo que asegura una descripción homogénea de los recursos y facilita su búsqueda y clasificación. Además, es una web semántica, lo que supone que puede conectarse con comunidades existentes a través de la Linked Open Data Cloud.
Desde las comunidades autónomas también se ha promovido la creación de recursos educativos abiertos. Un ejemplo es CREA, un programa de la Junta de Extremadura orientado a la producción colaborativa de recursos educativos abiertos. Su plataforma permite al profesorado crear, adaptar y compartir materiales didácticos estructurados, integrando contenidos curriculares con metodologías activas. Los recursos se generan en formatos interoperables y se acompañan de metadatos que facilitan su búsqueda, reutilización e integración en distintas plataformas.
Existen iniciativas similares, como el proyecto REA-DUA en Andalucía, que aglutina más de 250 recursos educativos para primaria, secundaria y bachillerato, con atención a la diversidad. Por su parte, Galicia puso en marcha el curso 2022-23 cREAgal cuyo portal cuenta en la actualidad con más de 100 recursos de educación primaria y secundaria. Este proyecto incide en la inclusión y promueve la autonomía personal del alumnado. Además, desde algunas consejerías de educación se ponen a disposición recursos educativos abiertos, como es el caso de Canarias.

Hispana, el portal de acceso al patrimonio cultural español

Además de estas iniciativas orientadas a la creación de recursos educativos, han surgido otras que promueven la recopilación de contenidos que no fueron creados con un fin educativo pero que pueden ser utilizados en el aula. Es el caso de Hispana, un portal de agregación de fondos digitales de bibliotecas, archivos y museos españoles.

Para proporcionar acceso al patrimonio cultural y científico español, Hispana recolecta y hace accesibles los metadatos de los objetos digitales, permitiendo visualizar dichos objetos a través de enlaces que dirigen a las páginas de las instituciones propietarias. Además de actuar como recolector, Hispana también agrega el contenido de las instituciones que lo deseen a Europeana, la biblioteca digital europea, lo que permite aumentar la visibilidad y reutilización de los recursos.

Hispana es un repositorio OAI-PMH, lo que significa que utiliza el protocolo Open Archives Initiative – Protocol for Metadata Harvesting, un estándar internacional para la recolección e intercambio de metadatos entre repositorios digitales. Así, Hispana recolecta los metadatos de los archivos, museos y bibliotecas españoles que exponen sus fondos con este protocolo y los envía a Europeana.

Iniciativas internacionales y cooperación global

A nivel global es importante destacar el papel de la Unesco a través de la Coalición Dinámica sobre los REA, que busca coordinar esfuerzos para aumentar la disponibilidad, calidad y sostenibilidad de estos activos.

En Europa, ENCORE+ (European Network for Catalysing Open Resources in Education) busca fortalecer el ecosistema europeo de REA. Entre sus objetivos se encuentra crear una red que conecte universidades, empresas y organismos públicos para impulsar la adopción, reutilización y calidad de los REA en Europa. ENCORE+ promueve, además, la interoperabilidad entre plataformas, la estandarización de metadatos y la cooperación para garantizar la calidad de los recursos.

En Europa se han desarrollado otras iniciativas interesantes como EPALE (Electronic Platform for Adult Learning in Europe), una iniciativa de la Comisión Europea dirigida a los especialistas en educación para personas adultas. La plataforma contiene estudios, informes y materiales formativos, muchos de ellos bajo licencias abiertas, lo que contribuye a la difusión y uso de los REA.

Además, existen numerosos proyectos que generan y ponen a disposición recursos educativos abiertos en todo el mundo. En Estados Unidos, OER Commons funciona como un repositorio global de materiales educativos de diferentes niveles y materias. Este proyecto utiliza Open Author, un editor en línea que facilita que docentes sin conocimientos técnicos avanzados creen y personalicen recursos educativos digitales directamente en la plataforma.

Otro proyecto destacado es el Plan Ceibal, un programa público en Uruguay que representa un modelo de inclusión tecnológica para la igualdad de oportunidades. Además de proveer acceso a tecnología, genera y distribuye REA en formatos interoperables, compatibles con estándares como SCORM y metadatos estructurados que facilitan su búsqueda, integración en plataformas de aprendizaje y reutilización por parte del profesorado.

Junto a iniciativas como estas, existen otras que, aunque no producen recursos educativos abiertos de manera directa, sí fomentan su creación y uso mediante la colaboración entre docentes y estudiantes de diferentes países. Es el caso de proyectos como eTwinning y Global Classroom.

La fortaleza de los REA radica en su contribución a la democratización del conocimiento, su naturaleza colaborativa y su capacidad para impulsar metodologías innovadoras. Al derribar barreras geográficas, económicas y sociales, los recursos educativos abiertos hacen que el derecho a la educación esté un poco más cerca de convertirse en una realidad universal.

15/10/2025

Novedades del ecosistema de datos: primer semestre 2025

Noticia

El sector de los datos abiertos es muy activo. Para estar al día de todo lo que ocurre, desde datos.gob.es publicamos una recopilación de novedades como el desarrollo de nuevas aplicaciones tecnológicas, avances legislativos u otras noticias relacionadas.

Hace seis meses, ya hicimos la última recopilación del año 2024. En esta ocasión, vamos a resumir algunas innovaciones, mejoras y logros del primer semestre de 2025.

Marco normativo: nuevas regulaciones que transforman el panorama

Una de las novedades más significativas es la publicación del Reglamento relativo al Espacio Europeo de Datos de Salud por parte del Parlamento Europeo y el Consejo. Esta normativa establece un marco común para el intercambio seguro de datos sanitarios entre los estados miembro, facilitando tanto la investigación médica como la prestación de servicios sanitarios transfronterizos. Además, este hito representa un cambio paradigmático en la gestión de datos sensibles, demostrando que es posible conciliar la privacidad y protección de datos con la necesidad de compartir información para el bien común. Las implicaciones para el sistema sanitario español son considerables, ya que permitirá una mayor interoperabilidad con otros países europeos y facilitará el desarrollo de proyectos de investigación colaborativos.

Por otro lado, la entrada en vigor de la Ley Europea de IA establece normas claras para el desarrollo de esta tecnología, garantizando la seguridad, transparencia y respeto de los derechos humanos. Este tipo de normativas son especialmente relevantes en el contexto de datos abiertos, donde la transparencia algorítmica y la explicabilidad de los modelos de IA se convierten en requisitos esenciales.

En España, el compromiso con la transparencia se materializa en iniciativas como el nuevo Observatorio de Derechos Digitales, que cuenta con la participación de más de 150 entidades y 360 personas expertas. Esta plataforma se configura como un espacio de diálogo y seguimiento de las políticas digitales, contribuyendo a garantizar que la transformación digital respete los derechos fundamentales.

Innovaciones tecnológicas en España y el extranjero

Uno de los hitos más destacados en el ámbito tecnológico es el lanzamiento de ALIA, la infraestructura pública de recursos de inteligencia artificial. Esta iniciativa busca desarrollar modelos de lenguaje abiertos y transparentes que fomenten el uso del castellano y las lenguas cooficiales españolas en el ámbito de la IA.

ALIA no es solo una respuesta a la hegemonía de los modelos anglosajones, sino una apuesta estratégica por la soberanía tecnológica y la diversidad lingüística. Los primeros modelos ya disponibles han sido entrenados en español, catalán, gallego, valenciano y euskera, marcando un precedente importante en el desarrollo de tecnologías inclusivas y culturalmente sensibles.

Con relación a esta innovación, las aplicaciones prácticas de la inteligencia artificial se están multiplicando en diversos sectores. Por ejemplo, en el ámbito financiero, la Agencia Tributaria ha adoptado un compromiso ético en el diseño y uso de la inteligencia artificial. En este marco, la comunidad ha desarrollado incluso un chatbot virtual entrenado con datos propios que ofrece orientación legal en temas fiscales y tributarios.

En el sector sanitario, un grupo de radiólogos españoles está trabajando en un proyecto para la detección precoz de lesiones oncológicas utilizando IA, demostrando cómo la combinación de datos abiertos y algoritmos avanzados puede tener un impacto directo en la salud pública.

También combinando IA con datos abiertos se han desarrollado proyectos relacionados con la sostenibilidad medioambiental. Este modelo desarrollado en España combina IA y datos meteorológicos abiertos para predecir la producción de energía solar en los próximos 30 años, proporcionando información crucial para la planificación energética nacional.

Otro sector relevante en lo que respecta a la innovación tecnológica es el de las smart cities. En estos últimos meses, Las Palmas de Gran Canaria ha digitalizado sus mercados municipales combinando redes WiFi, dispositivos IoT, un gemelo digital y plataformas de datos abiertos. Esta iniciativa integral busca mejorar la experiencia del usuario y optimizar la gestión comercial, demostrando cómo la convergencia tecnológica puede transformar espacios urbanos tradicionales.

Zaragoza, por su parte, ha desarrollado un mapa de vulnerabilidad utilizando inteligencia artificial aplicada a datos abiertos, proporcionando una herramienta valiosa para la planificación urbana y las políticas sociales.

Otro caso relevante es el proyecto de la Iniciativa Open Data Barcelona, #iCuida, que destaca como un ejemplo innovador de reutilización de datos abiertos para mejorar la vida de las cuidadoras y trabajadoras del hogar. Esta aplicación demuestra cómo los datos abiertos pueden dirigirse a colectivos específicos y generar impacto social directo.

Por último, pero no menos importante, a nivel global, este semestre DeepSeek ha lanzado DeepSeek-R1, una nueva familia de modelos generativos especializados en razonamiento, publicando tanto los modelos como su metodología de entrenamiento completa en código abierto, contribuyendo al avance democrático de la IA.

Nuevos portales de datos abiertos y herramientas de mejora

En toda esta vorágine de innovación y tecnología, el panorama de los portales de datos abiertos se ha enriquecido con nuevas iniciativas sectoriales. El Colegio de Registradores Mercantiles y de la Propiedad de España ha presentado su plataforma de datos abiertos, permitiendo acceso inmediato a datos registrales sin esperar informes periódicos. Esta iniciativa representa un cambio significativo en la transparencia del sector registral.

En el ámbito sanitario, el portal 'I+Salud' del sistema sanitario público de Andalucía recoge y difunde desde un sitio único los recursos y datos sobre actividades y resultados de investigación, facilitando el acceso a información científica relevante.

Además de la disponibilidad de datos, hay un tratamiento que los hace más accesibles al público general: la visualización de datos. La Universidad de Granada ha desarrollado 'UGR en cifras', un espacio de acceso libre con sección de datos abiertos que facilita la exploración de estadísticas oficiales y se erige como pieza fundamental en la transparencia universitaria.

Por otro lado, IDENA, la nueva herramienta del Geoportal de Navarra, incorpora funcionalidades avanzadas para buscar, navegar, incorporar mapas, compartir datos y descargar información geográfica, siendo operativa en cualquier dispositivo.

Formación para el futuro: eventos y jornadas

El ecosistema formativo en este ecosistema se fortalece cada año con eventos como la Cumbre de Gestión del Dato (Data Management Summit) en Tenerife, que aborda la interoperabilidad en administraciones públicas y la inteligencia artificial. Otro evento de referencia en los datos abiertos que también se celebró en Canarias fue el Encuentro Nacional de Datos Abiertos.

Más allá de estos eventos, la innovación colaborativa también ha fomentado a través de hackathones especializados, como el dedicado a soluciones de IA generativa para la biodiversidad o el Merkle Datathon en Gijón. Estos eventos no solo generan soluciones innovadoras, sino que también crean comunidades de práctica y fomentan el talento emergente.

Un año más, los concursos de datos abiertos de Castilla y León y Euskadi han premiado proyectos que demuestran el potencial transformador de la reutilización de datos abiertos, inspirando nuevas iniciativas y aplicaciones.

Perspectiva internacional y tendencias globales: la cuarta ola de datos abiertos

Open Data Policy Lab habló en los EU Open Data Days de lo que se conoce como la "cuarta ola" de datos abiertos, estrechamente vinculada a la IA generativa. Esta evolución representa un salto cualitativo en la forma de procesar, analizar y utilizar los datos públicos, donde los modelos de lenguaje natural permiten interacciones más intuitivas y análisis más sofisticados.

En general, el panorama de datos abiertos en 2025 revela una transformación profunda del ecosistema, donde la convergencia entre inteligencia artificial, marcos normativos avanzados y aplicaciones especializadas está redefiniendo las posibilidades de la transparencia y la innovación pública.

26/06/2025

Qué puedo hacer en mi día a día con la IA: tips de prompting

Blog

La inteligencia artificial ya no es cosa del futuro: está aquí y puede convertirse en una aliada en nuestro día a día. Desde facilitarnos tareas en el trabajo, como redactar correos o resumir documentos, hasta ayudarnos a organizar un viaje, aprender un nuevo idioma o planificar nuestros menús semanales, la IA se adapta a nuestras rutinas para hacernos la vida más fácil. No hace falta ser un experto en tecnología para sacarle partido; si bien las herramientas actuales son muy accesibles, comprender sus capacidades y saber cómo formular las preguntas adecuadas maximizará su utilidad.

Sujetos pasivos y activos de la IA

Las aplicaciones de la inteligencia artificial en el día a día están transformando nuestra vida cotidiana. La IA abarca ya múltiples campos de nuestras rutinas. Los asistentes virtuales, como Siri o Alexa, se encuentran entre las herramientas más conocidas que incorporan inteligencia artificial, y se utilizan para responder preguntas, programar citas o controlar dispositivos.

Muchas personas usan a diario herramientas o aplicaciones con inteligencia artificial, aunque esta opere de forma imperceptible para al usuario y no requiera su intervención. Google Maps, por ejemplo, utiliza IA para optimizar rutas en tiempo real, predecir el estado del tráfico, sugerir caminos alternativos o estimar la hora de llegada. Spotify la aplica para personalizar las listas de reproducción o sugerir canciones, y Netflix para realizar recomendaciones y adaptar el contenido que se muestra a cada usuario.

Pero también es posible ser un usuario activo de la inteligencia artificial utilizando herramientas que interactúan directamente con los modelos. Así, podemos hacer preguntas, generar textos, resumir documentos o planificar tareas. La IA deja de ser un mecanismo oculto para convertirse en una especie de copiloto digital que nos asiste en nuestro día a día. ChatGPT, Copilot o Gemini son herramientas que nos permiten usar la IA sin necesidad de ser expertos. Esto nos facilita la automatización de tareas cotidianas, liberando tiempo para dedicarlo a otras actividades.

IA en el hogar y la vida personal

Los asistentes virtuales responden a comandos de voz y nos informan de qué hora es, el tiempo que va a hacer o nos ponen la música que queremos escuchar. Pero sus posibilidades van mucho más allá, ya que son capaces de aprender de nuestros hábitos para anticiparse a nuestras necesidades. Pueden controlar diferentes dispositivos que tenemos en el hogar de manera centralizada, como la calefacción, el aire acondicionado, las luces o los dispositivos de seguridad. También es posible configurar acciones personalizadas que se activen a través de un comando de voz. Por ejemplo, una rutina “buenos días” que encienda las luces, nos informe del pronóstico del tiempo y del estado del tráfico.

Cuando hemos perdido el manual de alguno de los electrodomésticos o aparatos electrónicos que tenemos en casa, la inteligencia artificial es una buena aliada. Enviando una foto del dispositivo, nos ayudará a interpretar las instrucciones, configurarlo o solucionar problemas básicos.

Si quieres ir más allá, la IA puede hacer por ti algunas tareas de la vida cotidiana. A través de estas herramientas podemos planificar nuestros menús semanales, indicando necesidades o preferencias, como platos aptos para celiacos o vegetarianos, preparar la lista de la compra y obtener las recetas. También nos puede ayudar a elegir entre los platos de la carta de un restaurante teniendo en cuenta nuestras preferencias y restricciones alimentarias, como alergias o intolerancias. A través de una simple foto de la carta, la IA nos ofrecerá sugerencias personalizadas.

El ejercicio físico es otro ámbito de nuestra vida personal en el que estos copilotos digitales son muy valiosos. Podemos pedirle, por ejemplo, que cree rutinas de ejercicios adaptadas a diferentes condiciones físicas, objetivos y material disponible.

La planificación de unas vacaciones es otra de las funcionalidades más interesantes de estos asistentes digitales. Si les proporcionamos un destino, un número de días, intereses e incluso presupuesto, tendremos un plan completo para nuestro próximo viaje.

Aplicaciones de la IA en los estudios

La IA está transformando profundamente la forma de estudiar, ofreciendo herramientas que personalizan el aprendizaje. Ayudar a los más pequeños de la casa en sus tareas escolares, aprender un idioma o adquirir nuevas habilidades para nuestro desarrollo profesional son solo algunas de las posibilidades.

Existen plataformas que generan contenidos personalizados en apenas unos minutos y material didáctico realizado a partir de datos abiertos que se puede utilizar tanto en el aula como en casa para repasar. Entre los universitarios o los estudiantes de secundaria y bachillerato, algunas de las opciones más populares son las aplicaciones que resumen o hacen esquemas a partir de textos más largos. Incluso es posible generar un pódcast desde un fichero, lo que nos puede ayudar a entender y familiarizarnos con un tema mientras hacemos deporte o cocinamos.

Pero también podemos crear nuestras aplicaciones para estudiar o incluso simular exámenes. Sin tener conocimientos de programación, es posible generar una aplicación para aprender las tablas de multiplicar, los verbos irregulares en inglés o lo que se nos ocurra.

Cómo usar la IA en el trabajo y las finanzas personales

En el ámbito profesional la inteligencia artificial ofrece herramientas que aumentan la productividad. De hecho, se estima que en España un 78% de los trabajadores utilizan ya herramientas de IA en el ámbito laboral. Al automatizar procesos, ahorramos tiempo para centrarnos en tareas de más valor. Estos asistentes digitales resumen documentos largos, generan informes especializados en un campo, redactan correos electrónicos o toman notas en las reuniones.

Algunas plataformas incorporan ya la transcripción de las reuniones en tiempo real, algo que puede resultar muy útil si no dominamos el idioma. Microsoft Teams, por ejemplo, ofrece a través de Copilot opciones útiles desde la pestaña “Resumen” de la propia reunión, como la transcripción, un resumen o la posibilidad de agregar notas.

El manejo de las finanzas personales ha evolucionado igualmente gracias a aplicaciones que utilizan IA, permitiendo controlar gastos y gestionar un presupuesto. Pero también podemos crear nuestro propio asesor financiero personal utilizando alguna herramienta de IA, como ChatGPT. Al proporcionarle información sobre ingresos, gastos fijos, variables y objetivos de ahorro, analiza los datos y crea planes financieros personalizados.

Prompts y creación de aplicaciones útiles para el día a día

Hemos visto las grandes posibilidades que nos brinda la inteligencia artificial como copiloto en nuestro día a día. Pero para lograr que sea un buen asistente digital, debemos saber cómo preguntarle y darle las instrucciones precisas.

Un prompt es una instrucción básica o petición que se realiza a un modelo de IA para guiarlo, con el objetivo de que nos proporcione una respuesta coherente y de calidad. Un buen prompting es la clave para sacar el máximo rendimiento de la IA. Es fundamental preguntar bien y proporcionar la información necesaria.

Para escribir prompts efectivos tenemos que ser claros, específicos y evitar ambigüedades. Debemos indicar cuál es el objetivo, es decir, qué queremos que la IA haga: resumir, traducir, generar una imagen, etc. Igualmente es clave proporcionarle el contexto, explicando a quién se dirige o por qué lo necesitamos, además de cómo esperamos que sea la respuesta. Esto puede incluir el tono del mensaje, el formato, las fuentes que se utilicen para generarla, etc.

A continuación, te dejamos algunos consejos para crear prompts efectivos:

Utiliza frases cortas, directas y concretas. Cuanto más clara sea la petición, más precisa será la respuesta. Evita expresiones como “por favor” o “gracias”, ya que lo único que hacen es añadir ruido innecesario y consumir más recursos. Por el contrario, utiliza palabras como “debes”, “haz”, “incluye” o “enumera”. Para reforzar la petición puedes usar mayúsculas en esas palabras. Estas expresiones son especialmente útiles para afinar una primera respuesta del modelo que no cumple con tus expectativas.
Indica el público al que se dirige. Especifica si la respuesta va dirigida a un público experto, inexperto, niños, adolescentes, adultos, etc. Cuando queremos una respuesta sencilla podemos, por ejemplo, pedirle a la IA que nos lo explique como si tuviéramos diez años.
Usa delimitadores. Separa las instrucciones mediante algún símbolo, como unas barras (//) o comillas para que el modelo comprenda mejor la instrucción. Por ejemplo, si quieres que haga una traducción, usa delimitadores para separar la orden (“Traduce al inglés”) de la frase que debe traducir.
Indica la función que debe adoptar el modelo. Especifica el rol que debe asumir el modelo para generar la respuesta. Indicarle si debe actuar como un experto en finanzas o en nutrición, por ejemplo, ayudará a generar respuestas más especializadas ya que adaptará tanto el contenido como el tono.
Divide las peticiones completas en solicitudes sencillas. Si vas a hacer una petición compleja que requiere un prompt excesivamente largo, es recomendable que la desgloses en pasos más sencillos. Si necesitas explicaciones detalladas utiliza expresiones como “Piensa a paso” para que te dé una respuesta más estructurada.
Usa ejemplos. Incluye en el prompt ejemplos de lo que buscas para guiar al modelo hacia la respuesta.
Proporciona instrucciones en positivo. En lugar de pedir que no haga o incluya algo, expresa la petición de forma afirmativa. Por ejemplo, en vez de “No uses frases largas”, dile: “Utiliza frases breves y concisas”. Las instrucciones en positivo evitan ambigüedades y facilitan que la IA entienda lo que debe hacer. Esto sucede porque los prompts negativos suponen un esfuerzo extra para el modelo, al tener que deducir cuál es la acción contraria.
Ofrece propinas o penalizaciones. Esto sirve para reforzar comportamientos deseados y coartar respuesta inadecuadas. Por ejemplo, “Si usas frases vagas o ambiguas, perderás 100 euros”.
Pide que te pregunte lo que necesite. Si le indicamos que nos pida información adicional, reducimos la posibilidad de las alucinaciones, ya que estamos mejorando el contexto de nuestra petición.
Solicita que responda como un humano. Si los textos te parecen demasiado artificiales o mecánicos, especifica en el prompt que la respuesta sea más natural o que parezca elaborada por un humano.
Proporciona el inicio de la respuesta. Este simple truco resulta muy útil para guiar al modelo hacia la respuesta que esperamos.
Delimita las fuentes que debe utilizar. Si acotamos el tipo de información que debe utilizar para generar la respuesta, obtendremos respuestas más afinadas. Pide, por ejemplo, que utilice solo datos posteriores a un año concreto.
Solicita que imite un estilo. Podemos proporcionarle un ejemplo para que su respuesta sea coherente con el estilo de la referencia o pedirle que siga el estilo de un autor famoso.

Si bien es posible generar código funcional para tareas y aplicaciones sencillas sin conocimientos de programación, es importante notar que el desarrollo de soluciones más complejas o robustas a nivel profesional sigue requiriendo experiencia en programación y desarrollo de software. Para crear, por ejemplo, una aplicación que nos ayude a gestionar nuestras tareas pendientes, le pedimos a las herramientas de IA que generen el código, explicando de manera detallada qué queremos que haga, cómo esperamos que se comporte y qué aspecto debe tener. A partir de estas instrucciones, la herramienta generará el código y nos irá guiando para probarlo, modificarlo y ponerlo en marcha. Podemos preguntarle cómo y dónde ejecutarlo de manera gratuita y pedirle ayuda para realizar mejoras.

Como hemos visto, el potencial de estos asistentes digitales es enorme, pero su verdadero poder reside en gran parte en cómo nos comunicamos con ellos. Los prompts claros y bien estructurados son la clave para obtener respuestas precisas sin necesidad de ser expertos en tecnología. La IA no solo nos ayuda a automatizar tareas rutinarias, sino que amplía nuestras capacidades, permitiéndonos hacer más en menos tiempo. Estas herramientas están redefiniendo nuestro día a día, haciéndolo más eficiente y dejándonos tiempo para otras cosas. Y lo mejor de todo: ya está a nuestro alcance.

23/06/2025

Cursos de verano 2025 para aprender ciencia de datos e inteligencia artificial

Evento

La ciencia de datos está de moda. Las profesiones relacionadas con este ámbito se encuentran entre las más demandadas, de acuerdo con el último estudio “Posiciones y competencias más Demandadas 2024”, realizado por la Asociación Española de Directores de Recursos Humanos. En concreto, se observa una demanda significativa para roles relacionados con la gestión y análisis de datos, como Data Analyst, Data Engineer y Data Scientist. El auge de la inteligencia artificial (IA) y la necesidad de tomar decisiones basadas en datos están impulsando la integración de este tipo de profesionales en todos los sectores.

Las universidades son conscientes de esta situación y por ello oferta una gran cantidad de grados, posgrados y también cursos de verano, tanto para principiantes como para aquellos que quieren ampliar conocimientos y explorar nuevas tendencias tecnológicas. A continuación, recogemos algunos de ellos a modo de ejemplo. Se trata de cursos que combinan teoría y práctica, permitiendo descubrir el potencial de los datos.

1. Análisis y Visualización de Datos: Estadística Práctica con R e Inteligencia Artificial. Universidad Nacional de Educación a Distancia (UNED).

Este seminario ofrece formación integral en análisis de datos con un enfoque práctico. Se aprenderá a utilizar el lenguaje R y el entorno RStudio, con el foco puesto en la visualización, la inferencia estadística y su uso en sistemas de inteligencia artificial. Está dirigido a estudiantes de ramas afines y profesionales de diversos sectores (como educación, negocios, salud, ingeniería o ciencias sociales) que requieran aplicar técnicas estadísticas y de IA, así como a investigadores y académicos que necesiten procesar y visualizar datos.

Fecha y lugar: del 25 al 27 de junio de 2025 en modalidad online y presencial (en Plasencia).

2. Big Data. Análisis de datos y aprendizaje automático con Python. Universidad Complutense.

Gracias a esta formación, los estudiantes podrán adquirir una comprensión profunda de cómo los datos se obtienen, gestionan y analizan para generar conocimiento de valor a la hora de tomar decisiones. Entre otras cuestiones, se mostrará el ciclo de vida de un proyecto Big Data, incluyendo un módulo específico sobre datos abiertos. En este caso, el lenguaje elegido para la formación será Python. Para asistir, no se requieren conocimientos previos: está abierto a estudiantes universitarios, docentes, investigadores y profesionales de cualquier sector con interés en la temática.

Fecha y lugar: del 30 de junio al 18 de julio de 2025 en Madrid.

3. ***Challenges in Data Science: Big Data, Biostatistics, Artificial Intelligence and Communications*. Universitat de València.**

Este programa nace con la vocación de ayudar a los participantes a comprender el alcance de la revolución impulsada por los datos. Integrado dentro de los programas de movilidad Erasmus, combina clases magistrales, trabajo en grupo y una sesión de laboratorio experimental, todo en inglés. Entre otros temas, se hablará de datos abiertos, herramientas open source, bases de datos de Big Data, computación en la nube, privacidad y seguridad de los datos institucionales, minería y visualización de textos.

Fecha y lugar: Del 30 de junio al 4 de julio en dos sedes de Valencia. Nota: Actualmente las plazas están cubiertas, pero está abierta la lista de espera.

4. Gemelos digitales: de la simulación a la realidad inteligente. Universidad de Castilla-La Mancha.

Los gemelos digitales son una herramienta fundamental para impulsar la toma de decisiones basada en datos. Con este curso, los estudiantes podrán comprender las aplicaciones y los retos de esta tecnología en diversos sectores industriales y tecnológicos. Se hablará de la inteligencia artificial aplicada a gemelos digitales, la computación de alto rendimiento (HPC) y la validación y verificación de modelos digitales, entre otros. Está dirigido a profesionales, investigadores, académicos y estudiantes interesados en la materia.

Fecha y lugar: 3 y 4 de julio en Albacete.

5. Geografía de la salud y Sistemas de Información Geográfica: aplicaciones prácticas. Universidad de Zaragoza.

El aspecto diferencial de este curso es que está pensado para aquellos alumnos que busquen un enfoque práctico de la ciencia de datos en un sector concreto como es el de la salud. Su objetivo es proporcionar conocimientos teóricos y prácticos sobre la relación entre geografía y salud. Los alumnos aprenderán a utilizar Sistemas de Información Geográfica (SIG) para analizar y representar datos sobre prevalencia de enfermedades. Está abierto a distintos públicos (desde estudiantes o personas que trabajen en instituciones públicas y centros sanitarios, a asociaciones de vecinos u organizaciones sin ánimo de lucro vinculadas con temas de salud) y no requiere titulación universitaria previa.

Fecha y lugar: del 7 al 9 de julio de 2025 en Zaragoza.

6. Deep into data science. Universidad de Cantabria.

Dirigido a científicos, estudiantes universitarios (desde segundo año) de ingeniería, matemáticas, física e informática, este curso intensivo busca proporcionar una visión completa y práctica de la revolución digital actual. Los estudiantes aprenderán sobre herramientas de programación Python, machine learning, inteligencia artificial, redes neuronales o cloud computing, entre otros temas. Todos los temas se introducen de forma teórica para a continuación experimentar en prácticas de laboratorio.

Fecha y lugar: del 7 al 11 de julio de 2025 en Camargo.

7.Advanced Programming. Universitat Autònoma de Barcelona.

Impartido totalmente en inglés, el objetivo de este curso es mejorar las habilidades y conocimientos de programación de los alumnos a través de la práctica. Para ello se desarrollarán dos juegos en dos lenguajes distintos, Java y Python. Los alumnos serán capaces de estructurar una aplicación y programar algoritmos complejos. Está orientada a estudiantes de cualquier titulación (matemáticas, física, ingeniería, química, etc.) que ya se hayan iniciado en la programación y quieran mejorar sus conocimientos y habilidades.

Fecha y lugar: 14 de julio al 1 de agosto de 2025, en una ubicación por definir.

8.Visualización y análisis de datos con R. Universidade de Santiago de Compostela.

Este curso está dirigido a principiantes en la materia. En él se abordarán las funcionalidades básicas de R con el objetivo de que los estudiantes adquieran las habilidades necesarias para desarrollar análisis estadísticos descriptivos e inferenciales (estimación, contrastes y predicciones). También se darán a conocer herramientas de búsqueda y ayuda para que los alumnos puedan profundizar en su uso de manera independiente.

Fecha y lugar: del 14 al 24 de julio de 2025 en Santiago de Compostela.

9. Fundamentos de inteligencia artificial: modelos generativos y aplicaciones avanzadas. Universidad Internacional de Andalucía.

Este curso ofrece una introducción práctica a la inteligencia artificial y sus principales aplicaciones. En él se abordan conceptos relacionados con el aprendizaje automático, las redes neuronales, el procesamiento del lenguaje natural, la IA generativa y los agentes inteligentes. El lenguaje utilizado será Python, y aunque el curso es introductorio, se aprovechará mejor si el estudiante tiene conocimientos básicos en programación. Por ello, se dirige principalmente a estudiantes de grado o posgrado en áreas técnicas como ingeniería, informática o matemáticas, profesionales que buscan adquirir competencias en IA para aplicar en sus industrias y docentes e investigadores interesados en actualizarse sobre el estado del arte en IA.

Fecha y lugar: del 19 al 22 de agosto de 2025, en Baeza.

10. IA Generativa para innovar en la empresa: casos reales y herramientas para su implementación. Universidad del País Vasco.

Este curso, abierto al público general, tiene como objetivo ayudar a comprender el impacto de la IA generativa en distintos sectores y su papel en la transformación digital a través de la exploración de casos reales de aplicación en empresas y centros tecnológicos de Euskadi. Para ello se combinan charlas, paneles de discusión y una sesión práctica enfocada en el uso de modelos generativos, y técnicas como Retrieval-Augmented Generation (RAG) y Fine-Tuning.

Fecha y lugar: 10 de septiembre en San Sebastián.

Invertir en formación tecnológica durante el verano no solo es una excelente manera de fortalecer habilidades, sino también de conectar con expertos, compartir ideas y descubrir oportunidades de innovación. Esta selección es solo una pequeña muestra de la oferta disponible. Si conoces algún otro curso que quieras compartir con nosotros, deja un comentario o escríbenos a dinamizacion@datos.gob.es

04/06/2025

Pódcast: Datos y conocimiento abierto en las instituciones españolas

Entrevista

El conocimiento abierto es aquel que puede ser reutilizado, compartido y mejorado por otros usuarios e investigadores sin restricciones notables. Esto incluye datos, publicaciones académicas, software y otros recursos disponibles. Para profundizar en esta temática contamos con representantes de dos instituciones cuyo objetivo es impulsar la producción científica y que esta sea dispuesta en abierto para su reutilización:

Mireia Alcalá Ponce de León, Técnica de recursos de información del área de aprendizaje, investigación y ciencia abierta del Consorcio de Servicios Universitarios de Cataluña (CSUC).
Juan Corrales Corrillero, Gestor del repositorio de datos del Consorcio Madroño.

Escuchar el pódcast completo

Resumen de la entrevista

1.¿Podéis explicar brevemente a qué se dedican las instituciones para las que trabajáis?

Mireia Alcalá: El CSUC es el Consorcio de Servicios Universitarios de Cataluña y es una organización que tiene como objetivo ayudar a universidades y centros de investigación que están en Cataluña a mejorar su eficiencia a través de proyectos colaborativos. Estamos hablando de unas 12 universidades y casi unos 50 centros de investigación.
Ofrecemos servicios en muchas áreas: cálculo científico, administración electrónica, repositorios, administración en la nube, etc. y también ofrecemos servicios bibliotecarios y de ciencia abierta, que es lo que nos toca más de cerca. En el área de aprendizaje, investigación y ciencia abierta, que es donde estoy trabajando, lo que hacemos es intentar facilitar la adopción de nuevas metodologías por parte del sistema universitario y de investigación, sobre todo, en la ciencia abierta, y damos apoyo a la gestión de datos de investigación.

Juan Corrales: El Consorcio Madroño es un consorcio de bibliotecas universitarias de la Comunidad de Madrid y de la de la UNED (Universidad Nacional de Educación a Distancia) para la cooperación bibliotecaria. Buscamos incrementar la producción científica de las universidades que forman parte del consorcio y también incrementar la colaboración entre las bibliotecas en otros ámbitos. Estamos también, al igual que el CSUC, muy involucrados con la ciencia abierta: en promocionar la ciencia abierta, en proporcionar infraestructuras que la faciliten, no solamente para los miembros del Consorcio Madroño, sino también de forma global. Aparte, también damos otros servicios bibliotecarios y creamos estructuras para ellos.

2. ¿Qué requisitos debe de cumplir una investigación para qué se considere abierta?

Juan Corrales: Para que una investigación se considere abierta hay muchas definiciones, pero quizás una de las más importantes es la que da la Estrategia Nacional de Ciencia Abierta que tiene seis pilares.

Uno de ellos es que hay que poner en acceso abierto tanto los datos de investigación como las publicaciones, los protocolos, las metodologías... Es decir, todo tiene que estar accesible y, en principio, sin barreras para todo el mundo, no solamente para los científicos, no solamente para las universidades que pueden pagar el acceso a estos datos de investigación o a estas publicaciones.

También es importante utilizar plataformas de código abierto que podamos personalizar. El código abierto es software que cualquiera, en principio con conocimientos, puede modificar, personalizar y redistribuir, como contrapunto al software privado de muchas empresas, que no permite hacer todas estas gestiones.
Otro punto importante, aunque este estemos todavía lejos de llegar en la mayoría de las instituciones, es permitir la revisión por pares abiertas, porque permite saber quién ha hecho una revisión, con qué comentarios, etc. Se puede decir que permite volver a hacer el ciclo de revisión por pares y mejorarlo.

Un último punto es la ciencia ciudadana: permitir a los ciudadanos de a pie formar parte de la ciencia, que no solamente se haga dentro de las universidades o institutos de investigación.
Y otro punto importante es añadir nuevas formas de medir la calidad de la ciencia.

Mireia Alcalá: Estoy de acuerdo con lo que dice Juan. A mí también me gustaría añadir que, para que un proceso de investigación se considere abierto, lo tenemos que mirar globalmente. Es decir, que incluya todo el ciclo de vida de los datos. No podemos hablar de que una ciencia es abierta si solo nos fijamos en que los datos al final estén en abierto. Ya desde el principio de todo el ciclo de vida del dato, es importante que se usen plataformas y se trabaje de una manera más abierta y colaborativa.

3. ¿Por qué es importante que universidades y centros de investigación pongan sus estudios y datos a disposición de la ciudadanía?

Mireia Alcalá: Yo creo que es clave que las universidades y los centros compartan sus estudios, porque gran parte de la investigación, tanto aquí en España como a nivel europeo o mundial, se financia con dinero público. Por lo tanto, si la sociedad es quien está pagando la investigación, lo lógico es que también se beneficie de sus resultados. Además, abrir el proceso de investigación puede ayudar a que sea más transparente, más responsable, etc.

Se ha visto que gran parte de la investigación hecha hasta hoy en día no es reutilizable, ni reproducible. ¿Esto qué quiere decir? Que los estudios que se han hecho, casi en el 80% de los casos otra persona no puede cogerlo y volver a utilizar esos datos. ¿Por qué? Porque no siguen los mismos estándares, las mismas maneras, etc. Por lo tanto, yo creo que tenemos que hacer que sea extensivo a todos los sitios y un ejemplo claro está en época de pandemia. Con la COVID-19, investigadores de todo el mundo trabajaron juntos, compartiendo datos y hallazgos en tiempo real, trabajando de la misma manera, y se vio que la ciencia fue mucho más rápida y eficiente.

Juan Corrales: Los puntos claves ya los ha tocado todos Mireia. Aparte, se podría añadir que acercar la ciencia a la sociedad puede hacer que todos los ciudadanos sintamos que la ciencia es algo nuestro, no solamente de científicos o universitarios. Es algo en lo que podemos participar y esto puede ayudar también a frenar quizás los bulos, las fake news, a tener una visión más exhaustiva de las noticias que nos llegan a través de redes sociales y a poder filtrar qué puede ser real y qué puede ser falso.

4.¿Qué investigaciones deben publicarse en abierto?

Juan Corrales: Ahora mismo, según la ley que tenemos en España, la última Ley de ciencia, deben publicarse en abierto todas las publicaciones que están financiadas principalmente por fondos públicos o en las que participan instituciones públicas. Esto realmente no ha tenido mucha repercusión hasta el año pasado, porque, aunque la ley salió hace dos años, en la anterior también se decía, también hay una ley de la Comunidad de Madrid que dice lo mismo… pero desde el año pasado se está teniendo en cuenta en la evaluación que hace la ANECA (la Agencia de Evaluación de la Calidad) a los investigadores. Desde entonces casi todos los investigadores han tenido como algo prioritario publicar sus datos e investigaciones en abierto. Sobre todo, con los datos era algo que no se estaba haciendo prácticamente hasta ahora.

Mireia Alcalá: A nivel estatal es como dice Juan. Nosotros a nivel autonómico también tenemos una ley del 2022, la Ley de la ciencia, que básicamente dice exactamente lo mismo que la ley española. Pero a mí también me gusta que la gente conozca que no solo tenemos que tener en cuenta la legislación estatal, sino las convocatorias de donde se consigue el dinero para financiar los proyectos. Básicamente en Europa, en los programas marco como el Horizon Europe, se dice claramente que, si tú recibes una financiación de la Comisión Europea, tendrás que hacer un plan de gestión de datos al inicio de tu investigación y publicar los datos siguiendo los principios FAIR.

5.Entre otras cuestiones, tanto el CSUC como el Consorcio Madroño se encargan de dar soporte a entidades e investigadores que quieren poner sus datos a disposición de la ciudadanía, ¿cómo debe ser un proceso de apertura de datos de datos de investigación? ¿Qué retos son los más habituales y cómo los solucionan?

Mireia Alcalá: En nuestro repositorio que se llama RDR (de Repositori de Dades de Recerca), son básicamente las instituciones participantes las que se encargan de dar apoyo al personal investigador. El investigador llega al repositorio cuando ya está en la fase final de la investigación y necesita publicar para ayer los datos y entonces todo es mucho más complejo y lento. Se tarda más en verificar estos datos y hacer que sean encontrables, accesibles, interoperables y reutilizables.
En nuestro caso particular, tenemos una checklist que pedimos que todo dataset cumpla para garantizar este mínimo de calidad en los datos, para que se puedan reutilizar. Estamos hablando de que tenga identificadores persistentes como ORCID para el investigador o ROR para identificar las instituciones, que tenga documentación que explique cómo reutilizar esos datos, que tenga una licencia, etc. Como tenemos este checklist, los investigadores, a medida que van depositando, van mejorando sus procesos y empiezan a trabajar y a mejorar la calidad de los datos desde el principio. Es un proceso lento.

El principal reto, yo creo que es que el investigador asuma que eso que él tiene son datos, porque la mayoría lo desconoce. La mayoría de los investigadores creen que los datos son unos números que ha sacado una máquina que mide la calidad del aire, y desconoce que un dato puede ser una fotografía, una lámina de una excavación arqueológica, un sonido captado en una determinada atmósfera, etc. Por lo tanto, el principal reto es que todo el mundo entienda qué es un dato y que su dato puede ser valioso para otros.
¿Y cómo lo solucionamos? Intentando hacer mucha formación, mucha sensibilización. En los últimos años, desde el Consorcio, hemos trabajado para formar al personal de curación de datos, el que se dedica a ayudar a los investigadores directamente a fairificar estos datos. También estamos empezando a hacer sensibilización directamente con los investigadores para que usen las herramientas y entiendan un poco todo este nuevo paradigma que es la gestión de datos.

Juan Corrales: En el Consorcio Madroño, hasta noviembre, la única forma de abrir datos era que los investigadores pasaran un formulario con los datos y sus metadatos a los bibliotecarios, y eran los bibliotecarios los que los subían para asegurar que eran FAIR. Desde noviembre, también permitimos a los investigadores que suban los datos directamente al repositorio, pero no se publican hasta que han sido revisados por bibliotecarios expertos, que verifican que los datos y metadatos tienen calidad. Es muy importante que los datos estén bien descritos para que puedan ser fácilmente encontrables, reutilizables e identificables.

En cuanto a los retos, están todos los que ha dicho Mireia - que los investigadores muchas veces no saben que tienen datos- y también, aunque la ANECA ha ayudado mucho con las nuevas obligaciones a que se publiquen datos de investigación, muchos investigadores quieren poner sus datos corriendo en los repositorios, sin tener en cuenta que tienen que ser datos de calidad, que no basta con ponerlos, sino que es importante que esos datos después se puedan reutilizar.

6.¿Qué actividades y herramientas proporcionáis desde vuestras instituciones u otras similares para ayudar a las organizaciones a alcanzar el éxito en esta tarea?

Juan Corrales: Desde Consorcio Madroño, el propio repositorio que utilizamos, la herramienta donde se suben los datos de investigación, facilita que los datos sean FAIR, porque ya proporciona identificadores únicos, plantillas para los metadatos bastante completas que se pueden personalizar, etc. También tenemos otra herramienta que ayuda a crear los planes de gestión de datos para que los investigadores, para que antes de crear sus datos de investigación, empiecen a planificar cómo van a trabajar con ellos. Eso es algo muy importante y que desde las instituciones europeas se está impulsando desde hace ya mucho, y también desde la Ley de la ciencia y la Estrategia Nacional de Ciencia Abierta.
Después, más que las herramientas, es muy importante también la revisión por parte de bibliotecarios expertos.

Hay otras herramientas que ayudan a evaluar la calidad de un dataset, de los datos de investigación, como son Fair EVA o de F-Uji, pero lo que hemos comprobado es que esas herramientas al final lo que están evaluando más es la calidad del repositorio, del software que se está utilizando, y de los requisitos que estás pidiendo a los investigadores para subir estos metadatos, porque todos nuestros datasets tienen una evaluación bastante alta y bastante similar. Entonces, para lo que sí nos sirven esas herramientas es para mejorar tanto los requisitos que estamos poniendo a nuestros datasets, a nuestros conjuntos de datos, como para poder mejorar las herramientas que tenemos, en este caso el software de Dataverse, que es el que estamos utilizando.

Mireia Alcalá: A nivel de herramientas y actividades vamos a la par, porque con el Consorcio Madroño tenemos relación desde hace años, e igual que ellos tenemos todas estas herramientas que ayudan y facilitan el poner los datos de la mejor manera posible ya desde el principio, por ejemplo, con la herramienta para hacer planes de gestión de datos.

Aquí en el CSUC se ha trabajado también en los últimos años de una manera muy intensa en poder cerrar este gap en el ciclo de vida de los datos, abarcando temas de infraestructuras, almacenaje, cloud, etc. para que, en el momento que se analicen y se gestionen los datos, los investigadores tengan también un sitio donde poder ir. Después del repositorio, ya pasamos a todos los canales y portales que permiten difundir y visibilizar toda esta ciencia, porque no tiene sentido que hagamos repositorios y estén allí a modo de silo, sino que tienen que estar interconectados. Desde hace ya muchos años se ha trabajado muy bien en hacer protocolos de interoperabilidad y en seguir los mismos estándares. Por lo tanto, los datos tienen que estar disponibles en otros sitios, y tanto el Consorcio Madroño como nosotros estamos en todos los sitios posibles y más.

7. ¿Nos podéis contar un poco más sobre estos repositorios que ofrecéis? Además de ayudar a los investigadores a poner sus datos a disposición de la ciudadanía, también ofrecéis un espacio, unos repositorios digitales donde albergar estos datos, para que puedan ser localizados por los usuarios.

Mireia Alcalá: Si hablamos específicamente de datos de investigación, como tenemos un mismo repositorio tanto el Consorcio Madroño como nosotros, vamos a dejar que Juan nos explique el software y las especificaciones, y yo me voy a centrar en otros repositorios de producción científica que también ofrece el CSUC. Aquí lo que hacemos es coordinar diferentes repositorios cooperativos según la tipología del recurso que contiene. Por lo tanto, tenemos TDX para tesis, RECERCAT para documentos de investigación, RACO para revista científicas o MACO, para monografías en acceso abierto. En función de tipo de producto, disponemos de un repositorio concreto, porque no todo puede estar en un mismo sitio ya que cada output de la investigación tiene unas particularidades diferentes. Aparte de los repositorios, que son cooperativos, también tenemos otros espacios que hacemos para instituciones concretas, ya sea con una solución más estándar o algunas funcionalidades más personalizadas. Pero básicamente es esto: tenemos para cada tipo de output que hay en la investigación, un repositorio específico que se adapta a cada una de las particularidades de estos formatos.

Juan Corrales: En el caso de Consorcio Madroño, nuestro repositorio se llama e-cienciaDatos, pero está basado en el mismo software que el repositorio del CSUC, que es el Dataverse. Es un software de código abierto, con lo cual puede ser mejorado y personalizado. Aunque en principio el desarrollo está gestionado desde la Universidad de Harvard, en Estados Unidos, estamos participando en su desarrollo instituciones de todo el mundo -no sé si treinta y tantos países hemos participado ya en su desarrollo-.
Entre otras cosas, por ejemplo, las traducciones al catalán la han hecho desde el CSUC, la traducción al español la hemos hecho desde el Consorcio Madroño y también hemos participado en otros pequeños desarrollos. La ventaja que tiene este software es que facilita mucho que los datos sean FAIR y compatible con otros puntos que tienen mucha más visibilidad, porque, por ejemplo, el CSUC es mucho más grande, pero en el Consorcio Madroño estamos seis universidades, y es raro que alguien vaya a buscar un dataset en el Consorcio Madroño, en e-cienciaDatos, directamente. Lo normal es que lo busquen desde Google o un portal europeo o internacional. Con estas facilidades que tiene Dataverse, lo pueden buscar desde cualquier sitio y pueden terminar encontrando los datos que tenemos en el Consorcio Madroño o en el CSUC.

8. ¿Qué otras plataformas con datos en abierto de investigaciones, a nivel español o europeo, recomiendan?

Juan Corrales: Por ejemplo, a nivel español está la FECYT, la Fundación Española de Ciencia y Tecnología, que tiene un recolector que recoge los datos de investigación de todas las instituciones españolas prácticamente. Ahí aparecen todas las publicaciones de todas las instituciones: de Consorcio Madroño, de CSUC y muchísimas más.
Luego, en concreto para datos de investigación, hay muchas investigaciones que conviene ponerlas en un repositorio temático, porque es donde van a buscar los investigadores de esa rama de la ciencia. Tenemos alguna herramienta que ayuda a elegir el repositorio temático. A nivel europeo está Zenodo, que tiene mucha visibilidad, pero no tiene el apoyo de calidad de los datos del CSUC o el Consorcio Madroño. Y eso es algo que se nota muchísimo a nivel de reutilización después.

Mireia Alcalá: A nivel nacional, fuera de las iniciativas de Consorcio Madroño y la nuestra, los repositorios de datos aún no están muy extendidos. Conocemos algunas iniciativas en desarrollo, pero todavía es pronto para ver sus resultados. Sin embargo, sí que conozco algunas universidades que han adaptado sus repositorios institucionales para poder también añadir datos. Y aunque esto es una solución válida para aquellas que no tengan más opción, se ha visto que los softwares utilizados en repositorios que no están diseñados para gestionar las particularidades de los datos - que puede ser la heterogeneidad, el formato, la diversidad, el gran tamaño, etc.-. quedan un poco cojos. Después, como decía Juan, a nivel europeo, sí que está establecido que Zenodo es el repositorio multidisciplinario y multiformato, que nace a raíz de un proyecto europeo de la Comisión. Coincido con él que, como es un repositorio de autoarchivo y autopublicación - es decir, yo Mireia Alcalá puedo ir en cinco minutos, poner cualquier documento que tengo allí, nadie se lo ha mirado, pongo los mínimos metadatos que me piden y lo publico-, está claro que la calidad es muy variable. Hay cosas que realmente son utilizables y están perfectas, pero hay otras que necesitan un poco más de cariño.

Como decía Juan, también a nivel disciplinar es importante destacar que, en todas esas áreas que tengan un repositorio disciplinar, los investigadores tienen que ir allí, porque es donde van a poder usar sus metadatos más adecuados, donde todo el mundo trabajará de la misma manera, donde todo el mundo sabrá dónde buscar esos datos… Para quien tenga interés existe un directorio que se llama re3data, que es básicamente un directorio de todos estos repositorios multidisciplinares y disciplinares. Por lo tanto, es un buen sitio para quien tenga interés y no conozca qué hay en su disciplina. Que vaya allí, que es un buen recurso.

9. ¿Qué acciones consideráis como prioritarias a realizar desde las instituciones públicas de cara a promover el conocimiento abierto?

Mireia Alcalá: Yo básicamente lo que diría es que las instituciones públicas deben centrarse en hacer y establecer políticas claras sobre ciencia abierta, porque es verdad que hemos avanzado mucho en los últimos años, pero hay veces que los investigadores están un poco desconcertados. Y aparte de las políticas, sobre todo es ofrecer incentivos a toda la comunidad investigadora, porque hay mucha gente que está haciendo el esfuerzo de cambiar su manera de trabajar para impregnarse de la ciencia abierta y a veces no ve cómo revierte todo ese esfuerzo de más que está haciendo en cambiar su manera de trabajar para hacerlo de esta manera. O sea que yo diría esto: políticas e incentivos.

Juan Corrales: Desde mi punto de vista, las políticas teóricas que tenemos ya a nivel nacional, a nivel autonómico, suelen ser bastante correctas, bastante buenas. El problema es que muchas veces no se ha intentado hacerlas cumplir. Hasta ahora, por lo que hemos visto por ejemplo con la ANECA -que ha promocionado el uso de los repositorios de datos o de artículos de investigación-, no se han empezado a utilizar de forma masiva realmente. O sea, que los incentivos son necesarios, que no sea solamente por obligación. Hay que convencer, como ha dicho también Mireia, a los investigadores, que vean como algo suyo el publicar en abierto, que es algo que les beneficia tanto a ellos como a toda la sociedad. Lo que creo que eso más importante es eso: la concienciación a los investigadores.

Suscríbete a nuestro perfil de Spotify para estar al día de nuestros pódcasts

Clips entrevista:

¿Por qué deben universidad e investigadores compartir sus estudios en formatos abiertos?

2. ¿Qué requisitos debe cumplir una investigación para que se considere abierta?

23/04/2025

Data Innovation Toolkit: la hoja de ruta para innovar con datos públicos

Noticia

¿Cómo pueden las administraciones públicas aprovechar el valor de los datos? Esta pregunta no es sencilla de abordar, su respuesta viene condicionada por varios factores que tienen que ver con el contexto de cada administración, los datos con los que cuente y los objetivos específicos que se planteen.

No obstante, existen guías de referencia que pueden ayudar a definir un camino hacia la acción. Una de ellas es la que publica la Comisión Europea a través de la Oficina de Publicaciones de la UE, Data Innovation Toolkit, que surge como una brújula estratégica para navegar este complejo ecosistema de innovación de datos.

Esta herramienta no es un simple manual ya que incluye plantillas para que la implementación del proceso sea más sencilla. Orientada a perfiles diversos como pueden ser analistas noveles o experimentados responsables políticos e innovadores tecnológicos, Data Innovation Toolkit es un recurso útil que acompaña en el proceso, paso a paso.

Su objetivo es democratizar la innovación basada en datos proporcionando un marco estructurado que trasciende la mera recopilación de información. En este post, analizaremos los contenidos de la guía europea, así como las referencias que proporciona para plantear un buen uso innovador de los datos.

Estructura que abarca el ciclo de vida de los datos

La guía está organizada en cuatro pasos principales, que abordan todo el ciclo de vida de los datos.

Planificación

La primera parte de la guía se centra en establecer unos cimientos sólidos para cualquier proyecto de innovación con datos. Antes de abordar cualquier proceso, es importante definir objetivos. Para ello, el Data Innovation Toolkit sugiere realizar una reflexión profunda que requiere alinear las necesidades específicas del proyecto con los objetivos estratégicos de la organización. En este paso, también es clave el mapeo de stakeholders o identificación de actores. Esto implica comprender en profundidad los intereses, expectativas y posibles contribuciones de cada actor involucrado. Esta comprensión permite diseñar estrategias de engagement que maximicen la colaboración y minimicen los potenciales conflictos.

Para crear un equipo adecuado de innovación en datos, podemos utilizar la matriz RACI (Responsible, Accountable, Consulted, Informed, por sus siglas en inglés), y así definir con precisión los roles y responsabilidades. No se trata solo de reunir profesionales, sino de construir equipos multidisciplinares donde cada miembro comprenda exactamente su función y contribución al proyecto. Para ayudar en esta tarea la guía facilita:

Herramienta de definición de retos: para identificar y articular las cuestiones clave que pretenden resolver, resumiéndolas en una única declaración.
Herramienta de mapeo de stakeholders: para visualizar la red de individuos y organizaciones implicadas, evaluando su influencia e intereses.
Herramienta de definición de equipos: para facilitar la identificación de personas de su organización que puedan ayudarle.
Herramienta para definir roles: para, una vez definidos los perfiles necesarios, determinar sus responsabilidades y su papel en el proyecto de datos de forma más detallada, utilizando una matriz RACI.
Herramienta para definir Personas: las Personas son un concepto que se usa para definir tipos específicos de usuarios, denominados arquetipos de comportamiento. Esta guía ayuda a crear estos perfiles detallados, que representan a los usuarios o clientes que estarán involucrados en el proyecto.
Herramienta para el mapeo de Data Journey: para realizar una representación sintética que describa paso a paso cómo puede interactuar un usuario con sus datos. El proceso se representa desde la perspectiva del usuario, describiendo lo que ocurre en cada fase de la interacción y los puntos de contacto.

Recopilación y procesamiento

Una vez constituido el equipo e identificados los objetivos, se realiza una clasificación de los datos que va más allá de la tradicional división entre cuantitativos y cualitativos.

Ámbito cuantitativo:

Los datos discretos, como el número de quejas en un servicio público, no solo representan una cifra, sino una oportunidad para identificar sistemáticamente áreas de mejora. Permiten a las administraciones mapear problemas recurrentes y diseñar intervenciones específicas. Los datos continuos, como los tiempos de respuesta en trámites administrativos, ofrecen una radiografía de la eficiencia operativa. No se trata solo de medir, sino de comprender los factores que influyen en la variabilidad de estos tiempos y diseñar procesos más ágiles y eficientes.

Ámbito cualitativo:

Los datos nominales (de nombres) posibilitan la categorización de servicios públicos, permitiendo una comprensión más estructurada de la diversidad de intervenciones administrativas.
Los datos ordinales (de números), como las valoraciones de satisfacción, se convierten en una herramienta de priorización para la mejora continua.

En el documento están disponibles una serie de checklist para revisar este aspecto:

Checklist de data gaps: para identificar si existe algún vacío en los datos que vamos a utilizar y, si es así, cómo solventarlo.
Plantilla de data collection: para alinear el conjunto de datos al objetivo del análisis innovador.
Checklist de data collection: para asegurar el acceso a las fuentes de datos necesarias para ejecutar el proyecto.
Checklist de calidad de los datos: para repasar el nivel de calidad del conjunto de datos.
Cartas de procesamiento de datos: para revisar que los datos se están procesando de manera segura, eficiente y cumpliendo con las regulaciones.

Compartir y analizar

En este punto, el Data Innovation Toolkit propone cuatro estrategias de análisis que transforman los datos en conocimiento accionable.

El análisis descriptivo: va más allá de la simple visualización de datos históricos, permitiendo construir narrativas que expliquen la evolución de los fenómenos estudiados.
El análisis diagnóstico: profundiza en la investigación de causas, desentrañando los patrones ocultos que explican los comportamientos observados.
El análisis predictivo: se convierte en una herramienta de planificación estratégica, permitiendo a las administraciones prepararse para escenarios futuros.
El análisis prescriptivo: da un paso más, no solo proyectando tendencias, sino recomendando acciones concretas basadas en el modelado de datos.

Además del análisis, la dimensión ética es fundamental. Por ello, la guía establece protocolos estrictos para garantizar transferencias de datos seguras, cumplimiento normativo, transparencia y consentimiento informado. En este apartado, se ofrecen las siguientes checklist:

Plantilla de compartición de datos: para asegurar que se comparte de manera segura, legal y transparente.
Checklist de compartición de datos: para realizar todos los pasos necesarios para compartir los datos de manera segura, ética y alcanzando todos los objetivos definidos.
Plantilla de análisis de datos: para dirigir un análisis adecuado que permita obtener insights útiles y significativos para el proyecto.

Uso y evaluación

La última etapa se centra en convertir los insights en acciones reales. La comunicación de resultados, la definición de indicadores clave (KPI), la medición de impacto y las estrategias de escalabilidad se convierten en herramientas para la mejora continua.

Un recurso colaborativo en continua mejora

En resumen, el toolkit ofrece una transformación integral: desde la toma de decisiones basada en evidencia hasta la personalización de servicios públicos, pasando por el aumento de la transparencia y la optimización de recursos. También puedes revisar las checklist disponibles en este apartado que son:

Checklist de uso de datos: para revisar que los datos y las conclusiones obtenidas se utilizan de manera eficaz, responsable y orientado a los objetivos óptimos.
Innovación de datos mediante herramienta de KPI: para definir los KPI que medirán el éxito del proceso.
Herramientas de medición de impacto y evaluación del éxito: para valorar el éxito y el impacto de la innovación en el proyecto de datos.
Plan de escalabilidad de la innovación en datos: para identificar estrategias para escalar el proyecto de manera eficaz.

Además, este repositorio de recursos de innovación y datos es un catálogo dinámico de conocimiento que incluye artículos especializados, guías de implementación, casos de estudio y materiales de aprendizaje.

Puedes acceder aquí a la lista de materiales que proporciona el Data Innovation Toolkit

Web: https://is.gd/datainnovationrepository

E incluso ponerte en contacto con el equipo de desarrollo por si tienes alguna duda o quieres contribuir al repositorio:

Correo: DIGIT-DIGITAL-INNOVATION@ec.europa.eu

Parar concluir, llegar a aprovechar el valor de los datos con una perspectiva innovadora no es un salto mágico, sino un proceso gradual y complejo. En este camino, el Data Innovation Toolkit puede ser de utilidad ya que ofrece un marco estructurado. La implementación efectiva requerirá inversión en capacitación, adaptación cultural y compromiso a largo plazo.

02/04/2025

Pódcast: Cómo aprender ciencia de datos de manera autodidacta

Entrevista

¿Sabías que las habilidades de ciencia de datos están entre las más demandadas por las empresas? En este pódcast, te vamos a contar cómo puedes formarte en este campo, de manera autodidacta. Para ello, contaremos con dos expertos en ciencia de datos:

Juan Benavente, ingeniero industrial e informático con más de 12 años de experiencia en innovación tecnológica y transformación digital. Además, lleva años formando a nuevos profesionales en escuelas tecnológicas, escuelas de negocio y universidades.
Alejandro Alija, doctor en física, científico de datos y experto en transformación digital. Además de su amplia experiencia profesional enfocada en el Internet of Things (internet de las cosas), Alejandro también trabaja como profesor en diferentes escuelas de negocio y universidades.

Escuchar el pódcast completo

Resumen de la entrevista

¿Qué es la ciencia de datos? ¿Por qué es importante y para qué nos puede servir?

Alejandro Alija: La ciencia de datos podría definirse como una disciplina cuyo principal objetivo es entender el mundo, los procesos propios de un negocio y de la vida, analizando y observando los datos. En los últimos 20 años ha cobrado una relevancia excepcional debido a la explosión en la generación de datos, principalmente por la irrupción de internet y del mundo conectado.

Juan Benavente: El término ciencia de datos ha ido evolucionando desde su creación. Hoy, un científico de datos es la persona que está trabajando en el nivel más alto en análisis de datos, frecuentemente asociado con la construcción de algoritmos de machine learning o inteligencia artificial para empresas o sectores específicos, como predecir u optimizar la fabricación en una planta.

La profesión está evolucionando rápidamente, y probablemente en los próximos años se vaya fragmentando. Hemos visto aparecer nuevos roles como ingenieros de datos o especialistas en MLOps. Lo importante es que hoy cualquier profesional, independientemente de su área, necesita trabajar con datos. No cabe duda de que cualquier posición o empresa requiere análisis de datos, cada vez más avanzados. Da igual si estás en marketing, ventas, operaciones o en la universidad. Cualquiera hoy en día está trabajando con datos, manipulándolos y analizándolos. Si además aspiramos a la ciencia de datos, que sería el mayor nivel de expertise, estaremos en una posición muy beneficiosa. Pero, sin duda, recomendaría a cualquier profesional que tenga esto en radar.

¿Cómo os iniciasteis en la ciencia de datos y qué hacéis para manteneros actualizados? ¿Qué estrategias recomendaríais tanto para principiantes como para perfiles más experimentados?

Alejandro Alija: Mi formación básica es en física, e hice mi doctorado en ciencia básica. En realidad, podría decirse que cualquier científico, por definición, es un científico de datos, porque la ciencia se basa en formular hipótesis y demostrarlas con experimentos y teorías. Mi relación con los datos comenzó temprano en la academia. Un punto de inflexión en mi carrera fue cuando empecé a trabajar en el sector privado, específicamente en una compañía de gestión medioambiental que se dedica a medir y observar la contaminación atmosférica. El medio ambiente es un campo que tradicionalmente es gran generador de datos, especialmente por ser un sector regulado donde las administraciones y empresas privadas están obligadas, por ejemplo, a registrar los niveles de contaminación atmosférica en determinadas condiciones. Encontré series históricas de hasta 20 años de antigüedad que estaban a mi disposición para analizar. A partir de ahí empezó mi curiosidad y me especialicé en herramientas concretas para analizar y entender lo que está ocurriendo en el mundo.

Juan Benavente: Yo me identifico con lo que ha comentado Alejandro porque tampoco soy informático. Me formé en ingeniería industrial y aunque la informática es uno de mis intereses, no fue mi base. A diferencia, hoy en día, sí veo que se están formando más especialistas desde la universidad. Actualmente, un científico de datos tiene muchas skills a la espalda como cuestiones de estadística, matemáticas y la capacidad de entender todo lo que pasa en el sector. Yo he ido adquiriendo estos conocimientos en base a la práctica. Sobre cómo mantenerse actualizado, yo creo que, en muchos casos, puedes estar en contacto con empresas que están innovando en este campo. También en eventos sectoriales o tecnológicos se puede aprender mucho. Yo empecé en las smart cities y he ido pasando por el mundo industrial hasta aprender poco a poco.

Alejandro Alija: Por añadir otra fuente en la que mantenerse actualizado. A parte de las que ha comentado Juan, creo que es importante identificar lo que llamamos outsiders, los fabricantes de tecnologías, los actores del mercado. Son una fuente de información muy útil para estar actualizado: identificar sus estrategias de futuros y por qué apuestan.

Pongámonos en el caso hipotético de que alguien con pocos o nulos conocimientos técnicos, quiera aprender ciencia de datos, ¿por dónde empieza?

Juan Benavente: En formación, me he encontrado perfiles muy diferentes: desde gente que acabe de salir de la carrera hasta perfiles que se han formado en ámbitos muy diferentes y encuentran en la ciencia de datos una oportunidad para transformarse y dedicarse a esto. Pensando en alguien que está empezando, creo que lo mejor es poner en práctica tus conocimientos. En proyectos en los que he trabajado definíamos la metodología en tres fases: una primera fase más de aspectos teóricos teniendo en cuenta matemáticas, programación y todo lo que necesita saber un científico de datos; una vez tengas esas bases, cuanto antes empieces a trabajar y practicar esos conocimientos, mejor. Creo que la habilidad agudiza el ingenio y, tanto para estar actualizado, como para formarte e ir adquiriendo conocimiento útil, cuanto antes entres en proyecto, mejor. Y más, hablando de un mundo que se actualiza tan recurrentemente. Estos últimos años, la aparición de la IA generativa ha supuesto otras oportunidades. En estas herramientas también hay oportunidades para nuevos perfiles que quieran formarse. Aunque no seas experto en programación tienes herramientas que te puedan ayudar a programar, y lo mismo te puede suceder en matemáticas o estadística.

Alejandro Alija: Por complementar un poco lo que dice Juan desde una perspectiva diferente. Creo que vale la pena destacar la evolución de la profesión de ciencia de datos. Recuerdo cuando se hizo famoso aquel paper en el que se hablaba de "la profesión más sexy del mundo", que se volvió muy viral, aunque luego las cosas se fueron ajustando. Los primeros pobladores del mundo de la ciencia de datos no venían tanto de ciencias de la computación o informática. Eran más los outsiders: físicos, matemáticos, con bases robustas en matemáticas y física, e incluso algunos ingenieros que por su trabajo y desarrollo profesional terminaban utilizando muchas herramientas del ámbito informático. Poco a poco se ha ido balanceando. Ahora es una disciplina que sigue teniendo esas dos vertientes: personas que vienen del mundo de la física y matemáticas hacia los datos más básicos, y personas que vienen con conocimientos de programación. Cada uno sabe lo que tiene que balancear de su caja de herramientas. Pensando en un perfil junior que esté empezando, creo que una cosa muy importante - y así lo vemos cuando damos clase - es la capacidad de programación. Diría que tener skills de programación no es solo un plus, sino un requisito básico para avanzar en esta profesión. Es verdad que algunas personas pueden desempeñarse bien sin muchas habilidades de programación, pero yo diría que un principiante necesita tener esas primeras skills de programación con un toolset básico. Estamos hablando de lenguajes como Python y R, que son los lenguajes de cabecera. No se trata de ser un gran codificador, pero sí de tener conocimientos básicos para poder arrancar. Luego, evidentemente, la formación específica sobre fundamentos matemáticos de la ciencia de datos es crucial. La estadística fundamental y la estadística más avanzada son complementos que, si se tienen, harán que la persona avance mucho más rápido en la curva de aprendizaje de la ciencia de datos. En tercer lugar, diría que la especialización en herramientas particulares es importante. Hay gente que se orienta más hacia la ingeniería de datos, otros hacia el mundo de los modelos. Lo ideal es especializarse en algunos frameworks y utilizarlos de manera conjunta, de la forma más óptima posible.

Además de como profesores, ambos trabajáis en empresas tecnológicas, ¿qué certificaciones técnicas son más valoradas en el sector empresarial y qué fuentes abiertas de conocimiento recomendáis para prepararse para ellas?

Juan Benavente: Personalmente, no es lo que más miro, pero creo que puede ser relevante, sobre todo para personas que están comenzando y que necesitan ayuda para estructurar su forma de aproximarse al problema y entenderlo. Recomiendo certificaciones de tecnologías que están en uso en cualquier empresa donde quieras acabar trabajando. Especialmente de proveedores de cloud computing y herramientas ampliamente extendidas de análisis de datos. Son certificaciones que recomendaría para alguien que quiere aproximarse a este mundo y necesita una estructura que le ayude. Cuando no tienes una base de conocimiento, puede ser un poco confuso entender por dónde empezar. Quizás deberías reforzar primero la programación o los conocimientos matemáticos, pero todo puede parecer un poco lioso. Donde sin duda te ayudan estas certificaciones es, además de reforzar conceptos, para garantizar que te mueves bien y conoces el ecosistema de herramientas típico con el que vas a trabajar mañana. No se trata solo de conceptos teóricos, sino de conocer los ecosistemas que te encontrarás cuando empieces a trabajar, ya sea fundando tu propia empresa o trabajando en una empresa establecida. Te facilita mucho conocer el ecosistema típico de herramientas. Llámalo Microsoft Computing, Amazon u otros proveedores de este tipo de soluciones. Así podrás centrarte más rápidamente en el trabajo en sí, y no tanto en todas las herramientas que lo rodean. Creo que este tipo de certificaciones son útiles, sobre todo para perfiles que se están acercando a este mundo con ilusión. Les ayudará tanto a estructurarse como a aterrizar bien en su destino profesional. Probablemente también se valoren en los procesos de selección.

Alejandro Alija: Si alguien nos escucha y quiere directrices más específicas, se podría estructurar en bloques. Hay una serie de cursos masivos en línea que, para mí, fueron un punto de inflexión. En mis comienzos, traté de inscribirme en varios de estos cursos en plataformas como Coursera, edX, donde incluso los propios fabricantes de tecnología son los que diseñan estos cursos. Creo que este tipo de cursos online masivos, que se pueden hacer de manera autoservicio, proporcionan una buena base inicial. Un segundo bloque serían los cursos y las certificaciones de los grandes proveedores de tecnología, como Microsoft, Amazon Web Services, Google y otras plataformas que son referentes en el mundo de los datos. Estas compañías tienen la ventaja de que sus rutas de aprendizaje están muy bien estructuradas, lo que facilita el crecimiento profesional dentro de sus propios ecosistemas. Se pueden ir combinando certificaciones de diferentes proveedores. Para una persona que quiera dedicarse a este campo, el camino va desde las certificaciones más sencillas hasta las más avanzadas, como ser un arquitecto de soluciones en el área de datos o un especialista en un servicio o producto específico de análisis de datos. Estos dos bloques de aprendizaje están disponibles en internet, la mayoría son abiertos y gratuitos o cercanos a la gratuidad. Más allá del conocimiento, lo que se valora es la certificación, especialmente en las compañías que buscan estos perfiles profesionales.

Además de la formación teórica, la práctica es clave, uno de los métodos más interesantes para aprender es replicar ejercicios paso a paso. En este sentido, desde datos.gob.es ofrecemos recursos didácticos, muchos de ellos desarrollados por vosotros como expertos en el proyecto, ¿nos podéis contar en qué consisten estos ejercicios? ¿Cómo se plantean?

Alejandro Alija: El planteamiento que siempre hicimos fue pensado para un público amplio, sin requisitos previos complejos. Queríamos que cualquier usuario del portal pudiera replicar los ejercicios, aunque es evidente que cuanto más conocimiento se tiene, más se puede aprovechar. Los ejercicios tienen una estructura bien definida: un apartado documental, generalmente un post de contenido o un informe que describe en qué consiste el ejercicio, qué materiales se necesitan, cuáles son los objetivos y qué se pretende conseguir. Además, acompañamos cada ejercicio con dos recursos adicionales. El primer recurso es un repositorio de código donde subimos los materiales necesarios, con una descripción breve y el código del ejercicio. Puede ser un notebook de Python, un Jupyter Notebook o un script simple, donde está el contenido técnico. Y luego otro elemento fundamental que creemos importante y que va dirigido a facilitar la ejecución de los ejercicios. En ciencia de datos y programación, los usuarios no especialistas suelen tener dificultades para configurar un entorno de trabajo. Un ejercicio en Python, por ejemplo, requiere tener instalado un entorno de programación, conocer las librerías necesarias y realizar configuraciones que para profesionales son triviales, pero para principiantes pueden ser muy complejas. Para mitigar esta barrera, publicamos la mayoría de nuestros ejercicios en Google Colab, una herramienta maravillosa y abierta. Google Colab es un entorno de programación web donde el usuario solo necesita un navegador para acceder. Básicamente, Google nos proporciona un ordenador virtual donde podemos ejecutar nuestros programas y ejercicios sin necesidad de configuraciones especiales. Lo importante es que el ejercicio esté listo para usarse y siempre lo verificamos en este entorno, lo que facilita enormemente el aprendizaje para usuarios principiantes o con menos experiencia técnica.

Juan Benavente: Sí, siempre planteamos un enfoque orientado para cualquier usuario, paso a paso, intentando que sea abierto y accesible. Se busca que cualquiera pueda ejecutar un ejercicio sin necesidad de configuraciones complejas, centrándose en temáticas lo más cercanas a la realidad que sea posible. Aprovechamos, muchas veces, datos abiertos publicados por entidades como la DGT u otros organismos para hacer análisis realistas. Hemos desarrollado ejercicios muy interesantes, como predicciones del mercado energético, análisis de materiales críticos para baterías y electrónica, que permiten aprender no solo tecnología, sino también sobre la temática específica. En seguida puedes ponerte manos a la obra, no solo aprender, sino además averiguar sobre la temática.

Para cerrar, nos gustaría que pudierais ofrecer un consejo más orientado a actitud que a conocimientos técnicos, ¿qué le diríais a alguien que esté empezando en ciencia de datos?

Alejandro Alija: En cuanto a un consejo de actitud para alguien que está empezando en ciencia de datos, sugiero ser valiente. No hay que preocuparse por no estar preparado, porque en este campo todo está por hacer y cualquier persona puede aportar valor. La ciencia de datos tiene múltiples vertientes: hay profesionales más cercanos al mundo de negocio que pueden aportar conocimientos valiosos, y otros más técnicos que necesitan comprender el contexto de cada área. Mi consejo es formarse con los recursos disponibles sin asustarse, porque, aunque el camino parezca complejo, las oportunidades son muy altas. Como consejo técnico, es importante tener sensibilidad hacia el desarrollo y uso de datos. Cuanta más comprensión se tenga de este mundo, más fluida será la aproximación a los proyectos.

Juan Benavente: Suscribo el consejo de ser valiente y añado una reflexión sobre la programación: mucha gente encuentra atractivo el concepto teórico, pero cuando llegan a la práctica y ven la complejidad de programar, algunos se desaniman por falta de conocimientos previos o expectativas diferentes. Es importante añadir los conceptos de paciencia y constancia. Al comenzar en este campo, te enfrentas a múltiples áreas que necesitas dominar: programación, estadística, matemáticas, y conocimiento específico del sector en el que trabajarás, ya sea marketing, logística u otro ámbito. La expectativa de convertirse en un experto rápidamente no es realista. Es una profesión que, aunque se puede comenzar sin miedo y colaborando con profesionales, requiere un recorrido y un proceso de aprendizaje. Hay que ser constante y paciente, gestionando las expectativas adecuadamente. La mayoría de las personas que llevan tiempo en este mundo coinciden en que no se arrepienten de dedicarse a la ciencia de datos. Es una profesión muy atractiva donde puedes aportar valor significativo, con un componente tecnológico importante. Sin embargo, el camino no siempre es directo. Habrá proyectos complejos, momentos de frustración cuando los análisis no arrojan los resultados esperados o cuando trabajar con datos resulta más desafiante de lo previsto. Pero mirando hacia atrás, son pocos los profesionales que se arrepienten de haber invertido tiempo y esfuerzo en formarse y desarrollarse en este campo. En resumen, los consejos fundamentales son: valentía para empezar, constancia en el aprendizaje y desarrollo de habilidades de programación.

Suscríbete a nuestro perfil de Spotify para estar al día de nuestros pódcasts

Clips de la entrevista

1. ¿Merece la pena formarse en ciencia de datos?

2. ¿Cómo se plantean los ejercicios de ciencia de datos de datos.gob.es?

3. ¿Qué es la ciencia de datos? ¿Qué competencias son necesarias?

31/03/2025

OpenEuroLLM: un proyecto de modelos de lenguaje de IA de código abierto europeo

Noticia

No hay duda de que la inteligencia artificial se ha convertido en un pilar fundamental de la innovación tecnológica. Hoy en día, mediante inteligencia artificial (IA) se pueden crear chatbots especializados en datos abiertos, aplicaciones que faciliten el trabajo profesional e incluso un gemelo digital de la Tierra para anticiparse a desastres naturales.

Las posibilidades son infinitas, sin embargo, el futuro de la IA también tiene retos a superar para que los modelos sean más inclusivos, accesibles y transparentes. En este sentido, la Unión Europea está desarrollando diversas iniciativas para conseguir avanzar en este campo.

Marco regulatorio europeo a favor de una IA más abierta y transparente

El planteamiento de la UE en materia de IA busca ofrecer a los ciudadanos la confianza necesaria para adoptar estas tecnologías y animar a las empresas a desarrollarlas. Para ello, el Reglamento Europeo de IA establece unas pautas de desarrollo de la inteligencia artificial alineadas con los valores europeos de privacidad, seguridad y diversidad cultural. Por otro lado, el Reglamento de Gobernanza de Datos (DGA) define que se debe garantizar un acceso amplio a los datos sin comprometer derechos de propiedad intelectual, privacidad y equidad.

Junto con la Ley de Inteligencia Artificial, la actualización del Plan Coordinado sobre la IA garantiza la seguridad y los derechos fundamentales de las personas y las empresas, reforzando al mismo tiempo la inversión y la innovación en todos los países de la UE. La Comisión también ha puesto en marcha un paquete de innovación en materia de inteligencia artificial para ayudar a las empresas emergentes y pymes europeas a que desarrollen una IA fiable que respete los valores y normas de la UE.

Otras instituciones también están trabajando en el impulso de una inteligencia impulsando los modelos de IA de código abierto como una solución muy interesante. Un informe reciente de Open Future y Open Source Initiative (OSI) define cómo debería ser la gobernanza de datos en los modelos de IA open source. Uno de los desafíos que destaca el informe es, precisamente, lograr un equilibrio entre apertura de datos y derechos sobre los mismos, conseguir más transparencia y evitar sesgos culturales. De hecho, los expertos en la materia Ricard Martínez y Carmen Torrijos debatieron sobre este tema en el pódcast de datos.gob.es.

El proyecto OpenEuroLLM

Con el objetivo de solventar los posibles desafíos y planteándose como una solución innovadora y abierta, la Unión Europea, a través del programa Europa Digital ha presentado A través de este proyecto de inteligencia artificial de código abierto se esperan crear modelos de lenguaje eficientes, transparentes y alineados con la normativa europea de IA.

El proyecto OpenEuroLLM tiene como meta principal el desarrollo de modelos de lenguaje de última generación que sirvan para una amplia variedad de aplicaciones tanto públicas como privadas. Entre los objetivos más destacados, podemos mencionar:

Extender las capacidades multilingües de los modelos existentes: esto incluye no solo las lenguas oficiales de la Unión Europea, sino también otras lenguas que son de interés social y económico. Europa es un continente rico en diversidad lingüística, y el proyecto busca reflejar esa diversidad en los modelos de IA.
Acceso sostenible a modelos fundamentales: los modelos desarrollados dentro del proyecto serán fáciles de acceder y estarán listos para ser ajustados a diversas aplicaciones. Esto no solo beneficiará a grandes empresas, sino también a pequeñas y medianas empresas (PYMES) que deseen integrar la IA en sus procesos sin enfrentar barreras tecnológicas.
Evaluación de resultados y alineación con la normativa europea: los modelos serán evaluados de acuerdo con rigurosos estándares de seguridad y alineación con el Reglamento Europeo de IA y otros marcos regulatorios europeos. Esto garantizará que las soluciones de IA sean seguras y respetuosas con los derechos fundamentales.
Transparencia y accesibilidad: una de las premisas del proyecto es compartir de manera abierta las herramientas, procesos y resultados intermedios de los procesos de entrenamiento. Esto permitirá que otros investigadores y desarrolladores puedan reproducir, mejorar y adaptar los modelos para sus propios propósitos.
Fomento de la comunidad: OpenEuroLLM no se limita a la creación de modelos, sino que también tiene como objetivo construir una comunidad activa y comprometida, tanto en el sector público como en el privado, que pueda colaborar, compartir conocimientos y trabajar en conjunto para avanzar en la investigación de IA.

El Consorcio OpenEuroLLM: un proyecto colaborativo y multinacional

El proyecto OpenEuroLLM está siendo desarrollado por un consorcio de 20 instituciones europeas de investigación, empresas tecnológicas y centros de supercomputación, bajo la coordinación de la Universidad de Charles (República Checa) y la colaboración de Silo GenAI (Finlandia). El consorcio reúne a algunas de las instituciones y empresas líderes en el campo de la inteligencia artificial en Europa, creando una colaboración multinacional para desarrollar modelos de lenguaje de código abierto.

Entre las principales instituciones que participan en el proyecto se encuentran universidades de renombre como la Universidad de Helsinki (Finlandia) o la Universidad de Oslo (Noruega), así como empresas tecnológicas como Aleph Alpha Research (Alemania) o la empresa ilicitana prompsit (España), entre otras. Además, los centros de supercomputación como Barcelona Supercomputing Center (España) o SURF (Países Bajos) proporcionan la infraestructura necesaria para entrenar modelos a gran escala.

Diversidad lingüística, transparencia y conformidad con las normas de la UE

Uno de los mayores desafíos de la inteligencia artificial globalizada es la inclusión de múltiples idiomas y la preservación de las diferencias culturales. Europa, con su vasta diversidad lingüística, presenta un entorno único para abordar estos problemas. OpenEuroLLM se compromete a preservar esa diversidad y garantizar que los modelos de IA desarrollados sean sensibles a las variaciones lingüísticas y culturales de la región.

Como hemos visto al inicio del post, el desarrollo tecnológico debe ir de la mano de los valores éticos y responsables. En este sentido, una de las características clave del proyecto OpenEuroLLM es su enfoque en la transparencia. Los modelos, los datos, la documentación, el código de entrenamiento y las métricas de evaluación estarán completamente disponibles para el público. Esto permitirá que investigadores y desarrolladores puedan auditar, modificar y mejorar los modelos, garantizando un enfoque abierto y colaborativo.

Además, el proyecto se alinea con las estrictas normativas europeas de IA. OpenEuroLLM está diseñado para cumplir con la Ley de IA de la UE, que establece criterios rigurosos para garantizar la seguridad, la equidad y la privacidad en los sistemas de inteligencia artificial.

Democratización del acceso a la IA

Uno de los logros más importantes de OpenEuroLLM es la democratización del acceso a la IA de alto rendimiento. Los modelos de código abierto permitirán que empresas, instituciones académicas y organizaciones del sector público de toda Europa tengan acceso a tecnología de vanguardia, independientemente de su tamaño o presupuesto.

Esto es especialmente relevante para las pequeñas y medianas empresas (PYMES), que a menudo enfrentan dificultades para acceder a soluciones de IA debido a los altos costos de licencias o las barreras tecnológicas. OpenEuroLLM eliminará estas barreras y permitirá que las empresas desarrollen productos y servicios innovadores utilizando IA, lo que contribuirá al crecimiento económico de Europa.

El proyecto OpenEuroLLM también es una apuesta de la UE por la soberanía digital que está invirtiendo de manera estratégica en el desarrollo de infraestructura tecnológica que reduzca la dependencia de actores globales y refuerce la competitividad europea en el ámbito de la inteligencia artificial. Este es un paso importante hacia una inteligencia artificial que no solo sea más avanzada, sino también más justa, segura y responsable.

11/03/2025

La importancia de la formación en datos para trabajadores del sector público

Blog

No hay duda de que la formación en competencias digitales es necesaria hoy en día. Los conocimientos digitales básicos son fundamentales para poder interactuar en una sociedad en la que la tecnología ya juega un papel transversal. En concreto, es importante conocer aspectos básicos de la tecnología para trabajar con datos.

En este contexto, las trabajadoras y trabajadores del sector público también deben mantenerse en constante actualización. Capacitarse en este ámbito es clave para optimizar procesos, garantizar la seguridad de la información y fortalecer la confianza en las instituciones.

En este post, identificamos habilidades digitales relacionadas con los datos abiertos tanto dirigidas a la publicación como al uso de estos. No solo identificamos las competencias profesionales que deben tener y mantener los empleados públicos que trabajan con open data, también recopilamos una serie de recursos formativos que están a su disposición.

Competencias profesionales para trabajar con datos

En el Encuentro Nacional de Datos Abiertos de 2024 se constituyó un grupo de trabajo con un objetivo: identificar las competencias digitales que debían tener los profesionales de la administración pública que trabajasen con datos abiertos. Más allá de las conclusiones de este evento de relevancia nacional, el grupo de trabajo definió perfiles y roles necesarios para la apertura de datos, recogiendo información sobre sus funciones y las capacidades y conocimientos necesarios. Los principales roles identificados fueron:

Rol responsable: tiene funciones de responsabilidad técnica en el impulso de políticas de datos abiertos y organiza actividades de definición de las políticas y modelos de datos. Algunos conocimientos necesarios son:
- Liderazgo en el impulso de estrategias para impulsar la apertura del dato.
- Impulsar la estrategia del dato para impulsar la apertura con propósito.
- Comprender el marco normativo relacionado con los datos para actuar dentro de la legalidad en todo el ciclo de vida del dato.
- Fomentar el uso de herramientas y procesos para la gestión del dato.
- Capacidad de generar sinergias para consensuar instrucciones transversales a toda la organización.
Rol técnico de apertura de datos (perfil TIC): desarrolla actividades de ejecución más vinculadas con la gestión de los sistemas, los procesos de extracción, limpieza de datos, etc. Este perfil debe conocer, por ejemplo:
- Cómo estructurar el conjunto de datos, el vocabulario de metadatos, calidad del dato, estrategia a seguir...
- Ser capaz de analizar un conjunto de datos e identificar los procesos de depuración y limpieza de manera rápida e intuitiva.
- Generar visualizaciones de datos, conectando bases de datos de diferentes formatos y orígenes, y así obtener gráficos, indicadores y mapas dinámicos e interactivos.
- Dominar las funcionalidades de la plataforma, es decir, saber aplicar soluciones tecnológicas para la gestión de datos abiertos o conocer técnicas y estrategias para acceder, extraer e integrar datos de diferentes plataformas.
Rol funcional de apertura de datos (técnico de un servicio): ejecuta actividades más vinculadas con la selección de datos a publicar, la calidad, promoción de los datos abiertos, visualización, analítica de datos, etc. Por ejemplo:
- Manejar herramientas de visualización y dinamización.
- Conocer la economía del dato y conocer la información referente al dato en toda su extensión (generación por las AAPP, datos abiertos, infomediarios, reutilización de la información pública, Big Data, Data Driven, roles implicados, etc.).
- Conocer y aplicar los aspectos éticos y de protección de datos de carácter personal que aplican a la apertura de datos.
Uso de datos por parte de los trabajadores públicos: este perfil lleva a cabo actividades sobre el uso de los datos para la toma de decisiones, analítica básica de datos, entre otros. Para ello, deberá tener estas competencias:
- Navegación, búsqueda y filtrado de datos.
- Evaluación de datos.
- Almacenamiento y explotación de datos.
- Análisis y explotación de datos.

Además, como parte de este reto para incrementar las capacidades para la apertura de datos, se elaboró un listado de formaciones y guías gratuitas en materia de datos abiertos y análisis de datos. Recopilamos algunas de ellas que están disponibles online y en formato abierto.

Institución	Recurso	Enlace	Nivel
Centro Knight para el Periodismo en las Américas	Periodismo de datos y visualización con herramientas gratuitas	https://journalismcourses.org/es/course/dataviz/	Principiante
Data Europa Academy	Introducción a los datos abiertos	https://data.europa.eu/en/academy/introducing-open-data	Principiante
Data Europa Academy	Comprender el lado legal de los datos abiertos	https://data.europa.eu/en/academy/understanding-legal-side-open-data	Principante
Data Europa Academy	Mejorar la calidad de los datos abiertos y los metadatos	https://data.europa.eu/en/academy/improving-open-data-and-metadata-quality	Avanzado
Data Europa Academy	Medir el éxito en las iniciativas de datos abiertos	https://data.europa.eu/en/training/elearning/measuring-success-open-data-initiatives	Avanzado
Escuela de Datos	Curso de tubería de datos – Data Pipeline	https://escueladedatos.online/curso/curso-tuberia-de-datos-data-pipeline/	Intermedio
FEMP	Guía estratégica para su puesta en marcha – Conjuntos de datos mínimos a publicar	https://redtransparenciayparticipacion.es/download/guia-estrategica-para-su-puesta-en-marcha-conjuntos-de-datos-minimos-a-publicar/	Intermedio
Datos.gob.es	Pautas metodológicas para la apertura de datos	/es/conocimiento/pautas-metodologicas-para-la-apertura-de-datos	Principiante
Datos.gob.es	Guía práctica para la publicación de datos abiertos usando APIs	/es/conocimiento/guia-practica-para-la-publicacion-de-datos-abiertos-usando-apis	Intermedio
Datos.gob.es	Guía práctica para la publicación de datos espaciales	/es/conocimiento/guia-practica-para-la-publicacion-de-datos-espaciales	Intermedio
Junta de Andalucía	Tratar conjuntos de datos con Open Refine	https://www.juntadeandalucia.es/datosabiertos/portal/tutoriales/usar-openrefine.html	Principiante

Figura 1. Tabla de elaboración propia con recursos formativos. Fuente: https://encuentrosdatosabiertos.es/wp-content/uploads/2024/05/Reto-2.pdf

El Instituto Nacional de Administración Pública (INAP) cuenta con un Programa de Actividades Formativas para 2025, enmarcado en la Estrategia de Aprendizaje del INAP 2025-2028. Este catálogo formativo incluye más de 180 actividades organizadas en diferentes programas de aprendizaje, que se desarrollarán a lo largo del año con el objetivo de fortalecer las competencias del personal público en ámbitos clave como la gestión de datos abiertos y el uso de tecnologías relacionadas.

En el programa formativo de INAP para 2025 se ofrece una amplia variedad de cursos orientados a mejorar las capacidades digitales y la alfabetización en datos abiertos. Algunas de las formaciones destacadas incluyen:

Fundamentos y herramientas del análisis de datos.
Introducción a SQL de Oracle.
Datos abiertos y reutilización de la información.
Análisis y visualización de datos con Power BI.
Blockchain: aspectos técnicos.
Programación en Python avanzado.

Estos cursos, dirigidos a distintos perfiles de empleados públicos, desde responsables de datos abiertos hasta técnicos en gestión de información, permiten adquirir conocimientos sobre extracción, tratamiento y visualización de datos, así como sobre estrategias para la apertura y reutilización de datos abiertos en la Administración Pública. Puedes consultar el catálogo completo aquí.

Otras referencias formativas

Algunas administraciones públicas o entidades disponen de oferta de cursos de formación vinculadas a los datos abiertos. Para más información de su oferta formativa, se facilita el catálogo con la oferta de cursos programados.

Red de entidades locales por la Transparencia y la Participación Ciudadana de la FEMP: https://redtransparenciayparticipacion.es/
Gobierno de Aragón. Aragón Open Data: https://opendata.aragon.es/informacion/eventos-de-datos-abiertos
Escuela de Administración Pública de Catalunya (EAPC): https://eapc.gencat.cat/ca/inici/index.html
Diputació de Barcelona: http://aplicacions.diba.cat/gestforma/public/cercador_baf_ens_locals
Instituto Geográfico Nacional (IGN): https://cursos.cnig.es/

En resumen, la formación en competencias digitales, en general, y en datos abiertos, en particular, es una práctica que recomendamos desde datos.gob.es. ¿Necesitas algún recurso formativo en específico? Escríbenos en comentarios, ¡te leemos!

19/02/2025

Un marco estructurado para diseñar con propósito

El peligro de la agregación excesiva

1. Codificación (Encoding)

2. Disposición (Arrangement)

3. Andamiaje (Scaffolding)

El valor de una correcta escala

Accesibilidad: visualizar para todos

Narrativa visual: cuando los datos cuentan historias

Qué son los recursos educativos abiertos (REA)

Innovación educativa y transformación pedagógica

Colaboración y comunidades de aprendizaje abiertas

Proyectos y repositorios de REA en España

Hispana, el portal de acceso al patrimonio cultural español

Iniciativas internacionales y cooperación global

Marco normativo: nuevas regulaciones que transforman el panorama

Innovaciones tecnológicas en España y el extranjero

Nuevos portales de datos abiertos y herramientas de mejora

Formación para el futuro: eventos y jornadas

Perspectiva internacional y tendencias globales: la cuarta ola de datos abiertos

Sujetos pasivos y activos de la IA

IA en el hogar y la vida personal

Aplicaciones de la IA en los estudios

Cómo usar la IA en el trabajo y las finanzas personales

Prompts y creación de aplicaciones útiles para el día a día

1. Análisis y Visualización de Datos: Estadística Práctica con R e Inteligencia Artificial. Universidad Nacional de Educación a Distancia (UNED).

2. Big Data. Análisis de datos y aprendizaje automático con Python. Universidad Complutense.

3. Challenges in Data Science: Big Data, Biostatistics, Artificial Intelligence and Communications. Universitat de València.

4. Gemelos digitales: de la simulación a la realidad inteligente. Universidad de Castilla-La Mancha.

5. Geografía de la salud y Sistemas de Información Geográfica: aplicaciones prácticas. Universidad de Zaragoza.

6. Deep into data science. Universidad de Cantabria.

7.Advanced Programming. Universitat Autònoma de Barcelona.

8.Visualización y análisis de datos con R. Universidade de Santiago de Compostela.

9. Fundamentos de inteligencia artificial: modelos generativos y aplicaciones avanzadas. Universidad Internacional de Andalucía.

10. IA Generativa para innovar en la empresa: casos reales y herramientas para su implementación. Universidad del País Vasco.

Resumen de la entrevista

1.¿Podéis explicar brevemente a qué se dedican las instituciones para las que trabajáis?

2. ¿Qué requisitos debe de cumplir una investigación para qué se considere abierta?

3. ¿Por qué es importante que universidades y centros de investigación pongan sus estudios y datos a disposición de la ciudadanía?

4.¿Qué investigaciones deben publicarse en abierto?

6.¿Qué actividades y herramientas proporcionáis desde vuestras instituciones u otras similares para ayudar a las organizaciones a alcanzar el éxito en esta tarea?

8. ¿Qué otras plataformas con datos en abierto de investigaciones, a nivel español o europeo, recomiendan?

9. ¿Qué acciones consideráis como prioritarias a realizar desde las instituciones públicas de cara a promover el conocimiento abierto?

Clips entrevista:

¿Por qué deben universidad e investigadores compartir sus estudios en formatos abiertos?

2. ¿Qué requisitos debe cumplir una investigación para que se considere abierta?

Estructura que abarca el ciclo de vida de los datos

Planificación

Recopilación y procesamiento

Ámbito cuantitativo:

Ámbito cualitativo:

Compartir y analizar

Uso y evaluación

Un recurso colaborativo en continua mejora

Resumen de la entrevista

¿Qué es la ciencia de datos? ¿Por qué es importante y para qué nos puede servir?

¿Cómo os iniciasteis en la ciencia de datos y qué hacéis para manteneros actualizados? ¿Qué estrategias recomendaríais tanto para principiantes como para perfiles más experimentados?

Pongámonos en el caso hipotético de que alguien con pocos o nulos conocimientos técnicos, quiera aprender ciencia de datos, ¿por dónde empieza?

Además de como profesores, ambos trabajáis en empresas tecnológicas, ¿qué certificaciones técnicas son más valoradas en el sector empresarial y qué fuentes abiertas de conocimiento recomendáis para prepararse para ellas?

Para cerrar, nos gustaría que pudierais ofrecer un consejo más orientado a actitud que a conocimientos técnicos, ¿qué le diríais a alguien que esté empezando en ciencia de datos?

Clips de la entrevista

1. ¿Merece la pena formarse en ciencia de datos?

2. ¿Cómo se plantean los ejercicios de ciencia de datos de datos.gob.es?

3. ¿Qué es la ciencia de datos? ¿Qué competencias son necesarias?

Marco regulatorio europeo a favor de una IA más abierta y transparente

El proyecto OpenEuroLLM

El Consorcio OpenEuroLLM: un proyecto colaborativo y multinacional

Diversidad lingüística, transparencia y conformidad con las normas de la UE

Democratización del acceso a la IA

Competencias profesionales para trabajar con datos

Otras referencias formativas

3. ***Challenges in Data Science: Big Data, Biostatistics, Artificial Intelligence and Communications*. Universitat de València.**