ciencia abierta

EOSC: la infraestructura federada europea que acelera la ciencia abierta

Blog

En los últimos años, se ha puesto de manifiesto la necesidad de que la comunidad científica internacional disponga de mecanismos ágiles para compartir resultados de investigación con el fin de dar respuesta a desafíos como las pandemias, la crisis climática, la pérdida de biodiversidad o la transición energética. En este sentido, las tareas de I+D se han vuelto intensivas en el uso tanto de datos como de software especializado. Un ejemplo concreto se produjo durante la pandemia de COVID-19, cuando la compartición de datos habilitó la secuenciación rápida del genoma del SARS‑CoV‑2, resultando fundamental para el desarrollo de la vacuna de la COVID-19 en tiempo récord.

Es, por tanto, el momento de impulsar la ciencia abierta. Pero para que la ciencia abierta sea una realidad, es imprescindible evitar la fragmentación de los recursos de I+D. Más allá de las publicaciones científicas, es necesario conectar repositorios de datos distribuidos y promover herramientas software, que sean interoperables para facilitar la reutilización efectiva de los conjuntos de datos científicos.

En este contexto nace EOSC (European Open Science Cloud), una iniciativa europea que pretende conectar a la comunidad científica para hacer realidad la ciencia abierta y maximizar su impacto para la sociedad. EOSC ofrece al personal investigador en Europa un entorno multidisciplinar, abierto y de confianza donde poder publicar, descubrir y reutilizar datos, así como herramientas y servicios software en el ámbito científico.

¿Qué es EOSC? Acceso federado a recursos científicos

European Open Science Cloud es la iniciativa europea para crear un entorno abierto y de confianza donde la comunidad investigadora pueda publicar, descubrir y reutilizar datos científicos, así como servicios software de investigación. Su enfoque es federar y escalar recursos científicos en Europa, promoviendo la interoperabilidad entre disciplinas. La ambición de EOSC es acelerar las prácticas de ciencia abierta, aumentando la productividad científica y reforzando la reproducibilidad de la investigación de tal manera que se maximice su impacto en la sociedad. Para ello, EOSC se concibe como un “sistema de sistemas”, es decir, en lugar de centralizar todos los datos y servicios en una única plataforma, EOSC interconecta plataformas ya existentes (es decir, realiza una federación en lugar de una integración) como repositorios de datos, infraestructuras de investigación, o proveedores de servicios software científicos.

La Comisión Europea sitúa EOSC como el espacio común europeo para datos de I+D y lo alinea con el objetivo europeo de conseguir alcanzar una economía y sociedad basadas en datos. En términos de impacto, esto favorece los siguientes aspectos:

Investigación colaborativa, no sólo dentro de una misma disciplina científica sino también entre disciplinas diferentes y diversos territorios.
Reutilización y combinación de recursos científicos digitales (como conjuntos de datos o servicios software), así como el impulso de la ciencia ciudadana.
Impacto en la sociedad a través de políticas basadas en evidencia, al mejorar la trazabilidad, disponibilidad e interoperabilidad de datos que sustentan decisiones públicas.

Para hacer EOSC una realidad, se construye un modelo federado basado en nodos que actúan como puntos de entrada coordinados. Sobre ellos se establecen políticas comunes y capacidades compartidas (por ejemplo, autenticación federada, catálogos y guías de interoperabilidad) que permiten la reutilización de datos y servicios. Este enfoque se concreta en la Federación EOSC, que conecta infraestructuras y comunidades para ofrecer un acceso y reutilización de recursos científicos más homogénea.

¿Qué es la Federación EOSC?

Según el EOSC Federation Handbook (documento de referencia que describe su estructura operativa, marco legal y de gobernanza, y operativa técnica), la Federación EOSC (EOSC Federation) es una red distribuida de nodos. Estos nodos están interconectados y son capaces de colaborar para compartir y gestionar conocimiento y recursos científicos (como conjuntos de datos, software y servicios) entre comunidades temáticas y geográficas, cumpliendo los principios FAIR. Es decir, es una red distribuida que habilita capacidades para desarrollar una ciencia abierta interoperable, segura y fiable a escala europea, entre disciplinas y fronteras.

Como veíamos, el elemento básico de esta federación son los EOSC Nodes (nodos EOSC) que funcionan como puntos de entrada para la comunidad científica a la federación. Se trata de plataformas operadas por organizaciones o consorcios de alcance territorial o temático, que integran:

Un conjunto de capacidades esenciales para operar, como, por ejemplo, servicios de autenticación y acceso o catálogo de recursos.
Un conjunto de recursos, como, por ejemplo, productos de datos de investigación.

Una parte de esos recursos se selecciona como Node Exchange, representando lo que el nodo comparte con la federación. Al agregarse las contribuciones de varios nodos, se constituyen el EOSC Exchange, es decir, la oferta global de recursos de la federación.

Para que todo ello funcione, se definen las Federating Capabilities como capacidades comunes (técnicas y también organizativas, como soporte a usuarios) que permiten que los servicios funcionen entre nodos y no como silos aislados. Estas capacidades se habilitan mediante servicios federadores operados por uno o varios nodos y se apoyan en interfaces y guías de interoperabilidad recogidas en el EOSC Interoperability Framework. La siguiente imagen representa gráficamente este proceso:

Figura 1. Representación conceptual de la Federación EOSC (fuente: EOSC Federation Handbook).

Existen dos capacidades federadas obligatorias: por una parte la infraestructura de autenticación y autorización (AAI) y, por otra, los catálogos de recursos que permiten a la comunidad científica descubrir y acceder a recursos ofrecidos por los nodos, no sólo manualmente sino por medio de servicios informáticos. Estas primeras capacidades se articulan en el EOSC EU Node.

EOSC EU Node: el primer nodo operativo

En este modelo federado, el EOSC EU Node (promovido por la Comisión Europea) es especialmente relevante como primer nodo de la Federación EOSC, proporcionando un conjunto inicial de datos, herramientas y servicios, y actuando como nodo de referencia para facilitar la interconexión de otros nodos.

Este nodo permite al personal investigador acceder con credenciales institucionales a capacidades como máquinas virtuales, recursos como GPUs, cuadernos interactivos, flujos científicos de trabajo en contenedores, almacenamiento, transferencia de datos y herramientas colaborativas, además de conectarse a un catálogo de recursos para descubrir resultados de investigación (conjuntos de datos científicos, publicaciones o servicios software especializados) procedentes de infraestructuras federadas.

Conclusiones

EOSC permite transformar recursos científicos dispersos en un ecosistema interoperable y reutilizable que permita a la comunidad científica desarrollar los objetivos de la ciencia abierta. La Federación EOSC, mediante nodos conectados y capacidades federadas (tales como AAI, catálogos o guías de interoperabilidad), facilita el acceso a datos FAIR, servicios y herramientas software, acelerando la colaboración científica y la reproducibilidad, además de permitir el impulso de propuestas de ciencia ciudadana e fomentar el impacto de los resultados científicos en la sociedad. Finalmente, cabe destacar que EOSC no sustituye lo que ya existe, sino que lo conecta, lo hace interoperable y lo proyecta a escala europea. En España avanza la definición de un nodo nacional para conectar capacidades existentes con la Federación EOSC. Por ello, la participación temprana de repositorios, infraestructuras, centros de investigación, universidades y proveedores de servicios será clave para construir una oferta representativa, definir prioridades y maximizar el impacto científico y social.

Jose Norberto Mazón, Catedrático de Lenguajes y Sistemas Informáticos de la Universidad de Alicante. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

18/02/2026

Pódcast: El potencial de los datos para impulsar la sostenibilidad y el cuidado del medio ambiente

Entrevista

En este episodio hablamos de medio ambiente, centrándonos en el papel que juegan los datos en la transición ecológica ¿Pueden los datos abiertos ayudar a impulsar la sostenibilidad y proteger el planeta? Lo descubrimos con nuestros dos invitados:

Francisco José Martínez García, director conservador de los parques naturales del sur de Alicante.
José Norberto Mazón, catedrático de lenguajes y sistemas informáticos de la Universidad de Alicante.

Escuchar el pódcast completo

Resumen / Transcripción de la entrevista

1. Los dos sois unos apasionados del uso de los datos en pro de la sociedad, ¿cómo descubristeis el potencial de los datos abiertos para la gestión del medio ambiente?

Francisco José Martínez: Yo, por mi parte, te puedo decir que cuando llegué a la administración pública, a la Generalitat Valenciana, la Generalitat puso en marcha un visor que se llama Visor Gva, que es abierto, que da mucha información de imágenes, de metadatos, de datos en diversos campos… y la verdad es que me facilitó muchísimo -y me sigue facilitando- el trabajo en la resolución de expedientes y el trabajo propio de un funcionario. Después también se incorporó otra base de datos que es el Banco de Datos de Biodiversidad, que ofrece datos en cuadrículas de un kilómetro por un kilómetro. Y finalmente, ya aplicado a los espacios naturales y humedales que yo dirijo, datos de calidad de aguas, todos ellos están en abierto y pueden ser objeto de generar investigación aplicada por parte de todos los investigadores.

Jose Norberto Mazón: En mi caso, fue precisamente con Francisco como director. Él dirige tres parques naturales que son humedales del sur de Alicante y sobre uno de ellos, en el que teníamos especial interés, que es el Parque Natural de la Laguna de la Mata y Torrevieja, Francisco nos comentó su experiencia -toda esta experiencia que acaba de comentar-. Nosotros en la Universidad de Alicante llevamos tiempo trabajando en gestión de datos, datos abiertos, interoperabilidad de datos, etcétera, y vimos la oportunidad de hacer una perspectiva de gestión del dato, de generación del dato y de reutilización del dato desde el territorio, desde el propio Parque Natural. Junto con otras entidades como Proyecto Mastral, Faunatura, AGAMED, y también compañeros y compañeras de la Universidad Politécnica de Valencia, vimos la posibilidad de estudiar esos datos de utilidad, poniendo el foco sobre todo en el concepto de datos de alto valor, que desde la Unión Europea se estaba apostando por ellos: esos datos que tienen potencial para generar beneficios socioeconómicos o medioambientales, beneficiar a todos los usuarios y contribuir a hacer una sociedad europea basada en la economía del dato. Y bueno, nos pusimos ahí a ver cómo podíamos colaborar, sobre todo para descubrir ese potencial de los datos a nivel de territorio.

2. A través de una estrategia llamada el Pacto verde, la Unión Europea aspira a convertirse en la primera economía del mundo competitiva y eficiente en el uso de los recursos, logrando emisiones netas de gases de efecto invernadero cero para 2050. ¿Qué medidas concretas son más urgentes para lograrlo y cómo pueden ayudar los datos a alcanzar estas metas? ¿Qué proyectos se están impulsando desde Europa para ello?

Francisco José Martínez: La Unión Europea tiene varias líneas, varios proyectos como el proyecto LIFE, enfocado a especies en peligro de extinción, los fondos FEDER para restaurar hábitats… Aquí en la Laguna de la Mata y Torrevieja, los hábitats terrestres los hemos mejorado con estos fondos FEDER y se trata precisamente de que esos hábitats sean mejores captadores de CO2 y se generen comunidades vegetales más autóctonas, eliminando las especies invasoras. Luego también tenemos el reglamento, a nivel normativo, de restauración de la naturaleza, que está en vigor desde 2024, y que nos obliga a restaurar hasta un 30 % de los ecosistemas terrestres y marinos degradados. He de decir también que la Fundación Biodiversidad, dependiente del Ministerio, genera bastantes proyectos relacionados, por ejemplo, con la generación de refugios climáticos en zonas urbanas. O sea, hay una serie de proyectos y bastante financiación en todo lo que tiene que ver con la renaturalización, la mejora de hábitats y la conservación de especies.

Jose Norberto Mazón: Yo me centraría también, por complementar lo que ha dicho Francisco, en toda la gestión del dato, la importancia que se le da a la gestión del dato a nivel de Pacto Verde Europeo, en concreto con proyectos de compartición de datos, de hacer los datos más interoperables. Es decir que, al final, todos aquellos actores que generen datos puedan ser de utilidad mediante su combinación y generar mucho más valor en lo que se denominan espacios de datos y sobre todo en el espacio de datos del Pacto Verde Europeo. Recientemente, además, acaban de terminar unos proyectos iniciales. Por ejemplo, por resaltar un par de ellos, el proyecto USAGE (Urban Data Spaces for Green dEal), que lo voy a comentar con dos pilotos concretos que han desarrollado muy interesantes. Uno sobre cómo se tiene que introducir todo lo que tiene que ver con datos para mitigar el cambio climático en la gestión urbanística en la ciudad de Ferrara, en Italia. Y otro piloto sobre la gobernanza del dato y cómo se tiene que hacer para que se cumplan los principios FAIR, en este caso en Zaragoza, con un concepto de islas climáticas también muy interesante. Y luego hay otro proyecto, el AD4GD (All Data for Green Deal) que ha hecho también pilotos en relación de esa interoperabilidad del dato. En este caso, en la Red de Lagos de Berlín. Berlín tiene como 300 lagos a los que tienen que monitorizar la calidad del agua, la cantidad de agua, etc. y se ha hecho a través de sensorización. La gestión de corredores biológicos en Cataluña, también, con datos de cómo se mueven las especies y cómo es necesario gestionar esos corredores biológicos. Y también han hecho alguna iniciativa de calidad del aire con ciencia ciudadana. Estos proyectos han finalizado ya, pero hay un proyecto súper interesante a nivel europeo que es el que va a poner en marcha ese gran espacio de datos del pacto europeo, que es el proyecto SAGE (Sustainable Green Europe Data Space), que está desarrollando diez casos de uso que engloban todo ese gran ámbito del Pacto Verde Europeo. En concreto, por resaltar uno que es muy pertinente, porque está alineado con lo que son los parques naturales, los humedales del sur de Alicante y que Francisco dirige, es el de los compromisos entre la naturaleza y los servicios ecosistémicos. Es decir, cómo hay que proteger la naturaleza, cómo tenemos que conservar, pero también tenemos que permitir esas actividades socioeconómicas de manera sostenible. Este espacio de datos va a integrar teledetección, modelos basados en inteligencia artificial, datos, etc.

3. ¿Querrías añadir algún otro proyecto a este nivel local o regional?

Francisco José Martínez: Sí, claro. Bueno, el que hemos realizado con Norberto, su equipo y varios equipos, varios departamentos de la Universidad Politécnica de Valencia y de la Universidad de Alicante, y es el gemelo digital. Se ha estado realizando una investigación para la generación de un gemelo digital en el Parque Natural de las Lagunas, aquí en Torrevieja. Y la verdad es que ha sido una investigación aplicada, se han generado muchos datos a partir de sensores, también de observaciones directas o de grabadoras de imágenes y de sonidos. Se ha hecho un buen registro de información a nivel de ruidos, de clima, de datos meteorológicos para poder realizar una buena gestión y que sea una ayuda inestimable para la gestión de los que tenemos que tomar decisiones día a día. Otros datos que también se han realizado en este proyecto aquí local, ha sido la recopilación de datos de carácter social, de uso turístico, de sentimiento de las personas (si están de acuerdo con lo que ven en el espacio natural o no). Es decir, hemos mejorado el conocimiento de este espacio natural gracias a este gemelo digital y esa es una información que no nos puede aportar ni nuestro visor ni el Banco de Datos de Biodiversidad.

Jose Norberto Mazón: Hablaba Francisco, por ejemplo, del conocimiento de las personas, de la afluencia de personas de determinadas zonas del parque natural. Y saber también lo que sienten, lo que piensan las personas que lo visitan, pues si no es a través de encuestas que son muy farragosas, etcétera es complicado. Nosotros hemos puesto al servicio de descubrir ese conocimiento, este gemelo digital con multitud de esa sensorización y con datos que al final también son interoperables y que permiten conocer muy bien el territorio. Evidentemente que sea territorial no significa que no sea escalable. Lo que estamos haciendo con el proyecto de gemelo digital, el proyecto ChanTwin, lo que hacemos es que se pueda volcar o que se pueda extrapolar a cualquier otra área natural, porque las problemáticas que hemos tenido al final las vamos a encontrar en cualquier área natural, como por ejemplo, problemas de conectividad, problemas de interoperabilidad de datos que vienen de sensores, etc. Sensores tenemos de muchos tipos, de afluencia de personas, de la calidad del agua, de temperaturas y variables climáticas, contaminación, etc. y al final además con todas las garantías de privacidad de datos. Esto lo tengo que decir, que es muy importante porque siempre intentamos que esa recolección de datos, por supuesto, garantice la privacidad de las personas. Podemos conocer las inquietudes de la gente que visita el parque y también, por ejemplo, la procedencia de esas personas. Y esto es una información muy interesante a nivel de dirección del parque, porque así, por ejemplo, Francisco puede tomar unas decisiones más informadas para gestionar mejor el parque. Pero, las personas que visitan el parque vienen de un municipio concreto, con un ayuntamiento que, por ejemplo, tiene una concejalía de Medio Ambiente o tiene una concejalía de Turismo. Y esa información puede ser muy interesante para poner en valor determinados aspectos, por ejemplo, medioambientales, de biodiversidad, o de actividad socioeconómica.

Francisco José Martínez: Los datos son fundamentales en la gestión del medio natural de un humedal, de una montaña, de un bosque, de un pastizal... en general de todos los espacios naturales. Fíjate que solo con el seguimiento y monitoreo de determinados parámetros ambientales nos sirven para dar explicación de eventos que pueden suceder, por ejemplo, una mortandad de peces. Sin haber tenido el histórico de los datos de oxígeno disuelto de temperatura, es muy difícil saber si es por eso o por un contaminante. Por ejemplo, la temperatura de las aguas, que está relacionada con el oxígeno disuelto: a más temperatura, menos oxígeno disuelto. Y sin oxígeno, resulta que aparecen en primavera verano -de acuerdo, como sean las temperaturas ambientales, se traslada al agua, a las lagunas, a los humedales-, aparece una enfermedad que es el botulismo y ya ha habido dos años que se nos han muerto cada año más de mil animales. La manera de controlarlo es previendo que esas temperaturas van a llegar a una concreta, que a partir de ahí el oxígeno casi desaparece de las aguas y nos da tiempo a planificar los equipos de trabajo que van retirando los cadáveres, que es la actuación fundamental para evitarla. Otro, por ejemplo, son los censos mensuales de aves acuáticas, que se observan de forma presencial, que se registran, que también tenemos grabadoras que registran sonidos. Podemos con eso conocer la dinámica cuando vienen las especies en migración y con eso también podemos hacer gestión de las aguas. Otro ejemplo puede ser el de la temperatura de la laguna de aquí de la Mata, que con el gemelo digital estamos haciendo un seguimiento, pues sabemos que cuando llega casi a treinta grados, el principal alimento de las aves desaparece, que es la artemia salina, porque no pueden vivir en esas temperaturas extremas con esa salinidad. pero sí podemos meter agua del mar, que a pesar de que ha estado muy caliente estas últimas primaveras y veranos, siempre está más fresca y podemos refrescar y alargar la vida de esta especie que precisamente se sincroniza con la reproducción de las aves. Entonces podemos hacer gestión de las aguas gracias al seguimiento y gracias a los datos que tenemos de las temperaturas de las aguas.

Jose Norberto Mazón: Fijaos la importancia de estos ejemplos que decía Francisco, que son paradigmáticos y de la importancia también del uso de los datos. Yo añadiría una cuestión simplemente que al final estos datos, el esfuerzo es ponerlos todos en abierto y que cumplan esos principios FAIR, es decir, que sean interoperables, porque como hemos oído que ha comentado Francisco, son datos de muchas fuentes, cada uno con características diferentes, recopilados de maneras diferentes, etc. Nos está hablando de datos de sensores, pero también otros datos que se recopilan de otra manera. Y luego también que nos permiten de alguna manera empezar a hacer procesos de cocreación de herramientas que utilicen estos datos a varios niveles. Por supuesto, a nivel de gestión del propio parque natural para tomar decisiones informadas, pero también a nivel de ciudadanía, incluso a nivel también de otro tipo de profesionales. Como bien decía Francisco, en los parques, en estos humedales se hacen actividades económicas y por lo tanto también el poder cocrear herramientas con esos actores o con el propio personal investigador de universidades es muy interesante. Y aquí siempre de lo que se trata es de fomentar que haya terceras personas, tanto físicas como jurídicas, por ejemplo, empresas o startups, personas emprendedoras, etc. que realicen diversas aplicaciones y servicios de valor añadido con esos datos: que diseñen herramientas fáciles de usar para la toma de decisiones, por ejemplo, o cualquier otro tipo de herramientas. Esto sería muy interesante, porque nos daría también un ecosistema de emprendimiento alrededor de esos datos. Y esto también lo que haría es que la propia sociedad se implicara más a partir de esos datos abiertos, a partir de la reutilización de datos abiertos, en un cuidado medioambiental y una concienciación medioambiental.

4. Un aspecto importante de esta transición es que debe ser “justa y no dejar a nadie atrás”. ¿Qué papel pueden jugar los datos para garantizar esa equidad?

Francisco José Martínez: En nuestro caso, nosotros venimos realizando con los técnicos de Educación y Divulgación Ambiental actuaciones de ciencia ciudadana. Vamos recopilando datos con personas que se apuntan a estas actividades. Hacemos dos actividades al mes y, por ejemplo, hemos realizado censos de murciélagos de distintas especias - porque uno ve los murciélagos y no distingue la especie, a veces ni los ve- en rutas nocturnas, para detectarlos y registrarlos. También hemos hecho actividades de grabación de fototrampeo para detectar mamíferos muy difíciles de ver. Con eso conseguimos que los niños, las niñas, las familias, la gente en general conozca una fauna que no sabe que existe cuando va caminando por la montaña. Y yo considero que llegamos a mucha gente y que estamos divulgando a la mayor cantidad de personas, de sectores posibles.

Jose Norberto Mazón: Y a partir de esos datos, de hecho, fijaos toda la cantidad de datos que está hablando Francisco. A partir de ahí, y fomentando esa línea que Francisco sigue como director de los Parques Naturales del sur de Alicante, lo que nos planteamos es: ¿podemos ir un paso más allá usando la tecnología? Y hemos hecho videojuegos que posibilitan tener más concienciación a esos grupos objetivo a los que a lo mejor de otra manera es muy difícil llegar. Por ejemplo, a adolescentes, a los que hay que inculcarles de alguna manera ese comportamiento, esa importancia también de los parques naturales. Y pensamos que los videojuegos pueden ser un canal muy interesante. ¿Y cómo lo hemos hecho? Basando esos videojuegos en datos, en datos que vienen de esto que ha comentado Francisco y también de los datos del propio gemelo digital. Es decir, datos que tenemos de la lámina de agua, de los niveles de ruido… Todos esos datos los incluimos en los videojuegos. Son videojuegos dinámicos que permiten de alguna manera tener una mejor concienciación de lo que es el parque natural y de los valores medioambientales y de conservación de la biodiversidad.

5. Nos lleváis un rato hablando de todos los datos que utilizáis, que al final provienen de diversas fuentes. ¿Nos resumirnos ese tipo de datos que utilizáis en vuestro día a día y cuáles son los retos que os encontráis a la hora de integrarlos en proyectos concretos?

Francisco José Martínez: Los datos vienen a ser espaciales, son imágenes con sus metadatos, censos de aves, de mamíferos, de los distintos grupos taxonómicos, de la fauna, de la flora… También realizamos inventarios de flora protegida en peligro de extinción. Datos meteorológicos fundamentales que, por cierto, también son muy importantes a la hora del tema de la protección civil. Fíjate todos los desastres que hay con las gotas frías o DANA. Datos muy importantes como son los de la calidad de aguas, datos físicos y químicos, altura de la lámina de agua que nos sirve para conocer la evaporación, las curvas de evaporación y con eso gestionar las entradas de agua y por supuesto, los datos de carácter social de carácter de uso público. Porque el uso público es muy importante en los espacios naturales. Es una manera de abrir a la ciudadanía, a las personas para que puedan conocer sus recursos naturales y conocerlos, valorarlos y de esa manera protegerlos. En cuanto a la dificultad, es verdad que hay una serie de datos, especialmente cuando se realizan investigaciones que a los que no podemos acceder. Están en repositorios para los técnicos que estamos en la administración o incluso para los consultores difíciles de acceder. Esto yo creo que Norberto lo puede explicar mejor: cómo se podría integrar esto si en plataformas, por sectores, por grupos…

Jose Norberto Mazón: De hecho, es un tema nuclear para nosotros. Al final hay muchos datos abiertos, como ha explicado Francisco durante todo este ratito que llevamos hablando, pero es verdad que están muy dispersos porque también se generan para cumplir diversos objetivos. Al final el objetivo principal de los datos abiertos es que se reutilicen, es decir, que se usen para fines diferentes de los que fueron concedidos inicialmente. Pero lo que nos encontramos es que al final hay muchas propuestas que son, como diríamos, de arriba hacia abajo (muy top down). Pero verdaderamente, donde está la problemática es en el territorio, desde abajo, en todos los actores implicados en el territorio, que aparte muchos datos se generan en el propio territorio. Es decir, es verdad que hay datos, por ejemplo, datos satelitales con teledetección, que los generan los propios satélites y luego nosotros los reutilizamos, pero luego los datos que vienen de sensores o los datos que vienen de ciencia ciudadana, etc. se generan en el propio territorio. Y nos encontramos que muchas veces, al final esos datos, por ejemplo, si hay personal investigador que hace un trabajo en un parque natural concreto, pues evidentemente ese equipo de investigación publica sus artículos y sus datos en abierto (porque por la ley de la ciencia tienen que publicarlos en abierto en repositorios). Pero claro, eso está muy orientado a la investigación. Entonces, los demás tipos de actores, por ejemplo, la dirección del parque, los gestores de una entidad local o incluso la propia ciudadanía, no tienen conciencia a lo mejor de que esos datos están disponibles y ni siquiera tienen mecanismos para consultarlos y obtener valor de ellos. La dificultad mayor, de hecho, está en esto, en que los datos que se generen desde el territorio se reutilicen desde el territorio. Es muy fácil reutilizarlos desde el territorio para solventar esos problemas también. Y esa dificultad es la que nosotros estamos intentando atajar con estos proyectos que tenemos en marcha, de momento con la creación de un data Lake, de una arquitectura de datos que nos permita gestionar toda esa heterogeneidad de los datos y hacerlo desde el territorio. Pero claro, aquí lo que tenemos que hacer verdaderamente es intentar hacerlo de manera federada, con esa filosofía de datos abiertos a nivel federado y además con un plus también, porque es verdad que la casuística dentro del territorio es muy grande. Hay multitud de actores, porque estamos hablando de datos abiertos, pero puede haber actores también que digan “yo quiero compartir ciertos datos, pero otros ciertos datos todavía no, porque puedo perder cierta competitividad, pero no me importaría dentro de tres meses poder compartirlos”. Es decir, hay que tener también un control sobre cierta tipología de datos y que convivan datos abiertos con otra tipología de datos que puedan ser compartidos. A lo mejor no de manera tan amplia, pero sí de manera, digamos, aportando gran valor. Estamos viendo esta posibilidad con un nuevo proyecto que estamos creando: un espacio de datos medioambientales, de biodiversidad en estos tres parques naturales del sur de la provinciade Alicante, y estamos con ese proyecto: Heleade.

Si quieres saber más sobre estos proyectos, te invitamos a visitar sus páginas web:

Clips de la entrevista

1. ¿Cómo se planteó el gemelo digital del Parque Natural de las Lagunas de Torrevieja?

2. ¿Qué proyectos se están impulsando en el marco del Espacio de Datos del Pacto Verde europeo?

17/11/2025

El Espacio Europeo de Datos de Salud y los datos abiertos: una sinergia al servicio de la innovación sanitaria

Blog

Los datos abiertos de salud son uno de los activos más valiosos de nuestra sociedad. Bien gestionados y compartidos de forma responsable, pueden salvar vidas, impulsar descubrimientos médicos o incluso optimizar recursos hospitalarios. Sin embargo, durante décadas, estos datos han permanecido fragmentados en silos institucionales, con formatos incompatibles y barreras técnicas y legales que dificultaban su reutilización. Ahora, la Unión Europea está cambiando radicalmente el panorama con una estrategia ambiciosa que combina dos enfoques complementarios:

Facilitar el acceso abierto a estadísticas y datos agregados no sensibles.
Crear infraestructuras seguras para compartir datos personales de salud bajo estrictas garantías de privacidad.

En España, esta transformación ya está en marcha a través del Espacio Nacional de Datos de Salud o grupos de investigación que están a la vanguardia en el uso innovador de datos de salud. Iniciativas como IMPACT-Data, que integra datos médicos para impulsar la medicina de precisión, demuestran el potencial de trabajar con datos de salud de manera estructurada y segura. Y para facilitar que todos estos datos sean fáciles de encontrar y reutilizar se implementan estándares como HealthDCAT-AP.

Todo ello está perfectamente alineado con la estrategia europea del Reglamento del Espacio Europeo de Datos de Salud (EHDS), publicado oficialmente en marzo de 2025 que se integra también con la Directiva de Datos Abiertos (ODD), en vigor desde 2019. Aunque ambos marcos regulatorios tienen alcances distintos, su interacción ofrece oportunidades extraordinarias para la innovación, la investigación y la mejora de la atención sanitaria en toda Europa.

Un reciente informe elaborado por Capgemini Invent para data.europa.eu analiza estas sinergias. En este post, exploramos las principales conclusiones de este trabajo y reflexionamos sobre su relevancia para el ecosistema español de datos abiertos.

Dos marcos complementarios para un objetivo común

Por un lado, el Espacio Europeo de Datos de Salud se centra específicamente en datos de salud y persigue tres objetivos fundamentales:

Facilitar el acceso internacional a datos sanitarios para la atención al paciente (uso primario).
Promover la reutilización de estos datos para investigación, políticas públicas e innovación (uso secundario).
Estandarizar técnicamente los sistemas de historia clínica electrónica (HCE) para mejorar la interoperabilidad transfronteriza.

Por su parte, la Directiva de Datos Abiertos tiene un alcance más amplio: promueve que el sector público ponga a disposición de cualquier usuario datos gubernamentales para su reutilización libre. Esto incluye los conjuntos de datos de alto valor (High-Value Datasets) que deben publicarse gratuitamente, en formatos legibles por máquina y a través de API en seis categorías entre las que no se encontraba “salud” originalmente. Sin embargo, en la propuesta de ampliación de las nuevas categorías que publicó la UE sí aparece la categoría de salud.

La complementariedad entre ambos marcos regulatorios es evidente: mientras la ODD facilita el acceso abierto a estadísticas sanitarias agregadas y no sensibles, el EHDS regula el acceso controlado a datos individuales de salud bajo condiciones estrictas de seguridad, consentimiento y gobernanza. Juntos, conforman un sistema escalonado de compartición de datos que maximiza su valor social sin comprometer la privacidad, en total cumplimiento con el Reglamento General de Protección de Datos (RGPD).

Principales beneficios ordenador por grupos de usuarios

El informe analiza cuatro grupos de usuarios principales y examina tanto los beneficios potenciales como los desafíos que enfrentan al combinar datos del EHDS con datos abiertos.

Pacientes: empoderamiento informado con barreras prácticas

Los pacientes europeos obtendrán acceso más rápido y seguro a sus propias historias clínicas electrónicas, especialmente en contextos transfronterizos gracias a infraestructuras como MyHealth@EU. Este proyecto resulta especialmente útil para ciudadanos europeos que se encuentren desplazados en otro país europeo. .

Otro proyecto interesante que informa a la ciudadanía es PatientsLikeMe que reúne a más 850.000 pacientes con enfermedades raras o crónicas en una comunidad online que comparte información de interés sobre tratamientos y otras cuestiones.

Profesionales de la salud potencial subordinado a la integración

Por otro lado, los profesionales sanitarios podrán acceder antes y de manera más sencilla a datos clínicos de pacientes, incluso a través de fronteras, mejorando la continuidad asistencial y la calidad del diagnóstico y tratamiento.

La combinación con datos abiertos podría amplificar estos beneficios si se desarrollan herramientas que integren ambas fuentes de información directamente en los sistemas de historia clínica electrónica.

3. Responsables políticos: datos para mejores decisiones

Los cargos públicos son beneficiarios naturales de la convergencia entre EHDS y datos abiertos. La posibilidad de combinar datos salud detallados (previa solicitud y autorización a través de los Organismos de Acceso a Datos Sanitarios que cada Estado miembro debe establecer) con información estadística y contextual abierta permitiría desarrollar políticas basadas en evidencia mucho más sólida.

El informe menciona casos de uso como la combinación de datos de salud con información medioambiental para evaluar impactos sanitarios. Un ejemplo real es el proyecto francés Green Data for Health, que cruza datos abiertos sobre contaminación acústica con información sobre prescripciones de medicamentos para el sueño de más de 10 millones de habitantes, investigando correlaciones entre ruido ambiental y trastornos del sueño.

4. Investigadores y reutilizadores: los principales beneficiarios inmediatos

Los investigadores, académicos e innovadores constituyen el grupo que más directamente se beneficiará de la sinergia EHDS-ODD ya que disponen de las habilidades y herramientas necesarias para localizar, acceder, combinar y analizar datos de múltiples fuentes. Además, su trabajo ya implica habitualmente la integración de diversos conjuntos de datos.

Un estudio reciente publicado en PLOS Digital Health sobre el caso de Andalucía demuestra cómo los datos abiertos en salud pueden democratizar la investigación en IA sanitaria y mejorar la equidad en el tratamiento.

El desarrollo del EHDS está siendo apoyado por programas europeos como EU4Health, Horizon Europe y proyectos específicos como TEHDAS2, que ayudan a definir estándares técnicos y pilotar aplicaciones reales.

Recomendaciones para maximizar el impacto

El informe concluye con cuatro recomendaciones clave que resultan particularmente relevantes para el ecosistema español de datos abiertos:

Estimular la investigación en la intersección EHDS-datos abiertos mediante financiación específica. Es fundamental incentivar que los investigadores que combinan estas fuentes traduzcan sus hallazgos en aplicaciones prácticas: protocolos clínicos mejorados, herramientas de decisión, estándares de calidad actualizados.
Evaluar y facilitar el uso directo por profesionales y pacientes. Promover la alfabetización en datos y desarrollar aplicaciones intuitivas integradas en los sistemas existentes (como las historias clínicas electrónicas) podría cambiar esta situación.
Fortalecer la gobernanza mediante educación y marcos regulatorios claros. A medida que se vayan operativizando las entidades técnicas del EHDS , será esencial contar con una regulación clara que defina unos marcos regulatorios comunes..
Monitorizar, evaluar y adaptar. El período 2025-2031 verá la entrada en vigor gradual de los distintos requisitos del EHDS. Se recomienda realizar evaluaciones periódicas para valorar cómo se está utilizando realmente el EHDS, qué combinaciones con datos abiertos están generando más valor, y qué ajustes son necesarios.

Además, para que todo esto funcione, el informe sugiere que portales como data.europa.eu (y por extensión, datos.gob.es) deberían destacar ejemplos prácticos que demuestren cómo se complementan los datos abiertos con los datos protegidos de espacios sectoriales, inspirando así nuevas aplicaciones.

En general, el papel de los portales de datos abiertos será fundamental en este ecosistema emergente: no solo como proveedores de conjuntos de datos de calidad, sino también como facilitadores de conocimiento, espacios de encuentro entre comunidades y catalizadores de innovación. El futuro de la sanidad europea se está escribiendo ahora, y los datos abiertos tienen un papel protagonista en esa historia.

24/10/2025

Pódcast: Cultura libre y colaborativa, casos de uso de OpenStreetMap y Wikimedia

Entrevista

La cultura colaborativa y los proyectos ciudadanos de datos abiertos son clave para el acceso democrático a la información. Esto contribuye a un conocimiento libre que permite impulsar la innovación y empoderar a la ciudadanía.

En este nuevo episodio del pódcast de datos.gob.es, nos acompañan dos profesionales ligados a proyectos ciudadanos que han revolucionado la forma en que accedemos, creamos y reutilizamos el conocimiento. Damos la bienvenida a:

Florencia Claes, profesora titular y coordinadora de Cultura Libre en la Universidad Rey Juan Carlos, y ex presidenta de Wikimedia España.
Miguel Sevilla-Callejo, investigador del CSIC (Consejo Superior de Investigaciones Científicas) y vicepresidente de la asociación OpenStreetMap España.

Escuchar el pódcast completo

Resumen de la entrevista / Transcripción de la entrevista

1. ¿Cómo definiríais la cultura libre?

Florencia Claes: Es cualquier expresión cultural, científica, intelectual, etc. que como autoras o autores permitimos que cualquier otra persona las utilice, las aproveche, las reaproveche, las intervenga y las vuelva a lanzar a la sociedad, para que otra persona haga lo mismo con ese material.

En la cultura libre entran en juego las licencias, esos permisos de uso que nos indican qué es lo que podemos hacer con esos materiales o con esas expresiones de la cultura libre.

2. ¿Qué papel tienen los proyectos colaborativos dentro de la cultura libre?

Miguel Sevilla-Callejo: Tener unos proyectos que sean capaces de aglutinar estas iniciativas de cultura libre es muy importante. Los proyectos colaborativos son iniciativas horizontales en las que puede aportar cualquier persona. En torno a ellos se estructura un consenso para hacer crecer ese proyecto, esa cultura.

3. Los dos estáis ligados a proyectos colaborativos como son Wikimedia y OpenStreetMap. ¿Cómo impactan estos proyectos en la sociedad?

Florencia Claes: Claramente el mundo no sería el mismo sin Wikipedia. No concebimos un mundo sin Wikipedia, sin acceso libre a la información. Creo que Wikipedia está asociado a la sociedad en la que estamos actualmente. Ha construido lo que somos hoy, también como sociedad. El hecho de que sea un espacio colaborativo, abierto, libre, hace que cualquiera pueda sumarse e intervenirlo y que tenga un rigor alto.

Entonces, ¿cómo impacta? Impacta en que (va a sonar un poco cursi, pero…) podemos ser mejores personas, podemos conocer más, podemos tener más información. Impacta en que cualquier persona con acceso a internet, claro está, puede beneficiarse de sus contenidos y aprender sin tener que pasar necesariamente por un muro de pago o estar registrado en una plataforma y cambiar datos para poder apropiarse o acercarse a la información.

Miguel Sevilla-Callejo: A OpenStreetMap le llamamos la Wikipedia de los mapas, porque en muy buena parte de su filosofía está copiado o clonado de la filosofía de Wikipedia. Si os imagináis Wikipedia, lo que hace la gente es que mete artículos enciclopédicos. Lo que hacemos en OpenStreetMap es meter datos espaciales. Construimos un mapa de manera colaborativa y esto supone que la página openstreetmap.org, que es donde podrías ir a mirar los mapas, es solo la punta del iceberg. Es ahí donde OpenStreetMap está un poco más difuso y oculto, pero la mayor parte de las páginas web, mapas e información espacial que estáis viendo en Internet, muy probablemente en su gran mayoría, procede de los datos de la gran base de datos libre, abierta y colaborativa que es OpenStreetMap.

Muchas veces estáis leyendo un periódico y veis un mapa y esos datos espaciales están sacados de OpenStreetMap. Incluso se utilizan en agencias: en la Unión Europea, por ejemplo, se está utilizando OpenStreetMap. Se usa en información de empresas privadas, de administraciones públicas, particulares, etc. Y, además, al ser libre se reaprovecha constantemente.

A mí me gusta traer siempre a colación proyectos que hemos hecho aquí, en la ciudad de Zaragoza. Hemos generado toda la red peatonal urbana, o sea, todas las aceras, los pasos de cebra, las zonas por las que se puede circular... y con esto se hace un cálculo de cómo te puedes mover por la ciudad andando. Esta información de las aceras, los pasos de peatones y demás no lo encuentras en un sitio web porque no es muy lucrativo, como podría ser por ejemplo moverse en coche, y se puede aprovechar, por ejemplo -que es lo que hicimos en algunos trabajos que dirigí yo en la universidad- para poder saber cómo de diferente es la movilidad con personas invidentes, en silla de ruedas o con un carrito de un bebé.

4. Nos estáis contando que estos proyectos son abiertos. Si un ciudadano nos está escuchando ahora mismo y quiere participar en ellos, ¿qué debe hacer para participar? ¿Cómo puede formar parte de estas comunidades?

Florencia Claes: Lo interesante de estas comunidades es que no necesitas asociarte o ligarte formalmente a ellas para poder contribuir. En Wikipedia simplemente entras a la página de Wikipedia y te haces un usuario, o no, y ya puedes editar. ¿Qué diferencia hay entre hacer tu usuario o no? En que vas a poder tener mejor acceso a las contribuciones que has hecho, pero no necesitamos estar asociados o registrados en ningún sitio para poder editar Wikipedia.

Si hay a nivel local o regional grupos relacionados con la Fundación Wikimedia que reciben ayudas y subvenciones para hacer encuentros o actividades. Ahí está bueno, porque se conoce gente con las mismas inquietudes y que suelen ser muy entusiastas con respecto al conocimiento libre. Como dicen mis amigos, somos una panda de frikis que nos hemos encontrado y sentimos que tenemos un grupo de pertenencia en el que compartimos y planificamos cómo cambiar el mundo.

Miguel Sevilla-Callejo: En OpenStreetMap sucede prácticamente igual, o sea, lo puedes hacer en solitario. Es verdad que hay un poco de diferencia con respecto a Wikipedia. Si vas a la página de openstreetmap.org, en la que tenemos toda la documentación -que es wiki.OpenStreetMap.org- tú puedes entrar ahí y tienes toda la documentación.

Sí que es verdad que para editar en OpenStreetMap sí que se necesita un usuario para hacer un mejor seguimiento de los cambios que hace la gente en el mapa. Si fuera anónimo podría llegar a haber más problema, porque no es como los textos en Wikipedia. Pero como ha dicho Florencia, es mucho mejor si te asocias a una comunidad.

Tenemos grupos locales en diferentes sitios. Una de las iniciativas que hemos reactivado últimamente es la asociación OpenStreetMap España, en la que, como decía Florencia, estamos un grupo a los que nos gustan los datos y las herramientas libres, y ahí compartimos todo el conocimiento. Se acerca mucha gente y nos dicen "oye, acabo de entrar en OpenStreetMap, este proyecto me gusta, ¿cómo puedo hacer esto? ¿cómo puedo hacer lo otro?" Y bueno, siempre es mucho mejor hacerlo con otros colegas que hacerlo tú solo. Pero lo puede hacer cualquiera.

5. ¿Qué desafíos os habéis encontrado a la hora de implementar estos proyectos colaborativos y garantizar su sostenibilidad en el tiempo? ¿Cuáles son los principales retos, tanto técnicos como sociales, a los que hacéis frente?

Miguel Sevilla-Callejo: Uno de los problemas que encontramos en todos estos movimientos que son tan horizontales y en los que hay que buscar consensos para saber hacia dónde avanzar, es que al final es relativamente problemático lidiar con una comunidad muy diversa. Siempre surgen roces, diferentes puntos de vista... Esto yo creo que es lo más problemático. Lo que sucede es que, en el fondo, como nos mueve a todos el entusiasmo por el proyecto, terminamos llegando a acuerdos que hacen crecer el proyecto, como se puede ver en los propios Wikimedia y OpenStreetMap, que siguen creciendo y creciendo.

Desde el punto de vista técnico, para algunas cosas en concreto, tienes que tener una cierta destreza informática, pero vamos muy, muy básica. Por ejemplo, hemos hecho mapatones, que consisten en que nos reunimos en un área con ordenadores y empezamos a poner información espacial en zonas, por ejemplo, donde ha habido una catástrofe natural o algo así. La gente básicamente, sobre una imagen de satélite, va colocando casitas donde va viendo - casitas ahí en mitad del Sahel, por ejemplo, para ayuda a ONG como Médicos Sin Fronteras-. Eso es muy fácil: lo abres en el navegador, abres OpenStreetMap y enseguida, con cuatro indicaciones, eres capaz de editar y contribuir.

Sí que es verdad que, si quieres hacer cosas un poco más complejas, tienes que tener más destreza informática. Entonces sí que es verdad que siempre nos adaptamos. Hay gente que está metiendo datos en plan muy pro, incluyendo edificios, importando datos del catastro… y hay gente como hace poco una chica aquí en Zaragoza, que descubrió el proyecto y está metiendo los datos que va encontrando con una aplicación en el móvil.

Sí que de verdad encuentro un cierto sesgo de género en el proyecto. A mí eso dentro de OpenStreetMap me preocupa un poco, porque es verdad que una gran mayoría de las personas que estamos editando, incluidos a la comunidad, somos hombres y eso al final sí que se traduce en que algunos datos tienen cierto sesgo. Pero bueno, estamos trabajando en ello.

Florencia Claes: En ese sentido, en el entorno Wikimedia, también nos pasa eso. Tenemos, más o menos a nivel mundial, un 20% de mujeres participantes en el proyecto contra 80% de varones y eso hace que, por ejemplo, en el caso de Wikipedia, haya preferencia por artículos sobre futbolistas a veces. No es preferencia, sino simplemente que las personas que editan tienen esos intereses y como son más hombres, pues tenemos más futbolistas, y echamos en falta artículos relacionados, por ejemplo, con la salud de la Mujer.

Entonces sí nos enfrentamos a sesgos y nos enfrentamos a esa coordinación de la comunidad. A veces participa gente con muchos años, gente nueva… y lograr un equilibrio es importantísimo y muy difícil. Pero lo interesante es cuando logramos tener presente o recordar que el proyecto está por encima de nosotros, que estamos construyendo algo, que estamos regalando algo, que estamos participando en algo muy grande. Cuando volvemos a tomar conciencia de eso, las diferencias se tranquilizan y volvemos a centrarnos en el bien común que, al fin y al cabo, creo que es el objetivo de estos dos proyectos, tanto del entorno Wikimedia como de OpenStreetMap.

6. Como comentabais, tanto Wikimedia como OpenStreetMap son proyectos construidos por voluntarios. ¿Cómo se garantiza la calidad y precisión de los datos?

Miguel Sevilla-Callejo: Lo interesante de todo esto es que la comunidad es muy amplia y hay muchos ojos observando. Cuando hay una falta de rigurosidad en la información, tanto en Wikipedia -que lo conoce la gente más- pero también en OpenStreetMap, saltan las alarmas. Tenemos sistemas de seguimiento y es relativamente sencillo ver disfunciones en los datos. Entonces podemos actuar rápidamente. Esto da una capacidad, en OpenStreetMap en concreto, de reacción y actualización de los datos prácticamente inmediata y de resolución de aquellas problemáticas que puedan surgir también bastante rápida. Sí que es verdad que tiene que haber una persona atenta de ese lugar o de esa zona.

A mí siempre me ha gustado hablar de los datos de OpenStreetMap como una especie de - refiriendo como se hace en el software- mapa beta, que tiene lo ultimísimo, pero puede haber algunos errores mínimos. Entonces, como un mapa fuertemente actualizado y de gran calidad, se puede utilizar para muchas cosas, pero para otras por supuesto que no, porque tenemos otra cartografía de referencia que se está construyendo por la administración pública.

Florencia Claes: En el entorno Wikimedia también funcionamos así, por la masa, por la cantidad de ojos que están mirando lo que hacemos y lo que hacen otros. Cada uno, dentro de esta comunidad, va asumiendo roles. Hay roles que están pautados, como los de administradores o bibliotecarios o bibliotecarias, pero hay otros que simplemente son: a mí me gusta patrullar, entonces lo que hago es estar pendiente de los artículos nuevos y podría estar mirando los artículos que se publican a diario para ver si necesitan algún apoyo, alguna mejora o si, por el contrario, están tan mal que necesitan ser retirados de la parte principal o borrados.

La clave de estos proyectos es la cantidad de gente que participa y todo es de forma voluntaria, altruista. La pasión es muy es muy alta, el nivel de compromiso es muy alto. Entonces la gente cuida mucho esas cosas. Tanto cuando se curan datos para subir a Wikidata o se escribe un artículo en Wikipedia, cada persona que lo hace, lo hace con mucho cariño, con mucho celo. Después pasa el tiempo y está pendiente de ese material que subió, a ver cómo siguió creciendo, si se utilizó, si se enriqueció más o si por el contrario se le borró algo.

Miguel Sevilla-Callejo: Respecto a la calidad de los datos, me parece interesante, por ejemplo, una iniciativa que ha tenido ahora el Sistema de Información Territorial de Navarra. Han migrado todos sus datos para la planificación y la guía de las rutas de emergencias a OpenStreetMap, tomando sus datos. Ellos se han implicado en el proyecto, han mejorado la información, pero tomando lo que ya había [en OpenStreetMap], considerando que tenían una gran calidad y que les resultaba mucho más útil que utilizar otras alternativas, lo cual pone de manifiesto la calidad y la importancia que puede llegar a tener este proyecto.

7. Estos datos también pueden servir para generar recursos educativos abiertos, junto con otras fuentes de conocimiento. ¿En qué consisten estos recursos y qué papel juegan en la democratización del conocimiento?

Florencia Claes: Los REA, los recursos educativos abiertos, deberían ser la norma. Cada docente que genera contenidos debería ponerlos a disposición de la ciudadanía y deberían estar construidos por módulos a partir de recursos libres. Sería lo ideal.

¿Qué papel tiene el entorno Wikimedia en esto? Desde albergar información que puede ser utilizada a la hora de construir los recursos, como proporcionar espacios para realizar ejercicios o para tomar, por ejemplo, datos y hacer un trabajo con SPARQL. O sea, hay diferentes formas de abordar los proyectos Wikimedia en relación a los recursos educativos abiertos. Se puede desde intervenir y enseñarle al alumnado cómo identificar datos, cómo verificar las fuentes, hasta simplemente hacer una lectura crítica de cómo está presentada la información, cómo está curada, y hacer, por ejemplo, una valoración entre idiomas.

Miguel Sevilla-Callejo: En OpenStreetMap es muy similar. Lo interesante y único es cuál es la naturaleza de los datos. No es exactamente información en diferentes formatos como en Wikimedia. Aquí la información es esa base de datos espaciales libre que es OpenStreetMap. Entonces los límites son la imaginación.

Me acuerdo que había un compañero que iba a unas conferencias y hacía una tarta con el mapa de OpenStreetMap. Se la daba a comer a la gente y les decía: "¿Veis? Estos son mapas que hemos podido comer porque son libres". Para hacer cartografía más seria o más informal o lúdica, el límite es solo tu imaginación. Sucede exactamente igual que con Wikipedia.

8. Para acabar, ¿cómo se puede motivar a los ciudadanos y organizaciones para que participen en la creación y mantenimiento de proyectos colaborativos ligados a la cultura libre y datos abiertos?

Florencia Claes: Yo creo que hay que hacer claramente lo que decía Miguel de la tarta. Hay que hacer una tarta e invitar a la gente a comer tarta. Hablando en serio sobre qué podemos hacer para motivar a la ciudadanía a reutilizar estos datos, yo creo, sobre todo por experiencia personal y por los grupos con los que yo he trabajado en estas plataformas, que la interfaz sea amigable es un paso importantísimo.

En Wikipedia en 2015 se activó el editor visual. El editor visual hizo que nos incorporamos muchísimas más mujeres a editar Wikipedia. Antes se editaba solo en código y el código, pues a primera vista puede parecer hostil o distante o “eso no va conmigo”. Entonces, tener interfaces donde la gente no necesite tener demasiados conocimientos para saber que este es un paquete que tiene tal tipo de datos y lo voy a poder leer con tal programa o lo voy a poder volcar en tal cosa y que sea sencillo, que sea amigable, que sea atractivo… Eso creo que nos va a quitar muchísimas barreras y que va a dejar de lado esa idea de que el dato es para los informáticos. Y creo que los datos van más allá, que realmente podemos aprovecharlos todas y todos de muy diferentes formas. Entonces creo que es una de las barreras que deberíamos vencer.

Miguel Sevilla-Callejo: A nosotros no sucedió que hasta más o menos 2015 (perdóname si no es exactamente la fecha), teníamos un interfaz que era bastante horrible, casi como la edición de código que tenéis en Wikipedia, o peor, porque había que meter los datos sabiendo el etiquetado, etc. Era muy complejo. Y ahora tenemos un editor que básicamente tú estás en OpenStreetMap, le das a editar y sale un interfaz súper sencillo. Ya ni siquiera hay que poner etiquetado en inglés, está todo traducido. Hay muchas cosas preconfiguradas y la gente puede meter los datos inmediatamente y de una manera muy sencilla. Entonces eso lo que ha permitido es que se acerque mucha más gente al proyecto.

Otra cosa muy interesante, que también pasa en Wikipedia, aunque es verdad que está mucho más centrado en la interfaz web, es que en torno a OpenStreetMap se ha generado un ecosistema de aplicaciones y servicios que ha posibilitado que, por ejemplo, aparezcan aplicaciones móviles que, de una manera muy rápida, muy sencilla, permiten meter los datos directamente a pie sobre el terreno. Y esto posibilita que la gente pueda meter los datos de una manera sencilla.

Quería de todas maneras incidir otra vez, aunque ya sé que estamos reiterando todo el rato en la misma circunstancia, pero creo que es importante comentarlo, porque creo que eso se nos olvida dentro de los proyectos: necesitamos que la gente sea consciente otra vez de que los datos son libres, que pertenecen a la comunidad, que no está en manos de una empresa privada, que se puede modificar, que se pueden transformar, que detrás lo que hay es una comunidad de gente voluntaria, libre, pero que eso no quita calidad a los datos, y que llega a todos lados. Para que la gente se acerque y no nos vean como un bicho raro. Yo creo que Wikipedia está mucho más integrado dentro del conocimiento de la sociedad y ahora con la inteligencia artificial mucho más, pero nos pasa en OpenStreetMap, que te miran así como diciendo “pero, ¿qué me estás contando si yo utilizo otra aplicación en el móvil?” o está utilizando la nuestra, está utilizando datos de OpenStreetMap sin saberlo. Entonces nos falta acercarnos más a la sociedad, que nos conozcan más.

Volviendo al tema de la asociación, ese es uno de nuestros objetivos, que la gente nos conozca, que sepa que esos datos son abiertos, que se pueden transformar, los pueden utilizar y que son libres de tenerlos para construir, como decía antes, lo que quieran y el límite es su imaginación.

Florencia Claes: Creo que deberíamos integrar de alguna forma mediante gamificación, mediante juegos en el aula, la incorporación de mapas, de datos dentro del aula, dentro del día a día en la escolarización. Creo que ahí tendríamos un punto a favor. Dado que estamos dentro de un ecosistema libre, podemos integrar en las mismas páginas de los repositorios de datos herramientas de visualización o de reaprovechamiento que creo que harían todo bastante más amable y daría cierto poder a la ciudadanía, los empoderaría de tal forma que se animaría a utilizarlos.

Miguel Sevilla-Callejo: Es interesante que tenemos cosas que conectan ambos proyectos (también se nos olvida a veces a la gente de OpenStreetMap y de Wikipedia), que hay datos que podemos intercambiar, coordinar y sumar. Y eso también se sumaría a lo que acabas de decir.

Clips de la entrevista

1. ¿En qué consisteOpenStreetMap?

2. ¿Cómo ayuda Wikimedia en la creación de Recursos Educativos Abiertos?

16/07/2025

Nuevos informes sobre datos abiertos y tecnologías relacionadas: hacia un ecosistema ético y colaborativo

Noticia

Los datos abiertos son un combustible fundamental en la innovación digital contemporánea, creando ecosistemas de información que democratizan el acceso al conocimiento y potencian el desarrollo de soluciones tecnológicas avanzadas.

Sin embargo, la mera disponibilidad de datos no es suficiente. La construcción de ecosistemas robustos y sostenibles requiere marcos normativos claros, principios éticos sólidos y metodologías de gestión que garanticen tanto la innovación como la protección de derechos fundamentales. Por ello, la documentación especializada que orienta estos procesos se convierte en un recurso estratégico para gobiernos, organizaciones y empresas que buscan participar responsablemente en la economía digital.

En este post, recopilamos informes recientes, elaborados por organizaciones de referencia tanto del ámbito público como privado, que ofrecen estas orientaciones clave. Estos documentos no solo analizan los desafíos actuales de los ecosistemas de datos abiertos, sino que proporcionan herramientas prácticas y marcos de trabajo concretos para su implementación efectiva.

Estado y evolución del mercado del open data

Conocer cómo es y qué cambios ha habido en el ecosistema de los datos abiertos a nivel europeo y nacional es importante para tomar decisiones informadas y adaptarse a las necesidades de la industria. En este sentido, la Comisión Europea publica, periódicamente, un informe sobre los mercados de datos, que se actualiza regularmente. La última versión es de diciembre de 2024, aunque periódicamente se van publicando casos de uso que ejemplifican el potencial de los datos en Europa (el último de febrero de 2025).

Por otro lado, desde una perspectiva regulatoria europea, el último informe anual sobre la implementación de la Ley de Mercados Digitales (DMA) aborda una visión integral de las medidas adoptadas para garantizar la equidad y competitividad en el sector digital. Este documento es interesante para comprender cómo se está configurando el marco normativo que afecta directamente a los ecosistemas de datos abiertos.

A nivel nacional, el informe sectorial de ASEDIE sobre la "Economía del Dato en su ámbito infomediario" 2025 proporciona evidencia cuantitativa del valor económico generado por los ecosistemas de datos abiertos en España.

La importancia de los datos abiertos en la IA

Está claro que la intersección entre datos abiertos e inteligencia artificial es una realidad que plantea desafíos éticos y normativos complejos que requieren respuestas colaborativas y multisectoriales. En este contexto, el desarrollo de marcos que guíen el uso responsable de la IA se convierte en una prioridad estratégica, especialmente cuando estas tecnologías se nutren de ecosistemas de datos públicos y privados para generar valor social y económico. Estos son algunos informes que abordan este objetivo:

IA generativa y datos abiertos: directrices y buenas prácticas: el Departamento de Comercio de EE. UU. ha publicado una guía con principios y buenas prácticas sobre cómo aplicar inteligencia artificial generativa de forma ética y efectiva en el contexto de los datos abiertos. El documento ofrece pautas para optimizar la calidad y la estructura de los datos abiertos con el fin de hacerlos útiles para estos sistemas, incluyendo la transparencia y gobernanza.
Guía de buenas prácticas para el uso de la inteligencia artificial ética: esta guía muestra un enfoque integral que combina principios éticos sólidos con preceptos normativos claros y aplicables. Además del marco teórico, la guía sirve de herramienta práctica para implementar sistemas de IA de manera responsable, considerando tanto los beneficios potenciales como los riesgos asociados. La colaboración entre actores públicos y privados garantiza que las recomendaciones sean tanto técnicamente viables como socialmente responsables.
Enhancing Access to and Sharing of Data in the Age of AI: este análisis de la Organización para la Cooperación y el Desarrollo Económicos (OCDE) aborda uno de los principales obstáculos para el desarrollo de la inteligencia artificial: el acceso limitado a datos de calidad y modelos efectivos. A través de ejemplos, se identifican estrategias específicas que los gobiernos pueden implementar para mejorar significativamente el acceso y la compartición de datos y ciertos modelos de IA.
A Blueprint to Unlock New Data Commons for AI: Open Data Policy Lab ha elaborado una guía práctica que se centra en la creación y gestión de bienes comunes de dato (data commons) específicamente diseñados para habilitar casos de uso de inteligencia artificial de interés público. La guía ofrece metodologías concretas sobre cómo gestionar datos de manera que se facilite la creación de estos bienes comunes de dato, incluyendo aspectos de gobernanza, sostenibilidad técnica y alineación con objetivos de interés público.
Guía práctica sobre colaboraciones basadas en datos: la iniciativa Data for Children Collaborative ha publicado una guía paso a paso para desarrollar colaboraciones de datos efectivas, con un enfoque en impacto social. Incluye ejemplos reales, modelos de gobernanza y herramientas prácticas para impulsar alianzas sostenibles.

En resumen, estos informes definen el camino hacia ecosistemas de datos más maduros, éticos y colaborativos. Desde las cifras de crecimiento del sector infomediario español hasta los marcos regulatorios europeos, pasando por las guías prácticas para la implementación de IA responsable, todos estos documentos comparten una visión común: el futuro de los datos abiertos depende de nuestra capacidad para construir puentes entre el sector público y privado, entre la innovación tecnológica y la responsabilidad social.

29/05/2025

El IV Encuentro Nacional de Datos Abiertos reafirma el papel de la cultura abierta en la sociedad del conocimiento

Noticia

El pasado 16 de mayo, Lanzarote se convirtió en el epicentro de la cultura abierta y los datos abiertos en España con la celebración del IV Encuentro Nacional de Datos Abiertos (ENDA). Bajo el lema "Los datos en la cultura del conocimiento abierto", esta edición reunió a más de un centenar de expertos, profesionales y entusiastas de la apertura de datos para reflexionar sobre cómo impulsar el desarrollo y progreso de nuestra sociedad a través del acceso libre a la información.

El evento, celebrado en el emblemático Auditorio Jameos del Agua, fue organizado por el Gobierno de Canarias, a través de la Dirección General de Transformación Digital de los Servicios Públicos, la Dirección General de Transparencia y Participación Ciudadana, el Instituto Canario de Estadística y el Cabildo Insular de Lanzarote bajo la marca "Canarias Datos Abiertos".

La transformación hacia organizaciones basadas en datos

La jornada comenzó con la inauguración por parte de Antonio Llorens de la Cruz, viceconsejero de Administraciones y Transparencia del Gobierno de Canarias, y Miguel Ángel Jiménez Cabrera, Consejero del Área de Presidencia, Recursos Humanos, Nuevas Tecnologías, Energía, Vivienda, Transporte, Movilidad y Accesibilidad del Cabildo Insular de Lanzarote.

Después tuvo lugar la ponencia de Óscar Corcho García, Catedrático de la Universidad Politécnica de Madrid, quien abordó los " Retos en la transformación de una organización para ser centrada en datos, usando grafos de conocimientos. El caso de la Agencia Europea de Ferrocarriles ". Corcho presentó el caso práctico de la Agencia Europea de Ferrocarriles (ERA).

En su presentación, Corcho insistió en que la transformación desde una organización tradicional a una basada en datos va mucho más allá de la implementación tecnológica. Este proceso de transformación requiere reforzar el marco legal, armonizar los procesos, los vocabularios y los datos maestros, establecer una gobernanza del modelo ontológico y crear una comunidad de personas usuarias para seguir enriqueciendo el modelo.

En este proceso, los metadatos, catálogos de datos y datos de referencia son elementos clave. Además, los grafos de conocimiento son herramientas fundamentales para conectar e integrar datos procedentes de sistemas propietarios.

Datos abiertos para una ciencia al servicio de las decisiones públicas

La primera de las mesas abordó cómo los datos abiertos pueden servir a la ciencia para mejorar las decisiones públicas. Quienes participaron destacaron la necesidad de fortalecer la economía del dato, avanzar hacia la soberanía tecnológica y promover una participación ciudadana efectiva.

Diego Ramiro Fariñas, Director del Instituto de Economía, Geografía y Demografía del Consejo Superior de Investigaciones Científica (CSIC), resaltó:

La importancia de las infraestructuras de datos longitudinales, es decir, datos que se recogen a lo largo del tiempo para las mismas unidades.
El valor de los datos enlazados para romper silos de información.
La necesidad de preservar el patrimonio estadístico.
El proyecto Es_Datalab, que permite cruzar datos como los de la Agencia Tributaria con datos de Salud.
El potencial de los datos sintéticos para reducir sesgos en aplicaciones de IA.

Ramiro Fariñas también enfatizó que el Instituto Nacional de Estadística ha transformado toda su producción estadística para dirigirla hacia la minería de datos, y que institutos punteros como el canario y el andaluz están mejorando la publicación de datos para mejorar las políticas públicas. Señaló dos aspectos fundamentales: la necesidad de una mayor interlocución entre los productores de datos y la formación del personal de la administración para superar las principales barreras que impiden poner la ciencia al servicio de las decisiones públicas.

Por su parte, Izaskun Lacunza Aguirrebengoa, Directora de la Fundación Española para la Ciencia y la Tecnología (FECYT), subrayó la importancia de transformar el modelo de ciencia, facilitando que las instituciones científicas puedan proteger y compartir la información proveniente de la investigación. Explicó el concepto de ciencia abierta contraponiéndolo a algunas de las prácticas actuales, donde el conocimiento generado con fondos públicos acaba siendo controlado por oligopolios privados que posteriormente venden esta información procesada a las propias instituciones que la generaron. Lacunza abogó por la colaboración público-público a través de iniciativas como la Oficina de Ciencia y Tecnología del Congreso.

Otra de las participantes de esta mesa redonda fue Tania Gullón Muñoz-Repiso, Coordinadora del Área de Innovación y Análisis Geoespacial del Ministerio de Transportes y Movilidad Sostenible, quien compartió cómo los datos son cruciales para la gestión de emergencias como la DANA. Los datos de movilidad del Ministerio tienen cientos de reutilizadores, impulsan nuevas empresas y permiten crear modelos predictivos. Gullón insistió en que es clave que los datos proporcionados por la ciudadanía incluyan una explicación de cómo han sido utilizados, considerando esta retroalimentación fundamental para dar valor a la ciencia abierta.

Cultura abierta: eliminando barreras al conocimiento

En la mesa "Cultura abierta: cómo los datos nos acercan al conocimiento", se debatió sobre cómo eliminar barreras al acceso, estudio y transformación del conocimiento para que éste vuelva a la sociedad y que esta pueda aprovechar su potencial.

En este bloque temático, Florencia Claes, Directora académica de Cultura Libre en la Oficina de Conocimiento y Cultura Libres (OfiLibre) de la Universidad Rey Juan Carlos (URJC), definió la cultura abierta como la corriente que busca el acceso al conocimiento sin barreras y la posibilidad de poder apropiarse de ese conocimiento, estudiarlo y volver a compartirlo con la sociedad. Destacó ideas interesantes como que publicar contenido en internet no significa que, automáticamente, esté abierto, ya que el contenido en abierto debe presentar unos estándares y condiciones que no siempre se cumplen.

Claes explicó el valor de los Recursos Educativos Abiertos (REA) y cómo en la URJC se cuenta con una oficina específica para difundir la cultura abierta, la ciencia abierta y los datos abiertos. Señaló que existe una deficiencia en la formación del personal docente universitario sobre licencias y REA, considerando esta formación como un elemento clave para avanzar en la cultura de lo abierto.

Además, resaltó que el acceso masivo a los datos facilita su control, detección de errores y mejora. Para ello, iniciativas como Wikimedia u OpenStreetMap son muy interesantes, en los dos proyectos se aceptan la participación voluntaria y su contribución es imprescindible para construir y mantener entornos online en abierto.

En la misma mesa, Julio Cordal Elviro, Jefe del Área de Proyectos Bibliotecarios y responsable de las relaciones con Europeana del Ministerio de Cultura, explicó la evolución de Europeana de simple recolector a biblioteca digital, con proyectos basados en metadatos semánticos, destacando los retos de normalización y preservación digital de más de 60 millones de obras culturales. Explicó que el surgimiento de Google Books actuó como revulsivo para "ponerse las pilas" en este ámbito.

Cordal también presentó el proyecto Hispana, que recopila información de los fondos digitalizados en toda España y que federa con Europeana, y mencionó que han comenzado a generar REA. Subrayó cómo el uso de tecnologías como OCR (reconocimiento óptico de caracteres, por sus siglas en inglés) y la disponibilidad online de los fondos facilita que los investigadores ahorren tiempo infinito en sus trabajos. "Cuando pones los datos en abierto y gratuitamente, estás abriendo nuevas oportunidades", concluyó.

Por otro lado, José Luis Bueren Gómez-Acebo, Director técnico de la Biblioteca Nacional de España (BNE), compartió el proceso de transformación digital de la institución, su apuesta por licencias abiertas y la importancia del componente emocional que impulsa la participación ciudadana en proyectos culturales.

Bueren explicó cómo la BNE continúa su labor de recopilar y digitalizar todas las obras bibliográficas producidas en España, manteniéndose conectada con Wikidata y otras bibliotecas internacionales siempre de forma normalizada. A través de iniciativas como Datos BNE, ofrecen una visión más práctica y didáctica de la información que publican.

Destacó la importancia de que la ciudadanía se reapropie del contenido cultural, sienta que es suyo, recordando que la BNE se debe a la comunidad científica y a toda la ciudadanía. Entre los proyectos innovadores que están impulsando, mencionó la transcripción automática de manuscritos. Como retos de futuro señaló la sostenibilidad, la gestión de la propiedad intelectual y la necesidad de capacidad de adaptación de las instituciones culturales a las nuevas tendencias.

Priorización en la apertura de datos públicos

Como en cada edición, el ENDA presentó un reto específico. Este año, Casey Abernethy, Responsable técnica de la Asociación Multisectorial de la Información (ASEDIE), y José de León Rojas, Responsable del Negociado de Modernización del Cabildo Insular de Lanzarote, presentaron una metodología y herramienta para ayudar a las administraciones públicas a decidir qué conjuntos de datos deberían publicar y en qué orden de prioridad, basándose en:

Conjuntos de datos recomendados por la FEMP.
Conjuntos prioritarios definidos en la norma UNE sobre Ciudades Inteligentes y Datos Abiertos.
Conjuntos de alto valor según la normativa europea.
Conjuntos solicitados por ASEDIE (Top 10 ASEDIE).
Conjuntos derivados de índices o normativas de transparencia.

La metodología propuesta considera tres índices fundamentales: madurez organizativa, dificultad técnica y relevancia estratégica. El IV reto planteado en el contexto del Encuentro estaba dirigido específicamente a elegir los conjuntos de datos clave que debe publicar en una administración pública según su madurez en materia de datos abiertos. Esta metodología se ha implementado en una herramienta operativa que puede consultarse en la web de los Encuentros.

El poder del software libre y las comunidades abiertas

Durante la tarde, la mesa "Liberar el potencial de los datos abiertos" puso de relieve cómo el software libre y las comunidades abiertas impulsan el uso y aprovechamiento de los datos abiertos:

Emilio López Cano, Profesor titular de la Universidad Rey Juan Carlos y presidente de la Comunidad R Hispano, mostró cómo la comunidad R facilita el uso de datos abiertos mediante paquetes específicos.
Miguel Sevilla Callejo, Asistente de investigación en el Instituto Pirenaico de Ecología del CSIC y vicepresidente de la asociación OpenStreetMap España, presentó OpenStreetMap como una fuente invaluable de datos espaciales abiertos y destacó su importancia en situaciones de emergencia.
Patricio del Boca, Líder técnico y miembro del equipo técnico de CKAN de la Open Knowledge Foundation (OKFN), explicó las ventajas de CKAN como plataforma de código abierto para implementar portales de datos abiertos y presentó la nueva herramienta Open Data Editor.

Administraciones abiertas al servicio de la ciudadanía

En la última mesa se abordó cómo las administraciones pueden acercar los datos y su valor a la ciudadanía:

Ascensión Hidalgo Bellota, Subdirectora General de Transparencia del Ayuntamiento de Madrid, presentó "Visualiza Madrid con Datos Abiertos". Hidalgo destacó que el proyecto ha reducido significativamente el número de consultas ciudadanas gracias a su carácter aclaratorio, demostrando así un doble beneficio: acercar los datos a la población y optimizar los recursos de la administración.
Carlos Alonso Peña, Director de la División de Diseño, Innovación y Explotación en la Dirección General del Dato, destacó el cambio cultural que está experimentando la Administración, pasando de la protección de datos a la apertura responsable. Presentó las iniciativas de la Dirección General del Dato para avanzar más allá de los datos abiertos hacia un mercado único de datos: los espacios de datos, donde se están desarrollando soluciones concretas que demuestren el potencial de negocio en este ámbito. También señaló la creciente importancia de los datos privados a raíz del Reglamento General de Datos y las obligaciones que establece.
Joseba Asiain Albisu, Director General de la Dirección General de Presidencia, Gobierno Abierto y Relaciones con el Parlamento de Navarra del Gobierno de Navarra, explicó la estrategia de Navarra para mejorar la calidad de los datos, centralizar información y promover la evaluación continua. Comentó cómo el Gobierno de Navarra busca equilibrar la cantidad y la calidad en la publicación de datos, centralizando los datos de toda la región y sometiendo los metadatos a una evaluación externa, contando para ello con la colaboración, entre otros, de datos.gob.es.

El valor de los encuentros sobre datos abiertos

El IV ENDA ha demostrado, una vez más, la importancia de estos espacios de reflexión y debate para:

Compartir buenas prácticas y experiencias entre administraciones públicas.
Fomentar la colaboración entre instituciones, academia y sector privado.
Impulsar la cultura del dato abierto como herramienta de innovación social.
Promover el desarrollo de habilidades en el personal de las administraciones públicas.
Mejorar las políticas públicas a través de la información compartida.

Tras cuatro ediciones consecutivas, el Encuentro Nacional de Datos Abiertos se ha consolidado como una cita imprescindible para todas las personas y entidades involucradas en el ecosistema de datos abiertos en España. Este evento contribuye significativamente a la construcción de una sociedad más informada, participativa y transparente.

El ENDA continuará en 2026 con su quinta edición, apostando por seguir impulsando la cultura del dato abierto como motor de desarrollo económico y social en nuestro país. La organización ya ha anunciado que la próxima edición del evento será en Navarra en 2026. Síguenos en redes sociales para estar al día de los eventos que se celebran sobre datos abiertos y tecnologías relacionadas. Nos puedes leer en Twitter (X), LinkedIn e Instagram.

27/05/2025

Pódcast: Datos y conocimiento abierto en las instituciones españolas

Entrevista

El conocimiento abierto es aquel que puede ser reutilizado, compartido y mejorado por otros usuarios e investigadores sin restricciones notables. Esto incluye datos, publicaciones académicas, software y otros recursos disponibles. Para profundizar en esta temática contamos con representantes de dos instituciones cuyo objetivo es impulsar la producción científica y que esta sea dispuesta en abierto para su reutilización:

Mireia Alcalá Ponce de León, técnica de recursos de información del área de aprendizaje, investigación y ciencia abierta del Consorcio de Servicios Universitarios de Cataluña (CSUC).
Juan Corrales Corrillero, gestor del repositorio de datos del Consorcio Madroño.

Escuchar el pódcast completo

Resumen / Transcripción de la entrevista

1. ¿Podéis explicar brevemente a qué se dedican las instituciones para las que trabajáis?

Mireia Alcalá: El CSUC es el Consorcio de Servicios Universitarios de Cataluña y es una organización que tiene como objetivo ayudar a universidades y centros de investigación que están en Cataluña a mejorar su eficiencia a través de proyectos colaborativos. Estamos hablando de unas 12 universidades y casi unos 50 centros de investigación.
Ofrecemos servicios en muchas áreas: cálculo científico, administración electrónica, repositorios, administración en la nube, etc. y también ofrecemos servicios bibliotecarios y de ciencia abierta, que es lo que nos toca más de cerca. En el área de aprendizaje, investigación y ciencia abierta, que es donde estoy trabajando, lo que hacemos es intentar facilitar la adopción de nuevas metodologías por parte del sistema universitario y de investigación, sobre todo, en la ciencia abierta, y damos apoyo a la gestión de datos de investigación.

Juan Corrales: El Consorcio Madroño es un consorcio de bibliotecas universitarias de la Comunidad de Madrid y de la de la UNED (Universidad Nacional de Educación a Distancia) para la cooperación bibliotecaria. Buscamos incrementar la producción científica de las universidades que forman parte del consorcio y también incrementar la colaboración entre las bibliotecas en otros ámbitos. Estamos también, al igual que el CSUC, muy involucrados con la ciencia abierta: en promocionar la ciencia abierta, en proporcionar infraestructuras que la faciliten, no solamente para los miembros del Consorcio Madroño, sino también de forma global. Aparte, también damos otros servicios bibliotecarios y creamos estructuras para ellos.

2. ¿Qué requisitos debe de cumplir una investigación para qué se considere abierta?

Juan Corrales: Para que una investigación se considere abierta hay muchas definiciones, pero quizás una de las más importantes es la que da la Estrategia Nacional de Ciencia Abierta que tiene seis pilares.

Uno de ellos es que hay que poner en acceso abierto tanto los datos de investigación como las publicaciones, los protocolos, las metodologías... Es decir, todo tiene que estar accesible y, en principio, sin barreras para todo el mundo, no solamente para los científicos, no solamente para las universidades que pueden pagar el acceso a estos datos de investigación o a estas publicaciones.

También es importante utilizar plataformas de código abierto que podamos personalizar. El código abierto es software que cualquiera, en principio con conocimientos, puede modificar, personalizar y redistribuir, como contrapunto al software privado de muchas empresas, que no permite hacer todas estas gestiones.
Otro punto importante, aunque este estemos todavía lejos de llegar en la mayoría de las instituciones, es permitir la revisión por pares abiertas, porque permite saber quién ha hecho una revisión, con qué comentarios, etc. Se puede decir que permite volver a hacer el ciclo de revisión por pares y mejorarlo.

Un último punto es la ciencia ciudadana: permitir a los ciudadanos de a pie formar parte de la ciencia, que no solamente se haga dentro de las universidades o institutos de investigación.
Y otro punto importante es añadir nuevas formas de medir la calidad de la ciencia.

Mireia Alcalá: Estoy de acuerdo con lo que dice Juan. A mí también me gustaría añadir que, para que un proceso de investigación se considere abierto, lo tenemos que mirar globalmente. Es decir, que incluya todo el ciclo de vida de los datos. No podemos hablar de que una ciencia es abierta si solo nos fijamos en que los datos al final estén en abierto. Ya desde el principio de todo el ciclo de vida del dato, es importante que se usen plataformas y se trabaje de una manera más abierta y colaborativa.

3. ¿Por qué es importante que universidades y centros de investigación pongan sus estudios y datos a disposición de la ciudadanía?

Mireia Alcalá: Yo creo que es clave que las universidades y los centros compartan sus estudios, porque gran parte de la investigación, tanto aquí en España como a nivel europeo o mundial, se financia con dinero público. Por lo tanto, si la sociedad es quien está pagando la investigación, lo lógico es que también se beneficie de sus resultados. Además, abrir el proceso de investigación puede ayudar a que sea más transparente, más responsable, etc.

Se ha visto que gran parte de la investigación hecha hasta hoy en día no es reutilizable, ni reproducible. ¿Esto qué quiere decir? Que los estudios que se han hecho, casi en el 80% de los casos otra persona no puede cogerlo y volver a utilizar esos datos. ¿Por qué? Porque no siguen los mismos estándares, las mismas maneras, etc. Por lo tanto, yo creo que tenemos que hacer que sea extensivo a todos los sitios y un ejemplo claro está en época de pandemia. Con la COVID-19, investigadores de todo el mundo trabajaron juntos, compartiendo datos y hallazgos en tiempo real, trabajando de la misma manera, y se vio que la ciencia fue mucho más rápida y eficiente.

Juan Corrales: Los puntos claves ya los ha tocado todos Mireia. Aparte, se podría añadir que acercar la ciencia a la sociedad puede hacer que todos los ciudadanos sintamos que la ciencia es algo nuestro, no solamente de científicos o universitarios. Es algo en lo que podemos participar y esto puede ayudar también a frenar quizás los bulos, las fake news, a tener una visión más exhaustiva de las noticias que nos llegan a través de redes sociales y a poder filtrar qué puede ser real y qué puede ser falso.

4. ¿Qué investigaciones deben publicarse en abierto?

Juan Corrales: Ahora mismo, según la ley que tenemos en España, la última Ley de ciencia, deben publicarse en abierto todas las publicaciones que están financiadas principalmente por fondos públicos o en las que participan instituciones públicas. Esto realmente no ha tenido mucha repercusión hasta el año pasado, porque, aunque la ley salió hace dos años, en la anterior también se decía, también hay una ley de la Comunidad de Madrid que dice lo mismo… pero desde el año pasado se está teniendo en cuenta en la evaluación que hace la ANECA (la Agencia de Evaluación de la Calidad) a los investigadores. Desde entonces casi todos los investigadores han tenido como algo prioritario publicar sus datos e investigaciones en abierto. Sobre todo, con los datos era algo que no se estaba haciendo prácticamente hasta ahora.

Mireia Alcalá: A nivel estatal es como dice Juan. Nosotros a nivel autonómico también tenemos una ley del 2022, la Ley de la ciencia, que básicamente dice exactamente lo mismo que la ley española. Pero a mí también me gusta que la gente conozca que no solo tenemos que tener en cuenta la legislación estatal, sino las convocatorias de donde se consigue el dinero para financiar los proyectos. Básicamente en Europa, en los programas marco como el Horizon Europe, se dice claramente que, si tú recibes una financiación de la Comisión Europea, tendrás que hacer un plan de gestión de datos al inicio de tu investigación y publicar los datos siguiendo los principios FAIR.

5.Entre otras cuestiones, tanto el CSUC como el Consorcio Madroño se encargan de dar soporte a entidades e investigadores que quieren poner sus datos a disposición de la ciudadanía, ¿cómo debe ser un proceso de apertura de datos de datos de investigación? ¿Qué retos son los más habituales y cómo los solucionan?

Mireia Alcalá: En nuestro repositorio que se llama RDR (de Repositori de Dades de Recerca), son básicamente las instituciones participantes las que se encargan de dar apoyo al personal investigador. El investigador llega al repositorio cuando ya está en la fase final de la investigación y necesita publicar para ayer los datos y entonces todo es mucho más complejo y lento. Se tarda más en verificar estos datos y hacer que sean encontrables, accesibles, interoperables y reutilizables.
En nuestro caso particular, tenemos una checklist que pedimos que todo dataset cumpla para garantizar este mínimo de calidad en los datos, para que se puedan reutilizar. Estamos hablando de que tenga identificadores persistentes como ORCID para el investigador o ROR para identificar las instituciones, que tenga documentación que explique cómo reutilizar esos datos, que tenga una licencia, etc. Como tenemos este checklist, los investigadores, a medida que van depositando, van mejorando sus procesos y empiezan a trabajar y a mejorar la calidad de los datos desde el principio. Es un proceso lento.

El principal reto, yo creo que es que el investigador asuma que eso que él tiene son datos, porque la mayoría lo desconoce. La mayoría de los investigadores creen que los datos son unos números que ha sacado una máquina que mide la calidad del aire, y desconoce que un dato puede ser una fotografía, una lámina de una excavación arqueológica, un sonido captado en una determinada atmósfera, etc. Por lo tanto, el principal reto es que todo el mundo entienda qué es un dato y que su dato puede ser valioso para otros.
¿Y cómo lo solucionamos? Intentando hacer mucha formación, mucha sensibilización. En los últimos años, desde el Consorcio, hemos trabajado para formar al personal de curación de datos, el que se dedica a ayudar a los investigadores directamente a fairificar estos datos. También estamos empezando a hacer sensibilización directamente con los investigadores para que usen las herramientas y entiendan un poco todo este nuevo paradigma que es la gestión de datos.

Juan Corrales: En el Consorcio Madroño, hasta noviembre, la única forma de abrir datos era que los investigadores pasaran un formulario con los datos y sus metadatos a los bibliotecarios, y eran los bibliotecarios los que los subían para asegurar que eran FAIR. Desde noviembre, también permitimos a los investigadores que suban los datos directamente al repositorio, pero no se publican hasta que han sido revisados por bibliotecarios expertos, que verifican que los datos y metadatos tienen calidad. Es muy importante que los datos estén bien descritos para que puedan ser fácilmente encontrables, reutilizables e identificables.

En cuanto a los retos, están todos los que ha dicho Mireia - que los investigadores muchas veces no saben que tienen datos- y también, aunque la ANECA ha ayudado mucho con las nuevas obligaciones a que se publiquen datos de investigación, muchos investigadores quieren poner sus datos corriendo en los repositorios, sin tener en cuenta que tienen que ser datos de calidad, que no basta con ponerlos, sino que es importante que esos datos después se puedan reutilizar.

6. ¿Qué actividades y herramientas proporcionáis desde vuestras instituciones u otras similares para ayudar a las organizaciones a alcanzar el éxito en esta tarea?

Juan Corrales: Desde Consorcio Madroño, el propio repositorio que utilizamos, la herramienta donde se suben los datos de investigación, facilita que los datos sean FAIR, porque ya proporciona identificadores únicos, plantillas para los metadatos bastante completas que se pueden personalizar, etc. También tenemos otra herramienta que ayuda a crear los planes de gestión de datos para que los investigadores, para que antes de crear sus datos de investigación, empiecen a planificar cómo van a trabajar con ellos. Eso es algo muy importante y que desde las instituciones europeas se está impulsando desde hace ya mucho, y también desde la Ley de la ciencia y la Estrategia Nacional de Ciencia Abierta.
Después, más que las herramientas, es muy importante también la revisión por parte de bibliotecarios expertos.

Hay otras herramientas que ayudan a evaluar la calidad de un dataset, de los datos de investigación, como son Fair EVA o de F-Uji, pero lo que hemos comprobado es que esas herramientas al final lo que están evaluando más es la calidad del repositorio, del software que se está utilizando, y de los requisitos que estás pidiendo a los investigadores para subir estos metadatos, porque todos nuestros datasets tienen una evaluación bastante alta y bastante similar. Entonces, para lo que sí nos sirven esas herramientas es para mejorar tanto los requisitos que estamos poniendo a nuestros datasets, a nuestros conjuntos de datos, como para poder mejorar las herramientas que tenemos, en este caso el software de Dataverse, que es el que estamos utilizando.

Mireia Alcalá: A nivel de herramientas y actividades vamos a la par, porque con el Consorcio Madroño tenemos relación desde hace años, e igual que ellos tenemos todas estas herramientas que ayudan y facilitan el poner los datos de la mejor manera posible ya desde el principio, por ejemplo, con la herramienta para hacer planes de gestión de datos.

Aquí en el CSUC se ha trabajado también en los últimos años de una manera muy intensa en poder cerrar este gap en el ciclo de vida de los datos, abarcando temas de infraestructuras, almacenaje, cloud, etc. para que, en el momento que se analicen y se gestionen los datos, los investigadores tengan también un sitio donde poder ir. Después del repositorio, ya pasamos a todos los canales y portales que permiten difundir y visibilizar toda esta ciencia, porque no tiene sentido que hagamos repositorios y estén allí a modo de silo, sino que tienen que estar interconectados. Desde hace ya muchos años se ha trabajado muy bien en hacer protocolos de interoperabilidad y en seguir los mismos estándares. Por lo tanto, los datos tienen que estar disponibles en otros sitios, y tanto el Consorcio Madroño como nosotros estamos en todos los sitios posibles y más.

7. ¿Nos podéis contar un poco más sobre estos repositorios que ofrecéis? Además de ayudar a los investigadores a poner sus datos a disposición de la ciudadanía, también ofrecéis un espacio, unos repositorios digitales donde albergar estos datos, para que puedan ser localizados por los usuarios.

Mireia Alcalá: Si hablamos específicamente de datos de investigación, como tenemos un mismo repositorio tanto el Consorcio Madroño como nosotros, vamos a dejar que Juan nos explique el software y las especificaciones, y yo me voy a centrar en otros repositorios de producción científica que también ofrece el CSUC. Aquí lo que hacemos es coordinar diferentes repositorios cooperativos según la tipología del recurso que contiene. Por lo tanto, tenemos TDX para tesis, RECERCAT para documentos de investigación, RACO para revista científicas o MACO, para monografías en acceso abierto. En función de tipo de producto, disponemos de un repositorio concreto, porque no todo puede estar en un mismo sitio ya que cada output de la investigación tiene unas particularidades diferentes. Aparte de los repositorios, que son cooperativos, también tenemos otros espacios que hacemos para instituciones concretas, ya sea con una solución más estándar o algunas funcionalidades más personalizadas. Pero básicamente es esto: tenemos para cada tipo de output que hay en la investigación, un repositorio específico que se adapta a cada una de las particularidades de estos formatos.

Juan Corrales: En el caso de Consorcio Madroño, nuestro repositorio se llama e-cienciaDatos, pero está basado en el mismo software que el repositorio del CSUC, que es el Dataverse. Es un software de código abierto, con lo cual puede ser mejorado y personalizado. Aunque en principio el desarrollo está gestionado desde la Universidad de Harvard, en Estados Unidos, estamos participando en su desarrollo instituciones de todo el mundo -no sé si treinta y tantos países hemos participado ya en su desarrollo-.
Entre otras cosas, por ejemplo, las traducciones al catalán la han hecho desde el CSUC, la traducción al español la hemos hecho desde el Consorcio Madroño y también hemos participado en otros pequeños desarrollos. La ventaja que tiene este software es que facilita mucho que los datos sean FAIR y compatible con otros puntos que tienen mucha más visibilidad, porque, por ejemplo, el CSUC es mucho más grande, pero en el Consorcio Madroño estamos seis universidades, y es raro que alguien vaya a buscar un dataset en el Consorcio Madroño, en e-cienciaDatos, directamente. Lo normal es que lo busquen desde Google o un portal europeo o internacional. Con estas facilidades que tiene Dataverse, lo pueden buscar desde cualquier sitio y pueden terminar encontrando los datos que tenemos en el Consorcio Madroño o en el CSUC.

8. ¿Qué otras plataformas con datos en abierto de investigaciones, a nivel español o europeo, recomiendan?

Juan Corrales: Por ejemplo, a nivel español está la FECYT, la Fundación Española de Ciencia y Tecnología, que tiene un recolector que recoge los datos de investigación de todas las instituciones españolas prácticamente. Ahí aparecen todas las publicaciones de todas las instituciones: de Consorcio Madroño, de CSUC y muchísimas más.
Luego, en concreto para datos de investigación, hay muchas investigaciones que conviene ponerlas en un repositorio temático, porque es donde van a buscar los investigadores de esa rama de la ciencia. Tenemos alguna herramienta que ayuda a elegir el repositorio temático. A nivel europeo está Zenodo, que tiene mucha visibilidad, pero no tiene el apoyo de calidad de los datos del CSUC o el Consorcio Madroño. Y eso es algo que se nota muchísimo a nivel de reutilización después.

Mireia Alcalá: A nivel nacional, fuera de las iniciativas de Consorcio Madroño y la nuestra, los repositorios de datos aún no están muy extendidos. Conocemos algunas iniciativas en desarrollo, pero todavía es pronto para ver sus resultados. Sin embargo, sí que conozco algunas universidades que han adaptado sus repositorios institucionales para poder también añadir datos. Y aunque esto es una solución válida para aquellas que no tengan más opción, se ha visto que los softwares utilizados en repositorios que no están diseñados para gestionar las particularidades de los datos - que puede ser la heterogeneidad, el formato, la diversidad, el gran tamaño, etc.-. quedan un poco cojos. Después, como decía Juan, a nivel europeo, sí que está establecido que Zenodo es el repositorio multidisciplinario y multiformato, que nace a raíz de un proyecto europeo de la Comisión. Coincido con él que, como es un repositorio de autoarchivo y autopublicación - es decir, yo Mireia Alcalá puedo ir en cinco minutos, poner cualquier documento que tengo allí, nadie se lo ha mirado, pongo los mínimos metadatos que me piden y lo publico-, está claro que la calidad es muy variable. Hay cosas que realmente son utilizables y están perfectas, pero hay otras que necesitan un poco más de cariño.

Como decía Juan, también a nivel disciplinar es importante destacar que, en todas esas áreas que tengan un repositorio disciplinar, los investigadores tienen que ir allí, porque es donde van a poder usar sus metadatos más adecuados, donde todo el mundo trabajará de la misma manera, donde todo el mundo sabrá dónde buscar esos datos… Para quien tenga interés existe un directorio que se llama re3data, que es básicamente un directorio de todos estos repositorios multidisciplinares y disciplinares. Por lo tanto, es un buen sitio para quien tenga interés y no conozca qué hay en su disciplina. Que vaya allí, que es un buen recurso.

9. ¿Qué acciones consideráis como prioritarias a realizar desde las instituciones públicas de cara a promover el conocimiento abierto?

Mireia Alcalá: Yo básicamente lo que diría es que las instituciones públicas deben centrarse en hacer y establecer políticas claras sobre ciencia abierta, porque es verdad que hemos avanzado mucho en los últimos años, pero hay veces que los investigadores están un poco desconcertados. Y aparte de las políticas, sobre todo es ofrecer incentivos a toda la comunidad investigadora, porque hay mucha gente que está haciendo el esfuerzo de cambiar su manera de trabajar para impregnarse de la ciencia abierta y a veces no ve cómo revierte todo ese esfuerzo de más que está haciendo en cambiar su manera de trabajar para hacerlo de esta manera. O sea que yo diría esto: políticas e incentivos.

Juan Corrales: Desde mi punto de vista, las políticas teóricas que tenemos ya a nivel nacional, a nivel autonómico, suelen ser bastante correctas, bastante buenas. El problema es que muchas veces no se ha intentado hacerlas cumplir. Hasta ahora, por lo que hemos visto por ejemplo con la ANECA -que ha promocionado el uso de los repositorios de datos o de artículos de investigación-, no se han empezado a utilizar de forma masiva realmente. O sea, que los incentivos son necesarios, que no sea solamente por obligación. Hay que convencer, como ha dicho también Mireia, a los investigadores, que vean como algo suyo el publicar en abierto, que es algo que les beneficia tanto a ellos como a toda la sociedad. Lo que creo que eso más importante es eso: la concienciación a los investigadores.

Clips de la entrevista

1. ¿Por qué deben universidad e investigadores compartir sus estudios en formatos abiertos?

2. ¿Qué requisitos debe cumplir una investigación para que se considere abierta?

23/04/2025

Abiertas las inscripciones para los EU Open Data Days 2025

Evento

Los EU Open Data Days 2025 son un evento esencial para todos los interesados en el mundo de los datos abiertos y la innovación en Europa y el mundo. Este encuentro, que se celebrará los días 19 y 20 de marzo de 2025, reunirá a expertos, profesionales, desarrolladores, investigadores y responsables de políticas públicas para compartir conocimientos, explorar nuevas oportunidades y abordar los retos a los que se enfrenta la comunidad de datos abiertos.

El evento, organizado por la Comisión Europea a través de data.europa.eu, tiene como objetivo principal promover la reutilización de datos abiertos. Los participantes tendrán la oportunidad de aprender sobre las últimas tendencias en el uso de los datos abiertos, descubrir nuevas herramientas y debatir sobre las políticas y normativas que están modelando el panorama digital en Europa.

¿Dónde y cuándo se celebra?

El evento se celebrará en el Centro Europeo de Convenciones de Luxemburgo, aunque también se podrá seguir online, con el siguiente horario:

Miércoles 19 de marzo de 2025, de 13:30 a 18:30.
Jueves 20 de marzo de 2025, de 9:00 a 15:30.

¿Qué temáticas se abordarán?

Ya está disponible la agenda del evento, donde encontramos distintas temáticas, como, por ejemplo:

Historias de éxito y buenas prácticas: el evento contará con la presencia de profesionales que desarrollan su trabajo en la primera línea de la política de datos europea, para que cuenten su experiencia. Entre otras cuestiones, estos expertos proporcionarán una guía práctica para inventariar y abrir los datos del sector público de un país, abordarán el trabajo que implica la compilación de conjuntos de datos de alto valor o analizarán las perspectivas sobre la reutilización de datos en los modelos de negocio. También se explicarán buenas prácticas para contar con metadatos de calidad o mejorar la gobernanza de datos y su interoperabilidad.
Foco en el uso de inteligencia artificial (IA): los datos abiertos ofrecen una fuente invaluable para el desarrollo y avance de la IA. Además, la IA puede optimizar la localización, gestión y uso de estos datos, ofreciendo herramientas que ayuden a agilizar procesos y extraer un mayor conocimiento. En este sentido, en el evento se abordará el potencial de la IA para transformar los ecosistemas de datos gubernamentales abiertos, fomentando la innovación, mejorando la gobernanza y potenciando la participación ciudadana. Los responsables del portal nacional de datos de Noruega contará cómo emplean un motor de búsqueda basado en IA para mejorar la localización de datos. Además, se explicarán los avances en espacios de datos lingüísticos y su uso en modelos de lenguaje, y se analizará cómo combinar de forma creativa los datos abiertos para lograr un impacto social.
Aprendizaje sobre visualización de datos: los asistentes al evento podrán explorar cómo la visualización de datos está transformando la comunicación, la elaboración de políticas y la participación ciudadana. A través de diversos casos (como el árbol genealógico de 3.000 personas de la realeza europea o las relaciones del Patrimonio Cultural Inmaterial de la UNESCO) se mostrará cómo los procesos iterativos de diseño pueden descubrir patrones ocultos en redes complejas, aportando ideas sobre la narración y la comunicación de datos. También se abordará cómo influyen los elementos de diseño, como el color, la escala y el enfoque, en la percepción de los datos.
Ejemplos y casos de uso: se mostrarán múltiples ejemplos de proyectos concretos basados en la reutilización de datos, en campos como la energía, el desarrollo urbano o el medio ambiente. Entre las experiencias que se compartirán, encontramos una empresa española, Tangible Data, que contará cómo las esculturas físicas de datos convierten conjuntos de datos complejos en experiencias accesibles y atractivas.

Estos son solo algunos de los temas a tratar, pero también se hablará de ciencia abierta, el papel de los datos abiertos en la transparencia y la rendición de cuentas, etc.

¿Por qué son tan importantes los EU Open Data Days?

El acceso a datos abiertos ha demostrado ser una herramienta poderosa para mejorar la toma de decisiones, impulsar la innovación y la investigación, y mejorar la eficiencia de las organizaciones. En un momento en el que la digitalización está avanzando rápidamente, la importancia de compartir y reutilizar datos se hace cada vez más crucial para enfrentar desafíos globales como el cambio climático, la salud pública o la justicia social.

Los EU Open Data Days 2025 son una oportunidad para explorar cómo los datos abiertos pueden aprovecharse para construir una Europa más conectada, innovadora y participativa.

Además, para aquellos que decidan asistir de forma presencial, el evento será también una oportunidad para establecer contactos con otros profesionales y organizaciones del sector, creando nuevas colaboraciones que pueden dar lugar a proyectos innovadores.

¿Cómo puedo asistir?

Para asistir presencialmente, es necesario inscribirse a través de este enlace. Sin embargo, no es necesario el registro para atender el evento de manera online.

Para cualquier consulta, se ha habilitado una dirección de correo donde se atenderán todas las dudas relativas al evento: EU-Open-Data-Days@ec.europa.eu.

Más información en la página web del evento.

16/01/2025

IMPaCT-Data, integración de datos médicos para impulsar la medicina de precisión

Blog

IMPaCT, la Infraestructura de Medicina de Precisión asociada a la Ciencia y la Tecnología, es un programa innovador que busca revolucionar la atención médica. Coordinado y financiado por el Instituto de Salud de Carlos III su objetivo es impulsar el despliegue efectivo de la medicina personalizada de precisión.

La medicina personalizada es un enfoque médico que reconoce que cada paciente es único. A través del análisis de las características genéticas, fisiológicas y de estilo de vida de cada persona, se realizan tratamientos a medida más eficientes y seguros, con menos efectos secundarios. El acceso a esta información, además, es clave para avanzar en prevención y detección temprana, así como en investigación y avances médicos.

IMPaCT consta de 3 ejes estratégicos:

Eje 1 Medicina predictiva: Programa COHORTE. Es un proyecto de investigación epidemiológica que consiste en el desarrollado y puesta en marcha de una estructura para el reclutamiento de 200.000 personas para que participen en un estudio prospectivo.
Eje 2 Ciencia de datos: Programa DATA. Es un programa enfocado en el desarrollo de un sistema común, interoperable e integrado, de recogida y análisis de datos clínicos y moleculares. A través de él se elaboran criterios, técnicas y buenas prácticas para la recolección de información de historias clínicas electrónicas, imágenes médicas y datos genómicos.
Eje 3 Medicina genómica: Programa GENÓMICA. Es una infraestructura cooperativa para el diagnóstico de enfermedades raras y genéticas. Entre otras cuestiones, elabora procedimientos normalizados para el correcto desarrollo de los análisis genómicos y la gestión de los datos obtenidos, así como para la estandarización y homogeneización de la información y los criterios empleados.

Además de estos ejes, existen dos líneas estratégicas transversales: una centrada en la ética e integridad científica y otra en la internacionalización, como se resume en el siguiente visual.

Fuente: IMPaCT-Data

A continuación, nos vamos a centrar en el funcionamiento y resultados de IMPaCT-Data, el proyecto ligado al eje 2.

IMPaCT-Data, un entorno integrado para el análisis de datos interoperables

IMPaCT-Data se orienta al desarrollo y validación de un entorno de integración y análisis conjunto de datos clínicos, moleculares y genéticos, para su uso secundario, con el objetivo final de facilitar la implementación eficaz y coordinada de la medicina personalizada de precisión en el Sistema Nacional de Salud. Actualmente está formado por un consorcio de 45 entidades asociadas por un convenio con vigencia hasta el 31 de diciembre de 2025.

A través de este programa, se busca la creación de una infraestructura en la nube de datos médicos para investigación, así como de los protocolos necesarios para coordinar, integrar, gestionar y analizar dichos datos. Para ello se sigue una hoja de ruta con los siguientes objetivos técnicos:

Fuente: IMPaCT-Data.

Resultados de IMPaCT-Data

Como vemos, esta infraestructura, aún en desarrollo, ofrecerá un entorno de investigación virtual para el análisis de los datos a través de diversos servicios y productos:

Nube federada IMPaCT-Data. Incluye el acceso a datos públicos y de acceso controlado, así como herramientas y flujos de trabajo para el análisis de datos genómicos, historias clínicas e imágenes. En este vídeo se muestra cómo se realiza el acceso de usuarios federado y la ejecución de trabajos mediante el uso de recursos computacionales compartidos. Esto permite visualizar y acceder a los resultados en formato HTML y en crudo, así como a sus metadatos. Aquellos que quieran profundizar en las opciones de acceso de usuario, pueden ver este otro vídeo, donde se muestra la vinculación de las cuentas institucionales a la cuenta IMPaCT-Data y el uso de pasaportes y visados para el acceso local a datos protegidos.
Recopilación de herramientas software para el análisis de los datos de IMPaCT-Data. Estas herramientas son de acceso público a través del dominio IMPaCT-Data en bio.tools, un registro de componentes software y bases de datos dirigido a investigadores en el campo de las ciencias biológicas y biomédicas. Incluye herramientas muy diversas. Por un lado, encontramos soluciones generales, por ejemplo, enfocadas en la privacidad a través de acciones relacionadas con la desidentificación y anonimización de datos (FAIR4Health Data Privacy Tool). Por otro, hay herramientas concretas, centradas en cuestiones muy específicas, como el metaanálisis de la expresión génica (ImaGEO).
Guías con recomendaciones y buenas prácticas para la recolección de información médica. Actualmente hay tres guías disponibles: “Recomendaciones de IMPaCT-Data sobre datos y software”, “Consideraciones adicionales de IMPaCT-Data a la convocatoria para proyectos IMPaCT 2022” y “Recomendaciones de IMPaCT-Data sobre datos y software”.

A ellos hay que sumar diversos entregables relacionados con aspectos técnicos del proyecto, como comparaciones de técnicas o pruebas de concepto, así como publicaciones científicas.

Impulsando casos de uso a través de demostradores

Uno de los objetivos de IMPaCT-Data es contribuir a la evaluación de tecnologías asociadas a los desarrollos del proyecto, a través de un ecosistema de demostradores. Con ello se busca favorecer las aportaciones de empresas, entidades y grupos académicos para impulsar mejoras y conseguir la implementación del proyecto a gran escala.

Para cumplir este objetivo, se organizan distintas actividades donde se evalúan componentes concretos en colaboración con miembros de IMPaCT-Data. Un ejemplo es el servidor de terminologías ORBITS para la codificación de fenotipos clínicos en códigos HPO (Human Phenotype Ontology), dirigido a extraer y codificar de manera automática información contenida en reportes clínicos no estructurados usando procesamiento del lenguaje natural. Para ello utiliza la terminología HPO, cuyo objetivo es estandarizar la recopilación de datos fenotípicos, haciéndolos accesibles para el posterior análisis.

Otro ejemplo de demostradores hace referencia a la compartición de datos médicos virtualizados entre diferentes centros para proyectos de investigación, dentro de un entorno gobernado, eficiente y seguro, donde se cumplen todos los estándares de calidad de datos definidos por cada entidad.

Un proyecto estratégico alineado con Europa

IMPaCT-Data se enmarca directamente en la Estrategia nacional para el uso secundario de los datos del sistema de salud nacional, descrita en el PERTE de salud (Proyectos estratégicos para la recuperación y transformación económica), siendo sus conocimientos, experiencia y aportaciones muy valiosa de cara al desarrollo del Espacio Nacional de datos de Salud.

Además, los desarrollos de IMPaCT-Data está directamente alineados con las líneas maestras propuestas por GAIA-X, tanto a nivel general como en el entorno específico de salud.

El impacto del proyecto en Europa queda patente, también, en su participación en el proyecto Europeo GDI (Genomic Data Infrastructure), que busca facilitar el acceso a datos genómicos, fenotípicos y clínicos en toda Europa, donde se está usando IMPaCT-Data como instrumento a nivel nacional.

Todo ello pone de manifiesto que gracias a IMPaCT-Data se podrán impulsar proyectos de investigación en biomedicina no solo en España, sino también en Europa, contribuyendo de este modo a la mejorar la salud pública y el tratamiento individualizado de los pacientes.

20/08/2024

Grupos de investigación de salud y datos: ejemplos que están a la vanguardia

Blog

En el sector médico, el acceso a la información puede transformar vidas. Este es uno de los principales motivos por los que las comunidades de compartición y apertura de datos o la ciencia abierta ligada a la investigación médica se han convertido en un recurso muy valioso. Los grupos de investigación médica que abogan por el uso y reutilización de datos dirigen esta transformación, impulsando la innovación, mejorando la colaboración y acelerando el avance de la ciencia.

Como vimos en el caso de la Fundación FISABIO los datos abiertos en el sector salud fomentan la colaboración entre investigadores, aceleran el proceso de validación de resultados en estudios y, en definitiva, ayudan a salvar vidas. Esta tendencia no solo facilita descubrimientos más rápidos, sino que también ayuda a crear soluciones más eficaces. En España, el Consejo Superior de Investigación Científicas (CSIC) apuesta por la apertura de datos y algunos reconocidos hospitales también comparten los resultados de sus investigaciones protegiendo los datos sensibles de sus pacientes.

En este post, exploraremos cómo los grupos de investigación y comunidades de salud están compartiendo y reutilizando datos para impulsar investigaciones pioneras y expondremos casos de uso más inspiradores. Desde el desarrollo de nuevos tratamientos hasta la identificación de tendencias en salud pública, los datos están redefiniendo el panorama de la investigación médica y abriendo nuevas oportunidades para mejorar la salud global.

Grupos de investigación médica que apuestan el trabajo con datos compartidos

En España, existen diversos grupos de investigación y comunidades que comparten sus descubrimientos de manera más libre a través de plataformas y bases de datos que facilitan la colaboración global y la reutilización de datos en el campo de la salud. A continuación, destacamos algunos de los casos más influyentes, demostrando cómo el acceso a la información puede acelerar el progreso científico y mejorar los resultados en salud.

H2O – Health Outcomes Observatory: repositorio de datos clínicos

H2O es una asociación estratégica entre el sector público y privado para crear un sólido modelo de infraestructura y gobernanza de datos que permita recopilar e incorporar los resultados de los pacientes a escala en la toma de decisiones sanitarias a nivel individual y poblacional. El enfoque de H2O otorga a los pacientes el control definitivo de sus y garantiza que solo ellos ejerzan ese control. En este consorcio participan hospitales de todo el mundo, entre los que se encuentran los españoles Hospital Universitario Fundación Jiménez Díaz o el Hospital Vall d’Hebron. La Unidad de investigación de España recoge los resultados de salud que reportan los pacientes y otros datos clínicos para construir un observatorio que mejore la atención al paciente.

Instituto de Salud Carlos III: IMPaCT: proyectos de investigación de ciencia abierta

En el marco de la infraestructura IMPaCT se desarrollan diferentes proyectos aprobados en las ayudas para Proyectos de Investigación de Medicina Personalizada de Precisión de la Acción en Salud:

Programa COHORTE – Medicina predictiva
Programa DATA: Ciencia de datos
Programa GENÓMICA - Medicina genómica

La información, datos, metadatos y productos científicos generados en IMPaCT son de acceso abierto, para hacer la ciencia más accesible, eficiente, democrática y transparente. En este proyecto, participan hospitales e institutos de investigación de toda España.

Datos POP Salud: proyecto de investigación médica del Instituto de Salud Carlos III (ISCIII) y la Plataforma de Organizaciones de Pacientes (POP)

Es un proyecto de datos desarrollado colaborativamente entre ISCIII y POP para mejorar el conocimiento y evidencia sobre la realidad clínica, laboral y social de los pacientes crónicos, sin duda algo crucial para nosotros. En esta iniciativa participan 36 organizaciones nacionales de pacientes, 16 sociedades científicas y 3 administraciones públicas, entre los que destacan el Ministerio de Derechos Sociales y Agenda 2030, el Instituto de Salud Carlos III y la Agencia Española de Medicamentos y Productos Sanitarios.

Iniciativa Europea de Imagen de Cáncer: proyecto europeo para obtener imágenes oncológicas y apoyar en la investigación contra el cáncer.

Uno de los objetivos del Plan Europeo de Lucha contra el Cáncer es aprovechar al máximo el potencial de los datos y las tecnologías digitales como la inteligencia artificial (IA) o la informática de alto rendimiento (HPC). La piedra angular de la iniciativa será una infraestructura europea federada para datos de imágenes de cáncer, desarrollada por la Federación Europea de IMages CAncer (EUCAIM). El proyecto comienza con 21 centros clínicos de 12 países entre los que se encuentran 4 centros españoles situados en Valencia, Barcelona, Sevilla y Madrid.

4CE: Consorcio de investigación

Es un consorcio internacional para el estudio de la pandemia de COVID-19 a partir de los datos de la historia clínica electrónica (HCE). El objetivo del proyecto -dirigido por el grupo internacional de usuarios académicos i2b2 -es informar a médicos, epidemiólogos y al público en general sobre los pacientes de COVID-19 con datos adquiridos a través del proceso de atención sanitaria. La plataforma ofrece datos agregados que están disponibles en la propia web del proyecto divididos entre datos de adultos y datos pediátricos. En ambos casos, los datos deben de ser utilizados con fines académicos y de investigación; el proyecto no permite el uso de los datos para orientación médica o diagnóstico clínico.

En conclusión, la apuesta por la compartición y reutilización de datos en la investigación médica está demostrando ser un catalizador fundamental para el avance científico y la mejora de la salud pública. A través de iniciativas como H2O, IMPaCT, y la Iniciativa Europea de Imagen de Cáncer, vemos cómo la accesibilidad en la gestión de datos está redefiniendo la forma en que abordamos la investigación y el tratamiento de enfermedades.

La integración de prácticas de análisis de datos promete un futuro donde la innovación en salud se logre de manera más rápida, equitativa y eficiente, ofreciendo así mejores resultados para los pacientes a nivel global.

17/06/2024

¿Qué es EOSC? Acceso federado a recursos científicos

¿Qué es la Federación EOSC?

EOSC EU Node: el primer nodo operativo

Conclusiones

Resumen / Transcripción de la entrevista

1. Los dos sois unos apasionados del uso de los datos en pro de la sociedad, ¿cómo descubristeis el potencial de los datos abiertos para la gestión del medio ambiente?

3. ¿Querrías añadir algún otro proyecto a este nivel local o regional?

4. Un aspecto importante de esta transición es que debe ser “justa y no dejar a nadie atrás”. ¿Qué papel pueden jugar los datos para garantizar esa equidad?

5. Nos lleváis un rato hablando de todos los datos que utilizáis, que al final provienen de diversas fuentes. ¿Nos resumirnos ese tipo de datos que utilizáis en vuestro día a día y cuáles son los retos que os encontráis a la hora de integrarlos en proyectos concretos?

Clips de la entrevista

1. ¿Cómo se planteó el gemelo digital del Parque Natural de las Lagunas de Torrevieja?

2. ¿Qué proyectos se están impulsando en el marco del Espacio de Datos del Pacto Verde europeo?

Dos marcos complementarios para un objetivo común

Principales beneficios ordenador por grupos de usuarios

Pacientes: empoderamiento informado con barreras prácticas

Profesionales de la salud potencial subordinado a la integración

3. Responsables políticos: datos para mejores decisiones

4. Investigadores y reutilizadores: los principales beneficiarios inmediatos

Recomendaciones para maximizar el impacto

Resumen de la entrevista / Transcripción de la entrevista

1. ¿Cómo definiríais la cultura libre?

2. ¿Qué papel tienen los proyectos colaborativos dentro de la cultura libre?

3. Los dos estáis ligados a proyectos colaborativos como son Wikimedia y OpenStreetMap. ¿Cómo impactan estos proyectos en la sociedad?

4. Nos estáis contando que estos proyectos son abiertos. Si un ciudadano nos está escuchando ahora mismo y quiere participar en ellos, ¿qué debe hacer para participar? ¿Cómo puede formar parte de estas comunidades?

5. ¿Qué desafíos os habéis encontrado a la hora de implementar estos proyectos colaborativos y garantizar su sostenibilidad en el tiempo? ¿Cuáles son los principales retos, tanto técnicos como sociales, a los que hacéis frente?

6. Como comentabais, tanto Wikimedia como OpenStreetMap son proyectos construidos por voluntarios. ¿Cómo se garantiza la calidad y precisión de los datos?

7. Estos datos también pueden servir para generar recursos educativos abiertos, junto con otras fuentes de conocimiento. ¿En qué consisten estos recursos y qué papel juegan en la democratización del conocimiento?

8. Para acabar, ¿cómo se puede motivar a los ciudadanos y organizaciones para que participen en la creación y mantenimiento de proyectos colaborativos ligados a la cultura libre y datos abiertos?

Clips de la entrevista

1. ¿En qué consisteOpenStreetMap?

2. ¿Cómo ayuda Wikimedia en la creación de Recursos Educativos Abiertos?

Estado y evolución del mercado del open data

La importancia de los datos abiertos en la IA

La transformación hacia organizaciones basadas en datos

Datos abiertos para una ciencia al servicio de las decisiones públicas

Cultura abierta: eliminando barreras al conocimiento

Priorización en la apertura de datos públicos

El poder del software libre y las comunidades abiertas

Administraciones abiertas al servicio de la ciudadanía

El valor de los encuentros sobre datos abiertos

Resumen / Transcripción de la entrevista

1. ¿Podéis explicar brevemente a qué se dedican las instituciones para las que trabajáis?

2. ¿Qué requisitos debe de cumplir una investigación para qué se considere abierta?

3. ¿Por qué es importante que universidades y centros de investigación pongan sus estudios y datos a disposición de la ciudadanía?

4. ¿Qué investigaciones deben publicarse en abierto?

6. ¿Qué actividades y herramientas proporcionáis desde vuestras instituciones u otras similares para ayudar a las organizaciones a alcanzar el éxito en esta tarea?

8. ¿Qué otras plataformas con datos en abierto de investigaciones, a nivel español o europeo, recomiendan?

9. ¿Qué acciones consideráis como prioritarias a realizar desde las instituciones públicas de cara a promover el conocimiento abierto?

Clips de la entrevista

1. ¿Por qué deben universidad e investigadores compartir sus estudios en formatos abiertos?

2. ¿Qué requisitos debe cumplir una investigación para que se considere abierta?

¿Dónde y cuándo se celebra?

¿Qué temáticas se abordarán?

¿Por qué son tan importantes los EU Open Data Days?

¿Cómo puedo asistir?

IMPaCT-Data, un entorno integrado para el análisis de datos interoperables

Resultados de IMPaCT-Data

Impulsando casos de uso a través de demostradores

Un proyecto estratégico alineado con Europa

Grupos de investigación médica que apuestan el trabajo con datos compartidos

H2O – Health Outcomes Observatory: repositorio de datos clínicos

Instituto de Salud Carlos III: IMPaCT: proyectos de investigación de ciencia abierta

Datos POP Salud: proyecto de investigación médica del Instituto de Salud Carlos III (ISCIII) y la Plataforma de Organizaciones de Pacientes (POP)

Iniciativa Europea de Imagen de Cáncer: proyecto europeo para obtener imágenes oncológicas y apoyar en la investigación contra el cáncer.

4CE: Consorcio de investigación