Entrevista

En este pódcast hablamos de los datos de transporte y movilidad, un tema muy presente en nuestro día a día. Cada vez que consultamos una aplicación para saber cuánto tardará un autobús, estamos aprovechando los datos abiertos ligados al transporte. De la misma forma, cuando una administración realiza una planificación urbanística u optimiza flujos de tráfico, hace uso de datos de movilidad.

Para profundizar en los retos y oportunidades que hay detrás de la apertura de este tipo de datos por parte de las administraciones públicas españolas, contamos con dos invitadas de excepción:

  • Tania Gullón Muñoz-Repiso, directora de la División de Estudios y Tecnología del Transporte del Ministerio de Transportes y Movilidad Sostenible. ¡Bienvenida, Tania!
  • Alicia González Jiménez, subdirectora adjunta en la Subdirección General de Cartografía y Observación del Territorio del Instituto Geográfico Nacional. ¡Bienvenida, Alicia!

Escuchar el pódcast completo

Resumen de la entrevista

  1. Tanto el IGN como el Ministerio generan gran cantidad de datos relacionados con el transporte. De todos ellos, ¿nos podéis indicar qué datos y servicios se ponen a disposición de la ciudadanía como datos abiertos?

Alicia González: Por parte del Instituto Geográfico Nacional diría que todo, todo lo que producimos está a disposición de los usuarios, porque desde finales de 2015 la política de difusión que adoptó la Dirección General del Instituto Geográfico Nacional, a través del Organismo Autónomo Centro Nacional de Información Geográfica (CNIG), que es por donde se distribuyen todos los productos y servicios, es una política de datos abiertos, de forma que todo se distribuye bajo la licencia CCC BY 4.0, que ampara el uso libre y gratuito. Simplemente hay que hacer una atribución, una mención del origen de los datos. Entonces estamos hablando, en general, no solamente de transporte, sino de todo tipo de datos, de más de 100 productos que suponen más de dos millones y medio de ficheros que los usuarios demandan cada vez más. De hecho, en 2024 hemos llegado a tener hasta 20 millones de ficheros descargados, o sea que es muy demandada. Y concretamente en materia de redes de transporte, el conjunto fundamental de datos es la Información Geográfica de Referencia de Redes de Transportes (IGR-RT). Se trata de un conjunto de datos geoespacial multimodal que está compuesto por cinco redes de transporte que están continuas por todo el territorio nacional y además interconectadas. En concreto, contempla:

1. La red viaria que se compone de toda la red de carreteras, independientemente de su titular y que discurre por todo el territorio. Son más de 300 mil kilómetros de carretera que están además conectados a todos los callejeros, a la red viaria urbana de todos los núcleos de población. Es decir, tenemos un grafo viario que vertebra todo el territorio, , además de tener conectados los caminos que luego posteriormente se distribuyen y se difunden en el Mapa Topográfico Nacional.

2. La segunda red de mayor relevancia es la red de transporte por raíl. Contempla todos los datos de transporte ferroviario y además también de metro, tranvía y otros tipos de modos por rail.

3 y 4. En el ámbito marítimo y aéreo, las redes ya se limitan a lo que son las infraestructuras, de forma que contiene todos los puertos de la costa española y todas las infraestructuras de aeródromos, aeropuertos, helipuertos en la parte de aéreo.

5. Y por último, la última red, que es mucho más modesta, son datos de carácter residual: el transporte por cable.

Está todo interconectado mediante relaciones de intermodalidad. Es un conjunto de datos que se genera a partir de fuentes oficiales. No podemos incorporar cualquier dato, tienen que ser siempre datos oficiales y se genera en el marco de cooperación del Sistema Cartográfico Nacional.

Al ser un conjunto de datos que es conforme con la Directiva INSPIRE tanto en su definición como en la forma por la que se difunde a través de servicios web estándar, también ha sido clasificado como un conjunto de datos de alto valor en la categoría de movilidad, conforme al Reglamento de ejecución de los datos de alto valor. Es un conjunto bastante importante y normalizado.

¿Cómo se puede localizar y acceder? Precisamente, al ser estándar, está catalogado en el catálogo de la IDE (Infraestructura de Datos espaciales), gracias a la descripción estándar de sus metadatos. También se puede localizar a través del catálogo oficial de datos y servicios INSPIRE (Servicios de Publicación de Información) o está accesible a través de portales tan relevantes como el portal de datos abiertos.

Una vez que lo tenemos localizado, ¿cómo puede acceder el usuario? ¿Cómo puede ver los datos? Hay varias vías. La más sencilla: consultar su visualizador. Ahí se muestran todos los datos y hay ciertas herramientas de consulta para facilitar su uso. Y después, por supuesto, a través del centro de descargas del CNIG. Ahí publicamos todos los datos de todas las redes y tiene gran demanda. Y luego la última vía es consultar los servicios web estándar que generamos, servicios de visualización y de descargas de distintas tecnologías. O sea que es un conjunto de datos que está a disposición de los usuarios para su reutilización.

Tania Gullón: En el Ministerio también compartimos muchos datos en abierto. A mí me gustaría, para no alargarnos mucho, comentar en especial cuatro grandes conjuntos de datos:

1. El primero sería el OTLE, el Observatorio del Transporte y la Logística en España, que es una iniciativa del Ministerio de Transportes, cuyo objetivo principal es proporcionar una visión global e integral de la situación del transporte y la logística en España. Se organiza en siete bloques: movilidad, socioeconomía, infraestructura, seguridad, sostenibilidad, transporte metropolitano y logística. Estos no son datos georreferenciados, sino que son datos estadísticos. El Observatorio pone a disposición del público datos, gráficos, mapas, indicadores y, no solo eso, sino que también ofrece informes anuales, monográficos, jornadas, etcétera. Y también de los observatorios que tenemos transfronterizos, que se hacen de forma colaborativa con Portugal y con Francia.

2. El segundo conjunto de datos que quiero mencionar es el NAP, el Punto de Acceso Nacional de Transporte Multimodal, que es una plataforma digital oficial gestionada por el Ministerio de Transportes, pero que se elabora de forma colaborativa entre las diferentes administraciones. Su objetivo es centralizar y publicar toda la información digitalizada sobre la oferta de transportes de viajeros en el territorio nacional de todos los modos de transporte. ¿Qué tenemos aquí? Todos los horarios, servicios, rutas, paradas de todos los servicios de transporte, del transporte por carretera, de los autobuses urbanos, interurbanos, rurales, discrecionales a demanda. Hay 116 conjuntos de datos. El de transporte ferroviario, los horarios de todos esos trenes, sus paradas, etcétera. También del transporte marítimo y del transporte aéreo. Y estos datos se van actualizando permanentemente en tiempo real. A día de hoy disponemos solo de los datos estáticos en formato GTFS (General Transit Feed Specification), también reutilizables y en un formato estándar útiles para el desarrollo posterior de aplicaciones de movilidad por los reutilizadores. Y aunque inicialmente este NAP se centró en datos estáticos, como esas rutas, horarios y paradas, se está avanzando hacia la incorporación también de datos dinámicos. De hecho, en diciembre ya tenemos además una obligación por una normativa europea que nos obliga a tener esos datos en tiempo real para, al final, mejorar toda esa planificación de transportes y la experiencia de usuario.

3. El tercer conjunto de datos es Hermes. Es el sistema de información geográfico de la red de transportes de interés general. ¿Cuál es su objetivo? Ofrecer una visión integral, en este caso georreferenciada. Aquí quiero hacer referencia a lo que ha comentado mi compañera Alicia, para que veáis cómo todos vamos colaborando unos con otros. No inventamos nada, sino que todo está proyectado sobre esos ejes de los viales, por ejemplo, de RT, la información geográfica de referencia de la red de transporte. Y lo que se hace es añadir todos esos parámetros técnicos, como un valor añadido para tener un sistema de información completo, integral, multimodal, de carreteras, ferrocarriles, puertos, aeropuertos, terminales ferroviarias y también vías navegables. Es un GIS (Sistema de Información Geográfica), con lo cual permite todo ese análisis, no solo descarga, consulta, con esos servicios web que ponemos al servicio de la ciudadanía en abierto, también en un catálogo de datos abiertos hecho con CKAN, que luego comentaré. Bueno, al final son más de 300 parámetros consultables. ¿De qué estamos hablando? Sobre cada tramo de carretera, se conoce la intensidad media de tráfico, la velocidad media, la capacidad de las infraestructuras, actuaciones planificadas también -no solo la red en servicio, sino también la red planificada, las actuaciones que tiene previstas hacer el Ministerio-, las titularidades de la vía, las longitudes, velocidades, accidentes... bueno, muchísimos parámetros, modos de acceso, proyectos cofinanciados, temas de combustibles alternativos, la red transeuropea de transportes, etcétera. Ese es el tercero de los conjuntos de datos.

4. El cuarto conjunto quizá es el más voluminoso porque son 16 GB al día. Es el proyecto que le llamamos Big Data Movilidad. Este proyecto es una iniciativa pionera que utiliza tecnologías Big Data y de inteligencia artificial para analizar en profundidad los patrones de movilidad en el país se basa principalmente en el análisis de los registros anonimizados de telefonía móvil de la población para obtener información detallada sobre todos los desplazamientos de las personas no individualizados, sino agregados a nivel de distrito censal. Desde 2020 se realiza un estudio diario de movilidad y se dan todos estos datos en abierto. Eso es la movilidad por horas, por origen / destino que nos permite monitorizar y evaluar la demanda de transportes para planificar mejoras en esas infraestructuras y servicios. Además, como se dan los datos en abierto, se puede utilizar para cualquier fin, para fines turísticos, para investigaciones…

  1. ¿Cómo se generan y recopilan estos datos? ¿A qué retos hay que hacer frente en este proceso y cómo los solventáis?

Alicia González: Concretamente, en el ámbito de los productos que se generan tecnológicamente en entornos de sistema de información geográfica y bases de datos geoespaciales, al final se trata de proyectos en los que la base fundamental es la captura de datos y la integración de fuentes de referencia existentes. Cuando vemos que el titular tiene un dato, ese es el que hay que integrar. De una forma resumida, en los trabajos técnicos principales, se podrían identificar:

  • Por un lado, la captura, es decir, cuando queremos almacenar un objeto geográfico hay que digitalizarlo, dibujarlo. ¿Sobre dónde? Sobre una base métrica adecuada como son las ortofotografías aéreas del Plan Nacional de Ortofotografía Aérea (PNOA)que también es otro conjunto de datos que está disponible y abierto. Bueno, nosotros cuando tenemos, por ejemplo, que dibujar o digitalizar una carretera, vamos trazándolo sobre esa imagen aérea que nos proporciona PNOA.
  • Una vez que tenemos capturada esa componente geométrica, hay que dotarle de una atribución y no vale cualquier dato, tienen que ser fuentes oficiales. Entonces, tenemos que localizar quién es el titular de esa infraestructura o quién es el proveedor del dato oficial para detectar cuáles son los atributos, la caracterización que queremos darle a esa información, que en principio era solamente geométrica. Para eso hay que hacer una serie de procesos de validación de la fuente, detectar que no tiene incidencias y unos procesos que llamamos de integración, que son bastante complejos para garantizar que el resultado cumple lo que queremos.
  • Y, por último, una fase fundamental en todos estos proyectos es el aseguramiento de la calidad geométrica y semántica. Es decir, hay que desarrollar y ejecutar una serie de controles de calidad que permitan validar el producto, el resultado final de esa integración y confirmar que cumple con los requisitos indicados en la especificación de producto.

En cuanto a retos, un desafío fundamental es la gobernanza de los datos, es decir, el resultado que se genera se alimenta de ciertas fuentes, pero al final se crea el resultado. Luego hay que definir bien el rol de cada proveedor que después quizá posteriormente sea usuario. Otro desafío en todo este proceso es la localización de proveedores de datos. A veces el responsable de esa infraestructura o del objeto que queramos almacenar en base de datos no publica la información de una forma estandarizada o es difícilmente localizable porque no está en un catálogo. A veces es complicado localizar la fuente oficial que necesitas para completar la información geográfica. Y ya mirando un poco al usuario, yo resaltaría que otro reto es el identificar, el tener la agilidad para identificar de una forma flexible y rápida los casos de uso que van cambiando con los usuarios, que nos van demandando, porque al final se trata de continuar siendo relevantes para la sociedad. Por finalizar, y porque el Instituto Geográfico es un entorno científico técnico y esta parte nos afecta mucho, otro desafío es la transformación digital, es decir, estamos trabajando en proyectos tecnológicos, luego tenemos que tener también bastante capacidad de gestión del cambio y adaptarnos a las nuevas tecnologías.

Tania Gullón: Respecto a cómo se generan y recopilan los datos y los retos que enfrentamos, por ejemplo, el NAP, del Punto de Acceso Nacional de Transporte multimodal, es una generación colaborativa, es decir, aquí los datos provienen de las propias comunidades autónomas, de los consorcios y de las empresas de transporte. El reto es que hay muchas comunidades autónomas que todavía no están digitalizadas, son muchas empresas… La digitalización del sector va lenta -va, pero va lenta-. Al final hay datos incompletos, datos duplicados. No está todavía bien definida la gobernanza. Nos pasa que, imaginaros, la empresa ALSA sube todos sus autobuses, pero tiene autobuses en todas las comunidades autónomas. Y si a la vez la comunidad autónoma sube sus datos, esos datos están duplicados. Es tan sencillo como eso. Es verdad que estamos empezando y todavía no está bien definida esa gobernanza, para que no sobren datos. Antes faltaban y ahora casi sobran.

En Hermes, el sistema de información geográfico, lo que se hace, como he dicho, es proyectarlo sobre la información de las redes de transporte, que es la oficial que ha comentado Alicia, y se integran datos de los diferentes gestores y administradores de infraestructuras, como son Adif, Puertos del Estado, AENA, la Dirección General de Carreteras, ENAIRE, etcétera. ¿Cuál es el principal reto - si tuviera que destacar, porque de esto nos podemos tirar hablando una hora-? Nos ha costado mucho, llevamos siete años con este proyecto y ha costado mucho porque, primero, la gente no se lo creía. No creían que iba a funcionar y no colaboraban. Al final todo esto es llamar a la puerta de Adif, de AENA y cambiar esa conciencia en la que los datos no pueden estar en un cajón, sino que hay que ponerlos todos al servicio del bien común. Y yo creo que eso es lo que nos ha costado un poco más. Además, está el tema de la gobernanza, que ya lo ha comentado Alicia. Vas a pedir un dato y en la propia organización no saben bien quién es el propietario de ese dato, porque quizá el dato de tráfico lo manejan diferentes departamentos. ¿Y quién es el propietario? Todo esto es muy importante.

Hemos de decir que justo Hermes ha sido el gran impulsor de las oficinas del Dato, de la oficina del Dato de Adif. Al final se han ido dando cuenta de que lo que necesitaban era poner orden en su casa, igual que en la casa de todos y en el Ministerio también, que se necesitan oficinas del Dato.

En el proyecto Big Data, ¿cómo se generan los datos? En este caso es completamente diferente. Es un proyecto pionero, más de nuevas tecnologías, en el que los datos se generan a partir de los registros anonimizados de telefonía móvil. Entonces, mediante la reconstrucción de toda esa gran cantidad de datos de Big Data, de los registros que hay en cada antena de España, con inteligencia artificial y con una serie de algoritmos, se reconstruyen y se hacen esas matrices. Luego, esos datos de esa muestra – al final tenemos una muestra de un 30 % de la población, de más de 13 millones de líneas móviles- se extrapola con datos abiertos del INE. Y luego, ¿qué hacemos también? Se calibra con fuentes externas, es decir, con fuentes de referencia cierta, como puede ser el billetaje de AENA, de los vuelos, los datos de Renfe, etc. Vamos calibrando ese modelo para poder generar esas matrices con calidad. Los retos: que es muy experimental. Para que os hagáis una idea, somos el único país que tiene todos estos datos. Entonces hemos ido abriendo brecha y aprendiendo por el camino. La dificultad es, otra vez, los datos. Esos datos para calibrar, nos cuesta Dios y ayuda encontrarlos y que nos los den con una periodicidad determinada y demás, porque esto va en tiempo real y necesitamos permanentemente ese flujo de datos. También la adaptación al usuario, que lo ha dicho Alicia. Nos debemos adaptar a lo que va demandando la sociedad y los reutilizadores de este Big Data. E irnos acompasando también, como ha dicho Alicia, a la tecnología, que no es lo mismo el dato de telefonía que hay ahora que el que había hace dos años. Y el gran reto del control de calidad. Pero bueno, aquí yo creo que le voy a dejar a Alicia, que es la súper experta, que nos explique qué mecanismos existen para garantizar que los datos sean fiables y actualizados y comparables. Y luego yo os doy mi visión, si te parece.

Alicia González: ¿Cómo se puede garantizar la fiabilidad, actualización y comparación? La fiabilidad no sé si se puede garantizar, pero creo que puede haber un par de indicadores que son especialmente relevantes. Uno, es el grado de conformidad de un conjunto de datos a la normativa que le atañe. En el ámbito de la información geográfica, la forma de trabajar es siempre normalizada, es decir, hay una familia de ISO 19100 de Información Geográfica/Geomática o la propia Directiva INSPIRE, que condiciona mucho la forma de trabajar y de publicar los datos. Y también, mirando en la administración pública, creo que el marchamo de oficialidad también debería de ser un garante de fiabilidad. Es decir, nosotros cuando tratamos los datos debemos hacerlo de una forma homogénea y sin sesgos, mientras que quizá, a lo mejor, una empresa privada pueda estar condicionada por ellos. Creo que esos dos parámetros son importantes, que pueden indicar fiabilidad.

En cuanto a grado de actualización y comparación de los datos, creo que esa información el usuario la deduce de los metadatos. Los metadatos al final son la carta de presentación de los conjuntos de datos. Entonces, si un conjunto de datos está correctamente y de forma veraz metadatado y además está hecho conforme a perfiles estándar -igual en el ámbito GEO, pues hablamos del perfil INPIREGeoDCAT-AP- , si distintos conjuntos de datos están definidos en sus metadatos conforme a estos perfiles normalizados, es mucho más fácil ver si son comparables y el usuario puede determinar y decidir si finalmente satisface sus requisitos de actualización y de comparabilidad con otro conjunto de datos. 

Tania Gullón: Totalmente Alicia. Y si me permites complementar, nosotros, por ejemplo, en el Big Data hemos estado siempre muy empeñados en medir la calidad -más justo cuando son nuevas tecnologías que, al principio, la gente no se fiaba de qué resultados salen de todo esto-. Siempre intentando medir esta calidad - que, en este caso, es muy difícil porque son grandes conjuntos de datos-, desde el principio empezamos a diseñar unos procesos que tardan. Tarda siete horas el proceso de control de calidad diario de los datos, pero es verdad que al principio teníamos que detectar si se había caído alguna antena, si había ocurrido alguna cosa… Entonces hacemos un control con parámetros estadísticos y demás de consistencia interna y lo que detectamos aquí son las anomalías. Lo que estamos viendo es que el 90 % de las anomalías que salen son anomalías reales de movilidad. O sea, no ocurren errores en los datos, sino que son anomalías: ha habido una manifestación o ha habido un partido de fútbol. Son temas que distorsionan la movilidad. O ha habido una tormenta o una lluvia o cualquier cosa de estas. Y es importante no solo controlar esa calidad y ver si hay anomalías, sino que también creemos que es muy importante publicar esos criterios de calidad: el cómo estamos midiendo la calidad y sobre todo los resultados. Diariamente no solo damos el dato, sino que damos este metadato, que dice Alicia, de calidad, de cómo era la muestra ese día, de esos valores que se han obtenido de anomalías. Esto se da también en abierto: no solo el dato, sino el metadato. Y luego también publicamos las anomalías y el porqué de esos errores. Cuando se encuentran errores decimos “vale, es que ha habido una anomalía porque en el pueblo - no sé qué imaginaros, es toda España – del Casar era la fiesta de la torta del Casar”. Y ya está, se ha encontrado la anomalía y se publica.

¿Y cómo se mide otro parámetro de calidad: la exactitud temática? En este caso, comparando con fuentes de referencia cierta. Sabemos que la evolución respecto a sí mismo ya está muy controlada con esa consistencia lógica interna, pero también hay que compararlo con lo que ocurre en el mundo real. Lo hablaba antes con Alicia, decíamos “los datos son fiables, pero ¿cuál es la realidad de la movilidad? ¿Quién la conoce?” Al final tenemos algunas pistas, como en los billetajes de cuántos se han subido a los autobuses. Si tenemos ese dato, tenemos una pista, pero de la gente que va andando y de la gente que coge su coche y demás ¿cuál es la realidad? Es muy difícil tener un punto de comparación, pero sí que comparamos con todos los datos de AENA, de Renfe, de las concesiones de autobuses y se pasan todos esos controles para determinar cuánto nos desviamos de esa realidad que podemos conocer.

  1. Todos estos datos sirven de base para desarrollar aplicaciones y soluciones, pero también son fundamentales a la hora de tomar decisiones y acelerar la implementación de los ejes centrales, por ejemplo, de la Estrategia de Movilidad Segura, Sostenible y Conectada o del Proyecto de Ley de Movilidad Sostenible. ¿Cómo se usan estos datos para tomar estas decisiones reales?

Tania Gullón: Si me permites, primero quiero hacer una introducción a esta estrategia y a la Ley en torno al dato para los que no lo conozcan. Uno de los ejes, el eje 5 de la Estrategia de Movilidad Segura Sostenible y Conectada 2030 del Ministerio es el de “Movilidad inteligente”. Y justo está centrado en esto y tiene como objetivo principal impulsar la digitalización, innovación y el uso de tecnologías avanzadas para mejorar esa eficiencia, sostenibilidad y experiencia de usuario en el sistema de transportes de España. Y justo una de las medidas de ese eje es la “facilitación de la Movilidad como Servicio (Mobility as a Service), Datos Abiertos y Nuevas Tecnologías”. O sea que justo aquí es donde se enmarcan todos estos proyectos que estamos comentando. De hecho, una submedida es impulsar la publicación de datos abiertos de movilidad, otra es el realizar análisis de flujos de movilidad y otra de las medidas, la última, es la creación de un espacio de datos integrado de movilidad. Me gustaría destacar -y aquí ya entronco con ese Proyecto de Ley que esperemos que pronto lo veamos aprobado- que la Ley, en el artículo 89 regula el Punto de Acceso Nacional, que también vemos cómo está metido en este instrumento legislativo. Y luego la Ley establece un instrumento digital clave para el Sistema Nacional de Movilidad Sostenible: fijaros la importancia que se la da al dato que en una ley de movilidad se ponga por escrito que este espacio de datos integrado de movilidad es un instrumento digital clave. Este espacio de datos es un ecosistema de compartición de datos confiable, materializado como la infraestructura digital gestionada por el Ministerio de Transportes y en coordinación con la SEDIA (la Secretaría de Estado de Digitalización e Inteligencia Artificial), cuyo objetivo es centralizar y estructurar la información sobre movilidad generada por administraciones públicas, operadores de transporte, gestores de infraestructuras, etc. y garantizar ese acceso abierto a todos estos datos para todas las administraciones bajo condiciones reglamentarias.

Alicia González: Yo en este caso quiero decir que cualquier toma de decisiones objetiva, por supuesto, se tiene que hacer a partir de datos que, como decíamos antes, tienen que ser fiables, actualizados y comparables. En este sentido, indicar que el IGN, el soporte fundamental que ofrece al Ministerio para el despliegue de la Estrategia de Movilidad Segura, Sostenible y Conectada, es la provisión de datos de servicios y análisis complejos de información geoespacial. Muchos de ellos, por supuesto, sobre el conjunto de datos que venimos hablando de redes de transporte.

En este sentido, mencionar como ejemplo los mapas de accesibilidad con los que contribuimos al eje 1 de la estrategia “Movilidad para todos”, en el que, a través de la Mesa de Movilidad Rural, se solicitó al IGN si podíamos generar unos mapas que representaran el coste en tiempo y en distancia que le cuesta a cualquier ciudadano, viviendo en cualquier núcleo de población, acceder a la infraestructura de transporte más cercana, empezando por red viaria. Es decir, cuánto le cuesta a un usuario en esfuerzo, tiempo y distancia, acceder desde su casa a la autopista o autovía más cercana y luego, por extensión, a cualquier carretera de la red básica. Hicimos ese análisis - por lo que decía que esta red vertebra todo el territorio, es continua - y esos resultados finalmente los publicamos vía web. Son datos también abiertos, cualquier usuario los puede consultar y, además, también los ofrecemos no solamente de forma numérica, sino representado en distintos tipos de mapas. Al final, esa visibilización geolocalizada del resultado aporta un valor fundamental y facilita, por supuesto, la toma de decisiones estratégicas en materia de planificación de infraestructuras.

Otro ejemplo a destacar que es posible gracias a la disponibilidad de datos abiertos, es el cálculo de indicadores de seguimiento de los Objetivos de Desarrollo Sostenible de la Agenda 2030. Actualmente, en colaboración con el Instituto Nacional de Estadística, estamos trabajando en el cálculo de varios de ellos, incluyendo uno asociado directamente a Transportes, que trata de hacer el seguimiento del objetivo 11, que es el de lograr que las ciudades sean más inclusivas, seguras, resilientes y sostenibles.

  1. Hablando de esta toma de decisiones basada en datos, también existe cooperación a nivel de generación y reutilización de datos entre distintas administraciones públicas. ¿Nos podéis contar algún ejemplo de proyecto?

Tania Gullón: Yo te contesto también eso a la toma de decisiones basada en datos que antes me he ido por las ramas con el tema de la Ley. También se puede decir que todos esos datos de Big Data, Hermes y todo lo que hemos comentado están favoreciendo ese cambio del Ministerio y de las organizaciones hacia organizaciones basadas en datos, que significa que las decisiones se basan en ese análisis de datos objetivos. Cuando preguntas así por un ejemplo, es que tengo tantos que no sabría qué contarte. En el caso de los datos Big Data, se están utilizando para la planificación de infraestructuras desde hace unos años. Antes se hacía con encuestas y se dimensionaba porque ¿cuántos carriles pongo en una carretera? O algo muy básico, ¿cuánta frecuencia necesitamos en un tren? Pues eso, como no tengas datos de cuál va a ser la demanda, no puedes planificarlo. Esto se hace con los datos de Big Data, no solo el Ministerio sino, como están en abierto, los usan todas las administraciones, todos los ayuntamientos y todos los gestores de infraestructuras. Conocer las necesidades de movilidad de la población nos permite adecuar nuestras infraestructuras y nuestros servicios a esas necesidades reales. Por ejemplo, ahora se están estudiando los servicios de cercanías en Galicia. O imaginaros el soterramiento de la A-5. También se utilizan para emergencias, que no lo hemos comentado, pero también están siendo clave. Siempre nos damos cuenta de que cuando hay una emergencia, de repente todo el mundo piensa “datos, ¿dónde hay datos?, ¿dónde están los datos abiertos?”, pues han sido fundamentales. Os puedo contar, en el caso de la Dana, que es quizá el más reciente se quedaron gravemente afectadas varias líneas de tren de cercanías, se destrozaron las vías, y el 99 % de los vehículos de las personas que vivían en Paiporta, en Torrent, en toda la zona afectada, se quedaron inutilizados. Y el 1 % era porque no estaba en la zona de la Dana en ese momento. Entonces había que restablecer la movilidad cuanto antes, pues gracias a estos datos abiertos en una semana había unos autobuses haciendo unos servicios alternativos de transporte que se habían planificado con los datos de Big Data. O sea que fijaros el impacto sobre la población.

Hablando de emergencias, este proyecto nació justo por una emergencia, por el COVID. O sea, el estudio, este Big Data, nació en 2020 porque desde Presidencia de Gobierno se nos encargó monitorizar esa movilidad diariamente y darla en abierto. Y aquí enlazo con esa colaboración entre administraciones, organizaciones, empresas, universidades. Porque fijaros, estos datos de movilidad alimentaban los modelos epidemiológicos. Aquí trabajamos con el Instituto Carlos III, con el Barcelona Supercomputing Center, con estos institutos y centros de investigación que estaban empezando a dimensionar las camas de los hospitales para la segunda ola. Cuando todavía estábamos en la primera ola, no sabíamos ni lo que era una ola y ya nos estaban diciendo “ojo, porque va a haber una segunda ola, y con estos datos de movilidad y demás vamos a poder dimensionar cuántas camas se van a necesitar, según también el modelo epidemiológico”. Fijaos la reutilización tan importante. Estos datos, por ejemplo, de Big Data sabemos que los están utilizando miles de empresas, administraciones, centros de investigación, investigadores de todo el mundo. Además, nos llegan consultas de Alemania, de todos los países, porque en España yo somos un poco pioneros en esto de dar todos los datos en abierto. Estamos ahí creando escuela y no solo para transporte, sino para temas de turismo también, por ejemplo.

Alicia González: Nosotros, en el ámbito de la información geográfica, a nivel de cooperación, tenemos un instrumento específico que es el Sistema Cartográfico Nacional, que directamente promueve la coordinación en la actuación de las distintas administraciones en materia de información geográfica. No sabemos trabajar de otra forma que no sea cooperando. Y un ejemplo claro es el mismo conjunto del que venimos hablando: el conjunto de información geográfica de referencia de redes de transporte es el resultado de esta cooperación. Es decir, a nivel nacional lo impulsa y promueve el Instituto Geográfico, pero en su actualización, en su producción también participan agencias cartográficas autonómicas con diferente rango de colaboración. Incluso se llega a alcanzar el máximo de hacer coproducción de datos de ciertos subconjuntos en determinadas zonas. Además, una de las características de este producto es que se genera a partir de datos oficiales de otras fuentes. Es decir, ahí ya hay colaboración sí o sí. Hay cooperación porque hay una integración de datos, porque al final hay que rellenarlo con los datos oficiales. Y de partida, a lo mejor son datos que facilita INE, el Catastro, las propias agencias cartográficas, los callejeros locales… Pero, una vez que se ha conformado el resultado, como comentaba antes, el resultado tiene un valor añadido que es de interés para el propio proveedor original. Por ejemplo, este conjunto de datos se reutiliza internamente, en la casa, en el IGN: cualquier producto o servicio que precise de información de transporte se alimenta de este conjunto de datos. Ahí hay una reutilización interna, pero, además, en el ámbito de las administraciones públicas, en todos los niveles. En la estatal, pues, por ejemplo, en el Catastro, una vez que se ha generado el resultado, les es de interés para estudios de análisis de la delimitación del dominio público asociado a las infraestructuras, por ejemplo. O el propio Ministerio, como comentaba antes Tania. Hermes se generó a partir de un tratamiento de datos de RT, de los datos de redes de transporte. La Dirección General de Carreteras utiliza redes de transporte en su gestión interna para hacerse un mapa de tráfico, su gestión de catálogo, etcétera. Y en las propias comunidades autónomas, igualmente el resultado que se genera les es de utilidad en las agencias cartográficas o incluso a nivel local. Luego hay una reutilización cíclica continua, como tiene que ser, al final todo es dinero público y tiene que reutilizarse al máximo posible. Y en el ámbito privado, también se reutiliza y se generan servicios de valor añadido a partir de estos datos que se facilitan en múltiples casos de uso. Por no extenderme, simplemente eso: participamos facilitando datos sobre los que se generan servicios de valor añadido.

  1. Y ya para terminar, podréis recapitular brevemente alguna idea que resalte el impacto en la vida cotidiana y el potencial comercial de estos datos para para los reutilizadores.

Alicia González: Muy brevemente, yo creo que el impacto fundamental en la vida cotidiana es que la distribución de datos abiertos ha permitido democratizar el acceso a los datos a todo el mundo, a empresas, pero también a ciudadanos; y, sobre todo, creo que ha sido fundamental en el ámbito académico, en el que seguramente, actualmente, es más fácil desarrollar ciertas investigaciones que en otros tiempos era más complejo. Y otro impacto en la vida cotidiana es la transparencia institucional que ello implica. Y en cuanto al potencial comercial de reutilizadores, reitero la idea anterior: la disponibilidad de datos impulsa la innovación y el incremento de soluciones de valor añadido. En este sentido, mirando una de las conclusiones del informe que se realizó en 2024 por ASEDIE; la Asociación de Empresas Infomediarias, sobre el impacto que tenían los datos geoespaciales que publica el CNIG en el sector privado, hubo un par de conclusiones bastante importantes. Una de ellas decía que cada vez que se libera un nuevo conjunto de datos se incentiva a los reutilizadores a generar soluciones de valor añadido y, además, les permite focalizar sus esfuerzos en ese desarrollo de innovación y no tanto en la captura del dato. Y también de ese informe se desprendía que desde la adopción de la política de datos abiertos que mencioné al principio, que se adoptó en 2015 por parte del IGN, el 75 % de las empresas encuestadas respondió que había podido ampliar de forma muy significativa el catálogo de productos y servicios basados en estos datos que son abiertos. Luego, yo creo que el impacto finalmente es enriquecedor para toda la sociedad.

Tania Gullón: yo suscribo todas las palabras de Alicia, totalmente de acuerdo. Y además, que los pequeños operadores de transporte y los ayuntamientos con menos recursos tengan a su disposición todos estos datos abiertos y gratuitos de calidad y el acceso a las herramientas digitales que les permitan competir en igualdad de condiciones. En el caso de las empresas o ayuntamientos, imaginaros poder planificar sus transportes y ser más eficientes. No solo les ahorra dinero, sino que ganan al final en el servicio al ciudadano. Y desde luego, el hecho de que en el sector público se tome las decisiones basadas en datos y se fomente ese ecosistema de compartición de datos, favoreciendo el desarrollo de aplicaciones de movilidad, por ejemplo, tiene un impacto directo en la vida cotidiana de las personas. O también el tema de las ayudas al transporte: el que se estudie con esos datos de demanda el impacto de las ayudas al transporte con datos de accesibilidad y demás. Se estudia quiénes son los más vulnerables y al final, ¿qué hace? Pues que las políticas sean cada vez más justas y esto, obviamente impacta en el ciudadano. Que las decisiones sobre cómo invertir el dinero de todos, de nuestros impuestos, el cómo invertirlo en infraestructuras o en ayudas o en servicios, se base en datos objetivos y no en intuiciones, sino en datos reales. Esto es lo más importante.

calendar icon
Blog

Las ciudades, las infraestructuras y el medio ambiente generan hoy un flujo constante de datos procedentes de sensores, redes de transporte, estaciones meteorológicas y plataformas de Internet of Things (IoT), entendidas como redes de dispositivos físicos (semáforos digitales, sensores de calidad de aire, etc.) capaces de medir y transmitir información a través de sistemas digitales. Este volumen creciente de información permite mejorar la prestación de servicios públicos, anticipar emergencias, planificar el territorio y responder a retos asociados al clima, la movilidad o la gestión de recursos. 

El incremento de fuentes conectadas ha transformado la naturaleza del dato geoespacial. Frente a los conjuntos tradicionales —actualizados de forma periódica y orientados a cartografía de referencia o inventarios administrativos— los datos dinámicos incorporan la dimensión temporal como componente estructural. Una observación de calidad del aire, un nivel de ocupación de tráfico o una medición hidrológica no solo describen un fenómeno, sino que lo sitúan en un momento concreto. La combinación espacio-tiempo convierte a estas observaciones en elementos fundamentales para sistemas operativos, modelos predictivos y análisis basados en series temporales. 

En el ámbito de los datos abiertos, este tipo de información plantea tanto oportunidades como requerimientos específicos. Entre las oportunidades se encuentran la posibilidad de construir servicios digitales reutilizables, de facilitar la supervisión en tiempo casi real de fenómenos urbanos y ambientales, y de fomentar un ecosistema de reutilización basado en flujos continuos de datos interoperables. La disponibilidad de datos actualizados incrementa además la capacidad de evaluación y auditoría de políticas públicas, al permitir contrastar decisiones con observaciones recientes. 

No obstante, la apertura de datos geoespaciales en tiempo real exige resolver problemas derivados de la heterogeneidad tecnológica. Las redes de sensores utilizan protocolos, modelos de datos y formatos diferentes; las fuentes generan volúmenes elevados de observaciones con alta frecuencia; y la ausencia de estructuras semánticas comunes dificulta el cruce de datos entre dominios como movilidad, medio ambiente, energía o hidrología. Para que estos datos puedan publicarse y reutilizarse de manera consistente, es necesario un marco de interoperabilidad que normalice la descripción de los fenómenos observados, la estructura de las series temporales y las interfaces de acceso. 

Los estándares abiertos del Open Geospatial Consortium (OGC) proporcionan ese marco. Definen cómo representar observaciones, entidades dinámicas, coberturas multitemporales o sistemas de sensores; establecen API basadas en principios web que facilitan la consulta de datos abiertos; y permiten que plataformas distintas intercambien información sin necesidad de integraciones específicas. Su adopción reduce la fragmentación tecnológica, mejora la coherencia entre fuentes y favorece la creación de servicios públicos basados en datos actualizados. 

Interoperabilidad: el requisito básico para abrir datos dinámicos 

Las administraciones públicas gestionan hoy datos generados por sensores de distinto tipo, plataformas heterogéneas, proveedores diferentes y sistemas que evolucionan de forma independiente. La publicación de datos geoespaciales en tiempo real exige una interoperabilidad que permita integrar, procesar y reutilizar información procedente de múltiples fuentes. Esta diversidad provoca inconsistencias en formatos, estructuras, vocabularios y protocolos, lo que dificulta la apertura del dato y su reutilización por terceros. Veamos qué aspectos de la interoperabilidad están afectados: 

  • La interoperabilidad técnica: se refiere a la capacidad de los sistemas para intercambiar datos mediante interfaces, formatos y modelos compatibles. En los datos en tiempo real, este intercambio requiere mecanismos que permitan consultas rápidas, actualizaciones frecuentes y estructuras de datos estables. Sin estos elementos, cada flujo dependería de integraciones ad hoc, aumentando la complejidad y reduciendo la capacidad de reutilización. 

  • La interoperabilidad semántica: los datos dinámicos describen fenómenos que cambian en periodos cortos —niveles de tráfico, parámetros meteorológicos, caudales, emisiones atmosféricas— y deben interpretarse de forma coherente. Esto implica contar con modelos de observación, vocabularios y definiciones comunes que permitan a aplicaciones distintas entender el significado de cada medición y sus unidades, condiciones de captura o restricciones. Sin esta capa semántica, la apertura de datos en tiempo real genera ambigüedad y limita su integración con datos procedentes de otros dominios. 

  • La interoperabilidad estructural: los flujos de datos en tiempo real tienden a ser continuos y voluminosos, lo que hace necesario representarlos como series temporales o conjuntos de observaciones con atributos consistentes. La ausencia de estructuras normalizadas complica la publicación de datos completos, fragmenta la información e impide consultas eficientes. Para proporcionar acceso abierto a estos datos, es necesario adoptar modelos que representen adecuadamente la relación entre fenómeno observado, momento de la observación, geometría asociada y condiciones de medición. 

  • La interoperabilidad en el acceso vía API: constituye una condición esencial para los datos abiertos. Las API deben ser estables, documentadas y basadas en especificaciones públicas que permitan consultas reproducibles. En el caso de datos dinámicos, esta capa garantiza que los flujos puedan ser consumidos por aplicaciones externas, plataformas de análisis, herramientas cartográficas o sistemas de monitorización que operan en contextos distintos al que genera el dato. Sin API interoperables, el dato en tiempo real queda limitado a usos internos. 

En conjunto, estos niveles de interoperabilidad determinan si los datos geoespaciales dinámicos pueden publicarse como datos abiertos sin generar barreras técnicas. 

Estándares OGC para publicar datos geoespaciales en tiempo real 

La publicación de datos georreferenciados en tiempo real requiere mecanismos que permitan que cualquier usuario —administración, empresa, ciudadanía o comunidad investigadora— pueda acceder a ellos de forma sencilla, con formatos abiertos y a través de interfaces estables. El Open Geospatial Consortium (OGC) desarrolla un conjunto de estándares que permiten exactamente esto: describir, organizar y exponer datos espaciales de forma interoperable y accesible, que contribuyan a la apertura de datos dinámicos

Qué es OGC y por qué sus estándares son relevantes 

El OGC es una organización internacional que define reglas comunes para que distintos sistemas puedan entender, intercambiar y usar datos geoespaciales sin depender de tecnologías concretas. Estas reglas se publican como estándares abiertos, lo que significa que cualquier persona o institución puede utilizarlos. En el ámbito de los datos en tiempo real, estos estándares permiten: 

  • Representar lo que un sensor mide (por ejemplo, temperatura o tráfico).
  • Indicar dónde y cuándo se hizo la observación.
  • Estructurar series temporales.
  • Exponer datos a través de API abiertas.
  • Conectar dispositivos y redes IoT con plataformas públicas. 

En conjunto, este ecosistema de estándares permite que los datos geoespaciales —incluyendo los generados en tiempo real— puedan publicarse y reutilizarse siguiendo un marco coherente. Cada estándar cubre una parte específica del ciclo del dato: desde la definición de las observaciones y los sensores, hasta la forma en la que se exponen los datos mediante API abiertas o servicios web. Esta organización modular facilita que administraciones y organizaciones seleccionen los componentes que necesitan, evitando dependencias tecnológicas y garantizando que los datos puedan integrarse entre plataformas distintas. 

La familia OGC API: API modernas para acceder a datos abiertos 

Dentro de OGC, la línea más reciente es la familia OGC API, un conjunto de interfaces web modernas diseñadas para facilitar el acceso a datos geoespaciales mediante URL y formatos como JSON o GeoJSON, habituales en el ecosistema de datos abiertos. 

Estas API permiten: 

  • Obtener solo la parte del dato que interesa.
  • Realizar búsquedas espaciales (“dame solo lo que está en esta zona”).
  • Acceder a datos actualizados sin necesidad de software especializado.
  • Integrarlos fácilmente en aplicaciones web o móviles. 

En este informe: “Cómo utilizar las OGC API para potenciar la interoperabilidad de los datos geoespaciales”, ya te hablamos de algunas las API más populares del OGP. Mientras que el informe se centra en cómo utilizar las OGC API para la interoperabilidad práctica, este post amplía el foco explicando los modelos de datos subyacentes del OGC —como O&M, SensorML o Moving Features— que sustentan esa interoperabilidad. 

A partir de esta base, este post pone el foco en los estándares que hacen posible ese intercambio fluido de información, especialmente en contextos de datos abiertos y en tiempo real. Los estándares más importantes en el contexto de datos abiertos en tiempo real son: 

Estándar OGC

Qué permite hacer

Uso principal en datos abiertos

OGC API – Features

Es una interfaz web abierta que permite acceder a conjuntos de datos formados por “entidades” con geometría, como sensores, vehículos, estaciones o incidentes. Utiliza formatos simples como JSON y GeoJSON y permite realizar consultas espaciales y temporales. Es útil para publicar datos que se actualizan con frecuencia, como movilidad urbana o inventarios dinámicos. 

Consultar entidades con geometría; filtrar por tiempo o espacio; obtener datos en JSON/GeoJSON. 

Publicación abierta de datos dinámicos de movilidad, inventarios urbanos, sensores estáticos. 

OGC API – Environmental Data Retrieval (EDR)

Proporciona un método sencillo para recuperar observaciones ambientales y meteorológicas. Permite solicitar datos en un punto, una zona o un intervalo temporal, y es especialmente adecuado para estaciones meteorológicas, calidad del aire o modelos climáticos. Facilita el acceso abierto a series temporales y predicciones. 

Solicitar observaciones ambientales en un punto, zona o intervalo temporal. 

Datos abiertos de meteorología, clima, calidad del aire o hidrología. 

OGC SensorThings API

Es el estándar más utilizado para datos IoT abiertos. Define un modelo uniforme para sensores, lo que miden y las observaciones que producen. Está diseñado para manejar grandes volúmenes de datos en tiempo real y ofrece un modo claro para publicar series temporales, datos de contaminación, ruido, hidrología, energía o alumbrado. 

Gestionar sensores y sus series temporales; transmitir grandes volúmenes de datos IoT. 

Publicación de sensores urbanos (aire, ruido, agua, energía) en tiempo real. 

OGC API – Connected Systems
Permite describir de forma abierta y estructurada los sistemas de sensores: qué dispositivos existen, cómo se conectan entre sí, en qué infraestructura están integrados y qué tipo de mediciones generan. Complementa a SensorThings API, ya que no se centra en las observaciones, sino en la red física y lógica de sensores.
 
Describir redes de sensores, dispositivos e infraestructuras asociadas. Documentar como dato abierto la estructura de sistemas IoT municipales.
OGC Moving Features
Modelo para representar objetos que se mueven, como vehículos, embarcaciones o personas, mediante trayectorias espacio-temporales. Permite publicar datos de movilidad, navegación o logística en formatos consistentes con los principios de datos abiertos.
 
Representar objetos móviles mediante trayectorias espacio-tiempo. Datos abiertos de movilidad (vehículos, transporte, embarcaciones).
WMS-T
Extensión del clásico estándar WMS que añade la dimensión temporal. Permite visualizar mapas que cambian en el tiempo, por ejemplo, meteorología por horas, niveles de inundación o imágenes actualizadas periódicamente.
 
Visualizar mapas que cambian en el tiempo Publicación de mapas meteorológicos o ambientales multitemporales

Tabla 1. Estándares OGC relevantes para datos geoespaciales en tiempo real

Modelos que estructuran observaciones y datos dinámicos 

Además de las API, OGC define varios modelos conceptuales de datos que permiten describir de forma coherente observaciones, sensores y fenómenos que cambian en el tiempo: 

  • O&M (Observations & Measurements): modelo que define los elementos esenciales de una observación —fenómeno medido, instante, unidad y resultado— y que sirve como base semántica para datos de sensores y series temporales.
  • SensorML: lenguaje que describe las características técnicas y operativas de un sensor, incluyendo su ubicación, calibración y proceso de observación.
  • Moving Features: modelo que permite representar objetos móviles mediante trayectorias espacio-temporales (como vehículos, embarcaciones o fauna). 

Estos modelos facilitan que diferentes fuentes de datos puedan interpretarse de forma uniforme y combinarse en análisis y aplicaciones. 

El valor de estos estándares para los datos abiertos 

El uso de los estándares OGC facilita la apertura de datos dinámicos porque: 

  • Proporciona modelos comunes que reducen la heterogeneidad entre fuentes.
  • Facilita la integración entre dominios (movilidad, clima, hidrología).
  • Evita dependencias de tecnología propietaria.
  • Permite que el dato sea reutilizado en análisis, aplicaciones o servicios públicos.
  • Mejora la transparencia, al documentar sensores, métodos y frecuencias.
  • Asegura que los datos pueden ser consumidos directamente por herramientas comunes. 

En conjunto, forman una infraestructura conceptual y técnica que permite publicar datos geoespaciales en tiempo real como datos abiertos, sin necesidad de desarrollar soluciones específicas para cada sistema. 

Casos de uso de datos geoespaciales abiertos en tiempo real 

Los datos georreferenciados en tiempo real ya se publican como datos abiertos en distintos ámbitos sectoriales. Estos ejemplos muestran cómo diferentes administraciones y organismos aplican estándares abiertos y API para poner a disposición del público datos dinámicos relacionados con movilidad, medio ambiente, hidrología y meteorología. 

A continuación, se presentan varios dominios donde las Administraciones Públicas ya publican datos geoespaciales dinámicos utilizando estándares OGC

Movilidad y transporte 

Los sistemas de movilidad generan datos de forma continua: disponibilidad de vehículos compartidos, posiciones en tiempo casi real, sensores de paso en carriles bici, aforos de tráfico o estados de intersecciones semaforizadas. Estas observaciones dependen de sensores distribuidos y requieren modelos de datos capaces de representar variaciones rápidas en el espacio y en el tiempo. 

Los estándares OGC desempeñan un papel central en este ámbito. En particular, OGC SensorThings API permite estructurar y publicar observaciones procedentes de sensores urbanos mediante un modelo uniforme –incluyendo dispositivos, mediciones, series temporales y relaciones entre ellos– accesible a través de una API abierta. Esto facilita que diferentes operadores y municipios publiquen datos de movilidad de forma interoperable, reduciendo la fragmentación entre plataformas. 

El uso de estándares OGC en movilidad no solo garantiza compatibilidad técnica, sino que posibilita que estos datos se puedan reutilizar junto con información ambiental, cartográfica o climática, generando análisis multitemáticos para planificación urbana, sostenibilidad o gestión operativa del transporte.  

Ejemplo: 

El servicio abierto de Toronto Bike Share, que publica en formato SensorThings API el estado de sus estaciones de bicicletas y la disponibilidad de vehículos. 

Aquí cada estación es un sensor y cada observación indica el número de bicicletas disponibles en un momento concreto. Este enfoque permite que analistas, desarrolladores o investigadores integren estos datos directamente en modelos de movilidad urbana, sistemas de predicción de demanda o paneles de control ciudadano sin necesidad de adaptaciones específicas. 

Calidad del aire, ruido y sensores urbanos 

Las redes de monitorización de calidad del aire, ruido o condiciones ambientales urbanas dependen de sensores automáticos que registran mediciones cada pocos minutos. Para que estos datos puedan integrarse en sistemas de análisis y publicarse como datos abiertos, es necesario disponer de modelos y API coherentes. 

En este contexto, los servicios basados en estándares OGC permiten publicar datos procedentes de estaciones fijas o sensores distribuidos de forma interoperable. Aunque muchas administraciones utilizan interfaces tradicionales como OGC WMS para servir estos datos, la estructura subyacente suele apoyarse en modelos de observaciones derivados de la familia Observations & Measurements (O&M), que define cómo representar un fenómeno medido, su unidad y el instante de observación. 

Ejemplo: 

El servicio Defra UK-AIR Sensor Observation Service proporciona acceso a datos de mediciones de calidad del aire en tiempo casi real desde estaciones in situ en Reino Unido. 

La combinación de O&M para la estructura del dato y API abiertas para su publicación facilita que estos sensores urbanos formen parte de ecosistemas más amplios que integran movilidad, meteorología o energía, permitiendo análisis urbanos avanzados o paneles ambientales en tiempo casi real. 

Ciclo del agua, hidrología y gestión del riesgo 

Los sistemas hidrológicos generan datos cruciales para la gestión del riesgo: niveles y caudales en ríos, precipitaciones, humedad del suelo o información de estaciones hidrometeorológicas. La interoperabilidad es especialmente importante en este dominio, ya que estos datos se combinan con modelos hidráulicos, predicción meteorológica y cartografía de zonas inundables. 

Para facilitar el acceso abierto a series temporales y observaciones hidrológicas, varios organismos utilizan OGC API – Environmental Data Retrieval (EDR), una API diseñada para recuperar datos ambientales mediante consultas sencillas en puntos, áreas o intervalos temporales. 

Ejemplo: 

El USGS (United States Geological Survey), que documenta el uso de OGC API – EDR para acceder a series de precipitación, temperatura o variables hidrológicas. 

Este caso muestra cómo EDR permite solicitar observaciones específicas por ubicación o fecha, devolviendo únicamente los valores necesarios para el análisis. Aunque los datos concretos de hidrología del USGS se sirven mediante su API propia, este caso demuestra cómo EDR encaja con la estructura de datos hidrometeorológicos y cómo se aplica en flujos operativos reales. 

El empleo de estándares OGC en este ámbito permite que los datos hidrológicos dinámicos se integren con zonas inundables, ortoimágenes o modelos climáticos, creando una base sólida para sistemas de alerta temprana, planificación hidráulica y evaluación del riesgo. 

Observación y predicción meteorológica 

La meteorología es uno de los dominios con mayor producción de datos dinámicos: estaciones automáticas, radares, modelos numéricos de predicción, observaciones satelitales y productos atmosféricos de alta frecuencia. Para publicar esta información como datos abiertos, la familia de OGC API se está convirtiendo en un elemento clave, especialmente mediante OGC API – EDR, que permite recuperar observaciones o predicciones en ubicaciones concretas y en distintos niveles temporales. 

Ejemplo: 

El servicio NOAA OGC API – EDR, que proporciona acceso a datos meteorológicos y variables atmosféricas del National Weather Service (Estados Unidos). 

Esta API permite consultar datos en puntos, áreas o trayectorias, facilitando la integración de observaciones meteorológicas en aplicaciones externas, modelos o servicios basados en datos abiertos. 

El uso de OGC API en meteorología permite que datos procedentes de sensores, modelos y satélites puedan consumirse mediante una interfaz unificada, facilitando su reutilización para pronósticos, análisis atmosféricos, sistemas de soporte a la decisión y aplicaciones climáticas. 

Buenas prácticas para publicar datos geoespaciales abiertos en tiempo real 

La publicación de datos geoespaciales dinámicos requiere adoptar prácticas que garanticen su accesibilidad, interoperabilidad y sostenibilidad. A diferencia de los datos estáticos, los flujos en tiempo real presentan requisitos adicionales relacionados con la calidad de las observaciones, la estabilidad de las API y la documentación del proceso de actualización. A continuación, se presentan algunas prácticas recomendadas para administraciones y organizaciones que gestionan este tipo de datos. 

  • Formatos y API abiertas estables: el uso de estándares OGC —como OGC API, SensorThings API o EDR— facilita que los datos puedan consumirse desde múltiples herramientas sin necesidad de adaptaciones específicas. Las API deben ser estables en el tiempo, ofrecer versiones bien definidas y evitar dependencias de tecnologías propietarias. Para datos ráster o modelos dinámicos, los servicios OGC como WMS, WMTS o WCS siguen siendo adecuados para visualización y acceso programático. 

  • Metadatos compatibles con DCAT-AP y modelos OGC: la interoperabilidad de catálogos requiere describir los conjuntos de datos utilizando perfiles como DCAT-AP, complementado con metadatos geoespaciales y de observación basados en O&M (Observations & Measurements) o SensorML. Estos metadatos deben documentar la naturaleza del sensor, la unidad de medida, la frecuencia de muestreo y posibles limitaciones del dato. 

  • Políticas de calidad, frecuencia de actualización y trazabilidad: los datasets dinámicos deben indicar explícitamente su frecuencia de actualización, la procedencia de las observaciones, los mecanismos de validación aplicados y las condiciones bajo las cuales se generaron. La trazabilidad es esencial para que terceros puedan interpretar correctamente los datos, reproducir análisis e integrar observaciones procedentes de fuentes distintas. 

  • Documentación, límites de uso y sostenibilidad del servicio: la documentación debe incluir ejemplos de uso, parámetros de consulta, estructura de respuesta y recomendaciones para gestionar el volumen de datos. Es importante establecer límites razonables de consulta para garantizar la estabilidad del servicio y asegurar que la administración puede mantener la API a largo plazo. 

  • Aspectos de licencias para datos dinámicos: la licencia debe ser explícita y compatible con la reutilización, como CC BY 4.0 o CC0. Esto permite integrar datos dinámicos en servicios de terceros, aplicaciones móviles, modelos predictivos o servicios de interés público sin restricciones innecesarias. La consistencia en la licencia facilita también el cruce de datos procedentes de distintas fuentes. 

Estas prácticas permiten que los datos dinámicos se publiquen de forma fiable, accesible y útil para toda la comunidad reutilizadora. 

Los datos geoespaciales dinámicos se han convertido en una pieza estructural para comprender fenómenos urbanos, ambientales y climáticos. Su publicación mediante estándares abiertos permite que esta información pueda integrarse en servicios públicos, análisis técnicos y aplicaciones reutilizables sin necesidad de desarrollos adicionales. La convergencia entre modelos de observación, API OGC y buenas prácticas en metadatos y licencias ofrece un marco estable para que administraciones y reutilizadores trabajen con datos procedentes de sensores de forma fiable. Consolidar este enfoque permitirá avanzar hacia un ecosistema de datos públicos más coherente, conectado y preparado para usos cada vez más demandantes en movilidad, energía, gestión del riesgo y planificación territorial. 

Contenido elaborado por Mayte Toscano, Senior Consultant en Tecnologías ligadas a la economía del dato. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autora

calendar icon
Blog

Vivimos en una época en la que cada vez más fenómenos del mundo físico pueden observarse, medirse y analizarse en tiempo real. La temperatura de un cultivo, la calidad del aire de una ciudad, el estado de una presa, el flujo del tráfico o el consumo energético de un edificio ya no son datos que se revisan ocasionalmente: son flujos continuos de información que se generan segundo a segundo.

Esta revolución no sería posible sin los sistemas ciberfísicos (CPS), una tecnología que integra sensores, algoritmos y actuadores para conectar el mundo físico con el digital. Pero los CPS no sólo generan datos: también pueden alimentarse de datos abiertos, multiplicando su utilidad y permitiendo decisiones basadas en evidencia.

En este artículo exploraremos qué son los CPS, cómo generan datos masivos en tiempo real, qué retos plantea convertir esos datos en información pública útil, qué principios son esenciales para asegurar su calidad y trazabilidad, y qué ejemplos reales demuestran el potencial de su reutilización. Cerraremos con una reflexión sobre el impacto de esta combinación en la innovación, la ciencia ciudadana y el diseño de políticas públicas más inteligentes.

¿Qué son los sistemas ciberfísicos?

Un sistema ciberfísico es una integración estrecha entre componentes digitales —como software, algoritmos, comunicación y almacenamiento— y componentes físicos —sensores, actuadores, dispositivos IoT o máquinas industriales—. Su función principal es observar el entorno, procesar la información y actuar sobre él.

A diferencia de los sistemas tradicionales de monitorización, un CPS no se limita a medir: cierra un ciclo completo entre percepción, decisión y acción. Este ciclo se puede entender a través de tres elementos principales:


Figura 1. Ciclo de los sistemas ciberfísicos. Fuente: elaboración propia

Un ejemplo cotidiano que ilustra muy bien este ciclo completo de percepción, decisión y acción es el riego inteligente, cada vez más presente en la agricultura de precisión y en los sistemas domésticos de jardinería. En este caso, los sensores distribuidos por el terreno miden continuamente la humedad del suelo, la temperatura ambiente e incluso la radiación solar. Toda esa información fluye hacia la unidad de computación, que analiza los datos, los compara con umbrales previamente definidos o con modelos más complejos —por ejemplo, los que estiman la evaporación del agua o las necesidades hídricas de cada tipo de planta— y determina si realmente es necesario regar.

Cuando el sistema concluye que el suelo ha alcanzado un nivel de sequedad crítico, entra en juego el tercer elemento del CPS: los actuadores. Son ellos quienes abren las válvulas, activan la bomba de agua o regulan el caudal, y lo hacen durante el tiempo exacto necesario para devolver la humedad a niveles óptimos. Si las condiciones cambian —si empieza a llover, si la temperatura baja o si el suelo recupera humedad más rápido de lo esperado—, el propio sistema ajusta su comportamiento en consecuencia.

Todo este proceso ocurre sin intervención humana, de forma autónoma. El resultado es un uso más sostenible del agua, plantas mejor cuidadas y una capacidad de adaptación en tiempo real que solo es posible gracias a la integración de sensores, algoritmos y actuadores característica de los sistemas ciberfísicos.

Los CPS como fábricas de datos en tiempo real

Una de las características más relevantes de los sistemas ciberfísicos es su capacidad para generar datos de forma continua, masiva y con una resolución temporal muy alta. Esta producción constante puede apreciarse en múltiples situaciones del día a día:

  • Una estación hidrológica puede registrar nivel y caudal cada minuto.

  • Un sensor de movilidad urbana puede generar cientos de lecturas por segundo.

  • Un contador inteligente registra el consumo eléctrico cada pocos minutos.

  • Un sensor agrícola mide humedad, salinidad y radiación solar varias veces al día.

  • Un dron cartográfico captura posiciones GPS decimétricas en tiempo real.

Más allá de estos ejemplos concretos, lo importante es comprender qué significa esta capacidad para el conjunto del sistema: los CPS se convierten en auténticas fábricas de datos, y en muchos casos llegan a funcionar como gemelos digitales del entorno físico que monitorizan. Esa equivalencia casi instantánea entre el estado real de un río, un cultivo, una carretera o una máquina industrial y su representación digital permite disponer de un retrato extremadamente preciso y actualizado del mundo físico, prácticamente al mismo tiempo que los fenómenos ocurren.

Esta riqueza de datos abre un enorme campo de oportunidades cuando se publica como información abierta. Los datos procedentes de CPS pueden impulsar servicios innovadores desarrollados por empresas, alimentar investigaciones científicas de alto impacto, potenciar iniciativas de ciencia ciudadana que complementen los datos institucionales, y reforzar la transparencia y la rendición de cuentas en la gestión de recursos públicos.

Sin embargo, para que todo ese valor llegue realmente a la ciudadanía y a la comunidad reutilizadora, es necesario superar una serie de retos técnicos, organizativos y de calidad que determinan la utilidad final del dato abierto. A continuación, analizamos cuáles son esos desafíos y por qué son tan importantes en un ecosistema cada vez más dependiente de información generada en tiempo real.

El reto: de datos en bruto a información pública útil

Que un CPS genere datos no significa que estos puedan publicarse directamente como datos abiertos. Antes de llegar a la ciudadanía y a las empresas reutilizadoras, la información necesita un trabajo previo de preparación, validación, filtrado y documentación. Las administraciones deben asegurarse de que esos datos son comprensibles, interoperables y fiables. Y en ese camino aparecen varios desafíos.

Uno de los primeros es la estandarización. Cada fabricante, cada sensor y cada sistema puede utilizar formatos distintos, diferentes frecuencias de muestreo o estructuras propias. Si no se armonizan esas diferencias, lo que obtenemos es un mosaico difícilmente integrable. Para que los datos sean interoperables se necesitan modelos comunes, unidades homogéneas, estructuras coherentes y estándares compartidos. Normativas como INSPIRE o los estándares de OGC (Open Geospatial Consortium) e IoT-TS son clave para que un dato generado en una ciudad pueda entenderse, sin transformación adicional, en otra administración o por cualquier reutilizador.

El siguiente gran reto es la calidad. Los sensores pueden fallar, quedarse congelados reportando siempre el mismo valor, generar lecturas físicamente imposibles, sufrir interferencias electromagnéticas o estar mal calibrados durante semanas sin que nadie lo note. Si esa información se publica tal cual, sin un proceso previo de revisión y limpieza, el dato abierto pierde valor e incluso puede inducir a errores. La validación —con controles automáticos y revisión periódica— es, por tanto, indispensable.

Otro punto crítico es la contextualización. Un dato aislado carece de significado. Un “12,5” no dice nada si no sabemos si son grados, litros o decibelios. Una medida de “125 ppm” no tiene utilidad si no conocemos qué sustancia se está midiendo. Incluso algo tan aparentemente objetivo como unas coordenadas necesita un sistema de referencia concreto. Y cualquier dato ambiental o físico solo puede interpretarse adecuadamente si se acompaña de la fecha, la hora, la ubicación exacta y las condiciones de captura. Todo esto forma parte de los metadatos, que son esenciales para que terceros puedan reutilizar la información sin ambigüedades.

También es fundamental abordar la privacidad y la seguridad. Algunos CPS pueden captar información que, directa o indirectamente, podría vincularse a personas, propiedades o infraestructuras sensibles. Antes de publicar los datos, es necesario aplicar procesos de anonimización, técnicas de agregación, controles de seguridad y evaluaciones de impacto que garanticen que el dato abierto no compromete derechos ni expone información crítica.

Por último, existen retos operativos como la frecuencia de actualización y la robustez del flujo de datos. Aunque los CPS generan información en tiempo real, no siempre es adecuado publicarla con la misma granularidad: en ocasiones es necesario agregarla, validar la coherencia temporal o corregir valores antes de compartirla. De igual modo, para que los datos sean útiles en análisis técnicos o en servicios públicos, deben llegar sin interrupciones prolongadas ni duplicados, lo que exige una infraestructura estable y mecanismos de supervisión.

Principios de calidad y trazabilidad necesarios para datos abiertos fiables

Superados estos retos, la publicación de datos procedentes de sistemas ciberfísicos debe apoyarse en una serie de principios de calidad y trazabilidad. Sin ellos, la información pierde valor y, sobre todo, pierde confianza.

El primero es la exactitud. El dato debe representar fielmente el fenómeno que mide. Esto requiere sensores correctamente calibrados, revisiones periódicas, eliminación de valores claramente erróneos y comprobación de que las lecturas se encuentran dentro de rangos físicamente posibles. Un sensor que marca 200 °C en una estación meteorológica o un contador que registra el mismo consumo durante 48 horas son señales de un problema que debe detectarse antes de la publicación.

El segundo principio es la completitud. Un conjunto de datos debe indicar cuándo hay valores perdidos, lagunas temporales o periodos en los que un sensor ha estado desconectado. Ocultar estos huecos puede llevar a conclusiones equivocadas, especialmente en análisis científicos o en modelos predictivos que dependen de la continuidad de la serie temporal.

El tercer elemento clave es la trazabilidad, es decir, la capacidad de reconstruir la historia del dato. Saber qué sensor lo generó, dónde está instalado, qué transformaciones ha sufrido, cuándo se capturó o si pasó por algún proceso de limpieza permite evaluar su calidad y fiabilidad. Sin trazabilidad, la confianza se erosiona y el dato pierde valor como evidencia.

La actualización adecuada es otro principio fundamental. La frecuencia con la que se publica la información debe adaptarse al fenómeno medido. Los niveles de contaminación atmosférica pueden necesitar actualizaciones cada pocos minutos; el tráfico urbano, cada segundo; la hidrología, cada minuto o cada hora según el tipo de estación; y los datos meteorológicos, con frecuencias variables. Publicar demasiado rápido puede generar ruido; demasiado lento, puede inutilizar el dato para ciertos usos.

El último principio es el de los metadatos enriquecidos. Los metadatos explican el dato: qué mide, cómo se mide, con qué unidad, qué precisión tiene el sensor, cuál es su rango operativo, dónde está ubicado, qué limitaciones tiene la medición y para qué se genera esa información. No son una nota al pie, sino la pieza que permite a cualquier reutilizador comprender el contexto y la fiabilidad del conjunto de datos. Con una buena documentación, la reutilización no solo es posible: se dispara.

Ejemplos: CPS que reutilizan datos públicos para ser más inteligentes

Además de generar datos, muchos sistemas ciberfísicos también consumen datos públicos para mejorar su desempeño. Esta retroalimentación convierte a los datos abiertos en un recurso central para el funcionamiento de los territorios inteligentes. Cuando un CPS integra información procedente de sensores propios con fuentes abiertas externas, su capacidad de anticipación, eficiencia y precisión aumenta de forma notable.

Agricultura de precisión: En el ámbito agrícola, los sensores instalados en el terreno permiten medir variables como la humedad del suelo, la temperatura o la radiación solar. Sin embargo, los sistemas de riego inteligente no dependen únicamente de esa información local: también incorporan predicciones meteorológicas de AEMET, mapas abiertos del IGN sobre pendiente o tipos de suelo y modelos climáticos publicados como datos públicos. Al combinar sus propias mediciones con estas fuentes externas, los CPS agrícolas pueden determinar con mucha mayor exactitud qué zonas del terreno necesitan agua, cuándo conviene sembrar y cuánta humedad debe mantenerse en cada cultivo. Esta gestión fina permite ahorros de agua y fertilizantes que, en algunos casos, superan el 30 %.

Gestión hídrica: Algo similar ocurre en la gestión del agua. Un sistema ciberfísico que controla una presa o un canal de riego necesita saber no solo qué está pasando en ese instante, sino qué puede ocurrir en las próximas horas o días. Por ello integra sus propios sensores de nivel con datos abiertos de aforos fluviales, predicciones de lluvia y nieve, e incluso información pública sobre caudales ecológicos. Con esta visión ampliada, el CPS puede anticipar inundaciones, optimizar el desembalse, responder mejor a fenómenos extremos o planificar el riego de forma sostenible. En la práctica, la combinación de datos propios y abiertos se traduce en una gestión más segura y eficiente del agua.

Impacto: innovación, ciencia ciudadana y decisiones basadas en datos

La unión entre sistemas ciberfísicos y datos abiertos genera un efecto multiplicador que se manifiesta en distintos ámbitos.

  • Innovación empresarial: las empresas disponen de un terreno fértil para desarrollar soluciones basadas en información fiable y en tiempo real. A partir de datos abiertos y mediciones de CPS, pueden surgir aplicaciones de movilidad más inteligentes, plataformas de gestión hídrica, herramientas de análisis energético o sistemas predictivos para agricultura. El acceso a datos públicos reduce barreras de entrada y permite crear servicios sin necesidad de costosos datasets privados, acelerando la innovación y la aparición de nuevos modelos de negocio.

  • Ciencia ciudadana: la combinación de CPS y datos abiertos también fortalece la participación social. Comunidades de vecinos, asociaciones o colectivos ambientales pueden desplegar sensores de bajo coste para complementar los datos públicos y entender mejor lo que ocurre en su entorno. Esto da lugar a iniciativas que miden el ruido en zonas escolares, monitorizan niveles de contaminación en barrios concretos, siguen la evolución de la biodiversidad o construyen mapas colaborativos que enriquecen la información oficial.

  • Mejor toma de decisiones públicas: finalmente, los gestores públicos se benefician de este ecosistema de datos reforzado. La disponibilidad de mediciones fiables y actualizadas permite diseñar zonas de bajas emisiones, planificar de forma más efectiva el transporte urbano, optimizar redes de riego, gestionar situaciones de sequía o inundaciones o regular políticas energéticas basadas en indicadores reales. Sin datos abiertos que complementen y contextualicen la información generada por los CPS, estas decisiones serían menos transparentes y, sobre todo, menos defendibles ante la ciudadanía.

En resumen, los sistemas ciberfísicos se han convertido en una pieza esencial para entender y gestionar el mundo que nos rodea. Gracias a ellos podemos medir fenómenos en tiempo real, anticipar cambios y actuar de forma precisa y automatizada. Pero su verdadero potencial se despliega cuando sus datos se integran en un ecosistema de datos abiertos de calidad, capaz de aportar contexto, enriquecer decisiones y multiplicar usos.

La combinación de CPS y datos abiertos permite avanzar hacia territorios más inteligentes, servicios públicos más eficientes y una participación ciudadana más informada. Aporta valor económico, impulsa la innovación, facilita la investigación y mejora la toma de decisiones en ámbitos tan diversos como la movilidad, el agua, la energía o la agricultura.

Para que todo esto sea posible, es imprescindible garantizar la calidad, trazabilidad y estandarización de los datos publicados, así como proteger la privacidad y asegurar la robustez de los flujos de información. Cuando estas bases están bien asentadas, los CPS no solo miden el mundo: lo ayudan a mejorar, convirtiéndose en un puente sólido entre la realidad física y el conocimiento compartido.

Contenido elaborado por Dr. Fernando Gualo, Profesor en UCLM y Consultor de Gobierno y Calidad de datos. El contenido y el punto de vista reflejado en esta publicación es responsabilidad exclusiva de su autor.

calendar icon
Blog

La computación cuántica promete resolver en horas problemas que tomarían milenios a los superordenadores más potentes del mundo. Desde el diseño de nuevos fármacos hasta la optimización de redes de energía más sostenibles, esta tecnología transformará radicalmente nuestra capacidad para abordar los desafíos más complejos de la humanidad. Sin embargo, su verdadero potencial democratizador solo se materializará mediante la convergencia con los datos abiertos, permitiendo que investigadores, empresas y gobiernos de todo el mundo accedan tanto a la capacidad de cómputo cuántico en la nube como a los datasets públicos necesarios para entrenar y validar algoritmos cuánticos.

Tratar de explicar la teoría cuántica siempre ha supuesto un desafío, incluso para las mentes más brillantes que la humanidad ha dado en los últimos 2 siglos. El célebre físico Richard Feynman (1918-1988) lo expresó con su característico humor:

"Hubo un tiempo en que los periódicos decían que sólo doce hombres entendían la teoría de la relatividad. No creo que nunca fuera así [...] Por otro lado, creo que puedo decir con seguridad que nadie entiende la mecánica cuántica" Wikiquote.

Y eso lo dijo uno de los físicos más brillantes del siglo XX, premio Nobel y uno de los padres de la electrodinámica cuántica. Tan grande es la rareza del comportamiento cuántico a ojos de un humano que, hasta el mismísimo Albert Einstein en su ya mítica frase, le decía a Max Born, en una carta escrita al físico alemán en 1926 "Dios no juega a los dados con el universo" en referencia a su incredulidad sobre las propiedades probabilísticas y no deterministas que se le atribuyen al comportamiento cuántico. A lo que Niels Bohr - otro titán de la física del siglo XX - le respondió: "Einstein, deja de decirle a Dios qué hacer".

Computación clásica

Si queremos entender por qué la mecánica cuántica propone una revolución en la ciencia de la computación tenemos que entender sus diferencias fundamentales con la mecánica - y, por ende - computación clásica. Casi todos hemos oído hablar en algún momento de nuestra vida de los bits de información. Los humanos hemos desarrollado una forma de realizar cálculos matemáticos complejos reduciendo toda la información a bits - las unidades fundamentales de información con las que sabe trabajar una máquina -, que son los famosos ceros y unos (0 y 1). Con dos simples valores, hemos sido capaces de modelar todo nuestro mundo matemático. ¿Y esto por qué? se preguntará alguno. ¿Por qué en base 2 y no 5 o 7? Pues bien, en nuestro mundo físico clásico (en el que vivimos día a día) diferenciar entre 0 y 1 es relativamente sencillo; encendido y apagado, como en el caso de un interruptor eléctrico, o imanación norte o sur, en el caso de un disco duro magnético. Para un mundo binario, hemos desarrollado todo un lenguaje de codificación en base a dos estados: 0 y 1.

Computación cuántica

En computación cuántica en vez de bits, utilizamos los cúbits o qubits. Los qubits utilizan varias propiedades “extrañas” de la mecánica cuántica que les permite representar infinitos estados a la vez entre el cero y uno de los clásicos bits. Para entenderlo, es cómo si un bit solo pudiera representar un estado encendido o apagado en una bombilla, mientras que un qubit puede representar todas las intensidades de iluminación de la bombilla. Esta propiedad es conocida como “superposición cuántica” y permite que un ordenador cuántico explore millones de soluciones posibles al mismo tiempo. Pero esto no es todo en la computación cuántica. Si te parece extraña la superposición cuántica espera a ver el entrelazamiento cuántico (quantum entanglement). Gracias a esta propiedad, dos partículas (o dos qubits) “entrelazadas” están conectadas “a distancia” de forma que el estado de una determina el estado de la otra. Así que, con estas dos propiedades tenemos qubits de información, que pueden representar infinitos estados y están conectados entre ellos. Este sistema tiene potencialmente una capacidad de computación exponencialmente mayor que nuestros ordenadores basados en computación clásica.

Dos casos de aplicación de la computación cuántica

1. Descubrimiento de fármacos y medicina personalizada. Los ordenadores cuánticos pueden simular interacciones moleculares complejas que son imposibles de calcular con la computación clásica. Por ejemplo, el plegamiento de proteínas - fundamental para entender enfermedades como el Alzheimer - requiere analizar trillones de configuraciones posibles. Un ordenador cuántico podría reducir años de investigación a semanas, acelerando el desarrollo de nuevos medicamentos y tratamientos personalizados basados en el perfil genético de cada paciente.

2. Optimización logística y cambio climático. Empresas como Volkswagen ya utilizan computación cuántica para optimizar rutas de tráfico en tiempo real. A mayor escala, estos sistemas podrían revolucionar la gestión energética de ciudades enteras, optimizando redes eléctricas inteligentes que integren renovables de forma eficiente, o diseñar nuevos materiales para captura de CO2 que ayuden a combatir el cambio climático.

Una buena lectura recomendada para hacer un repaso completo por la computación cuántica aquí.

El papel de los datos (y los recursos de computación) abiertos

La democratización del acceso a la computación cuántica dependerá crucialmente de dos pilares: recursos de computación abiertos y datasets públicos de calidad. Esta combinación está creando un ecosistema donde la innovación cuántica ya no requiere millones de dólares en infraestructura. A continuación, vemos algunas opciones disponibles para cada uno de estos pilares.

  1. Acceso gratuito a hardware cuántico real:
  • IBM Quantum Platform: ofrece acceso gratuito mensual a sistemas cuánticos de más de 100 qubits para cualquier persona en el mundo. Con más de 400.000 usuarios registrados que han generado más de 2.800 publicaciones científicas, demuestra cómo el acceso abierto acelera la investigación. Cualquier investigador puede registrarse en la plataforma y comenzar a experimentar en minutos.
  • Open Quantum Institute (OQI): lanzado en CERN (la Organización Europea para la Investigación Nuclear) en 2024, va más allá, proporcionando no solo acceso a computación cuántica sino también mentorización y recursos educativos para regiones desatendidas. Su programa de hackathons en 2025 incluye eventos en Líbano, Emiratos Árabes Unidos y otros países, específicamente diseñados para mitigar la brecha digital cuántica.
  1. Datasets públicos para el desarrollo de algoritmos cuánticos:
  • QDataSet: ofrece 52 conjuntos de datos públicos con simulaciones de sistemas cuánticos de uno y dos qubits, disponibles libremente para entrenar algoritmos de machine learning (ML) cuántico. Investigadores sin recursos para generar sus propios datos de simulación pueden acceder a su repositorio en GitHub y comenzar a desarrollar algoritmos inmediatamente.
  • ClimSim: se trata de un dataset público de modelado relacionado con el clima que ya está siendo usado para demostrar los primeros algoritmos de ML cuántico aplicados al cambio climático. Permite a cualquier equipo, independientemente de su presupuesto, trabajar en problemas climáticos reales usando computación cuántica.
  • PennyLane Datasets: es una colección abierta de moléculas, circuitos cuánticos y sistemas físicos que permite a las startups farmacéuticas sin recursos realizar simulaciones costosas y experimentar con el descubrimiento de fármacos asistido por computación cuántica.

Casos reales de innovación inclusiva

Las posibilidades que ofrece el uso de datos abiertos a la computación cuántica ha quedado patente en diversos casos de uso, fruto de investigaciones concretas y convocatorias de ayudas, como, por ejemplo:

  • El Gobierno de Canadá lanzó en 2022 "Quantum Computing for Climate", una convocatoria específica para que PYMEs y startups desarrollen aplicaciones cuánticas usando datos climáticos públicos, demostrando cómo los gobiernos pueden catalizar innovación proporcionando tanto datos como financiación para su uso.
  • UK Quantum Catalyst Fund (15 millones de libras) financia proyectos que combinan computación cuántica con datos públicos del sistema nacional de salud de Reino Unido (NHS) para problemas como la optimización de redes energéticas y diagnósticos médicos, creando soluciones de interés público verificables por la comunidad científica.
  • El informe 2024 del Open Quantum Institute (OQI) detalla 10 casos de uso para los Objetivos de Desarrollo Sostenible de la ONU desarrollados colaborativamente por expertos de 22 países, donde los resultados y metodologías son públicamente accesibles, permitiendo que cualquier institución replique o mejore estos trabajos).
  • Red.es ha abierto una manifestación de interés dirigida a agentes del ecosistema de tecnologías cuánticas para recopilar ideas, propuestas y necesidades que contribuyan al diseño de las futuras líneas de actuación de la Estrategia Nacional de Tecnologías Cuánticas 2025–2030, financiada con 40 millones de euros provenientes de los Fondos FEDER.


Estado actual de la computación cuántica

Estamos en la era NISQ (Noisy Intermediate-Scale Quantum), término acuñado por el físico John Preskill en 2018, que describe ordenadores cuánticos con 50-100 qubits físicos. Estos sistemas son suficientemente potentes para realizar ciertos cálculos más allá de las capacidades clásicas, pero sufren de decoherencia, errores frecuentes que los hacen poco viables en aplicaciones de mercado.

IBM, Google, y startups como IonQ ofrecen acceso cloud a sus sistemas cuánticos, con IBM proporcionando acceso público a través de IBM Quantum Platform desde 2016, siendo uno de los primeros procesadores cuánticos accesibles públicamente conectados a la nube.

En 2019, Google alcanzó la "supremacía cuántica" con su procesador Sycamore de 53 qubits, que realizó un cálculo en aproximadamente 200 segundos que tomaría aproximadamente 10.000 años a un superordenador clásico de última generación.

Los últimos análisis independientes sugieren que las aplicaciones cuánticas prácticas pueden emerger alrededor de 2035-2040, asumiendo un crecimiento exponencial continuo en las capacidades del hardware cuántico. IBM se ha comprometido a entregar un ordenador cuántico tolerante a fallos a gran escala, IBM Quantum Starling, para 2029, con el objetivo de ejecutar circuitos cuánticos que comprenden 100 millones de compuertas cuánticas en 200 qubits lógicos.

Para finalizar la sección, una fantástica entrevista corta a Ignacio Cirac, uno de los “padres españoles” de la computación cuántica.

La carrera global por el liderazgo cuántico

La competencia internacional por dominar las tecnologías cuánticas ha desencadenado una ola de inversiones sin precedentes. Según McKinsey, hasta 2022 el nivel reconocido oficialmente de inversión pública de China (15.300 millones de dólares) supera el de la Unión Europea (7.200 millones de dólares), Estados Unidos 1.900 millones de dólares) y Japón (1.800 millones de dólares) juntos.

A nivel doméstico, el Reino Unido ha comprometido 2.500 millones de libras durante diez años con su Estrategia Nacional Cuántica para hacer del país un hub global de innovación en esta tecnología, y Alemania ha realizado una de las inversiones estratégicas más grandes en computación cuántica, destinando 3.000 millones de euros bajo su plan de estímulo económico.

La inversión en el primer trimestre de 2025 muestra un crecimiento explosivo: las empresas de computación cuántica recaudaron más de 1.250 mil millones de dólares, más del doble que el año anterior, un aumento del 128%, reflejando una creciente confianza en que esta tecnología está acercándose a la relevancia comercial.

Iniciativa Quantum Spain

En el caso de España se han invertido 60 millones de euros en Quantum Spain, coordinado por el Barcelona Supercomputing Center. El proyecto incluye:

  • Instalación del primer ordenador cuántico del sur de Europa.
  • Red de 25 nodos de investigación distribuidos por todo el país.
  • Formación de talento cuántico en universidades españolas.
  • Colaboración con el sector empresarial para casos de uso reales.

Esta iniciativa posiciona a España como hub cuántico del sur de Europa, crucial para no depender tecnológicamente de otras potencias.

Además, muy recientemente se ha presentado la Estrategia de Tecnologías Cuánticas de España con una inversión de 800 millones de euros. Esta estrategia se estructura en 4 objetivos estratégicos y 7 acciones prioritarias.

Objetivos estratégicos:

  • Reforzar la I+D+I para favorecer la transferencia de conocimiento y facilitar que la investigación llegue al mercado.
  • Crear un mercado español cuántico, fomentando el crecimiento y aparición de empresas cuánticas y su capacidad de acceder a capital y de satisfacer la demanda.
  • Preparar a la sociedad para un cambio disruptivo, fomentando la seguridad y la reflexión sobre un nuevo derecho digital, la privacidad postcuántica.
  • Consolidar el ecosistema cuántico de manera que traccione una visión de país.

Acciones prioritarias:

  • Prioridad 1: Potenciar las empresas españolas en tecnologías cuánticas.
  • Prioridad 2: Desarrollar la algoritmia y convergencia tecnológica entre IA y Cuántica.
  • Prioridad 3: Posicionar a España cómo un referente en comunicaciones cuánticas.
  • Prioridad 4: Demostrar el impacto de la sensórica y metrología cuántica.
  • Prioridad 5: Garantizar la privacidad y confidencialidad de la información en el mundo post cuántico.
  • Prioridad 6: Reforzar las capacidades: infraestructuras, investigación y talento.
  • Prioridad 7: Desarrollar un ecosistema español cuántico sólido, coordinado y líder en la UE.


Figura 1. Estrategia de tecnologías cuánticas de España. Fuente: elaboración propia

En definitiva, la computación cuántica y los datos abiertos representan una gran evolución tecnológica que afecta a la forma en que generamos y aplicamos el conocimiento. Si somos capaces de construir un ecosistema verdaderamente inclusivo —donde el acceso a hardware cuántico, datasets públicos y formación especializada esté al alcance de cualquiera— abriremos la puerta a una nueva era de innovación colaborativa con un gran impacto global. 

Contenido elaborado por Alejandro Alija, experto en Transformación Digital e Innovación. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor

calendar icon
Noticia

El portal europeo de datos abiertos ha publicado el tercer volumen de su Observatorio de Casos de Uso (Use Case Observatory, en inglés), un informe que recopila la evolución de proyectos de reutilización de datos en toda Europa. Esta iniciativa pone de relieve los avances logrados en cuatro áreas: impacto económico, gubernamental, social y medioambiental.

El cierre de una investigación de tres años

Entre 2022 y 2025, el portal europeo de datos abiertos ha llevado a cabo un seguimiento sistemático de la evolución de diversos proyectos europeos. La investigación comenzó con una selección inicial de 30 iniciativas representativas, que fueron analizadas en profundidad para identificar su potencial de impacto.

Tras dos años, 13 proyectos continuaron en el estudio, entre los que se encontraban tres españoles: PlanttesTangible DataUniversiDATA-Lab. Se estudió su desarrollo a lo largo del tiempo para comprender cómo la reutilización de datos abiertos puede generar beneficios reales y sostenibles.

La publicación del volumen III en octubre de 2025 marca el cierre de esta serie de informes, tras el volumen I (2022) y el volumen II (2024). Este último documento ofrece una visión longitudinal, mostrando cómo los proyectos han madurado en tres años de observación y qué impactos concretos han generado en sus respectivos contextos.

Conclusiones comunes

Este tercer y último informe recopila una serie de conclusiones clave:

Impacto económico

Los datos abiertos impulsan el crecimiento y la eficiencia en todos los sectores. Contribuyen a la creación de empleo, tanto de forma directa como indirecta, facilitan procesos de contratación más inteligentes y estimulan la innovación en ámbitos como la planificación urbana y los servicios digitales.

El informe muestra el ejemplo de:

  •  Naar Jobs (Bélgica): una aplicación para la búsqueda de empleo cerca del domicilio de los usuarios y focalizada en las opciones de transporte disponible.

Esta aplicación demuestra cómo los datos abiertos pueden convertirse en un motor para el empleo regional y el desarrollo empresarial.

Impacto gubernamental

La apertura de datos fortalece la transparencia, la rendición de cuentas y la participación ciudadana.

A este campo pertenecen dos casos de uso analizados:

Ambos ejemplos evidencian cómo el acceso a la información pública empodera a los ciudadanos, enriquece el trabajo de los medios de comunicación y respalda la elaboración de políticas basadas en evidencia. Todo ello ayuda a reforzar los procesos democráticos y la confianza en las instituciones.

Impacto social

Los datos abiertos promueven la inclusión, la colaboración y el bienestar.

A este campo pertenecen las siguientes iniciativas analizadas:

  • UniversiDATA-Lab (España): repositorio de datos universitarios que facilita aplicaciones analíticas.
  • VisImE-360 (Italia): herramienta para mapear la discapacidad visual y orientar recursos sanitarios.
  • Tangible Data (España): empresa centrada en realizar esculturas físicas que convierten datos en experiencias accesibles.
  • EU Twinnings (Países Bajos): plataforma que compara regiones europeas para encontrar “ciudades gemelas”
  • Open Food Facts (Francia): base de datos colaborativa sobre productos alimenticios.
  • Integreat (Alemania): aplicación que centraliza información pública para apoyar la integración de migrantes.

Todos ellos muestran cómo las soluciones basadas en datos pueden amplificar la voz de los colectivos vulnerables, mejorar los resultados en salud y abrir nuevas oportunidades educativas. Incluso los efectos más pequeños, como la mejora en la vida de una sola persona, pueden resultar significativos y duraderos.

Impacto medioambiental

Los datos abiertos actúan como un poderoso facilitador de la sostenibilidad.

Al igual que pasaba con el impacto ambiental, en esta área encontramos un gran número de casos de uso:

  • Digital Forest Dryads (Estonia): proyecto que emplea datos para monitorizar los bosques y fomentar su conservación.
  • Air Quality in Cyprus (Chipre): plataforma que informa sobre la calidad del aire y apoya políticas ambientales.
  • Planttes (España): aplicación de ciencia ciudadana que ayuda a personas con alergias al polen mediante el seguimiento de la fenología de plantas.
  • Environ-Mate (Irlanda): herramienta que promueve hábitos sostenibles y conciencia ecológica.

Estas iniciativas ponen de relieve cómo la reutilización de datos contribuye a sensibilizar, impulsar cambios de comportamiento y permitir intervenciones específicas para proteger los ecosistemas y fortalecer la resiliencia climática.

El volumen III también señala retos comunes: la necesidad de financiación sostenible, la importancia de combinar datos institucionales con datos generados por la ciudadanía y la conveniencia de involucrar a los usuarios finales en todo el ciclo de vida de los proyectos. Además, subraya la importancia de la colaboración europea y la interoperabilidad transnacional para escalar el impacto.

En conjunto, el informe refuerza la relevancia de seguir invirtiendo en ecosistemas de datos abiertos como herramienta clave para afrontar desafíos sociales y promover una transformación inclusiva.

El impacto de los proyectos españoles en la reutilización de datos abiertos

Como hemos mencionado, tres de los casos de uso analizados en el Use Case Observatory tienen sello español. Estas iniciativas destacan por su capacidad de combinar innovación tecnológica con impacto social y medioambiental, y ponen de manifiesto la relevancia de España dentro del ecosistema europeo de datos abiertos. Su trayectoria demuestra cómo nuestro país contribuye activamente a transformar los datos en soluciones que mejoran la vida de las personas y refuerzan la sostenibilidad y la inclusión. A continuación, hacemos un zoom en lo que el informe dice sobre ellas.

Planttes

Esta iniciativa de ciencia ciudadana ayuda a personas con alergias al polen mediante información en tiempo real sobre plantas alergénicas en floración. Desde su aparición en el Volumen I del Use Case Observatory, ha evolucionado como plataforma participativa en la que los usuarios aportan fotos y datos fenológicos para crear un mapa de riesgo personalizado. Este modelo participativo ha permitido mantener un flujo constante de información validada por investigadores y ofrecer mapas cada vez más completos. Con más de 1.000 descargas iniciales y unos 65.000 visitantes anuales en su web, es una herramienta útil para personas con alergias, educadores e investigadores.

El proyecto ha reforzado su presencia digital, con una creciente visibilidad gracias al apoyo de instituciones como la Universidad Autónoma de Barcelona y la Universidad de Granada, además de la promoción realizada por la empresa Thigis.

Entre sus retos figuran ampliar la cobertura geográfica más allá de Cataluña y Granada y sostener la participación y validación de datos. Por ello, de cara al futuro, busca extender su alcance territorial, fortalecer la colaboración con escuelas y comunidades, integrar más datos en tiempo real y mejorar sus capacidades predictivas.

A lo largo de este tiempo, Planttes se ha consolidado como un ejemplo de cómo la ciencia impulsada por la ciudadanía puede mejorar la salud pública y la conciencia ambiental, demostrando el valor de la ciencia ciudadana en la educación ambiental, la gestión de alergias y el seguimiento del cambio climático.

Tangible data

El proyecto transforma conjuntos de datos en esculturas físicas que representan retos globales como el cambio climático o la pobreza, integrando códigos QR y NFC para contextualizar la información. Reconocido en los EU Open Data Days 2025, Tangible Data ha inaugurado su instalación Tangible climate en el Museo Nacional de Ciencias Naturales de Madrid.

Tangible Data ha evolucionado en tres años desde un proyecto prototipo basado en esculturas 3D para visualizar datos de sostenibilidad hasta convertirse en una plataforma educativa y cultural que conecta los datos abiertos con la sociedad. El Volumen III del Use Case Observatory refleja su expansión en escuelas y museos, la creación de un programa educativo para estudiantes de 15 años y el desarrollo de experiencias interactivas con inteligencia artificial, consolidando su compromiso con la accesibilidad y el impacto social.

Entre sus retos destacan la financiación y la ampliación del programa educativo, mientras que sus objetivos futuros incluyen escalar las actividades escolares, exhibir esculturas de gran formato en espacios públicos y reforzar la colaboración con artistas y museos. En conjunto, sigue fiel a su misión de hacer los datos tangibles, inclusivos y accionables.

UniversiDATA-Lab

UniversiDATA-Lab es un repositorio dinámico de aplicaciones analíticas basadas en datos abiertos de universidades españolas, creado en 2020 como colaboración público-privada y actualmente integrado por seis instituciones. Su infraestructura unificada facilita la publicación y reutilización de datos en formatos estandarizados, reduciendo barreras y permitiendo que estudiantes, investigadores, empresas y ciudadanos accedan a información útil para la educación, la investigación y la toma de decisiones.

En los últimos tres años, el proyecto ha pasado de ser un prototipo a una plataforma consolidada, con aplicaciones activas como el visor de presupuestos y de jubilaciones, y un visor de contratación en fase beta. Además, organiza un datathon periódico que impulsa la innovación y proyectos con impacto social.

Entre sus retos destacan la resistencia interna en algunas universidades y la compleja anonimización de datos sensibles, aunque ha respondido con protocolos sólidos y un enfoque en la transparencia. De cara al futuro, busca ampliar su catálogo, sumar nuevas universidades y lanzar aplicaciones sobre cuestiones emergentes como abandono escolar, diversidad del profesorado o sostenibilidad, aspirando a convertirse en referente europeo en reutilización de datos abiertos en educación superior.

Conclusión

Como conclusión, el tercer volumen del Use Case Observatory confirma que los datos abiertos se han consolidado como una herramienta clave para impulsar la innovación, la transparencia y la sostenibilidad en Europa. Los proyectos analizados —y en particular las iniciativas españolas Planttes, Tangible Data y UniversiDATA-Lab— demuestran que la reutilización de la información pública puede traducirse en beneficios concretos para la ciudadanía, la educación, la investigación y el medio ambiente.

calendar icon
Blog

En todo entorno de gestión de datos (empresas, Administración pública, consorcios, proyectos de investigación), disponer de datos no basta: si no sabes qué datos tienes, dónde están, qué significan, quién los mantiene, con qué calidad, cuándo cambiaron o cómo se relacionan con otros datos, entonces el valor es muy limitado. Los metadatos —datos sobre los datos— son esenciales para:

  • Visibilidad y acceso: permitir que usuarios encuentren qué datos existen y puedan acceder.

  • Contextualización: saber qué significan los datos (definiciones, unidades, semántica).

  • Trazabilidad / linaje: entender de dónde vienen los datos y cómo han sido transformados.

  • Gobierno y control: conocer quién es responsable, qué políticas aplican, permisos, versiones, obsolescencia.

  • Calidad, integridad y consistencia: asegurar la fiabilidad de los datos mediante reglas, métricas y monitoreo.

  • Interoperabilidad: garantizar que diferentes sistemas o dominios puedan compartir datos, utilizando un vocabulario común, definiciones compartidas y relaciones explícitas.

En resumen, los metadatos son la palanca que convierte los datos “aislados” en un ecosistema de información gobernada. A medida que los datos crecen en volumen, diversidad y velocidad, su función va más allá de la simple descripción: los metadatos añaden contexto, permiten interpretar los datos y facilitan que puedan ser encontrados, accesibles, interoperables y reutilizables (FAIR).

En el nuevo contexto impulsado por la inteligencia artificial, esta capa de metadatos adquiere una relevancia aún mayor, ya que proporciona la información de procedencia (provenance) necesaria para garantizar la trazabilidad, la fiabilidad y la reproducibilidad de los resultados. Por ello, algunos marcos recientes amplían estos principios hacia FAIR-R, donde la “R” adicional resalta la importancia de que los datos estén listos para la IA (AI-ready), es decir, que cumplen una serie de requisitos técnicos, estructurales y de calidad que optimizan su aprovechamiento por parte de los algoritmos de inteligencia artificial.

Así, hablamos de metadatos enriquecidos, capaces de conectar información técnica, semántica y contextual para potenciar el aprendizaje automático, la interoperabilidad entre dominios y la generación de conocimiento verificable.

De los metadatos tradicionales a los “metadatos enriquecidos”

Metadatos tradicionales

En el contexto de este artículo, cuando hablamos de metadatos con un uso tradicional, pensamos en catálogos, diccionarios, glosarios, modelos de datos de base de datos, y estructuras rígidas (tablas y columnas). Los tipos de metadatos más comunes son:

  • Metadatos técnicos: tipo de columna, longitud, formato, claves foráneas, índices, ubicaciones físicas.

  • Metadatos de negocio / semánticos: nombre de campo, descripción, dominio de valores, reglas de negocio, términos del glosario empresarial.

  • Metadatos operativos / de ejecución: frecuencia de actualización, última carga, tiempos de procesamiento, estadísticas de uso.

  • Metadatos de calidad: porcentaje de valores nulos, duplicados, validaciones.

  • Metadatos de seguridad / acceso: políticas de acceso, permisos, clasificación de sensibilidad.

  • Metadatos de linaje: rastreo de transformación en los pipelines de datos.

Estos metadatos se almacenan usualmente en repositorios o herramientas de catalogación, muchas veces con estructuras tabulares o en bases relacionales, con vínculos predefinidos.

¿Por qué metadatos enriquecidos?

Los metadatos enriquecidos son aquella capa que no solo describe atributos, sino que:

  • Descubren e infieren relaciones implícitas, identificando vínculos que no están expresamente definidos en los esquemas de datos. Esto permite, por ejemplo, reconocer que dos variables con nombres diferentes en sistemas distintos representan en realidad el mismo concepto (“altitud” y “elevación”), o que ciertos atributos mantienen una relación jerárquica (“municipio” pertenece a “provincia”).
  • Facilitan consultas semánticas y razonamiento automatizado, permitiendo que los usuarios y las máquinas exploren relaciones y patrones que no están explícitamente definidos en las bases de datos. En lugar de limitarse a buscar coincidencias exactas de nombres o estructuras, los metadatos enriquecidos permiten formular preguntas basadas en significado y contexto. Por ejemplo, identificar automáticamente todos los conjuntos de datos relacionados con “ciudades costeras” aunque el término no aparezca literalmente en los metadatos.
  • Se adaptan y evolucionan de manera flexible, ya que pueden ampliarse con nuevos tipos de entidades, relaciones o dominios sin necesidad de rediseñar toda la estructura del catálogo. Esto permite incorporar fácilmente nuevas fuentes de datos, modelos o estándares, garantizando la sostenibilidad del sistema a largo plazo.
  • Incorporan automatización en tareas que antes eran manuales o repetitivas, como la detección de duplicidades, el emparejamiento automático de conceptos equivalentes o el enriquecimiento semántico mediante aprendizaje automático. También pueden identificar incoherencias o anomalías, mejorando la calidad y la coherencia de los metadatos.
  • Integran de forma explícita el contexto de negocio, enlazando cada activo de datos con su significado operativo y su rol dentro de los procesos organizativos. Para ello utilizan vocabularios controlados, ontologías o taxonomías que facilitan un entendimiento común entre equipos técnicos, analistas y responsables de negocio.
  • Favorecen una interoperabilidad más profunda entre dominios heterogéneos, que va más allá del intercambio sintáctico facilitado por los metadatos tradicionales. Los metadatos enriquecidos añaden una capa semántica que permite comprender y relacionar los datos en función de su significado, no solo de su formato. Así, datos procedentes de diferentes fuentes o sectores —por ejemplo, Sistemas de información Geográfica (GIS en inglés), Building Information Modeling (BIM) o Internet de las Cosas (IoT)— pueden vincularse de manera coherente dentro de un marco conceptual compartido. Esta interoperabilidad semántica es la que posibilita integrar conocimiento y reutilizar información entre contextos técnicos y organizativos diversos.

Esto convierte los metadatos en un activo vivo, enriquecido y conectado con el conocimiento del dominio, no solo un “registro” pasivo. 


La evolución de los metadatos: ontologías y grafos de conocimiento

La incorporación de ontologías y grafos de conocimiento representa una evolución conceptual en la manera de describir, relacionar y aprovechar los metadatos, de ahí que hablemos de metadatos enriquecidos. Estas herramientas no solo documentan los datos, sino que los conectan dentro de una red de significado, permitiendo que las relaciones entre entidades, conceptos y contextos sean explícitas y computables.

En el contexto actual, marcado por el auge de la inteligencia artificial, esta estructura semántica adquiere un papel fundamental: proporciona a los algoritmos el conocimiento contextual necesario para interpretar, aprender y razonar sobre los datos de forma más precisa y transparente. Ontologías y grafos permiten que los sistemas de IA no solo procesen información, sino que entiendan las relaciones entre los elementos y puedan generar inferencias fundamentadas, abriendo el camino hacia modelos más explicativos y confiables.

Este cambio de paradigma transforma los metadatos en una estructura dinámica, capaz de reflejar la complejidad del conocimiento y de facilitar la interoperabilidad semántica entre distintos dominios y fuentes de información. Para comprender esta evolución conviene definir y relacionar algunos conceptos:

Ontologías

En el mundo de los datos, una ontología es un mapa conceptual muy organizado que define claramente:

  • Qué entidades existen (ej. ciudad, río, carretera).
  • Qué propiedades tienen (ej. una ciudad tiene nombre, población, código postal).
  • Cómo se relacionan entre sí (ej. un río atraviesa una ciudad, una carretera conecta dos municipios).

El objetivo es que personas y máquinas compartan un mismo vocabulario y entiendan los datos de la misma manera. Las ontologías permiten:

  • Definir conceptos y relaciones: por ejemplo, “una parcela pertenece a un municipio”, “un edificio tiene coordenadas geográficas”.
  • Poner reglas y restricciones: como “cada edificio debe estar exactamente en una parcela catastral”.
  • Unificar vocabularios: si en un sistema se dice “parcela” y en otro “unidad catastral”, la ontología ayuda a reconocer que son análogos.
  • Hacer inferencias: a partir de datos simples, descubrir nuevo conocimiento (si un edificio está en una parcela y la parcela en Sevilla, se puede inferir que el edificio está en Sevilla).
  • Establecer un lenguaje común: funcionan como un diccionario compartido entre distintos sistemas o dominios (GIS, BIM, IoT, catastro, urbanismo).

En resumen: una ontología es el diccionario y las reglas del juego que permiten que diferentes sistemas geoespaciales (mapas, catastro, sensores, BIM, etc.) se entiendan entre sí y puedan trabajar de manera integrada.

Grafos de conocimiento (Knowledge Graphs)

Un grafo de conocimiento es una forma de organizar información como si fuera una red de conceptos conectados entre sí.

  • Los nodos representan cosas o entidades, como una ciudad, un río o un edificio.

  • Las aristas (líneas) muestran las relaciones entre ellas, por ejemplo: “está en”, “atraviesa” o “pertenece a”.

  • A diferencia de un simple dibujo de conexiones, un grafo de conocimiento también explica el significado de esas relaciones: añade semántica.

Un grafo de conocimiento combina tres elementos principales:

  1. Datos: los casos concretos o instancias, como “Sevilla”, “Río Guadalquivir” o “Edificio Ayuntamiento de Sevilla”.

  2. Semántica (u ontología): las reglas y vocabularios que definen qué tipos de cosas existen (ciudades, ríos, edificios) y cómo pueden relacionarse entre sí.

  3. Razonamiento: la capacidad de descubrir nuevas conexiones a partir de las existentes (por ejemplo, si un río atraviesa una ciudad y esa ciudad está en España, el sistema puede deducir que el río está en España).

Además, los grafos de conocimiento permiten conectar información de distintos ámbitos (por ejemplo, datos sobre personas, lugares y empresas) bajo un mismo lenguaje común, facilitando el análisis y la interoperabilidad entre disciplinas.

En otras palabras, un knowledge graph es el resultado de aplicar una ontología (el modelo de datos) a varios conjuntos de datos individuales (elementos espaciales, otros datos del territorio, registros de pacientes o productos de catálogo, etc.). Los grafos de conocimiento son ideales para integrar datos heterogéneos, porque no requieren un esquema rígido previamente completo: se pueden ir creciendo de forma flexible. Además, permiten consultas semánticas y navegación con relaciones complejas. A continuación, se pone un ejemplo para datos espaciales con los que entender las diferencias:

Ontología de datos espaciales (modelo conceptual)

Grafo de conocimiento (ejemplos concretos con instancias)

  • Clases: Río, Océano, Edificio, Carretera, Ciudad.

  • Nodos concretos: "Río Guadalquivir", "Océano Atlántico", "Edificio Ayuntamiento de Sevilla", "Carretera A-4", "Ciudad Sevilla" "Ciudad Cádiz"
  • Relaciones:
    • Río → desemboca en → Océano.
    • Ciudad → contiene → Edificio
    • Carretera → conecta → Ciudad
  • Relaciones:

    • Río Guadalquivir → desemboca en → Océano Atlántico

    • Ciudad de Sevilla → contiene → Edificio Ayuntamiento de Sevilla

    • Carretera A-4 → conecta → Ciudad de Sevilla y Ciudad de Cádiz.

Casos de uso

Para entender mejor el valor de los metadatos inteligentes y los catálogos semánticos, nada mejor que mirar ejemplos donde ya se están aplicando. Estos casos muestran cómo la combinación de ontologías y grafos de conocimiento permite conectar información dispersa, mejorar la interoperabilidad y generar conocimiento accionable en distintos contextos.

Desde la gestión de emergencias hasta la planificación urbana o la protección del medio ambiente, diferentes proyectos internacionales han demostrado que la semántica no es solo teoría, sino una herramienta práctica que transforma datos en decisiones.

Algunos ejemplos relevantes incluyen:

  • LinkedGeoData que convirtió datos de OpenStreetMap en Linked Data, enlazándolos con otras fuentes abiertas.
  • Virtual Singapore un gemelo digital 3D que integra datos geoespaciales, urbanos y en tiempo real para simulación y planificación.
  • JedAI-spatial una herramienta para interconectar datos espaciales en 3D mediante relaciones semánticas.
  • SOSA Ontology, estándar ampliamente usado en proyectos de sensores e IoT para observaciones ambientales con componente geoespacial.
  • Proyectos europeos de permisos digitales de construcción (ej. ACCORD), que combinan catálogos semánticos, modelos BIM y datos GIS para validar automáticamente normativas de construcción.

Conclusiones

La evolución hacia metadatos enriquecidos, apoyados en ontologías, grafos de conocimiento y principios FAIR-R, representa un cambio sustancial en la manera de gestionar, conectar y comprender los datos. Este nuevo enfoque convierte los metadatos en un componente activo de la infraestructura digital, capaz de aportar contexto, trazabilidad y significado, y no solo de describir información.

Los metadatos enriquecidos permiten aprender de los datos, mejorar la interoperabilidad semántica entre dominios y facilitar consultas más expresivas, donde las relaciones y dependencias pueden descubrirse de forma automatizada. De este modo, favorecen la integración de información dispersa y apoyan tanto la toma de decisiones informadas como el desarrollo de modelos de inteligencia artificial más explicativos y confiables.

En el ámbito de los datos abiertos, estos avances impulsan la transición desde repositorios descriptivos hacia ecosistemas de conocimiento interconectado, donde los datos pueden combinarse y reutilizarse de manera flexible y verificable. La incorporación de contexto semántico y procedencia (provenance) refuerza la transparencia, la calidad y la reutilización responsable.

Esta transformación requiere, sin embargo, un enfoque progresivo y bien gobernado: es fundamental planificar la migración de sistemas, garantizar la calidad semántica, y promover la participación de comunidades multidisciplinares.

En definitiva, los metadatos enriquecidos son la base para pasar de datos aislados a conocimiento conectado y trazable, elemento clave para la interoperabilidad, la sostenibilidad y la confianza en la economía de los datos.

Contenido elaborado por Mayte Toscano, Senior Consultant en Tecnologías ligadas a la economía del dato. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autora

calendar icon
Evento

La Diputación Foral de Bizkaia ha lanzado el Reto del Periodismo de Datos, un concurso dirigido a premiar la creatividad, el rigor y el talento en el uso de datos abiertos. Esta iniciativa busca impulsar proyectos periodísticos que utilicen los datos públicos disponibles en la plataforma Open Data Bizkaia para crear contenidos informativos con un fuerte componente visual. Ya sea a través de gráficos interactivos, mapas, vídeos animados o reportajes profundos, el objetivo es transformar los datos en narrativas que conecten con la ciudadanía.

¿Quién puede participar?

La convocatoria está abierta a personas físicas mayores de 18 años, tanto de forma individual como en equipos de hasta cuatro integrantes. Cada participante podrá presentar propuestas en una o varias de las categorías disponibles.

Es una oportunidad de especial relevancia para estudiantes, personas emprendedoras, desarrolladoras y desarrolladores, profesionales del diseño o periodistas con interés en los datos abiertos.

Tres categorías para impulsar el uso de los datos abiertos

El concurso se divide en tres categorías, cada una con su propio enfoque y criterios de evaluación:

  1. Representación dinámica de datos: proyectos que presenten datos de forma interactiva, clara y visualmente atractiva.

  2. Data storytelling a través del vídeo de animación: narrativas audiovisuales que expliquen fenómenos o tendencias usando datos públicos.

  3. Reportaje + Datos: artículos periodísticos que integren análisis de datos con investigación y profundidad informativa.

Como hemos mencionado previamente, todos los proyectos deben basarse en los datos públicos disponibles en la plataforma Open Data Bizkaia, que ofrece información sobre múltiples áreas: economía, medio ambiente, movilidad, salud, cultura, etc. Es una fuente rica y accesible para construir historias relevantes y bien fundamentadas.

Hasta 4.500 euros en premios

Para cada categoría se otorgarán los siguientes premios:

  • Primer lugar: 1.500 euros

  • Segundo lugar: 750 euros

Los premios estarán sujetos a las retenciones fiscales correspondientes. Dado que una misma persona puede presentar propuestas a varias categorías, y que estas serán evaluadas de manera independiente, es posible que un único participante gane más de un premio. Por tanto, un único participante podrá llevarse hasta 4.500 euros, si gana en las tres categorías.

¿Cuáles son los criterios de evaluación?

La concesión de los premios se realizará mediante el procedimiento de concurrencia competitiva. Todos los proyectos recibidos en el periodo habilitado para ello serán evaluados por el jurado, conforme a una serie de criterios específicos para cada categoría:

  1. Representación dinámica de datos:

  • Claridad comunicativa (30%)

  • Interactividad (25%)

  • Diseño y usabilidad (20%)

  • Originalidad en la representación (15%)

  • Rigor y fidelidad de los datos (10%)

  1. Data storytelling en vídeo de animación

  • Narrativa y guion (30%)

  • Creatividad visual e innovación técnica (25%)

  • Claridad informativa (20%)

  • Impacto emocional y estético (15%)

  • Uso riguroso y honesto de los datos (10%)

  1. Reportaje + Datos

  • Calidad periodística y profundidad analítica (30%)

  • Integración narrativa de los datos (25%)

  • Originalidad en el enfoque y el formato (20%)

  • Diseño y experiencia de usuario (15%)

  • Transparencia y trazabilidad de las fuentes (10%)

¿Cómo se presentan las solicitudes?

El plazo para presentar los proyectos comenzó el 3 de noviembre y estará abierto hasta el 3 de diciembre de 2025 a las 23:59. Las solicitudes podrán presentarse de diversas maneras:

  • Electrónicamente, a través de la sede electrónica de Bizkaia, utilizando el código de trámite 2899.

  • Presencialmente, en el Registro General de la Oficina Laguntza (c/ Diputación, 7, Bilbao), en cualquier otro registro público o en las oficinas de Correos.

En el caso de proyectos grupales, se deberá presentar una única solicitud firmada por una persona representante. Esta persona asumirá la interlocución con la Dirección General organizadora, encargándose de los trámites y del cumplimiento de las obligaciones correspondientes.

La documentación que se debe presentar es:

  • El proyecto a evaluar.

  • El certificado de estar al corriente en las obligaciones tributarias.

  • El certificado de estar al corriente en las obligaciones con la Seguridad Social.

  • La ficha de domiciliación bancaria, solo en caso de que la persona solicitante se oponga que esta Administración compruebe los datos bancarios por sus propios medios.

Información de contacto

Para consultas o información adicional, se puede contactar con la Diputación Foral de Bizkaia. En concreto, con el Departamento de Administración Pública y Relaciones Institucionales, Sección de Asesoramiento Técnico c/ Gran Vía, 2 (48009) en la ciudad de Bilbao. También se atenderán dudas en el teléfono 944 068 000 y en el correo electrónico SAT@bizkaia.eus.

Este concurso representa una oportunidad para explorar el potencial del periodismo de datos y contribuir a una comunicación más transparente y accesible. Los proyectos presentados podrán de manifiesto el potencial de los datos abiertos para facilitar la comprensión de temas de interés público, de forma clara y sencilla.

Para más detalles, se recomienda leer la información disponible en su página web.

calendar icon
Noticia

El pasado 6 de octubre se aprobó el V Plan de Gobierno Abierto, una iniciativa que da continuidad al compromiso de las Administraciones públicas con la transparencia, la participación ciudadana y la rendición de cuentas. Este nuevo plan, que estará vigente hasta 2029, recoge 218 medidas agrupadas en 10 compromisos que afectan a los diversos niveles de la Administración.

En este artículo vamos a repasar las claves del Plan, centrándonos en aquellos compromisos relacionados con los datos y el acceso a la información pública.

Un documento fruto de la colaboración

El proceso de elaboración del V Plan de Gobierno Abierto se ha desarrollado de forma participativa y colaborativa, con el objetivo de recoger propuestas de distintos actores sociales. Para ello, se abrió una consulta pública en la que ciudadanos, organizaciones de la sociedad civil y representantes institucionales pudieron aportar ideas y sugerencias. También se desarrollaron una serie de talleres deliberativos. En total, se recibieron 620 aportaciones de la sociedad civil y más de 300 propuestas de ministerios, comunidades y ciudades autónomas, y representantes de las entidades locales.

Estas contribuciones se analizaron y se integraron en los compromisos del plan, que fueron posteriormente validados por el Foro de Gobierno Abierto. El resultado es un documento que refleja una visión compartida sobre cómo avanzar en transparencia, participación y rendición de cuentas en el conjunto de las Administraciones públicas.

10 líneas de acción principales con un papel destacado para los datos abiertos

Futo de ese trabajo colaborativo, se han fijado 10 líneas de acción. Los nueve primeros compromisos recogen iniciativas de la Administración General del Estado (AGE), mientras que el décimo agrupa las aportaciones de comunidades autónomas y entidades locales:

  1. Participación y espacio cívico.
  2. Transparencia y acceso a la información.
  3. Integridad y rendición de cuentas.
  4. Administración abierta.
  5. Gobernanza digital e inteligencia artificial.
  6. Apertura fiscal: cuentas claras y abiertas.
  7. Información veraz / ecosistema informativo.
  8. Difusión, formación y promoción del gobierno abierto.
  9. Observatorio de gobierno abierto.
  10. Estado abierto.


Figura 1. 10 líneas de acción del V Plan de Gobierno Abierto. Fuente: Ministerio de Inclusión, Seguridad Social y Migraciones.

Los datos y la información pública son un elemento clave en todos ellos. No obstante, la mayoría de medidas relacionadas con este campo las encontramos dentro de la línea de acción 2, donde se sitúa un apartado específico sobre apertura y reutilización de datos de la información pública. Entre las medidas previstas, se contempla:

  • Modelo de gobernanza de datos: se propone crear un marco normativo que facilite el uso responsable y eficiente del dato público en la AGE. Incluye la regulación de órganos colegiados para el intercambio de datos, la aplicación de normativa europea y la creación de espacios institucionales para diseñar políticas públicas basadas en datos.
  • Estrategia del dato para una administración centrada en el ciudadano: se busca establecer un marco estratégico para el uso ético y transparente de los datos en la Administración.
  • Publicación de microdatos de encuestas electorales: se modificará la Ley Electoral para incluir la obligación de publicar los microdatos anonimizados de las encuestas electorales. Esto permite mejorar la fiabilidad de los estudios y facilitar el acceso abierto a datos individuales para su análisis.
  • Apoyo a entidades locales en la apertura de datos: se ha lanzado un programa de ayudas para fomentar la apertura de datos homogéneos y de calidad en las entidades locales mediante convocatorias y/o convenios de colaboración. Además, se promoverá su reutilización mediante acciones de sensibilización, desarrollo de soluciones demostradoras y colaboración interadministrativa para impulsar la innovación pública.
  • Apertura de datos en la Administración de Justicia: se continuarán publicando datos oficiales sobre justicia en portales públicos, con el objetivo de hacer la Administración de Justicia más transparente y accesible.
  • Acceso e integración de información geoespacial de alto valor: se busca facilitar la reutilización de datos espaciales de alto valor en categorías como geoespacial, medio ambiente y movilidad. La medida incluye el desarrollo de mapas digitales, bases topográficas y una API para mejorar el acceso a esta información por parte de ciudadanos, administraciones y empresas.
  • Datos abiertos del BORME: se trabajará para fomentar la publicación del contenido del Boletín Oficial del Registro Mercantil, especialmente la sección de empresarios, como datos abiertos en formatos legibles por máquina y accesibles mediante API.
  • Bases de datos del Archivo Central de Hacienda: se impulsa la puesta a disposición pública de los registros del Archivo Central del Ministerio de Hacienda que no contengan datos personales ni estén sujetos a restricciones legales.
  • Acceso seguro a datos públicos confidenciales para investigación e innovación: se quiere establecer un marco de gobernanza y entornos controlados que permitan a investigadores acceder de forma segura y ética a datos públicos sujetos a confidencialidad.
  • Fomento del uso secundario del dato de salud: se continuará trabajando en el Espacio Nacional de Datos de Salud (ENDS), alineado con la normativa europea, para facilitar el uso de datos sanitarios con fines de investigación, innovación y políticas públicas. La medida incluye el fomento de infraestructuras técnicas, marcos normativos y garantías éticas para proteger la privacidad de los ciudadanos.
  • Impulso de ecosistemas de datos para el progreso social: se busca promover espacios colaborativos de datos entre entidades públicas y privadas, bajo reglas claras de gobernanza. Estos ecosistemas ayudarán a desarrollar soluciones innovadoras que respondan a necesidades sociales, fomentando la confianza, la transparencia y el retorno justo de beneficios a la ciudadanía.
  • Puesta en valor del dato público de calidad para ciudadanos y empresas: se continuará impulsando la generación de datos de calidad en los diferentes ministerios y organismos, para que se integren en el catálogo centralizado de información reutilizable de la AGE.
  • Evolución de la plataforma datos.gob.es: se continúa trabajando en la optimización de datos.gob.es,. Esta medida forma parte de un continuo enriquecimiento para hacer frente a las cambiantes necesidades ciudadanas y tendencias emergentes.

Además de en este epígrafe específico, también se incluyen medidas relacionadas con los datos abiertos en otros apartados. Por ejemplo, la medida 3.5.5 propone transformar la Plataforma de Contratación del Sector Público en una herramienta avanzada que utilice Big Data e Inteligencia Artificial para reforzar la transparencia y prevenir la corrupción. Los datos abiertos juegan aquí un papel central, ya que permiten realizar auditorías masivas y análisis estadísticos para detectar patrones irregulares en los procesos de contratación. Además, al facilitar el acceso ciudadano a esta información, se promueve la fiscalización social y el control democrático sobre el uso de fondos públicos.

Otro ejemplo lo encontramos en la medida 4.1.1, donde se propone desarrollar una herramienta digital para la Administración General del Estado que incorpore desde su diseño los principios de transparencia y dato abierto. El sistema permitiría la trazabilidad, conservación, acceso y reutilización de documentos públicos, integrando criterios archivísticos, lenguaje claro y normalización documental. Además, se vincularía con el Catálogo Nacional de Datos Abiertos para asegurar que la información esté disponible en formatos abiertos y reutilizables.

El documento no solo resalta las posibilidades de los datos abiertos: también destaca las oportunidades que ofrece la Inteligencia Artificial tanto en la mejora del acceso a la información pública como en la generación de datos abiertos útiles para la toma de decisiones colectivas.

Impulso de datos abiertos en las Comunidades y Ciudades Autónomas

Como se mencionó anteriormente, el IV Plan de Gobierno Abierto también incluye compromisos adquiridos por los organismos autonómicos, los cuales se detallan en la línea de acción 10 sobre Estado abierto, muchos de ellos centrados en la disponibilidad de datos públicos. 

Por ejemplo, la Generalitat de Catalunya informa de su interés en optimizar los recursos disponibles para la gestión de solicitudes de acceso a la información pública, así como en publicar los datos desagregados de los presupuestos públicos en ámbitos relacionados con la infancia o el cambio climático. Por su parte, la Junta de Andalucía quiere potenciar el acceso a la información sobre personal científico y producción científica, y desarrollar un Observatorio de datos de las universidades públicas andaluzas, entre otras medidas. Otro ejemplo lo encontramos en la Ciudad Autónoma de Melilla, que está trabajando en un Portal de Datos Abiertos.

Con respecto a la Administración local, los compromisos se han fijado a través de la Federación Española de Municipios y Provincias (FEMP). Desde la Red de Entidades Locales por la Transparencia y Participación Ciudadana de la FEMP se propone que las administraciones públicas locales publiquen, como mínimo, a elegir entre los siguientes campos: callejero; presupuestos y ejecución presupuestaria; subvenciones; contratación y licitación pública; padrón municipal; censo de vehículos; contenedores de residuos y reciclajes; registro de asociaciones; agenda cultural; alojamientos turísticos; áreas empresariales e industriales; censo de empresas o agentes económicos.

Todas estas medidas ponen de manifiesto el interés por la apertura de datos en las instituciones españolas como herramienta clave para fomentar el gobierno abierto, impulsar servicios y productos alineados con las necesidades ciudadanas y optimizar la toma de decisiones.

Un sistema de seguimiento

El seguimiento del V Plan de Gobierno Abierto se basa en un sistema reforzado de rendición de cuentas y en el uso estratégico de la plataforma digital HazLab, donde se alojan cinco grupos de trabajo, uno de ellos centrado en la transparencia y el acceso a la información.

Cada iniciativa del Plan dispone además de una ficha de seguimiento con información sobre su ejecución, cronograma y resultados, actualizada periódicamente por las unidades responsables y publicada en el Portal de la Transparencia.

Conclusiones

En conjunto, el V Plan de Gobierno Abierto busca una Administración más transparente, participativa y orientada al uso responsable de los datos públicos. Muchas de las medidas incluidas tienen como objetivo reforzar la apertura informativa, la mejora de la gestión documental y el impulso a la reutilización de datos en sectores clave como la salud, la justicia o la contratación pública. Este enfoque no solo facilita el acceso ciudadano a la información, sino que también promueve la innovación, la rendición de cuentas y una cultura de gobernanza más abierta y colaborativa.

calendar icon
Blog

La Inteligencia Artificial (IA) está convirtiéndose en uno de los principales motores del aumento de la productividad y la innovación tanto en el sector público como en el privado, siendo cada vez más relevante en tareas que van desde la creación de contenido en cualquier formato (texto, audio, video) hasta la optimización de procesos complejos a través de agentes de Inteligencia Artificial.

Sin embargo, los modelos avanzados de IA, y en particular los grandes modelos de lenguaje, exigen cantidades ingentes de datos para su entrenamiento, optimización y evaluación. Esta dependencia genera una paradoja: a la vez que la IA demanda más datos y de mayor calidad, la creciente preocupación por la privacidad y la confidencialidad (Reglamento General de Protección de Datos o RGPD), las nuevas reglas de acceso y uso de datos (Data Act), y los requisitos de calidad y gobernanza para sistemas de alto riesgo (Reglamento de IA), así como la inherente escasez de datos en dominios sensibles limitan el acceso a los datos reales.

En este contexto, los datos sintéticos pueden ser un mecanismo habilitador para conseguir nuevos avances, conciliando innovación y protección de la privacidad. Por una parte, permiten alimentar el progreso de la IA sin exponer información sensible, y cuando se combinan con datos abiertos de calidad amplían el acceso a dominios donde los datos reales son escasos o están fuertemente regulados.

¿Qué son los datos sintéticos y cómo se generan?

De forma sencilla, los datos sintéticos se pueden definir como información fabricada artificialmente que imita las características y distribuciones de los datos reales. La función principal de esta tecnología es reproducir las características estadísticas, la estructura y los patrones del dato real subyacente. En el dominio de las estadísticas oficiales existen casos como el del Censo de Estados Unidos que publica productos parcial o totalmente sintéticos como OnTheMap (movilidad de los trabajadores entre lugar de residencia y lugar trabajo) o el SIPP Synthetic Beta (microdatos socioeconómicos vinculados a impuestos y seguridad social).

La generación de datos sintéticos es actualmente un campo aún en desarrollo que se apoya en diversas metodologías. Los enfoques pueden ir desde métodos basados en reglas o modelado estadístico (simulaciones, bayesianos, redes causales), que imitan distribuciones y relaciones predefinidas, hasta técnicas avanzadas de aprendizaje profundo. Entre las arquitecturas más destacadas encontramos:

  • Redes Generativas Adversarias (GAN): un modelo generativo, entrenado con datos reales, aprende a imitar sus características, mientras que un discriminador intenta distinguir entre datos reales y sintéticos. A través de este proceso iterativo, el generador mejora su capacidad para producir datos artificiales que son estadísticamente indistinguibles de los originales. Una vez entrenado, el algoritmo puede crear nuevos registros artificiales que son estadísticamente similares a la muestra original, pero completamente nuevos y seguros.
  • Autoencoders Variacionales (VAE): Estos modelos se basan en redes neuronales que aprenden una distribución probabilística en un espacio latente de los datos de entrada. Una vez entrenado, el modelo utiliza esta distribución, para obtener nuevas observaciones sintéticas mediante el muestreo y decodificación de los vectores latentes. Los VAE son frecuentemente considerados una opción más estable y sencilla de entrenar en comparación con las GAN para la generación de datos tabulares.
  • Modelos autorregresivos/jerárquicos y simuladores de dominio: utilizados, por ejemplo, en datos de historia clínica electrónica, que capturan dependencias temporales y jerárquicas. Los modelos jerárquicos estructuran el problema por niveles, primero muestrean variables de nivel superior y, después las de niveles inferiores condicionadas a las anteriores. Los simuladores de dominio codifican reglas del proceso y se calibran con datos reales, aportando control e interpretabilidad y garantizando el cumplimiento de reglas de negocio.

Puedes conocer más sobre los datos sintéticos y cómo se crean en esta infografía:


Figura 1. Infografía sobre datos sintéticos. Fuente: elaboración propia - datos.gob.es.

Si bien la generación sintética reduce inherentemente el riesgo de divulgación de datos personales, no lo elimina por completo. Sintético no significa automáticamente anónimo ya que, si los generadores se entrenan de forma inadecuada, pueden filtrarse trazas del conjunto real y ser vulnerables a ataques de inferencia de pertenencia (membership inference). De ahí que sea necesario utilizar Tecnologías de Mejora de la Privacidad (PET) como la privacidad diferencial y realizar evaluaciones de riesgo específicas. También el Supervisor Europeo de Protección de Datos (EDPS) ha subrayado la necesidad de realizar una evaluación de garantía de privacidad antes de que los datos sintéticos puedan ser compartidos, garantizando que el resultado no permita obtener datos personales reidentificables.

La Privacidad Diferencial (DP) es una de las tecnologías principales en este dominio. Su mecanismo consiste en añadir ruido controlado al proceso de entrenamiento o a los datos mismos, asegurando matemáticamente que la presencia o ausencia de cualquier individuo en el conjunto de datos original no altere significativamente el resultado final de la generación. El uso de métodos seguros, como el descenso de gradiente estocástico con privacidad diferencial (DP-SGD), garantiza que las muestras generadas no comprometan la privacidad de los usuarios que contribuyeron con sus datos al conjunto sensible.

¿Cuál es el papel de los datos abiertos?

Como es obvio, los datos sintéticos no aparecen de la nada, necesitan datos reales de alta calidad como semilla y, además, requieren buenas prácticas de validación. Por ello, los datos abiertos o los datos que no pueden abrirse por cuestiones relacionadas con la privacidad son, por una parte, una excelente materia prima para aprender patrones del mundo real y, por otra, una referencia independiente para verificar que lo sintético se parece a la realidad sin exponer a personas o empresas.

Como semilla de aprendizaje los datos abiertos de calidad, como los conjuntos de datos de alto valor, con metadatos completos, definiciones claras y esquemas estandarizados, aportan cobertura, granularidad y actualidad. Cuando ciertos conjuntos no pueden hacerse públicos por motivos de privacidad, pueden emplearse internamente con las adecuadas salvaguardas para producir datos sintéticos que sí podrían liberarse. En salud, por ejemplo, existen generadores abiertos como Synthea, que producen historias clínicas ficticias sin las restricciones de uso propias de los datos reales.

Por otra parte, frente a un conjunto sintético, los datos abiertos permiten actuar como patrón de verificación, para contrastar distribuciones, correlaciones y reglas de negocio, así como evaluar la utilidad en tareas reales (predicción, clasificación) sin recurrir a información sensible. En este sentido ya existen trabajos, como el del Gobierno de Gales con datos de salud, que han experimentado con distintos indicadores,. Entre ellos destacan la distancia de variación total (TVD), el índice de propensión (propensity score) y el desempeño en tareas de aprendizaje automático.

¿Cómo se evalúan los datos sintéticos?

La evaluación de los conjuntos de datos sintéticos se articula a través de tres dimensiones que, por su naturaleza, implican un compromiso:

  • Fidelidad (Fidelity): mide lo cerca que está el dato sintético de replicar las propiedades estadísticas, correlaciones y la estructura de los datos originales.
  • Utilidad (Utility): mide el rendimiento del conjunto de datos sintéticos en tareas posteriores de aprendizaje automático, como la predicción o la clasificación.
  • Privacidad (Privacy): mide la efectividad con la que el dato sintético oculta la información sensible y el riesgo de que los sujetos de los datos originales puedan ser reidentificados.

 


Figura 2. Tres dimensiones para evaluar datos sintéticos. Fuente: elaboración propia - datos.gob.es.

El reto de gobernanza reside en que no es posible optimizar las tres dimensiones simultáneamente. Por ejemplo, aumentar el nivel de privacidad (inyectando más ruido mediante privacidad diferencial) inevitablemente puede reducir la fidelidad estadística y, en consecuencia, la utilidad para ciertas tareas. La elección de qué dimensión priorizar (máxima utilidad para investigación estadística o máxima privacidad) se convierte en una decisión estratégica que debe ser transparente y específica para cada caso de uso.

¿Datos abiertos sintéticos?

La combinación de datos abiertos y datos sintéticos ya puede considerarse algo más que una idea, ya que existen casos reales que demuestran su utilidad para acelerar la innovación y, al mismo tiempo, proteger la privacidad. Además de los ya citados OnTheMap o SIPP Synthetic Beta en Estados Unidos, también encontramos ejemplos en Europa y el resto del mundo. Por ejemplo, el Centro Común de Investigación (JRC) de la Comisión Europea ha analizado el papel de los datos sintéticos generados con IA en la formulación de políticas AI Generated Synthetic Data in Policy Applications, destacando su capacidad para acortar el ciclo de vida de las políticas públicas al reducir la carga de acceso a datos sensibles y habilitar fases de exploración y prueba más ágiles. También ha documentado aplicaciones de poblaciones sintéticas multipropósito para análisis de movilidad, energía o salud, reforzando la idea de que los datos sintéticos actúan como habilitador transversal.

En Reino Unido, el Office for National Statistics (ONS) llevó a cabo un Synthetic Data Pilot para entender la demanda de datos sintéticos. En el piloto se exploró la producción de herramientas de generación de microdatos sintéticos de alta calidad para requisitos específicos de los usuarios.

También en salud se observan avances que ilustran el valor de datos abiertos sintéticos para innovación responsable. El Departamento de Salud de la región de Australia Occidental ha impulsado un Synthetic Data Innovation Project y hackatones sectoriales donde se liberan conjuntos sintéticos realistas que permiten a equipos internos y externos probar algoritmos y servicios sin acceso a información clínica identificable, fomentando la colaboración y acelerando la transición de prototipos a casos de uso reales.

En definitiva, los datos sintéticos ofrecen una vía prometedora, aunque no suficientemente explorada, para el desarrollo de las aplicaciones de inteligencia artificial, ya que contribuyen al equilibrio entre el fomento de la innovación y la protección de la privacidad.

Los datos sintéticos no sustituyen a los datos abiertos, sino que se potencian mutuamente. En particular, representan una oportunidad para que las Administraciones públicas pueden ampliar su oferta de datos abiertos con versiones sintéticas de conjuntos sensibles para educación o investigación, y para facilitar que las empresas y desarrolladores independientes experimenten cumpliendo la regulación y puedan generar un mayor valor económico y social.

Contenido elaborado por Jose Luis Marín, Senior Consultant in Data, Strategy, Innovation & Digitalization. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Noticia

España ha dado un paso más hacia la consolidación de una política pública basada en la transparencia y la innovación digital. A través de la Secretaría de Estado de Digitalización e Inteligencia Artificial del Ministerio para la Transformación Digital y de la Función Pública, el Gobierno de España ha firmado su adhesión a la Carta Internacional de Datos Abiertos, en el marco de la IX Cumbre Global de la Alianza para el Gobierno Abierto que se celebra estos días en Vitoria-Gasteiz.

Con esta adhesión se reconoce al dato como un activo estratégico para el diseño de políticas públicas y la mejora de los servicios. Además, se subraya la importancia de su apertura y reutilización, junto con el uso ético de la inteligencia artificial, como motores clave para la transformación digital y la generación de valor social y económico.

 

¿En qué consiste la Carta Internacional de Datos Abiertos?

La Carta Internacional de Datos Abiertos (conocida por el nombre en inglés Open Data Charter o las siglas ODC) es una iniciativa global que promueve la apertura y reutilización de datos públicos como herramientas para mejorar la transparencia, la participación ciudadana, la innovación y la rendición de cuentas. Esta iniciativa fue lanzada en 2015 y está respaldada por gobiernos, organizaciones y expertos. Su objetivo es guiar a las entidades públicas en la adopción de políticas de datos abiertos responsables, sostenibles y centradas en el impacto social, respetando los derechos fundamentales de las personas y comunidades. Para ello promueve seis principios:

  • Datos abiertos por defecto: los datos deben publicarse de forma proactiva, salvo que existan razones legítimas para restringirlos (como la privacidad o la seguridad).

  • Datos oportunos y comprensibles: los datos deben publicarse de forma completa, comprensible y rápida, con la frecuencia necesaria para ser de utilidad. También debe respetarse su formato original siempre que sea posible.

  • Datos accesibles y utilizables: los datos deben estar disponibles en formatos abiertos, legibles por máquina y sin barreras técnicas o legales para su reutilización. Asimismo, deben ser fáciles de encontrar.

  • Datos comparables e interoperables: las instituciones deben trabajar para asegurar que los datos sean precisos, relevantes y confiables, promoviendo estándares comunes que faciliten la interoperabilidad y el uso conjunto de diferentes fuentes.

  • Datos para mejorar la gobernanza y la participación ciudadana: los datos abiertos deben fortalecer la transparencia, la rendición de cuentas y permitir la participación informada de la sociedad civil.

  • Datos para el desarrollo inclusivo y la innovación: el acceso libre a los datos puede impulsar soluciones innovadoras, mejorar servicios públicos y fomentar el desarrollo económico inclusivo.

La Open Data Charter también ofrece recursos, guías e informes prácticos para apoyar a gobiernos y organizaciones en la aplicación de sus principios, adaptándolos a cada contexto. Así, los datos abiertos podrán impulsar reformas concretas con un impacto real. 

España: una política consolidada de datos abiertos que nos sitúa como referente

La adhesión a la Carta Internacional de Datos Abiertos no es un punto de partida, sino un paso adelante en una estrategia consolidada que sitúa al dato como un activo fundamental para el avance del país. Desde hace años, España ya cuenta con un marco sólido de políticas y estrategias que han impulsado la apertura de datos como parte fundamental de la transformación digital:

  • Marco normativo: España dispone de una base legal que garantiza la apertura de datos como norma general, donde destaca la Ley 37/2007 sobre reutilización de la información del sector público, la Ley 19/2013 de transparencia y la aplicación del Reglamento (UE) 2022/868 sobre gobernanza europea de datos. Este marco establece obligaciones claras para facilitar el acceso, la compartición y la reutilización de datos públicos en todo el ámbito estatal.
  • Gobernanza institucional: la Dirección General del Dato, dependiente de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA), tiene como misión dinamizar la gestión, compartición y el uso de los datos en diferentes sectores productivos de la economía y sociedad española. Entre otras cuestiones, lidera la coordinación de la política de datos abiertos en la Administración General del Estado.
  • Iniciativas estratégicas y herramientas prácticas: la Iniciativa Aporta, promovida por el Ministerio para la Transformación Digital y de la Función Pública​ a través de la Entidad Pública Empresarial Red.es, fomenta la cultura del dato abierto y su reutilización social y económica desde 2009. Para ello cuenta con la plataforma datos.gob.es, que centraliza el acceso a cerca de 100.000 conjuntos y servicios de datos puestos a disposición de la ciudadanía por organismos públicos de todos los niveles de la administración. Mediante esta plataforma también se ofrecen múltiples recursos (noticias, análisis, infografías, guías e informes, materiales formativos, etc.) que ayudan a impulsar la cultura del dato. 

Para seguir avanzando, se está trabajando en el V Plan de Gobierno Abierto (2025–2029), que integra compromisos específicos en transparencia, participación y apertura de datos dentro de una agenda más amplia de gobierno abierto.

Todo ello contribuye a que España se posicione, año tras año, como referente a nivel europeo en materia de datos abiertos.

Próximos pasos: avanzando en una transformación digital ética impulsada por los datos

El cumplimiento de los principios de la Carta Internacional de Datos Abiertos será un proceso transparente y medible. La SEDIA, a través de la Dirección General del Dato, coordinará un seguimiento interno de los avances. La Dirección General del Dato actuará como catalizador, impulsando la cultura de compartición, supervisando el cumplimiento de los principios de la Carta y promoviendo procesos participativos para recoger aportaciones de la ciudadanía y la sociedad civil.

Además de la apertura de datos públicos, cabe destacar que se continuará trabajando en el desarrollo de una transformación digital ética y centrada en las personas a través de acciones como:

  • Creación de espacios de datos sectoriales: se busca impulsar la compartición de datos públicos y privados que podrán combinarse de forma segura y soberana para generar casos de uso de alto impacto en sectores estratégicos como la salud, el turismo, la agroindustria o la movilidad, impulsando la competitividad de la economía española.
  • Desarrollo de una inteligencia artificial ética y responsable:  la estrategia de datos abiertos nacional es clave para garantizar que los algoritmos se entrenen con conjuntos de datos de alta calidad, diversos y representativos, mitigando sesgos y asegurando la transparencia. Con ello se refuerza la confianza ciudadana y se promueve un modelo de innovación que protege los derechos fundamentales.

En definitiva, la adopción por parte de España de la Carta Internacional de Datos Abiertos refuerza una trayectoria ya consolidada en materia de datos abiertos, respaldada por un marco normativo sólido, iniciativas estratégicas y herramientas prácticas que han situado al país como referente en la materia. Además, esta adhesión abre nuevas oportunidades de colaboración internacional, acceso a conocimiento experto y alineación con estándares globales. España avanza así hacia un ecosistema de datos más robusto, inclusivo y orientado al impacto social, económico y democrático.

calendar icon