Ciencia y tecnología | datos.gob.es

Metadatos para incrementar la reutilización de datos abiertos en aprendizaje automático

Blog

Los datos abiertos son una pieza central de la innovación digital en torno a la inteligencia artificial ya que permiten, entre otras cosas, entrenar modelos o evaluar algoritmos de aprendizaje automático. Pero entre “descargar un CSV de un portal” y acceder a un conjunto de datos listo para aplicar técnicas de aprendizaje automático hay, todavía, un abismo.

Buena parte de ese abismo tiene que ver con los metadatos, es decir cómo se describen los conjuntos de datos (a qué nivel de detalle y con qué estándares). Si los metadatos se limitan a título, descripción y licencia, el trabajo de comprensión y preparación de datos se hace más complejo y tedioso para la persona que diseña el modelo de aprendizaje automático. Si, en cambio, se usan estándares que faciliten la interoperabilidad, como DCAT, los datos se vuelven más FAIR (Findable, Accessible, Interoperable, Reusable) y, por tanto, más fáciles de reutilizar. No obstante, es necesario metadatos adicionales para que los datos sean más fáciles de integrar en flujos de aprendizaje automático.

Este artículo realiza un itinerario por las diversas iniciativas y estándares necesarios para dotar a los datos abiertos de metadatos útiles para la aplicación de técnicas de aprendizaje automático.

DCAT como columna vertebral de los portales de datos abiertos

El vocabulario DCAT (Data Catalog Vocabulary) fue diseñado por la W3C para facilitar la interoperabilidad entre catálogos de datos publicados en la Web. Describe catálogos, conjuntos de datos y distribuciones, siendo la base sobre la que se construyen muchos portales de datos abiertos.

En Europa, DCAT se concreta en el perfil de aplicación DCAT-AP, recomendado por la Comisión Europea y ampliamente adoptado para describir conjuntos de datos en el sector público, por ejemplo, en España con DCAT-AP-ES. Con DCAT-AP se responde a preguntas como:

¿Qué conjuntos de datos existen sobre un tema concreto?
¿Quién los publica, bajo qué licencia y en qué formatos?
¿Dónde están las URL de descarga o las API de acceso?

El uso de un estándar como DCAT es imprescindible para descubrir conjuntos de datos, pero es necesario ir un paso más allá con el fin de saber cómo se utilizan en modelos de aprendizaje automático o qué calidad tienen desde la perspectiva de estos modelos.

MLDCAT-AP: aprendizaje automático en el catálogo de un portal de datos abiertos

MLDCAT-AP (Machine Learning DCAT-AP) es un perfil de aplicación de DCAT desarrollado por SEMIC y la comunidad Interoperable Europe, en colaboración con OpenML, que extiende DCAT-AP al dominio del aprendizaje automático.

MLDCAT-AP incorpora clases y propiedades para describir:

Modelos de aprendizaje automático y sus características.
Conjuntos de datos utilizados en el entrenamiento y la evaluación.
Métricas de calidad obtenidas sobre los conjuntos de datos.
Publicaciones y documentación asociadas a los modelos de aprendizaje automático.
Conceptos relacionados con riesgo, transparencia y cumplimiento del contexto regulatorio europeo del AI Act.

Con ello, un catálogo basado en MLDCAT-AP ya no solo responde a “qué datos hay”, sino también a:

¿Qué modelos se han entrenado con este conjunto de datos?
¿Cuál ha sido el rendimiento de ese modelo según determinadas métricas?
¿Dónde se describe este trabajo (artículos científicos, documentación, etc.)?

MLDCAT-AP representa un gran avance en trazabilidad y gobernanza, pero se mantiene la definición de metadatos a un nivel que todavía no considera la estructura interna de los conjuntos de datos ni qué significan exactamente sus campos. Para eso, se necesita bajar a nivel de la propia estructura de la distribución de conjunto de datos.

Metadatos a nivel de estructura interna del conjunto de datos

Cuando se quiere describir qué hay dentro de las distribuciones de los conjuntos de datos (campos, tipos, restricciones), una iniciativa interesante es Data Package, parte del ecosistema de Frictionless Data.

Un Data Package se define por un archivo JSON que describe un conjunto de datos. En este archivo se incluyen no sólo metadatos generales (como el nombre, título, descripción o licencia) y recursos (es decir, los ficheros de datos con su ruta o una URL de acceso a su correspondiente servicio), sino también se define un esquema con:

Nombres de campos.
Tipos de datos (integer, number, string, date, etc.).
Restricciones, como rangos de valores válidos, claves primarias y ajenas, etc.

Desde la óptica del aprendizaje automático, esto se traduce en la posibilidad de realizar una validación estructural automática antes de usar los datos. Además, también permite una documentación precisa de la estructura interna de cada conjunto de datos y mayor facilidad para compartir y versionar conjuntos de datos.

En resumen, mientras que MLDCAT-AP indica qué conjuntos de datos existen y cómo encajan en el ámbito de modelos de aprendizaje automático, Data Package especifica exactamente “qué hay” dentro de los conjuntos de datos.

Croissant: metadatos que preparan datos abiertos para aprendizaje automático

Aun con el concurso de MLDCAT-AP y de Data Package, faltaría conectar los conceptos subyacentes en ambas iniciativas. Por una parte, el ámbito del aprendizaje automático (MLDCAT-AP) y por otro el de las estructuras internas de los propios datos (Data Package). Es decir, se puede estar usando los metadatos de MLDCAT-AP y de Data Package pero para solventar algunas limitaciones que adolecen ambos, es necesario complementarlo. Aquí entra en juego Croissant, un formato de metadatos para preparar los conjuntos de datos para la aplicación de aprendizaje automático. Croissant está desarrollado en el marco de MLCommons, con participación de industria y academia.

Específicamente, Croissant se implementa en JSON-LD y se construye sobre schema.org/Dataset, un vocabulario para describir conjuntos de datos en la Web. Croissant combina los siguientes metadatos:

Metadatos generales del conjunto de datos.
Descripción de recursos (archivos, tablas, etc.).
Estructura de los datos.
Capa semántica sobre aprendizaje automático (separación de datos de entrenamiento/validación/test, campos objetivo, etc.)

Cabe destacar que Croissant está diseñado para que distintos repositorios (como Kaggle, HuggingFace, etc.) puedan publicar conjuntos de datos en un formato que las librerías de aprendizaje automático (TensorFlow, PyTorch, etc.) puedan cargar de forma homogénea. También existe una extensión de CKAN para usar Croissant en portales de datos abiertos.

Otras iniciativas complementarias

Merece la pena mencionar brevemente otras iniciativas interesantes relacionadas con la posibilidad de disponer de metadatos que permitan preparar a los conjuntos de datos para la aplicación de aprendizaje automático (“ML-ready datasets”):

schema.org/Dataset: usado en páginas web y repositorios para describir conjuntos de datos. Es la base sobre la que se apoya Croissant y está integrado, por ejemplo, en las directrices de datos estructurados de Google para mejorar la localización de conjuntos de datos en buscadores.
CSV on the Web (CSVW): conjunto de recomendaciones del W3C para acompañar ficheros CSV con metadatos en JSON (incluyendo diccionarios de datos), muy alineado con las necesidades de documentación de datos tabulares que luego se usan en aprendizaje automático.
Datasheets for Datasets y Dataset Cards: iniciativas que permiten desarrollar una documentación narrativa y estructurada para describir el contexto, la procedencia y las limitaciones de los conjuntos de datos. Estas iniciativas son ampliamente adoptadas en plataformas como Hugging Face.

Conclusiones

Existen diversas iniciativas que ayudan a realizar una definición de metadatos adecuada para el uso de aprendizaje automático con datos abiertos:

DCAT-AP y MLDCAT-AP articulan el nivel de catálogo, modelos de aprendizaje automático y métricas.
Data Package describe y valida la estructura y restricciones de los datos a nivel de recurso y campo.
Croissant conecta estos metadatos con el flujo de aprendizaje automático, describiendo cómo los conjuntos de datos son ejemplos concretos para cada modelo.
Iniciativas como CSVW o Dataset Cards complementan las anteriores y son ampliamente utilizadas en plataformas como HuggingFace.

Estas iniciativas pueden usarse de manera combinada. De hecho, si se adoptan de forma conjunta, se permite que los datos abiertos dejen de ser simplemente “ficheros descargables” y se conviertan en una materia prima preparada para el aprendizaje automático, reduciendo fricción, mejorando la calidad y aumentando la confianza en los sistemas de IA construidos sobre ellos.

Jose Norberto Mazón, Catedrático de Lenguajes y Sistemas Informáticos de la Universidad de Alicante. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

30/12/2025

De los chatbots a los agentes autónomos: IA agéntica en los servicios públicos

Blog

Cuando se acaban de cumplir tres años desde que comenzó la aceleración del despliegue masivo de la Inteligencia Artificial con el lanzamiento de ChatGPT, un término nuevo emerge con fuerza: la IA agéntica (Agentic AI). En los últimos tres años hemos pasado de hablar de modelos de lenguaje (como por ejemplo, los LLM) y chatbots (o asistentes conversacionales) a diseñar los primeros sistemas capaces no solo de responder a nuestras preguntas, sino de actuar de forma autónoma para conseguir objetivos, combinando datos, herramientas y colaboraciones con otros agentes de IA o con personas humanas. Esto es, la conversación global sobre IA se está moviendo desde la capacidad para "conversar" hacia la capacidad para "actuar" de estos sistemas.

En el sector privado, informes recientes de grandes consultoras describen agentes de IA que resuelven de principio a fin incidencias de clientes, orquestan cadenas de suministro, optimizan inventarios en el sector retail o automatizan la elaboración de informes de negocio. En el sector público, esta conversación también comienza a tomar forma y cada vez más administraciones exploran cómo estos sistemas pueden ayudar a simplificar trámites o a mejorar la atención a la ciudadanía. Sin embargo, el despliegue parece que está siendo algo más lento porque lógicamente en la administración no solo debe tenerse en cuenta la excelencia técnica sino también el estricto cumplimiento del marco normativo, que en Europa lo marca el Reglamento de IA, para que los agentes autónomos sean, ante todo, aliados de la ciudadanía.

¿Qué es la IA agéntica (Agentic AI)?

Aunque se trate de un concepto reciente que aún está en evolución, varias administraciones y organismos empiezan a converger en una definición. Por ejemplo, el Gobierno del Reino Unido describe la IA agéntica como sistemas formados por agentes de IA que “pueden comportarse e interactuar de forma autónoma para lograr sus objetivos”. En este contexto un agente de IA sería una pieza especializada de software que puede tomar decisiones y operar de forma cooperativa o independiente para lograr los objetivos del sistema.

Podríamos pensar, por ejemplo, en un agente de IA en una administración local que recibe la solicitud de una persona para abrir un pequeño negocio. El agente, diseñado de acuerdo con el procedimiento administrativo correspondiente, comprobaría la normativa aplicable, consultaría datos urbanísticos y de actividad económica, verificaría requisitos, rellenaría borradores de documentos, propondría citas o trámites complementarios y prepararía un resumen para que el personal funcionario pudiera revisar y validar la solicitud. Esto es, no sustituiría la decisión humana, sino que automatizaría buena parte del trabajo que hay entre la solicitud realizada por el ciudadano y la resolución dictada por la administración.

Frente a un chatbot conversacional -que responde a una pregunta y, en general, termina ahí la interacción-, un agente de IA puede encadenar múltiples acciones, revisar resultados, corregir errores, colaborar con otros agentes de IA y seguir iterando hasta alcanzar la meta que se le ha definido. Esto no significa que los agentes autónomos decidan por su cuenta sin supervisión, sino que pueden hacerse cargo de buena parte de la tarea siempre siguiendo reglas y salvaguardas bien definidas.

Las características clave de un agente autónomo incluyen:

Percepción y razonamiento: es la capacidad de un agente para comprender una solicitud compleja, interpretar el contexto y desglosar el problema en pasos lógicos que conduzcan a resolverlo.
Planificación y acción: es la habilidad para ordenar esos pasos, decidir la secuencia en que se van a ejecutar y adaptar el plan cuando cambian los datos o aparecen nuevas restricciones.
Uso de herramientas: un agente puede, por ejemplo, conectarse a diversas API, consultar bases de datos, catálogos de datos abiertos, abrir y leer documentos o enviar correos electrónicos según lo requieran las tareas que está intentando resolver.
Memoria y contexto: es la capacidad del agente para mantener la memoria de las interacciones en procesos largos, recordando las acciones y respuestas pasadas y el estado actual de la solicitud que está resolviendo.
Autonomía supervisada: un agente puede tomar decisiones dentro de unos límites previamente establecidos para avanzar hacia la meta sin necesidad de intervención humana en cada paso, pero permitiendo siempre la revisión y trazabilidad de las decisiones.

Podríamos resumir el cambio que supone con la siguiente analogía: si los LLM son el motor de razonamiento, los agentes de IA son sistemas que además de esa capacidad de “pensar” en las acciones que habría que hacer, tienen "manos" para interactuar con el mundo digital e incluso con el mundo físico y ejecutar esas mismas acciones.

El potencial de los agentes de IA en los servicios públicos

Los servicios públicos se organizan, en buena medida, alrededor de procesos de una cierta complejidad como son la tramitación de ayudas y subvenciones, la gestión de expedientes y licencias o la propia atención ciudadana a través de múltiples canales. Son procesos con muchos pasos, reglas y actores diferentes, donde abundan las tareas repetitivas y el trabajo manual de revisión de documentación.

Como puede verse en el eGovernment Benchmark de la Unión Europea, las iniciativas de administración electrónica de las últimas décadas han permitido avanzar hacia una mayor digitalización de los servicios públicos. Sin embargo, la nueva ola de tecnologías de IA, especialmente cuando se combinan modelos fundacionales con agentes, abre la puerta a un nuevo salto para automatizar y orquestar de forma inteligente buena parte de los procesos administrativos.

En este contexto, los agentes autónomos permitirían:

Orquestar procesos de extremo a extremo como, por ejemplo, recopilar datos de distintas fuentes, proponer formularios ya cumplimentados, detectar incoherencias en la documentación aportada o generar borradores de resoluciones para su validación por el personal responsable.
Actuar como “copilotos” de los empleados públicos, preparando borradores, resúmenes o propuestas de decisiones que luego se revisan y validan, asistiendo en la búsqueda de información relevante o señalando posibles riesgos o incidencias que requieren atención humana.
Optimizar los procesos de atención ciudadana apoyando en tareas como la gestión de citas médicas, respondiendo consultas sobre el estado de expedientes, facilitando el pago de tributos o guiando a las personas en la elección del trámite más adecuado a su situación.

Diversos análisis sobre IA en el sector público apuntan a que este tipo de automatización inteligente, al igual que en el sector privado, puede reducir tiempos de espera, mejorar la calidad de las decisiones y liberar tiempo del personal para tareas de mayor valor añadido. Un informe reciente de PWC y Microsoft que explora el potencial de la IA agéntica para el sector público resume bien la idea, señalando que al incorporar la IA agéntica en los servicios públicos, los gobiernos pueden mejorar la capacidad de respuesta y aumentar la satisfacción ciudadana, siempre que existan las salvaguardas adecuadas.

Además, la implementación de agentes autónomos permite soñar con una transición desde una administración reactiva (que espera a que el ciudadano solicite un servicio) a una administración proactiva que se ofrece a hacer por nosotros parte de esas mismas acciones: desde avisarnos de que se ha abierto una ayuda para la que probablemente cumplamos los requisitos, hasta proponernos la renovación de una licencia antes de que caduque o recordarnos una cita médica.

Un ejemplo ilustrativo de esto último podría ser un agente de IA que, apoyado en datos sobre servicios disponibles y en la información que el propio ciudadano haya autorizado utilizar, detecte que se ha publicado una nueva ayuda para actuaciones de mejora de la eficiencia energética a través de la rehabilitación de viviendas y envíe un aviso personalizado a quienes podrían cumplir los requisitos. Incluso ofreciéndoles un borrador de solicitud ya pre-cumplimentado para su revisión y aceptación. La decisión final sigue siendo humana, pero el esfuerzo de buscar la información, entender las condiciones y preparar la documentación se podría reducir mucho.

El rol de los datos abiertos

Para que un agente de IA pueda actuar de forma útil y responsable necesita apalancarse sobre un entorno rico en datos de calidad y un sistema de gobernanza de datos sólido. Entre esos activos necesarios para desarrollar una buena estrategia de agentes autónomos, los datos abiertos tienen importancia al menos en tres dimensiones:

Combustible para la toma de decisiones: los agentes de IA necesitan información sobre normativa vigente, catálogos de servicios, procedimientos administrativos, indicadores socioeconómicos y demográficos, datos de transporte, medio ambiente, planificación urbana, etc. Para ello, la calidad y estructura de los datos es de gran importancia ya que datos desactualizados, incompletos o mal documentados pueden llevar a los agentes a cometer errores costosos. En el sector público, esos errores pueden traducirse en decisiones injustas que en última instancia podrían llevar a la pérdida de confianza de la ciudadanía.
Banco de pruebas para evaluar y auditar agentes: al igual que los datos abiertos son importantes para evaluar modelos de IA generativa, también pueden serlo para probar y auditar agentes autónomos. Por ejemplo, simulando expedientes ficticios con datos sintéticos basados en distribuciones reales para comprobar cómo actúa un agente en distintos escenarios. De este modo, universidades, organizaciones de la sociedad civil y la propia administración puedan examinar el comportamiento de los agentes y detectar problemas antes de escalar su uso.
Transparencia y explicabilidad: los datos abiertos podrían ayudar a documentar de dónde proceden los datos que utiliza un agente, cómo se han transformado o qué versiones de los conjuntos de datos estaban vigentes cuando se tomó una decisión. Esta trazabilidad contribuye a la explicabilidad y la rendición de cuentas, especialmente cuando un agente de IA interviene en decisiones que afectan a los derechos de las personas o a su acceso a servicios públicos. Si la ciudadanía puede consultar, por ejemplo, los criterios y datos que se aplican para otorgar una ayuda, se refuerza la confianza en el sistema.

El panorama de la IA agéntica en España y en el resto del mundo

Aunque el concepto de IA agéntica es reciente, ya existen iniciativas en marcha en el sector público a nivel internacional y comienzan a abrirse paso también en el contexto europeo y español:

La Government Technology Agency (GovTech) de Singapur ha publicado una guía Agentic AI Primer para orientar a desarrolladores y responsables públicos sobre cómo aplicar esta tecnología, destacando tanto sus ventajas como sus riesgos. Además, el gobierno está pilotando el uso de agentes en varios ámbitos para reducir la carga administrativa de los trabajadores sociales y apoyar a las empresas en procesos complejos de obtención de licencias. Todo ello en un entorno controlado (sandbox) para probar estas soluciones antes de escalarlas.
El Gobierno de Reino Unido ha publicado una nota específica dentro de su documentación “AI Insights” para explicar qué es la IA agéntica y por qué es relevante para servicios gubernamentales. Además, ha anunciado una licitación para desarrollar un “GOV.UK Agentic AI Companion” que sirva de asistente inteligente para la ciudadanía desde el portal del gobierno.
La Comisión Europea, en el marco de la estrategia Apply AI y de la iniciativa GenAI4EU, ha lanzado convocatorias para financiar proyectos piloto que introduzcan soluciones de IA generativa escalables y replicables en las administraciones públicas, plenamente integradas en sus flujos de trabajo. Estas convocatorias buscan precisamente acelerar el paso en la digitalización a través de IA (incluidos agentes especializados) para mejorar la toma de decisiones, simplificar procedimientos y hacer la administración más accesible.

En España, aunque la etiqueta “IA agéntica” todavía no se utiliza aún de forma amplia, ya se pueden identificar algunas experiencias que van en esa dirección. Por ejemplo, distintas administraciones están incorporando copilotos basados en IA generativa para apoyar a los empleados públicos en tareas de búsqueda de información, redacción y resumen de documentos, o gestión de expedientes, como muestran iniciativas de gobiernos autonómicos como el de Aragón y o entidades locales como el Ayuntamiento de Barcelona que empiezan a documentarse de forma pública.

El salto hacia agentes más autónomos en el sector público parece, por tanto, una evolución natural sobre la base de la administración electrónica existente. Pero esa evolución debe, al mismo tiempo, reforzar el compromiso con la transparencia, la equidad, la rendición de cuentas, la supervisión humana y el cumplimiento normativo que exige el Reglamento de IA y el resto del marco normativo y que deben guiar las actuaciones de la administración pública.

Mirando hacia el futuro: agentes de IA, datos abiertos y confianza ciudadana

La llegada de la IA agéntica ofrece de nuevo a la Administración pública nuevas herramientas para reducir la burocracia, personalizar la atención y optimizar sus siempre escasos recursos. Sin embargo, la tecnología es solo un medio, el fin último sigue siendo generar valor público reforzando la confianza de la ciudadanía.

En principio, España parte de una buena posición: dispone de una Estrategia de Inteligencia Artificial 2024 que apuesta por una IA transparente, ética y centrada en las personas, con líneas específicas para impulsar su uso en el sector público; cuenta con una infraestructura consolidada de datos abiertos; y ha creado la Agencia Española de Supervisión de la Inteligencia Artificial (AESIA) como organismo encargado de garantizar un uso ético y seguro de la IA, de acuerdo con el Reglamento Europeo de IA.

Estamos, por tanto, ante una nueva oportunidad de modernización que puede construir unos servicios públicos más eficientes, cercanos e incluso proactivos. Si somos capaces de adoptar la IA agéntica adecuadamente, los agentes que se desplieguen no serán una “caja negra” que actúa sin supervisión, sino “agentes públicos” digitales, transparentes y auditables, diseñados para trabajar con datos abiertos, explicar sus decisiones y dejar rastro de las acciones que realizan. Herramientas, en definitiva, inclusivas, centradas en las personas y alineadas con los valores del servicio público.

Contenido elaborado por Jose Luis Marín, Senior Consultant in Data, Strategy, Innovation & Digitalization. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

29/12/2025

Geomatico

Empresa reutilizadora

Geomatico es una empresa especializada en el desarrollo de Sistemas de Información Geográfica (SIG) de código libre. Ofrecen mapas web a medida y dashboards SIG que añaden valor a los datos de sus clientes.

12/12/2025

Interoperabilidad de los datos geoespaciales en tiempo real: cómo los estándares OGC permiten intercambiar datos en tiempo real de sensores urbanos, movilidad o clima

Blog

Las ciudades, las infraestructuras y el medio ambiente generan hoy un flujo constante de datos procedentes de sensores, redes de transporte, estaciones meteorológicas y plataformas de Internet of Things (IoT), entendidas como redes de dispositivos físicos (semáforos digitales, sensores de calidad de aire, etc.) capaces de medir y transmitir información a través de sistemas digitales. Este volumen creciente de información permite mejorar la prestación de servicios públicos, anticipar emergencias, planificar el territorio y responder a retos asociados al clima, la movilidad o la gestión de recursos.

El incremento de fuentes conectadas ha transformado la naturaleza del dato geoespacial. Frente a los conjuntos tradicionales —actualizados de forma periódica y orientados a cartografía de referencia o inventarios administrativos— los datos dinámicos incorporan la dimensión temporal como componente estructural. Una observación de calidad del aire, un nivel de ocupación de tráfico o una medición hidrológica no solo describen un fenómeno, sino que lo sitúan en un momento concreto. La combinación espacio-tiempo convierte a estas observaciones en elementos fundamentales para sistemas operativos, modelos predictivos y análisis basados en series temporales.

En el ámbito de los datos abiertos, este tipo de información plantea tanto oportunidades como requerimientos específicos. Entre las oportunidades se encuentran la posibilidad de construir servicios digitales reutilizables, de facilitar la supervisión en tiempo casi real de fenómenos urbanos y ambientales, y de fomentar un ecosistema de reutilización basado en flujos continuos de datos interoperables. La disponibilidad de datos actualizados incrementa además la capacidad de evaluación y auditoría de políticas públicas, al permitir contrastar decisiones con observaciones recientes.

No obstante, la apertura de datos geoespaciales en tiempo real exige resolver problemas derivados de la heterogeneidad tecnológica. Las redes de sensores utilizan protocolos, modelos de datos y formatos diferentes; las fuentes generan volúmenes elevados de observaciones con alta frecuencia; y la ausencia de estructuras semánticas comunes dificulta el cruce de datos entre dominios como movilidad, medio ambiente, energía o hidrología. Para que estos datos puedan publicarse y reutilizarse de manera consistente, es necesario un marco de interoperabilidad que normalice la descripción de los fenómenos observados, la estructura de las series temporales y las interfaces de acceso.

Los estándares abiertos del Open Geospatial Consortium (OGC) proporcionan ese marco. Definen cómo representar observaciones, entidades dinámicas, coberturas multitemporales o sistemas de sensores; establecen API basadas en principios web que facilitan la consulta de datos abiertos; y permiten que plataformas distintas intercambien información sin necesidad de integraciones específicas. Su adopción reduce la fragmentación tecnológica, mejora la coherencia entre fuentes y favorece la creación de servicios públicos basados en datos actualizados.

Interoperabilidad: el requisito básico para abrir datos dinámicos

Las administraciones públicas gestionan hoy datos generados por sensores de distinto tipo, plataformas heterogéneas, proveedores diferentes y sistemas que evolucionan de forma independiente. La publicación de datos geoespaciales en tiempo real exige una interoperabilidad que permita integrar, procesar y reutilizar información procedente de múltiples fuentes. Esta diversidad provoca inconsistencias en formatos, estructuras, vocabularios y protocolos, lo que dificulta la apertura del dato y su reutilización por terceros. Veamos qué aspectos de la interoperabilidad están afectados:

La interoperabilidad técnica: se refiere a la capacidad de los sistemas para intercambiar datos mediante interfaces, formatos y modelos compatibles. En los datos en tiempo real, este intercambio requiere mecanismos que permitan consultas rápidas, actualizaciones frecuentes y estructuras de datos estables. Sin estos elementos, cada flujo dependería de integraciones ad hoc, aumentando la complejidad y reduciendo la capacidad de reutilización.
La interoperabilidad semántica: los datos dinámicos describen fenómenos que cambian en periodos cortos —niveles de tráfico, parámetros meteorológicos, caudales, emisiones atmosféricas— y deben interpretarse de forma coherente. Esto implica contar con modelos de observación, vocabularios y definiciones comunes que permitan a aplicaciones distintas entender el significado de cada medición y sus unidades, condiciones de captura o restricciones. Sin esta capa semántica, la apertura de datos en tiempo real genera ambigüedad y limita su integración con datos procedentes de otros dominios.
La interoperabilidad estructural: los flujos de datos en tiempo real tienden a ser continuos y voluminosos, lo que hace necesario representarlos como series temporales o conjuntos de observaciones con atributos consistentes. La ausencia de estructuras normalizadas complica la publicación de datos completos, fragmenta la información e impide consultas eficientes. Para proporcionar acceso abierto a estos datos, es necesario adoptar modelos que representen adecuadamente la relación entre fenómeno observado, momento de la observación, geometría asociada y condiciones de medición.
La interoperabilidad en el acceso vía API: constituye una condición esencial para los datos abiertos. Las API deben ser estables, documentadas y basadas en especificaciones públicas que permitan consultas reproducibles. En el caso de datos dinámicos, esta capa garantiza que los flujos puedan ser consumidos por aplicaciones externas, plataformas de análisis, herramientas cartográficas o sistemas de monitorización que operan en contextos distintos al que genera el dato. Sin API interoperables, el dato en tiempo real queda limitado a usos internos.

En conjunto, estos niveles de interoperabilidad determinan si los datos geoespaciales dinámicos pueden publicarse como datos abiertos sin generar barreras técnicas.

Estándares OGC para publicar datos geoespaciales en tiempo real

La publicación de datos georreferenciados en tiempo real requiere mecanismos que permitan que cualquier usuario —administración, empresa, ciudadanía o comunidad investigadora— pueda acceder a ellos de forma sencilla, con formatos abiertos y a través de interfaces estables. El Open Geospatial Consortium (OGC) desarrolla un conjunto de estándares que permiten exactamente esto: describir, organizar y exponer datos espaciales de forma interoperable y accesible, que contribuyan a la apertura de datos dinámicos.

Qué es OGC y por qué sus estándares son relevantes

El OGC es una organización internacional que define reglas comunes para que distintos sistemas puedan entender, intercambiar y usar datos geoespaciales sin depender de tecnologías concretas. Estas reglas se publican como estándares abiertos, lo que significa que cualquier persona o institución puede utilizarlos. En el ámbito de los datos en tiempo real, estos estándares permiten:

Representar lo que un sensor mide (por ejemplo, temperatura o tráfico).
Indicar dónde y cuándo se hizo la observación.
Estructurar series temporales.
Exponer datos a través de API abiertas.
Conectar dispositivos y redes IoT con plataformas públicas.

En conjunto, este ecosistema de estándares permite que los datos geoespaciales —incluyendo los generados en tiempo real— puedan publicarse y reutilizarse siguiendo un marco coherente. Cada estándar cubre una parte específica del ciclo del dato: desde la definición de las observaciones y los sensores, hasta la forma en la que se exponen los datos mediante API abiertas o servicios web. Esta organización modular facilita que administraciones y organizaciones seleccionen los componentes que necesitan, evitando dependencias tecnológicas y garantizando que los datos puedan integrarse entre plataformas distintas.

La familia OGC API: API modernas para acceder a datos abiertos

Dentro de OGC, la línea más reciente es la familia OGC API, un conjunto de interfaces web modernas diseñadas para facilitar el acceso a datos geoespaciales mediante URL y formatos como JSON o GeoJSON, habituales en el ecosistema de datos abiertos.

Estas API permiten:

Obtener solo la parte del dato que interesa.
Realizar búsquedas espaciales (“dame solo lo que está en esta zona”).
Acceder a datos actualizados sin necesidad de software especializado.
Integrarlos fácilmente en aplicaciones web o móviles.

En este informe: “Cómo utilizar las OGC API para potenciar la interoperabilidad de los datos geoespaciales”, ya te hablamos de algunas las API más populares del OGP. Mientras que el informe se centra en cómo utilizar las OGC API para la interoperabilidad práctica, este post amplía el foco explicando los modelos de datos subyacentes del OGC —como O&M, SensorML o Moving Features— que sustentan esa interoperabilidad.

A partir de esta base, este post pone el foco en los estándares que hacen posible ese intercambio fluido de información, especialmente en contextos de datos abiertos y en tiempo real. Los estándares más importantes en el contexto de datos abiertos en tiempo real son:

Estándar OGC	Qué permite hacer	Uso principal en datos abiertos
OGC API – Features Es una interfaz web abierta que permite acceder a conjuntos de datos formados por “entidades” con geometría, como sensores, vehículos, estaciones o incidentes. Utiliza formatos simples como JSON y GeoJSON y permite realizar consultas espaciales y temporales. Es útil para publicar datos que se actualizan con frecuencia, como movilidad urbana o inventarios dinámicos.	Consultar entidades con geometría; filtrar por tiempo o espacio; obtener datos en JSON/GeoJSON.	Publicación abierta de datos dinámicos de movilidad, inventarios urbanos, sensores estáticos.
OGC API – Environmental Data Retrieval (EDR) Proporciona un método sencillo para recuperar observaciones ambientales y meteorológicas. Permite solicitar datos en un punto, una zona o un intervalo temporal, y es especialmente adecuado para estaciones meteorológicas, calidad del aire o modelos climáticos. Facilita el acceso abierto a series temporales y predicciones.	Solicitar observaciones ambientales en un punto, zona o intervalo temporal.	Datos abiertos de meteorología, clima, calidad del aire o hidrología.
OGC SensorThings API Es el estándar más utilizado para datos IoT abiertos. Define un modelo uniforme para sensores, lo que miden y las observaciones que producen. Está diseñado para manejar grandes volúmenes de datos en tiempo real y ofrece un modo claro para publicar series temporales, datos de contaminación, ruido, hidrología, energía o alumbrado.	Gestionar sensores y sus series temporales; transmitir grandes volúmenes de datos IoT.	Publicación de sensores urbanos (aire, ruido, agua, energía) en tiempo real.
OGC API – Connected Systems Permite describir de forma abierta y estructurada los sistemas de sensores: qué dispositivos existen, cómo se conectan entre sí, en qué infraestructura están integrados y qué tipo de mediciones generan. Complementa a SensorThings API, ya que no se centra en las observaciones, sino en la red física y lógica de sensores.	Describir redes de sensores, dispositivos e infraestructuras asociadas.	Documentar como dato abierto la estructura de sistemas IoT municipales.
OGC Moving Features Modelo para representar objetos que se mueven, como vehículos, embarcaciones o personas, mediante trayectorias espacio-temporales. Permite publicar datos de movilidad, navegación o logística en formatos consistentes con los principios de datos abiertos.	Representar objetos móviles mediante trayectorias espacio-tiempo.	Datos abiertos de movilidad (vehículos, transporte, embarcaciones).
WMS-T Extensión del clásico estándar WMS que añade la dimensión temporal. Permite visualizar mapas que cambian en el tiempo, por ejemplo, meteorología por horas, niveles de inundación o imágenes actualizadas periódicamente.	Visualizar mapas que cambian en el tiempo	Publicación de mapas meteorológicos o ambientales multitemporales

Tabla 1. Estándares OGC relevantes para datos geoespaciales en tiempo real

Modelos que estructuran observaciones y datos dinámicos

Además de las API, OGC define varios modelos conceptuales de datos que permiten describir de forma coherente observaciones, sensores y fenómenos que cambian en el tiempo:

O&M (Observations & Measurements): modelo que define los elementos esenciales de una observación —fenómeno medido, instante, unidad y resultado— y que sirve como base semántica para datos de sensores y series temporales.
SensorML: lenguaje que describe las características técnicas y operativas de un sensor, incluyendo su ubicación, calibración y proceso de observación.
Moving Features: modelo que permite representar objetos móviles mediante trayectorias espacio-temporales (como vehículos, embarcaciones o fauna).

Estos modelos facilitan que diferentes fuentes de datos puedan interpretarse de forma uniforme y combinarse en análisis y aplicaciones.

El valor de estos estándares para los datos abiertos

El uso de los estándares OGC facilita la apertura de datos dinámicos porque:

Proporciona modelos comunes que reducen la heterogeneidad entre fuentes.
Facilita la integración entre dominios (movilidad, clima, hidrología).
Evita dependencias de tecnología propietaria.
Permite que el dato sea reutilizado en análisis, aplicaciones o servicios públicos.
Mejora la transparencia, al documentar sensores, métodos y frecuencias.
Asegura que los datos pueden ser consumidos directamente por herramientas comunes.

En conjunto, forman una infraestructura conceptual y técnica que permite publicar datos geoespaciales en tiempo real como datos abiertos, sin necesidad de desarrollar soluciones específicas para cada sistema.

Casos de uso de datos geoespaciales abiertos en tiempo real

Los datos georreferenciados en tiempo real ya se publican como datos abiertos en distintos ámbitos sectoriales. Estos ejemplos muestran cómo diferentes administraciones y organismos aplican estándares abiertos y API para poner a disposición del público datos dinámicos relacionados con movilidad, medio ambiente, hidrología y meteorología.

A continuación, se presentan varios dominios donde las Administraciones Públicas ya publican datos geoespaciales dinámicos utilizando estándares OGC.

Movilidad y transporte

Los sistemas de movilidad generan datos de forma continua: disponibilidad de vehículos compartidos, posiciones en tiempo casi real, sensores de paso en carriles bici, aforos de tráfico o estados de intersecciones semaforizadas. Estas observaciones dependen de sensores distribuidos y requieren modelos de datos capaces de representar variaciones rápidas en el espacio y en el tiempo.

Los estándares OGC desempeñan un papel central en este ámbito. En particular, OGC SensorThings API permite estructurar y publicar observaciones procedentes de sensores urbanos mediante un modelo uniforme –incluyendo dispositivos, mediciones, series temporales y relaciones entre ellos– accesible a través de una API abierta. Esto facilita que diferentes operadores y municipios publiquen datos de movilidad de forma interoperable, reduciendo la fragmentación entre plataformas.

El uso de estándares OGC en movilidad no solo garantiza compatibilidad técnica, sino que posibilita que estos datos se puedan reutilizar junto con información ambiental, cartográfica o climática, generando análisis multitemáticos para planificación urbana, sostenibilidad o gestión operativa del transporte.

Ejemplo:

El servicio abierto de Toronto Bike Share, que publica en formato SensorThings API el estado de sus estaciones de bicicletas y la disponibilidad de vehículos.

Aquí cada estación es un sensor y cada observación indica el número de bicicletas disponibles en un momento concreto. Este enfoque permite que analistas, desarrolladores o investigadores integren estos datos directamente en modelos de movilidad urbana, sistemas de predicción de demanda o paneles de control ciudadano sin necesidad de adaptaciones específicas.

Calidad del aire, ruido y sensores urbanos

Las redes de monitorización de calidad del aire, ruido o condiciones ambientales urbanas dependen de sensores automáticos que registran mediciones cada pocos minutos. Para que estos datos puedan integrarse en sistemas de análisis y publicarse como datos abiertos, es necesario disponer de modelos y API coherentes.

En este contexto, los servicios basados en estándares OGC permiten publicar datos procedentes de estaciones fijas o sensores distribuidos de forma interoperable. Aunque muchas administraciones utilizan interfaces tradicionales como OGC WMS para servir estos datos, la estructura subyacente suele apoyarse en modelos de observaciones derivados de la familia Observations & Measurements (O&M), que define cómo representar un fenómeno medido, su unidad y el instante de observación.

Ejemplo:

El servicio Defra UK-AIR Sensor Observation Service proporciona acceso a datos de mediciones de calidad del aire en tiempo casi real desde estaciones in situ en Reino Unido.

La combinación de O&M para la estructura del dato y API abiertas para su publicación facilita que estos sensores urbanos formen parte de ecosistemas más amplios que integran movilidad, meteorología o energía, permitiendo análisis urbanos avanzados o paneles ambientales en tiempo casi real.

Ciclo del agua, hidrología y gestión del riesgo

Los sistemas hidrológicos generan datos cruciales para la gestión del riesgo: niveles y caudales en ríos, precipitaciones, humedad del suelo o información de estaciones hidrometeorológicas. La interoperabilidad es especialmente importante en este dominio, ya que estos datos se combinan con modelos hidráulicos, predicción meteorológica y cartografía de zonas inundables.

Para facilitar el acceso abierto a series temporales y observaciones hidrológicas, varios organismos utilizan OGC API – Environmental Data Retrieval (EDR), una API diseñada para recuperar datos ambientales mediante consultas sencillas en puntos, áreas o intervalos temporales.

Ejemplo:

El USGS (United States Geological Survey), que documenta el uso de OGC API – EDR para acceder a series de precipitación, temperatura o variables hidrológicas.

Este caso muestra cómo EDR permite solicitar observaciones específicas por ubicación o fecha, devolviendo únicamente los valores necesarios para el análisis. Aunque los datos concretos de hidrología del USGS se sirven mediante su API propia, este caso demuestra cómo EDR encaja con la estructura de datos hidrometeorológicos y cómo se aplica en flujos operativos reales.

El empleo de estándares OGC en este ámbito permite que los datos hidrológicos dinámicos se integren con zonas inundables, ortoimágenes o modelos climáticos, creando una base sólida para sistemas de alerta temprana, planificación hidráulica y evaluación del riesgo.

Observación y predicción meteorológica

La meteorología es uno de los dominios con mayor producción de datos dinámicos: estaciones automáticas, radares, modelos numéricos de predicción, observaciones satelitales y productos atmosféricos de alta frecuencia. Para publicar esta información como datos abiertos, la familia de OGC API se está convirtiendo en un elemento clave, especialmente mediante OGC API – EDR, que permite recuperar observaciones o predicciones en ubicaciones concretas y en distintos niveles temporales.

Ejemplo:

El servicio NOAA OGC API – EDR, que proporciona acceso a datos meteorológicos y variables atmosféricas del National Weather Service (Estados Unidos).

Esta API permite consultar datos en puntos, áreas o trayectorias, facilitando la integración de observaciones meteorológicas en aplicaciones externas, modelos o servicios basados en datos abiertos.

El uso de OGC API en meteorología permite que datos procedentes de sensores, modelos y satélites puedan consumirse mediante una interfaz unificada, facilitando su reutilización para pronósticos, análisis atmosféricos, sistemas de soporte a la decisión y aplicaciones climáticas.

Buenas prácticas para publicar datos geoespaciales abiertos en tiempo real

La publicación de datos geoespaciales dinámicos requiere adoptar prácticas que garanticen su accesibilidad, interoperabilidad y sostenibilidad. A diferencia de los datos estáticos, los flujos en tiempo real presentan requisitos adicionales relacionados con la calidad de las observaciones, la estabilidad de las API y la documentación del proceso de actualización. A continuación, se presentan algunas prácticas recomendadas para administraciones y organizaciones que gestionan este tipo de datos.

Formatos y API abiertas estables: el uso de estándares OGC —como OGC API, SensorThings API o EDR— facilita que los datos puedan consumirse desde múltiples herramientas sin necesidad de adaptaciones específicas. Las API deben ser estables en el tiempo, ofrecer versiones bien definidas y evitar dependencias de tecnologías propietarias. Para datos ráster o modelos dinámicos, los servicios OGC como WMS, WMTS o WCS siguen siendo adecuados para visualización y acceso programático.
Metadatos compatibles con DCAT-AP y modelos OGC: la interoperabilidad de catálogos requiere describir los conjuntos de datos utilizando perfiles como DCAT-AP, complementado con metadatos geoespaciales y de observación basados en O&M (Observations & Measurements) o SensorML. Estos metadatos deben documentar la naturaleza del sensor, la unidad de medida, la frecuencia de muestreo y posibles limitaciones del dato.
Políticas de calidad, frecuencia de actualización y trazabilidad: los datasets dinámicos deben indicar explícitamente su frecuencia de actualización, la procedencia de las observaciones, los mecanismos de validación aplicados y las condiciones bajo las cuales se generaron. La trazabilidad es esencial para que terceros puedan interpretar correctamente los datos, reproducir análisis e integrar observaciones procedentes de fuentes distintas.
Documentación, límites de uso y sostenibilidad del servicio: la documentación debe incluir ejemplos de uso, parámetros de consulta, estructura de respuesta y recomendaciones para gestionar el volumen de datos. Es importante establecer límites razonables de consulta para garantizar la estabilidad del servicio y asegurar que la administración puede mantener la API a largo plazo.
Aspectos de licencias para datos dinámicos: la licencia debe ser explícita y compatible con la reutilización, como CC BY 4.0 o CC0. Esto permite integrar datos dinámicos en servicios de terceros, aplicaciones móviles, modelos predictivos o servicios de interés público sin restricciones innecesarias. La consistencia en la licencia facilita también el cruce de datos procedentes de distintas fuentes.

Estas prácticas permiten que los datos dinámicos se publiquen de forma fiable, accesible y útil para toda la comunidad reutilizadora.

Los datos geoespaciales dinámicos se han convertido en una pieza estructural para comprender fenómenos urbanos, ambientales y climáticos. Su publicación mediante estándares abiertos permite que esta información pueda integrarse en servicios públicos, análisis técnicos y aplicaciones reutilizables sin necesidad de desarrollos adicionales. La convergencia entre modelos de observación, API OGC y buenas prácticas en metadatos y licencias ofrece un marco estable para que administraciones y reutilizadores trabajen con datos procedentes de sensores de forma fiable. Consolidar este enfoque permitirá avanzar hacia un ecosistema de datos públicos más coherente, conectado y preparado para usos cada vez más demandantes en movilidad, energía, gestión del riesgo y planificación territorial.

Contenido elaborado por Mayte Toscano, Senior Consultant en Tecnologías ligadas a la economía del dato. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autora

09/12/2025

Modelando el presupuesto de subvenciones con Apache Spark: un ejercicio práctico con datos abiertos

Documentación

En el ecosistema del sector público, las subvenciones representan uno de los mecanismos más importantes para impulsar proyectos, empresas y actividades de interés general. Sin embargo, entender cómo se distribuyen estos fondos, qué organismos convocan ayudas más voluminosas o cómo varía el presupuesto según la región o los beneficiarios no es trivial cuando se trabaja con cientos de miles de registros.

En esta línea, presentamos un nuevo ejercicio práctico de la serie “Ejercicios de datos paso a paso”, en el que aprenderemos a explorar y modelar datos abiertos utilizando Apache Spark, una de las plataformas más extendidas para el procesamiento distribuido y el machine learning a gran escala.

En este laboratorio trabajaremos con datos reales del Sistema Nacional de Publicidad de Subvenciones y Ayudas Públicas (BDNS) y construiremos un modelo capaz de predecir el rango de presupuesto de nuevas convocatorias en función de sus características principales.

Todo el código utilizado está disponible en el correspondiente repositorio de GitHub para que puedas ejecutarlo, entenderlo y adaptarlo a tus propios proyectos.

Accede al repositorio del laboratorio de datos en GitHub

Ejecuta el código de pre-procesamiento de datos sobre Google Colab

Contexto: ¿por qué analizar las subvenciones públicas?

La BDNS recoge información detallada sobre cientos de miles de convocatorias publicadas por distintas administraciones españolas: desde ministerios y consejerías autonómicas hasta diputaciones y ayuntamientos. Este conjunto de datos es una fuente extraordinariamente valiosa para:

analizar la evolución del gasto público,
entender qué organismos son más activos en ciertas áreas,
identificar patrones en los tipos de beneficiarios,
y estudiar la distribución presupuestaria según sector o territorio.

En nuestro caso, utilizaremos el dataset para abordar una pregunta muy concreta, pero de gran interés práctico:

¿Podemos predecir el rango de presupuesto de una convocatoria a partir de sus características administrativas?

Esta capacidad facilitaría tareas de clasificación inicial, apoyo a la toma de decisiones o análisis comparativos dentro de una administración pública.

Objetivo del ejercicio

El objetivo del laboratorio es doble:

Aprender a manejar Spark de forma práctica:

Cargar un dataset real de gran volumen
Realizar transformaciones y limpieza
Manipular columnas categóricas y numéricas
Estructurar un pipeline de machine learning

2. Construir un modelo predictivo

Entrenaremos un clasificador capaz de estimar si una convocatoria pertenece a uno de estos rangos de presupuesto bajo (hasta 20 k€), medio (entre 20 y 150k€) o alto (superior a 150k€), basándonos para ello en variables como:

Organismo concedente
Comunidad Autónoma
Tipo de beneficiario
Año de publicación
Descripciones administrativas

Recursos utilizados

Para completar este ejercicio empleamos:

Herramientas analíticas

Python, lenguaje principal del proyecto
Google Colab, para ejecutar Spark y crear Notebooks de forma sencilla
PySpark, para el procesamiento de datos en las etapas de limpieza y modelado
Pandas, para pequeñas operaciones auxiliares
Plotly, para algunas visualizaciones interactivas

Datos

Dataset oficial del Sistema Nacional de Publicidad de Subvenciones (BDNS), descargado desde el portal de subvenciones del Ministerio de Hacienda.

Los datos utilizados en este ejercicio fueron descargados el 28 de agosto de 2025. La reutilización de los datos del Sistema Nacional de Publicidad de Subvenciones y Ayudas Públicas está sujeta a las condiciones legales recogidas en https://www.infosubvenciones.es/bdnstrans/GE/es/avisolegal.

Desarrollo del ejercicio

El proyecto se divide en varias fases, siguiendo el flujo natural de un caso real de data science.

5.1. Volcado y transformación de datos

En este primer apartado vamos a descargar automáticamente el dataset de subvenciones desde la API del portal del Sistema Nacional de Publicidad de Subvenciones (BDNS). Posteriormente transformaremos los datos a un formato optimizado como Parquet (formato de datos columnar) para facilitar su exploración y análisis.

En este proceso utilizaremos algunos conceptos complejos, como:

Funciones asíncronas: permite procesar en paralelo dos o más operaciones independientes, lo que facilita hacer más eficiente el proceso.
Escritor rotativo: cuando se supera un límite de cantidad de información el fichero que se está procesando se cierra y se abre uno nuevo con un índice autoincremental (a continuación del anterior). Esto evita procesar ficheros demasiado grandes y mejora la eficiencia.

Figura 1. Captura de la API del Sistema Nacional de Publicidad de Subvenciones y Ayudas Públicas

5.2. Análisis exploratorio

El objetivo de esta fase es obtener una primera idea de las características de los datos y de su calidad.

Analizaremos entre otros, aspectos como:

Qué tipos de subvenciones tienen mayor número de convocatorias.

Gráfico que muestra que el mayor número de subvenciones se otorgan por concesión directa - instrumental (400k), seguido de concurrencia competitiva - canónica (menos de 200k) y concesión directa - canónica (menos de 30k)

Figura 2. Tipos de subvenciones con mayor número de convocatorias.

Cuál es la distribución de las subvenciones en función de su finalidad (i.e. Cultura, Educación, Fomento del empleo…).

Gráfico que muestra la distribución de las subvenciones en función de su finalidad: 20% cultura, 17,9% Servicios Sociales y Promoción Social, 15,8% otros, 9,42% educación, 7,65% información no disponible, 7,13% otras actuaciones de carácter económico, 5,57% Comercio, Turismo y pymes, 5,14% fomento del empleo.

Figura 3. Distribución de las subvenciones en función de su finalidad.

Qué finalidades agregan un mayor volumen presupuestario.

Las finalidades agregan un mayor volumen presupuestario son: Agricultura, Pesca y Alimentación, seguidas de otras prestaciones económicas. En tercer lugar se encuentra Industria y Energía.

Figura 4. Finalidades con mayor volumen presupuestario.

5.3. Modelado: construcción del clasificador de presupuesto

Llegados a este punto, entramos en la parte más analítica del ejercicio: enseñar a una máquina a predecir si una nueva convocatoria tendrá un presupuesto bajo, medio o alto a partir de sus características administrativas. Para conseguirlo, diseñamos un pipeline completo de machine learning en Spark que nos permite transformar los datos, entrenar el modelo y evaluarlo de forma uniforme y reproducible.

Primero preparamos todas las variables —muchas de ellas categóricas, como el órgano convocante— para que el modelo pueda interpretarlas. Después combinamos toda esa información en un único vector que sirve como punto de partida para la fase de aprendizaje.

Con esa base construida, entrenamos un modelo de clasificación que aprende a distinguir patrones sutiles en los datos: qué organismos tienden a publicar convocatorias más voluminosas o cómo influyen elementos administrativos específicos en el tamaño de una ayuda.

Una vez entrenado, analizamos su rendimiento desde distintos ángulos. Evaluamos su capacidad para clasificar correctamente los tres rangos de presupuesto y analizamos su comportamiento mediante métricas como la accuracy o la matriz de confusión.

Captura del cálculo de la métrica accuracy

Figura 5. Métricas accuracy.

Pero no nos quedamos ahí: también estudiamos qué variables han tenido mayor peso en las decisiones del modelo, lo que nos permite entender qué factores parecen más determinantes a la hora de anticipar el presupuesto de una convocatoria.

Las variables que han tenido mayor peso en las decisiones del modelo son organo_n2, organo_n1, descripciónFinalidad, tipo convocatoria, organo_n3, anio

Figura 6. Variables que han tenido mayor peso en las decisiones del modelo.

Conclusiones del ejercicio

Este laboratorio nos permitirá comprobar cómo Spark simplifica el procesamiento y modelado de datos de gran volumen, especialmente útiles en entornos donde las administraciones generan miles de registros al año, y conocer mejor el sistema de subvenciones tras analizar algunos aspectos clave de la organización de estas convocatorias.

¿Quieres realizar el ejercicio?

Si te interesa profundizar en el uso de Spark y en el análisis avanzado de datos públicos, puedes acceder al repositorio y ejecutar el Notebook completo paso a paso.

Contenido elaborado por Juan Benavente, ingeniero superior industrial y experto en Tecnologías ligadas a la economía del dato. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

04/12/2025

Sistemas Ciberfísicos: el puente entre el mundo real y el dato abierto

Blog

Vivimos en una época en la que cada vez más fenómenos del mundo físico pueden observarse, medirse y analizarse en tiempo real. La temperatura de un cultivo, la calidad del aire de una ciudad, el estado de una presa, el flujo del tráfico o el consumo energético de un edificio ya no son datos que se revisan ocasionalmente: son flujos continuos de información que se generan segundo a segundo.

Esta revolución no sería posible sin los sistemas ciberfísicos (CPS), una tecnología que integra sensores, algoritmos y actuadores para conectar el mundo físico con el digital. Pero los CPS no sólo generan datos: también pueden alimentarse de datos abiertos, multiplicando su utilidad y permitiendo decisiones basadas en evidencia.

En este artículo exploraremos qué son los CPS, cómo generan datos masivos en tiempo real, qué retos plantea convertir esos datos en información pública útil, qué principios son esenciales para asegurar su calidad y trazabilidad, y qué ejemplos reales demuestran el potencial de su reutilización. Cerraremos con una reflexión sobre el impacto de esta combinación en la innovación, la ciencia ciudadana y el diseño de políticas públicas más inteligentes.

¿Qué son los sistemas ciberfísicos?

Un sistema ciberfísico es una integración estrecha entre componentes digitales —como software, algoritmos, comunicación y almacenamiento— y componentes físicos —sensores, actuadores, dispositivos IoT o máquinas industriales—. Su función principal es observar el entorno, procesar la información y actuar sobre él.

A diferencia de los sistemas tradicionales de monitorización, un CPS no se limita a medir: cierra un ciclo completo entre percepción, decisión y acción. Este ciclo se puede entender a través de tres elementos principales:

Figura 1. Ciclo de los sistemas ciberfísicos. Fuente: elaboración propia

Un ejemplo cotidiano que ilustra muy bien este ciclo completo de percepción, decisión y acción es el riego inteligente, cada vez más presente en la agricultura de precisión y en los sistemas domésticos de jardinería. En este caso, los sensores distribuidos por el terreno miden continuamente la humedad del suelo, la temperatura ambiente e incluso la radiación solar. Toda esa información fluye hacia la unidad de computación, que analiza los datos, los compara con umbrales previamente definidos o con modelos más complejos —por ejemplo, los que estiman la evaporación del agua o las necesidades hídricas de cada tipo de planta— y determina si realmente es necesario regar.

Cuando el sistema concluye que el suelo ha alcanzado un nivel de sequedad crítico, entra en juego el tercer elemento del CPS: los actuadores. Son ellos quienes abren las válvulas, activan la bomba de agua o regulan el caudal, y lo hacen durante el tiempo exacto necesario para devolver la humedad a niveles óptimos. Si las condiciones cambian —si empieza a llover, si la temperatura baja o si el suelo recupera humedad más rápido de lo esperado—, el propio sistema ajusta su comportamiento en consecuencia.

Todo este proceso ocurre sin intervención humana, de forma autónoma. El resultado es un uso más sostenible del agua, plantas mejor cuidadas y una capacidad de adaptación en tiempo real que solo es posible gracias a la integración de sensores, algoritmos y actuadores característica de los sistemas ciberfísicos.

Los CPS como fábricas de datos en tiempo real

Una de las características más relevantes de los sistemas ciberfísicos es su capacidad para generar datos de forma continua, masiva y con una resolución temporal muy alta. Esta producción constante puede apreciarse en múltiples situaciones del día a día:

Una estación hidrológica puede registrar nivel y caudal cada minuto.
Un sensor de movilidad urbana puede generar cientos de lecturas por segundo.
Un contador inteligente registra el consumo eléctrico cada pocos minutos.
Un sensor agrícola mide humedad, salinidad y radiación solar varias veces al día.
Un dron cartográfico captura posiciones GPS decimétricas en tiempo real.

Más allá de estos ejemplos concretos, lo importante es comprender qué significa esta capacidad para el conjunto del sistema: los CPS se convierten en auténticas fábricas de datos, y en muchos casos llegan a funcionar como gemelos digitales del entorno físico que monitorizan. Esa equivalencia casi instantánea entre el estado real de un río, un cultivo, una carretera o una máquina industrial y su representación digital permite disponer de un retrato extremadamente preciso y actualizado del mundo físico, prácticamente al mismo tiempo que los fenómenos ocurren.

Esta riqueza de datos abre un enorme campo de oportunidades cuando se publica como información abierta. Los datos procedentes de CPS pueden impulsar servicios innovadores desarrollados por empresas, alimentar investigaciones científicas de alto impacto, potenciar iniciativas de ciencia ciudadana que complementen los datos institucionales, y reforzar la transparencia y la rendición de cuentas en la gestión de recursos públicos.

Sin embargo, para que todo ese valor llegue realmente a la ciudadanía y a la comunidad reutilizadora, es necesario superar una serie de retos técnicos, organizativos y de calidad que determinan la utilidad final del dato abierto. A continuación, analizamos cuáles son esos desafíos y por qué son tan importantes en un ecosistema cada vez más dependiente de información generada en tiempo real.

El reto: de datos en bruto a información pública útil

Que un CPS genere datos no significa que estos puedan publicarse directamente como datos abiertos. Antes de llegar a la ciudadanía y a las empresas reutilizadoras, la información necesita un trabajo previo de preparación, validación, filtrado y documentación. Las administraciones deben asegurarse de que esos datos son comprensibles, interoperables y fiables. Y en ese camino aparecen varios desafíos.

Uno de los primeros es la estandarización. Cada fabricante, cada sensor y cada sistema puede utilizar formatos distintos, diferentes frecuencias de muestreo o estructuras propias. Si no se armonizan esas diferencias, lo que obtenemos es un mosaico difícilmente integrable. Para que los datos sean interoperables se necesitan modelos comunes, unidades homogéneas, estructuras coherentes y estándares compartidos. Normativas como INSPIRE o los estándares de OGC (Open Geospatial Consortium) e IoT-TS son clave para que un dato generado en una ciudad pueda entenderse, sin transformación adicional, en otra administración o por cualquier reutilizador.

El siguiente gran reto es la calidad. Los sensores pueden fallar, quedarse congelados reportando siempre el mismo valor, generar lecturas físicamente imposibles, sufrir interferencias electromagnéticas o estar mal calibrados durante semanas sin que nadie lo note. Si esa información se publica tal cual, sin un proceso previo de revisión y limpieza, el dato abierto pierde valor e incluso puede inducir a errores. La validación —con controles automáticos y revisión periódica— es, por tanto, indispensable.

Otro punto crítico es la contextualización. Un dato aislado carece de significado. Un “12,5” no dice nada si no sabemos si son grados, litros o decibelios. Una medida de “125 ppm” no tiene utilidad si no conocemos qué sustancia se está midiendo. Incluso algo tan aparentemente objetivo como unas coordenadas necesita un sistema de referencia concreto. Y cualquier dato ambiental o físico solo puede interpretarse adecuadamente si se acompaña de la fecha, la hora, la ubicación exacta y las condiciones de captura. Todo esto forma parte de los metadatos, que son esenciales para que terceros puedan reutilizar la información sin ambigüedades.

También es fundamental abordar la privacidad y la seguridad. Algunos CPS pueden captar información que, directa o indirectamente, podría vincularse a personas, propiedades o infraestructuras sensibles. Antes de publicar los datos, es necesario aplicar procesos de anonimización, técnicas de agregación, controles de seguridad y evaluaciones de impacto que garanticen que el dato abierto no compromete derechos ni expone información crítica.

Por último, existen retos operativos como la frecuencia de actualización y la robustez del flujo de datos. Aunque los CPS generan información en tiempo real, no siempre es adecuado publicarla con la misma granularidad: en ocasiones es necesario agregarla, validar la coherencia temporal o corregir valores antes de compartirla. De igual modo, para que los datos sean útiles en análisis técnicos o en servicios públicos, deben llegar sin interrupciones prolongadas ni duplicados, lo que exige una infraestructura estable y mecanismos de supervisión.

Principios de calidad y trazabilidad necesarios para datos abiertos fiables

Superados estos retos, la publicación de datos procedentes de sistemas ciberfísicos debe apoyarse en una serie de principios de calidad y trazabilidad. Sin ellos, la información pierde valor y, sobre todo, pierde confianza.

El primero es la exactitud. El dato debe representar fielmente el fenómeno que mide. Esto requiere sensores correctamente calibrados, revisiones periódicas, eliminación de valores claramente erróneos y comprobación de que las lecturas se encuentran dentro de rangos físicamente posibles. Un sensor que marca 200 °C en una estación meteorológica o un contador que registra el mismo consumo durante 48 horas son señales de un problema que debe detectarse antes de la publicación.

El segundo principio es la completitud. Un conjunto de datos debe indicar cuándo hay valores perdidos, lagunas temporales o periodos en los que un sensor ha estado desconectado. Ocultar estos huecos puede llevar a conclusiones equivocadas, especialmente en análisis científicos o en modelos predictivos que dependen de la continuidad de la serie temporal.

El tercer elemento clave es la trazabilidad, es decir, la capacidad de reconstruir la historia del dato. Saber qué sensor lo generó, dónde está instalado, qué transformaciones ha sufrido, cuándo se capturó o si pasó por algún proceso de limpieza permite evaluar su calidad y fiabilidad. Sin trazabilidad, la confianza se erosiona y el dato pierde valor como evidencia.

La actualización adecuada es otro principio fundamental. La frecuencia con la que se publica la información debe adaptarse al fenómeno medido. Los niveles de contaminación atmosférica pueden necesitar actualizaciones cada pocos minutos; el tráfico urbano, cada segundo; la hidrología, cada minuto o cada hora según el tipo de estación; y los datos meteorológicos, con frecuencias variables. Publicar demasiado rápido puede generar ruido; demasiado lento, puede inutilizar el dato para ciertos usos.

El último principio es el de los metadatos enriquecidos. Los metadatos explican el dato: qué mide, cómo se mide, con qué unidad, qué precisión tiene el sensor, cuál es su rango operativo, dónde está ubicado, qué limitaciones tiene la medición y para qué se genera esa información. No son una nota al pie, sino la pieza que permite a cualquier reutilizador comprender el contexto y la fiabilidad del conjunto de datos. Con una buena documentación, la reutilización no solo es posible: se dispara.

Ejemplos: CPS que reutilizan datos públicos para ser más inteligentes

Además de generar datos, muchos sistemas ciberfísicos también consumen datos públicos para mejorar su desempeño. Esta retroalimentación convierte a los datos abiertos en un recurso central para el funcionamiento de los territorios inteligentes. Cuando un CPS integra información procedente de sensores propios con fuentes abiertas externas, su capacidad de anticipación, eficiencia y precisión aumenta de forma notable.

Agricultura de precisión: En el ámbito agrícola, los sensores instalados en el terreno permiten medir variables como la humedad del suelo, la temperatura o la radiación solar. Sin embargo, los sistemas de riego inteligente no dependen únicamente de esa información local: también incorporan predicciones meteorológicas de AEMET, mapas abiertos del IGN sobre pendiente o tipos de suelo y modelos climáticos publicados como datos públicos. Al combinar sus propias mediciones con estas fuentes externas, los CPS agrícolas pueden determinar con mucha mayor exactitud qué zonas del terreno necesitan agua, cuándo conviene sembrar y cuánta humedad debe mantenerse en cada cultivo. Esta gestión fina permite ahorros de agua y fertilizantes que, en algunos casos, superan el 30 %.

Gestión hídrica: Algo similar ocurre en la gestión del agua. Un sistema ciberfísico que controla una presa o un canal de riego necesita saber no solo qué está pasando en ese instante, sino qué puede ocurrir en las próximas horas o días. Por ello integra sus propios sensores de nivel con datos abiertos de aforos fluviales, predicciones de lluvia y nieve, e incluso información pública sobre caudales ecológicos. Con esta visión ampliada, el CPS puede anticipar inundaciones, optimizar el desembalse, responder mejor a fenómenos extremos o planificar el riego de forma sostenible. En la práctica, la combinación de datos propios y abiertos se traduce en una gestión más segura y eficiente del agua.

Impacto: innovación, ciencia ciudadana y decisiones basadas en datos

La unión entre sistemas ciberfísicos y datos abiertos genera un efecto multiplicador que se manifiesta en distintos ámbitos.

Innovación empresarial: las empresas disponen de un terreno fértil para desarrollar soluciones basadas en información fiable y en tiempo real. A partir de datos abiertos y mediciones de CPS, pueden surgir aplicaciones de movilidad más inteligentes, plataformas de gestión hídrica, herramientas de análisis energético o sistemas predictivos para agricultura. El acceso a datos públicos reduce barreras de entrada y permite crear servicios sin necesidad de costosos datasets privados, acelerando la innovación y la aparición de nuevos modelos de negocio.
Ciencia ciudadana: la combinación de CPS y datos abiertos también fortalece la participación social. Comunidades de vecinos, asociaciones o colectivos ambientales pueden desplegar sensores de bajo coste para complementar los datos públicos y entender mejor lo que ocurre en su entorno. Esto da lugar a iniciativas que miden el ruido en zonas escolares, monitorizan niveles de contaminación en barrios concretos, siguen la evolución de la biodiversidad o construyen mapas colaborativos que enriquecen la información oficial.
Mejor toma de decisiones públicas: finalmente, los gestores públicos se benefician de este ecosistema de datos reforzado. La disponibilidad de mediciones fiables y actualizadas permite diseñar zonas de bajas emisiones, planificar de forma más efectiva el transporte urbano, optimizar redes de riego, gestionar situaciones de sequía o inundaciones o regular políticas energéticas basadas en indicadores reales. Sin datos abiertos que complementen y contextualicen la información generada por los CPS, estas decisiones serían menos transparentes y, sobre todo, menos defendibles ante la ciudadanía.

En resumen, los sistemas ciberfísicos se han convertido en una pieza esencial para entender y gestionar el mundo que nos rodea. Gracias a ellos podemos medir fenómenos en tiempo real, anticipar cambios y actuar de forma precisa y automatizada. Pero su verdadero potencial se despliega cuando sus datos se integran en un ecosistema de datos abiertos de calidad, capaz de aportar contexto, enriquecer decisiones y multiplicar usos.

La combinación de CPS y datos abiertos permite avanzar hacia territorios más inteligentes, servicios públicos más eficientes y una participación ciudadana más informada. Aporta valor económico, impulsa la innovación, facilita la investigación y mejora la toma de decisiones en ámbitos tan diversos como la movilidad, el agua, la energía o la agricultura.

Para que todo esto sea posible, es imprescindible garantizar la calidad, trazabilidad y estandarización de los datos publicados, así como proteger la privacidad y asegurar la robustez de los flujos de información. Cuando estas bases están bien asentadas, los CPS no solo miden el mundo: lo ayudan a mejorar, convirtiéndose en un puente sólido entre la realidad física y el conocimiento compartido.

Contenido elaborado por Dr. Fernando Gualo, Profesor en UCLM y Consultor de Gobierno y Calidad de datos. El contenido y el punto de vista reflejado en esta publicación es responsabilidad exclusiva de su autor.

01/12/2025

Computación cuántica y datos abiertos. La próxima frontera del conocimiento y la tecnología

Blog

La computación cuántica promete resolver en horas problemas que tomarían milenios a los superordenadores más potentes del mundo. Desde el diseño de nuevos fármacos hasta la optimización de redes de energía más sostenibles, esta tecnología transformará radicalmente nuestra capacidad para abordar los desafíos más complejos de la humanidad. Sin embargo, su verdadero potencial democratizador solo se materializará mediante la convergencia con los datos abiertos, permitiendo que investigadores, empresas y gobiernos de todo el mundo accedan tanto a la capacidad de cómputo cuántico en la nube como a los datasets públicos necesarios para entrenar y validar algoritmos cuánticos.

Tratar de explicar la teoría cuántica siempre ha supuesto un desafío, incluso para las mentes más brillantes que la humanidad ha dado en los últimos 2 siglos. El célebre físico Richard Feynman (1918-1988) lo expresó con su característico humor:

"Hubo un tiempo en que los periódicos decían que sólo doce hombres entendían la teoría de la relatividad. No creo que nunca fuera así [...] Por otro lado, creo que puedo decir con seguridad que nadie entiende la mecánica cuántica" Wikiquote.

Y eso lo dijo uno de los físicos más brillantes del siglo XX, premio Nobel y uno de los padres de la electrodinámica cuántica. Tan grande es la rareza del comportamiento cuántico a ojos de un humano que, hasta el mismísimo Albert Einstein en su ya mítica frase, le decía a Max Born, en una carta escrita al físico alemán en 1926 "Dios no juega a los dados con el universo" en referencia a su incredulidad sobre las propiedades probabilísticas y no deterministas que se le atribuyen al comportamiento cuántico. A lo que Niels Bohr - otro titán de la física del siglo XX - le respondió: "Einstein, deja de decirle a Dios qué hacer".

Computación clásica

Si queremos entender por qué la mecánica cuántica propone una revolución en la ciencia de la computación tenemos que entender sus diferencias fundamentales con la mecánica - y, por ende - computación clásica. Casi todos hemos oído hablar en algún momento de nuestra vida de los bits de información. Los humanos hemos desarrollado una forma de realizar cálculos matemáticos complejos reduciendo toda la información a bits - las unidades fundamentales de información con las que sabe trabajar una máquina -, que son los famosos ceros y unos (0 y 1). Con dos simples valores, hemos sido capaces de modelar todo nuestro mundo matemático. ¿Y esto por qué? se preguntará alguno. ¿Por qué en base 2 y no 5 o 7? Pues bien, en nuestro mundo físico clásico (en el que vivimos día a día) diferenciar entre 0 y 1 es relativamente sencillo; encendido y apagado, como en el caso de un interruptor eléctrico, o imanación norte o sur, en el caso de un disco duro magnético. Para un mundo binario, hemos desarrollado todo un lenguaje de codificación en base a dos estados: 0 y 1.

Computación cuántica

En computación cuántica en vez de bits, utilizamos los cúbits o qubits. Los qubits utilizan varias propiedades “extrañas” de la mecánica cuántica que les permite representar infinitos estados a la vez entre el cero y uno de los clásicos bits. Para entenderlo, es cómo si un bit solo pudiera representar un estado encendido o apagado en una bombilla, mientras que un qubit puede representar todas las intensidades de iluminación de la bombilla. Esta propiedad es conocida como “superposición cuántica” y permite que un ordenador cuántico explore millones de soluciones posibles al mismo tiempo. Pero esto no es todo en la computación cuántica. Si te parece extraña la superposición cuántica espera a ver el entrelazamiento cuántico (quantum entanglement). Gracias a esta propiedad, dos partículas (o dos qubits) “entrelazadas” están conectadas “a distancia” de forma que el estado de una determina el estado de la otra. Así que, con estas dos propiedades tenemos qubits de información, que pueden representar infinitos estados y están conectados entre ellos. Este sistema tiene potencialmente una capacidad de computación exponencialmente mayor que nuestros ordenadores basados en computación clásica.

Dos casos de aplicación de la computación cuántica

1. Descubrimiento de fármacos y medicina personalizada. Los ordenadores cuánticos pueden simular interacciones moleculares complejas que son imposibles de calcular con la computación clásica. Por ejemplo, el plegamiento de proteínas - fundamental para entender enfermedades como el Alzheimer - requiere analizar trillones de configuraciones posibles. Un ordenador cuántico podría reducir años de investigación a semanas, acelerando el desarrollo de nuevos medicamentos y tratamientos personalizados basados en el perfil genético de cada paciente.

2. Optimización logística y cambio climático. Empresas como Volkswagen ya utilizan computación cuántica para optimizar rutas de tráfico en tiempo real. A mayor escala, estos sistemas podrían revolucionar la gestión energética de ciudades enteras, optimizando redes eléctricas inteligentes que integren renovables de forma eficiente, o diseñar nuevos materiales para captura de CO₂ que ayuden a combatir el cambio climático.

Una buena lectura recomendada para hacer un repaso completo por la computación cuántica aquí.

El papel de los datos (y los recursos de computación) abiertos

La democratización del acceso a la computación cuántica dependerá crucialmente de dos pilares: recursos de computación abiertos y datasets públicos de calidad. Esta combinación está creando un ecosistema donde la innovación cuántica ya no requiere millones de dólares en infraestructura. A continuación, vemos algunas opciones disponibles para cada uno de estos pilares.

Acceso gratuito a hardware cuántico real:

IBM Quantum Platform: ofrece acceso gratuito mensual a sistemas cuánticos de más de 100 qubits para cualquier persona en el mundo. Con más de 400.000 usuarios registrados que han generado más de 2.800 publicaciones científicas, demuestra cómo el acceso abierto acelera la investigación. Cualquier investigador puede registrarse en la plataforma y comenzar a experimentar en minutos.
Open Quantum Institute (OQI): lanzado en CERN (la Organización Europea para la Investigación Nuclear) en 2024, va más allá, proporcionando no solo acceso a computación cuántica sino también mentorización y recursos educativos para regiones desatendidas. Su programa de hackathons en 2025 incluye eventos en Líbano, Emiratos Árabes Unidos y otros países, específicamente diseñados para mitigar la brecha digital cuántica.

Datasets públicos para el desarrollo de algoritmos cuánticos:

QDataSet: ofrece 52 conjuntos de datos públicos con simulaciones de sistemas cuánticos de uno y dos qubits, disponibles libremente para entrenar algoritmos de machine learning (ML) cuántico. Investigadores sin recursos para generar sus propios datos de simulación pueden acceder a su repositorio en GitHub y comenzar a desarrollar algoritmos inmediatamente.
ClimSim: se trata de un dataset público de modelado relacionado con el clima que ya está siendo usado para demostrar los primeros algoritmos de ML cuántico aplicados al cambio climático. Permite a cualquier equipo, independientemente de su presupuesto, trabajar en problemas climáticos reales usando computación cuántica.
PennyLane Datasets: es una colección abierta de moléculas, circuitos cuánticos y sistemas físicos que permite a las startups farmacéuticas sin recursos realizar simulaciones costosas y experimentar con el descubrimiento de fármacos asistido por computación cuántica.

Casos reales de innovación inclusiva

Las posibilidades que ofrece el uso de datos abiertos a la computación cuántica ha quedado patente en diversos casos de uso, fruto de investigaciones concretas y convocatorias de ayudas, como, por ejemplo:

El Gobierno de Canadá lanzó en 2022 "Quantum Computing for Climate", una convocatoria específica para que PYMEs y startups desarrollen aplicaciones cuánticas usando datos climáticos públicos, demostrando cómo los gobiernos pueden catalizar innovación proporcionando tanto datos como financiación para su uso.
UK Quantum Catalyst Fund (15 millones de libras) financia proyectos que combinan computación cuántica con datos públicos del sistema nacional de salud de Reino Unido (NHS) para problemas como la optimización de redes energéticas y diagnósticos médicos, creando soluciones de interés público verificables por la comunidad científica.
El informe 2024 del Open Quantum Institute (OQI) detalla 10 casos de uso para los Objetivos de Desarrollo Sostenible de la ONU desarrollados colaborativamente por expertos de 22 países, donde los resultados y metodologías son públicamente accesibles, permitiendo que cualquier institución replique o mejore estos trabajos).
Red.es ha abierto una manifestación de interés dirigida a agentes del ecosistema de tecnologías cuánticas para recopilar ideas, propuestas y necesidades que contribuyan al diseño de las futuras líneas de actuación de la Estrategia Nacional de Tecnologías Cuánticas 2025–2030, financiada con 40 millones de euros provenientes de los Fondos FEDER.

Estado actual de la computación cuántica

Estamos en la era NISQ (Noisy Intermediate-Scale Quantum), término acuñado por el físico John Preskill en 2018, que describe ordenadores cuánticos con 50-100 qubits físicos. Estos sistemas son suficientemente potentes para realizar ciertos cálculos más allá de las capacidades clásicas, pero sufren de decoherencia, errores frecuentes que los hacen poco viables en aplicaciones de mercado.

IBM, Google, y startups como IonQ ofrecen acceso cloud a sus sistemas cuánticos, con IBM proporcionando acceso público a través de IBM Quantum Platform desde 2016, siendo uno de los primeros procesadores cuánticos accesibles públicamente conectados a la nube.

En 2019, Google alcanzó la "supremacía cuántica" con su procesador Sycamore de 53 qubits, que realizó un cálculo en aproximadamente 200 segundos que tomaría aproximadamente 10.000 años a un superordenador clásico de última generación.

Los últimos análisis independientes sugieren que las aplicaciones cuánticas prácticas pueden emerger alrededor de 2035-2040, asumiendo un crecimiento exponencial continuo en las capacidades del hardware cuántico. IBM se ha comprometido a entregar un ordenador cuántico tolerante a fallos a gran escala, IBM Quantum Starling, para 2029, con el objetivo de ejecutar circuitos cuánticos que comprenden 100 millones de compuertas cuánticas en 200 qubits lógicos.

Para finalizar la sección, una fantástica entrevista corta a Ignacio Cirac, uno de los “padres españoles” de la computación cuántica.

La carrera global por el liderazgo cuántico

La competencia internacional por dominar las tecnologías cuánticas ha desencadenado una ola de inversiones sin precedentes. Según McKinsey, hasta 2022 el nivel reconocido oficialmente de inversión pública de China (15.300 millones de dólares) supera el de la Unión Europea (7.200 millones de dólares), Estados Unidos 1.900 millones de dólares) y Japón (1.800 millones de dólares) juntos.

A nivel doméstico, el Reino Unido ha comprometido 2.500 millones de libras durante diez años con su Estrategia Nacional Cuántica para hacer del país un hub global de innovación en esta tecnología, y Alemania ha realizado una de las inversiones estratégicas más grandes en computación cuántica, destinando 3.000 millones de euros bajo su plan de estímulo económico.

La inversión en el primer trimestre de 2025 muestra un crecimiento explosivo: las empresas de computación cuántica recaudaron más de 1.250 mil millones de dólares, más del doble que el año anterior, un aumento del 128%, reflejando una creciente confianza en que esta tecnología está acercándose a la relevancia comercial.

Iniciativa Quantum Spain

En el caso de España se han invertido 60 millones de euros en Quantum Spain, coordinado por el Barcelona Supercomputing Center. El proyecto incluye:

Instalación del primer ordenador cuántico del sur de Europa.
Red de 25 nodos de investigación distribuidos por todo el país.
Formación de talento cuántico en universidades españolas.
Colaboración con el sector empresarial para casos de uso reales.

Esta iniciativa posiciona a España como hub cuántico del sur de Europa, crucial para no depender tecnológicamente de otras potencias.

Además, muy recientemente se ha presentado la Estrategia de Tecnologías Cuánticas de España con una inversión de 800 millones de euros. Esta estrategia se estructura en 4 objetivos estratégicos y 7 acciones prioritarias.

Objetivos estratégicos:

Reforzar la I+D+I para favorecer la transferencia de conocimiento y facilitar que la investigación llegue al mercado.
Crear un mercado español cuántico, fomentando el crecimiento y aparición de empresas cuánticas y su capacidad de acceder a capital y de satisfacer la demanda.
Preparar a la sociedad para un cambio disruptivo, fomentando la seguridad y la reflexión sobre un nuevo derecho digital, la privacidad postcuántica.
Consolidar el ecosistema cuántico de manera que traccione una visión de país.

Acciones prioritarias:

Prioridad 1: Potenciar las empresas españolas en tecnologías cuánticas.
Prioridad 2: Desarrollar la algoritmia y convergencia tecnológica entre IA y Cuántica.
Prioridad 3: Posicionar a España cómo un referente en comunicaciones cuánticas.
Prioridad 4: Demostrar el impacto de la sensórica y metrología cuántica.
Prioridad 5: Garantizar la privacidad y confidencialidad de la información en el mundo post cuántico.
Prioridad 6: Reforzar las capacidades: infraestructuras, investigación y talento.
Prioridad 7: Desarrollar un ecosistema español cuántico sólido, coordinado y líder en la UE.

Figura 1. Estrategia de tecnologías cuánticas de España. Fuente: elaboración propia

En definitiva, la computación cuántica y los datos abiertos representan una gran evolución tecnológica que afecta a la forma en que generamos y aplicamos el conocimiento. Si somos capaces de construir un ecosistema verdaderamente inclusivo —donde el acceso a hardware cuántico, datasets públicos y formación especializada esté al alcance de cualquiera— abriremos la puerta a una nueva era de innovación colaborativa con un gran impacto global.

Contenido elaborado por Alejandro Alija, experto en Transformación Digital e Innovación. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor

25/11/2025

Datos abiertos, inteligencia artificial y medio ambiente

Blog

La convergencia entre datos abiertos, inteligencia artificial y sostenibilidad medioambiental plantea uno de los principales desafíos para el modelo de transformación digital que se está impulsando a nivel europeo. Esta interacción se concreta principalmente en tres manifestaciones destacadas:

La apertura de datos de alto valor directamente relacionados con la sostenibilidad, que pueden ayudar al desarrollo de soluciones de inteligencia artificial orientadas a la mitigación del cambio climático y la eficiencia de recursos.
El impulso de los denominados algoritmos verdes en la reducción del impacto ambiental de la IA, que se ha de concretar tanto en el uso eficiente de la infraestructura digital como en la toma de decisiones sostenibles.
La apuesta por espacios de datos medioambientales, generando ecosistemas digitales donde se comparten datos que provienen de fuentes diversas para facilitar el desarrollo de proyectos y soluciones interoperables con impacto relevante desde la perspectiva medioambiental.

A continuación, profundizaremos en cada uno de estos puntos.

Datos de alto valor para la sostenibilidad

La Directiva (UE) 2019/1024 sobre datos abiertos y reutilización de la información del sector público introdujo por primera vez el concepto de conjuntos de datos de alto valor, definidos como aquellos con un potencial excepcional para generar beneficios sociales, económicos y medioambientales. Estos conjuntos deben publicarse de forma gratuita, en formatos legibles por máquina, mediante interfaces de programación de aplicaciones (API) y, cuando proceda, se han de poder descargar de forma masiva. A tal efecto se han identificado una serie de categorías prioritarias, entre los que se encuentran los datos medioambientales y relativos a la observación de la Tierra.

Se trata de una categoría especialmente relevante, ya que abarca tanto datos sobre clima, ecosistemas o calidad ambiental, así como los vinculados a la Directiva INSPIRE, que hacen referencia a áreas ciertamente diversas como hidrografía, lugares protegidos, recursos energéticos, uso del suelo, recursos minerales o, entre otros, los relativos a zonas de riesgos naturales, incluyendo también ortoimágenes.

Estos datos tienen una singular relevancia a la hora de monitorizar las variables relacionadas con el cambio climático, como puede ser el uso del suelo, la gestión de la biodiversidad teniendo en cuenta la distribución de especies, hábitats y lugares protegidos, el seguimiento de las especies invasoras o la evaluación de los riesgos naturales. Los datos sobre calidad del aire y contaminación son cruciales para la salud pública y ambiental, de manera que el acceso a los mismos permite llevar a cabo análisis exhaustivos sin duda relevantes para la adopción de políticas públicas orientadas a su mejora. La gestión de recursos hídricos también se puede optimizar mediante datos de hidrografía y monitoreo ambiental, de manera que su tratamiento masivo y automatizado constituye una premisa inexcusable para hacer frente al reto de la digitalización de la gestión del ciclo del agua.

La combinación con otros datos medioambientales de calidad facilita el desarrollo de soluciones de IA orientadas a desafíos climáticos específicos. En concreto, permiten entrenar modelos predictivos para anticipar fenómenos extremos (olas de calor, sequías, inundaciones), optimizar la gestión de recursos naturales o monitorizar en tiempo real indicadores ambientales críticos. También permite impulsar proyectos económicos de gran impacto, como puede ser el caso de la utilización de algoritmos de IA para implementar soluciones tecnológicas en el ámbito de la agricultura de precisión, posibilitando el ajuste inteligente de los sistemas de riego, la detección temprana de plagas o la optimización del uso de fertilizantes.

Algoritmos verdes y responsabilidad digital: hacia una IA sostenible

El entrenamiento y despliegue de sistemas de inteligencia artificial, particularmente de modelos de propósito general y grandes modelos de lenguaje, conlleva un consumo energético significativo. Según estimaciones de la Agencia Internacional de la Energía, los centros de datos representaron alrededor del 1,5 % del consumo mundial de electricidad en 2024. Esta cifra supone un crecimiento de alrededor de un 12 % anual desde 2017, más de cuatro veces más rápido que la tasa de consumo eléctrico total. Está previsto que el consumo eléctrico de los centros de datos se duplique hasta alcanzar unos 945 TWh en 2030.

Ante este panorama, los algoritmos verdes constituyen una alternativa que necesariamente ha de tenerse en cuenta a la hora de minimizar el impacto ambiental que plantea la implantación de la tecnología digital y, en concreto, la IA. De hecho, tanto la Estrategia Europea de Datos como el Pacto Verde Europeo integran explícitamente la sostenibilidad digital como pilar estratégico. Por su parte, España ha puesto en marcha un Programa Nacional de Algoritmos Verdes, enmarcado en la Agenda Digital 2026 y con una medida específica en la Estrategia Nacional de Inteligencia Artificial.

Uno de los principales objetivos del Programa consiste en fomentar el desarrollo de algoritmos que minimicen su impacto ambiental desde la concepción —enfoque green by design—, por lo que la exigencia de una documentación exhaustiva de los conjuntos de datos utilizados para entrenar modelos de IA —incluyendo origen, procesamiento, condiciones de uso y huella ambiental— resulta fundamental para dar cumplimiento a esta aspiración. A este respecto, la Comisión ha publicado una plantilla para ayudar a los proveedores de inteligencia artificial de propósito general a resumir los datos utilizados para el entrenamiento de sus modelos, de manera que se pueda exigir mayor transparencia que, por lo que ahora interesa, también facilitaría la trazabilidad y gobernanza responsable desde la perspectiva ambiental, así como la realización de ecoauditorías.

El Espacio de Datos del Pacto Verde Europeo (Green Deal)

Se trata de uno de los espacios de datos comunes europeos contemplados en la Estrategia Europea de Datos que se encuentra en un estado más avanzado, tal y como demuestran las numerosas iniciativas y eventos de divulgación que se han impulsado en torno al mismo. Tradicionalmente el acceso a la información ambiental ha sido uno de los ámbitos con una regulación más favorable, de manera que con el impulso de los datos de alto valor y la decida apuesta que supone la creación de un espacio europeo en esta materia se ha producido un avance cualitativo muy destacable que refuerza una tendencia ya consolidada en este ámbito.

En concreto, el modelo de los espacios de datos facilita la interoperabilidad entre datos abiertos públicos y privados, reduciendo barreras de entrada para startups y pymes en sectores como la gestión forestal inteligente, la agricultura de precisión o, entre otros muchos ejemplos, la optimización energética. Al mismo tiempo, refuerza la calidad de los datos disponibles para que las Administraciones Públicas lleven a cabo sus políticas públicas, ya que sus propias fuentes pueden contrastarse y compararse con otros conjuntos de datos. Finalmente, el acceso compartido a datos y herramientas de IA puede fomentar iniciativas y proyectos de innovación colaborativa, acelerando el desarrollo de soluciones interoperables y escalables.

Ahora bien, el ecosistema jurídico propio de los espacios de datos conlleva una complejidad inherente a su propia configuración institucional, ya que en el mismo confluyen varios sujetos y, por tanto, diversos intereses y regímenes jurídicos aplicables:

Por una parte, las entidades públicas, a las que en este ámbito les corresponde un papel de liderazgo especialmente reforzado.
Por otra las entidades privadas y la ciudanía, que no sólo pueden aportar sus propios conjuntos de datos, sino asimismo ofrecer desarrollos y herramientas digitales que pongan en valor los datos a través de servicios innovadores.
Y, finalmente, los proveedores de la infraestructura necesaria para la interacción en el seno del espacio.

En consecuencia, son imprescindibles modelos de gobernanza avanzados que hagan frente a esta complejidad reforzada por la innovación tecnológica y de manera especial la IA, ya que los planteamientos tradicionales propios de la legislación que regula el acceso a la información ambiental son ciertamente limitados para esta finalidad.

Hacia una convergencia estratégica

La convergencia de datos abiertos de alto valor, algoritmos verdes responsables y espacios de datos medioambientales está configurando un nuevo paradigma digital imprescindible para afrontar los retos climáticos y ecológicos en Europa que requiere un enfoque jurídico robusto y, al mismo tiempo flexible. Este singular ecosistema no solo permite impulsar la innovación y eficiencia en sectores clave como la agricultura de precisión o la gestión energética, sino que también refuerza la transparencia y la calidad de la información ambiental disponible para la formulación de políticas públicas más efectivas.

Más allá del marco normativo vigente resulta imprescindible diseñar modelos de gobernanza que ayuden a interpretar y aplicar de manera coherente regímenes legales diversos, que protejan la soberanía de los datos y, en definitiva, garanticen la transparencia y la responsabilidad en el acceso y reutilización de la información medioambiental. Desde la perspectiva de la contratación pública sostenible, es esencial promover procesos de adquisición por parte de las entidades públicas que prioricen soluciones tecnológicas y servicios interoperables basados en datos abiertos y algoritmos verdes, fomentando la elección de proveedores comprometidos con la responsabilidad ambiental y la transparencia en las huellas de carbono de sus productos y servicios digitales.

Solo partiendo de este enfoque se puede aspirar a que la innovación digital sea tecnológicamente avanzada y ambientalmente sostenible, alineando así los objetivos del Pacto Verde, la Estrategia Europea de Datos y el enfoque europeo en materia de IA

Contenido elaborado por Julián Valero, catedrático de la Universidad de Murcia y Coordinador del Grupo de Investigación “Innovación, Derecho y Tecnología” (iDerTec). Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

20/11/2025

Proyectos para impulsar el gobierno abierto en España

Blog

El pasado mes de octubre España acogió la Cumbre Global OGP 2025, un evento de referencia internacional sobre el gobierno abierto. Más de 2.000 representantes de gobiernos, organizaciones de la sociedad civil y expertos/as de políticas públicas de todo el mundo se reunieron en Vitoria-Gasteiz para conversar sobre la importancia de mantener gobiernos abiertos, participativos y transparentes como pilares de la sociedad.

La ubicación elegida para este encuentro no fue casualidad: España lleva más de una década construyendo un modelo de gobierno abierto que la ha posicionado como referente internacional. En este artículo vamos a repasar algunos de los proyectos que se han puesto en marcha en nuestro país para transformar su Administración pública y acercarla a la ciudadanía.

El marco estratégico: planes de acción y compromisos internacionales

El gobierno abierto es una cultura de gobernanza que promueve los principios de transparencia, integridad, rendición de cuentas y participación de las partes interesadas en apoyo de la democracia y el crecimiento inclusivo.

La apuesta española por el gobierno abierto tiene un recorrido consolidado. Desde que España se unió a la Alianza para el Gobierno Abierto en 2011, el país ha desarrollado cinco planes de acción consecutivos que han ido ampliando y profundizando en las iniciativas de apertura gubernamental. Cada plan ha supuesto un avance respecto al anterior, incorporando nuevos compromisos y respondiendo a los desafíos emergentes de la sociedad digital.

El V Plan de Gobierno Abierto (2024-2028) representa la evolución de esta estrategia. Su proceso de elaboración incorporó una metodología de cocreación que involucró a múltiples actores de la sociedad civil, Administraciones públicas de todos los niveles y expertos en la materia. Este enfoque participativo facilitó que el plan respondiera a necesidades reales y contara con el respaldo de todos los sectores implicados.

Justicia 2030: la mayor transformación del sistema judicial en décadas

Bajo el lema “La mayor transformación de la Justicia en décadas”, el programa Justicia 2030 se plantea como una hoja de ruta para modernizar el sistema judicial español. Su objetivo es construir una justicia más accesible, eficiente, sostenible y centrada en las personas, mediante un modelo de cogobernanza que involucra a Administraciones públicas, operadores jurídicos y ciudadanía.

El plan se articula en torno a tres ejes estratégicos:

1. Accesibilidad y justicia centrada en las personas

Este eje busca garantizar que la justicia llegue a toda la ciudadanía, reduciendo brechas territoriales, sociales y digitales. Entre las principales medidas destacan:

Accesos y atención presencial y digital: impulso de sedes judiciales más accesibles, tanto física como tecnológicamente, con servicios adaptados a colectivos vulnerables.
Educación legal básica: iniciativas de alfabetización jurídica para la población general, favoreciendo la comprensión del sistema judicial.
Justicia inclusiva: programas de mediación y justicia restaurativa, con especial atención a víctimas y grupos en situación de vulnerabilidad.
Nuevas realidades sociales: adaptación del sistema judicial a los retos contemporáneos (violencia digital, delitos medioambientales, derechos digitales, etc.).

2. Eficiencia del servicio público de justicia

El programa defiende que la transformación tecnológica y organizativa es clave para una justicia más ágil y eficiente. Este segundo eje incorpora avances orientados a la gestión moderna y la digitalización:

Oficinas de justicia en los municipios: creación de puntos de acceso a la justicia en localidades pequeñas, acercando los servicios judiciales al territorio.
Reforma procesal y organizativa: actualización de la Ley de Enjuiciamiento Criminal y del marco procesal para mejorar la coordinación entre juzgados.
Expediente judicial electrónico: consolidación del expediente digital y de las herramientas interoperables entre instituciones.
Inteligencia artificial y datos judiciales: uso responsable de tecnologías avanzadas para mejorar la gestión de expedientes y la predicción de cargas de trabajo.

3. Justicia sostenible y cohesionada territorialmente

El tercer eje busca que la modernización judicial contribuya a los Objetivos de Desarrollo Sostenible (ODS) y a la cohesión territorial.

Las líneas principales son:

Justicia ambiental y climática: promoción de mecanismos legales que favorezcan la protección medioambiental y la lucha contra el cambio climático.
Cohesión territorial: coordinación con comunidades autónomas para garantizar igualdad de acceso a la justicia en todo el país.
Colaboración institucional: fortalecimiento de la cooperación entre poderes públicos, entidades locales y sociedad civil.

El Portal de la Transparencia: el corazón del derecho a saber

Si Justicia 2030 representa la transformación del acceso a la justicia, el Portal de la Transparencia está pensado para garantizar el derecho ciudadano a la información pública. Esta plataforma digital, operativa desde 2014, centraliza la información sobre las organizaciones administrativas y permite a la ciudadanía ejercer su derecho de acceso a la información pública de manera sencilla y directa. Sus principales funciones son:

Publicación proactiva de información sobre las actividades gubernamentales, presupuestos, contrataciones, subvenciones, convenios y decisiones administrativas, sin necesidad de que los ciudadanos lo soliciten.
Sistema de solicitud de información para acceder a documentación no disponible públicamente, con plazos legalmente establecidos para la respuesta administrativa.
Procesos participativos que permiten a los ciudadanos intervenir activamente en el diseño y evaluación de políticas públicas.
Indicadores de transparencia que miden objetivamente el cumplimiento de las obligaciones de las diferentes administraciones, permitiendo comparaciones y fomentando la mejora continua.

Este portal se vertebra en tres derechos fundamentales:

Derecho a saber: todo ciudadano puede acceder a información pública, ya sea a través de la consulta directa en el portal o ejerciendo formalmente su derecho de acceso cuando la información no esté disponible.
Derecho a entender: la información debe presentarse de forma clara, comprensible y adaptada a diferentes públicos, evitando tecnicismos innecesarios y facilitando la interpretación.
Derecho a participar: los ciudadanos pueden intervenir en la gestión de asuntos públicos mediante los mecanismos de participación ciudadana habilitados en la plataforma.

La plataforma cumple con la Ley 19/2013, de 9 de diciembre, de transparencia, acceso a la información pública y buen gobierno, una norma que supuso un cambio de paradigma, reconociendo el acceso a la información como un derecho fundamental del ciudadano y no como una concesión graciosa de la administración.

Consenso por una Administración Abierta: estrategia nacional de gobierno abierto

Otro proyecto que aboga por el gobierno abierto es el "Consenso por una Administración Abierta". Según este documento de referencia, no se trata únicamente de abrir datos o crear portales de transparencia, sino de transformar radicalmente la forma en que se diseñan e implementan las políticas públicas. Este consenso sustituye el modelo tradicional vertical, donde las administraciones deciden unilateralmente, por un diálogo permanente entre administraciones, operadores jurídicos y ciudadanía. El documento se estructura en cuatro ejes estratégicos:

1. Administración Abierta a las capacidades del sector público

Desarrollo de un empleo público proactivo, innovador e inclusivo.
Implementación responsable de sistemas de inteligencia artificial.
Creación de espacios seguros y éticos de datos compartidos.

2. Administración Abierta a políticas públicas informadas por evidencias y a la participación:

Desarrollo de mapas interactivos de políticas públicas.
Evaluación sistemática basada en datos y evidencias.
Incorporación de la voz ciudadana en todas las fases del ciclo de políticas públicas.

3. Administración Abierta a la ciudadanía:

Evolución de "Mi Carpeta Ciudadana" hacia servicios más personalizados.
Implementación de herramientas digitales como SomosGob.
Simplificación radical de trámites y procedimientos administrativos.

4. Administración Abierta a la Transparencia, la Participación y la Rendición de Cuentas:

Renovación completa del Portal de Transparencia.
Mejora de los mecanismos de transparencia de la Administración General del Estado.
Fortalecimiento de los sistemas de rendición de cuentas.

Figura 1: Consenso por una Administración abierta a. Fuente: elaboración propia

El Foro de Gobierno Abierto: espacio de diálogo permanente

Todos estos proyectos y compromisos necesitan un espacio institucional donde puedan discutirse, evaluarse y ajustarse continuamente. Esa es precisamente la función del Foro de Gobierno Abierto que funciona como un órgano de participación y diálogo integrado por representantes de la administración central, autonómica y local. Y lo conforman 32 miembros de la sociedad civil cuidadosamente seleccionados para garantizar la diversidad de perspectivas.

Esta composición equilibrada garantiza que todas las voces sean escuchadas en el diseño e implementación de las políticas de gobierno abierto. El Foro se reúne de manera periódica para evaluar el avance de los compromisos, identificar obstáculos y proponer nuevas iniciativas que respondan a los desafíos emergentes.

Su funcionamiento transparente y participativo, con actas públicas y procesos de consulta abiertos, lo convierte en un referente internacional de buenas prácticas en gobernanza colaborativa. El Foro no es simplemente un órgano consultivo, sino un espacio de codecisión donde se construyen consensos que posteriormente se traducen en políticas públicas concretas.

Hazlab: laboratorio de innovación para la participación ciudadana

Promovido por la Dirección General de Gobernanza Pública del Ministerio para la Transformación Digital y de la Función Pública, HazLab forma parte del Plan de Mejora de la Participación Ciudadana en los Asuntos Públicos, incluido en el Compromiso 3 del IV Plan de Gobierno Abierto de España (2020-2024).

HazLab es un espacio virtual diseñado para fomentar la colaboración entre la Administración, la ciudadanía, la academia, los profesionales y los colectivos sociales. Su propósito es impulsar una nueva forma de construir políticas públicas desde la innovación, el diálogo y la cooperación. En concreto hay tres áreas de trabajo:

Espacios virtuales de colaboración, que facilitan el trabajo conjunto entre administraciones, expertos y ciudadanía.
Proyectos de diseño y prototipado de servicios públicos, basados en metodologías participativas e innovadoras.
Biblioteca de recursos, un repositorio con materiales audiovisuales, artículos, informes y guías sobre gobierno abierto, participación, integridad y transparencia.

El registro en HazLab es gratuito y permite participar en proyectos, eventos y comunidades de práctica. Además, la plataforma ofrece un manual de uso y un código de conducta para facilitar la participación responsable.

En conclusión, los proyectos de gobierno abierto que España está impulsando representan mucho más que iniciativas aisladas de modernización administrativa o actualizaciones tecnológicas. Constituyen un cambio cultural profundo en la concepción misma del servicio público, donde la ciudadanía deja de ser un mero receptor pasivo de servicios para convertirse en co-creadora activa de políticas públicas.

19/11/2025

Tres estrategias para sacar el máximo partido a tus resúmenes con IA

Blog

Vivimos rodeados de resúmenes generados por inteligencia artificial (IA). Tenemos la opción de generarlos desde hace meses, pero ahora se imponen en las plataformas digitales como el primer contenido que ven nuestros ojos al usar un buscador o abrir un hilo de emails. En plataformas como Microsoft Teams o Google Meet las reuniones por videollamada se transcriben y se resumen en actas automáticas para quien no ha podido estar presente, pero también para quien ha estado. Sin embargo, aquello que un modelo de lenguaje ha considerado importante, ¿es realmente lo importante para quien recibe el resumen?

En este nuevo contexto, la clave es aprender a recuperar el sentido detrás de tanta información resumida. Estas tres estrategias te ayudarán a transformar el contenido automático en una herramienta de comprensión y toma de decisiones.

1. Haz preguntas expansivas

Solemos resumir para reducir un contenido que no somos capaces de abarcar, pero corremos el riesgo de asociar breve con significativo, una equivalencia que no siempre se cumple. Por tanto, no deberíamos enfocarnos desde el inicio en resumir, sino en extraer información relevante para nosotros, nuestro contexto, nuestra visión de la situación y nuestra manera de pensar. Más allá del prompt básico “hazme un resumen”, esta nueva manera de enfocar un contenido que se nos escapa consiste en cruzar datos, conectar puntos y sugerir hipótesis, lo que llaman sensemaking o “construcción de sentido”. Y pasa, en primer lugar, por tener claro qué queremos saber.

Situación práctica:

Imaginemos una reunión larga a la que no hemos podido acudir. Esa tarde, recibimos en nuestro correo electrónico un resumen de los temas tratados. No siempre es posible, pero una buena práctica en este punto, si nuestra organización lo permite, es no quedarnos solo con el resumen: si está permitido, y siempre respetando las directrices de confidencialidad, sube la transcripción completa a un sistema conversacional como Copilot o Gemini y haz preguntas específicas:

¿Qué tema se repitió más o recibió más atención durante la reunión?
En una reunión anterior, la persona X usó este argumento. ¿Se usó de nuevo? ¿Lo discutió alguien? ¿Se dio por válido?
¿Qué premisas, suposiciones o creencias están detrás de esta decisión que se ha tomado?
Al final de la reunión, ¿qué elementos parecen más críticos para el éxito del proyecto?
¿Qué señales anticipan posibles retrasos o bloqueos? ¿Cuáles tienen que ver o podrían afectar a mi equipo?

Cuidado con:

Ante todo, revisa y confirma las atribuciones. Los modelos generativos son cada vez más precisos, pero tienen una gran capacidad para mezclar información real con información falsa o generada. Por ejemplo, pueden atribuir una frase a alguien que no la dijo, relacionar como causa-efecto ideas que en realidad no tenían conexión, y seguramente lo más importante: asignar tareas o responsabilidades de próximos pasos a alguien a quien no le corresponden.

2. Pide contenido estructurado

Los buenos resúmenes no son más cortos, sino más organizados, y el texto redactado no es el único formato al que podemos recurrir. Busca la eficacia y pide a los sistemas conversacionales que te devuelvan tablas, categorías, listas de decisiones o mapas de relaciones. La forma condiciona el pensamiento: si estructuras bien la información, la entenderás mejor y también la transmitirás mejor a otros, y por tanto irás más lejos con ella.

Situación práctica:

En este caso, imaginemos que recibimos un informe largo sobre el avance de varios proyectos internos de nuestra empresa. El documento tiene muchas páginas con párrafos descriptivos de estado, feedback, fechas, imprevistos, riesgos y presupuestos. Leerlo todo línea por línea sería imposible y no retendríamos la información. La buena práctica aquí es pedir una transformación del documento que nos sea útil de verdad. Si es posible, sube el informe al sistema conversacional y solicita contenido estructurado de manera exigente y sin escatimar en detalles:

Organiza el informe en una tabla con las siguientes columnas: proyecto, responsable, fecha de entrega, estado, y una columna final que indique si ha ocurrido algún imprevisto o se ha materializado algún riesgo. Si todo va bien, imprime en esa columna “CORRECTO”.
Genera un calendario visual con los entregables, sus fechas de entrega y los responsables, que empiece el 1 de octubre de 2025 y termine el 31 de enero de 2026, en forma de diagrama de Gantt.
Quiero una lista en la que aparezcan exclusivamente el nombre de los proyectos, su fecha de inicio y su fecha de entrega. Ordena por la fecha de entrega, las más cercanas primero.
Del apartado de feedback de los clientes que encontrarás en cada proyecto, crea una tabla con los comentarios más repetidos y a qué áreas o equipos suelen hacer referencia. Colócalos en orden, de los que más se repiten a los que menos.
Dame la facturación de los proyectos que están en riesgo de no cumplir plazos, indica el precio de cada uno y el total.

Cuidado con:

La ilusión de veracidad y exhaustividad que nos va a proporcionar un texto limpio, ordenado, automático y con fuentes es enorme. Un formato claro, como una tabla, una lista o un mapa, puede dar una falsa sensación de precisión. Si los datos de origen son incompletos o erróneos, la estructura solo maquilla el error y tendremos más dificultades para verlo. Las producciones de la IA suelen ser casi perfectas. Como mínimo, y si el documento es muy extenso, haz comprobaciones aleatorias ignorando la forma y centrándote en el contenido.

3. Conecta los puntos

El sentido estratégico rara vez está en un texto aislado, y mucho menos en un resumen. El nivel avanzado en este caso consiste en pedir al chat multimodal que cruce fuentes, compare versiones o detecte patrones entre varios materiales o formatos, como por ejemplo la transcripción de una reunión, un informe interno y un artículo científico. Lo que interesa realmente ver son claves comparativas como los cambios evolutivos, las ausencias o las inconsistencias.

Situación práctica:

Imaginemos que estamos preparando una propuesta para un nuevo proyecto. Tenemos varios materiales: la transcripción de una reunión del equipo directivo, el informe interno del año anterior y un artículo reciente sobre tendencias del sector. En lugar de resumirlos por separado, puedes subirlos al mismo hilo de conversación o a un chat que hayas personalizado sobre el tema, y pedirle acciones más ambiciosas.

Compara estos tres documentos y dime qué prioridades coinciden en todos, aunque se expresen de maneras distintas.
¿Qué temas del informe interno no se han mencionado en la reunión? Genera una hipótesis para cada uno sobre por qué no se han tratado.
¿Qué ideas del artículo podrían reforzar o cuestionar las nuestras? Dame ideas fuerza de la investigación que no estén reflejadas en nuestro informe interno.
Busca artículos en prensa de los últimos seis meses que avalen las ideas fuerza del informe interno.
Encuentra fuentes externas que complementen la información ausente en estos tres documentos sobre el tema X y genera un informe panorámico con referencias.

Cuidado con:

Es muy habitual que los sistemas de IA simplifiquen de forma engañosa debates complejos, no porque tengan un objetivo oculto sino porque en el entrenamiento se les ha premiado siempre la sencillez y la claridad. Además, la generación automática introduce un riesgo de autoridad: como el texto se presenta con apariencia de precisión y neutralidad, asumimos que es válido y útil. Y, por si fuera poco, los resúmenes estructurados se copian y comparten rápido. Antes de reenviar, asegúrate de que el contenido está validado, sobre todo si contiene decisiones, nombres o datos sensibles.

Conclusión

Los modelos basados en IA pueden ayudarte a visualizar convergencias, lagunas o contradicciones y, a partir de ahí, formular hipótesis o líneas de acción. Se trata de encontrar con mayor agilidad eso tan valioso que llamamos insights. Ese es el paso del resumen al análisis: lo más importante no es comprimir la información, sino seleccionarla bien, relacionarla y conectarla con el contexto. Intensificar la exigencia desde el prompt es la manera más adecuada de trabajar con los sistemas IA, pero también nos exige un esfuerzo personal previo de análisis y aterrizaje.

Contenido elaborado por Carmen Torrijos, experta en IA aplicada al lenguaje y la comunicación. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

03/11/2025