guías

Decálogo del reutilizador de datos del sector público

Documentación

El "Decálogo del reutilizador de datos del sector público" (edición 2025) ofrece una guía actualizada para facilitar el acceso, la reutilización y la puesta en valor de la información del sector público en el contexto presente marcado por la economía del dato, la inteligencia artificial y los nuevos marcos regulatorios europeos. Mantiene su vocación práctica, orientada a facilitar la reutilización efectiva de la información del sector público por parte de ciudadanos, empresas y administraciones, pero incorporando también los profundos cambios tecnológicos, normativos y organizativos que han tenido lugar en la última década.

¿A quién va dirigida?

Este Decálogo está dirigido a un público amplio y diverso que participa, de una u otra forma, en el ecosistema de los datos públicos. Resulta especialmente útil para profesionales de las administraciones públicas responsables de la publicación, gestión y gobernanza de datos; para empresas, emprendedores y organizaciones que desarrollan servicios, productos o investigaciones basados en información del sector público; y para la ciudadanía interesada en comprender mejor cómo acceder, interpretar y reutilizar estos recursos.

¿Qué incluye la guía?

El principal objetivo de este documento es ofrecer una visión funcional sobre cómo aprovechar el valor los datos públicos de forma segura, interoperable y responsable. Para ello, explica de forma clara y concisa qué son los datos abiertos, cómo interpretar y aplicar las licencias de reutilización, dónde encontrar los conjuntos de datos y qué factores influyen en su calidad, interoperabilidad y persistencia en el tiempo. Incorpora, además, una mirada actualizada sobre el papel de los metadatos, los estándares y la gobernanza del dato como elementos clave para garantizar la reutilización a escala y en contextos cada vez más complejos.

Asimismo, el Decálogo nos presenta el amplio abanico de herramientas de tratamiento, análisis y visualización y nos introduce en la necesidad de formación continua y experimentación, en línea con las prioridades europeas en competencias digitales y ciencia de datos. Además, aborda los nuevos retos y oportunidades derivados del uso de datos en sistemas de inteligencia artificial, poniendo especial énfasis en su conexión con el valor social y económico de los datos y en la necesidad de un uso ético y responsable a través de la trazabilidad, la transparencia y la mitigación de riesgos.

En conjunto, esta guía se consolida como una referencia actualizada y de utilidad para impulsar un uso responsable, sostenible y generador de valor social y económico de los datos del sector público.

Si quieres seguir profundizando…

Para quienes quieran avanzar hacia niveles más especializados de análisis, ciencia de datos e inteligencia artificial, esta guía se complementa con el "Decálogo del científico de datos", que ofrece una hoja de ruta para desarrollar competencias técnicas y analíticas de alto valor y seguir profundizando en las buenas prácticas necesarias en el ecosistema del dato actual.

Puedes descargar el informe y el resumen ejecutivo a continuación.

05/02/2026

Nuevas tendencias y desafíos en el mundo de los datos

Documentación

El ecosistema digital en torno a los datos ha evolucionado de forma acelerada en los últimos años. Si anteriormente el debate se centraba en el volumen y la velocidad, hoy en día nos encontramos ante un escenario más complejo, donde la inteligencia artificial generativa, la gobernanza, la ética y la interoperabilidad se han convertido en ejes prioritarios.

El presente informe identifica y analiza cuatro grandes tendencias de gran influencia en el mundo de los datos en la actualidad, así como los retos que plantean y las principales líneas de actuación para abordarlos.

4 tendencias clave en el mundo de los datos. 1. Inteligencia artificial (la IA generativa como nuevo paradigma de los datos). 2. Ética y derechos digitales (poniendo el foco en las personas). 3. Gobernanza del dato (expansión y profesionalización). 4. Espacios comunes europeos (los nuevos ecosistemas de información).

Figura 1. Cuatro tendencias clave en el mundo de los datos. Fuente: elaboración propia - datos.gob.es.

A continuación se resume cada una de ellas.

1. Inteligencia artificial generativa: un nuevo paradigma en el uso de los datos

La irrupción de la IA generativa ha redefinido el papel de los datos, no solo como materia prima para entrenar modelos, sino también como producto. Esta transformación plantea grandes oportunidades a la hora de automatizar tareas o enriquecer servicios públicos, pero también desafíos en términos de calidad y posibles sesgos éticos, así como en cuanto a trazabilidad y capacidad de supervisión humana. La nueva legislación europea, especialmente la AI Act, establece un marco regulatorio robusto que clasifica los sistemas según su nivel de riesgo e impone requisitos mínimos como evaluaciones de impacto, u obligaciones en cuanto a transparencia y control humano. España refuerza este enfoque con iniciativas como la creación de la Agencia Española de Supervisión de la IA (AESIA) y la adopción de nuevas pautas y estándares de calidad.

2. Ética y derechos digitales: poniendo el foco en las personas

En un contexto donde los datos personales alimentan gran parte de los sistemas digitales, la protección de los derechos fundamentales se convierte en una obligación ineludible. El Reglamento General de Protección de Datos (RGPD) sigue siendo el pilar normativo principal, promoviendo buenas prácticas en cuanto a la minimización de datos, la portabilidad o la transparencia algorítmica. A esto se suman otras iniciativas como la Declaración de Derechos y Principios Digitales de la UE y la Carta de Derechos Digitales en España, que afianzan el enfoque social y humanista de la transformación digital. Gracias a todo ello, empieza a consolidarse una nueva cultura organizativa donde los aspectos éticos se integran de forma transversal en los procesos de diseño, desarrollo y despliegue de soluciones digitales.

3. Espacios de datos: construyendo los nuevos ecosistemas de información

Los espacios europeos de datos representan una apuesta estratégica por construir un ecosistema común de datos en sectores clave como salud, energía, movilidad o turismo. Estos espacios facilitan el acceso controlado y seguro a datos públicos y privados, ampliando el modelo tradicional de los portales de datos abiertos. El objetivo final es lograr un entorno de datos interconectados que permita el desarrollo de servicios innovadores, activando una economía del dato más dinámica. Sin embargo, los retos técnicos y organizativos, como la interoperabilidad semántica y técnica, la participación inclusiva o la protección de la seguridad y privacidad, siguen siendo significativos. Iniciativas como el Data Spaces Support Centre o el Centro de Referencia de Espacios de Datos (CRED) en España impulsan su implementación práctica.

4. Gobernanza del dato: el nuevo activo de alto valor en las organizaciones

La gobernanza del dato ha dejado de ser una cuestión puramente técnica para convertirse en una prioridad institucional. Para poder llevarla a cabo, las organizaciones públicas y privadas están adaptando sus estructuras organizativas y adoptando nuevos marcos normativos y técnicos. Una gobernanza adecuada debe abarcar todo el ciclo de vida del dato, desde su creación hasta el archivo final, e implica llevar a cabo actuaciones en varios ámbitos, como por ejemplo la catalogación, la interoperabilidad, la trazabilidad y la seguridad. Además, se necesitará desarrollar una serie de capacidades humanas, tecnológicas y de evaluación para poder dar respuesta a estas nuevas necesidades. En general, tanto España como otros países europeos, están avanzando hacia modelos de gobernanza de datos más maduros y mejor articulados, entendiendo el dato como una infraestructura estratégica.

El papel del marco regulatorio

El informe concluye con un recorrido por el marco normativo relacionado, que actúa como palanca de impulso y generación de confianza. La Unión Europea ha logrado posicionarse como referencia global en cuanto a regulación digital, con un enfoque basado en los derechos y la sostenibilidad. La integración entre las distintas normas existentes, como el RGPD, la AI Act y la DGA, contribuye a crear un entorno más seguro, transparente e innovador para el uso de los datos, aunque complejo. Por ello, es también de esperar que la simplificación normativa prevista en el nuevo Digital Omnibus pueda aportar mayor coherencia y claridad, facilitando así su adopción y cumplimiento.

10/03/2026

Guía técnica: Implementación de SHACL

Documentación

La adopción del nuevo perfil DCAT-AP-ES alinea a España con el perfil de aplicación en Europa (DCAT-AP), facilitando la federación automática entre catálogos de datos definidos en RDF (Resource Description Framework).

En este entorno de grafos RDF donde la flexibilidad es la norma, la ausencia de esquemas rígidos tradicionales puede derivar en una degradación silenciosa de la calidad de los datos, si no se sigue de forma rigurosa el estándar. Para mitigar este riesgo, existe el lenguaje de restricciones de formas SHACL (Shapes Constraint Language), recomendación del W3C. Estas pautas permiten definir «formas» que funcionan como verdaderos guardianes de la calidad y el cumplimiento de la interoperabilidad.

Las etapas del proceso de validación SHACL son las siguientes:

Se dispone de un grafo de datos RDF
Se selecciona un subgrado del grafo anterior
Se comprueban las restricciones SHACL que aplican al subgrafo anterior
Se obtiene un informe de validación con los elementos conformes, con errores o con recomendaciones.

En la siguiente figura se muestran estas etapas:

Etapas principales del proceso de validación SHACL

Figura 1: Etapas principales del proceso de validación SHACL

Objetivos y audiencia destino

Esta guía técnica tiene como objetivo ayudar a que los publicadores y reutilizadores incorporen la validación SHACL como una práctica continua de mejora de calidad, mediante un enfoque didáctico y accesible, inspirado en recursos claros y herramientas de validación abiertas del ecosistema de datos.

Además, se profundiza de forma especial en su relación con DCAT-AP-ES, detallando un caso práctico y exhaustivo del flujo de trabajo completo de validación y gobernanza de un catálogo conforme a dicho perfil.

Estructura y contenidos

El documento sigue un enfoque progresivo, partiendo de fundamentos teóricos hasta llegar a la implementación técnica e integración automática, estructurándose en los siguientes bloques clave:

Fundamentos de la validación semántica: RDF y el desafío del mundo abierto que supone así como SHACL como mecanismo de realizar validaciones, definiendo conceptos clave como Shape o Validation Report.
DCAT-AP-ES y la adopción de SHACL para su validación: se explican las formas SHACL definidas en DCAT-AP-ES y el caso de aplicación de las mismas en el proceso de federación del Catálogo Nacional.
Caso práctico: Validación de grafos RDF: un tutorial paso a paso sobre cómo validar un catálogo con las formas SHACL de DCAT-AP-ES, resolución de problemas comunes y herramientas disponibles.
Conclusiones: reflexiones sobre las ventajas de integrar validación SHACL para mejorar la gobernanza de catálogos de datos.

La validación mediante SHACL representa un cambio de paradigma en la gestión de la calidad de metadatos en los catálogos de datos. Esta guía recorre el proceso completo desde los fundamentos teóricos hasta la aplicación práctica, demostrando que la adopción de SHACL no es simplemente un requisito técnico, sino una oportunidad para fortalecer y mejorar la gobernanza de datos.

19/03/2026

Utiliza estas guías de AESIA para cumplir con la regulación europea de IA

Noticia

¿Sabías que España creó en 2023 la primera agencia estatal dedicada específicamente a la supervisión de la inteligencia artificial (IA)? Anticipándose incluso al Reglamento Europeo en esta materia, la Agencia Española de Supervisión de Inteligencia Artificial (AESIA) nació con el objetivo de garantizar el uso ético y seguro de la IA, fomentando un desarrollo tecnológico responsable.

Entre sus principales funciones está asegurar que tanto entidades públicas como privadas cumplan con la normativa vigente. Para ello promueve buenas prácticas y asesora sobre el cumplimiento del marco regulatorio europeo, motivo por el cual recientemente ha publicado una serie de guías para asegurar la aplicación consistente de la regulación europea de IA.

En este post profundizaremos en qué es la AESIA y conoceremos detalles relevantes del contenido de las guías.

¿Qué es la AESIA y por qué es clave para el ecosistema de datos?

La AESIA nace en el marco del Eje 3 de la Estrategia Española de IA. Su creación responde a la necesidad de contar con una autoridad independiente que no solo supervise, sino que oriente el despliegue de sistemas algorítmicos en nuestra sociedad.

A diferencia de otros organismos puramente sancionadores, la AESIA está diseñada como un Think & Do Tank de inteligencia, es decir, una organización que investiga y propone soluciones. Su utilidad práctica se divide en tres vertientes:

Seguridad jurídica: proporciona marcos claros para que las empresas, especialmente las pymes, sepan a qué atenerse al innovar.
Referente internacional: actúa como el interlocutor español ante la Comisión Europea, asegurando que la voz de nuestro ecosistema tecnológico sea escuchada en la elaboración de estándares europeos.
Confianza ciudadana: garantiza que los sistemas de IA utilizados en servicios públicos o áreas críticas respeten los derechos fundamentales, evitando sesgos y promoviendo la transparencia.

Desde datos.gob.es, siempre hemos defendido que el valor de los datos reside en su calidad y accesibilidad. La AESIA complementa esta visión asegurando que, una vez que los datos se transforman en modelos de IA, su uso sea responsable. Por ello, estas guías son una extensión natural de los recursos que publicamos habitualmente sobre gobernanza y apertura de datos.

Recursos para el uso de la IA: guías y checklist

La AESIA ha publicado recientemente unos materiales de apoyo a la implementación y el cumplimiento de la normativa europea de Inteligencia Artificial y sus obligaciones aplicables. Aunque no tienen carácter vinculante ni sustituyen ni desarrollan la normativa vigente, proporcionan recomendaciones prácticas alineadas con los requisitos regulatorios a la espera de que se aprueben las normas armonizadas de aplicación para todos los Estados miembros.

Son el resultado directo del piloto español de Sandbox Regulatorio de IA. Este entorno de pruebas permitió a desarrolladores y autoridades colaborar en un espacio controlado para entender cómo aplicar la normativa europea en casos de uso reales.

Es fundamental destacar que estos documentos se publican sin perjuicio de las guías técnicas que la Comisión Europea está elaborando. De hecho, España está sirviendo de "laboratorio" para Europa: las lecciones aprendidas aquí proporcionarán una base sólida al grupo de trabajo de la Comisión, asegurando una aplicación consistente de la regulación en todos los Estados miembros.

Las guías están diseñadas para ser una hoja de ruta completa, desde la concepción del sistema hasta su vigilancia una vez está en el mercado.

Figura 1. Guías de AESIA para cumplir con la regulación. Fuente: Agencia Española de la Supervisión de la IA

01. Introductoria al Reglamento de IA: ofrece una visión general sobre las obligaciones, los plazos de aplicación y los roles (proveedores, desplegadores, etc.). Es el punto de partida esencial para cualquier organización que desarrolle o despliegue sistemas de IA.
02. Práctica y ejemplos: aterriza los conceptos jurídicos en casos de uso cotidianos (por ejemplo, ¿es mi sistema de selección de personal una IA de alto riesgo?). Incluye árboles de decisión y un glosario de términos clave del artículo 3 del Reglamento, ayudando a determinar si un sistema específico está regulado, qué nivel de riesgo tiene y qué obligaciones son aplicables.
03. Evaluación de conformidad: explica los pasos técnicos necesarios para obtener el "sello" que permite comercializar un sistema de IA de alto riesgo, detallando los dos procedimientos posibles según los Anexos VI y VII del Reglamento como valuación basada en control interno o evaluación con intervención de organismo notificado.
04. Sistema de gestión de la calidad: define cómo las organizaciones deben estructurar sus procesos internos para mantener estándares constantes. Abarca la estrategia de cumplimiento regulatorio, técnicas y procedimientos de diseño, sistemas de examen y validación, entre otros.
05. Gestión de riesgos: es un manual sobre cómo identificar, evaluar y mitigar posibles impactos negativos del sistema durante todo su ciclo de vida.
06. Vigilancia humana: detalla los mecanismos para que las decisiones de la IA sean siempre supervisables por personas, evitando la "caja negra" tecnológica. Establece principios como comprensión de capacidades y limitaciones, interpretación de resultados, autoridad para no usar el sistema o anular decisiones.
07. Datos y gobernanza de datos: aborda las prácticas necesarias para entrenar, validar y testear modelos de IA asegurando que los conjuntos de datos sean relevantes, representativos, exactos y completos. Cubre procesos de gestión de datos (diseño, recogida, análisis, etiquetado, almacenamiento, etc.), detección y mitigación de sesgos, cumplimiento del Reglamento General de Protección de Datos, linaje de datos y documentación de hipótesis de diseño, siendo de especial interés para la comunidad de datos abiertos y científicos de datos.
08. Transparencia: establece cómo informar al usuario de que está interactuando con una IA y cómo explicar el razonamiento detrás de un resultado algorítmico.
09. Precisión: define métricas apropiadas según el tipo de sistema para garantizar que el modelo de IA cumple su objetivo.
10. Solidez: proporciona orientación técnica sobre cómo garantizar que los sistemas de IA funcionan de manera fiable y consistente en condiciones variables.
11. Ciberseguridad: instruye sobre protección contra amenazas específicas del ámbito de IA.
12. Registros: define las medidas para cumplir con las obligaciones de registro automático de eventos.
13. Vigilancia poscomercialización: documenta los procesos para ejecutar el plan de vigilancia, documentación y análisis de datos sobre el rendimiento del sistema durante toda su vida útil.
14. Gestión de incidentes: describe el procedimiento para notificar incidentes graves a las autoridades competentes.
15. Documentación técnica: establece la estructura completa que debe incluir la documentación técnica (proceso de desarrollo, datos de entrenamiento/validación/prueba, gestión de riesgos aplicada, rendimiento y métricas, supervisión humana, etc.).
16. Manual de checklist de Guías de requisitos: explica cómo utilizar las 13 checklists de autodiagnóstico que permiten realizar evaluación del cumplimiento, identificar brechas, diseñar planes de adaptación y priorizar acciones de mejora.

Todas las guías están disponibles aquí y tienen una estructura modular que se adapta a diferentes niveles de conocimiento y necesidades empresariales.

La herramienta de autodiagnóstico y sus ventajas

En paralelo, la AESIA publica un material que facilita la traducción de requisitos abstractos en preguntas concretas y verificables, proporcionando una herramienta práctica para la evaluación continua del grado de cumplimiento.

Se trata de listas de verificación que permiten a una entidad evaluar su nivel de cumplimiento de forma autónoma.

La utilización de estas checklists proporciona múltiples beneficios a las organizaciones. En primer lugar, facilitan la identificación temprana de brechas de cumplimiento, permitiendo a las organizaciones tomar medidas correctivas antes de la comercialización o puesta en servicio del sistema. También promueven un enfoque sistemático y estructurado del cumplimiento normativo. Al seguir la estructura de los artículos del Reglamento, garantizan que ningún requisito esencial quede sin evaluar.

Por otro lado, facilitan la comunicación entre equipos técnicos, jurídicos y de gestión, proporcionando un lenguaje común y una referencia compartida para discutir el cumplimiento normativo. Y, por último, las checklists sirven como base documental para demostrar la debida diligencia ante las autoridades supervisoras.

Debemos entender que estos documentos no son estáticos. Están sujetos a un proceso permanente de evaluación y revisión. En este sentido, la AESIA continúa desarrollando su capacidad operativa y ampliando sus herramientas de apoyo al cumplimiento.

Desde la plataforma de datos abiertos del Gobierno de España, te invitamos a explorar estos recursos. El desarrollo de la IA debe ir de la mano con datos bien gobernados y supervisión ética.

04/02/2026

Guía técnica: Control de versiones de datos

Documentación

Los datos poseen una naturaleza fluida y compleja: cambian, crecen y evolucionan constantemente, mostrando una volatilidad que los diferencia profundamente del código fuente. Para responder al desafío de gestionar esta evolución de manera fiable, hemos elaborado la nueva "Guía técnica: Control de versiones de datos".

Esta guía aborda una disciplina emergente que adapta los principios de la ingeniería de software al ecosistema de datos: el Control de Versiones de Datos (CVD). El documento no solo explora los fundamentos teóricos, sino que ofrece un enfoque práctico para resolver problemas críticos en la gestión de datos, como la reproducibilidad de modelos de Machine Learning, la trazabilidad en auditorías regulatorias y la colaboración eficiente en equipos distribuidos.

¿Por qué es necesaria una guía sobre versionado de datos?

Históricamente, la gestión de versiones de datos se ha realizado de forma manual (archivos con sufijos "_final_v2.csv"), un enfoque propenso a errores e insostenible en entornos profesionales. Aunque herramientas como Git han revolucionado el desarrollo de software, no están diseñadas para manejar eficientemente archivos de gran volumen o binarios, características intrínsecas de los conjuntos de datos.

Esta guía nace para cubrir esa brecha tecnológica y metodológica, explicando las diferencias fundamentales entre versionar código y versionar datos. El documento detalla cómo herramientas especializadas como DVC (Data Version Control) permiten gestionar el ciclo de vida de los datos con la misma rigurosidad que el código, garantizando que siempre se pueda responder a la pregunta: "¿Qué datos exactos se usaron para obtener este resultado?".

Estructura y contenidos

El documento sigue un enfoque progresivo, partiendo de los conceptos básicos hasta llegar a la implementación técnica, estructurándose en los siguientes bloques clave:

Fundamentos del versionado: análisis de la problemática actual (el "modelo fantasma", auditorías imposibles) y definición de conceptos clave como snapshots, linaje de datos y checksums.
Estrategias y metodologías: adaptación del versionado semántico (SemVer) a los conjuntos de datos, estrategias de almacenamiento (incremental vs. completo) y gestión de metadatos para garantizar la trazabilidad.
Herramientas en la práctica: un análisis detallado de herramientas como DVC, Git LFS y soluciones nativas en la nube (AWS, Google Cloud, Azure), incluyendo una comparativa para elegir la más adecuada según el tamaño del equipo y los datos.
Caso de estudio práctico: un tutorial paso a paso sobre cómo configurar un entorno local con DVC y Git, simulando un ciclo de vida real de datos: desde la generación y primer versionado, hasta la actualización, sincronización remota y recuperación de versiones anteriores (rollback).
Gobernanza y mejores prácticas: recomendaciones sobre roles, políticas de retención y compliance para asegurar una implementación exitosa en la organización.

Figura 1: Ejemplo práctico de uso de commandos GIT y DVC incluido en la guía.

¿A quién va dirigida?

Esta guía está diseñada para un perfil técnico amplio dentro del sector público y privado: científicos de datos, ingenieros de datos, analistas y responsables de catálogos de datos.

Es especialmente útil para aquellos profesionales que buscan profesionalizar sus flujos de trabajo, garantizar la reproducibilidad científica de sus investigaciones o asegurar el cumplimiento normativo en sectores regulados. Aunque se recomienda tener conocimientos básicos de Git y línea de comandos, la guía incluye ejemplos prácticos y explicaciones detalladas que facilitan el aprendizaje.

$Aprende a llevar un control adecuado de tus versiones de datos El Control de Versiones de Datos (CVD) es un sistema estructurado para registrar, rastrear y gestionar cada cambio significativo en conjuntos de datos, permitiendo documentar su evolución completa a lo largo del tiempo. Por qué es necesario el Control de Versiones de Datos Garantiza la reproducibilidad Mantiene la trazabilidad Facilita la colaboración eficiente Permite una recuperación rápida 60% de proyectos de datos fracasan por falta de reproducibilidad* *Fuente: Guía técnica: Control de versiones de datos. Disponible aquí Conceptos básicos 1. Snapshot (Instantánea): copia inmutable de los datos en un momento específico Permite recuperar cualquier versión histórica 2. Lineage (Linaje): registro de transformaciones: datos_raw → limpieza → procesado → modelo Documenta cómo se generó cada versión 3. Metadatos: información contextual: autor, fecha, estadísticas, esquema Facilita comprensión y auditoría 4. Checksum: huella digital única (hash MD5/SHA256) del archivo. Verifica integridad sin corrupción Principios de gobernanza Etiquetar siempre con versionado semántico* Documentar cada cambio en CHANGELOG.md Mensajes de commit descriptivos: TIPO + qué + por qué Metadatos automáticos: fecha, usuario, estadísticas Políticas de retención: conservar producción, archivar desarrollo Roles claros: Data Owner, Data Steward, Data Consumer Revisión proporcional: un cambio MAJOR requiere aprobación formal *Versionado semántico: es un estándar para numerar versiones de software (MAJOR.MINOR.PATCH) que comunica el tipo de cambios: MAJOR (rompe compatibilidad), MINOR (añade funciones compatibles) y PATCH (corrige errores compatibles) Adopción progresiva en cuatro fases Mes 1: Piloto → Un dataset crítico + CVD + formación básica Meses 2-3: Consolidación → 5 datasets prioritarios + pipelines + procedimientos Meses 4-6: Maduración → Automatización + validación de integración continua o despliegue continuo políticas formales Meses 6+: Escalado → Despliegue organizacional + optimización + monitorización Descarga la guía técnica completa Infografía elaborada a partir de la guía técnica "Control de versiones de datos" en el marco de la Iniciativa Aporta (datos.gob.es).$

15/12/2025

Guía práctica para migrar a DCAT-AP-ES

Documentación

La futura nueva versión de la Norma Técnica de Interoperabilidad de Recursos de Información del Sector Público (NTI-RISP) incorpora DCAT-AP-ES como modelo de referencia para la descripción de conjuntos y servicios de datos. Esto supone un paso clave hacia una mayor interoperabilidad, calidad y alineación con los estándares europeos de datos.

Esta guía tiene como objetivo ayudar en su migración hacia este nuevo modelo. Está dirigida a responsables técnicos y gestores de catálogos de datos públicos que, sin disponer de experiencia avanzada en semántica o modelos de metadatos, necesitan actualizar su catálogo RDF para garantizar su conformidad con DCAT-AP-ES. Además, las pautas del documento también son aplicables para la migración desde otros modelos de metadatos basados en RDF, como perfiles locales, DCAT, DCAT-AP o adaptaciones sectoriales, ya que los principios y verificaciones fundamentales son comunes.

¿Por qué migrar a DCAT-AP-ES?

La Norma Técnica de Interoperabilidad de Recursos de Información del Sector Público constituye, desde 2013, el marco regulador en España para la gestión y apertura de los datos públicos. Alineada con el objetivo europeo y español de impulsar la economía del dato, la norma se ha actualizado con el fin de favorecer el intercambio de información a gran escala en entornos distribuidos y federados.

Esta actualización, que en el momento de publicación de la guía está en proceso de tramitación administrativa, incorpora un nuevo modelo de metadatos alineado con los estándares europeos más recientes: DCAT-AP-ES. Estos estándares facilitan la descripción homogénea de los conjuntos de datos y recursos de información reutilizables puestos a disposición pública. DCAT-AP-ES adopta las directrices del esquema europeo de intercambio de metadatos DCAT-AP (Data Catalog Vocabulary – Aplication Profile), promoviendo así la interoperabilidad entre catálogos nacionales y europeos.

Las ventajas de adoptar DCAT-AP-ES se resumen en:

Interoperabilidad semántica y técnica: asegura que distintos catálogos puedan entenderse entre sí de forma automática.
Alineación normativa: responde a los nuevos requisitos previstos en la NTI-RISP y alinea el catálogo con la Directiva (UE) 2019/1024 relativa a los datos abiertos y la reutilización de la información del sector público y el Reglamento de Ejecución (UE) 2023/138 por el que se establecen una lista de conjuntos de datos específicos de alto valor (High Value Dataset o HVD), facilitando la publicación de HVD y servicios de datos asociados.
Mejora de la capacidad de encontrar los recursos: facilita la búsqueda, localización y reutilización de los conjuntos de datos mediante metadatos estandarizados y completos.
Reducción de incidencias en la federación: minimiza errores y conflictos al integrar catálogos de distintas administraciones, garantizando la consistencia y la calidad en los procesos de interoperabilidad.

¿Qué ha cambiado en DCAT-AP-ES?

DCAT-AP-ES amplía y ordena el modelo anterior para hacerlo más interoperable, más preciso desde el punto de vista legal y más útil para el mantenimiento y la reutilización técnica de los catálogos de datos.

Los principales cambios son:

En el catálogo: ahora es posible enlazar catálogos entre sí, registrar quién los creó, añadir una declaración de derechos complementaria a la licencia o describir cada entrada mediante registros.
En los conjuntos de datos: se incorporan nuevas propiedades para cumplir la normativa sobre conjuntos de alto valor, dar soporte a la comunicación, documentar la procedencia y las relaciones entre recursos, gestionar versiones y describir la resolución espacial/temporal o el sitio web. Asimismo, se redefine la responsabilidad de la licencia, desplazando su declaración al nivel más adecuado.
En las distribuciones: se amplían las opciones para indicar la disponibilidad planificada, la legislación, política de uso, la integridad, los formatos empaquetados, la URL directa de descarga, la licencia propia y el estado del ciclo de vida.

Un enfoque práctico y gradual

Muchos catálogos ya cumplen los requisitos establecidos en la versión de NTI-RISP de 2013. En estos casos, la migración a DCAT-AP-ES requiere un ajuste reducido, aunque la guía contempla también escenarios más complejos, siguiendo un enfoque progresivo y adaptable.

El documento distingue entre el cumplimiento mínimo indispensable y algunas ampliaciones que mejoran la calidad e interoperabilidad.

Se recomienda seguir una estrategia iterativa: partir del núcleo mínimo para asegurar continuidad operativa y, posteriormente, planificar la incorporación escalonada de elementos adicionales, como servicios de datos, contacto, legislación aplicable, categorización de HVD y metadatos contextuales. Este enfoque reduce riesgos, distribuye el esfuerzo de adaptación y favorece una transición ordenada.

Una vez realizados los primeros ajustes, el catálogo puede federarse tanto con el Catálogo Nacional, albergado en datos.gob.es, como con el Catálogo oficial de datos europeos, incrementado progresivamente la calidad y la interoperabilidad de los metadatos.

La guía constituye un material de apoyo técnico que facilita una transición básica, conforme a los requisitos mínimos de interoperabilidad. Además, complementa otros recursos de referencia, como la Guía técnica de implementación y modelo del perfil de aplicación DCAT-AP-ES, los ejemplos de implementación (Migración desde NIT-RISP a DCAT-AP-ES y Migración desde NTI-RISP a DCAT-AP-ES HVD) y las convenciones complementarias al modelo DCAT-AP-ES que definen reglas adicionales para abordar necesidades prácticas.

16/10/2025

Decálogo del científico de datos

Documentación

La ciencia de datos se ha consolidado como un pilar de la toma de decisiones basada en evidencias en sectores públicos y privados. En este contexto, surge la necesidad de una guía práctica y universal que trascienda modas tecnológicas y proporcione principios sólidos y aplicables. La presente guía ofrece un decálogo de buenas prácticas que acompaña al científico de datos a lo largo de todo el ciclo de vida de un proyecto, desde la conceptualización del problema hasta la evaluación ética del impacto.

Comprender el problema antes de mirar los datos. La clave inicial es definir claramente el contexto, objetivos, restricciones e indicadores de éxito. Un framing sólido evita errores posteriores.
Conocer los datos en profundidad. Más allá de las variables, implica analizar su origen, trazabilidad y posibles sesgos. La auditoría de datos es esencial para garantizar representatividad y fiabilidad.
Cuidar la calidad. Sin datos limpios no hay ciencia. Técnicas de EDA, imputación, normalización y control de métricas de calidad permiten construir bases sólidas y reproducibles.
Documentar y versionar. La reproducibilidad es condición científica. Notebooks, pipelines, control de versiones y prácticas de MLOps aseguran trazabilidad y replicabilidad de procesos y modelos.
Elegir el modelo adecuado. No siempre gana la sofisticación: la decisión debe equilibrar rendimiento, interpretabilidad, costes y restricciones operativas.
Medir con sentido. Las métricas deben alinearse con los objetivos. Validación cruzada, control del data drift y separación rigurosa de datos de entrenamiento, validación y test son imprescindibles para garantizar generalización.
Visualizar para comunicar. La visualización no es un adorno, sino un lenguaje para comprender y persuadir. Storytelling con datos y diseño claro son herramientas críticas para conectar con audiencias diversas.
Jugar en equipo. La ciencia de datos es colaborativa: requiere ingenieros de datos, expertos de dominio y responsables de negocio. El científico de datos debe actuar como facilitador y traductor entre lo técnico y lo estratégico.
Mantenerse actualizado (y crítico). El ecosistema evoluciona constantemente. Es necesario combinar aprendizaje continuo con criterio selectivo, priorizando fundamentos sólidos frente a modas pasajeras.
Ser ético. Los modelos tienen impacto real. Es imprescindible evaluar sesgos, proteger la privacidad, garantizar la explicabilidad y anticipar usos indebidos. La ética es brújula y condición de legitimidad.

Título: Decálogo del científico de datos Comprender el problema antes de mirar los datos. Conocer los datos en profundidad. Cuidar la calidad. Documentar y versionar. Elegir el modelo adecuado. Medir con sentido. Visualizar para comunicar. Jugar en equipo. Mantenerse actualizado (y crítico). Ser ético. Fuente: informe “Decálogo del científico de datos”, datos.gob.es.

Finalmente, el informe incluye un bonus-track sobre Python y R, destacando que ambos lenguajes son aliados complementarios: Python domina en producción y despliegue, mientras que R ofrece rigor estadístico y visualización avanzada. Conocer ambos multiplica la versatilidad del científico de datos.

El Decálogo del científico de datos constituye una guía práctica, atemporal y de aplicación transversal que ayuda a profesionales y organizaciones a convertir los datos en decisiones informadas, confiables y responsables. Su objetivo es reforzar la calidad técnica, la colaboración y la ética en una disciplina en plena expansión y con gran impacto social.

Para profundizar en el contenido del informe, hemos grabado un pódcast y una video-entrevista donde el autor nos cuenta las claves del Decálogo. Además, se ha elaborado una infografía y un resumen ejecutivo.

Escucha el pódcast con el autor

Mira la vídeo-entrevista con el autor

Descarga la infografía-resumen

Contenido elaborado por Alejandro Alija, experto en Transformación Digital e Innovación. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su auto

01/09/2025

Nuevos informes sobre datos abiertos y tecnologías relacionadas: hacia un ecosistema ético y colaborativo

Noticia

Los datos abiertos son un combustible fundamental en la innovación digital contemporánea, creando ecosistemas de información que democratizan el acceso al conocimiento y potencian el desarrollo de soluciones tecnológicas avanzadas.

Sin embargo, la mera disponibilidad de datos no es suficiente. La construcción de ecosistemas robustos y sostenibles requiere marcos normativos claros, principios éticos sólidos y metodologías de gestión que garanticen tanto la innovación como la protección de derechos fundamentales. Por ello, la documentación especializada que orienta estos procesos se convierte en un recurso estratégico para gobiernos, organizaciones y empresas que buscan participar responsablemente en la economía digital.

En este post, recopilamos informes recientes, elaborados por organizaciones de referencia tanto del ámbito público como privado, que ofrecen estas orientaciones clave. Estos documentos no solo analizan los desafíos actuales de los ecosistemas de datos abiertos, sino que proporcionan herramientas prácticas y marcos de trabajo concretos para su implementación efectiva.

Estado y evolución del mercado del open data

Conocer cómo es y qué cambios ha habido en el ecosistema de los datos abiertos a nivel europeo y nacional es importante para tomar decisiones informadas y adaptarse a las necesidades de la industria. En este sentido, la Comisión Europea publica, periódicamente, un informe sobre los mercados de datos, que se actualiza regularmente. La última versión es de diciembre de 2024, aunque periódicamente se van publicando casos de uso que ejemplifican el potencial de los datos en Europa (el último de febrero de 2025).

Por otro lado, desde una perspectiva regulatoria europea, el último informe anual sobre la implementación de la Ley de Mercados Digitales (DMA) aborda una visión integral de las medidas adoptadas para garantizar la equidad y competitividad en el sector digital. Este documento es interesante para comprender cómo se está configurando el marco normativo que afecta directamente a los ecosistemas de datos abiertos.

A nivel nacional, el informe sectorial de ASEDIE sobre la "Economía del Dato en su ámbito infomediario" 2025 proporciona evidencia cuantitativa del valor económico generado por los ecosistemas de datos abiertos en España.

La importancia de los datos abiertos en la IA

Está claro que la intersección entre datos abiertos e inteligencia artificial es una realidad que plantea desafíos éticos y normativos complejos que requieren respuestas colaborativas y multisectoriales. En este contexto, el desarrollo de marcos que guíen el uso responsable de la IA se convierte en una prioridad estratégica, especialmente cuando estas tecnologías se nutren de ecosistemas de datos públicos y privados para generar valor social y económico. Estos son algunos informes que abordan este objetivo:

IA generativa y datos abiertos: directrices y buenas prácticas: el Departamento de Comercio de EE. UU. ha publicado una guía con principios y buenas prácticas sobre cómo aplicar inteligencia artificial generativa de forma ética y efectiva en el contexto de los datos abiertos. El documento ofrece pautas para optimizar la calidad y la estructura de los datos abiertos con el fin de hacerlos útiles para estos sistemas, incluyendo la transparencia y gobernanza.
Guía de buenas prácticas para el uso de la inteligencia artificial ética: esta guía muestra un enfoque integral que combina principios éticos sólidos con preceptos normativos claros y aplicables. Además del marco teórico, la guía sirve de herramienta práctica para implementar sistemas de IA de manera responsable, considerando tanto los beneficios potenciales como los riesgos asociados. La colaboración entre actores públicos y privados garantiza que las recomendaciones sean tanto técnicamente viables como socialmente responsables.
Enhancing Access to and Sharing of Data in the Age of AI: este análisis de la Organización para la Cooperación y el Desarrollo Económicos (OCDE) aborda uno de los principales obstáculos para el desarrollo de la inteligencia artificial: el acceso limitado a datos de calidad y modelos efectivos. A través de ejemplos, se identifican estrategias específicas que los gobiernos pueden implementar para mejorar significativamente el acceso y la compartición de datos y ciertos modelos de IA.
A Blueprint to Unlock New Data Commons for AI: Open Data Policy Lab ha elaborado una guía práctica que se centra en la creación y gestión de bienes comunes de dato (data commons) específicamente diseñados para habilitar casos de uso de inteligencia artificial de interés público. La guía ofrece metodologías concretas sobre cómo gestionar datos de manera que se facilite la creación de estos bienes comunes de dato, incluyendo aspectos de gobernanza, sostenibilidad técnica y alineación con objetivos de interés público.
Guía práctica sobre colaboraciones basadas en datos: la iniciativa Data for Children Collaborative ha publicado una guía paso a paso para desarrollar colaboraciones de datos efectivas, con un enfoque en impacto social. Incluye ejemplos reales, modelos de gobernanza y herramientas prácticas para impulsar alianzas sostenibles.

En resumen, estos informes definen el camino hacia ecosistemas de datos más maduros, éticos y colaborativos. Desde las cifras de crecimiento del sector infomediario español hasta los marcos regulatorios europeos, pasando por las guías prácticas para la implementación de IA responsable, todos estos documentos comparten una visión común: el futuro de los datos abiertos depende de nuestra capacidad para construir puentes entre el sector público y privado, entre la innovación tecnológica y la responsabilidad social.

29/05/2025

Guía para la generación de datos sintéticos: una herramienta indispensable para la innovación y la protección de datos

Documentación

La Agencia Española de Protección de Datos ha publicado recientemente la traducción al español de la Guía sobre generación de datos sintéticos, elaborada originalmente por la Autoridad de Protección de Datos de Singapur. Este documento ofrece orientación técnica y práctica para personas responsables, encargadas y delegadas de protección de datos sobre cómo implementar esta tecnología que permite simular datos reales manteniendo sus características estadísticas sin comprometer información personal.

La guía destaca cómo los datos sintéticos pueden impulsar la economía del dato, acelerar la innovación y mitigar riesgos en brechas de seguridad. Para ello, presenta casos prácticos, recomendaciones y buenas prácticas orientadas a reducir los riesgos de reidentificación. En este post, analizamos los aspectos clave de la Guía destacando casos de uso principales y ejemplos de aplicación práctica.

¿Qué son los datos sintéticos? Concepto y beneficios

Los datos sintéticos son datos artificiales generados mediante modelos matemáticos específicamente diseñados para sistemas de inteligencia artificial (IA) o aprendizaje automático (ML). Estos datos se crean entrenando un modelo con un conjunto de datos de origen para imitar sus características y estructura, pero sin replicar exactamente los registros originales.

Los datos sintéticos de alta calidad conservan las propiedades estadísticas y los patrones de los datos originales. Por lo tanto, permiten realizar análisis que produzcan resultados similares a los que se obtendrían con los datos reales. Sin embargo, al ser artificiales, reducen significativamente los riesgos asociados con la exposición de información sensible o personal.

Para profundizar en este tema, tienes disponible este Informe monográfico sobre datos sintéticos: ¿Qué son y para qué se usan? con información detallada sobre los fundamentos teóricos, metodologías y aplicaciones prácticas de esta tecnología.

La implementación de datos sintéticos ofrece múltiples ventajas para las organizaciones, por ejemplo:

Protección de la privacidad: permiten realizar análisis de datos manteniendo la confidencialidad de la información personal o comercialmente sensible.
Cumplimiento normativo: facilitan el seguimiento de regulaciones de protección de datos mientras se maximiza el valor de los activos de información.
Reducción de riesgos: minimizan las posibilidades de brechas de datos y sus consecuencias.
Impulso a la innovación: aceleran el desarrollo de soluciones basadas en datos sin comprometer la privacidad.
Mejora en la colaboración: posibilitan compartir información valiosa entre organizaciones y departamentos de forma segura.

Pasos para generar datos sintéticos

Para implementar correctamente esta tecnología, la Guía sobre generación de datos sintéticos recomienda seguir un enfoque estructurado en cinco pasos:

Conocer los datos: comprender claramente el propósito de los datos sintéticos y las características de los datos de origen que deben preservarse, estableciendo objetivos precisos respecto al umbral de riesgo aceptable y la utilidad esperada.
Preparar los datos: identificar las ideas clave que deben conservarse, seleccionar los atributos relevantes, eliminar o seudonimizar identificadores directos, y estandarizar los formatos y estructuras en un diccionario de datos bien documentado.
Generar datos sintéticos: seleccionar los métodos más adecuados según el caso de uso, evaluar la calidad mediante comprobaciones de integridad, fidelidad y utilidad, y ajustar iterativamente el proceso para lograr el equilibrio deseado.
Evaluar riesgos de reidentificación: aplicar técnicas basadas en ataques para determinar la posibilidad de inferir información sobre individuos o su pertenencia al conjunto original, asegurando que los niveles de riesgo sean aceptables.
Gestionar riesgos residuales: implementar controles técnicos, de gobernanza y contractuales para mitigar los riesgos identificados, documentando adecuadamente todo el proceso.

Aplicaciones prácticas y casos de éxito

Para obtener todas estas ventajas, los datos sintéticos pueden aplicarse en diversos escenarios que responden a necesidades específicas de las organizaciones. La Guía menciona, por ejemplo:

1. Generación de conjuntos de datos para entrenar modelos de IA/ML: los datos sintéticos resuelven el problema de la escasez de datos etiquetados (es decir, que se pueden utilizar) para entrenar modelos de IA. Cuando los datos reales son limitados, los datos sintéticos pueden ser una alternativa rentable. Además, permiten simular eventos extraordinarios o incrementar la representación de grupos minoritarios en los conjuntos de entrenamiento. Una aplicación interesante para mejorar el rendimiento y la representatividad de todos los grupos sociales en los modelos de IA.

2. Análisis de datos y colaboración: este tipo de datos facilitan el intercambio de información para análisis, especialmente en sectores como la salud, donde los datos originales son particularmente sensibles. Tanto en este sector como en otros, proporcionan a las partes interesadas una muestra representativa de los datos reales sin exponer información confidencial, permitiendo evaluar la calidad y potencial de los datos antes de establecer acuerdos formales.

3. Pruebas de software: son muy útiles para el desarrollo de sistemas y la realización de pruebas de software porque permiten utilizar datos realistas, pero no reales en entornos de desarrollo, evitando así posibles brechas de datos personales en caso de comprometerse el entorno de desarrollo.

La aplicación práctica de datos sintéticos ya está demostrando resultados positivos en diversos sectores:

I. Sector financiero: detección de fraudes. J.P. Morgan ha utilizado con éxito datos sintéticos para entrenar modelos de detección de fraude, creando conjuntos de datos con un mayor porcentaje de casos fraudulentos que permitieron mejorar significativamente la capacidad de los modelos para identificar comportamientos anómalos.

II. Sector tecnológico: investigación sobre sesgos en IA. Mastercard colaboró con investigadores para desarrollar métodos de prueba de sesgos en IA mediante datos sintéticos que mantenían las relaciones reales de los datos originales, pero eran lo suficientemente privados como para compartirse con investigadores externos, permitiendo avances que no habrían sido posibles sin esta tecnología.

III. Sector salud: salvaguarda de datos de pacientes. Johnson & Johnson implementó datos sintéticos generados por IA como alternativa a las técnicas tradicionales de anonimización para procesar datos sanitarios, logrando una mejora significativa en la calidad del análisis al representar eficazmente a la población objetivo mientras se protegía la privacidad de los pacientes.

El equilibrio entre utilidad y protección

Es importante destacar que los datos sintéticos no están inherentemente libres de riesgos. La semejanza con los datos originales podría, en determinadas circunstancias, permitir la filtración de información sobre individuos o datos confidenciales. Por ello, resulta crucial encontrar un equilibrio entre la utilidad de los datos y su protección.

Este equilibrio puede lograrse mediante la implementación de buenas prácticas durante el proceso de generación de datos sintéticos, incorporando medidas de protección como:

Preparación adecuada de los datos: eliminación de valores atípicos, seudonimización de identificadores directos y generalización de datos granulares.
Evaluación de riesgos de reidentificación: análisis de la posibilidad de que se puedan vincular los datos sintéticos con individuos reales.
Implementación de controles técnicos: añadir ruido a los datos, reducir la granularidad o aplicar técnicas de privacidad diferencial.

Los datos sintéticos representan una oportunidad excepcional para impulsar la innovación basada en datos mientras se respeta la privacidad y se cumple con las normativas de protección de datos. Su capacidad para generar información estadísticamente representativa pero artificial los convierte en una herramienta versátil para múltiples aplicaciones, desde el entrenamiento de modelos de IA hasta la colaboración entre organizaciones y el desarrollo de software.

Al implementar adecuadamente las buenas prácticas y controles descritos en Guía sobre generación de datos sintéticos que ha traducido la AEPD, las organizaciones pueden aprovechar los beneficios de los datos sintéticos minimizando los riesgos asociados, posicionándose a la vanguardia de la transformación digital responsable. La adopción de tecnologías de mejora de la privacidad como los datos sintéticos no solo representa una medida defensiva, sino un paso proactivo hacia una cultura organizacional que valora tanto la innovación como la protección de datos, aspectos fundamentales para el éxito en la economía digital del futuro.

19/05/2025

Data Innovation Toolkit: la hoja de ruta para innovar con datos públicos

Noticia

¿Cómo pueden las administraciones públicas aprovechar el valor de los datos? Esta pregunta no es sencilla de abordar, su respuesta viene condicionada por varios factores que tienen que ver con el contexto de cada administración, los datos con los que cuente y los objetivos específicos que se planteen.

No obstante, existen guías de referencia que pueden ayudar a definir un camino hacia la acción. Una de ellas es la que publica la Comisión Europea a través de la Oficina de Publicaciones de la UE, Data Innovation Toolkit, que surge como una brújula estratégica para navegar este complejo ecosistema de innovación de datos.

Esta herramienta no es un simple manual ya que incluye plantillas para que la implementación del proceso sea más sencilla. Orientada a perfiles diversos como pueden ser analistas noveles o experimentados responsables políticos e innovadores tecnológicos, Data Innovation Toolkit es un recurso útil que acompaña en el proceso, paso a paso.

Su objetivo es democratizar la innovación basada en datos proporcionando un marco estructurado que trasciende la mera recopilación de información. En este post, analizaremos los contenidos de la guía europea, así como las referencias que proporciona para plantear un buen uso innovador de los datos.

Estructura que abarca el ciclo de vida de los datos

La guía está organizada en cuatro pasos principales, que abordan todo el ciclo de vida de los datos.

Planificación

La primera parte de la guía se centra en establecer unos cimientos sólidos para cualquier proyecto de innovación con datos. Antes de abordar cualquier proceso, es importante definir objetivos. Para ello, el Data Innovation Toolkit sugiere realizar una reflexión profunda que requiere alinear las necesidades específicas del proyecto con los objetivos estratégicos de la organización. En este paso, también es clave el mapeo de stakeholders o identificación de actores. Esto implica comprender en profundidad los intereses, expectativas y posibles contribuciones de cada actor involucrado. Esta comprensión permite diseñar estrategias de engagement que maximicen la colaboración y minimicen los potenciales conflictos.

Para crear un equipo adecuado de innovación en datos, podemos utilizar la matriz RACI (Responsible, Accountable, Consulted, Informed, por sus siglas en inglés), y así definir con precisión los roles y responsabilidades. No se trata solo de reunir profesionales, sino de construir equipos multidisciplinares donde cada miembro comprenda exactamente su función y contribución al proyecto. Para ayudar en esta tarea la guía facilita:

Herramienta de definición de retos: para identificar y articular las cuestiones clave que pretenden resolver, resumiéndolas en una única declaración.
Herramienta de mapeo de stakeholders: para visualizar la red de individuos y organizaciones implicadas, evaluando su influencia e intereses.
Herramienta de definición de equipos: para facilitar la identificación de personas de su organización que puedan ayudarle.
Herramienta para definir roles: para, una vez definidos los perfiles necesarios, determinar sus responsabilidades y su papel en el proyecto de datos de forma más detallada, utilizando una matriz RACI.
Herramienta para definir Personas: las Personas son un concepto que se usa para definir tipos específicos de usuarios, denominados arquetipos de comportamiento. Esta guía ayuda a crear estos perfiles detallados, que representan a los usuarios o clientes que estarán involucrados en el proyecto.
Herramienta para el mapeo de Data Journey: para realizar una representación sintética que describa paso a paso cómo puede interactuar un usuario con sus datos. El proceso se representa desde la perspectiva del usuario, describiendo lo que ocurre en cada fase de la interacción y los puntos de contacto.

Recopilación y procesamiento

Una vez constituido el equipo e identificados los objetivos, se realiza una clasificación de los datos que va más allá de la tradicional división entre cuantitativos y cualitativos.

Ámbito cuantitativo:

Los datos discretos, como el número de quejas en un servicio público, no solo representan una cifra, sino una oportunidad para identificar sistemáticamente áreas de mejora. Permiten a las administraciones mapear problemas recurrentes y diseñar intervenciones específicas. Los datos continuos, como los tiempos de respuesta en trámites administrativos, ofrecen una radiografía de la eficiencia operativa. No se trata solo de medir, sino de comprender los factores que influyen en la variabilidad de estos tiempos y diseñar procesos más ágiles y eficientes.

Ámbito cualitativo:

Los datos nominales (de nombres) posibilitan la categorización de servicios públicos, permitiendo una comprensión más estructurada de la diversidad de intervenciones administrativas.
Los datos ordinales (de números), como las valoraciones de satisfacción, se convierten en una herramienta de priorización para la mejora continua.

En el documento están disponibles una serie de checklist para revisar este aspecto:

Checklist de data gaps: para identificar si existe algún vacío en los datos que vamos a utilizar y, si es así, cómo solventarlo.
Plantilla de data collection: para alinear el conjunto de datos al objetivo del análisis innovador.
Checklist de data collection: para asegurar el acceso a las fuentes de datos necesarias para ejecutar el proyecto.
Checklist de calidad de los datos: para repasar el nivel de calidad del conjunto de datos.
Cartas de procesamiento de datos: para revisar que los datos se están procesando de manera segura, eficiente y cumpliendo con las regulaciones.

Compartir y analizar

En este punto, el Data Innovation Toolkit propone cuatro estrategias de análisis que transforman los datos en conocimiento accionable.

El análisis descriptivo: va más allá de la simple visualización de datos históricos, permitiendo construir narrativas que expliquen la evolución de los fenómenos estudiados.
El análisis diagnóstico: profundiza en la investigación de causas, desentrañando los patrones ocultos que explican los comportamientos observados.
El análisis predictivo: se convierte en una herramienta de planificación estratégica, permitiendo a las administraciones prepararse para escenarios futuros.
El análisis prescriptivo: da un paso más, no solo proyectando tendencias, sino recomendando acciones concretas basadas en el modelado de datos.

Además del análisis, la dimensión ética es fundamental. Por ello, la guía establece protocolos estrictos para garantizar transferencias de datos seguras, cumplimiento normativo, transparencia y consentimiento informado. En este apartado, se ofrecen las siguientes checklist:

Plantilla de compartición de datos: para asegurar que se comparte de manera segura, legal y transparente.
Checklist de compartición de datos: para realizar todos los pasos necesarios para compartir los datos de manera segura, ética y alcanzando todos los objetivos definidos.
Plantilla de análisis de datos: para dirigir un análisis adecuado que permita obtener insights útiles y significativos para el proyecto.

Uso y evaluación

La última etapa se centra en convertir los insights en acciones reales. La comunicación de resultados, la definición de indicadores clave (KPI), la medición de impacto y las estrategias de escalabilidad se convierten en herramientas para la mejora continua.

Un recurso colaborativo en continua mejora

En resumen, el toolkit ofrece una transformación integral: desde la toma de decisiones basada en evidencia hasta la personalización de servicios públicos, pasando por el aumento de la transparencia y la optimización de recursos. También puedes revisar las checklist disponibles en este apartado que son:

Checklist de uso de datos: para revisar que los datos y las conclusiones obtenidas se utilizan de manera eficaz, responsable y orientado a los objetivos óptimos.
Innovación de datos mediante herramienta de KPI: para definir los KPI que medirán el éxito del proceso.
Herramientas de medición de impacto y evaluación del éxito: para valorar el éxito y el impacto de la innovación en el proyecto de datos.
Plan de escalabilidad de la innovación en datos: para identificar estrategias para escalar el proyecto de manera eficaz.

Además, este repositorio de recursos de innovación y datos es un catálogo dinámico de conocimiento que incluye artículos especializados, guías de implementación, casos de estudio y materiales de aprendizaje.

Puedes acceder aquí a la lista de materiales que proporciona el Data Innovation Toolkit

Web: https://is.gd/datainnovationrepository

E incluso ponerte en contacto con el equipo de desarrollo por si tienes alguna duda o quieres contribuir al repositorio:

Correo: DIGIT-DIGITAL-INNOVATION@ec.europa.eu

Parar concluir, llegar a aprovechar el valor de los datos con una perspectiva innovadora no es un salto mágico, sino un proceso gradual y complejo. En este camino, el Data Innovation Toolkit puede ser de utilidad ya que ofrece un marco estructurado. La implementación efectiva requerirá inversión en capacitación, adaptación cultural y compromiso a largo plazo.

02/04/2025