
¿Sabes por qué es tan importante categorizar conjuntos de datos? ¿Conoces la referencias que existen para hacerlo acorde al estándar global, europeo y nacional? En este pódcast te contamos las claves sobre la categorización de datasets y te guiamos para poder hacerlo en tu organización.
- David Portolés, Jefe de Proyecto del Servicio de Asesoramiento
- Manuel Ángel Jáñez, Experto Senior en Datos
Resumen de la entrevista
1. ¿A qué nos referimos cuando hablamos de catalogar datos y por qué es tan importante hacerlo?
David Portolés: Cuando hablamos de catalogar datos, lo que se quiere es describirlos de forma estructurada. Es decir, hablamos de metadatos: información relacionada con los datos. ¿Por qué es tan importante? Porque gracias a estos metadatos se logra la interoperabilidad. Esta palabra puede sonar complicada, pero simplemente significa que los sistemas puedan comunicarse entre sí de forma autónoma.
Manuel Ángel Jañez: Exacto, como dice David, categorizar no es solo etiquetar. Se trata de dotar a los datos de propiedades que los hagan comprensibles, accesibles y reutilizables. Para eso necesitamos acuerdos o estándares. Si cada productor define sus propias reglas, los consumidores no podrán interpretarlos correctamente, y se pierde valor. Categorizar es alcanzar consensos entre lo general y lo específico, y esto no es nuevo: es una evolución de la documentación en bibliotecas, adaptada al entorno digital.
2. Entonces entendemos que interoperabilidad es hablar el mismo idioma para sacar el máximo provecho. ¿Qué referencias existen a nivel global, europeo y nacional?
Manuel Ángel Jáñez: La forma de describir datos es de forma abierta, usando estándares o especificaciones de referencia, de marcos.
- A nivel global: DCAT (una recomendación del W3C) permite modelar catálogos, conjuntos de datos, distribuciones, servicios, etc. En esencia, todas las entidades que son clave y que luego se reutilizan en el resto de perfiles.
- A nivel europeo: DCAT-AP, el perfil de aplicación en portales de datos en la Unión Europea, particularmente los correspondientes al sector público. Es en esencia lo que se usa para el perfil español, DCAT-AP-ES.
- En España: DCAT-AP-ES, es el contexto en el que se incorporan restricciones más concretas a nivel español. Es un perfil basado en la Norma Técnica de Interoperabilidad (NTI) de 2013. Este perfil añade características nuevas, evoluciona el modelo para hacerlo compatible con el estándar europeo, añade características relacionadas con los conjuntos de alto valor (HVD) y adapta la norma al presente del ecosistema de datos.
David Portolés: Con una buena descripción, el reutilizador puede buscar, recuperar y localizar los conjuntos de datos que son de su interés y, por otro lado,descubrir otros datasets nuevos que no había contemplado. Los estándares, los modelos, los vocabularios compartidos. La principal diferencia entre ellos es el grado de detalle que aplican. La clave es llegar al compromiso entre que sean lo más generales posible para que no sean restrictivos, pero, por otro lado, hay que concretar, se precisa que también sean específicos. Aunque hablamos mucho de datos abiertos, estos estándares también se aplican a datos protegidos que pueden ser descritos. El universo de aplicación de estos estándares es muy amplio.
3. Centrándonos en DCAT-AP-ES, ¿qué ayuda o recursos existen para que un usuario pueda implantarlo?
David Portolés: DCAT-AP-ES es un conjunto de reglas y modelos base de aplicación. Como toda norma técnica tiene una guía de aplicación y, además, hay una guía de implementación online con ejemplos, convenciones, preguntas frecuentes y espacios de discusión técnica y divulgativa. Esta guía tiene un propósito muy claro, la idea es crear una comunidad en torno a esta norma técnica, con el propósito de generar una base de conocimiento accesible para todos, un canal de soporte transparente y abierto para todo aquel que quiera participar.
Manuel Ángel Jañez: Los recursos disponibles no parten de cero. Todo está alineado con iniciativas europeas como SEMIC, que impulsa la interoperabilidad semántica en la UE. Queremos una herramienta viva y dinámica que evolucione con las necesidades, bajo un enfoque participativo, con buenas prácticas, debates, armonización del perfil, etc. En definitiva, se busca que el modelo sea útil, sea robusto, fácil de mantener en tiempo y suficientemente flexible para que cualquier persona pueda participar en su mejora.
4. ¿Hay alguna implementación temática ya existente en DCAT-AP-ES?
Manuel Ángel Jáñez: Sí, se han dado pasos importantes en esa dirección. Por ejemplo, ya se ha incluido el modelo de conjuntos de alto valor, clave para datos relevantes para la economía o sociedad, útiles para IA, por ejemplo. DCAT-AP-ES se inspira en perfiles como DCAT-AP v2.1.1 (2022) que incorpora algunas mejoras semánticas, pero aún quedan implementaciones temáticas por incorporar en DCAT-AP-ES, como las series de datos. La idea es que las extensiones temáticas permitan la modelización para conjuntos de datos específicos.
David Portolés: Como dice Manu, la idea es que sea un modelo vivo. Las futuras extensiones posibles son:
- Datos geográficos: GeoDCAT-AP (europeo).
- Datos estadísticos: StatDCAT-AP.
Además, habrá que tener en cuenta futuras directivas sobre datos de alto valor.
5. ¿Y qué próximos objetivos tiene el desarrollo de DCAT-AP-ES?
David Portolés: El objetivo principal es lograr la plena adopción por parte de:
-
Proveedores: que modifiquen la forma en que o ofrecen y difunden sus metadatos relativos a sus conjuntos de datos con este nuevo paradigma.
-
Reutilizadores: que integren el nuevo perfil en sus desarrollos, en sus sistemas, y en todas las integraciones que hayan hecho hasta ahora, y que puedan hacer productos derivados mucho mejores.
Manuel Ángel Jáñez: También mantener coherencia con estándares internacionales como DCAT-AP. Queremos seguir apostando por un modelo de gobernanza técnica ágil, participativo y alineado con tecnologías emergentes (como datos protegidos, infraestructuras de datos soberanos y espacios de datos). En resumen: que DCAT-AP-ES sea útil, flexible y preparado para el futuro.