Los datos abiertos tienen un rol relevante en el desarrollo tecnológico por muchos motivos. A modo de ejemplo, son un componente fundamental en la toma de decisiones informadas, en la evaluación de procesos o incluso en el impulso de la innovación tecnológica. Siempre y cuando, cuenten con la calidad óptima, estén actualizados y respeten los aspectos éticos, los datos pueden ser el ingrediente clave para el alcanzar el éxito de un proyecto.
A fin de aprovechar plenamente las ventajas de los datos abiertos en la sociedad, la Unión Europea cuenta con diversas iniciativas para impulsar la economía del dato, un modelo digital único que fomenta el intercambio de datos, destacando la soberanía y el gobierno de los mismos, el marco ideal y necesario para los datos abiertos.
En la economía del dato, tal y como recoge la regulación vigente, se garantiza la privacidad de las personas y la interoperabilidad de los datos. El marco regulatorio se encarga de velar por el cumplimiento de esta premisa. Ejemplo de ello puede ser la modificación de la Ley 37/2007 para la reutilización de información del sector público en cumplimiento de la Directiva Europea 2019/1024. Esta regulación se alinea con la Estrategia de datos de la Unión Europea que define un horizonte con un mercado único de datos en el que se facilite un intercambio mutuo, libre y seguro entre el sector público y el privado.
Para lograr este objetivo, se deben abordar cuestiones clave, como preservar ciertas garantías jurídicas o acordar unas características comunes de descripción de metadatos que deben cumplir los dataset para facilitar el acceso y uso de los datos entre sectores, es decir, utilizar un lenguaje común que permita la interoperabilidad entre catálogos de conjuntos de datos.
¿Qué son los estándares de metadatos?
Un primer paso hacia la interoperabilidad y reutilización de los datos es desarrollar mecanismos que habiliten una descripción homogénea de los mismos y que, además, dicha descripción sea fácilmente interpretable y procesable tanto por humanos como por máquinas. En este sentido, se han ido creando diferentes vocabularios que, con el tiempo, se han ido consensuando hasta convertirse en estándares.
Los vocabularios estandarizados ofrecen una semántica que sirve como base para la publicación de conjuntos de datos que actúa como "leyenda" para facilitar la comprensión del contenido de los datos. Al fin y al cabo, se puede decir que estos vocabularios proporcionan una colección de metadatos para describir los datos que se publican; y como todos los usuarios de esos datos tienen acceso a los metadatos y entienden su significado, es más fácil interoperar y reutilizar los datos.
W3C: Estándares DCAT y DCAT-AP
A nivel internacional, se pueden destacar varias organizaciones que crean y mantienen estándares:
-
World Wide Web Consortium (W3C): desarrolla el Vocabulario de Catálogos de Datos (DCAT): un estándar de descripción diseñado con el objetivo de facilitar la interoperabilidad entre catálogos de conjuntos de datos publicados en la web.
-
Posteriormente, tomando como base DCAT, se desarrolló DCAT-AP, una especificación para el intercambio de descripciones de datos publicados en los portales de datos en Europa que cuenta con extensiones de DCAT-AP más específicas como:
- GeoDCAT-AP que extiende DCAT-AP para la publicación de datos espaciales.
- StatDCAT-AP que igualmente, extiende DCAT-AP para describir datasets de contenidos estadísticos.
-
ISO: Organización de Estandarización Internacional
Además de World Wide Web Consortium, existen otras organizaciones que se dedican a la estandarización, por ejemplo, la Organización de Estandarización Internacional (ISO, por sus siglas en inglés Internacional Standarization Organisation).
- Entre otros muchos tipos de estándares, ISO también ha definido normas de estandarización de metadatos de catálogos de datos:
- ISO 19115 para describir información geográfica. Como ocurre en DCAT, también se han desarrollado extensiones y especificaciones técnicas a partir de ISO 19115, por ejemplo:
- ISO 19115-2 para datos ráster e imágenes.
- ISO 19139 proporciona una implementación en XML del vocabulario.
- ISO 19115 para describir información geográfica. Como ocurre en DCAT, también se han desarrollado extensiones y especificaciones técnicas a partir de ISO 19115, por ejemplo:
El horizonte en los estándares de metadatos: retos y oportunidades
Tanto W3C como ISO trabajan en el desarrollo y mantenimiento de vocabularios estandarizados y adaptados a las necesidades de los usuarios. Su trabajo contribuye a lograr un ecosistema de datos abiertos interoperables que facilite la reutilización. Sin embargo, la interoperabilidad a menudo se encuentra con obstáculos derivados de debilidades de calidad, como pueden ser datos obsoletos, dificultades para acceder e interoperar con ellos o metadatos incompletos.
A pesar de ello, como se ha demostrado, la compartición de datos es un mecanismo fundamental en la economía del dato. Así que garantizar la interoperabilidad y reutilización de estos es una acción clave para abordar el desarrollo de la economía de los datos en línea con las expectativas de las organizaciones en lo que se refiere a innovación.
Entre las múltiples ventajas que ofrece la reutilización de conjuntos de datos y su interoperabilidad se puede destacar la creación de aplicaciones y servicios que aportan un valor a la sociedad o ayudan en la evaluación de políticas, por ejemplo.
Además, la reutilización e interoperabilidad de los conjuntos de datos favorece el desarrollo económico en general, y la economía del dato, en particular. Se estima que esta industria alcanzará un valor de 829.000 millones de euros en 2025, según previsiones de la Unión Europea. Para poder aprovechar los beneficios que ofrece compartir datos, primero, se deben acordar y respetar unas normas de descripción comunes: los estándares para describir metadatos de catálogos de conjuntos de datos.
Existe una tan estrecha relación entre la gestión del dato, la gestión de calidad del dato y el gobierno del dato que en muchas ocasiones los términos se utilizan de forma indistinta o directamente se confunden. Sin embargo, existen importantes matices.
El objetivo general de la gestión de datos es asegurar que los datos satisfacen los requisitos de negocio que darán soporte a los procesos de la organización, tales como recopilar, almacenar, proteger, analizar y documentar los datos, con el objetivo de implementar los objetivos de la estrategia de gobierno del dato. Se trata de un conjunto de tareas tan amplio que existen diversas categorías de normas para certificar cada uno de los diferentes procesos: ISO/IEC 27000 para la seguridad y privacidad de la información, ISO/IEC 20000 para la gestión de servicios de TI, ISO/IEC 19944 para interoperabilidad, arquitectura o acuerdos de nivel de servicio en la nube, o ISO/IEC 8000-100 para el intercambio de datos y la gestión de datos maestros.
La gestión de calidad de datos, por su parte, se refiere a las técnicas y procesos utilizados para asegurar que los datos son adecuados para el uso que se pretende hacer de ellos. Para ello se requiere un Plan de calidad de los datos que debe ser acorde con la cultura de la organización y con la estrategia de negocio e incluye aspectos como la validación, verificación y limpieza de datos, entro otros. En este sentido también existe un conjunto de normas técnicas para conseguir que los datos tengan calidad] entre las que se incluyen la propia gestión de la calidad de los datos de transacción, los datos de producto y los datos maestros empresariales (ISO 8000) y las tareas de medición de la calidad de los datos (ISO 25024:2015).
Por su parte, el gobierno del dato, de acuerdo con la definición de Deloitte, está formado por conjunto de normas, políticas y procesos de una organización que permiten asegurar que los datos de la organización sean correctos, fiables, seguros y útiles. Es decir, es la parte estratégica y de planificación y control a alto nivel para conseguir crear valor para el negocio a partir de los datos. En este caso, el gobierno de los datos abiertos tiene sus propias especificidades debido al número de partes interesadas que intervienen y la propia naturaleza colaborativa de los datos abiertos.

El modelo Alarcos
En este contexto el Modelo Alarcos de Mejora de Datos (MAMD), actualmente en su versión 3, tiene como objetivo recoger los procesos necesarios para alcanzar la calidad de las tres citadas dimensiones: la gestión de los datos, la gestión de la calidad de los datos y el gobierno de los datos. Este modelo ha sido desarrollado por un grupo de expertos coordinado por el grupo de investigación Alarcos de la Universidad de Castilla-La Mancha.
El Modelo MAMD está alineado con las mejores prácticas y estándares existentes tales como Data Management Community (DAMA), Data management maturity (DMM) o la propia familia de normas ISO 8000, cada una de las cuáles aborda diferentes aspectos relacionados con la calidad de los datos y la gestión de los datos maestros desde diferentes perspectivas. Además, el modelo Alarcos está basado en la familia de estándares para definir el modelo de madurez por lo que es posible conseguir la certificación de AENOR para el gobierno, gestión y calidad de datos ISO 8000-MAMD.
El modelo MAMD consiste de 21 procesos, 9 procesos corresponden a la gestión de los datos (DM), la gestión de la calidad de datos (DQM) incluye 4 procesos más y el gobierno del dato (DG), que añade otros 8 procesos.

La incorporación progresiva de los 21 procesos permite la definición de 5 niveles de madurez que contribuyen a que la organización mejore su gestión, calidad y gobierno de datos. Comenzando con el nivel 1 (Realizado) en el que el organismo puede demostrar que utiliza buenas prácticas en el uso de los datos y tiene el soporte tecnológico necesario, pero no presta atención al gobierno ni a la calidad de los datos, hasta el nivel 5 (Innovado) en el que el organismo es capaz de alcanzar sus objetivos y está continuamente mejorando.

El modelo puede certificarse con una auditoría equivalente a la de otras normas de AENOR por lo que existe la posibilidad de incluirlo en el ciclo de mejora continua y control interno de cumplimiento normativo de las organizaciones que ya cuentan con otros certificados.
Experiencias prácticas
La Biblioteca de la Universidad de Castilla-La Mancha (UCLM), que da soporte a más de 30.000 alumnos y 3.000 profesionales entre profesores y personal de administración y servicios, es una de las primeras organizaciones que pudo superar la auditoría de certificación y por tanto obtener el nivel 2 de madurez en ISO/IEC 33000 – ISO 8000 (MAMD).
Los puntos más fuertes que se identificaron en este proceso de certificación fueron el compromiso del equipo directivo y el nivel de coordinación con otras universidades. Como en toda auditoría, se propusieron mejoras como la necesidad de documentar las revisiones periódicas de seguridad de datos que contribuyeron a alimentar el ciclo de mejora.
El hecho de que las organizaciones de todo tipo otorguen un valor cada vez mayor a sus activos de datos hace que los modelos y normas técnicas de certificación tengan un papel fundamental en garantizar la calidad, la seguridad, la privacidad, la gestión o el adecuado gobierno de estos activos de datos. Además de los estándares ya existentes se sigue haciendo un importante esfuerzo para desarrollar nuevas normas que cubran aspectos que hasta ahora no se habían considerado centrales debido a la menor importancia de los datos en las cadenas de valor de las organizaciones. Sin embargo, aún es necesario continuar con la formalización de modelos que como el Modelo Alarcos de Mejora de Datos permitan abordar de forma holística, y no sólo desde sus diferentes dimensiones, la evaluación y el proceso de mejora de la organización en el tratamiento de sus activos de datos.
Contenido elaborado por Jose Luis Marín, Senior Consultant in Data, Strategy, Innovation & Digitalization.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.