A continuación, se recoge la definición de diversos términos relacionados con los datos y tecnologías relacionadas.
1. Glosario de términos relacionados con datos abiertos.
Los datos abiertos tienen un rol relevante en el desarrollo tecnológico por muchos motivos. A modo de ejemplo, son un componente fundamental en la toma de decisiones informadas, en la evaluación de procesos o incluso en el impulso de la innovación tecnológica. Siempre y cuando, cuenten con la calidad óptima, estén actualizados y respeten los aspectos éticos, los datos pueden ser el ingrediente clave para el alcanzar el éxito de un proyecto.
A fin de aprovechar plenamente las ventajas de los datos abiertos en la sociedad, la Unión Europea cuenta con diversas iniciativas para impulsar la economía del dato, un modelo digital único que fomenta el intercambio de datos, destacando la soberanía y el gobierno de los mismos, el marco ideal y necesario para los datos abiertos.
En la economía del dato, tal y como recoge la regulación vigente, se garantiza la privacidad de las personas y la interoperabilidad de los datos. El marco regulatorio se encarga de velar por el cumplimiento de esta premisa. Ejemplo de ello puede ser la modificación de la Ley 37/2007 para la reutilización de información del sector público en cumplimiento de la Directiva Europea 2019/1024. Esta regulación se alinea con la Estrategia de datos de la Unión Europea que define un horizonte con un mercado único de datos en el que se facilite un intercambio mutuo, libre y seguro entre el sector público y el privado.
Para lograr este objetivo, se deben abordar cuestiones clave, como preservar ciertas garantías jurídicas o acordar unas características comunes de descripción de metadatos que deben cumplir los dataset para facilitar el acceso y uso de los datos entre sectores, es decir, utilizar un lenguaje común que permita la interoperabilidad entre catálogos de conjuntos de datos.
¿Qué son los estándares de metadatos?
Un primer paso hacia la interoperabilidad y reutilización de los datos es desarrollar mecanismos que habiliten una descripción homogénea de los mismos y que, además, dicha descripción sea fácilmente interpretable y procesable tanto por humanos como por máquinas. En este sentido, se han ido creando diferentes vocabularios que, con el tiempo, se han ido consensuando hasta convertirse en estándares.
Los vocabularios estandarizados ofrecen una semántica que sirve como base para la publicación de conjuntos de datos que actúa como "leyenda" para facilitar la comprensión del contenido de los datos. Al fin y al cabo, se puede decir que estos vocabularios proporcionan una colección de metadatos para describir los datos que se publican; y como todos los usuarios de esos datos tienen acceso a los metadatos y entienden su significado, es más fácil interoperar y reutilizar los datos.
W3C: Estándares DCAT y DCAT-AP
A nivel internacional, se pueden destacar varias organizaciones que crean y mantienen estándares:
-
World Wide Web Consortium (W3C): desarrolla el Vocabulario de Catálogos de Datos (DCAT): un estándar de descripción diseñado con el objetivo de facilitar la interoperabilidad entre catálogos de conjuntos de datos publicados en la web.
-
Posteriormente, tomando como base DCAT, se desarrolló DCAT-AP, una especificación para el intercambio de descripciones de datos publicados en los portales de datos en Europa que cuenta con extensiones de DCAT-AP más específicas como:
- GeoDCAT-AP que extiende DCAT-AP para la publicación de datos espaciales.
- StatDCAT-AP que igualmente, extiende DCAT-AP para describir datasets de contenidos estadísticos.
-
ISO: Organización de Estandarización Internacional
Además de World Wide Web Consortium, existen otras organizaciones que se dedican a la estandarización, por ejemplo, la Organización de Estandarización Internacional (ISO, por sus siglas en inglés Internacional Standarization Organisation).
- Entre otros muchos tipos de estándares, ISO también ha definido normas de estandarización de metadatos de catálogos de datos:
- ISO 19115 para describir información geográfica. Como ocurre en DCAT, también se han desarrollado extensiones y especificaciones técnicas a partir de ISO 19115, por ejemplo:
- ISO 19115-2 para datos ráster e imágenes.
- ISO 19139 proporciona una implementación en XML del vocabulario.
- ISO 19115 para describir información geográfica. Como ocurre en DCAT, también se han desarrollado extensiones y especificaciones técnicas a partir de ISO 19115, por ejemplo:
El horizonte en los estándares de metadatos: retos y oportunidades
Tanto W3C como ISO trabajan en el desarrollo y mantenimiento de vocabularios estandarizados y adaptados a las necesidades de los usuarios. Su trabajo contribuye a lograr un ecosistema de datos abiertos interoperables que facilite la reutilización. Sin embargo, la interoperabilidad a menudo se encuentra con obstáculos derivados de debilidades de calidad, como pueden ser datos obsoletos, dificultades para acceder e interoperar con ellos o metadatos incompletos.
A pesar de ello, como se ha demostrado, la compartición de datos es un mecanismo fundamental en la economía del dato. Así que garantizar la interoperabilidad y reutilización de estos es una acción clave para abordar el desarrollo de la economía de los datos en línea con las expectativas de las organizaciones en lo que se refiere a innovación.
Entre las múltiples ventajas que ofrece la reutilización de conjuntos de datos y su interoperabilidad se puede destacar la creación de aplicaciones y servicios que aportan un valor a la sociedad o ayudan en la evaluación de políticas, por ejemplo.
Además, la reutilización e interoperabilidad de los conjuntos de datos favorece el desarrollo económico en general, y la economía del dato, en particular. Se estima que esta industria alcanzará un valor de 829.000 millones de euros en 2025, según previsiones de la Unión Europea. Para poder aprovechar los beneficios que ofrece compartir datos, primero, se deben acordar y respetar unas normas de descripción comunes: los estándares para describir metadatos de catálogos de conjuntos de datos.
El pasado diciembre el Congreso de los Diputados aprobó el Real Decreto-ley 24/2021, que incluía la transposición de la Directiva (UE) 2019/1024, relativa a los datos abiertos y la reutilización de la información del sector público. Con este Real Decreto se modifica la Ley 37/2007 sobre reutilización de la información del sector público, incluyendo nuevos requisitos para los organismos públicos, entre los que se encuentra el facilitar el acceso a los datos de alto valor.
Los datos de alto valor son aquellos cuya reutilización está asociada a considerables beneficios para la sociedad, el medio ambiente y la economía. Inicialmente, la Comisión Europea destacó como datos de alto valor aquellos pertenecientes a las categorías de datos geoespaciales, ambientales, meteorológicos, estadísticos, relativos a sociedades y de movilidad, aunque estas clases pueden ser ampliadas tanto por, la Comisión como por el Ministerio de Asuntos Económicos y Transformación Digital a través de la Oficina del Dato. De acuerdo con la Directiva, este tipo de datos “se pondrán a disposición para su reutilización en un formato legible por máquina, a través de interfaces de programación de aplicaciones adecuadas y, cuando proceda, en forma de descarga masiva”. Es decir, entre otras cuestiones, se hace necesario el contar con una API.
¿Qué es una API?
Una interfaz de programación de aplicaciones o API (la abreviatura en inglés de Application Programming Interfaces) es un conjunto de definiciones y protocolos que permite el intercambio de información entre sistemas. Cabe destacar que existen distintos tipos de APIs en base a su arquitectura, protocolos de comunicación y sistemas operativos.
Las APIs suponen una serie de ventajas para los desarrolladores, ya que permiten automatizar el consumo de datos y metadatos, facilitan la descarga masiva y optimizan la recuperación de información al admitir funcionalidades de filtrado, ordenación y paginación. Todo ello repercute en un ahorro tanto económico como de tiempo.
En este sentido, muchos portales de datos abiertos de nuestro país ya cuentan con sus propias APIs para facilitar el acceso a datos y metadatos. En la siguiente infografía puedes ver algunos ejemplos a nivel nacional, autonómico y local, incluyendo información sobre la API de datos.gob.es. La infografía también incluye información breve sobre qué es una API y qué se necesita para poder utilizarlas.
Haz clic aquí para ver la infografía en tamaño completo y en su versión accesible
Estos ejemplos ponen de manifiesto el esfuerzo que los organismos públicos de nuestro país están haciendo para facilitar el acceso a la información que custodian de forma más eficiente y automatizada, con el fin de impulsar la reutilización de sus datos abiertos.
En datos.gob.es contamos con una Guía práctica para la publicación de datos abiertos usando APIs donde se detallan una serie de pautas y buenas prácticas para definir e implementar este mecanismo en un portal open data.
Contenido elaborado por el equipo de datos.gob.es.
Diariamente en el mundo, se generan grandes cantidades de datos que constituyen un potencial increíble para la creación de conocimiento. Muchos de estos datos son generados por organizaciones que los ponen a disposición de los ciudadanos.
Es recomendable que la publicación de estos datos en portales de datos abiertos, como el de datos.gob.es, siga los principios que caracterizan el Open Goverment Data desde sus orígenes, es decir, que los datos sean completos, primarios, en tiempo, accesibles, legibles por máquinas, no discriminatorios, en formatos libres y con licencias abiertas.
Para cumplir con estos principios y garantizar la trazabilidad de los datos, es muy importante su catalogación y para ello hay que conocer su ciclo de vida.
Ciclo de vida de los datos
Cuando hablamos de “ciclo de vida del dato” nos referimos a las diferentes etapas por las que pasa un dato desde su nacimiento hasta el fin. El dato no es un activo estático durante su ciclo de vida, sino que pasa por distintas fases, como recoge la siguiente imagen.
Fuente:El ciclo de Vida del Dato, @FUOC, Marcos Pérez. PID_00246836.
Dentro de las administraciones, se crean nuevas fuentes de datos continuamente, y es necesario mantener un registro que permita documentar los flujos de información a través de los distintos sistemas dentro de las organizaciones. Para ello, necesitamos establecer lo que se conoce como trazabilidad del dato.
La trazabilidad del dato es la capacidad de conocer todo el ciclo de vida del dato: la fecha y hora exacta de extracción, cuándo se produjo su transformación, y cuándo se cargó desde un entorno fuente a otro destino. A este proceso se le conoce como Data Linage.
Y para conocer cómo se ha comportado el dato durante su ciclo de vida, necesitamos una serie de metadatos.
Hablemos de los metadatos
La definición más concreta sobre los metadatos es que son los datos acerca de los datos y sirven para suministrar información sobre los datos que queremos usar. Los metadatos consisten en información que caracteriza datos, describe su contenido y estructura, las condiciones de uso, su origen y transformación, entre otra información relevante. Por ello son un elemento fundamental para conocer la calidad de los mismos.
La etimología del término metadatos también nos pone sobre la pista de su significado. Del griego meta, "después de" y de "data" plural del latín datum "datos”, literalmente significa "más allá de los datos", aludiendo a datos que describen otros datos.
Según el framework de trabajo DMBOK2 de la organización DAMA Internacional, existen tres tipos de metadatos:
- Metadatos técnicos: como su nombre indica, proporcionan información sobre detalles técnicos de los datos, los sistemas que los almacenan y los procesos que los mueven entre sistemas.
- Metadatos operacionales: describen detalles del procesamiento y acceso a los datos.
- Metadatos de negocio: se enfocan principalmente en el contenido y la condición de los datos e incluyen detalles relacionados con la gobernabilidad de los datos.
Como ejemplo, los conjuntos de metadatos que necesitamos para la catalogación y descripción de datos están recogidos en la Norma Técnica de Interoperabilidad (NTI) de Reutilización de recursos de la información y, entre otros, contienen:
- Título o denominación del conjunto de datos.
- Descripción que detalla aspectos relevantes del contenido de los datos.
- Organismo que publica los datos. Por ejemplo, Ayuntamiento de Madrid.
- Temática, que debemos seleccionar de la taxonomía de sectores primarios.
- Formato del set de datos.
- Conjunto de etiquetas que mejor describa el dataset para facilitar su descubrimiento.
- Periodicidad de actualización de la información.
Además, si la norma de referencia para describir metadatos permite incluir propiedades para ello, se puede agregar la siguiente información, aunque no los recoja la NTI:
- Si existen datos que han sufrido transformaciones, se deben comentar que métrica se ha utilizado.
- Indicador sobre la calidad de los datos. Se puede definir utilizando el vocabulario diseñado para tal fin, Data Quality Vocabulary (DQV)
- Trazo del linaje de los datos, es decir, como un árbol genealógico de los datos donde se explica de dónde viene cada fuente.
El beneficio de catalogar
Como hemos visto, gracias a la catalogación por medio de metadatos se proporciona información al usuario de los datos sobre dónde se han creado, cuándo se han creado, quién los ha creado, y cómo se han transformado cuando son objeto de flujos de información entre sistemas estando sujetos a operaciones extracción, transformación y carga.
De esta manera, estamos proporcionando una información muy valiosa para el usuario sobre cómo se ha obtenido el resultado final y así garantizar que se tiene la traza completa del dato objeto de reutilización.
En concreto, una correcta catalogación nos ayuda a:
- Aumentar la confianza en los datos, proporcionando un contexto de los mismos permitiendo además medir su calidad.
- Aumentar el valor de los datos estratégicos, como por ejemplo a través de los datos maestros que caracterizan a los datos transaccionales.
- Evitar el uso de datos desactualizados o que ya han llegado a la fase final de su ciclo de vida.
- Reducir el tiempo que invierte el usuario en investigar si los datos que necesita cumplen con sus requisitos.
El éxito de un portal de datos abiertos se encuentra en poseer unos datos bien descritos y fiables, ya que éstos constituyen un activo informacional muy importante para la generación de conocimiento. El buen gobierno de los datos debe garantizar que los datos empleados para tomar decisiones sean verdaderamente fiables y para ello, una adecuada catalogación es esencial. La catalogación de los datos proporciona respuestas y ofrece una mayor interpretabilidad de los datos, de modo que se pueda entender qué datos son los mejores para incorporar a mi análisis informacional.
Contenido elaborado por David Puig, Graduado en Información y Documentación y responsable del grupo de trabajo de Datos Maestros y de Referencia en DAMA ESPAÑA.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
Los datos de investigación son muy valiosos, y su acceso permanente es uno de los mayores retos para todos agentes involucrados en el mundo científico: personal investigador, organismos de financiación, editores e instituciones académicas. La conservación a largo plazo de los datos y la cultura del acceso abierto son fuente de nuevas oportunidades para la comunidad científica. Son cada vez más las universidades y centros de investigación que ofrecen repositorios con los datos de sus investigaciones, permitiendo el acceso permanente a los mismos. Así, debido a los requisitos de cada disciplina académica, los repositorios existentes son muy variados.
El personal investigador se enfrenta día a día a este universo de múltiples repositorios, herramientas, formatos… en los que consultar los datos deseados sin una guía o pauta supone muchos recursos de tiempo y esfuerzo. Re3data.org es un registro internacional de repositorios de datos de investigación (Registry of Research Data Repositories) donde se recopilan metadatos de los repositorios especializados en almacenar datos procedentes de investigación. Gracias a este trabajo de compilación, el personal investigador, las organizaciones financiadoras, bibliotecas y editores pueden buscar y visualizar los principales repositorios de datos de investigación, siendo posible realizar búsquedas y vistas facetadas por disciplina, materia, país, contenidos, formatos, licencias, idioma, etc.
El registro re3data.org nació como un proyecto conjunto de varias organizaciones alemanas, financiado por la Fundación Alemana de Investigación (DFG). El lanzamiento oficial se produjo en mayo del 2013 y posteriormente se integró el catálogo DataBib para evitar la duplicación y confusión por la existencia de dos registros similares paralelos. El proyecto de unificación estuvo auspiciado por DataCite, una organización internacional sin ánimo de lucro cuyo objetivo es mejorar la calidad de las citas de datos. Además, re3data.org colabora con otros proyectos de Ciencia Abierta como BioSharing u OpenAIRE.
Múltiples editores, instituciones de investigación y organizaciones financiadoras hacen referencia al registro re3data.org en sus políticas editoriales o directrices, como la herramienta idónea para la identificación de repositorios de datos. Uno de los ejemplos más destacables es la Comisión Europea (junto con Nature y Springer), ya que la menciona en el documento “Directrices para las reglas sobre acceso abierto de publicaciones científicas y acceso abierto de los datos de investigación en el programa Horizon 2020” (Guidelines to the Rules on Open Access to Scientific Publications and Open Access to Research Data in Horizon 2020).
Actualmente, los metadatos de los repositorios que se almacenan son aquellos que se encuentran enumerados en la versión 3 del “Esquema de metadatos para la descripción de repositorios de datos de investigación” (Metadata Schema for the Description of Research Data Repositories).
El registro identifica y enumera cerca de 2.000 repositorios de datos de investigación, lo que hace al re3data.org el más grande y completo de los registros de repositorios de datos disponibles en la web. Su crecimiento ha sido constante desde su lanzamiento, cubriendo una amplia gama de disciplinas.
En lo referente a España, y a fecha de 1 de diciembre de 2017, se catalogan 23 repositorios de datos de investigación en los que participa España.
La promoción de la ciencia abierta, la cultura del intercambio, la reutilización de información y el acceso abierto se encuentra en los cimientos del proyecto re3data.org. Y sobre esos cimientos sólidos la herramienta sigue y sigue aumentando los metadatos recopilados, y por ende la visibilidad de los datos de investigación. Seguir trabajando en incrementar esta visibilidad y potenciar la ciencia abierta no sólo es fundamental para garantizar el trabajo investigador basado en los hitos anteriores, sino que permite expandir exponencialmente los horizontes de la labor científica.
El próximo 7 de octubre, bajo el marco del Proyecto HOMER, tendrá lugar en Bruselas la Conferencia “El Futuro del Open Data en la Agenda Digital europea” donde se debatirá los retos a los que se enfrentará el sector de datos abiertos en el futuro así como los resultados obtenidos hasta la fecha.
El encuentro contará con cuatro charlas de especialistas europeos en materia de apertura de la información, quienes hablarán de las expectativas de la Comisión Europea sobre el sector open data en la estrategia TIC para impulsar el mercado digital y utilizar las tecnologías de la información para el beneficio de la ciudadanía. A su vez, se mostrará el papel que juegan los datos abiertos en las Smart Cities y se presentarán herramientas que ayuden en la armonización de los datos en Europa.
En paralelo, se celebrarán mesas redondas donde diferentes expertos discutirán aquellos aspectos relacionados con la homogeneización del open data: identificación de futuros retos y soluciones adoptadas para casos reales del proyecto HOMER. Como resultado, se creará un documento donde se recojan los siguientes asuntos:
- Armonización de metadatos: experimentos con DCAT, CKAN, HOMER y el portal data.gouv.fr.
- Armonización de prácticas legales: comparativa de licencias y licencias para datos reutilizados.
- Previsiones del sector open data en Europa.