Cómo IDS-RAM podría ayudar en la creación de ecosistemas de datos abiertos

Fecha de la noticia: 28-10-2022

Imagen que muestra un flujo de trabajo de datos

Muchas organizaciones y administraciones han encontrado en los datos abiertos un pilar transformacional sobre el que ejercer la estrategia hacia la cultura del dato. Tener acceso a datos de forma estructurada es la base de nuevos modelos de negocio, así como de nuevas iniciativas dirigidas al ciudadano en los diferentes ámbitos de actuación.

Sin embargo, obtener todo el potencial de los datos abiertos, requiere de una plataforma capaz de poner a disposición de terceros estos datos asegurando su calidad, entendimiento, privacidad y seguridad.

En este contexto, el libro “Designing Data Spaces”, incluye un capítulo, firmado por Fabian Kirstein and Vincent Bohlen, donde se propone el uso de la arquitectura IDS-RAM propuesta por la International Data Spaces (IDS) para el desarrollo de ecosistemas de datos abiertos. En él se aborda una prueba de concepto sobre la viabilidad de la arquitectura de IDS para disponer espacios de datos públicos con el objetivo de lograr una base sólida que permita construir y mantener ecosistemas de datos abiertos interoperables, capaces de hacer frente a los retos existentes.

A continuación, se resumen las opiniones recogidas en el capítulo.

Ecosistemas de datos abiertos

Los espacios de datos son ecosistemas donde diversos actores comparten datos de manera voluntaria y segura, siguiendo mecanismos comunes de gobernanza, organizativos, normativos y técnicos.

Con el objetivo de impulsar la economía digital global, mediante un sistema seguro y soberano de intercambio de datos en el que todos los participantes puedan obtener el máximo valor de sus datos, en 2016 surge IDSA (International Data Spaces Association), una coalición de más de 130 empresas internaciones con representación en más de 20 países en todo el mundo.

Entre otras iniciativas, promueve un modelo de referencia arquitectónico denominado IDS-RAM, que pretende facilitar el intercambio de datos para optimizar su valor, pero sin perder su control. Ofrece varios enfoques cuya aplicabilidad puede entenderse tanto en el contexto de datos privados como de datos abiertos, ya que se basa en repositorios de metadatos para compartir información. Es decir, los datos permanecen bajo el control de sus propietarios y son los metadatos estandarizados los que se gestionan de forma centralizada para su compartición.

La creación de los espacios de datos conlleva una serie de riesgos a los que hacer frente, tanto desde el punto de vista del consumidor como del proveedor. Los proveedores de datos ponen el foco en el cumplimiento legal, mediante aspectos como la propiedad de los datos. Aunque existen normas comunes para aspectos como la descripción de metadatos - La World Wide Web Consortium no es ajena al problema y por ello propuso hace ya varios años su Data Catalog Vocabulary (DCAT), un estándar para describir catálogos de datos - lo cierto es que la interoperabilidad, en ocasiones, está lejos de su mayor potencial. Esto se debe a que a veces existen metadatos incompletos, la calidad es escasa, los datos están obsoletos, existen dificultades para acceder a datos e interoperar, etc.

La aplicabilidad de IDS-RAM en entornos de datos abiertos

IDS ofrece un enfoque basado en garantizar la soberanía de los datos a los proveedores, facilitando el intercambio de datos y dando respuesta a las preocupaciones tanto de consumidores como de proveedores.

Los conceptos y tecnologías subyacentes a los datos abiertos y al IDS-RAM son muy similares. Ambas iniciativas se basan en repositorios de metadatos para compartir información sobre la disponibilidad y accesibilidad de los datos. Estos repositorios almacenan metadatos, sin necesidad de transferir los datos reales. Por lo tanto, ambos conceptos siguen los principios de descentralización y transferencia de metadatos desde y hacia los puntos centrales de acceso a la información. Los datos reales permanecen bajo el control de la infraestructura del editor de datos hasta que un usuario los solicita. Además, el modelo de información de IDS se basa en los principios de Linked Data y DCAT. Esto hace que sea un sistema fácilmente compatible con los portales de datos abiertos, impulsando la interoperabilidad entre espacios de datos y portales de datos abiertos.

La arquitectura que propone IDS se basa principalmente en dos artefactos, un conector a las fuentes de datos (Open Data Connector) y un almacén de metadatos (Open Data Broker), tal como muestra la siguiente imagen extraída del libro “Designing Data Spaces”:

Figura que ilustra la arquitectura IDS-RAM, explicada a continuación.

  • Open Data Connector: adopta el rol de proveedor de datos abiertos. Cada entidad publicadora, aplica una instancia del conector para anunciar la disponibilidad y conceder accesos a los datos. Al tratarse de datos abiertos, y por tanto públicos, no es necesario aplicar políticas de uso o restricciones tan estrictas como cuando hablamos de otros conectores de datos privados basados en esta arquitectura, lo que permite una configuración y manejo a priori más sencillo.
  • Open Data Broker: el repositorio centralizado de metadatos cumple una función similar a la de un portal de datos abiertos. A partir de estos metadatos, la interfaz de portal ofrece funcionalidades para localizar y descargar los datos desde los conectores.

Esta gestión permite agrupar por diferentes ámbitos de aplicación, es decir, se pueden crear repositorios de metadatos centralizadosde sectores como salud o turismo, así como a nivel municipal, regional, nacional o internacional.

En un ecosistema de datos como el que se propone por IDS, el conector informa sobre los datos disponibles o actualizados, y en el repositorio de metadatos estos se actualizan en consecuencia. Para ello se utilizan mecanismos de comunicación basados en el modelo de información de IDS  (IDS information model) y el protocolo IDS (IDS Communication Protocol o IDSCP) que anuncian posibles modificaciones en la disponibilidad de los datos. De esta manera, se garantiza la disponibilidad de los datos actualizados.

En los portales de datos abiertos que recogen un gran número de fuentes de datos, la accesibilidad y la usabilidad general dependen de los metadatos suministrados por los proveedores de datos originales. Las normas como DCAT proporcionan una base común, pero IDS ofrece especificaciones más estrictas en el proceso de comunicación.

Aunque es una propuesta interesante, en el contexto de datos abiertos, este enfoque aún no ha sido implantada en ningún espacio. No obstante, ya se han realizado pruebas de concepto, como puede verse en el Public Data Space, un escaparate disponible desde diciembre de 2020 que reproduce cómo funciona la solución. En él, los conectores exponen la oferta de datos abiertos de diferentes portales de datos de Alemania y se registran en un almacén de metadatos.

La siguiente imagen muestra el flujo de trabajo de un modelo basado en IDS-RAM versus un enfoque más tradicional:

Imagen que muestra de manera gráfica la diferencia entre el flujo tradicional de datos y la propuesta de IDS, explicada a continucaión.

Conclusiones

Los portales de datos abiertos suministran acceso a datos abiertos procedentes de diversos proveedores. La usabilidad general de estos portales, está supeditada en cierto modo al descubrimiento de los datos, que a su vez depende de la calidad de sus metadatos.

Para contrarrestar los problemas de datos no disponibles o enlaces muertos que en ocasiones se producen en entornos de datos abiertos, los portales recogen periódicamente los catálogos de datos del publicador y realizan comprobaciones de disponibilidad. En el ecosistema de datos abiertos basado en IDS-RAM, el conector informa al bróker sobre los conjuntos de datos disponibles o actualizados. El enfoque "pull" de la responsabilidad en los entornos habituales de datos abiertos se invierte en un enfoque "push" en el ecosistema de IDS. Este enfoque focaliza en la responsabilidad del publicador de mantener la oferta de datos y además presenta nuevas posibilidades para controlar su difusión. Utilizando IDS-RAM, el publicador elige a qué broker de metadatos se inscribe, lo que le otorga una mayor soberanía sobre sus datos.

Para los consumidores de datos, este enfoque puede suponer mejoras en cuanto a la posibilidad de encontrar los datos en el momento oportuno y reduce la fragmentación. Además, si los datos abiertos pueden adquirirse, manejarse y procesarse con las mismas herramientas y aplicaciones que ya se aplican en la industria, las posibilidades de integración y reutilización se multiplican.


Contenido elaborado por Juan Mañes, experto en Data Governance.

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.