Guía práctica para la publicación de datos enlazados en RDF

Fecha del documento: 27-01-2022

Guía para la publicación de datos enlazados en RDF

A la hora de publicar datos abiertos, es importante hacerlo siguiendo una serie de pautas que faciliten su reutilización, entre ellas, el uso de esquemas comunes, como formatos estándar, ontologías y vocabularios. De esta forma, los conjuntos de datos publicados por distintas organizaciones serán más homogéneos y los usuarios podrán extraer valor más fácilmente.

Una de las familias de formatos más recomendada para la publicación de datos abiertos es el RDF (Resource Description Framework). Se trata de un modelo estándar de intercambio de datos en la web recomendado por el World Wide Web Consortium, y destacado en los principios F.A.I.R. o el esquema de cinco estrellas en la publicación de datos abiertos.

Los RDFs son el fundamento de la web semántica, ya que permiten representar relaciones entre entidades, propiedades y valores, formando grafos. Así se interconectan datos y metadatos de manera automática, generando una red de datos enlazados que facilita su explotación por parte de los reutilizadores. Para ello también es necesario utilizar esquemas de datos consensuados (vocabularios u ontologías), con definiciones comunes que eviten malentendidos o ambigüedades.

Con el fin de promover el uso de este modelo, desde datos.gob.es ponemos a disposición de los usuarios la Guía práctica para la publicación de datos enlazados”, elaborada con la colaboración del equipo del Ontology Engineering Group, del Departamento de Inteligencia Artificial de la ETSI Informáticos de la Universidad Politécnica de Madrid.

La guía destaca una serie de buenas prácticas, consejos y flujos de trabajo para la creación de conjuntos de datos en RDF a partir de datos tabulares, de una forma eficiente y sostenible en el tiempo.

¿A quién va dirigida la guía?

La guía está dirigida a los responsables de los portales de datos abiertos y a aquellos que preparan los datos para su publicación en dichos portales. No es necesario tener conocimientos previos sobre RDF, vocabularios u ontologías, aunque sí es recomendable una base técnica sobre XML, YAML, SQL y algún lenguaje de programación de scripting, como Python.

¿Qué incluye la guía?

Tras una pequeña introducción, se abordan algunos conceptos teóricos necesarios (tripletas, URIs, vocabularios controlados de dominio, etc.), a la vez que se explica cómo se organiza la información en un RDF o cómo funcionan las estrategias de nombrado.

A continuación, se describen detalladamente los pasos a seguir para transformar un fichero de datos CSV que es el más habitual en los portales de datos abiertos en un conjunto de datos RDF normalizados en base al uso de vocabularios controlados y enriquecido con datos externos que mejoran la información de contexto de los datos de partida. Estos pasos son los siguientes:

Pasos a seguir para transformar datos CSV a RDF. Paso 1: Selección de vocabulario controlado para el dominio. Paso 2: Limpieza y preparación de los datos en CSV. Paso 3: Construcción de reglas de transformación (mappings). Paso 4: Generación de datos en RDF a partir de las reglas. Fuente: Guía práctica para la publicación de datos enlazados. datos.gob.es.

La guía finaliza con una sección orientada a perfiles más técnicos que implementa un ejemplo de uso de los datos en RDF generados utilizando  algunas de las librerías de programación y bases de datos para almacenar tripletas más comunes para explotar datos en RDF.

Materiales adicionales

La guía práctica para la publicación de datos enlazados se complementa con una cheatsheet que resumen la información más importante de la guía y una serie de vídeos que ayudan a entender el conjunto de pasos llevados a cabo para la transformación de archivos CSV en RDF. Los vídeos se agrupan en dos series que se relacionan con los pasos explicados en la guía práctica:

1) Serie de vídeos explicativos para la preparación de datos en CSV utilizando OpenRefine. En esta serie se explican los pasos a realizar para preparar un archivo CSV para su posterior transformación en RDF:

  • Vídeo 1: Pre-carga de los datos tabulares y creación de un proyecto OpenRefine.
  • Vídeo 2: Modificación de valores en las columnas con funciones de transformación.
  • Vídeo 3: Generación de valores para las listas controladas o SKOS.
  • Vídeo 4: Enlazado de valores con fuentes externas (Wikidata) y descarga del archivo con las nuevas modificaciones.

2) Serie de vídeos explicativos para la construcción de reglas de transformación o mappings CSV a RDF.  En esta serie se explican los pasos a realizar para transformar un archivo CSV en RDF mediante la aplicación de reglas de transformación.

  • Vídeo 1: Descarga de la plantilla-básica para la creación de las reglas de transformación y creación del esqueleto del documento de reglas de transformación.
  • Vídeo 2: Especificación de las referencias para cada propiedad y cómo añadir los valores reconciliados con Wikidata obtenidos a través de OpenRefine.

A continuación puedes descargarte la guía completa, así como la cheatsheet. Para ver los vídeos debes visitar nuestro canal de Youtube.

Documentación

    • Cheatsheet: Guía práctica para la publicación de datos enlazados en RDF
      pdf
      218.61 KB
    • Cheatsheet: Guía práctica para la publicación de datos enlazados en RDF
      pptx
      116.31 KB
    • Guía práctica para la publicación de datos enlazados en RDF
      pdf
      3.76 MB
    • Guía práctica para la publicación de datos enlazados en RDF
      docx
      10.8 MB