DCAT-AP y datos abiertos: aportaciones y nuevas líneas de trabajo
Data da noticia: 12-02-2016

La Comisión Europea da un paso importante al terminar la especificación DCAT Application Profile (o simplemente DCAT-AP), elaborada conjuntamente por el Programa ISA, la Oficina de Publicaciones y DG Connect. Esta especificación es una extensión del vocabulario W3C Data Catalogue Vocabulary (DCAT) y la definición de una política normativa para su aplicación en la descripción de conjuntos de datos públicos en Europa.
El objetivo de DCAT es bastante simple y, por eso, ha tenido una gran acogida en la comunidad open data desde su publicación como recomendación W3C en enero del 2014. Este es: proporcionar un vocabulario RDF (un conjunto de clases y propiedades) para describir de manera estructurada el contenido de datasets y catálogos de datos en la web. De manera breve, imaginemos una organización que quiere publicar un conjunto de ficheros CSV sobre indicadores económicos de cierta temática. Gracias a DCAT, esta entidad puede proporcionar descripciones procesables (en RDF) identificando esos ficheros como un catálogo (dcat:Catalogue), en el que cada fichero en particular es un dataset (dcat:Dataset) cuya temática se identifica a través de elementos (skos:Concept) de un vocabulario controlado, un tesauro, una taxonomía, etc.
Las aportaciones principales de DCAT-AP se pueden resumir en los siguientes puntos:
1. No introduce un nuevo vocabulario. Al contrario, su objetivo es definir de manera concreta el uso de algunas propiedades y clases de DCAT para la publicación de datos dentro de la Unión Europea. En aquellas extensiones necesarias para la descripción de catálogos y datasets y que no están presentes en DCAT se reutilizan de otros vocabularios existentes (como es el caso de foaf:Document para identificar a los portales web en los que se publican los catálogos).
2. Define una política completa para el uso de DCAT-AP, especificando qué clases y propiedades son obligatorias, recomendadas u opcionales en la aplicación del vocabulario dentro de la Unión Europea.
3. Establece unos principios normativos de conformidad para la publicación y consumo de documentos DCAT-AP (Sección 6 de la especificación).
4. Explica el uso de los vocabularios controlados (en SKOS) para la descripción de la temática de los datasets, expandiendo el breve ejemplo anterior; es realmente importante la recomendación explícita sobre la reutilización de vocabularios europeos, como Eurovoc, lo que abre la puerta a posibles aplicaciones de DCAT-AP en el campo de la contratación pública.
Además se están realizando actualmente nuevos desarrollos sobre DCAT-AP en los siguientes puntos:
1. Extensión de DCAT-AP para el intercambio de descripciones sobre datasets y servicios espaciales: GeoDCAT-AP. El grupo de trabajo ya ha publicado una primera especificación (v1.0), todavía en fase de “working draft”. Su principal objetivo es proporcionar una sintaxis RDF para combinar los esquemas de metadatos de la iniciativa INSPIRE y la ISO 19115:2003, de acuerdo a los principios de conformidad establecidos por DCAT-AP.
2. Extensión de DCAT-AP para la publicación de conjuntos de datos estadísticos: StatDCAT-AP. Con este objetivo se ha creado recientemente un grupo de trabajo, que entre sus primeras acciones está encontrar metadatos relevantes comunes entre los diferentes portales de publicación de datos estadísticos, como es el caso de Eurostat. Buscando similaridades, StatDCAT-AP pretende ser para el vocabulario RDF Data Cube, lo mismo que el esquema de metadatos SDMX/EMS lo es para la especificación SDMX.
Finalmente, la Comisión Europea ha abierto una línea de actividad para la elaboración de unas guías de implementación de DCAT-AP. En este sentido, se busca la participación abierta de diferentes organizaciones europeas, que contribuyan aportando experiencias reales en la aplicación de DCAT-AP y los problemas y desafíos que se han encontrado en su implementación. Con todo, esta nueva especificación y su temprana adopción por el Portal de Datos Europeo es muy buena señal para el mundo Open Data. La especificación (v1.1) está publicada en el marco del proyecto JoinUp
English version:
DCAT-AP & Open Data: contributions and new lines of work
The European Commission has taken an important step by completing the DCAT Application Profile (DCAT-AP), a joint initiative of the ISA Programme, the EU Publications Office and DG CONNECT. This specification is an extension of the W3C Data Catalogue Vocabulary (DCAT) and the definition of a regulatory policy for its application in describing public sector datasets in Europe.
The goal of DCAT is quite simple and, for that reason, has been warmly accepted by the open data community since W3C published the DCAT specification as a W3C Recommendation in January 2014. The aim is to provide an RDF vocabulary (a set of classes and properties) designed to describe in a structured manner the content of datasets and data catalogues on the Web. In short, let us imagine an organization that wishes to publish a set of CSV files related to economic indicators for a given topic. Thanks to DCAT, this entity can provide processable descriptions (in RDF), identifying these files as a catalogue (dcat:Catalogue), in which each file in particular is a dataset (dcat:Dataset) whose topic is identified by elements (skos:Concept) of a controlled vocabulary, a thesaurus, a taxonomy, etc.
DCAT-AP’s main contributions can be summarised as follows:
1. It does not introduce a new vocabulary. On the contrary, its aim is to define in a precise way the use of certain DCAT classes and properties for the publication of data in the European Union. In the extensions needed to describe catalogues and datasets and not present in DCAT, other existing vocabularies are re-used (as in the case of foaf:Document to identify the web portals where catalogues are published).
2. It defines a complete policy for the use of DCAT-AP, specifying which classes and properties are compulsory, recommended or optional in the application of the vocabulary within the European Union.
3. It establishes regulatory principles of conformance for publishing and using DCAT-AP documents (section 6 of the specification).
4. It explains the use of controlled vocabularies (in SKOS) for the description of the topic of datasets, expanding the previous example; of particular importance is the explicit recommendation on reuse of European vocabularies such as Eurovoc. This opens the door to potential applications of DCAT-AP in the field of public procurement.
Additionally, certain new developments in DCAT-AP are taking place:
1. An extension of DCAT-AP for the exchange of descriptions of geospatial datasets and services: GeoDCAT-AP. The working group has already published a first version (v1.0), still in the working draft phase. Its main aim is to provide an RDF syntax to combine the metadata framework of the INSPIRE initiative and ISO 19115:2003, in accordance with the conformity principles laid down by DCAT-AP.
2. An extension of DCAT-AP for publishing statistical datasets: StatDCAT-AP. A working group has been recently created for this purpose. The work in this first phase will concentrate on finding significant common metadata in the different portals that publish statistical data, such as Eurostat. By seeking similarities, StatDCAT-AP aims to be for RDF Data Cube vocabulary the same as the SDMX/EMS metadata framework for the SDMX specification.
Finally, the European Commission has opened a line of work to define the guidelines for DCAT-AP implementation. In this regard, European organizations are invited to participate and share real cases of DCAT-AP applications as well as the problems and challenges faced in their implementation. This new specification and its early adoption by the European Data Portal Project is a good sign for the Open Data sector. The specification (v1.1) is published within the JoinUp project.