StatDCAT-AP, vocabulario para metadatos de datasets estadísticos europeos

Fecha de la noticia: 16-03-2016

StaDCAT-AP, open data, datos abiertos, vocabularios, statistical data, estadísticas

Estadísticas de desempleo, datos demográficos, índices de producción industrial, precios, venta de hipotecas… Son solo algunos ejemplos de los conjuntos de datos estadísticos que se publican en los catálogos open data a nivel local, regional, nacional e internacional. Sin embargo, actualmente existe una elevada fragmentación en la forma que se publican dichos conjuntos de datos, tanto a nivel de representación, como de formatos de intercambio: desde ficheros CSV, SDMX, DDI hasta el vocabulario RDF del W3C, Data Cube.

Este hecho supone una barrera que obstaculiza la reutilización de los datos estadísticos y su aprovechamiento por parte de los potenciales consumidores. Además, la situación se agrava aún más al no existir mecanismos estándar que describan de forma completa el contenido de estos datasets,  facilitando su descubrimiento e intercambio automático.

Con este objetivo nace StatDCAT-AP: un vocabulario que permita expresar de forma estructurada los metadatos de los conjuntos de datos estadísticos que publican actualmente las diferentes agencias de la Unión Europea.

StatDCAT-AP se plantea como una extensión del actual vocabulario estándar DCAT-AP, a través de la definición de nuevas clases y propiedades que permitan capturar las especificidades de los datos estadísticos. En este sentido, es necesario tener en cuenta que los datasets estadísticos tienen una estructura multidimensional donde se encuentran, por un lado, las variables numéricas (o medidas): por ejemplo nº de personas o volumen de crédito (en €). Y por el otro lado, las variables nominales (o dimensiones) que desagregan el valor de la variable numérica: dimensiones geográficas, temporales o específicas de las variables numéricas. Por tanto, las agencias de publicación, a través de StatDCAT-AP, podrán describir esta estructura multidimensional del dataset, así como todas aquellas cuestiones relacionadas con la propia publicación del conjunto de datos y que ya contempla de forma nativa el DCAT-AP.

El primer paso que ha dado la Unión Europea, a través del Programa ISA 1.1 para mejorar la interoperabilidad semántica en los sistemas europeos de e-gobierno, es la creación de un grupo de trabajo abierto para la elaboración de StatDCAT-AP. Este grupo de trabajo, formado principalmente por las agencias nacionales y europeas de estadística de los países miembros de la Unión, se ha puesto en marcha a principios del 2016 y ya ha definido una hoja de ruta a corto y medio plazo para alcanzar objetivos concretos respecto de StatDCAT-AP.

Como punto de partida se tomarán los portales de datos de Eurostat y la OCDE (referencia europea en la publicación de datos estadísticos) y se tendrá en cuenta el vocabulario SMES (Euro-SDMX Metadata Structure), un estándar para la descripción de metadatos de información estadística. Mientras que SMES son descripciones textuales orientadas al consumo humano, StatDCAT-AP permitirá generar descripciones RDF orientadas a procesos automatizados de búsqueda, intercambio y transformación.

Hoy más que nunca, los datos estadísticos son uno de los pilares centrales del universo open data dado el gran impacto que tienen en todos los ámbitos socieconómicos. Los organismos públicos no solo generan sino que también consumen datos estadísticos para el desarrollo de sus estrategias; el sector privado -consultoras, entidades financieras, industrias- aprovechan dicha información para entender el mercado en el que operan y crear productos y servicios de valor añadido; y los ciudadanos, gracias a los datos estadísticos, pueden entender y valorar mejor las políticas en los diferentes ámbitos territoriales. Por todos estos motivos, StatDCAT-AP se convertirá en una herramienta imprescindible para que la información estadística se publique de forma correcta y sencilla, facilitando su reutilización.