Hacia la calidad de los datos: datos.gob.es

Fecha de la noticia: 08-06-2017

Ofrecer una medida objetiva de la calidad del catálogo de datos.gob.es, obtener con mayor profundidad conocimiento del estado del catálogo, contrastar las opiniones recibidas con respecto a la calidad del mismo y definir las líneas de acción que mejoren los datos que se ofrecen en la actualidad son los cuatro objetivos del análisis de calidad de los metadatos asociados a los conjuntos de datos del catálogo realizado durante el pasado mes de abril.  

Entre los principales resultados obtenidos en dicho análisis, destaca que el 94% de conjuntos de datos tienen, al menos, una distribución procesable por máquinas, el 43% de los conjuntos de datos especifican con qué frecuencia se actualizan, el 30% de los conjuntos de datos se disponen bajo una  Licencia Creative Commons.

A fecha de hoy, el portal datos.gob.es ofrece un total de 14.717 conjuntos de datos –una cifra que cambia día a día-. El informe mide la calidad de los metadatos –aplicando hasta ocho variables-, la actualización de los datos publicados y las licencias o condiciones de uso de dichos datos. Asimismo, analiza las distribuciones de los conjuntos de datos –a través de seis variables- y junto al análisis cualitativo se incluyen también una serie de propuestas y líneas de actuación.

Metadatos, temáticas, actualización y licencias 

El 96,5% de las distribuciones de datos.gob.es están accesibles y el 89% son procesables por máquinas,  esto supone que el 94% de conjuntos de datos tienen, al menos, una distribución procesable por máquinas y el 77% de los conjuntos de datos están en formatos estructurados y abiertos. Sólo el 6% de los conjuntos de datos de datos.gob.es están en formatos no estructurados.

Estas son algunas de las mediciones junto a que el 43% de los conjuntos de datos reflejan con qué frecuencia se actualizan y el 100% de los conjuntos de datos tanto su fecha de creación como la fecha de su última actualización.

En cuanto a las licencias, el 64% de los conjuntos de datos están sujetos a unas condiciones de uso redactadas por el organismo publicador, el 30,32% de los conjuntos de datos disponen de Licencia Creative Commons y el 4,75% Licencia Open Definition

En la mayoría de los casos, los datasets de datos.gob.es se ofrecen bajo las condiciones generales de puesta a disposición de datos que regula el Real Decreto 1495/2011, de 24 de octubre, por el que se desarrolla la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público para el ámbito del sector público estatal. La citación de la fuente y la no desnaturalización de los datos son dos condiciones fundamentales.

En este análisis cualitativo, se han analizado los diez organismos publicadores con más datasets (las Comunidades de País Vasco y Aragón y el CSIC encabezan el ránking seguidos por los Ayuntamientos de Málaga y Gijón, Diputación Foral de Guipúzcoa, Xunta de Galicia, Junta de Castilla y León, Generalitat Valenciana y Ayuntamiento de Madrid), las diez temáticas con más datasets (sector público, sociedad y bienestar, economía, demografía, medio ambiente, educación, cultura y ocio hacienda, empleo y salud), así como las diez etiquetas más utilizadas, la cobertura geográfica de los datasets (81,5% de uso) y los idiomas de los datasets (96,6% de uso).  Asimismo, también se detalla la frecuencia de actualización. 

Distribuciones y disponibilidad de los datos

Otro de los indicadores que se han tenido en cuenta para medir la calidad de los datos abiertos es el número de distribuciones por código error. De las 44.279 distribuciones de los 13.644 conjuntos de datos analizados, el 3,4% de las distribuciones reflejan código error –hay 13 tipos diferentes de código error-. El más frecuente es el código error 401 -recurso web requiere autenticación de usuario-, seguido del 404 -recurso web no encontrado- .

Respecto a la caracterización de las distribuciones, el informe ha analizado la calidad de 13.644 conjuntos de datos, 44.279 distribuciones de datos y 62 formatos diferentes. La media estimada es que por cada conjunto de datos hay una media de tres distribuciones. Según el número de formatos, el 52% de los datasets - conjuntos de datos – están disponibles en un formato reutilizable, el 21% en dos formatos reutilizables y el 8% en cinco formatos reutilizables.

Propuestas y líneas de actuación 

El informe propone una serie de líneas de actuación como, por ejemplo, promover el uso de licencias tipo y disponer de un texto de condiciones de reutilización en una URL única que los organismos puedan utilizar a modo de licencia tipo, ya que el usuario al consultar el catálogo de datos puede llegar a encontrar hasta 168 URLs diferentes de condiciones de uso o licencias.

También se propone seguir incentivando la publicación de datos por parte de las comunidades autónomas y del Estado, así como contactar con los organismos responsables para animarles a actualizar la información publicada.

Para la elaboración de este análisis, la metodología empleada ha consistido en  determinar los indicadores objetivos que permitan medir de forma automática todos los conjuntos de datos presentes en datos.gob.es sobre los siguientes aspectos:

  • Disponibilidad de la información

  • Metadatos aportados

  • Actualización

  • Licencia

  • Formatos de las distribuciones