Guía práctica para la publicación de datos tabulares en archivos CSV
Fecha del documento: 26-03-2020
Hoy en día disponemos cada vez de más fuentes de datos a nuestro alcance. Según Portal Europeo de Datos, el impacto del mercado de los datos abiertos podría alcanzar hasta los 334.000 millones de euros y generar en torno a 2 millones de empleos en 2025 ('The Economic Impact of Open Data: Opportunities for value creation in Europe. (2020)).
Sin embargo, paradójicamente, aun cuando los datos son más asequibles que nunca, las posibilidades de reutilizarlos todavía son bastante limitadas. Los potenciales usuarios de esos datos tienen que hacer frente muchas veces a múltiples barreras que dificultan su acceso y su uso. Las facetas en las que pueden existir problemas de calidad que dificulten la reutilización de los datos son múltiples: metadatos escasamente descriptivos y estandarizados, elección de licencia, la elección del formato, el uso inadecuado de los formatos o deficiencias en los propios datos. Son muchas las iniciativas que intentan medir la calidad de los conjuntos de datos en base a sus metadatos: fecha y frecuencia de actualización, licencia, formatos empleados,… como ocurre, por ejemplo, en el cuadro de mando de calidad de los metadatos presente en el Portal Europeo de datos o en la dimensión calidad del Open Data Maturity Index.
Pero estos análisis resultan insuficientes dado que la mayoría de las veces las deficiencias de calidad solo pueden ser identificadas después de comenzar el proceso de reutilización. El trabajo que precian los procesos de depuración y preparación se convierten así en una carga importante que en muchos casos es inasumible para el usuario de datos abiertos. Este hecho produce frustración y perdida de interés por parte del sector reutilizador en los datos ofrecidos por los organismos públicos, afectando a la credibilidad de las instituciones publicadoras y rebajando considerablemente las expectativas de retorno y generación de valor a partir de la reutilización de datos abiertos.
Estos problemas potenciales pueden ser atajados dado que, en buena medida, se ha observado que son debidos a que el publicador desconoce cómo expresar los datos de forma correcta en el formato elegido.
Por todo ello, y con el objetivo de contribuir a la mejora de la calidad de los datos abiertos, en datos.gob.es hemos decidido crear una colección de guías dirigidas a orientar a los publicadores en el uso adecuado de los formatos y los medios de acceso a datos abiertos más utilizados en el ámbito de los datos abiertos.
La colección de guías se inicia aquí poniendo el foco en el formato CSV. La elección de este formato se basa en su popularidad en el ámbito de los datos abiertos, en su sencillez y en lo ligero que resulta a la hora de expresar datos en forma de tabla. Es el formato más común en los catálogos de datos abiertos; concretamente, en datos.gob.es representa el 20% de las distribuciones conviviendo con otros formatos como XLS o XLSX que podrían expresarse también como CSV. Además, es un formato que podemos denominar híbrido porque combina la facilidad de su procesamiento automatizado con la posibilidad de ser explorado directamente por personas con un simple editor de texto.
Esta guía comprende las características básicas de este tipo de formato y un compendio de pautas para publicar correctamente en datos tabulares, especialmente en CSV. Las pautas van acompañadas de sugerencias de herramientas gratuitas que destacan por su facilidad para trabajar con archivos CSV y las funcionalidades extras que aportan. Además, está también disponible un resumen de las pautas presente en la guía en forma de Cheet Sheet (chuleta u hoja de trucos) para facilitar su uso y consulta.