Los organismos públicos custodian grandes cantidades de datos que esconden un ingente valor socioeconómico. Un estudio reciente de la entidad McKinsey & Co refleja el gran potencial de negocio que reside en la explotación y reutilización de dicha información pública con un valor global estimado de 3 billones de dólares anuales.
Conscientes de la importancia de los datos y para facilitar el uso eficiente de los mismos, en España numerosos organismos públicos han creado sus propios espacios de datos abiertos donde se permite la consulta y acceso a la información. Dichos catálogos no son más que repositorios electrónicos – generalmente en la forma de páginas web - donde se almacenan y administran tanto los datos como algunos metadatos que contienen información adicional para describirlos.
Podemos encontrar catálogos con datos abiertos del sector público en todos los niveles administrativos, ya sea nacional, regional o local, además de otros muchos datos que se publican para ser reutilizados sin formar parte de ningún catálogo, lo que puede dificultar en parte su localización.
Es importante también señalar que si buscamos datos sobre una temática concreta – por ejemplo educación o sanidad – estos podrían encontrarse dispersos a través de los distintos niveles administrativos, debido a la forma en la que se dividen las competencias y responsabilidades entre dichas administraciones.
Para tratar de paliar el problema que ocasiona el localizar la información que nos interesa, se utilizan mecanismos de federación entre los distintos catálogos de datos, como el que implementa el Catálogo de Información pública albergado en datos.gob.es que actualmente aglutina datos de más de 75 entidades distintas en todos los niveles de la administración. De esta forma podremos contar con un único punto de acceso final a los datos, independientemente de cuál sea su origen administrativo.
Los procesos de federación precisan que cada organismo publique los metadatos en un formato estructurado preestablecido de forma que se asegure la máxima armonización entre la información puesta a disposición por los organismos públicos en sus propios espacios y la referida en el portal nacional datos.gob.es. Siguiendo las directrices fijadas por expertos en la materia, la herramienta utilizada asegura la interoperabilidad de los datos, permite la publicación automatizada y la actualización contante de la información y otorga mayor visibilidad a los conjuntos de datos existentes.
Desde el primer catálogo federado del Ministerio de Industria, Energía y Turismo se han sumado a la iniciativa más de una decena de portales open data en España que incluyen organismos locales, regionales y estatales. El Instituto Nacional de Estadística, la Xunta de Galicia, el Ayuntamiento de Zaragoza, el Centro Nacional de Información Geográfica o el Centro de Investigaciones Sociológicas, son algunos ejemplos de los portales cuya información ya se puede encontrar indistintamente en ambos catálogos; siendo más accesibles para cualquier usuarios interesado en los datos abiertos.
La federación en datos.gob.es desde los distintos portales Open Data de las administraciones públicas implica que sus catálogos de datos se hacen visibles a nivel nacional. Los infomediarios que quieren desarrollar aplicaciones, los consumidores de datos y, en general, cualquier persona que quiera buscar información específica dentro del territorio español, tienen en este portal su principal punto de búsqueda, por lo que es muy aconsejable estar aquí catalogado.
La herramienta Federador que posee datos.gob.es es la encargada de recoger periódicamente un fichero con las descripciones de los datasets que cada portal Open Data quiere incluir en este catálogo. Para preparar esta información hay una guía muy completa en: Manual del Federador
Esta guía tiene una descripción precisa del proceso de federación, contiene ejemplos de configuración de metadatos y vienen bien especificados los pasos que deben realizarse. Existe, además, la posibilidad de comprobar si el fichero de metadatos DCAT/RDF que se genera cumple con la estructura que debe proporcionarse. A pesar de estas facilidades, hemos sondeado a varios portales y deben dedicarse varios días hasta lograr configurar el fichero de metadatos correctamente porque no hay una posibilidad directa de hacerlo.
Tras realizar el proceso de federación desde Opendata Cáceres (opendata.caceres.es), decidimos implementar algunos scripts para hacer este proceso de federación automáticamente una vez instalado. A este software lo hemos denominado FederGob y además se ha configurado como un plugin para que funcione de manera genérica en los portales que están basados en CKAN. FederGob lo hemos colocado en la forja de CENATIC como software libre: Proyecto FederGob y está disponible para que lo usen los portales que ya federan sus datos y, sobre todo, para aquellos que tienen este proceso pendiente.
FederGob es un plugin que modifica los ficheros de metadatos RDF/XML de DCAT que genera CKAN por defecto y los adecúa al que consume el Federador de datos.gob.es. Además, genera el archivo final que necesita el Federador, incluyendo la cabecera de metadatos y agrupando los datasets del portal que quieren publicarse. Se puede configurar también para que se actualicen los datasets federados de manera periódica.
Nos gustaría que el software sea útil a otros portales y, desde luego, animamos a aportar mejoras a través de la forja. Por supuesto, desde Opendata Cáceres ayudaremos al que se decida a utilizar este software.
Equipo Opendata Cáceres
QUERCUS Software Engineering Group, Universidad de Extremadura
Desde el 21 de mayo de 2014 ya se pueden consultar desde datos.gob.es los conjuntos de datos abiertos que la Xunta de Galicia pone a disposición a través de su portal Open Data. La publicación de estos conjuntos de datos se realiza a través de la federación establecida entre el Catálogo de Datos abiertos de la Xunta de Galicia y el Catálogo de datos de datos.gob.es. Galicia es la segunda Comunidad Autónoma, después de Castilla y León, en incorporarse a datos.gob.es, aumentando así la accesibilidad y disponibilidad de sus datos.
La federación de estos catálogos es posible gracias a que la Xunta de Galicia publica los metadatos de todos sus conjuntos de datos en RDF y cumpliendo lo estipulado en la Norma Técnica de Interoperabilidad de Reutilización de recursos de la información. Toda esta información es recogida y actualizada de forma periódica en datos.gob.es.
La reciente federación de la Xunta de Galicia ha comenzado con más de 300 conjuntos de datos convirtiéndose así en el segundo mayor proveedor de datos de datos.gob.es. Los datos abarcan un amplio abanico de temáticas: medioambiente, turismo, geografía, ocio, transporte, urbanismo y vivienda, sanidad, ciencia y tecnología, empleo y actividad empresarial. Además, todos ellos se ofrecen en diferentes formatos abiertos (CSV, HTML, ODS, WMS, SOAP, XML o JSON, entre otros) para que puedan ser tratados con diversos tipos de herramientas sin necesidad de tener que adquirir licencias de uso.
La incorporación paulatina a datos.gob.es de nuevos organismos públicos facilita a los usuarios la localización de los datos abiertos que necesiten y el descubrimiento de las iniciativas existentes en todos los niveles de la administración.
La Junta de Castilla y León publica en datos.gob.es los conjuntos de datos abiertos que ya presenta en su el Portal de Datos Abiertos de la Junta de Castilla y León. La publicación de estos conjuntos de datos se realiza a través de la federación establecida entre el Catálogo de Datos abiertos de la Junta de Castilla y León y el Catálogo de datos de datos.gob.es. Con esta federación de catálogos, sus conjuntos de datos podrán ser localizados indistintamente en ambos catálogos de datos, haciéndolos, por lo tanto, más accesibles a cualquier consumidor o usuario de datos abiertos.
La federación entre estos catálogos, al igual que con otros catálogos, se establece a través de un módulo federador que envía, desde el Catálogo de Datos abiertos de la Junta de Castilla y León de forma periódica y automatizada, los registros de los conjuntos de datos publicados y/o actualizados al Catálogo de datos de datos.gob.es.
Los conjuntos de datos abiertos publicados por la Junta de Castilla y León se encuentran en su mayoría en ficheros con formatos estructurados tipo CSV. Siguiendo la taxonomía de sectores primarios que estable la Norma Técnica de Interoperabilidad de Reutilización de recursos de la información, los datos pertenecen a temas sobre demografía, medio ambiente, turismo y medio rural, entre otros. La actualización de ellos, según la naturaleza de los datos, llega a ser hasta diaria. Con estas características, la Junta de Castilla y León manifiesta el propósito firme de poner a disposición datos abiertos para ser reutilizados por parte de ciudadanos, empresas y sector público en general.
Con la publicación de estos primeros datos públicos procedentes de una Comunidad Autónoma, el Catálogo de datos de datos.gob.es inicia así la publicación de datos pertenecientes al ámbito autonómico, que se suman a los datos publicados de ámbito estatal y local.
EL Instituto Nacional de Estadística, INE, es el órgano central de la estadística oficial en España y el principal productor y difusor de estadísticas para fines estatales. Se encarga, así pues, de la realización de operaciones estadísticas de gran envergadura como: los censos demográficos y económicos, las cuentas nacionales, las estadísticas demográficas y sociales, los indicadores económicos y sociales, la coordinación y mantenimiento de los directorios de empresas, la formación del Censo Electoral...
Dado el volumen de datos con los que opera para la realización de sus funciones encomendadas, el INE es, sin duda alguna, una fuente principal de datos públicos reutilizables, y como tal, no podía faltar en datos.gob.es.
Desde ahora, muchos de las colecciones de datos, estadísticos principalmente, se encuentran catalogados como datos públicos reutilizables en el Catálogo de datos de datos.gob.es. Entre ellos, se encuentra colecciones de datos sobre demografía y economía principalmente, además de datos sobre la industria, ciencia y tecnología, empleo, entre otros.
Los registros de estos datos reutilizables se reciben desde el INE en el Catálogo de datos de datos.gob.es a través de la federación de datos, lo que asegura la integridad de los mismos (o de dichos datos). Con la federación de datos públicos se sincroniza de forma automatizada los registros de datos reutilizables de catálogos del sector público en el Catálogo de datos, de este modo se favorece el acceso a los datos públicos reutilizables a infomediarios y ciudadanos.