1. Introducción
Las visualizaciones son representaciones gráficas de datos que permiten comunicar de manera sencilla y efectiva la información ligada a los mismos. Las posibilidades de visualización son muy amplias, desde representaciones básicas, como puede ser un gráfico de líneas, barras o sectores, hasta visualizaciones configuradas sobre cuadros de mando o dashboards interactivos.
En esta sección de “Visualizaciones paso a paso” estamos presentando periódicamente ejercicios prácticos de visualizaciones de datos abiertos disponibles en datos.gob.es u otros catálogos similares. En ellos se abordan y describen de manera sencilla las etapas necesarias para obtener los datos, realizar las transformaciones y análisis que resulten pertinentes para, finalmente, la creación de visualizaciones interactivas, de las que podemos extraer información resumida en unas conclusiones finales. En cada uno de estos ejercicios prácticos, se utilizan sencillos desarrollos de código convenientemente documentados, así como herramientas de uso gratuito. Todo el material generado está disponible para su reutilización en el repositorio de GitHub.
En este ejercicio práctico, hemos realizado un sencillo desarrollo de código que está convenientemente documentado apoyandonos en herramientas de uso gratuito.
Accede al repositorio del laboratorio de datos en Github.
Ejecuta el código de pre-procesamiento de datos sobre Google Colab.
2. Objetivo
El objetivo principal de este post es mostrar cómo generar un mapa personalizado de Google Maps mediante la herramienta "My Maps" partiendo de datos abiertos. Este tipo de mapas son altamente populares en páginas, blogs y aplicaciones del sector turístico, no obstante, la información útil proporcionada al usuario suele ser escasa.
En este ejercicio, utilizaremos el potencial de los datos abiertos para ampliar la información a mostrar en nuestro mapa y hacerlo de una forma automática. También mostraremos como realizar un enriquecimiento de los datos abiertos para añadir información de contexto que mejore significativamente la experiencia de usuario.
Desde un punto de vista funcional, el objetivo del ejercicio es la creación de un mapa personalizado para planificar rutas turísticas por los espacios naturales de la Comunidad Autónoma de Castilla y León. Para ello se han utilizado conjuntos de datos abiertos publicados por la Junta de Castilla y León, que hemos preprocesado y adaptado a nuestras necesidades de cara a generar el mapa personalizado.
3. Recursos
3.1. Conjuntos de datos
Los conjuntos de datos contienen distinta información turística de interés geolocalizada. Dentro del catálogo de datos abiertos de la Junta de Castilla y León, encontramos el “diccionario de entidades” (sección información adicional), documento de vital importancia, ya que nos define la terminología utilizada en los distintos conjuntos de datos.
Estos conjuntos de datos también se encuentran disponibles en el repositorio de Github
3.2. Herramientas
Para la realización de las tareas de preprocesado de los datos se ha utilizado el lenguaje de programación Python escrito sobre un Notebook de Jupyter alojado en el servicio en la nube de Google Colab.
"Google Colab" o también llamado "Google Colaboratory", es un servicio gratuito en la nube de Google Research que permite programar, ejecutar y compartir código escrito en Python o R desde tu navegador, por lo que no requiere la instalación de ninguna herramienta o configuración.
Para la creación de la visualización interactiva se ha usado la herramienta Google My Maps.
"Google My Maps" es una herramienta online que permite crear mapas interactivos que pueden ser incrustados en sitios web o exportarse como archivos. Esta herramienta es gratuita, sencilla de usar y permite múltiples opciones de personalización.
Si quieres conocer más sobre herramientas que puedan ayudarte en el tratamiento y la visualización de datos, puedes recurrir al informe "Herramientas de procesado y visualización de datos".
4. Tratamiento o preparación de los datos
Los procesos que te describimos a continuación los encontrarás comentados en el Notebook que podrás ejecutar desde Google Colab.
Antes de lanzarnos a construir una visualización efectiva, debemos realizar un tratamiento previo de los datos, prestando especial atención a la obtención de los mismos y validando su contenido, asegurando que se encuentran en el formato adecuado y consistente para su procesamiento y que no contienen errores.
Como primer paso del proceso es necesario realizar un análisis exploratorio de los datos (EDA) con el fin de interpretar adecuadamente los datos de partida, detectar anomalías, datos ausentes o errores que pudieran afectar a la calidad de los procesos posteriores y resultados. Si quieres conocer más sobre este proceso puedes recurrir a la Guía Práctica de Introducción al Análisis Exploratorio de Datos.
El siguiente paso a dar es generar las tablas de datos preprocesados que usaremos para alimentar el mapa. Para ello, transformaremos los sistemas de coordenadas, modificaremos y filtraremos la información según nuestras necesidades.
Los pasos que se siguen en este preprocesamiento de los datos, explicados en el Notebook, son los siguientes:
- Instalación y carga de librerías
- Carga de los conjuntos de datos
- Análisis exploratorio de datos (EDA)
- Preprocesamiento de los conjuntos de datos
- Transformación de coordenadas
- Filtrado de la información
- Representación gráfica de los conjuntos de datos
- Almacenamiento de las nuevas tablas de datos transformadas
Durante el preprocesado de las tablas de datos, hay que hacer un cambio de sistema de coordenadas ya que en los conjuntos de datos de origen el sistema en el que se encuentran es ESTR89 (sistema estándar que se usa en la Unión Europea), mientras que las necesitaremos en el sistema WGS84 (sistema usado por Google My Maps entre otras aplicaciones geográficas). La forma de realizar este cambio de coordenadas se encuentra explicado en el Notebook. Si quieres saber más sobre tipos y sistemas de coordenadas, puedes recurrir a la “Guía de datos espaciales”
Una vez terminado el preprocesamiento, obtendremos las tablas de datos "recreativas_parques_naturales.csv", "alojamientos_rurales_2estrellas.csv", "refugios_parques_naturales.csv", "observatorios_parques_naturales.csv", "miradores_parques_naturales.csv", "casas_del_parque.csv", "arboles_parques_naturales.csv" las cuales incluyen campos de información genéricos y comunes como: nombre, observaciones, geoposición, … junto a campos de información específicos, los cuales se definen en detalle en el apartado 6.2 Personalización de la información a mostrar en el mapa.
Podrás reproducir este análisis, ya que el código fuente está disponible en nuestra cuenta de GitHub. La forma de proporcionar el código es a través de un documento realizado sobre un Jupyter Notebook que una vez cargado en el entorno de desarrollo podrás ejecutar o modificar de manera sencilla. Debido al carácter divulgativo de este post y para favorecer el entendimiento de los lectores no especializados, el código no pretende ser el más eficiente, sino facilitar su comprensión por lo que posiblemente se te ocurrirán muchas formas de optimizar el código propuesto para lograr fines similares. ¡Te animamos a que lo hagas!
5. Enriquecimiento de los datos
Con la finalidad de aportar mayor información relacionada, se realiza un proceso de enriquecimiento de datos sobre el conjunto de datos “registro de alojamientos hoteleros” explicado a continuación. Con este paso vamos a lograr añadir de forma automática información complementaria que no está inicialmente incluida. Con ello, conseguiremos mejorar la experiencia del usuario durante su uso del mapa al proporcionar información de contexto relacionada con cada punto de interés.
Para ello vamos a utilizar una herramienta útil para este tipo de tarea, OpenRefine. Esta herramienta de código abierto permite realizar múltiples acciones de preprocesamiento de datos, aunque en esta ocasión la usaremos para llevar a cabo un enriquecimiento de nuestros datos mediante la incorporación de contexto enlazando automáticamente información que reside en el popular repositorio de conocimiento Wikidata.
Una vez instalada la herramienta en nuestro ordenador, al ejecutarse se abrirá una aplicación web en el navegador.
A continuación, se detallan los pasos a seguir.
Paso 1
Carga del CSV en el sistema (Figura 1). En esta caso, el conjunto de datos “Registro de alojamientos hoteleros”.
Figura 1. Carga de archivo CSV en OpenRefine
Paso 2
Creación del proyecto a partir del CSV cargado (Figura 2). OpenRefine se gestiona mediante proyectos (cada CSV subido será un proyecto), que se guardan en el ordenador dónde se esté ejecutando OpenRefine para un posible uso posterior. En este paso debemos dar un nombre al proyecto y algunos otros datos, como el separador de columnas, aunque lo más habitual es que estos últimos ajustes se rellenen automáticamente.
Figura 2. Creación de un proyecto en OpenRefine
Paso 3
Enlazado (o reconciliación, usando la nomenclatura de OpenRefine) con fuentes externas. OpenRefine nos permite enlazar recursos que tengamos en nuestro CSV con fuentes externas como Wikidata. Para ello se deben realizar las siguientes acciones:
- Identificación de las columnas a enlazar. Habitualmente este paso suele estar basado en la experiencia del analista y su conocimiento de los datos que se representan en Wikidata. Como consejo, de forma genérica se podrán reconciliar o enlazar aquellas columnas que contengan información de carácter más global o general como nombres de países, calles, distritos, etc., y no se podrán enlazar aquellas columnas como coordenadas geográficas, valores numéricos o taxonomías cerradas (tipos de calles, por ejemplo). En este ejemplo, disponemos de la columna “municipios” que contiene el nombre de los municipios españoles.
- Comienzo de la reconciliación. (Figura 3) Comenzamos la reconciliación y seleccionamos la fuente por defecto que estará disponible: Wikidata(en). Después de hacer clic en Start Reconciling, automáticamente comenzará a buscar la clase del vocabulario de Wikidata que más se adecue basado en los valores de nuestra columna.
Figura 3. Selección de la clase que mejor representa los valores de la columna "municipio"
- Obtención de los valores de la reconciliación. OpenRefine nos ofrece la posibilidad de mejorar el proceso de reconciliación agregando algunas características que permitan orientar el enriquecimiento de la información con mayor precisión.
Paso 4
Generar una nueva columna con los valores reconciliados o enlazados. (Figura 4) Para ello debemos pulsar en la columna “municipio” e ir a “Edit Column → Add column based in this column”, dónde se mostrará un texto en la que tendremos que indicar el nombre de la nueva columna (en este ejemplo podría ser “wikidata”). En la caja de expresión deberemos indicar: “http://www.wikidata.org/entity/”+cell.recon.match.id y los valores aparecen como se previsualiza en la Figura. “http://www.wikidata.org/entity/” se trata de una cadena de texto fija para representar las entidades de Wikidata, mientras el valor reconciliado de cada uno de los valores lo obtenemos a través de la instrucción cell.recon.match.id, es decir, cell.recon.match.id(“Adanero”) = Q1404668
Mediante la operación anterior, se generará una nueva columna con dichos valores. Con el fin de comprobar que se ha realizado correctamente, haciendo clic en una de las celdas de la nueva columna, está debería conducir a una página web de Wikidata con información del valor reconciliado.
Figura 4. Generación de nueva columna con valores reconciliados
Paso 5
El proceso lo repetimos modificando en el paso 4 el “Edit Column → Add column based in this column” por “Add columns from reconciled values” (Figura 5). De esta forma, podremos elegir la propiedad de la columna reconciliada.
En este ejercicio hemos elegido la propiedad “image” con identificador P18 y la propiedad “population” con identificador P1082. No obstante, podríamos añadir todas las propiedades que consideremos útiles, como el número de habitantes, el listado de monumentos de interés, etc. Cabe destacar que al igual que enriquecemos los datos con Wikidata, podemos hacerlo con otros servicios de reconciliación.
Figura 5. Elección propiedad para reconciliación
En el caso de la propiedad “image”, debido a la visualización, queremos que el valor de las celdas tenga forma de link, por lo que hemos realizado varios ajustes. Estos ajustes han sido la generación de varias columnas según los valores reconciliados, adecuación de las columnas mediante comandos en lenguaje GREL (lenguaje propio de OpenRefine) y unión de los diferentes valores de ambas columnas. Puedes consultar estos ajustes y más técnicas para mejorar tu manejo de OpenRefine y adaptarlo a tus necesidades en el siguiente User Manual.
6. Visualización del mapa
6.1 Generación del mapa con "Google My Maps"
Para generar el mapa personalizado mediante la herramienta My Maps, hemos seguidos los siguientes pasos:
- Iniciamos sesión con una cuenta Google y vamos a "Google My Maps", teniendo acceso de forma gratuita sin tener que descargar ningún tipo de software.
- Importamos las tablas de datos preprocesados, uno por cada nueva capa que añadimos al mapa. Google My Maps permite importar archivos CSV, XLSX, KML y GPX (Figura 6), los cuales deberán tener asociada información geográfica. Para realizar este paso, primero se debe crear una capa nueva desde el menú de opciones lateral.
Figura 6. Importación de archivos en "Google My Maps"
- En este caso práctico, importaremos tablas de datos preprocesados que contienen una variable con la latitud y otra con la longitud. Esta información geográfica se reconocerá automáticamente. My Maps también reconoce direcciones, códigos postales, países, ...
Figura 7. Selección columnas con valores de posición
- Mediante la opción de editar estilo que aparece en el menú lateral izquierdo, en cada una de las capas, podemos personalizar los pines, editando el color y su forma.
Figura 8. Edicción de pines de posición
- Por último, podemos elegir el mapa base que queremos visualizar en la parte inferior de la barra lateral de opciones.
Figura 9. Selección de mapa base
Si quieres conocer más sobre los pasos para la generación de mapas con “Google My Maps”, consulta el siguiente tutorial paso a paso.
6.2 Personalización de la información a mostrar en el mapa
Durante el preprocesamiento de las tablas de datos, hemos realizado un filtrado de la información según el enfoque del ejercicio, que es la generación de un mapa para realizar rutas tusísticas por los espacios naturales de Castilla y León. A continuación, se describe la personalización de la información que hemos llevado a cabo para cada uno de los conjuntos de datos.
- En el conjunto de datos perteneciente a los árboles singulares de los espacios naturales, la información a mostrar para cada registro es el nombre, las observaciones, la señalización y la posición (latitud/longitud)
- En el conjunto de datos perteneciente a las casas del parque de los espacios naturales, la información a mostrar para cada registro es el nombre, las observaciones, la señalización, el acceso, la web y la posición (latitud/longitud)
- En el conjunto de datos perteneciente a los miradores de los espacios naturales, la información a mostrar para cada registro es el nombre, las observaciones, la señalización, el acceso y la posición (latitud/longitud)
- En el conjunto de datos perteneciente a los observatorios de los espacios naturales, la información a mostrar para cada registro es el nombre, las observaciones, la señalización y la posición (latitud/longitud)
- En el conjunto de datos perteneciente a los refugios de los espacios naturales, la información a mostrar para cada registro es el nombre, las observaciones, la señalización, el acceso y la posición (latitud/longitud). Dado que los refugios pueden encontrarse en estados muy diferentes y que algunos registros no ofrecen información en el campo “observaciones”, hemos decidido filtrar para que nos muestre solamente aquellos que tengan información en dicho campo.
- En el conjunto de datos perteneciente a las áreas recreativas de los espacios naturales, la información a mostrar para cada registro es el nombre, las observaciones, la señalización, el acceso y la posición (latitud/longitud). Hemos decidido filtrar para que nos muestre solamente aquellos que tengan información en los campos de “observaciones” y “acceso”.
- En el conjunto de datos perteneciente a los alojamientos, la información a mostrar para cada registro es el nombre, tipo de establecimiento, categoría, municipio, web, teléfono y la posición (latitud/longitud). Hemos filtrado el “tipo” de establecimiento para que nos muestre solamente los que están categorizados como alojamientos de turismo rural y hemos filtrado para que nos muestre los que son de 2 estrellas.
A continuación, tenemos la visualización del mapa personalizado que hemos creado. Seleccionando el icono para agrandar el mapa que aparece en la esquina superior derecha, podrás acceder su visualización en pantalla completa.
6.3 Funcionalidades sobre el mapa (capas, pines, rutas y vista inmersiva 3D)
En este punto, una vez creado el mapa personalizado, explicaremos diversas funcionalidades que nos ofrece "Google My Maps" durante la visualización de los datos.
-
Capas
Mediante el menú desplegable de la izquierda, podemos activar y desactivar las capas a mostrar según nuestras necesidades.
Figura 10. Capas en "My Maps"
-
Pines
Pinchando en cada uno de los pines del mapa podemos acceder a la información asociada a esa posición geográfica.
Figura 11. Pines en "My Maps"
-
Rutas
Podemos crear una copia del mapa sobre la que añadir nuestros recorridos personalizados.
En las opciones del menú lateral izquierdo, seleccionamos “copiar mapa”. Una vez copiado el mapa, mediante el símbolo de añadir indicaciones, situado debajo de la barra buscador, generaremos una nueva capa. A esta capa podremos indicarle dos o más puntos, junto al medio de transporte y nos creará el trazado junto a las indicaciones de trayecto.
Figura 12. Rutas en "My Maps"
-
Mapa inmersivo en 3D
Mediante el símbolo de opciones que aparece en el menú lateral, podemos acceder a Google Earth, desde donde podemos realizar una exploración del mapa inmersiva en 3D, destacando el poder observar la altitud de los distintos puntos de interés. También puedes acceder mediante el siguiente enlace.
Figura 13. Vista inmersiva en 3D
7. Conclusiones del ejercicio
La visualización de datos es uno de los mecanismos más potentes para explotar y analizar el significado implícito de los datos. Cabe destacar la vital importancia que los datos geográficos tienen en el sector del turismo, lo cual hemos podido comprobar en este ejercicio.
Como resultado, hemos desarrollado un mapa interactivo con información aportada por los datos abiertos enriquecidos (Linked Data), la cual hemos personalizado según nuestros intereses.
Esperemos que esta visualización paso a paso te haya resultado útil para el aprendizaje de algunas técnicas muy habituales en el tratamiento y representación de datos abiertos. Volveremos para mostraros nuevas reutilizaciones. ¡Hasta pronto!
La administración pública trabaja para garantizar el acceso a los datos abiertos, y así, empoderar a la ciudadanía en su derecho a la información. En línea con este objetivo, el portal de datos abiertos europeo (data.europa.eu) referencia un gran volumen de datos de temáticas variadas.
Sin embargo, aunque los datos pertenecen a ámbitos de información diferentes o se encuentran en formatos diversos, resulta complejo explotarlos conjuntamente para maximizar su valor. Una forma de lograrlo es mediante el uso de RDF (Resource Description Framework), un modelo de datos que permite la interoperabilidad semántica de datos en la web, estándar del W3C, y destacado en los principios FAIR. RDF ocupa los niveles superiores del esquema de cinco estrellas en la publicación de datos abiertos, propuesto por Tim Berners-Lee, el padre de la web.
En RDF, se interconectan datos y metadatos de manera automática generando una red de datos abiertos enlazados (LOD, por sus siglas en inglés, Linked Open Data) aportando el contexto semántico necesario mediante relaciones explicitas entre datos procedentes de diferentes fuentes para facilitar su interconexión. Este modelo maximiza el potencial de explotación de los datos enlazados.
Se trata de un paradigma de compartición de datos que cobra especial relevancia dentro de la iniciativa de espacio de datos de la UE que explicamos en este post.
RDF ofrece grandes ventajas a la comunidad. Sin embargo, para poder maximizar la explotación de datos abiertos enlazados es necesario conocer el lenguaje de consulta SPARQL, un requerimiento técnico que puede dificultar el acceso público a los datos.
Un ejemplo del uso de RDF es el de los catálogos de datos abiertos disponibles en portales como datos.gob.es o data.europa.eu que están desarrollados siguiendo el estándar DCAT que es un modelo de datos en RDF para facilitar su interconexión. Estos portales disponen de interfaces para configurar consultas en lenguaje SPARQL, y recuperar los metadatos de los conjuntos de datos disponibles.
Una nueva aplicación para hacer accesibles los datos entrelazados: Vinalod
Ante esta situación y con el objetivo de facilitar el acceso a datos enlazados, Teresa Barrueco, científica de datos y especialista en visualización que participó en el EU Datathon de 2018, la competición de la UE para fomentar el diseño de soluciones y servicios digitales relacionadas con los datos abiertos, desarrolló junto a la Oficina de Publicaciones Europea una aplicación.
El resultado es una herramienta que permite explorar LOD sin necesidad de estar familiarizado con la sintaxis SPARQL bautizada con el nombre de Vinalod: Visualisation and navigation of linked open data. La aplicación, como indica su nombre, permite navegar y visualizar estructuras de datos en grafos de conocimiento que representan objetos de datos vinculados entre si mediante el uso de vocabularios que representan las relaciones existentes entre ellos. Así, mediante una interacción visual e intuitiva, el usuario puede acceder a diferentes fuentes de datos:
- Vocabularios de la UE. Datos de referencia de la UE que contiene, entre otros, información de Digital Europa Thesaurus, clasificación NUTS (sistema jerárquico para dividir el territorio económico de la UE) y vocabularios controlados del Named Authority Lists.
- Quién es quién en la UE. Directorio oficial de la UE para identificar a las instituciones que componen la estructura de la administración europea.
- Datos de la UE. Conjuntos y visualizaciones de datos publicados en el portal de datos abiertos de la UE que pueden explorarse según origen y temática.
- Publicaciones de la UE. Informes publicados por la Unión Europea clasificados según su temática.
- Legislación de la UE. Tratados de la UE y su clasificación.
La buena noticia es que la versión BETA de Vinalod ya está disponible para su utilización, un avance que permite filtrar temporalmente conjuntos de datos por país o idioma.
Para poner a prueba a la herramienta, probamos a buscar catálogos de datos publicados en español, que han sido modificados en los últimos tres meses. La respuesta de la herramienta es la siguiente:
que se puede interpretar de la siguiente forma:
Por lo tanto, el portal data.europa.eu alberga (“has catalog”) varios catálogos que cumplen con los criterios definidos: están en idioma español y han sido editados en los últimos tres meses. El usuario puede profundizar en cada nodo (“to”) y conocer cuáles son los conjuntos de datos publicados en cada uno de los portales.
En el ejemplo anterior, hemos explorado el apartado ‘Datos de la UE’. Sin embargo, podríamos hacer un ejercicio similar con cualquiera de los otros apartados. Estos son: Vocabularios de la UE; Quién es quién en la UE; Publicaciones de la UE y Legislación de la UE.
Todos estos los apartados están relacionados entre sí, es decir, un usuario puede empezar navegando por los ‘Datos de la UE’, como sucede en el ejemplo anteriormente explicado, y acabar en ‘Quién es quién de la UE’ con el directorio de cargos públicos europeos.
Como puede deducirse de las pruebas anteriores, la navegación por Vinalod es un ejercicio práctico en sí mismo que animamos a probar a todos los usuarios interesados en la gestión, explotación y reutilización de los datos abiertos.
Para ello, en este enlace vinculamos la versión BETA de la herramienta que contribuye a hacer más accesibles los datos abiertos sin la necesidad de conocer SPARQL, lo que significa que cualquier persona con un mínimo conocimiento técnico pueda trabajar con los datos abiertos enlazados.
Se trata de un aporte de valor para la comunidad de desarrolladores y reutilizadores de datos abiertos porque es un recurso al que puede acceder cualquier perfil de usuario, independientemente de su formación técnica. En definitiva, Vinalod es una herramienta que empodera a la ciudadanía, respeta su derecho a la información y contribuye a la apertura aún mayor de los datos abiertos.
Publicar datos abiertos siguiendo las buenas prácticas del linked data (datos enlazados) permite impulsar su reutilización. Datos y metadatos se describen utilizando estándares RDF que permiten representar relaciones entre entidades, propiedades y valores. De esta forma los conjuntos de datos se interconectan entre sí, independientemente del repositorio digital donde se encuentren, lo que facilita su contextualización y explotación.
Si hay un campo donde este tipo de datos son especialmente valorados es el de la investigación. Por ello no es de extrañar que cada vez más universidades empiecen a utilizar esta tecnología. Es el caso de la Universidad de Extremadura (UEX), que cuenta con un portal de investigación que recopila de forma automática la producción científica ligada a la institución. Adolfo Lozano, Director de la Oficina de transparencia y datos abiertos de la Universidad de Extremadura y colaborador en la elaboración de la “Guía práctica para la publicación de datos enlazados en RDF", nos cuenta cómo han puesto en marcha este proyecto.
Entrevista completa:
1. El portal de investigación de la Universidad de Extremadura es una iniciativa pionera en nuestro país. ¿Cómo surgió el proyecto?
El portal de investigación de la Universidad de Extremadura se ha lanzado hace aproximadamente un año, y ha tenido una magnífica acogida entre los investigadores de la UEX y de entidades externas que buscan las líneas de trabajo de nuestros investigadores.
Pero la iniciativa del portal de datos abiertos de la UEX comenzó en 2015, aplicando el conocimiento de nuestro grupo de investigación Quercus de la Universidad de Extremadura sobre representación semántica, y con la experiencia que teníamos en el portal de datos abiertos del Ayuntamiento de Cáceres. El impulso mayor lo ha tenido hace unos 3 años cuando el Vicerrectorado de Transformación Digital creó la Oficina de Transparencia y Datos abiertos de la UEX.
Desde el principio, teníamos claro que queríamos un portal con datos de calidad, con el máximo nivel de reutilización, y donde se aplicasen los estándares internacionales. Aunque supuso un considerable esfuerzo publicar todos los datasets usando esquemas ontológicos, siempre representado los datos en RDF, y enlazando los recursos como práctica habitual, podemos decir que a medio plazo los beneficios de organizar así la información nos da un gran potencial para poder extraer y manejar la información para múltiples propósitos.
Queríamos un portal con datos de calidad, con el máximo nivel de reutilización, y donde se aplicasen los estándares internacionales. [...] supuso un considerable esfuerzo publicar todos los datasets usando esquemas ontológicos, siempre representado los datos en RDF, y enlazando los recursos.
2. Uno de los primeros pasos en un proyecto de este tipo es seleccionar vocabularios que permitan conceptualizar y establecer relaciones semánticas entre los datos ¿existía un buen punto de partida o fue necesario crear un vocabulario ex-profeso para este contexto? ¿la disponibilidad de vocabularios de referencia constituye un freno para el desarrollo de la interoperabilidad de datos?
Uno de los primeros pasos para seguir esquemas ontológicos en un portal de datos abiertos es identificar los términos más adecuados para representar las clases, atributos y relaciones que van a configurar los datasets. Y además es una práctica que continúa conforme que se van incorporando nuevos conjuntos de datos.
En nuestro caso, hemos intentado reutilizar vocabularios lo más extendidos posible como foaf, schema, dublin core y también algunos específicos como vibo o bibo. Pero en muchos casos hemos tenido que definir términos propios en nuestra ontología porque no existían esos componentes. En nuestra opinión, cuando el proyecto Hércules de la CRUE-TIC esté operativo y se hayan definido los esquemas ontológicos genéricos para las universidades, va a mejorar mucho la intereoperabilidad entre nuestros datos, y sobre todo animará a otras universidades a crear sus portales de datos abiertos con estos modelos.
Uno de los primeros pasos para seguir esquemas ontológicos en un portal de datos abiertos es identificar los términos más adecuados para representar las clases, atributos y relaciones que van a configurar los datasets.
3. ¿Cómo se abordó el desarrollo de esta iniciativa, qué dificultades os encontrasteis y qué perfiles son necesarios para llevar a cabo un proyecto de este tipo?
En nuestra opinión, si se quiere hacer un portal que sea útil a medio plazo, está claro que se requiere un esfuerzo inicial para organizar la información. Quizás lo más complicado al principio es recopilar los datos que están dispersos en diferentes servicios de la Universidad en múltiples formatos, comprender en qué consisten, buscar la mejor forma de representación, y luego coordinar la forma de poder acceder a ellos de forma periódica para las actualizaciones.
En nuestro caso, hemos desarrollado scripts específicos para distintos formatos de fuentes datos, de diferentes Servicios de la UEX (como el Servicio de Informática, el Servicio de Transferencia, o desde servidores externos de publicaciones) y que los transforman en representación RDF. En este sentido, es imprescindible contar con Ingenieros Informáticos, especializados en representación semántica y con amplios conocimientos de RDF y SPARQL. Pero además, desde luego, se debe involucrar a diferentes servicios de la Universidad para coordinar este mantenimiento de la información.
4. ¿Cómo valora el impacto de la iniciativa? ¿Puede contarnos algunos casos de éxito de reutilización de los conjuntos de datos proporcionados?
Por los logs de consultas, sobre todo al portal de investigación, vemos que muchos investigadores utilizan el portal como punto de recogida de datos que usan para elaborar sus currículums. Además, sabemos que las empresas que necesitan algún desarrollo concreto, utilizan el portal para obtener el perfil de nuestros investigadores.
Pero, por otro lado es habitual que algunos usuarios (de dentro y fuera de la UEX) nos pidan consultas específicas a los datos del portal. Y curiosamente, en muchos casos, son los propios servicios de la Universidad que nos suministran los datos los que nos piden listados o gráficos específicos donde se enlacen y crucen con otros datasets del portal.
Al tener los datos enlazados, un profesor de la UEX está enlazado con la asignatura que imparte, el área de conocimiento, el departamento, el centro, pero también con su grupo de investigación, con cada una de sus publicaciones, los proyectos en los que participa, las patentes, etc. Las publicaciones están enlazadas con revistas y estas a su vez con sus índices de impacto.
Por otro lado, las asignaturas, están enlazadas con las titulaciones donde se imparten, los centros, y disponemos también de los números de matriculados por asignaturas, e índices de calidad y satisfacción de usuarios. De esta forma, se pueden realizar consultas e informes complejos manejando en conjunto toda esta información.
Como casos de uso, por ejemplo, podemos mencionar que los documentos Word de las 140 comisiones de calidad de los títulos, se generan automáticamente (incluidos gráficos de evolución anual y listados) mediante consultas al portal opendata. Esto ha permitido ahorrar decenas de horas de trabajo en conjunto a los miembros de estas comisiones.
Otro ejemplo, que hemos terminado este año, ha sido la memoria anual de investigación que se ha generado también automáticamente mediante consultas SPARQL. Estamos hablando de más de 1.500 páginas donde se expone toda la producción científica y de transferencia de la UEX, agrupada por institutos de investigación, grupos, centros y departamentos.
Como casos de uso, por ejemplo, podemos mencionar que los documentos Word de las 140 comisiones de calidad de los títulos, se generan automáticamente (incluidos gráficos de evolución anual y listados) mediante consultas al portal opendata. Esto ha permitido ahorrar decenas de horas de trabajo en conjunto a los miembros de estas comisiones.
5. ¿Cuáles son los planes de futuro de la Universidad de Extremadura en materia de datos abiertos?
Queda mucho por hacer. Por ahora estamos abordando en primer lugar aquellos temas que hemos considerado que eran más útiles para la comunidad universitaria, como son la producción científica y de transferencia, y la información académica de la UEX. Pero en el futuro cercano queremos desarrollar conjuntos de datos y aplicaciones relacionados con temas económicos (como contratos públicos, evolución del gastos, mesas de contratación) y administrativos (como el plan de organización docente, organigrama de Servicios, composiciones de órganos de gobierno, etc) para mejorar la transparencia de la institución.
El proyecto Cross-Forest combina dos campos de gran interés para Europa, recogidos en El Pacto Verde. Por un lado, el cuidado y protección del medio ambiente – en concreto de nuestros bosques-. Por otro, el impulso de un ecosistema digital europeo interoperable.
El proyecto empezó en 2018 y ha finalizado el pasado 23 de junio, dando como resultado distintas herramientas y recursos, como veremos a continuación.
¿En qué consiste Cross-Forest?
Cross-Forest es un proyecto cofinanciado por la Comisión Europea mediante el programa CEF (Connecting Europe Facility), que busca publicar y combinar conjuntos de datos abiertos y enlazados de inventarios forestales y mapas forestales, para impulsar modelos que faciliten la gestión y la protección de los bosques.
El proyecto ha sido llevado a cabo por un consorcio formado por el Grupo Público Tragsa, la Universidad de Valladolid y Scayle Supercomputacion de Castilla y León, con el apoyo institucional del Ministerio para la Transción Ecologica y el Reto Demográfico (MITECO). Por parte de Portugal ha participado la Direção-Geral do Território de Portugal.
En el marco del proyecto se ha desarrollado:
- Una Infraestructura de Servicios Digitales (DSI, en sus siglas en inglés) para datos forestales abiertos, orientada hacia la creación de modelos de evolución forestal a nivel de país, así como la predicción del comportamiento y la propagación de los incendios forestales. Se han utilizado datos sobre materiales combustibles, mapas forestales y modelos de propagación. Para su ejecución se han usado recursos de Computación de Alto Rendimiento (HPC), debido a la complejidad de los modelos y la necesidad de realizar numerosas simulaciones.
- Un modelo ontológico de datos forestales común a las administraciones públicas e instituciones académicas de Portugal y España, para la publicación de datos abiertos enlazados. En concreto, se ha creado un conjunto de once ontologías. Estas ontologías, que están alineadas con la Directiva Inspire, se interrelacionan entre sí y se enriquecen enlazando con ontologías externas. Aunque se han creado con el foco puesto en estos dos países, la idea es que cualquier otro territorio pueda utilizarlas para publicar sus datos forestales, en un formato abierto y estándar.
Los diferentes conjuntos de datos utilizados en el proyecto se han publican por separado, para que los usuarios puedan utilizar los que deseen. Se puede acceder a todos los datos, que se publican bajo licencia CC BY 4.0, a través del repositorio Github de Cross-Forest y del Catálogo de Datos del IEPNB.
4 proyectos emblemáticos en formato Linked Open Data
Gracias a Cross-Forest, se ha publicado en formato de datos abiertos enlazados gran parte de la información de 4 proyectos emblemáticos de la Dirección General de Biodiversidad Bosques y Desertificación del Ministerio para la Transción Ecologica y el Reto Demográfico:
- Inventario Forestal Nacional (IFN-3). Incluye más de 100 indicadores el estado y evolución de los montes. Estos indicadores abarcan desde su superficie o las especies arbóreas y arbustivas que habitan en ellos, hasta datos relacionados con la regeneración y biodiversidad. También incorpora el valor en términos monetarios de los aspectos ambientales, recreativos y productivos de los sistemas forestales, entre otros aspectos. Cuenta con más de 90.000 parcelas. Se han publicado en abierto dos bases de datos correspondientes a un subconjunto de los indicadores del IFN.
- Mapa Forestal de España (Escala 1:50.000). Consiste en la cartografía de la situación de las masas forestales, siguiendo un modelo conceptual de usos del suelo jerarquizados.
- Inventario Nacional de Erosión de Suelos (INES). Se trata de un estudio que detecta, cuantifica y refleja cartográficamente los principales procesos de erosión que afectan al territorio español, tanto forestal como agrícola. Su objetivo es conocer su evolución en el tiempo gracias a la captación de datos continua. Cuenta con más de 20.000 parcelas
- Estadística General de Incendios Forestales. Incluye la información recogida en los Partes de Incendio que se cumplimentan por parte de las comunidades autónomas para cada uno de los incendios forestales que tienen lugar en España.
Estos conjuntos de datos, junto con otros de este Ministerio, se han federado con datos.gob.es, de tal forma que también están disponibles a través de nuestro catálogo de datos. Como cualquier otro conjunto de datos que se publica en datos.gob.es, automáticamente quedarán federados también con el portal europeo.
El antecedente de este proyecto fue CrossNature. Este proyecto dio como resultado la base de datos Eidos, que incluye datos enlazados de especies silvestres de fauna y flora de España y Portugal. También están disponible en datos.gob.es y se refleja en el portal europeo.
Ambos proyectos son un ejemplo de innovación y colaboración entre países, con el fin de conseguir unos datos más armonizados e interoperables, que permitan comparar indicadores y mejorar las actuaciones, en este caso, en materia de protección forestal.
La iniciativa Hércules se inicia en noviembre de 2017, mediante un convenio entre la Universidad de Murcia y el Ministerio de Economía, Industria y Competitividad, con el objetivo de desarrollar un Sistema de Gestión de Investigación (SGI) basado en datos abiertos semánticos que ofrezca una visión global de los datos de investigación del Sistema Universitario Español (SUE), para mejorar la gestión, el análisis y las posibles sinergias entre universidades y el gran público.
Esta iniciativa es complementaria a UniversiDATA, donde varias universidades españolas colaboran para fomentar los datos abiertos en el sector de la educación superior mediante la publicación de conjuntos de datos a través de criterios estandarizados y comunes. En concreto se define un Núcleo Común con 42 especificaciones de datasets, de los cuales se han publicado 12 para la versión 1.0. Hércules, en cambio es una iniciativa específica del ámbito de investigación, estructurada en torno a tres pilares:
- Prototipo innovador de SGI
- Grafo unificado de conocimiento (ASIO) 1],
- Enriquecimiento de datos y análisis semántico (EDMA)
El objetivo final es la publicación de un grafo unificado de conocimiento donde queden integrados todos los datos de investigación que deseen hacer públicos las universidades participantes. Hércules prevé la integración de universidades a diferentes niveles, dependiendo de su disposición a reemplazar su SGI por el SGI de Hércules. En el caso de SGIs externos, el grado de accesibilidad que ofrezcan también tendrá implicación en el volumen de datos que puedan compartir a través del grafo unificado.
Organigrama general de la iniciativa Hércules
Dentro de la iniciativa Hércules, se integra el Proyecto ASIO (Arquitectura Semántica e Infraestructura Ontológica). El propósito de este sub-proyecto es definir una Red de Ontologías para la Gestión de la Investigación (Infraestructura Ontológica). Una ontología es una definición formal que describe con fidelidad y alta granularidad un dominio de discusión concreto. En este caso, el dominio de la investigación, que puede ser extrapolable a otras universidades españolas e internacionales (de momento el piloto se está desarrollando con la Universidad de Murcia). Es decir, se trata de crear un vocabulario de datos común.
Adicionalmente, a través del módulo de Arquitectura Semántica de Datos se ha desarrollado una plataforma eficiente para almacenar, gestionar y publicar datos de investigación del SUE, basándose en ontologías, con la capacidad de sincronizar instancias instaladas en diferentes universidades, así como la ejecución de consultas federadas distribuidas sobre aspectos clave de producción científica, líneas de investigación, búsqueda de sinergias, etc.
Como solución a este reto de innovación se han propuesto dos líneas complementarias, una centralizada (sincronización en escritura) y otra descentralizada (sincronización en consulta). En las próximas secciones se explica en detalle la arquitectura de la solución descentralizada.
Domain Driven Design
El modelo de datos sigue el enfoque Domain Driven Design, modelando entidades y vocabulario común, que pueda ser comprendido tanto por desarrolladores como expertos del dominio. Este modelo es independiente de la base de datos, del interfaz de usuario y del entorno de desarrollo, obteniendo una arquitectura de software limpia que permite adaptarse a los cambios del modelo.
Para ello se hace uso de Shape Expressions (ShEx), un lenguaje para validar y describir conjuntos de datos RDF, con sintaxis legible por humanos. A partir de estas expresiones se genera el modelo de dominio automáticamente y permite orquestar un proceso de integración continua (CI), tal y como se describe en la siguiente figura.
Proceso de integración continua mediante Domain Driven Design
Mediante un sistema basado en de control de versiones como elemento central, se ofrece la posibilidad de que los expertos de dominio construyan y visualicen las ontologías multilingües. Estas a su vez se apoyan en ontologías tanto del ámbito de la investigación: VIVO, EuroCRIS/CERIF o Research Object, como ontologías de propósito general para la etiquetación de metadatos: Prov-O, DCAT, etc.
Linked Data Platform
El servidor de datos enlazados es el núcleo de la arquitectura, encargándose de renderizar la información sobre todas las entidades. Para ello recoge peticiones HTTP del exterior y las redirecciona a los servicios correspondientes, aplicando negociación de contenidos, la cual ofrece la mejor representación de un recurso basado en las preferencias del navegador para los distintos tipos de medios, idiomas, caracteres y codificación.
Todos los recursos se publican siguiendo un esquema de URIs persistentes diseñado a medida. Cada entidad representada mediante una URI (investigador, proyecto, universidad, etc) dispone de una serie de acciones para consultar y actualizar sus datos, siguiendo los patrones propuestos por Linked Data Platform (LDP) y el modelo de 5 estrellas.
Este sistema garantiza además el cumplimiento con los principios FAIR (Findable, Accesible, Interoperable, Reusable) y publica automáticamente los resultados de aplicar dichas métricas sobre el repositorio de datos.
Publicación de datos abiertos
El sistema de procesamiento de datos se encarga de la conversión, integración y validación de datos de terceras partes, así como la detección de duplicados, equivalencias y relaciones entre entidades. Los datos surgen de varias fuentes, principalmente el SGI unificado de Hércules, pero también de SGIs alternativos, o de otras fuentes que ofrecen datos en formato FECYT/CVN (Curriculum Vitae Normalizado), EuroCRIS/CERIF y otros posibles.
El sistema de importación convierte todas estas fuentes a formato RDF y los registra en un repositorio de propósito específico para datos enlazados, denominado Triple Store, por su capacidad para almacenar tripletas de tipo sujeto-predicado-objeto.
Una vez importados, se organizan formando un grafo de conocimiento, fácilmente accesible, permitiendo realizar inferencias y búsquedas avanzadas potenciadas por las relaciones entre conceptos.
Ejemplo de grafo de conocimiento describiendo el proyecto ASIO
Resultados y conclusiones
El sistema final no sólo permite ofrecer un interfaz gráfico para consulta interactiva y visual de datos de investigación, sino que además permite diseñar consultas SPARQL, como la que se muestra a continuación, incluso con la posibilidad de ejecutar la consulta de forma federada sobre todos los nodos de la red Hércules, y mostrar resultados de forma dinámica en diferentes tipos de gráficos y mapas.
En este ejemplo, se muestra una consulta (con datos limitados de prueba) de todos proyectos de investigación disponibles agrupados gráficamente por año:
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>
SELECT ?year (COUNT(?x) as ?cuenta)
WHERE {
?x <http://www.w3.org/1999/02/22-rdf-syntax-nes#type> <https://ldpld1test.um.es/um/es-ES/rec/Project> .
?x <https://ldpld1test.um.es/um/es-ES/rec/startDate> ?d BIND(SUBSTR(?d, 1, 4) as ?year) .
} GROUP BY ?year LIMIT 20
LIMIT 20
Ejemplo de consulta SPARQL con resultado gráfico
En definitiva, ASIO ofrece un marco común de publicación de datos abiertos enlazados, ofrecido como código libre y fácilmente adaptable a otros dominios. Para dicha adaptación, bastaría con diseñar un modelo de dominio específico, incluyendo la ontología y los procesos de importación y validación comentados en este artículo.
Actualmente el proyecto, en sus dos variantes (centralizada y descentralizada), se encuentra en proceso de puesta en pre-producción dentro de la infraestructura de la Universidad de Murcia, y en breve será accesible públicamente.
[1 Los grafos son una forma de representación del conocimiento que permiten relacionar conceptos a través de la integración de conjuntos de datos, utilizando técnicas de web semántica. De esta forma se puede conocer mejor el contexto de los datos, lo que facilita el descubrimiento de nuevo conocimiento.
Contenido elaborado por Jose Barranquero, experto en Ciencia de datos y computación cuántica.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
En un portal de datos abiertos conviven una gran cantidad de fuentes de datos de distinta naturaleza, con diversos contenidos y formatos. Por ello es necesario proporcionar a cada archivo, recurso o contenido de la red, un contexto o definición que permita a las personas, y también a las máquinas, interpretar su significado. Es aquí donde entra el concepto de Linked data.
Linked Data o datos enlazados permite usar la web como una única gran base de datos global. Siguiendo este paradigma de publicación los datos quedan disponibles contextualizados e interconectados para su reutilización. Linked Data surgió a partir del proyecto de la Web Semántica inspirado por Tim Berners-Lee, padre de la Web, de la necesidad de introducir información de contexto en forma de metadatos en la Web.
El documento “LinkedData como modelo de datos abiertos” explica de forma breve los conceptos básicos para entender cómo funciona la web semántica y los datos enlazados, como es el caso de las URIs o identificadores únicos de recursos, las ontologías o los vocabularios que permiten describir relaciones entre ellos, para centrarse en cómo Aragón ha implementado estas tecnologías para desarrollar distintos servicios, como por ejemplo:
- La Estructura de Información Interoperable (EI2A), una ontología que homogeniza estructuras, vocabularios y características para dar respuesta a la diversidad y heterogeneidad de datos existentes dentro de la Administración, en el marco de Aragón Open Data. El documento explica algunas de las ontologías y vocabularios usados para el desarrollo.
- El Identificador Europeo de Legislación (ELI), que permite acceder online a la legislación en un formato formalizado que facilita su reutilización.
- La infraestructura semántica en Aragón Open Data, donde destaca el uso dela herramienta Virtuoso para el almacenamiento de los datos enlazados. El documento explica cuáles son las características de este servidor universal, cuya arquitectura permite la persistencia de datos en formatos RDF-XML, entre otros. Además, se explica cómo funciona el banco que almacena tripletas de forma nativa para la relación entre recursos y se muestran ejemplos de servicios de Aragón Open data que explotan dichas tripletas de datos como Aragopedia y Aragón Open Data Pool.
A continuación, puedes descargar el documento completo.
Este documento forma parte de la serie de materiales didácticos y artículos tecnológicos que está realizando Aragón open Data con el fin de explicar cómo han desplegado distintas soluciones para dar respuesta a las necesidades de localización, acceso y reutilización de los distintos conjuntos de datos. Puedes completar su lectura con otro volumen de la serie: “Cómo implementar CKAN: caso real del portal Aragón Open Data”.
Una de las principales barreras para el despliegue de los datos enlazados (Linked Data) es la dificultad que tienen los editores de datos para determinar qué vocabularios usar para describir la semántica de los mismos. Estos vocabularios proporcionan el “pegamento semántico” (semantic glue) que permite que unos simples datos se conviertan en “datos con significado” (meaningful data).
Linked Open Vocabularies (LOV) es un catálogo de vocabularios disponibles para reutilizar con el objetivo de describir de datos en la Web. LOV recopila metadatos y visibiliza indicadores como la conexión entre diferentes vocabularios, el historial de versiones, las políticas de mantenimiento, junto con referencias pasadas y actuales (tanto a individuos como a organizaciones). El nombre de esta iniciativa (Linked Open Vocabularies - LOV) tiene su raíz en el término Linked Open Data - LOD.
El objetivo principal de LOV es ayudar a los editores de datos enlazados (Linked Data) y vocabularios a evaluar los recursos (vocabularios, clases, propiedades y agentes) ya disponibles y promover así la mayor reutilización posible, además de proporcionar una vía para que los editores añadan sus propias creaciones.
LOV comenzó en el año 2011 bajo el proyecto de investigación Datalift y albergado por Open Knowledge International (anteriormente conocida como Open Knowledge Foundation). Actualmente la iniciativa cuenta con el apoyo de un pequeño equipo de conservadores/revisores de datos y programadores.
Para facilitar la reutilización de los vocabularios bien documentados (con metadatos), se proporcionan varias formas de acceder a los datos:
-
Mediante un interfaz de usuario, con un entorno de navegación y búsquedas (la propia página web).
-
Mediante un SPARQL endpoint para realizar consultas al grafo de conocimiento.
-
Mediante un API REST.
-
Mediante un volcado de los datos, tanto de la base de conocimiento de LOV (en formato Notation3), como de la base de conocimiento más los propios vocabularios (en formato N-Quads).
Actualmente, el registro identifica y enumera:
-
621 vocabularios (vocabularios RDF -RDFS/OWL- definidos como esquemas (T-Box) para la descripción de Linked Data)
-
cerca de 60.000 términos (entre clases y propiedades)
-
Cerca de 700 agentes (creadores, contribuyentes o publicadores, y tanto personas como organizaciones)
Entre todos los vocabularios, 34 tiene algún término en idioma español, lo cual permite un amplio campo de trabajo para la comunidad en español.
LOV es un claro ejemplo de la importancia de documentar correctamente los vocabularios con metadatos. El valor de los metadatos radica en su capacidad para clasificar y organizar información de la manera más eficiente, proporcionando mayor inteligencia y conocimiento de superior calidad, lo que facilita e impulsa iniciativas de automatización, revisión de conformidades, colaboración, apertura de datos y mucho más.
Una parte importante de los datos que están publicados bajo las premisas de la Web Semántica, donde los recursos están identificados por URIs, se almacenan dentro de bases de datos de tripletas (triplestore), y estos datos solo pueden ser accedidos mediante consultas SPARQL a través de un SPARQL endpoint.
Además, las URIs utilizadas, normalmente diseñadas bajo un patrón, en la mayoría de los conjuntos de datos (datasets) que se almacenan en esas bases de datos no son dereferenciables, esto es, que al realizar una petición a ese identificador no se recibe ninguna respuesta (error 404).
Ante esta situación, en el cual esos datos solo están accesibles para las máquinas, y aunado con el empuje del movimiento de los datos enlazados (Linked Data), son varios los proyectos que han surgido con el principal objetivo de generar vistas para humanos de esos datos mediante interfaces web (donde las vistas de los recursos estén enlazadas unas con otras), así como ofrecer un servicio donde las URIs sean dereferenciables.
Pubby es, posiblemente, el proyecto más conocido que se ha creado con este objetivo. Es una aplicación web desarrollada en java, cuyo código está compartido bajo la licencia de código abierto Apache License, Version 2.0., y que está diseñada para ser desplegada en sistema que posea acceso SPARQL a la base de datos de tripletas sobre la que se quiera aplicar.
Mediante un fichero de configuración, se realiza un mapeo entre las URI no-dereferenciables y las URIs dereferenciables que son gestionadas por el servidor Pubby. Con ello, la aplicación tramita las peticiones a las URIs mapeadas, preguntando por la información de la URI original a la base datos asociada (mediante una consulta SPARQL DESCRIBE) y devuelve los resultados al cliente (en el formato de representación solicitado).
Además, Pubby proporciona una vista simple en HTML de los datos almacenados y gestiona la negociación de contenidos entre las diferentes representaciones. Mediante el interfaz web, el usuario puede navegar entre las vistas HTML de los recursos enlazados (Linked Data). En estas vistas se muestra toda la información de los recursos, incluyendo los atributos y relaciones con otros recursos.
Del proyecto Pubby han surgido múltiples proyectos paralelos (forks) y proyectos inspirados. Uno de los últimos ha sido el proyecto Linked Open Data Inspector (LODI), desarrollado desde el grupo de ingeniería software Quercus de la Universidad de Extremadura bajo licencia Creative Commons Atribución 3.0. Este proyecto está desarrollado en Node.js y posee algunas diferencias positivas respecto a Pubby:
-
Proporciona una vista simple en HTML para todos los públicos, y otra más detallada para programadores.
-
Proporciona información del recurso en el formato N3 (aunque no RDF/XML o Turtle).
-
En el caso de recursos con información geoespaciales, se muestra un mapa detallando la ubicación.
-
De igual manera, en el caso de detectar imágenes (.jpg, .jpeg o .png), estas son mostradas de forma automática.
Actualmente existen dos portales de datos abiertos que están utilizando LODI: Open Data Cáceres y Open Data UEx.
Pubby, LODI y otros proyectos similares (como LODDY), usando en el tesauro AGROVOC han conseguido exponer información que estaba retenida dentro de bases de datos RDF y que no era accesible para los humanos. Proyectos como estos hacen que la web de los datos enlazados siga creciendo en cantidad y en calidad, poniendo la interacción con las personas como el eje y centro de estos avances.
La Biblioteca Nacional Española (BNE) continúa impulsando la difusión y reutilización de sus fondos documentales. Además de contribuir a la conservación del patrimonio cultural que custodia, a través de la digitalización y la preservación digital de sus colecciones, la BNE también busca facilitar el acceso de los ciudadanos a los datos culturales, enriquecerlos y fomentar su reutilización en todos los campos, más allá de la investigación, como el turismo, la moda o los videojuegos, entre otros.
Desde que lanzó la primera versión de su portal de datos enlazados datos.bne.es en 2014, la BNE ha apostado por ofrecer un nuevo acercamiento a la gran cantidad de datos que genera: datos de las obras que conserva pero también de autores, vocabularios controlados de materias, términos geográficos, etc. Dichos datos cuentan con un alto nivel de normalización y cumplen con estándares internacionales de descripción e interoperabilidad. También están identificados mediante URIs y modelos conceptuales nuevos, enlazados mediante tecnologías semánticas y ofrecidos en formatos abiertos y reutilizables.
Además, datos.bne.es es un claro ejemplo de cómo la aplicación de técnicas y estándares de Linked Open Data permite el enriquecimiento de datos con otras fuentes, convirtiéndose en herramienta y base para proyectos de investigación con big data o machine learning. Esto abre numerosas posibilidades de búsqueda y visualización de la información (mediante grafos, georreferenciación, etc.). En definitiva, datos.bne.es constituye el tránsito desde una herramienta para localizar ejemplares a una herramienta para localizar y utilizar datos, enriqueciéndolos e integrándolos en el universo Linked Open Data.
Desde 2014, se han ido dando pasos en este sentido, buscando acercar los datos de la BNE a ciudadanos y reutilizadores. Para ello, la biblioteca acaba de lanzar una nueva versión de datos.bne.es. Esta nueva versión supone, por un lado, una actualización completa de los datos, y por otro, nuevas funcionalidades que facilitan el acceso a la información.
Entre estas novedades encontramos:
- Incorporación de un nuevo buscador especializado. A partir de ahora se podrán realizar búsquedas avanzadas sobre las ediciones de las obras, así como sobre las personas y las entidades que intervienen en ellas. De este modo, se podrán buscar autores en función de su fecha y lugar de nacimiento o fallecimiento, por su género o su profesión. Es importante señalar que estos datos aún no están disponibles para todas las personas y entidades del catálogo, por lo que los resultados deben ser considerados una muestra que se irá ampliando progresivamente.
- Posibilidad de realizar búsquedas multilingües. El buscador de Temas permite la búsqueda multilingüe de conceptos en inglés y francés. Por ejemplo, una búsqueda de “Droit à l'éducation” devolverá el concepto “Derecho a la educación”. Esta funcionalidad se ha podido conseguir explotando semánticamente la relación entre los vocabularios de BNE, Library of Congress y la Biblioteca Nacional de Francia. En posteriores actualizaciones se incrementará el número de idiomas.
- Mejora del acceso a recursos de la Biblioteca Digital Hispánica. A partir de ahora, las ediciones digitalizadas de recursos musicales y de prensa incluirán los accesos directos al recurso digitalizado.
Todas estas actualizaciones suponen un gran paso en el camino que la Biblioteca Nacional de España está llevando a cabo en favor de la promoción de los datos abiertos culturales, pero su esfuerzo no acaba aquí. Durante los próximos meses van a continuar trabajando para mejorar la usabilidad, apostando por un portal visual e intuitivo, con conjuntos de datos que sean fáciles de reutilizar (por ejemplo, incorporando nuevos formatos o enriqueciendo los datos a través de tecnologías semánticas). Además, se apostará por mejoras en la interoperabilidad y normalización. Todo ello son acciones necesarias para facilitar que los usuarios puedan reutilizar los datos disponibles y crear nuevos productos y servicios que aporten valor a la sociedad.
Para garantizar que todas las actuaciones que lleva a cabo están alineadas con las necesidades de los usuarios, la biblioteca Nacional de España también ha apostado por la creación de una Comunidad de datos abiertos. El objetivo es que, aquellos ciudadanos que lo deseen, puedan compartir un espacio de diálogo donde proponer nuevas mejoras, actualizaciones y usos de los datos abiertos culturales. Dicha comunidad estará formada por una conjunción de perfiles profesionales bibliotecarios y técnicos, lo cual ayudará a extraer todo el valor de los datos de la institución.
La alta diplomacia desempeña tradicionalmente un papel en ayudar a culturas y naciones a dialogar entre sí. Pero cuando se trata de fortalecer el derecho a la tierra, son las propias comunidades locales quienes tienen que involucrarse.
Ésta es la visión de la Fundación Land Portal, y la razón principal por la cual ha creado el portal web landportal.org, un lugar donde los grupos interesados puedan recopilar y consultar información sobre la temática del derecho a la tierra y su gobernanza. Esta información proviene de diversas fuentes (fragmentadas y en ocasiones poco accesibles) y producida por gobiernos, la academia, organizaciones internacionales, pueblos indígenas y organizaciones no gubernamentales. Además de recopilar información, la plataforma promueve la generación de debates, el intercambio de información y la creación de redes de contactos.
En la base de la organización, y por ende de la plataforma, están las ideas del “movimiento abierto”, que se plasman en realidades concretas como establecer por defecto licencias de código abierto en todos sus desarrollos informáticos, el consumo de datos abiertos y la publicación de datos abiertos enlazados (Linked Open Data, LOD), o el uso de licencias abiertas a la hora de compartir información.
El portal recopila datos estadísticos, datos bibliográficos, o datos sobre diferentes recursos (organizaciones, eventos, noticias, proyectos) y los vuelve a publicar como LOD en un formato legible por máquinas (RDF), utilizando un modelo de datos basado en estándares y compartido bajo una licencia abierta. Con ello, la fundación pretende crear un ecosistema de información y de reutilización de la misma.

Para acceder a estos datos publicados bajo los criterios del Linked Open Data, se ha desplegado un SPARQL endpoint donde se pueden realizar consultas semánticas a los diferentes grafos en los que se agrupa el conocimiento.
Otro de los proyectos de la organización es LandVoc, un vocabulario controlado que recoge conceptos relacionados con la gobernanza de la tierra. Este vocabulario proviene del tesauro AGROVOC, y nace como un intento de estandarización de los conceptos relacionados con la gobernanza de la tierra. De esta manera las diferentes organizaciones del dominio pueden usar los conceptos para etiquetar contenido y así favorecer el intercambio de información y la integración de sistemas. Actualmente LandVoc consta de 270 conceptos, está disponible en 4 idiomas (inglés, francés, español y portugués), y se publica bajo la licencia abierta Creative Commons Reconocimiento-No comercial-CompartirIgual 3.0 IGO (CC BY-NC-SA 3.0 IGO).
La Fundación Land Portal realiza todo ello con el objetivo último de mejorar la gobernanza de la tierra y así beneficiar a los colectivos con mayor inseguridad en su derecho a la tierra. La teoría del cambio de la organización predice un aumento en la calidad de vida de los colectivos más vulnerables, si se consigue su derecho a vivir y cultivar sin temor a desalojos forzosos o ilegales; y con la seguridad de la tenencia de la tierra, también predice el progreso la seguridad alimentaria para las comunidades más vulnerables del mundo.