Ejemplos de repositorios de datos abiertos poco comunes
Fecha de la noticia: 12-09-2019

Más allá de los datos de administraciones públicas, bibliotecas, museos y fundaciones culturales, el atractivo de los datos abiertos no conoce fronteras. Te invitamos a descubrirlo en este post.
Normalmente se asocia el concepto de datos abiertos con aquellos repositorios gestionados por las administraciones públicas, fundaciones y organizaciones culturales como Bibliotecas y museos. Pero los datos abiertos abarcan mucho más y, si nos empleamos a fondo en la búsqueda, podemos encontrar auténticas joyas esperando ser exploradas. Muchas veces se trata de repositorios de temas muy específicos, de gran utilidad para los profesionales que desarrollan su actividad laboral en ese campo. Otras se trata de repositorios generales con conjuntos de datos poco habituales.
Veamos algunos ejemplos.
Datos abiertos y ciencia
Para ilustrar los repositorios de datos específicos, vamos a centrarnos en dos ejemplos del ámbito científico:
1) Portal de datos abiertos de la Agencia Espacial Europea. En este sitio web podemos encontrar gran cantidad de imágenes y datos procedentes de las diferentes misiones espaciales de la Agencia Espacial Europea (por su acrónimo en inglés, ESA). Por ejemplo, la mayoría de imágenes de satélite del programa Copernicus - el programa de observación de la Tierra más ambicioso hasta la fecha - proporcionan información precisa, oportuna y de fácil acceso para mejorar la gestión del medio ambiente, comprender y mitigar los efectos del cambio climático y garantizar la seguridad civil.
Monte Fuji en Japón. Ejemplo de imágen abierta bajo licencia CC BY-SA 3.0 IGO procedente del repositorio open data de la ESA, en particular del programa Copérnico de observación terrestre.
La ESA, no solamente pone a disposición imágenes y videos procedentes de los satélites, sino una gran cantidad de datos de observación que pueden ser procesados para generar nuestras propias imágenes o análisis. Como ejemplo, los datos generados por la misión Gaia - la misión más ambiciosa para trazar un mapa tridimensional de nuestra Galaxia - están disponibles para descarga directa en este enlace. Navegando por los enlaces que dependen del repositorio principal podemos acceder a ficheros en formato .csv de varios decenas de MB de tamaño listos para su análisis.
2) Portal de datos abiertos del CERN. El CERN es el laboratorio europeo para la investigación nuclear. El lugar donde nació lo que hoy conocemos como La Web (World Wide Web), concentra buena parte del mejor talento científico de Europa y genera varias decenas de petabytes de datos al año. De esta forma, el CERN también cuenta con su propio sitio web dedicado a los datos abiertos. El sitio de datos abiertos del CERN es una web muy amigable para el usuario no experto que nos propone diferentes formas de acercarnos a los datos que allí se guardan. Existen diferentes caminos para explorar el sitio dependiendo de si seguimos la ruta Learn, Visualise o Analyse. Este sitio web es un auténtico vergel de datos si no fuera porque es necesario tener nociones básicas (o no tan básicas) de física de partículas, para explotar todo su potencial.
Adicionalmente al sitio raíz, el CERN pone a disposición de los usuarios (avanzados) un sitio de Github para que, aquellos desarrolladores que quieran trabajar con los datos abiertos, dispongan de un entorno más indicado para la explotación de los datos de forma programática. Los sitios de Github u otros repositorios de código abiertos potencian el desarrollo de comunidades colaborativas de usuarios en torno a los datos abiertos.
Datos muy, pero que muy, diversos
Pero además de estos repositorios específicos, también existen repositorios de temática general donde encontrar conjuntos de datos poco habituales. Ya hemos hablado en anteriores ocasiones del sitio web Kaggle. Kaggle es una plataforma web abierta orientada a científicos de datos en la que se plantean desafíos (algunos de ellos remunerados con cuantiosos premios en metálico). En esta ocasión nos acercamos a Kaggle solamente para explorar su extenso catálogo de datos (en su mayoría publicados bajo licencia Creative Commons en alguna de sus variantes).
Por citar algunos ejemplos variados, buscando en las primeras entradas de su catálogo nos encontramos con conjuntos de datos sobre la altura de las olas en la costa australiana o por ejemplo, un conjunto de datos que incluye una lista de 10.000 zapatos de mujer con sus precios publicado bajo licencia CC BY-NC-SA 4.0. No podía faltar en esta lista uno de los conjuntos de datos más populares y usados en la actualidad. Cada trimestre, Stackoverflow, la comunidad online más grande para programadores, publica una extracción de su base de datos con los post, votaciones, etiquetas y comentarios que han pasado por su plataforma. El análisis de este conjunto de datos (publicado bajo CC BY-SA 3.0) de más de 100 GB de volumen es, probablemente, la manera más precisa de medir las tendencias del mercado en cuanto a popularidad y uso de los lenguajes de programación que existe.
En definitiva, además de los conjuntos de datos existentes sobre movilidad, medio ambiente, localización de servicios básicos en las ciudades o colecciones culturales, existen repositorios de datos abiertos, mucho más específicos, para aquellos usuarios intrépidos que se atreven a investigar en busca de los datos menos comunes. Desde luego, el futuro de los datos abiertos no tiene fronteras.
Contenido elaborado por Alejandro Alija,experto en Transformación Digital e Innovación.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.