Reutilización y análisis de datos abiertos para Dummies

Fecha de la noticia: 30-09-2020

Visualización

Dentro de esta vorágine tecnológica en la que estamos constantemente sumergidos, cada día que pasa, la humanidad está creando una gran cantidad de información que en muchos casos somos incapaces de tratar.

Las administraciones públicas también generan grandes volúmenes de información, que ponen a disposición de los ciudadanos para que podamos reutilizarla a partir de los portales de datos abiertos, pero, ¿cómo podemos sacar partido a estos datos?

En muchas ocasiones, pensamos que solo los expertos pueden analizar estas grandes cantidades de información, pero no es así.  En este artículo vamos a ver qué oportunidades presentan los datos abiertos para usuarios sin conocimientos técnicos ni experiencia en el análisis y visualización de datos.

Generado conocimiento en 4 sencillos pasos con un caso de uso

Dentro de la plataforma de datos abiertos del Gobierno de España, podemos encontrar multitud de datos a nuestra disposición. Estos datos están agrupados por categoría, temática, administración que publica el dato, formato o con otros tags que nos etiquetan el contenido de los mismos.

Estos datos, podemos cargarlos en aplicativos de análisis informacional, como por ejemplo PowerBI, Qlik, Tableau, Tipco, Excel, etc., que nos ayudarán a crear nuestros propios gráficos y tablas sin tener apenas conocimientos informáticos. La utilización de estas herramientas nos permitirá desarrollar nuestro propio producto de análisis informacional, con el que podremos crear filtros o consultas no planificadas. Todo ello sin contar con otros elementos informáticos como bases de datos o herramientas de ETL (Abreviatura de Extracción, Transformación y Carga de datos).

A continuación veremos cómo podemos construir un primer cuadro de mando de una manera muy sencilla.

1.- Selección de datos

Antes de empezar a recoger datos sin sentido, lo primero que debemos decidir es con qué finalidad usaremos los datos. El catálogo de datos.gob.es es muy amplio y es muy fácil perderse dentro de ese mar de datos, por lo que debemos centrarnos en la temática que buscamos y la administración que lo publica, si la conocemos. Con esta simple acción reduciremos mucho el alcance de nuestra búsqueda.

Una vez que sabemos qué buscar, debemos centrarnos en el formato de los datos:

  • Si queremos recoger la información directamente para redactar nuestra tesis doctoral, escribir un artículo para un medio de comunicación con datos estadísticos, o simplemente adquirir nuevos conocimientos para nuestro propio interés, nos centraremos en coger información que ya esté preparada y trabajada. Debemos entonces acudir a formatos de datos tipo pdf, html, jpg, docx, etc. Estos formatos nos permitirán recoger ese conocimiento sin necesidad de herramientas tecnológicas adicionales, ya que la información se sirve en formatos visuales, los conocidos como no estructurados.
  • Si queremos trabajar la información aplicando diferentes métricas de cálculo y cruzarlas con otros datos que tengamos en nuestro poder, en ese caso deberemos utilizar información estructurada, o sea, formatos XLS, CSV, JSON, XML.

Como ejemplo, imaginemos que queremos analizar la población de cada uno de los distritos de la ciudad de Madrid. En este caso el conjunto de datos que necesitamos es el padrón del ayuntamiento de Madrid.

Para localizar este conjunto de datos, seleccionamos Catalogo de datos, categoría Demografía, que el publicador sea el Ayuntamiento de Madrid, el formato CSV y ya me aparece la información que necesito en la parte derecha de la pantalla. Otra forma sencilla y complementaria de la anterior de localizar la información, es utilizar el buscador incluido dentro de la plataforma y teclear “Padrón”+“Madrid”.

Con esta búsqueda, la plataforma ofrece, entre otros, dos conjuntos de datos: el padrón histórico y el padrón del último mes publicado. Para este ejemplo cogeremos el documento correspondiente a la actualización de agosto de 2020.

2.- Carga de la información en una herramienta de visualización de información

Buena parte de las herramientas de visualización de información suelen llevar asistentes incorporados para recoger los datos que nos podemos descargar de un portal de datos abiertos. Las imágenes que acompañan a este artículo corresponden a la versión Business de QlikSense (que cuenta con una versión gratuita de prueba de 30 días), pero cualquiera de las herramientas anteriormente mencionadas funciona de manera similar. Con un sencillo “arrastrar y soltar”, ya tendremos la información dentro de la herramienta, para empezar a crear indicadores y así generar el conocimiento.

La mayoría de estas herramientas interpretan directamente el contenido de los campos y proponen un uso para esos valores, diferenciándolos por datos que pueden ser usados como filtros, datos geográficos y datos con lo que poder formular.

3.- Creación del primer gráfico o indicador

Ahora solo nos queda arrastrar los campos sobre los que queremos generar conocimiento y crear el primer indicador de nuestro cuadro de mando. Arrastraremos el campo DESC_DISTRITO, que contiene la descripción del distrito, para ver qué sucede.

Una vez realizada la acción, vemos que nos ha geo-posicionado en un mapa todos los distritos de Madrid, aunque en un primer momento no tenemos ningún tipo de información que analizar. En esta primera visualización automática nos muestra un punto en el centro del distrito, pero no nos proporciona ningún otro tipo de información adicional.

4.- Crear valor en nuestro indicador

Una vez tenemos los puntos sobre el mapa, necesitamos saber qué queremos ver dentro de esos puntos. Vamos a seguir con el “Arrastrar y Soltar” para contabilizar los hombres y mujeres de nacionalidad española. Veamos que sucede…

Vemos que para cada uno de los puntos nos ha sumado por sexo los ciudadanos en cada uno de los distritos donde están empadronados.

En definitiva, con cuatro sencillos pasos en los que solo hemos seleccionado el conjunto de datos y hemos arrastrado y soltado el archivo dentro de una herramienta de visualización, nos hemos creado el primer indicador del nuestro cuadro de mando, donde podremos seguir generando conocimiento.

Si seguimos profundizando en el uso de estas herramientas, podremos crear nuevos gráficos, como tablas dinámicas, gráficos de tarta o visualizaciones interactivas.

Lo interesante de este tipo de análisis, es poder incorporar nuevos conjuntos de datos abiertos, como la cantidad de Farmacias que hay en un distrito, o el número y tipología de accidentes en una zona en concreto. Cruzando los distintos datos podremos ir adquiriendo más conocimiento sobre la ciudad y tomar decisiones informadas, como cuál es la mejor zona para poner una nueva farmacia en función de la población o instalar un nuevo semáforo.

 


Contenido elaborado por David Puig, Graduado en Información y Documentación y responsable del grupo de trabajo de Datos Maestros y de Referencia en DAMA ESPAÑA.

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.