1. Introducción
Las visualizaciones son representaciones gráficas de datos que permiten comunicar de manera sencilla y efectiva la información ligada a los mismos. Las posibilidades de visualización son muy amplias, desde representaciones básicas, como puede ser un gráfico de líneas, barras o sectores, hasta visualizaciones configuradas sobre cuadros de mando o dashboards interactivos.
En esta sección de “Visualizaciones paso a paso” estamos presentando periódicamente ejercicios prácticos de visualizaciones de datos abiertos disponibles en datos.gob.es u otros catálogos similares. En ellos se abordan y describen de manera sencilla las etapas necesarias para obtener los datos, realizar las transformaciones y análisis que resulten pertinentes para, finalmente, la creación de visualizaciones interactivas, de las que podemos extraer información resumida en unas conclusiones finales. En cada uno de estos ejercicios prácticos, se utilizan sencillos desarrollos de código convenientemente documentados, así como herramientas de uso gratuito. Todo el material generado está disponible para su reutilización en el repositorio Laboratorio de datos de GitHub.
A continuación, puedes acceder al material que utilizaremos en el ejercicio y que iremos explicando y desarrollando en los siguientes apartados de este post.
Accede al repositorio del laboratorio de datos en Github.
Ejecuta el código de pre-procesamiento de datos sobre Google Colab.
2. Objetivo
El objetivo principal de este ejercicio es hacer un análisis de los datos meteorológicos recogidos en varias estaciones durante los últimos años. Para realizar este análisis utilizaremos distintas visualizaciones generadas mediante la librería “ggplot2” del lenguaje de programación “R”
De todas las estaciones meteorológicas españolas, hemos decidido analizar dos de ellas, una en la provincia más fría del país (Burgos) y otra en la provincia más cálida del país (Córdoba), según los datos de la AEMET. Se buscarán patrones y tendencias en los distintos registros entre los años 1990 y 2020 con el objetivo de entender la evolución meteorológica sufrida en este periodo de tiempo.
Una vez analizados los datos, podremos contestar a preguntas como las que se muestran a continuación:
-
¿Cuál es la tendencia en la evolución de las temperaturas en los últimos años?
-
¿Cuál es la tendencia en la evolución de las precipitaciones en los últimos años?
-
¿Qué estación meteorológica (Burgos o Córdoba) presenta una mayor variación de los datos climatológicos en estos últimos años?
-
¿Qué grado de correlación hay entre las distintas variables climatológicas registradas?
Estas, y muchas otras preguntas pueden ser resueltas mediante el uso de herramientas como ggplot2 que facilitan la interpretación de los datos mediante visualizaciones interactivas.
3. Recursos
3.1. Conjuntos de datos
Los conjuntos de datos contienen distinta información meteorológica de interés para las dos estaciones en cuestión desglosada por año. Dentro del centro de descargas de la AEMET, podremos descárgalos, previa solicitud de la clave API, en el apartado “climatologías mensuales/anuales”. De las estaciones meteorológicas existentes, hemos seleccionado dos de las que obtendremos los datos: Burgos aeropuerto (2331) y Córdoba aeropuerto (5402)
Cabe destacar, que, junto a los conjuntos de datos, también podremos descargar sus metadatos, los cuales son de especial importancia a la hora de identificar las distintas variables registradas en los conjuntos de datos.
Estos conjuntos de datos también se encuentran disponibles en el repositorio de Github
3.2. Herramientas
Para la realización de las tareas de preprocesado de los datos se ha utilizado el lenguaje de programación R escrito sobre un Notebook de Jupyter alojado en el servicio en la nube de Google Colab.
"Google Colab" o, también llamado Google Colaboratory, es un servicio en la nube de Google Research que permite programar, ejecutar y compartir código escrito en Python o R sobre un Jupyter Notebook desde tu navegador, por lo que no requiere configuración. Este servicio es gratuito.
Para la creación de las visualizaciones se ha usado la librería ggplot2.
"ggplot2" es un paquete de visualización de datos para el lenguaje de programación R. Se centra en la construcción de gráficos a partir de capas de elementos estéticos, geométricos y estadísticos. ggplot2 ofrece una amplia gama de gráficos estadísticos de alta calidad, incluyendo gráficos de barras, gráficos de líneas, diagramas de dispersión, gráficos de caja y bigotes, y muchos otros
Si quieres conocer más sobre herramientas que puedan ayudarte en el tratamiento y la visualización de datos, puedes recurrir al informe "Herramientas de procesado y visualización de datos".
4. Tratamiento o preparación de los datos
Los procesos que te describimos a continuación los encontrarás comentados en el Notebook que también podrás ejecutar desde Google Colab.
Antes de lanzarnos a construir una visualización efectiva, debemos realizar un tratamiento previo de los datos, prestando especial atención a la obtención de los mismos y validando su contenido, asegurando que se encuentran en el formato adecuado y consistente para su procesamiento y que no contienen errores.
Como primer paso del proceso, una vez importadas las librerías necesarias y cargados los conjuntos de datos, es necesario realizar un análisis exploratorio de los datos (EDA) con el fin de interpretar adecuadamente los datos de partida, detectar anomalías, datos ausentes o errores que pudieran afectar a la calidad de los procesos posteriores y resultados. Si quieres conocer más sobre este proceso puedes recurrir a la Guía Práctica de Introducción al Análisis Exploratorio de Datos.
El siguiente paso a dar es generar las tablas de datos preprocesadas que usaremos en las visualizaciones. Para ello, filtraremos los conjuntos de datos iniciales y calcularemos los valores que sean necesarios y de interés para el análisis realizado en este ejercicio.
Una vez terminado el preprocesamiento, obtendremos las tablas de datos “datos_graficas_C” y “datos_graficas_B” las cuales utilizaremos en el siguiente apartado del Notebook para generar las visualizaciones.
La estructura del Notebook en la que se realizan los pasos previamente descritos junto a comentarios explicativos de cada uno de ellos, es la siguiente:
- Instalación y carga de librerías
- Carga de los conjuntos de datos
- Análisis exploratorio de datos (EDA)
- Preparación de las tablas de datos
- Visualizaciones
- Guardado de gráficos
Podrás reproducir este análisis, ya que el código fuente está disponible en nuestra cuenta de GitHub. La forma de proporcionar el código es a través de un documento realizado sobre un Jupyter Notebook que una vez cargado en el entorno de desarrollo podrás ejecutar o modificar de manera sencilla. Debido al carácter divulgativo de este post y de cara a favorecer el entendimiento de los lectores no especializados, el código no pretende ser el más eficiente, sino facilitar su comprensión por lo que posiblemente se te ocurrirán muchas formas de optimizar el código propuesto para lograr fines similares. ¡Te animamos a que lo hagas!
5. Visualizaciones
Diversos tipos de visualizaciones y gráficos se han realizado con la finalidad de extraer información sobre las tablas de datos preprocesadas y responder a las preguntas iniciales planteadas en este ejercicio. Como se ha mencionado previamente, se ha utilizado el paquete “ggplot2” de R para realizar las visualizaciones.
El paquete "ggplot2" es una biblioteca de visualización de datos en el lenguaje de programación R. Fue desarrollado por Hadley Wickham y es parte del conjunto de herramientas del paquete "tidyverse". El paquete "ggplot2" está construido en torno al concepto de "gramática de gráficos", que es un marco teórico para construir gráficos mediante la combinación de elementos básicos de la visualización de datos como capas, escalas, leyendas, anotaciones y temas. Esto permite crear visualizaciones de datos complejas y personalizadas, con un código más limpio y estructurado.
Si quieres tener una visión a modo resumen de las posibilidades de visualizaciones con ggplot2, consulta la siguiente “cheatsheet”. También puedes obtener información más en detalle en el siguiente "manual de uso".
5.1. Gráficos de líneas
Los gráficos de líneas son una representación gráfica de datos que utiliza puntos conectados por líneas para mostrar la evolución de una variable en una dimensión continua, como el tiempo. Los valores de la variable se representan en el eje vertical y la dimensión continua en el eje horizontal. Los gráficos de líneas son útiles para visualizar tendencias, comparar evoluciones y detectar patrones.
A continuación, podemos visualizar varios gráficos de líneas con la evolución temporal de los valores de temperaturas medias, mínimas y máximas de las dos estaciones meteorológicas analizadas (Córdoba y Burgos). Sobre estos gráficos, hemos introducido líneas de tendencia para poder observar de forma visual y sencilla su evolución.
Para poder comparar las evoluciones, no solamente de manera visual mediante las líneas de tendencia graficadas, sino también de manera numérica, obtenemos los coeficientes de pendiente de la recta de tendencia, es decir, el cambio en la variable respuesta (tm_ mes, tm_min, tm_max) por cada unidad de cambio en la variable predictora (año).
-
Coeficiente de pendiente temperatura media Córdoba: 0.036
-
Coeficiente de pendiente temperatura media Burgos: 0.025
-
Coeficiente de pendiente temperatura mínima Córdoba: 0.020
-
Coeficiente de pendiente temperatura mínima Burgos: 0.020
-
Coeficiente de pendiente temperatura máxima Córdoba: 0.051
-
Coeficiente de pendiente temperatura máxima Burgos: 0.030
Podemos interpretar que cuanto mayor es este valor, más abrupta es la subida de temperatura media en cada periodo observado.
Por últimos, hemos creado un gráfico de líneas para cada estación meteorológica, en el que visualizamos de forma conjunta la evolución de las temperaturas medias, mínimas y máximas a lo largo de los años.
Las principales conclusiones obtenidas de las visualizaciones de este apartado son:
-
Las temperaturas medias, mínimas y máximas anuales registradas en Córdoba y Burgos tienen una tendencia en aumento.
-
El aumento más significativo se observa en la evolución de las temperaturas máximas de Córdoba (coeficiente de pendiente = 0.051)
-
El aumento más tenue se observa en la evolución de las temperaturas mínimas, tanto de Córdoba cómo de Burgos (coeficiente de pendiente = 0.020)
5.2. Gráficos de barras
Los gráficos de barras son una representación gráfica de datos que utiliza barras rectangulares para mostrar la magnitud de una variable en diferentes categorías o grupos. La altura o longitud de las barras representa la cantidad o frecuencia de la variable y las categorías se representan en el eje horizontal. Los gráficos de barras son útiles para comparar la magnitud de diferentes categorías y para visualizar diferencias entre ellas.
Hemos generado dos gráficos de barras con los datos correspondientes a la precipitación total acumulada por año para las distintas estaciones meteorológicas.
Al igual que en el apartado anterior, graficamos la línea de tendencia y calculamos el coeficiente de pendiente.
-
Coeficiente de pendiente precipitaciones acumuladas Córdoba: -2.97
-
Coeficiente de pendiente precipitaciones acumuladas Burgos: -0.36
Las principales conclusiones obtenidas de las visualizaciones de este apartado son:
-
Las precipitaciones acumuladas anuales tienen una tendencia en descenso tanto para Córdoba como para Burgos.
-
La tendencia de descenso es mayor para Córdoba (coeficiente = -2.97), siendo más moderada para Burgos (coeficiente = -0.36)
5.3. Histogramas
Los histogramas son una representación gráfica de una distribución de frecuencia de datos numéricos en un intervalo de valores. El eje horizontal representa los valores de los datos divididos en intervalos, llamados "bin", y el eje vertical representa la frecuencia o la cantidad de datos que se encuentran en cada "bin". Los histogramas son útiles para identificar patrones en los datos, como su distribución, dispersión, simetría o sesgo.
Hemos generado dos histogramas con las distribuciones de los datos correspondientes a la precipitación total acumulada por año para las distintas estaciones meteorológicas, siendo los intervalos elegidos de 50 mm3.
Las principales conclusiones obtenidas de las visualizaciones de este apartado son:
-
Los registros de precipitación acumulada anual en Burgos presentan una distribución cercana a una distribución normal y simétrica.
-
Los registros de precipitación acumulada anual en Córdoba no presentan una distribución simétrica.
5.4. Diagramas de cajas y bigotes
Los diagramas de cajas y bigotes, son una representación gráfica de la distribución de un conjunto de datos numéricos. Estos gráficos representan la mediana, el rango intercuartílico y los valores mínimo y máximo de los datos. La caja del gráfico representa el rango intercuartílico, es decir, el rango entre el primer y tercer cuartil de los datos. Los puntos fuera de la caja, llamados valores atípicos, pueden indicar valores extremos o datos anómalos. Los diagramas de cajas son útiles para comparar distribuciones y detectar valores extremos en los datos.
Hemos generado un gráfico con los diagramas de cajas correspondientes a los datos de precipitaciones acumuladas de las estaciones meteorológicas.
De cara a entender el gráfico, hay que destacar los siguientes puntos:
-
Los límites de la caja indican el primer y el tercer cuartil (Q1 y Q3), que dejan por debajo de cada uno, el 25% y el 75% de los datos respectivamente.
-
La línea horizontal dentro de la caja es la mediana (equivalente al segundo cuartil Q2), que deja por debajo la mitad de los datos.
-
Los límites de los bigotes son los valores extremos, es decir, el valor mínimo y el valor máximo de la serie de datos.
-
Los puntos fuera de los bigotes son los valores atípicos (outliers)
Las principales conclusiones obtenidas de la visualización de este apartado son:
-
Ambas distribuciones presentan 3 valores extremos, siendo significativos los de Córdoba con valores superiores a 1000 mm3.
-
Los registros de Córdoba tienen una mayor variabilidad que los de Burgos, los cuales se presentan más estables.
5.5. Gráficos de sectores
Un gráfico de sectores es un tipo de gráfico circular que representa proporciones o porcentajes de un todo. Se compone de varias secciones o sectores, donde cada sector representa una proporción de la totalidad del conjunto. El tamaño del sector se determina en función de la proporción que representa, y se expresa en forma de ángulo o porcentaje. Es una herramienta útil para visualizar la distribución relativa de las diferentes partes de un conjunto y facilita la comparación visual de las proporciones entre los distintos grupos.
Hemos generamos dos gráficos de sectores (polares). El primero de ellos con el número de días que los valores superan los 30º en Córdoba y el segundo de ellos con el número de días que los valores bajan de los 0º en Burgos.
Para la realización de estos gráficos, hemos agrupado la suma del número de días anteriormente descrito en seis grupos, correspondientes a periodos de 5 años desde 1990 hasta el 2020.
Las principales conclusiones obtenidas de las visualizaciones de este apartado son:
-
Se da un aumento del 31,9% en el total de días anuales con temperaturas superiores a 30º en Córdoba para el periodo comprendido entre el 2015-2020 respecto al periodo 1990-1995.
-
Se da un aumento del 33,5% en el total de días anuales con temperaturas superiores a 30º en Burgos para el periodo comprendido entre el 2015-2020 respecto al periodo 1990-1995.
5.6. Gráficos de dispersión
Los gráficos de dispersión son una herramienta de visualización de datos que representan la relación entre dos variables numéricas mediante la ubicación de puntos en un plano cartesiano. Cada punto representa un par de valores de las dos variables y su posición en el gráfico indica cómo se relacionan entre sí. Los gráficos de dispersión se utilizan comúnmente para identificar patrones y tendencias en los datos, así como para detectar cualquier posible correlación entre las variables. Estos gráficos también pueden ayudar a identificar valores atípicos o datos que no encajan con la tendencia general.
Hemos generado dos gráficas de dispersión en las que se comparan los valores de temperaturas medias máximas y medias mínimas buscando tendencias de correlación entre ambas para los valores cada estación meteorológica.
Para poder analizar las correlaciones, no solamente de manera visual mediante las gráficas, sino también de manera numérica, obtenemos los coeficientes de correlación de Pearson. Este coeficiente es una medida estadística que indica el grado de asociación lineal entre dos variables cuantitativas. Se utiliza para evaluar si existe una relación lineal positiva (ambas variables aumentan o disminuyen simultáneamente a un ritmo constante), negativa (los valores de ambas variables varían de forma contraria) o nula (sin relación) entre dos variables y la fortaleza de dicha relación, cuanto más cerca de +1, más alta es su asociación.
-
Coeficiente de Pearson (Temperatura media max VS min) Córdoba: 0.15
-
Coeficiente de Pearson (Temperatura media max VS min) Burgos: 0.61
En la imagen observamos que mientras en Córdoba se aprecia una mayor dispersión, en Burgos se observa una mayor correlación.
A continuación, modificaremos las gráficas de dispersión anteriores para que nos aporten más información de forma visual. Para ello dividimos el espacio por sectores de colores (rojo con valores de temperatura más altos/ azul valores de temperatura más bajos) y mostramos en las distintas burbujas la etiqueta con el año correspondiente. Cabe destacar que los límites de cambio de color de los cuadrantes corresponden con los valores medios de cada una de las variables.
Las principales conclusiones obtenidas de las visualizaciones de este apartado son:
-
Existe una relación lineal positiva entre la temperatura media máxima y mínima tanto en Córdoba como en Burgos, siendo mayor esta correlación en los datos de Burgos.
-
Los años que presentan valores más elevados de temperaturas máximas y mínimas en Burgos son (2003, 2006 y 2020)
-
Los años que presentan valores más elevados de temperaturas máximas y mínimas en Córdoba son (1995, 2006 y 2020)
5.7. Matriz de correlación
La matriz de correlación es una tabla que muestra las correlaciones entre todas las variables en un conjunto de datos. Es una matriz cuadrada que muestra la correlación entre cada par de variables en una escala que va de -1 a 1. Un valor de -1 indica una correlación negativa perfecta, un valor de 0 indica que no hay correlación y un valor de 1 indica una correlación positiva perfecta. La matriz de correlación se utiliza comúnmente para identificar patrones y relaciones entre variables en un conjunto de datos, lo que puede ayudar a comprender mejor los factores que influyen en un fenómeno o resultado.
Hemos generado dos mapas de calor con los datos de las matrices de correlación para ambas estaciones meteorológicas.
Las principales conclusiones obtenidas de las visualizaciones de este apartado son:
-
Existe una fuerte correlación negativa (- 0.42) para Córdoba y (-0.45) para Burgos entre el número de días anuales con temperaturas superiores a 30º y las precipitaciones acumuladas. Esto quiere decir que conforme aumenta el número de días con temperaturas superiores a 30º disminuyen notablemente las precipitaciones.
6. Conclusiones del ejercicio
La visualización de datos es uno de los mecanismos más potentes para explotar y analizar el significado implícito de los datos. Como hemos observado en este ejercicio, "ggplot2" se trata de una potente librería capaz de representar una grán variedad de gráficos con un alto grado de personalización que permite ajustar numerosas caracteristicas propias de cada gráfico.
Una vez analizadas las visualizaciones anteriores, podemos concluir que tanto para la estación meteorológica de Burgos, como la de Córdoba, las temperaturas (mínimas, medias, máximas) han sufrido un aumento considerable, los días con calor extremo ( Tº > 30º) también lo han sufrido y las precipitaciones han disminuido en el periodo de tiempo analizado, desde 1990 hasta el 2020.
Esperemos que esta visualización paso a paso te haya resultado útil para el aprendizaje de algunas técnicas muy habituales en el tratamiento, representación e interpretación de datos abiertos. Volveremos para mostraros nuevas reutilizaciones. ¡Hasta pronto!
Urban3r es una aplicación que permite visualizar diferentes indicadores sobre el estado actual de la edificación, los datos de demanda energética de los edificios residenciales en su estado actual y tras someterlos a una rehabilitación energética, así como los costes estimados de estas intervenciones.
Para facilitar la toma de decisiones a escala urbana, la herramienta permite filtrar por temáticas de estudio específicas y consultar los datos individualmente a escala de edificio. A este nivel hay que tener en cuenta que se trata de una primera aproximación orientativa.
Para las personas registradas, la herramienta dispone de un sistema de descarga de datos en formato CSV y GeoPackage de aquellos municipios de España de los que dispone de información. Los municipios de los que no tiene información, pueden ser procesados automáticamente mediante la subida del fichero urbano en formato CAT disponible en la Sede Electrónica del Catastro.
La información relacionada con la rehabilitación energética de los edificios procede de una aplicación a escala de referencia catastral de los datos elaborados en el marco de la ERESEE 2020 (Estrategia a largo plazo para la rehabilitación energética en el sector de la edificación en España).
En definitiva, es una plataforma de datos abiertos para impulsar la regeneración urbana en España que utiliza los conjuntos de datos de la Sede Electrónica del Catastro y permite la descarga de los datos por municipio en formato CSV.
El Sistema de Observación Meteorológica del Gobierno de Canarias es una infraestructura promovida por la Consejería de Transición Ecológica, Lucha contra el Cambio Climático y Planificación Territorial, que integra una red de estaciones equipadas con sensores meteorológicos y servidores encargados de la administración de la red y el almacenamiento, control de calidad y difusión de los datos registrados.
Se trata de una red que se concibe como una infraestructura complementaria a las ya existentes y esencial para el ejercicio de competencias como las relacionadas con el Cambio Climático o el seguimiento de Fenómenos Meteorológicas Adversos (FMA).
Conforme a la Directiva (UE) 2019/1024, este sistema gestiona un conjunto de datos de alto valor que está disponible para su reutilización. Por ello, desde su web es posible realizar los siguientes servicios:
- Consultar la ubicación de las estaciones y los últimos datos registrados.
- Descargar las series históricas de observaciones registradas por las estaciones en datos abiertos.
- Visualizar en tiempo real las observaciones registradas por las estaciones meteorológicas.
- Integrar, mediante una API, los datos registrados en cualquier sistema.
Actualizado: 21/03/2024
En enero de 2023, la Comisión Europea publicó un listado de conjuntos de datos de alto valor que los organismos del sector público deberían poner a disposición de la ciudadanía en un plazo máximo de 16 meses. El principal objetivo de establecer la lista de conjuntos de datos de alto valor es garantizar que los datos públicos de mayor potencial socioeconómico se pongan a disposición para su reutilización con una restricción jurídica y técnica mínima, y sin coste alguno. Dentro de estos conjuntos de datos del sector público, algunos como los meteorológicos o los relativos a la calidad del aire, resultan especialmente interesantes para desarrolladores y creadores de servicios como aplicaciones o páginas webs, que reportan valor añadido e importantes beneficios para la sociedad, el medioambiente o la economía.
La publicación del Reglamento se acompañó de unas preguntas frecuentes para ayudar a los organismos públicos a entender el beneficio de los HVDS (High Value Datasets) en la sociedad y la economía, así como para explicar algunos aspectos sobre la obligatoriedad y las ayudas para la publicación.
En línea con esta propuesta, la Vicepresidenta Ejecutiva para una Europa adaptada a la era digital, Margrethe Vestager, declaró lo siguiente en la nota de prensa lanzada por la Comisión Europea:
“Poner a disposición del público conjuntos de datos de gran valor beneficiará tanto a la economía como a la sociedad, por ejemplo, ayudando a combatir el cambio climático, reduciendo la contaminación atmosférica urbana y mejorando las infraestructuras de transporte. Se trata de un paso práctico hacia el éxito de la Década Digital y la construcción de un futuro digital más próspero”.
De forma paralela, Thierry Breton, Comisario de Mercado Interior, quiso añadir también las siguientes palabras a colación del anuncio del listado de los datos de alto valor: “Los datos son una piedra angular de nuestra competitividad industrial en la UE. Con la nueva lista de conjuntos de datos de alto valor estamos desbloqueando una gran cantidad de datos públicos en beneficio de todos. Las nuevas empresas y las pymes podrán utilizar estos para desarrollar nuevos productos y soluciones innovadoras que mejoren la vida de los ciudadanos de la UE y de todo el mundo”.
Seis categorías para aglutinar los nuevos conjuntos de datos de alto valor
De este modo, el reglamento se crea al amparo de la Directiva Europea de Datos Abiertos, que define seis categorías para diferenciar los nuevos conjuntos de datos de alto valor solicitados:
- Geoespaciales
- De observación de la Tierra y medioambiente
- Meteorológicos
- Estadísticos
- De empresas
- De movilidad
No obstante, tal y como recoge la nota de prensa de la Comisión Europea, esta gama temática podría ampliarse posteriormente en función de la evolución de la tecnología y el mercado. Así, los conjuntos de datos estarán disponibles en formato legible por máquina, a través de una interfaz de programación de aplicaciones (API) y, si fuera relevante, también con opción de descarga masiva.
Además, la reutilización de conjuntos de datos como los de movilidad o geolocalización de edificios puede ampliar las oportunidades de negocio disponibles para sectores como la logística o el transporte. De forma paralela, los datos de observación meteorológica, de radar, de calidad del aire o de contaminación del suelo también pueden apoyar la investigación y la innovación digital, así como la elaboración de políticas en la lucha contra el cambio climático.
En definitiva, una mayor disponibilidad de datos y, en especial de alto valor, tiene la capacidad de impulsar el espíritu empresarial ya que estos conjuntos de datos pueden ser un recurso importante para que las pymes desarrollen nuevos productos y servicios digitales, lo que a su vez también puede atraer nuevos inversores.
Descubre más en esta infografía:
Digital Earth Solutions es una empresa tecnológica cuyo objetivo es contribuir a la conservación de los ecosistemas marinos mediante soluciones innovadoras de modelización oceánica.
Basados en más de 20 años de estudio del CSIC en dinámica oceánica, Digital Solutions ha desarrollado un software único capaz de predecir en pocos minutos y con alta precisión la evolución geográfica de cualquier vertido o cuerpo flotante (plásticos, personas, algas...), pronosticando su trayectoria en el mar para los siguientes días o su origen analizando su movimiento atrás en el tiempo.
Gracias a esta tecnología es posible minimizar el impacto que generan los vertidos de petróleo y otros residuos en costas, mares y océanos.
EnEKO es un asistente virtual que ayuda a los usuarios a ahorrar energía. Se trata de un bot inteligente en Telegram, que ofrece información sobre el precio de la electricidad y los combustibles (gasolina y gasoil), para que los usuarios puedan hace un uso más racional de los recursos energéticos.
La aplicación combina datos de:
- Open Data Euskadi: Indicadores municipales de sostenibilidad, Consumo eléctrico anual del municipio.
- Red Eléctrica Española: Precio de la energía eléctrica
- Ministerio para la Transición Ecológica y el Reto Demográfico: Precio de carburantes en las gasolineras españolas.
- Servicios de geolocalización de Google: para cruzar los datos de precios energéticos y su ubicación.
La interacción con el usuario es muy sencilla: a través de un enlace de invitación se accede al grupo de Telegram enEKO TEAM, a partir del cual es posible acceder a un chat privado con el bot para interactuar con él a través del comando /ENEK.
enEKO se hizo con el primer premio del Concurso de aplicaciones de Open Data Euskadi.
Medir el impacto de los datos abiertos es uno de los retos que tienen por delante las iniciativas de datos abiertos. En este contexto, el Portal de Datos Europeo ha puesto en marcha un observatorio de casos de uso que constará de diversos informes.
En el primer informe se presenta la metodología y 30 casos de reutilización seleccionados, incluyendo información sobre los servicios que ofrecen, los datos (abiertos) que utilizan y el impacto que tienen. Por último se presentan las conclusiones generales y las lecciones aprendidas en esta primera parte del proyecto. Para seleccionar los casos de uso, se realizó un inventario basado en tres fuentes: los ejemplos recogidos en los estudios de madurez que realiza cada año el portal europeo, las soluciones participantes en el EU Datathon y los ejemplos de reutilización disponibles en el repositorio de casos de uso de data.europa.eu.
Este informe se encuentra disponible en el siguiente enlace: "Observatorio de casos de uso: seguimiento de 3 años de 30 casos de reutilización para comprender el impacto económico, gubernamental, social y medioambiental de los datos abiertos (Volumen I) "
Al igual que en otras industrias, la transformación digital está ayudando a cambiar las bases de funcionamiento del sector agrícola y forestal. Combinar tecnologías como la geolocalización o la inteligencia artificial y emplear conjuntos de datos abiertos para desarrollar nuevas herramientas de precisión está transformando la agricultura en una actividad cada vez más tecnológica y analítica.
En esta línea, desde las administraciones también se está avanzando para mejorar la gestión y la toma de decisiones ante los retos a los que nos enfrentamos. Así, el Ministerio de Agricultura, Pesca y Alimentación y el Ministerio para la Transición Ecológica y el Reto Demográfico han diseñado dos herramientas digitales que utilizan datos abiertos: Fruktia (previsión de cosechas en frutales) y Arbaria (gestión de incendios), respectivamente.
Predecir las cosechas para gestionar mejor las crisis
Fruktia es una herramienta predictiva desarrollada por el Ministerio de Agricultura para prever situaciones de sobreoferta en el sector de fruta de hueso y cítricos antes que los sistemas tradicionales de conocimiento de previsiones o aforos. Tras las crisis de precios sufridas en 2017 en fruta de hueso y en 2019 en cítricos debido a un exceso de oferta sobrevenida, se vio que la toma de decisiones para gestionar estas crisis basándose en sistemas de predicción tradicionales llegaron tarde y que era necesario adelantarse para adoptar medidas por parte de la administración e incluso por el propio sector más efectivas y que evitaran la caída de precios.
Como respuesta a esta crítica situación, desde el Ministerio de Agricultura decidieron elaborar una herramienta que fuese capaz de predecir las cosechas en función de la meteorología y los datos de producción de años anteriores. Una herramienta de uso interno del Ministerio y cuyo análisis se vería en las mesas de trabajo con el sector, pero que en ningún caso sería pública, evitando así su posible influencia en los mercados de una manera no controlable.
Fruktia existe gracias a que desde dicho ministerio han conseguido aunar la información procedente de dos vías principales: los datos abiertos y el conocimiento de expertos sectoriales. Estas fuentes de datos son recogidas por una Inteligencia Artificial que mediante tecnología Machine Learning y Deep Learning analiza la información para realizar previsiones concretas.
Los conjuntos de datos abiertos utilizados provienen de:
- Información de las estaciones meteorológicas de la Agencia Española de Meteorología (AEMET).
- Información procedente de estaciones agroclimáticas.
Con los datos anteriores y los datos estadísticos de estimaciones de cosecha de campañas pasadas (Avances de Producción y Anuarios del Ministerio de Agricultura, Pesca y Alimentación) junto con información específica del sector, Fruktia realiza dos tipos de predicciones de cosecha: a nivel regional (modelo de provincias) y a nivel explotación agrícola (modelo de recintos).
El modelo de provincias sirve para elaborar predicciones a nivel provincial (como indica su nombre) y analizar los resultados de cosechas anteriores con el objetivo de:
- Anticipar los excesos de producción.
- Prever las crisis del sector mejorando la toma de decisiones para gestionarlas.
- Estudiar la evolución de cada producto por provincias.
Dicho modelo, si bien ya está desarrollado, sigue mejorándose para lograr la mejor adaptación a la realidad independientemente de las condiciones meteorológicas que se den.
Por otra parte, el modelo de recintos (aún en desarrollo) tiene como finalidad:
- Previsiones de producción con un mayor nivel de detalle y para más productos (por ejemplo, se podrá conocer previsiones de producciones de cultivos de fruta de hueso como paraguayo o platerina de los que actualmente por fuentes estadísticas aún no tenemos información).
- Saber cómo afectan a las cosechas fenómenos meteorológicos concretos en distintas regiones.
El modelo de recintos aún se está diseñando, y cuando esté en pleno funcionamiento también contribuirá a:
- Mejorar la planificación de la comercialización.
- Anticipar los excesos de producción a un nivel más local o para una tipología de producto concreta.
- Predecir crisis antes de que se produzcan para anticiparse a sus efectos y no ir a una situación de caída de precios.
- Localizar zonas o recintos con problemas en campañas concretas.
En otras palabras, la finalidad última de Fruktia es lograr la simulación de distintos tipos de escenarios que sirvan para adelantarse a los problemas de cada cosecha mucho antes de que esta se produzca para adoptar las decisiones adecuadas desde las administraciones.
Arbaria: ciencia de datos para prevenir incendios forestales
Un año antes del nacimiento de Fruktia, en 2019, el Ministerio de Agricultura, Pesca y Alimentación diseñó una herramienta digital para la predicción de incendios forestales que, a su vez, es coordinada desde el punto de vista forestal por el Ministerio para la Transición Ecológica y el Reto Demográfico.
Bajo el nombre de Arbaria, esta iniciativa del Ejecutivo busca analizar y predecir el riesgo de ocurrencia de incendios en ámbitos temporales y territoriales concretos del territorio español. En particular, gracias al análisis de los datos utilizados, es capaz de analizar la influencia socioeconómica en la ocurrencia de incendios forestales a escala municipal y anticipar el riesgo de incendio en campaña de verano a nivel provincial, mejorando así el acceso a los recursos necesarios para atajarlo.
La herramienta utiliza el histórico de datos de fuentes de información abierta como la AEMET o el INE, y los registros de la Estadística General de Incendios Forestales (EGIF). Para ello, se utilizan técnicas de Inteligencia Artificial relacionadas con el Deep y el Machine Learning, así como la tecnología en la nube de Amazon Web Services.
Sin embargo, el nivel de precisión que ofrece una herramienta como Arbaria no se debe solamente a la tecnología con la que ha sido diseñada, sino a la calidad de los datos abiertos seleccionados.
Considerar la realidad demográfica de cada municipio como una variable más a tener en cuenta es importante a la hora de determinar el riesgo de incendio. Es decir, conocer el número de empresas asentadas en una localidad, la actividad económica desarrollada en la misma, los habitantes censados o la cantidad de explotaciones agrícolas o ganaderas presentes es relevante para poder anticiparse al riesgo y crear campañas preventivas orientadas a sectores específicos.
Además, el histórico de datos de incendios forestales aglutinado en la Estadística General de Incendios Forestales es uno de los más completos del mundo. Existe un registro general de incendios desde el año 1968 y otro especialmente exhaustivo desde la década de los 90 hasta la actualidad, que incluye datos como la localización y características de la superficie del incendio, medios utilizados en la extinción, tiempo de extinción, causas del incendio o daños y perjuicios en la zona, entre otros.
Iniciativas como Fruktia o Arbaria sirven para demostrar cuál es el potencial económico y social que puede extraerse de los conjuntos de datos abiertos. Ser capaces de predecir, por ejemplo, la cantidad de melocotones que darán los frutales de un municipio de Almería ayuda no solo a planificar la creación de empleo en una zona, sino también a garantizar que las ventas y el consumo en una zona se mantienen estables.
Igualmente, ser capaces de predecir el riesgo de incendios amplia las herramientas para poder realizar una planificación más adecuada de su prevención y extinción.
El próximo 21 de noviembre tendrá lugar el primer Encuentro Nacional de Datos Abiertos en Barcelona. Se trata de una iniciativa impulsada y coorganizada por la Diputación de Barcelona, el Gobierno de Aragón y la Diputación de Castellón, con el fin de identificar y elaborar propuestas concretas que impulsen la reutilización de los datos abiertos.
Este primer encuentro estará centrado en el papel de los datos abiertos a la hora de desarrollar políticas de cohesión territorial que contribuyan a superar el reto demográfico.
Agenda
La jornada comenzará a la 9:00 de la mañana y se extenderá hasta las 18:00 de la tarde.
Tras la inauguración, que correrá a cargo de Marc Verdaguer, diputado del Área de Innovación, gobiernos locales y cohesión territorial de la Diputación de Barcelona, tendrá lugar una ponencia principal, donde Carles Ramió, vicerrector de Planificación y Evaluación Institucional en la Universidad Pompeu Fabra, expondrán el contexto de la materia.
A continuación, la jornada se estructurará en cuatro sesiones donde se debatirá sobre los siguientes temas:
- 10:30 horas. Estado de la cuestión: luces y algunas sombras de abrir y reutilizar datos
- 12:30 horas. ¿Qué necesita y espera la sociedad de los portales de datos abiertos de las AAPP?
- 15:00 horas. Apuesta local para luchar contra el despoblamiento a través de los datos abiertos
- 16:30 horas. ¿Qué pueden hacer las AAPP usando sus datos para luchar conjuntamente contra la despoblación?
En la jornada participarán expertos ligados a diversas iniciativas de datos abiertos, organizaciones públicas y asociaciones empresariales. En concreto, la Iniciativa Aporta participará en la primera sesión, donde se hablará de los retos y oportunidades del uso de los datos abiertos.
La importancia de abordar el reto demográfico
Durante la jornada se abordará cómo el envejecimiento de la población, el aislamiento geográfico que dificulta el acceso a centros sanitarios, administrativos y educativos o la pérdida de la actividad económica afectan a los municipios de menor población, tanto rurales como urbanos. Una situación con gran repercusión en la sostenibilidad y abastecimiento de todo el país, así como en preservación de la cultura y la diversidad.
1. Introducción
Las visualizaciones son representaciones gráficas de datos que permiten comunicar de manera sencilla y efectiva la información ligada a los mismos. Las posibilidades de visualización son muy amplias, desde representaciones básicas, como puede ser un gráfico de líneas, barras o sectores, hasta visualizaciones configuradas sobre cuadros de mando o dashboards interactivos. Las visualizaciones juegan un papel fundamental en la extracción de conclusiones a partir de información visual, permitiendo además detectar patrones, tendencias, datos anómalos o proyectar predicciones, entre otras muchas funciones.
Antes de lanzarnos a construir una visualización efectiva, debemos realizar un tratamiento previo de los datos, prestando especial atención a la obtención de los mismos y validando su contenido, asegurando que se encuentran en el formato adecuado y consistente para su procesamiento y no contienen errores. Un tratamiento previo de los datos es primordial para realizar cualquier tarea relacionada con el análisis de datos y la realización de visualizaciones efectivas.
En la sección “Visualizaciones paso a paso” estamos presentando periódicamente ejercicios prácticos de visualizaciones de datos abiertos que están disponibles en el catálogo datos.gob.es u otros catálogos similares. En ellos abordamos y describimos de manera sencilla las etapas necesarias para obtener los datos, realizar las transformaciones y análisis que resulten pertinentes para, finalmente, crear visualizaciones interactivas, de las que podemos extraer información en forma de conclusiones finales.
En este ejercicio práctico, hemos realizado un sencillo desarrollo de código que está convenientemente documentado apoyandonos en herramientas de uso gratuito.
Accede al repositorio del laboratorio de datos en Github.
Ejecuta el código de pre-procesamiento de datos sobre Google Colab.
2. Objetivo
El objetivo principal de este post es aprender a realizar una visualización interactiva partiendo de datos abiertos. Para este ejercicio práctico hemos escogido conjuntos de datos que contienen información relevante sobre los embalses nacionales. A partir de estos datos realizaremos el análisis de su estado y de su evolución temporal en los últimos años.
3. Recursos
3.1. Conjuntos de datos
Para este caso práctico se han seleccionado conjuntos de datos publicados por el Ministerio para la Transición Ecológica y el Reto Demográfico, que dentro del boletín hidrológico recoge series temporales de datos sobre él volumen de agua embalsada de los últimos años para todos los embalses nacionales con una capacidad superior a 5hm3. Datos históricos del volumen de agua embalsada disponibles en:
También se ha seleccionado un conjunto de datos geoespaciales. Durante su búsqueda, se han encontrado dos posibles archivos con datos de entrada, el que contiene las áreas geográficas correspondientes a los embalses de España y el que contiene las presas que incluye su geoposicionamiento como un punto geográfico. Aunque evidentemente no son lo mismo, embalses y presas guardan relación y para simplificar este ejercicio práctico optamos por utilizar el archivo que contiene la relación de presas de España. Inventario de presas disponible en: https://www.mapama.gob.es/ide/metadatos/index.html?srv=metadata.show&uuid=4f218701-1004-4b15-93b1-298551ae9446 , concretamente:
Este conjunto de datos contiene geolocalizadas (Latitud, Longitud) las presas de toda España con independencia de su titularidad. Se entiende por presa, aquellas estructuras artificiales que, limitando en todo o en parte el contorno de un recinto enclavado en el terreno, esté destinada al almacenamiento de agua dentro del mismo.
Para generar los puntos geográficos de interés se realiza un procesamiento mediante la herramienta QGIS, cuyos pasos son los siguientes: descargar el archivo ZIP, cargarlo en QGIS y guardarlo como CSV incluyendo la geometría de cada elemento como dos campos que especifican su posición como un punto geográfico (Latitud y Longitud).
También se he realizado un filtrado para quedarnos con los datos correspondientes a las presas de los embalses que tengan una capacidad mayor a 5hm3
3.2. Herramientas
Para la realización del preprocesamiento de los datos se ha utilizado el lenguaje de programación Python desde el servicio cloud de Google Colab, que permite la ejecución de Notebooks de Jupyter.
Google Colab o también llamado Google Colaboratory, es un servicio gratuito en la nube de Google Research que permite programar, ejecutar y compartir código escrito en Python o R desde tu navegador, por lo que no requiere la instalación de ninguna herramienta o configuración.
Para la creación de la visualización interactiva se ha usado la herramienta Google Data Studio.
Google Data Studio es una herramienta online que permite realizar gráficos, mapas o tablas que pueden incrustarse en sitios web o exportarse como archivos. Esta herramienta es sencilla de usar y permite múltiples opciones de personalización.
Si quieres conocer más sobre herramientas que puedan ayudarte en el tratamiento y la visualización de datos, puedes recurrir al informe \"Herramientas de procesado y visualización de datos\".
4. Enriquecimiento de los datos
Con la finalidad de aportar mayor información relacionada a cada una de las presas en el dataset con datos geoespaciales, se realiza un proceso de enriquecimiento de datos explicado a continuación.
Para ello vamos a utilizar una herramienta útil para este tipo de tarea, OpenRefine. Esta herramienta de código abierto permite realizar múltiples acciones de preprocesamiento de datos, aunque en esta ocasión la usaremos para llevar a cabo un enriquecimiento de nuestros datos mediante la incorporación de contexto enlazando automáticamente información que reside en el popular repositorio de conocimiento Wikidata.
Una vez instalada la herramienta en nuestro ordenador, al ejecutarse se abrirá una aplicación web en el navegador, en caso de que eso no ocurriese, se accedería a dicha aplicación tecleando en la barra de búsqueda del navegador \"localhost:3333\".
Pasos a seguir:
- Paso 1: Carga del CSV en el sistema (Figura 1).
Figura 1 - Carga de un archivo CSV en OpenRefine
- Paso 2: Creación del proyecto a partir del CSV cargado (Figura 2). OpenRefine se gestiona mediante proyectos (cada CSV subido será un proyecto), que se guardan en el ordenador dónde se esté ejecutando OpenRefine para un posible uso posterior. En este paso debemos dar un nombre al proyecto y algunos otros datos, como el separador de columnas, aunque lo más habitual es que estos últimos ajustes se rellenen automáticamente.
Figura 2 - Creación de un proyecto en OpenRefine
- Paso 3: Enlazado (o reconciliación, usando la nomenclatura de OpenRefine) con fuentes externas. OpenRefine nos permite enlazar recursos que tengamos en nuestro CSV con fuentes externas como Wikidata. Para ello se deben realizar las siguientes acciones (pasos 3.1 a 3.3):
- Paso 3.1: Identificación de las columnas a enlazar. Habitualmente este paso suele estar basado en la experiencia del analista y su conocimiento de los datos que se representan en Wikidata. Como consejo, habitualmente se podrán reconciliar o enlazar aquellas columnas que contengan información de carácter más global o general como nombres de países, calles, distritos, etc., y no se podrán enlazar aquellas columnas como coordenadas geográficas, valores numéricos o taxonomías cerradas (tipos de calles, por ejemplo). En este ejemplo, hemos encontrado la columna NOMBRE que contiene el nombre de cada embalse que puede servir como identificador único de cada ítem y puede ser un buen candidato para enlazar.
- Paso 3.2: Comienzo de la reconciliación. Comenzamos la reconciliación como se indica en la figura 3 y seleccionamos la única fuente que estará disponible: Wikidata(en). Después de hacer clic en Start Reconciling, automáticamente comenzará a buscar la clase del vocabulario de Wikidata que más se adecue basado en los valores de nuestra columna.
Figura 3 – Inicio del proceso de reconciliación de la columna NOMBRE en OpenRefine
- Paso 3.3: Selección de la clase de Wikidata. En este paso obtendremos los valores de la reconciliación. En este caso como valor más probable, seleccionamos el valor de la propiedad “reservoir” cuya descripción se puede ver en https://www.wikidata.org/wiki/Q131681, que corresponde a la descripción de un “lago artificial para acumular agua”. Únicamente habrá que pulsar otra vez en Start Reconciling.
OpenRefine nos ofrece la posibilidad de mejorar el proceso de reconciliación agregando algunas características que permitan orientar el enriquecimiento de la información con mayor precisión. Para ello ajustamos la propiedad P4568 cuya descripción se corresponde con el identificador de un embalse en España, en el SNCZI-Inventario de Presas y Embalses, como se observa en la figura 4.
Figura 4 - Selección de la clase de Wikidata que mejor representa los valores de la columna NOMBRE
- Paso 4: Generar una nueva columna con los valores reconciliados o enlazados. Para ello debemos pulsar en la columna NOMBRE e ir a “Edit Column → Add column based in this column”, dónde se mostrará un texto en la que tendremos que indicar el nombre de la nueva columna (en este ejemplo podría ser WIKIDATA_EMBALSE). En la caja de expresión deberemos indicar: “http://www.wikidata.org/entity/”+cell.recon.match.id y los valores aparecen como se previsualiza en la Figura 6. “http://www.wikidata.org/entity/” se trata de una cadena de texto fija para representar las entidades de Wikidata, mientras el valor reconciliado de cada uno de los valores lo obtenemos a través de la instrucción cell.recon.match.id, es decir, cell.recon.match.id(“ALMODOVAR”) = Q5369429.
Mediante la operación anterior, se generará una nueva columna con dichos valores. Con el fin de comprobar que se ha realizado correctamente, haciendo clic en una de las celdas de la nueva columna, está debería conducir a una página web de Wikidata con información del valor reconciliado.
El proceso lo repetimos para añadir otro tipo de información enriquecida como la referencia en Google u OpenStreetMap.
Figura 5 - Generación de las entidades de Wikidata gracias a la reconciliación a partir de una nueva columna
- Paso 5: Descargar el CSV enriquecido. Utilizamos la función Export → Custom tabular exporter situada en la parte superior derecha de la pantalla y seleccionamos las características como se indica en la Figura 6.
Figura 6 - Opciones de descarga del fichero CSV a través de OpenRefine
5. Preprocesamiento de datos
Durante el preprocesamiento es necesario realizar un análisis exploratorio de los datos (EDA) con el fin de interpretar adecuadamente los datos de partida, detectar anomalías, datos ausentes o errores que pudieran afectar a la calidad de los procesos posteriores y resultados, además de realizar las tareas de transformación y preparación de las variables necesarias. Un tratamiento previo de los datos es esencial para garantizar que los análisis o visualizaciones creadas posteriormente a partir de ellos son confiables y consistentes. Si quieres conocer más sobre este proceso puedes recurrir a la Guía Práctica de Introducción al Análisis Exploratorio de Datos.
Los pasos que se siguen en esta fase de preprocesamiento son los siguientes:
- Instalación y carga de librerías
- Carga de archivos de datos de origen
- Modificación y ajuste de las variables
- Detención y tratamiento de datos ausentes (NAs)
- Generación de nuevas variables
- Creación de tabla para visualización \"Evolución histórica de la reserva hídrica entre los años 2012 y 2022\"
- Creación de tabla para visualización \"Reserva hídrica (hm3) entre los años 2012 y 2022\"
- Creación de tabla para visualización \"Reserva hídrica (%) entre los años 2012 y 2022\"
- Creación de tabla para visualización \"Evolución mensual de la reserva hídrica (hm3) para distintas series temporales\"
- Guardado de las tablas con los datos preprocesados
Podrás reproducir este análisis, ya que el código fuente está disponible en este repositorio de GitHub. La forma de proporcionar el código es a través de un documento realizado sobre un Jupyter Notebook que una vez cargado en el entorno de desarrollo podrás ejecutar o modificar de manera sencilla. Debido al carácter divulgativo de este post y con el fin de favorecer el aprendizaje de lectores no especializados, el código no pretende ser el más eficiente, sino facilitar su comprensión por lo que posiblemente se te ocurrirán muchas formas de optimizar el código propuesto para lograr fines similares. ¡Te animamos a que lo hagas!
Puedes seguir los pasos y ejecutar el código fuente sobre este notebook en Google Colab.
6. Visualización de datos
Una vez hemos realizado un preprocesamiento de los datos, vamos con las visualizaciones. Para la realización de estas visualizaciones interactivas se ha usado la herramienta Google Data Studio. Al ser una herramienta online, no es necesario tener instalado un software para interactuar o generar cualquier visualización, pero sí es necesario que las tablas de datos que le proporcionemos estén estructuradas adecuadamente.
Para abordar el proceso de diseño del conjunto de representaciones visuales de los datos, el primer paso es plantearnos las preguntas que queremos resolver. Proponemos las siguientes:
- ¿Cuál es la localización de los embalses dentro del territorio nacional?
-
¿Qué embalses son los de mayor y menor aporte de volumen de agua embalsada (reserva hídrica en hm3) al conjunto del país?
-
¿Qué embalses poseen el mayor y menor porcentaje de llenado (reserva hídrica en %)?
-
¿Cuál es la tendencia en la evolución de la reserva hídrica en los últimos años?
¡Vamos a buscar las respuestas viendo los datos!
6.1. Localización geográfica y principal información de cada embalse
Esta representación visual se ha realizado teniendo en cuenta las coordenadas geográficas de los embalses y distinta información asociada a cada uno de ellos. Para ello se ha generado durante el preprocesamiento de datos la tabla “geo.csv”
Mediante un mapa de puntos geográficos se visualiza la localización de los embalses en el territorio nacional.
Una vez obtenido el mapa, pinchando en cada uno de los embalses podemos acceder a información complementaria sobre dicho embalse en la tabla inferior. También, mediante las pestañas despegables, aparece la opción de filtrar el mapa por demarcación hidrográfica y por embalse.
Ver la visualización en pantalla completa
6.2. Reserva hídrica (hm3) entre los años 2012 y 2022
Esta representación visual se ha realizado teniendo en cuenta la reserva hídrica (hm3) por embalse entre los años los años 2012 (inclusive) y 2022. Para ello se ha generado durante el preprocesamiento de datos la tabla “volumen.csv”
Mediante un gráfico de jerarquía rectangular se visualiza de forma intuitiva la importancia de cada embalse en cuanto a volumen embalsado dentro del conjunto nacional para el periodo temporal anteriormente indicado.
Una vez obtenido el gráfico, mediante las pestañas despegables, aparece la opción de filtrar la visualización por demarcación hidrográfica y por embalse.
Ver la visualización en pantalla completa
6.3. Reserva hídrica (%) entre los años 2012 y 2022
Esta representación visual se ha realizado teniendo en cuenta la reserva hídrica (%) por embalse entre los años 2012 (inclusive) y 2022. Para ello se ha generado durante el preprocesamiento de datos la tabla “porcentaje.csv”
Mediante un gráfico de barras se visualiza de forma intuitiva el porcentaje de llenado de cada embalse para el periodo temporal anteriormente indicado.
Una vez obtenido el gráfico, mediante las pestañas despegables, aparece la opción de filtrar la visualización por demarcación hidrográfica y por embalse.
Ver la visualización en pantalla completa
6.4. Evolución histórica de la reserva hídrica entre los años 2012 y 2022
Esta representación visual se ha realizado teniendo en cuenta los datos históricos de la reserva hídrica (hm3 y %) para todas las mediciones semanales registradas entre los años 2012(inclusive) y 2022. Para ello se ha generado durante el preprocesamiento de datos la tabla “lineas.csv”
Mediante gráficos de líneas y sus líneas de tendencia se visualiza la evolución temporal de la reserva hídrica (hm3 y %).
Una vez obtenido el gráfico, mediante las pestañas desplegables, podemos modificar la serie temporal, filtrar por demarcación hidrográfica y por embalse.
Ver la visualización en pantalla completa
6.5. Evolución mensual de la reserva hídrica (hm3) para distintas series temporales
Esta representación visual se ha realizado teniendo en cuenta la reserva hídrica (hm3) de los distintos embalses desglosada por meses para distintas series temporales (cada uno de los años desde el 2012 hasta el 2022). Para ello se ha generado durante el preprocesamiento de datos la tabla “lineas_mensual.csv”
Mediante un gráfico de líneas se visualízala la reserva hídrica mes a mes para cada una de las series temporales.
Una vez obtenido el gráfico, mediante las pestañas desplegables, podemos filtrar por demarcación hidrográfica y por embalse. También tenemos la opción de elegir la serie o series temporales (cada uno de los años desde el 2012 hasta el 2022) que queremos visualizar mediante el icono que aparece en la parte superior derecha del gráfico.
Ver la visualización en pantalla completa
7. Conclusiones
La visualización de datos es uno de los mecanismos más potentes para explotar y analizar el significado implícito de los datos, independientemente del tipo de dato y el grado de conocimiento tecnológico del usuario. Las visualizaciones nos permiten construir significado sobre los datos y la creación de narrativas basadas en la representación gráfica. En el conjunto de representaciones gráficas de datos que acabamos de implementar se puede observar lo siguiente:
-
Se observa una tendencia significativa en la disminución del volumen de agua embalsada por el conjunto de embalses nacionales entre los años 2012 y 2022.
-
El año 2017 es el que presenta valores más bajos de porcentaje de llenado total de los embalses, llegando a ser este inferior al 45% en ciertos momentos del año.
-
El año 2013 es el que presenta valores más altos de porcentaje de llenado total de los embalses, llegando a ser este superior al 80% en ciertos momentos del año.
Cabe destacar que en las visualizaciones tienes la opción de filtrar por demarcación hidrográfica y por embalse. Te animamos a lo que lo hagas para sacar conclusiones más específicas de las demarcaciones hidrográficas y embalses que estés interesado.
Esperemos que esta visualización paso a paso te haya resultado útil para el aprendizaje de algunas técnicas muy habituales en el tratamiento y representación de datos abiertos. Volveremos para mostraros nuevas reutilizaciones. ¡Hasta pronto!
