La demanda de profesionales con habilidades relacionadas con la analítica de datos no deja de crecer y ya se estima que la industria solo en España necesitaría más de 90.000 profesionales en datos e inteligencia artificial para impulsar la economía. Formar profesionales que puedan llenar este hueco es un gran reto que está haciendo incluso grandes compañías tecnológicas como Google, Amazon o Microsoft estén proponiendo programas de formación especializado que en paralelo a los que propone el sistema educativo reglado. Y en este contexto los datos abiertos tienen un papel muy relevante en la formación práctica de estos profesionales, ya que con frecuencia, los datos abiertos son la única posibilidad para realizar ejercicios reales y no solo simulados.
Además, aunque aún no existe un corpus de investigación sólido al respecto, algunos trabajos ya sugieren efectos positivos derivados del uso de datos abiertos como herramienta en el proceso de enseñanza-aprendizaje de cualquier materia y no solo de las relacionadas con la analítica de datos. Algunos países europeos han reconocido ya este potencial y han desarrollado proyectos piloto para determinar la mejor forma de introducir datos abiertos en el currículo escolar.
En este sentido, los datos abiertos se pueden utilizar como una herramienta para la educación y la formación de varias maneras. Por ejemplo, los datos abiertos se pueden utilizar para desarrollar nuevos materiales de enseñanza y aprendizaje, para crear proyectos basados en datos del mundo real para estudiantes o para apoyar la investigación sobre enfoques pedagógicos efectivos. Además, los datos abiertos se pueden utilizar para crear oportunidades de colaboración entre educadores, estudiantes e investigadores con el fin de compartir mejores prácticas y colaborar en soluciones a desafíos comunes.
Proyectos basados en datos del mundo real
Una aportación clave de los datos abiertos es su autenticidad, ya que son una representación de la enorme complejidad e incluso de los defectos del mundo real a diferencia de las construcciones artificiales o los ejemplos de libros de texto que se basan en supuestos muchos más simples.
Un ejemplo interesante en este sentido es el que documentó la Universidad Simon Fraser de Canadá en su Máster en Edición donde la mayor parte de sus alumnos proceden de programas universitarios no STEM y que por tanto tenían unas capacidades limitadas en el manejo de datos. El proyecto está disponible como recurso educativo abierto en la plataforma OER Commons y su objetivo es que los estudiantes comprendan que las métricas y la medición son herramientas estratégicas importantes para comprender el mundo que nos rodea.
Al trabajar con datos del mundo real, los estudiantes pueden desarrollar habilidades de construcción de relatos e investigación, y pueden aplicar habilidades analíticas y colaborativas en el uso de datos para resolver problemas del mundo real. El caso de estudio realizado con la primera edición en la que se utilizó este OER basado en datos abiertos está documentado en el libro “Open Data as Open Educational Resources - Case studies of emerging practice”. En él se muestra que la oportunidad de trabajar con datos pertenecientes a su campo de estudio resultó esencial para mantener a los estudiantes comprometidos con el proyecto. Sin embargo, lidiar con el desorden de los datos del "mundo real" fue lo que les permitió obtener un aprendizaje valioso y nuevas habilidades prácticas.
Desarrollo de nuevos materiales de aprendizaje
Los conjuntos de datos abiertos tienen un gran potencial para ser utilizados en el desarrollo de recursos educativos abiertos (REA) que son materiales de enseñanza, aprendizaje e investigación en soporte digital de carácter gratuito, pues son publicados con una licencia abierta (Creative Commons) que permite su uso, adaptación y redistribución para usos no comerciales de acuerdo con la definición de la UNESCO.
En este contexto, si bien los datos abiertos no siempre son REA, podemos decir que se convierten en REA cuando se usan en contextos pedagógicos. Los datos abiertos cuando se utilizan como recurso educativo facilitan que los estudiantes aprendan y experimenten trabajando con los mismos conjuntos de datos que utilizan investigadores, gobiernos y sociedad civil. Son un componente clave para que los estudiantes desarrollen habilidades de análisis, estadísticas, científicas y de pensamiento crítico.
Es difícil estimar la presencia actual de los datos abiertos como parte de los REA pero no resulta difícil encontrar ejemplos interesantes dentro de las principales plataformas de recursos educativos abiertos. En la plataforma Procomún podemos encontrar interesantes ejemplos como Aprender Geografía a través de la evolución de los paisajes agrarios de España que construye sobre la plataforma ArcGIS Online de la Universidad Complutense de Madrid un Webmap para el aprendizaje de los paisajes agrarios en España. El recurso educativo emplea ejemplos concretos de distintas comunidades autónomas empleando fotografías o imágenes fijas geolocalizadas y datos propios integrados con datos abiertos. De este modo los estudiantes trabajan los conceptos no a través de una mera descripción en texto sino con recursos interactivos que favorecen además la mejora de sus competencias digitales y espaciales
En la plataforma OER Commons encontramos por ejemplo el recurso “De los datos abiertos al compromiso cívico” que está dirigido a públicos a partir de enseñanza secundaria con el objetivo de enseñar a interpretar cómo se gasta el dinero público en un área regional, local, o barrio determinado. Para ello se apoya en los conocidos proyectos para analizar presupuestos públicos “¿Dónde van mis impuestos?”, disponibles en muchas zonas del mundo como fruto de las políticas de transparencia de los poderes públicos. Este recurso que podría ser portado a España con facilidad ya que contamos con numerosos proyectos ¿Donde van mis impuestos?, como el mantenido por Fundación Civio.
Habilidades relacionadas con datos
Cuando nos referimos a la formación y educación en habilidades relacionadas con los datos, en realidad nos estamos refiriendo a un área de gran amplitud que además es muy difícil dominar en todas sus facetas. De hecho, lo habitual es que los proyectos relacionados con datos se aborden en equipos donde cada miembro desempeña un rol especializado en alguna de estas áreas. Por ejemplo, es habitual diferenciar al menos la limpieza y preparación de datos, el modelado de datos y la visualización de datos como las principales actividades que se realizan en un proyecto de ciencia datos e inteligencia artificial.
En todos los casos el uso de datos abiertos está ampliamente adoptado como recurso central de los proyectos que se proponen para la adquisición de cualquiera de estas habilidades. La muy conocida comunidad de ciencia de datos Kaggle organiza competiciones basadas en conjuntos de datos abiertos aportados a la comunidad y que constituyen un recurso esencial para el aprendizaje basado en proyectos reales de quienes quieren adquirir habilidades relacionadas con los datos. Existen otras propuestas basadas en suscripciones como Dataquest o ProjectPro pero en todos los casos utilizan para los proyectos que proponen conjuntos de datos reales obtenidos de los múltiples repositorios de datos abiertos de carácter general o repositorios específicos de un área de conocimiento.
Los datos abiertos, al igual que en otras áreas, aún no han desarrollado todo su potencial como herramienta para la educación y la formación. Sin embargo como puede verse en el programa de la última edición de la OER Conference 2022, cada vez son más los ejemplos en los que los datos abiertos tienen un papel central en la enseñanza, las nuevas prácticas educativas y la creación de nuevos recursos educativos para todo tipo de materias, conceptos y habilidades.
Contenido elaborado por Jose Luis Marín, Senior Consultant in Data, Strategy, Innovation & Digitalization.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
El pasado 20 de octubre el concurso de datos abiertos organizado por la UE llegó a su fin tras varios meses de competición. La final de esta sexta edición del EU Datathon se celebró en Bruselas en el marco del Año Europeo de la Juventud y fue transmitido por streaming a nivel mundial.
Se trata de un certamen que brinda a los entusiastas de los datos abiertos y a los desarrolladores de aplicaciones de todo el mundo la oportunidad de demostrar el potencial de los datos abiertos, a la vez que sus ideas innovadoras obtienen visibilidad internacional y entran a competir por una parte del premio total, que asciende a 200.000 euros.
Los equipos finalistas fueron seleccionados previamente entre un total de 156 propuestas iniciales. Estas llegaron desde 38 países distintos, la mayor participación de la historia del concurso, para competir en cuatro categorías diferentes relacionadas con los retos a los que se enfrenta Europa hoy en día.
Antes de la final, los participantes seleccionados tuvieron la oportunidad de presentar en formato vídeo cada una de las propuestas que han ido desarrollando a partir de los datos abiertos procedentes de los catálogos europeos.
A continuación, desgranamos quiénes han sido los equipos ganadores de cada reto, en qué consiste la propuesta presentada y a cuánto asciende el premio.
Ganadores Reto "Pacto Verde Europeo"
El Pacto Verde Europeo (European Green Deal, en inglés) es el plan para impulsar una economía europea moderna, sostenible y competitiva. Los participantes que se decantaron por este reto tuvieron que desarrollar aplicaciones o servicios dirigidos a crear una Europa verde, capaz de impulsar el uso eficiente de los recursos.
1º premio: CROZ RenEUwable (Croacia)
La aplicación desarrollada por este equipo croata, "renEUwable", combina el análisis de datos medioambientales, sociales y económicos para ofrecer recomendaciones específicas y personales sobre el uso sostenible de la energía.
- Galardón: 25.000 €
2º premio: MyBioEUBuddy (Francia, Montenegro)
Este proyecto nace para ayudar a trabajadores del campo y gobiernos locales a encontrar regiones que cultiven productos orgánicos y puedan servir de ejemplo para construir una red de agricultura más sostenible.
- Galardón: 15.000 €
3º premio: Green Land Dashboard for Cities (Italia)
El bronce en esta categoría ha ido a parar a un proyecto italiano que pretende analizar y visualizar la evolución de las zonas verdes para ayudar a las ciudades, los gobiernos regionales y las organizaciones no gubernamentales a hacerlas más habitables y sostenibles.
- Galardón: 7.000 €
Ganadores Reto "Transparencia en la contratación pública"
La transparencia en la contratación pública ayuda a rastrear cómo se gasta el dinero, a combatir el fraude y a analizar las tendencias económicas y de mercado. Los participantes que eligieron este reto tuvieron que explorar la información disponible para desarrollar una aplicación que mejorase la transparencia.
1º premio: Free Software Foundation Europe e.V (Alemania)
Este equipo de desarrolladores tiene como objetivo poner al alcance de los usuarios los vínculos existentes entre el sector privado, las administraciones públicas, los usuarios y las licitaciones.
- Galardón: 25.000 €
2º premio: The AI-Team (Alemania)
Se trata de un proyecto que propone visualizar los datos del TED, el diario europeo de la contratación pública, en una base de datos gráfica y combinarlos con información sobre la propiedad y una lista de entidades sancionadas. Esto permitirá a los funcionarios públicos y a los competidores rastrear los importes y valores de los contratos adjudicados hasta llegar a los propietarios de las empresas.
- Galardón: 15.000 €
3º premio: EMMA (Francia)
Esta herramienta de prevención y detección temprana del fraude permite a las instituciones públicas, periodistas y a sociedad civil controlar automáticamente cómo se establece la relación entre empresas y administración a la hora de iniciarse un proceso de contratación pública.
- Galardón: 7.000 €
Ganadores Reto "Oportunidades de contratación pública en la UE para los jóvenes"
La contratación pública a menudo se percibe como un campo complejo, donde solo los especialistas se sienten cómodos para encontrar la información que necesitan. Así, los desarrolladores que participaron en este desafío tuvieron que diseñar, por ejemplo, aplicaciones destinadas a ayudar a los jóvenes a encontrar la información necesaria para aplicar a puestos de contratación pública.
1º premio: Hermix (Bélgica, Rumanía)
Se trata de una herramienta que desarrolla una metodología de marketing estratégico dirigido al sector B2G (bussines to goverment) para que, así, sea posible automatizar la creación y la monitorización de las estrategias de este sector.
- Galardón: 25.000 €
2º premio: YouthPOP (Grecia)
YouthPOP es una herramienta diseñada para democratizar las oportunidades de empleo y contratación pública para acercarlas a jóvenes trabajadores y empresarios. Para ello combinan datos históricos con tecnología de aprendizaje automático.
- Galardón: 15.000 €
3º premio: HasPopEU (Rumanía)
Esta propuesta aprovecha los datos abiertos de la contratación pública de la Unión Europea y las técnicas de machine learning para mejorar la comunicación de las competencias requeridas para acceder a este tipo de convocatorias laborales. La aplicación pone el foco en los jóvenes, los inmigrantes y las pymes.
- Galardón: 7.000 €
Ganadores Reto "Una Europa Adaptada a la Era Digital"
La UE aspira a una transformación digital que funcione para las personas y las empresas. Por ello, los participantes de este reto desarrollaron aplicaciones y servicios destinados a mejorar las competencias en materia de datos, conectividad o divulgación de los mismos, siempre tomando como base la Estrategia Europea de Datos.
1º premio: Lobium/Gavagai (Países Bajos, Suecia, Reino Unido)
Esta aplicación desarrollada a partir de técnicas de procesamiento del lenguaje natural nace con el objetivo de facilitar el trabajo de los periodistas de investigación, fomentando la transparencia y el rápido acceso a determinada información.
- Galardón: 25.000 €
2º premio: 100 Europeans (Grecia)
Se trata de una app interactiva que utiliza los datos abiertos para sensibilizar sobre los grandes retos de nuestro tiempo. De este modo y conscientes de lo difícil que es comunicar el impacto que estos retos tienen en la sociedad, ‘100 Europeans’ cambia la forma de trasladar el mensaje y personaliza los efectos del cambio climático, la contaminación o el sobrepeso en un total de cien personas. El objetivo de este proyecto es conseguir que la sociedad sea más consciente de estos retos al contarlos a través de historias de personas cercanas.
- Galardón: 15.000 €
3º premio: UNIOR NLP (Italia)
Aprovechando las técnicas de procesamiento del lenguaje natural y la recopilación de datos europeos, el grupo de investigación de lingüística computacional y procesamiento automático del lenguaje natural de la Universidad de Nápoles L'Orientale ha desarrollado un asistente personal llamado Maggie que guía a los usuarios para que exploren los contenidos culturales de toda Europa, respondiendo a sus preguntas y ofreciendo sugerencias personalizadas.
- Galardón: 7.000 €
Por último, el Premio del Público de esta edición de 2022 ha recaído también en CROZ RenEUwable, el mismo equipo que se llevó el primer premio del reto dedicado a fomentar el compromiso por el Pacto Verde europeo.

Al igual que sucedió con las ediciones anteriores, el EU Datathon es una competición organizada por la Oficina de Publicaciones de la Unión Europea en colaboración con la Estrategia de Datos Europea. Así, la edición recién clausurada de 2022 ha logrado activar el apoyo de una veintena de colaboradores y que representan a las partes interesadas en datos abiertos, dentro y fuera de las instituciones europeas.
La IV edición del Desafío Aporta, cuyo lema ha girado en torno a ‘El valor del dato para la salud y el bienestar de los ciudadanos’, ya tiene a sus tres ganadores. La competición, impulsada por Red.es en colaboración con la Secretaría de Estado de Digitalización e Inteligencia Artificial, arrancó en noviembre de 2021 con un concurso de ideas y continuó a principios de este verano con una selección de diez propuestas finalistas.
Al igual que sucedió en las tres ediciones anteriores, los candidatos elegidos dispusieron de un plazo de tres meses para transformar sus ideas en un prototipo que, posteriormente, debían presentar de forma presencial en la gala final.
En un contexto postpandémico, donde la salud juega un papel cada vez más importante, la temática de la competición buscaba identificar, reconocer y premiar las ideas destinadas a mejorar la eficiencia de este sector con soluciones basadas en el uso de los datos abiertos.
El pasado 18 de octubre, los diez finalistas acudieron a la sede de Red.es para presentar sus propuestas frente a un jurado formado por representantes de las Administraciones Públicas, organismos ligados a la economía digital y el ámbito de la universidad y las comunidades de datos. En tan solo doce minutos, tuvieron que resumir la finalidad del proyecto o servicio propuesto, explicar cómo había sido el proceso de desarrollo, qué datos habían utilizado y detenerse en aspectos como la viabilidad económica o la trazabilidad del mismo.
Una decena de proyectos innovadores para mejorar el sector salud
Las diez propuestas presentadas frente al jurado hicieron gala de una alto nivel de innovación, creatividad, rigor y vocación pública. Así mismo, fueron capaces de evidenciar que es posible mejorar la calidad de vida de los ciudadanos creando iniciativas que monitoricen la calidad del aire, construyan soluciones frente al cambio climático o den una respuesta más ágil a un problema de salud repentino, entre otros ejemplos expuestos.
Por todo ello, no es de extrañar que el jurado lo haya tenido complicado a la hora de elegir a los tres vencedores de esta cuarta edición. Finalmente, ha sido la iniciativa HelpVoice la que se ha alzado con el primer premio de 5.000€, la Encuesta de Morbilidad Hospitalaria se ha llevado los 4.000€ vinculados a la segunda posición y RIAN, Recomendador Inteligente de Actividades y Nutrición, ha cerrado el ranking con el tercer puesto y 3.000 euros en calidad de galardón.

Primer premio: HelpVoice!
- Equipo: Data Express, integrado por Sandra García, Antonio Ríos y Alberto Berenguer.
HelpVoice! es un servicio cuyo objetivo es ayudar a las personas mayores utilizando técnicas de reconocimiento de voz basadas en aprendizaje automático. Así, ante una situación de emergencia, el usuario solo tendrá que hacer clic en un dispositivo que puede ser un botón de emergencia, un teléfono móvil o herramientas de domótica y comentar sus síntomas. El sistema enviará un informe con la transcripción realizada y predicciones al hospital más cercano, agilizando la respuesta de los sanitarios.
En paralelo, HelpVoice! también recomendará al paciente qué hacer mientras espera a los servicios de emergencia. Respecto al uso de los datos, el equipo Data Express ha utilizado información geográfica abierta como el mapa de hospitales de España y emplea datos de reconocimiento del habla y sentimientos en el texto.
Segundo premio: Encuesta de Morbilidad Hospitalaria
- Equipo: Marc Coca Moreno
Se trata de un entorno web basado en las herramientas MERN, Python y Pentaho para el análisis y la visualización interactiva de los microdatos de la Encuesta de Morbilidad Hospitalaria. Todo el proyecto se ha desarrollado con herramientas open source y gratuitas y, tanto el código como el producto final, serán accesibles de forma abierta.
Para ser exactos, ofrece 3 grandes análisis con el fin de mejorar la planificación sanitaria:
- Descriptivos: recuento de las altas hospitalarias y serie temporal.
- KPI: tasas e indicadores estandarizados para la comparación y el benchmarking de las provincias y comunidades.
- Flujos: recuento y análisis de las altas de una región hospitalaria y procedencia del paciente.
Todos los datos pueden filtrarse según las variables del juego de datos (edad, sexo, diagnósticos, circunstancia de ingreso y alta, etc.)
En este caso, además de los microdatos de la Encuesta de Morbilidad Hospitalaria del INE, también se han integrado estadísticas del Padrón Continuo (también del INE), datos de los catálogos de diagnósticos CIE10 del Ministerio de Sanidad y de los catálogos e indicadores de Agency for Healthcare Research and Quality (AHRQ) y de las Comunidades Autónomas, como Cataluña: catálogos y herramientas de estratificación.
Puedes ver el resultado de este trabajo aquí.
Tercer premio: RIAN, Recomendador Inteligente de Actividades y Nutrición
- Equipo: RIAN Open Data Team, integrado por Jesús Noguera y Raúl Micharet.
Este proyecto surge para fomentar los hábitos saludables y combatir el sobrepeso, la obesidad, el sedentarismo y la mala nutrición entre niños y adolescentes. Se trata de una aplicación diseñada para dispositivos móviles y que utiliza técnicas de gamificación, así como realidad aumentada y algoritmos de inteligencia artificial para realizar recomendaciones.
Los usuarios tienen que resolver retos personalizados, de forma individual o colectiva, ligados con aspectos nutricionales y actividades físicas, como yincanas o juegos en espacios verdes públicos.
En relación al uso de los datos abiertos, el piloto utiliza datos relativos a zonas verdes, puntos de interés, vías verdes, actividades y eventos pertenecientes a las ciudades de Málaga, Madrid, Zaragoza y Barcelona. Además, estos datos se combinan con recomendaciones nutricionales (datos de alimentos y valores nutricionales y productos alimentarios con marca) y datos destinados al reconocimiento de alimentos por imágenes de Tensorflow o Kaggle, entre otros.
Alberto Martínez Lacambra, Director General de Red.es entrega los galardones y anuncia la nueva edición
Los tres ganadores han sido anunciados por Alberto Martínez Lacambra, Director General de Red.es, en un acto que ha tenido lugar en la sede de Red.es. el 27 de octubre. El acto ha contado con la participación de varios miembros del jurado, que han podido conversar con los tres equipos ganadores.

Martínez Lacambra también ha anunciado que desde Red.es ya se está trabajando para dar forma al V Desafío Aporta, que girará en torno al valor del dato para la mejora del bien común, justicia, igualdad y equidad.
Un año más, desde la Iniciativa Aporta queremos dar la enhorabuena a los tres ganadores, así como agradecer el trabajo y el talento de todos los participantes que decidieron invertir su tiempo y conocimiento en pensar y desarrollar propuestas para la cuarta edición del Desafío Aporta.
El pasado 24 de febrero Europa se adentraba en un escenario que ni siquiera los datos hubiesen podido predecir: Rusia invadía Ucrania, desatando la primera guerra en suelo europeo de lo que llevamos de siglo XXI.
Casi cinco meses después, a fecha del 26 de septiembre, Naciones Unidas hacía públicas sus cifras oficiales: 4.889 fallecidos y 6.263 heridos. Según los datos oficiales de la ONU, mes tras mes, la realidad de los damnificados ucranianos que arrojaban los datos quedaba de la siguiente forma:
| Fecha | Fallecidos | Heridos |
|---|---|---|
| 24-28 febrero | 336 | 461 |
| Marzo | 3028 | 2384 |
| Abril | 660 | 1253 |
| Mayo | 453 | 1012 |
| Junio | 361 | 1029 |
| 1-3 julio | 51 | 124 |
Los datos extraídos por la misión que el Alto Comisionado de las Naciones Unidas para los Derechos Humanos realiza en Ucrania desde que en 2014 Rusia invadiese Crimea cifran en más de 7 millones de personas, el total de civiles desplazados como consecuencia del conflicto.
Sin embargo, al igual que sucede en otros ámbitos, los datos sirven no solo para elaborar soluciones, sino también para conocer en profundidad aspectos de la realidad que de otra forma no sería posible. En el caso de la guerra de Ucrania es precisamente la captación, monitorización y análisis de datos sobre el territorio lo que permite que organismos como Naciones Unidas puedan sacar sus propias conclusiones.
Con el objetivo de visibilizar cómo los datos pueden utilizarse para conseguir la paz, a continuación analizaremos cuál es el papel que estos desempeñan en relación con las siguientes labores:
Predicción
En este ámbito, los datos se utilizan para tratar de adelantarse a situaciones y planificar una respuesta adecuada al riesgo previsto. Así, si antes del estallido de la guerra se utilizaban los datos para evaluar el riesgo de un futuro conflicto, ahora se emplean para establecer un control y prever la escalada del mismo.
Por ejemplo, las imágenes satélite que arrojan aplicaciones tipo Google Maps han permitido monitorizar el avance de las tropas rusas. Igualmente, visualizadores como Subnational Surge Tracker identifican los picos de violencia registrados en distintos niveles administrativos: estados, provincias o municipios.
Información
Tan importante es conocer los datos para prevenir la violencia, como utilizar los mismos para limitar la desinformación y comunicar los hechos de forma objetiva, veraz y acorde a las cifras oficiales. Para conseguirlo, han comenzado a utilizarse aplicaciones de fact cheking, capaces de responder con datos oficiales a las noticias falsas.
Entre ellas destaca Newsguard, una entidad de verificación que ha elaborado un rastreador que reúne todos los sitios web que comparten desinformación sobre el conflicto, poniendo especial énfasis en las narrativas falsas más populares que circulan por la red. Incluso, cataloga este tipo de contenido en función del idioma en el que se promueve.
Daños materiales
Los datos también se pueden utilizar para localizar los daños materiales y rastrear la aparición de otros nuevos. A lo largo de estos meses, la ofensiva rusa ha dañado la red de infraestructura pública ucraniana, dejando inutilizadas carreteras, puentes, suministros de agua y electricidad e, incluso, hospitales.
Conocer a través de los datos esta realidad es muy útil de cara a organizar una respuesta dirigida a la reconstrucción de estas zonas y al envío de asistencia humanitaria para los civiles que se han quedado desprovistos de servicios.
En este sentido, destacamos los siguientes casos de uso:
- El algoritmo de aprendizaje automático del Programa de las Naciones Unidas para el Desarrollo (PNUD) ha sido desarrollado y mejorado para identificar y clasificar la infraestructura dañada por la guerra.
- De forma paralela, la organización HALO Trust utiliza minería de medios sociales capaz de captar información de las redes sociales, imágenes vía satélite e, incluso, datos geográficos que ayudan a identificar áreas con "restos explosivos". Gracias a este hallazgo las organizaciones desplegadas por el terreno ucraniano, pueden moverse con mayor seguridad para organizar una respuesta humanitaria coordinada.
- La información lumínica captada por los satélites de la NASA sirve también para construir una base de datos que ayude a identificar cuáles son las áreas de conflicto activo en Ucrania. Así, al igual que en los ejemplos anteriores, estos datos sirven para realizar un seguimiento y poder enviar ayuda a los puntos donde esta sea más necesaria.
Violación y abuso de derechos humanos
Lamentablemente, en este tipo de conflictos, la violación de los derechos humanos de la población civil está a la orden del día. De hecho, según la experiencia sobre el terreno y la información recopilada por el Alto Comisionado de las Naciones Unidas para los Derechos Humanos, se han documentado violaciones de este tipo durante todo el periodo de guerra en Ucrania.
Así y con el objetivo de comprender qué está sucediendo con los civiles ucranianos, los funcionarios de vigilancia y derechos humanos recopilan datos, información pública y relatos en primera persona de la guerra en Ucrania. Con todo ello, desarrollan un mapa-mosaico que facilita la toma de decisiones y la búsqueda de soluciones justas para la población.
Otro trabajo muy interesante y desarrollado con datos abiertos es el realizado por Conflict Observatory. Gracias a la colaboración de analistas y desarrolladores, y al empleo de información geoespacial e inteligencia artificial, han podido descubrirse y mapearse crímenes de guerra que de otro modo podrían quedar más invisibilizados.
Movimientos migratorios
Desde el estallido de la guerra el pasado mes de febrero, han escapado de la guerra y, por ende, de su propio país, más de 7 millones de ucranianos. Al igual que en los casos anteriores, los datos sobre los flujos migratorios se pueden utilizar para reforzar los esfuerzos humanitarios que demandan los refugiados y los desplazados internos.
Algunas de las iniciativas en las que los datos abiertos contribuyen son las siguientes:
La Matriz de Seguimiento de Desplazamiento es un proyecto desarrollado por la Organización Internacional para las Migraciones y cuya finalidad ha sido obtener datos sobre los flujos migratorios dentro de Ucrania. Gracias a la información facilitada por aproximadamente 2.000 encuestados a través de entrevistas telefónicas, se creó una base de datos que se ha ido utilizando para garantizar una distribución de las acciones humanitarias eficaz en función de las necesidades de cada zona del país.
Respuesta humanitaria
De forma similar al análisis realizado para controlar los movimientos migratorios, los datos recopilados sobre el conflicto también sirven para diseñar acciones de respuesta humanitaria y realizar un seguimiento de la ayuda proporcionada.
En esta línea, uno de los agentes más activos durante los últimos meses ha sido el Fondo de Población de las Naciones Unidas que creó un conjunto de datos que recoge proyecciones actualizadas por género, edad y región ucraniana. Es decir, gracias a este mapeo actualizado de la población ucraniana es mucho más sencillo pensar en cuáles son las necesidades que tiene cada zona en términos de suministros médicos, alimentos o, incluso, apoyo de salud mental.
Otras de las iniciativas que también está prestando apoyo en este ámbito es el Explorador de Datos de Ucrania, un proyecto desarrollado sobre código abierto en la plataforma Intercambio de Datos Humanitarios (HDX) que proporciona información obtenida de forma colaborativa sobre refugiados, víctimas y necesidades de financiación para los esfuerzos humanitarios.
Por último, los datos recopilados y, posteriormente analizados por Premise, visibilizan aquellas zonas que presentan déficit de alimentos y combustible. Monitorizar esta información es realmente útil de cara a localizar las zonas del país con menos recursos para las personas que han migrado internamente y, a su vez, para señalar a las organizaciones humanitarias cuáles son las áreas donde se está demandando más asistencia.
La innovación y el desarrollo de herramientas capaces de recopilar datos y extraer conclusiones sobre los mismos es, sin duda, un gran paso que ayuda a reducir el impacto de los conflictos armados. Gracias a este tipo de previsiones y análisis de datos es posible responder de forma rápida y coordinada a las necesidades de la sociedad civil que se encuentra en las zonas más afectadas, sin dejar de lado tampoco a los refugiados que se desplazan a miles de kilómetros de sus casas.
Estamos ante una crisis humanitaria que ha generado más de 12,6 millones de movimientos transfronterizos. En concreto, nuestro país ha atendido a más de 145.600 personas desde el inicio de la invasión y se han concedido más de 142.190 solicitudes de protección temporal, el 35% de ellas a menores. Tales cifras convierten a España en el quinto Estado Miembro con mayor número de resoluciones favorables de protección temporal. Asimismo, más de 63.500 personas desplazadas han sido dadas de alta en el Sistema Nacional de Salud y con el inicio del curso académico, hay 30. 919 estudiantes ucranianos desplazados escolarizados, de los que 28.060 son menores.
Contenido elaborado por el equipo de datos.gob.es.
¿Aceptas el reto de transformar Bizkaia a partir de sus datos abiertos? Así se presenta el “Datathon Open Data Bizkaia”, una competición de desarrollo colaborativo organizada por Lantik y la Diputación Foral de Bizkaia.
Los participantes tendrán que crear el mockup de una aplicación que ayude a resolver problemas que afecten la ciudadanía de Bizkaia. Para ello, deberán utilizar al menos un conjunto de datos entre todos aquellos disponibles en el portal Open Data Bizkaia. Estos datasets podrán ser combinados con datos procedentes de otras fuentes.
¿Cómo se desarrolla la competición?
La competición de desarrollará en dos fases:
- Primera fase. Los equipos participantes deberán entregar un documento con la propuesta en formato PDF. Entre otra información, dicha propuesta incluirá una breve descripción de la solución, sus funcionalidades y los conjuntos de datos utilizados.
- Segunda fase. Un jurado evaluará todas las solicitudes recibidas y que sean válidas en tiempo y forma. A continuación, se seleccionarán siete propuestas finalistas. Los equipos preseleccionados tendrán que realizar un mockup y un video promocional de máximo 2 minutos de duración, donde se presenten los integrantes del equipo y se describan las características más destacadas de la solución.
Estas fases se desarrollarán en base al siguiente calendario:
- Del 19 de septiembre al 19 de octubre. Abierto el plazo de inscripción para presentar las propuestas en pdf.
- 26 de octubre. Anuncio de los equipos preseleccionados.
- 14 de noviembre. Finaliza el plazo para entregar el mockup y el vídeo.
- 18 de noviembre. Celebración de la final en Bilbao, aunque también se podrá acudir, opcionalmente, de forma online. Se presentarán los videos y se seleccionarán los equipos ganadores.
¿Quiénes pueden participar?
La competición está dirigida a cualquier persona mayor de 16 años, independientemente de su nacionalidad, siempre y cuando disponga de DNI/NIF/NIE, pasaporte u otro documento público en vigor que acredite la identidad y edad del participante.
Se puede participar de manera individual o a través equipos de máximo seis personas.
¿En qué consisten los premios?
Entre los 7 finalistas se elegirán dos ganadores, que recibirán la siguiente cuantía económica:
- Primer premio: 2.500 euros.
- Segundo premio: 1.500 euros
Además, el resto de equipos finalistas recibirá 500 euros.
Para llevar a cabo la valoración, el jurado tomará como referencia una serie de criterios detallados en las bases de la competición: relevancia, reutilización de datos abiertos y aptitud para el propósito.
¿Cómo puedo participar?
Es necesario inscribirse a través del formulario que aparece en la web. Tras la inscripción, el equipo recibirá un correo electrónico con las indicaciones para presentar la propuesta.
Los participantes deberán subir su propuesta a un sharepoint habilitado para ello. En la web pueden encontrar un documento modelo que puede servir como referencia.
La propuesta deberá presentarse antes del 19 de octubre de 2022 a las 12h.
Descubre más sobre Open Data Bizkaia
Open Data Bizkaia facilita a la ciudadanía y los agentes reutilizadores el acceso a la información pública que gestiona la Diputación Foral de Bizkaia. Actualmente hay disponibles más de 900 conjuntos de datos.
En su web, además, ofrecen recursos para reutilizadores, una API, buenas prácticas y ejemplos de aplicaciones elaboradas con datasets del portal que pueden servir para inspirar a los participantes de esta competición.
Puedes conocer más sobre la estrategia Open Data de Bizkaia en este artículo.
Tras varios meses de pruebas y entrenamientos de distinto tipo, el primer sistema masivo de Inteligencia Artificial de la lengua española es capaz de generar sus propios textos y resumir otros ya existentes. MarIA es un proyecto que ha sido impulsado por la Secretaría de Estado de Digitalización e Inteligencia Artificial y desarrollado por el Centro Nacional de Supercomputación, a partir de los archivos web de la Biblioteca Nacional de España (BNE).
Hablamos de un avance muy importante en este ámbito, ya que se trata del primer sistema de inteligencia artificial experto en comprender y escribir en lengua española. Enmarcada dentro del Plan de Tecnologías del Lenguaje, esta herramienta pretende contribuir al desarrollo de una economía digital en español, gracias al potencial que los desarrolladores pueden encontrar en ella.
El reto de crear los asistentes del lenguaje del futuro
Los modelos de lenguaje al estilo de MarIA son la piedra angular sobre la que se sustenta el desarrollo del procesamiento del lenguaje natural, la traducción automática o los sistemas conversacionales, tan necesarios para comprender y replicar de forma automática una lengua. MarIA es un sistema de inteligencia artificial formado por redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, de su léxico y de sus mecanismos para expresar el significado y escribir a nivel experto.
Gracias a este trabajo previo, los desarrolladores pueden crear herramientas relacionadas con el lenguaje y capaces de clasificar documentos, realizar correcciones o elaborar herramientas de traducción.
La primera versión de MarIA fue elaborada con RoBERTa, una tecnología que crea modelos del lenguaje del tipo “codificadores”, capaces de generar una interpretación que puede servir para categorizar documentos, encontrar similitudes semánticas en diferentes textos o detectar los sentimientos que se expresan en ellos.
Así, la última versión de MarIA ha sido desarrollada con GPT-2, una tecnología más avanzada que crea modelos generativos decodificadores y añade prestaciones al sistema. Gracias a estos modelos decodificadores, la última versión de MarIA es capaz de generar textos nuevos a partir de un ejemplo previo, lo que resulta muy útil a la hora de elaborar resúmenes, simplificar grandes cantidades de información, generar preguntas y respuestas e, incluso, mantener un diálogo.
Avances como los anteriores convierten a MarIA en una herramienta que, con entrenamientos adaptados a tareas específicas, puede ser de gran utilidad para desarrolladores, empresas y administraciones públicas. En esta línea, modelos similares que se han desarrollado en inglés son utilizados para generar sugerencias de texto en aplicaciones de escritura, resumir contratos o buscar informaciones concretas dentro de grandes bases de datos de texto para relacionarlas posteriormente con otras informaciones relevantes.
En otras palabras, además de redactar textos a partir de titulares o palabras, MarIA puede comprender no solo conceptos abstractos, sino también el contexto de los mismos.
Más de 135 mil millones de palabras al servicio de la inteligencia artificial
Para ser exactos, MarIA se ha entrenado con 135.733.450.668 de palabras procedentes de millones de páginas web que recolecta la Biblioteca Nacional y que ocupan un total de 570 Gigabytes de información. Para estos mismos entrenamientos, se ha utilizado el superordenador MareNostrum del Centro Nacional de Supercomputación de Barcelona y ha sido necesaria una potencia de cálculo de 9,7 trillones de operaciones (969 exaflops).
Teniendo en cuenta que uno de los primeros pasos para diseñar un modelo del lenguaje pasa por construir un corpus de palabras y frases que sirva como base de datos para entrenar al propio sistema, en el caso de MarIA, fue necesario realizar un cribado para eliminar todos los fragmentos de texto que no fuesen “lenguaje bien formado” (elementos numéricos, gráficos, oraciones que no terminan, codificaciones erróneas, etc.) y así entrenar correctamente a la IA.
Debido al volumen de información que maneja, MarIA se sitúa ya como el tercer sistema de inteligencia artificial experto en comprender y escribir con mayor número de modelos masivos de acceso abierto. Por delante solo están los modelos del lenguaje elaborados para el inglés y el mandarín. Esto ha sido posible principalmente por dos razones. Por un lado, debido al elevado nivel de digitalización en el que se encuentra el patrimonio de la Biblioteca Nacional y, por el otro, gracias a la existencia de un Centro de Supercomputación Nacional que cuenta con superordenadores como el MareNostrum 4.
El papel de los conjuntos de datos de la BNE
Desde que en 2014 lanzase su propio portal de datos abiertos (datos.bne.es), la BNE ha apostado por acercar los datos que están a su disposición y bajo su custodia: datos de las obras que conserva, pero también de autores, vocabularios controlados de materias y términos geográficos, entre otros.
En los últimos años, se ha desarrollado también la plataforma educativa BNEscolar, que busca ofrecer contenidos digitales del fondo documental de la Biblioteca Digital Hispánica y que pueden resultar de interés para la comunidad educativa.
Así mismo y para cumplir con los estándares internacionales de descripción e interoperabilidad, los datos de la BNE están identificados mediante URIs y modelos conceptuales enlazados, a través de tecnologías semánticas y ofrecidos en formatos abiertos y reutilizables. Además, cuentan con un alto nivel de normalización.
Próximos pasos
Así y con el objetivo de perfeccionar y ampliar las posibilidades de uso de MarIA, se pretende que la versión actual dé lugar a otras especializadas en áreas de conocimiento más concretas. Teniendo en cuenta que se trata de un sistema de inteligencia artificial dedicado a comprender y generar texto, se torna fundamental que este sea capaz de desenvolverse con soltura ante léxicos y conjuntos de información especializada.
Para ello, el PlanTL continuará expandiendo MarIA para adaptarse a los nuevos desarrollos tecnológicos en procesamiento del lenguaje natural (modelos más complejos que el GPT-2 ahora implementado, entrenados con mayor cantidad de datos) y se buscará la forma de crear espacios de trabajo para facilitar el uso de MarIA por compañías y grupos de investigación.
Contenido elaborado por el equipo de datos.gob.es.
Los portales de datos abiertos están experimentando un importante crecimiento en el número de conjuntos de datos que están siendo publicados en la categoría de transporte y movilidad. Sirva como ejemplo el portal de datos abiertos de la UE que ya cuenta con casi 48.000 conjuntos de datos en la categoría de transporte o el propio portal español datos.gob.es, que registra en torno a 2.000, si incluimos los que están dentro de la categoría de sector público. Una de las razones principales del crecimiento en la publicación de los datos relacionados con el transporte es la existencia de tres directivas que tienen entre sus objetivos maximizar la reutilización de conjuntos de datos en el área. La directiva PSI de reutilización de información del sector público en combinación con las directivas INSPIRE sobre infraestructura de información espacial e ITS sobre implantación de los sistemas de transporte inteligentes, junto con otros desarrollos legislativos, hacen que cada vez resulte más complicado justificar que los datos de transporte y movilidad permanezcan cerrados.
En este sentido, en España, la ley 37/2007 en su redacción de noviembre de 2021, añade la obligación de publicar datos abiertos a las sociedades mercantiles pertenecientes al sector público institucional que actúen como compañías aéreas. Con ello se consigue dar un paso más allá respecto a las más frecuentes obligaciones con los datos de los servicios públicos de transporte de viajeros por ferrocarril y carretera.
Además, los datos abiertos están en el corazón de las estrategias de movilidad inteligente, conectada y respetuosa con el medio ambiente, tanto en el caso de la estrategia española “es.movilidad”, como en el caso de la estrategia de movilidad sostenible propuesta por la comisión europea. En ambos casos los datos abiertos se han introducido como uno de los vectores de innovación clave en la transformación digital del sector para contribuir a la consecución de los objetivos de mejora en la calidad de vida de los ciudadanos y de protección al medio ambiente.
Sin embargo, se suele hablar mucho menos de la importancia y necesidad de los datos abiertos durante la fase de investigación, que después conduce a las innovaciones que todos disfrutamos. Y sin esta etapa en la que los investigadores trabajan para adquirir un mejor conocimiento del funcionamiento de las dinámicas de transporte y movilidad de las que todos somos parte, y en la que los datos abiertos tienen un papel fundamental, no sería posible obtener innovaciones relevantes o políticas públicas bien informadas. En este sentido vamos a revisar dos iniciativas muy relevantes en las que se están realizando esfuerzos coordinados plurinacionales en el ámbito de la investigación en movilidad y transporte.
El sistema de información y seguimiento de la investigación y la innovación en el transporte
A nivel europeo, la UE también apoya con firmeza la investigación e innovación en transporte, consciente de que necesita adaptarse a realidades globales como el cambio climático y la digitalización. La agenda estratégica de investigación e innovación en el transporte (STRIA) describe lo que está haciendo la UE para acelerar la investigación y la innovación necesarias para cambiar radicalmente el transporte apoyando prioridades como la electrificación, el transporte conectado y automatizado o la movilidad inteligente.
En este sentido, el sistema de información y seguimiento de la investigación y la innovación en el transporte (TRIMIS) es la herramienta que la Comisión Europea mantiene para proporcionar información de acceso abierto sobre la investigación y la innovación (I+i) en el transporte y que se lanzó con la misión de apoyar la formulación de las políticas públicas en el ámbito del transporte y la movilidad.
TRIMIS mantiene actualizado un cuadro de mando con el que visualizar los datos sobre investigación e innovación en transporte y ofrece una descripción general y datos detallados sobre la financiación y las organizaciones involucradas en estas investigaciones. La información puede filtrarse por las siete prioridades de STRIA y también incluye datos sobre la capacidad de innovación del sector del transporte.
Si nos fijamos en la distribución geográfica de los fondos de investigación que proporciona TRIMIS, vemos que España aparece en quinto lugar, muy lejos de Alemania y Francia. Los sistemas de transporte en los que se está haciendo un mayor esfuerzo son el transporte por carretera y aéreo, beneficiarios de más de la mitad del esfuerzo total.

Sin embargo, encontramos que en el área estratégica de Servicios y movilidad inteligente (SMO), que se evalúan en términos de su contribución a la sostenibilidad general del sistema de energía y transporte, en España se está liderando el esfuerzo investigador al mismo nivel que Alemania. Cabe destacar además que el esfuerzo que se está realizando en España en lo que se refiere al transporte multimodal es superior al de otros países.

Como ejemplo del esfuerzo investigador que se está realizando en España tenemos el conjunto de datos piloto para implementar capacidades semánticas sobre la información de incidencias de tráfico relacionadas con la seguridad en la red estatal de carreteras españolas, excepto País Vasco y Cataluña, que publica la Dirección General de Tráfico y que utiliza una ontología para representar incidentes de tráfico que ha desarrollado a Universidad de Valencia.
El área de los sistemas y servicios de movilidad inteligente pretende contribuir a la descarbonización del sector del transporte europeo y entre sus principales prioridades están el desarrollo de sistemas que conecten los servicios de movilidad urbana y rural y promuevan el cambio modal, el uso sostenible del suelo, la suficiencia en la demanda de viajes y los modos de viaje activos y ligeros; el desarrollo de soluciones de gestión de datos de movilidad e infraestructura digital pública de acceso justo o la implantación de la intermodalidad, la interoperabilidad y el acoplamiento sectorial.
La iniciativa 100 preguntas en el ámbito de la movilidad
La Iniciativa de 100 Preguntas, lanzada por The Govlab en colaboración con Schmidt Futures, pretende identificar las 100 preguntas más importantes del mundo en una serie de dominios críticos para el futuro de la humanidad, como son el género, la migración o la calidad del aire.
Uno de estos dominios está dedicado precisamente al transporte y la movilidad urbana y tiene como objetivo identificar preguntas en las cuales los datos y la ciencia de datos tienen un gran potencial para obtener respuestas que contribuyan a impulsar importantes avances en conocimiento e innovación sobre los dilemas públicos más importantes y los problemas más graves que tienen que resolverse.
De acuerdo con la metodología utilizada, la iniciativa finalizó el 28 de julio la cuarta etapa en la que el público en general realizó la votación con la que se decidieron cuáles serían las 10 preguntas finales que deben ser abordadas. Las 48 preguntas iniciales fueron propuestas por un grupo de expertos en movilidad y científicos de datos por lo que están concebidas para que puedan ser respondidas con datos y pensadas para que, si se consiguen resolver, puedan tener un impacto transformador para las políticas de movilidad urbana.
En la próxima etapa, el grupo de trabajo de GovLab identificará cuáles son los conjuntos de datos que podrían proporcionar respuestas a las preguntas seleccionadas, algunas tan complejas como saber “¿dónde quieren ir los viajeros pero realmente no pueden y cuáles son las razones por las que no pueden alcanzar su destino con facilidad?” o “¿cómo podemos incentivar a las personas a realizar viajes en modos sostenibles, como caminar, andar en bicicleta y/o transporte público, en lugar de vehículos de motor personales?”
Otras preguntas están relacionadas con las dificultades encontradas por los reutilizadores y que han sido puestas de manifiesto con frecuencia en artículos de investigación como “Open Transport Data for maximising reuse in multimodal route”: “¿Cómo se pueden compartir los datos de transporte/movilidad recopilados con dispositivos como teléfonos inteligentes, y ponerlos a disposición de los investigadores, planificadores urbanos y legisladores?"
En algunos casos es previsible que los conjuntos de datos necesarios para responder las preguntas no estén disponibles o pertenezcan a compañías privadas por lo que también se intentará definir cuáles son los nuevos conjuntos de datos que deben generarse para ayudar a llenar los vacíos identificados. El objetivo final es proporcionar una definición clara de los requisitos de datos para responder a las preguntas y facilitar la formación de colaboraciones de datos que contribuyan a avanzar en la obtención de estas respuestas[2].
En definitiva, los cambios en el modo en que utilizamos el transporte y los estilos de vida, como el uso de teléfonos inteligentes, aplicaciones web móviles y redes sociales, junto con la tendencia a alquilar, en lugar de poseer un medio de transporte en particular, han abierto nuevos caminos hacia la movilidad sostenible y unas enormes posibilidades en el análisis e investigación de los datos capturados por estas aplicaciones.
Por ello las iniciativas globales para coordinar los esfuerzos de investigación son esenciales ya que las ciudades necesitan bases de conocimiento sólidas a las que recurrir para que las decisiones políticas sobre desarrollo urbano, transporte limpio, igualdad de acceso a oportunidades económicas y calidad de vida en los centros urbanos sean efectivas. No debemos olvidar que todo este conocimiento es además clave para que puedan establecerse adecuadamente prioridades y, de este modo, podamos aprovechar al máximo los escasos recursos públicos de los que habitualmente disponemos para afrontar los desafíos.
Contenido elaborado por Jose Luis Marín, Senior Consultant in Data, Strategy, Innovation & Digitalization.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
Quedan pocos días para que acabe el verano y, como en cada cambio de estación, es el momento de repasar lo que han dado de sí estos tres meses en el ecosistema de datos abiertos español.
En julio conocimos la última edición del informe DESI (Digital Economy and Society Index) de la Comisión Europea, que coloca a España por delante de la media de la UE en materia digital. Nuestro país se sitúa en la séptima posición, mejorando dos puestos con respecto a 2021. Una de las áreas donde se obtiene un mejor rendimiento es en los datos abiertos, donde ocupa el tercer lugar. Estos buenos datos son fruto de que cada vez más organismos apuestan por la apertura de la información que atesoran y más reutilizadores aprovechan esos datos para crear productos y servicios de valor, como veremos a continuación.
Avances en estrategia y acuerdos para impulsar el open data
Los datos abiertos ganan terreno en las estrategias políticas tanto a nivel nacional, como regional o local.
En este sentido, el Consejo de Ministros aprobó en julio el proyecto de Ley de Eficiencia Digital del Servicio Público de Justicia, una iniciativa que busca construir una Administración de Justicia más accesible, impulsando la orientación al dato de sus sistemas. Entre otras cuestiones, con esta ley se incorpora el concepto de “dato abierto” en la Administración de Justicia.
Otro ejemplo, este a nivel autonómico, proviene de la Generalitat de Valencia, que lanzó a comienzos de verano una nueva Estrategia de datos abiertos con el fin de ofrecer una información pública de calidad, por diseño y por defecto.
También hemos asistido al cierre de convenios de colaboración para impulsar el ecosistema open data, como por ejemplo:
- El Ajuntament de L'Hospitalet y la Universitat Politècnica de Catalunya han firmado un acuerdo para ofrecer formación a los estudiantes de grado o master sobre Big Data e inteligencia Artificial, partiendo del trabajo de datos abiertos.
- La Universidad de Castilla la Mancha ha acordado junto al Gobierno regional poner en marcha la cátedra ‘Gobierno Abierto’ con el fin de impulsar la formación superior y la investigación en materias como la transparencia, los datos abiertos o el acceso a la información pública.
- El Centro Nacional de Información Geográfica (CNIG) y Asedie han firmado un nuevo protocolo para mejorar el acceso a la información geográfica, con el fin de promover la apertura, el acceso y la reutilización de la información del Sector Público.
Ejemplos de reutilización de datos
El verano de 2022 lo recordaremos por las olas de calor y los incendios que han asolado los distintos rincones del país. Un contexto donde los datos abiertos han puesto de manifiesto su poder para dar a conocer el estado de la situación y ayudar en la extinción de fuegos. Los datos de Copernicus o de la Agencia Estatal de Meteorología (AEMET) han sido utilizados para monitorizar la situación y tomar decisiones. Estas fuentes de datos, junto a otras, también están sirviendo para conocer las consecuencias que la escasez de lluvias y las elevadas temperaturas están dejando en los embalses europeos. Además, estos datos han sido utilizados por medios de comunicación para contar a la ciudadanía la última hora de la evolución de los incendios.
La lucha contra el fuego basada en datos abiertos también se ha desarrollado a nivel autonómico. Por ejemplo, el Gobierno de Navarra ha lanzado Agronic, una herramienta que trabaja con Infraestructuras de Datos Espaciales de Navarra para prevenir los incendios producidos por máquinas cosechadoras. Por su parte, el portal de datos abiertos de la Diputación de Barcelona ha publicado conjuntos de datos con "información esencial" para la prevención de incendios forestales. Entre ellos se encuentran la red de puntos de agua, las franjas de baja combustibilidad y las actuaciones de gestión forestal, utilizados por los organismos públicos para la elaboración de planes para hacer frente al fuego.
Otros ejemplos de uso de datos abiertos que hemos conocido en este periodo son:
- La Red de Vigilancia Radiológica Ambiental de la Generalitat de Catalunya ha desarrollado, a partir de datos abiertos, un sistema para monitorizar la radiación presente en el ambiente de las centrales nucleares (Vandellòs y Ascó) y del resto del territorio catalán.
- Gracias a los datos abiertos compartidos por Aragón Open Data se ha redactado un nuevo artículo científico sobre la Covid-19 cuya finalidad es conocer e identificar patrones espaciotemporales en relación a la incidencia del virus y la organización de recursos sanitarios.
- La iniciativa Barcelona Open Data ha lanzado #DataBretxaWomen un proyecto que busca sensibilizar a la ciudadanía sobre la desigualdad existente entre hombres y mujeres en distintos sectores.
- Maldito dato ha utilizado los datos abiertos de la estadística desarrollada por Instituto Nacional de Estadística (INE) a partir de los datos de posicionamiento móvil, para mostrar cómo cambia la densidad de población de los distintos municipios españoles durante julio y agosto.
- Dentro de su Programa de Analítica de Datos para la Investigación y la Innovación en Salud, Cataluña ha priorizado 8 propuestas para hacer investigación basada en análisis de datos. Entre ellos encontramos estudios sobre migrañas, psicosis o cardiopatías.
Novedades en las plataformas de datos abiertos
El verano también ha sido la época elegida por distintos organismos para lanzar o actualizar sus plataformas open data. Algunos ejemplos son:
- El Instituto de Estadística de Navarra lanzó un nuevo portal web, con visualizaciones más dinámicas y atractivas. En el proceso de creación han logrado automatizar la producción estadística e integrar todos los datos en un único entorno.
- El Ayuntamiento de Zaragoza también acaba de publicar un nuevo portal de datos abiertos que ofrece toda la información municipal de una manera más clara y concisa. Este nuevo portal ha sido consensuado con otros ayuntamientos dentro del proyecto ‘Ciudades abiertas’.
- Otra ciudad que ya cuenta con portal de datos abiertos es Cádiz. Su Ayuntamiento ha puesto en marcha una plataforma que permitirá a los gaditanos conocer, acceder, reutilizar y redistribuir los datos abiertos presentes en la ciudad.
- El Instituto Valenciano de Competitividad Empresarial (IVACE) presentó un portal de datos abiertos con todos los registros de certificación energética de edificios de la Comunidad Valenciana desde 2011. Esto permitirá, entre otras acciones, realizar análisis del consumo y establecer estrategias de rehabilitación.
- Aragón Open Data ha incluido una nueva funcionalidad en su API que permite a los usuarios obtener datos geográficos en formato GeoJSON.
- El Instituto Geográfico Nacional comunicó una nueva versión de la app de terremotos, con novedades, contenido didáctico e información.
- El Ministerio para la Transición Ecológica y el Reto Demográfico presentó SIDAMUN, una plataforma que facilita el acceso a información estadística territorial a partir de datos municipales.
- El portal de datos abiertos del Gobierno de Canarias lanzó un nuevo buscador que permite localizar las páginas del portal utilizando metadatos, y que permite exportar en CVS, ODS o PDF.
Algunos organismos han aprovechado el verano para anunciar novedades que verán la luz en los próximos meses como la Xunta de Galicia, que avanza en el desarrollo de un Observatorio de Salud Pública mediante una plataforma de datos abiertos, el Ayuntamiento de Burgos, que estrenará portal de datos abiertos, o la Diputación de Pontevedra que lanzará próximamente un visor presupuestario en tiempo real.
Acciones para promover los datos abiertos
En junio conocimos a los finalistas del IV Desafío Aporta: “El valor del dato para la salud y el bienestar de los ciudadanos”, cuya final se celebrará en octubre. Además, en estos meses se han lanzado algunas competiciones para promover la reutilización de datos abiertos cuyo plazo de inscripción todavía está abierto, como el concurso de Castilla y León o el primer Datathon de UniversiData. También se puso en marcha el concurso de datos abiertos de Euskadi, que actualmente se encuentra en fase de evaluación.
Con respecto a los eventos, el verano comenzó con la celebración de la Semana de la Administración abierta, que reunió diversas actividades, algunas de ellas enfocadas en los datos. Si te lo perdiste, algunas organizaciones han puesto a disposición de los ciudadanos diversos materiales. Por ejemplo, puedes ver en vídeo el coloquio “Los datos abiertos con perspectiva de género: sí o sí” impulsado por el Gobierno de Canarias o acceder a las presentaciones del webinar para conocer a la Oficina del Dato y la Iniciativa Aporta.
Otros eventos que se han celebrado, con la participación de la Oficina del Dato, y cuyos vídeos son públicos son: el Congreso Nacional de Archivo y Documento Electrónico y los Espacios de Datos como ecosistemas para que las entidades puedan llegar más lejos.
Por último, en el campo de la formación, algunos ejemplos de cursos que se han lanzado estos meses son:
- El Instituto Geográfico Nacional ha lanzado un Plan de Formación Interadministrativo, con el fin de generar una cultura común entre todos los expertos en Información Geográfica de los organismos públicos.
- Andalucía Vuela ha lanzado una serie de formaciones gratuitas y dirigidas a la ciudadanía interesada en datos o inteligencia artificial.
Novedades a nivel internacional
El verano también ha dado lugar a muchas novedades en el ámbito internacional. Algunos ejemplos son:
- A comienzos del verano meteorológico se publicaron los resultados de la primera edición del Global Data Barometer, que mide el estado de los datos con respecto a cuestiones sociales como la Covid19 o el clima.
- También se dieron a conocer los 12 finalistas del Eu Datathon 2022.
- Se publico una edición interactiva del anuario regional 2021 de Eurostat.
- Inglaterra ha elaborado una estrategia para aprovechar el potencial de los datos en la sanidad y la atención sanitaria de forma segura, fiable y transparente.
Esta es solo una selección de noticias entre todas las novedades del ecosistema de datos abiertos de los últimos tres meses. Si quieres hacer alguna contribución, puedes dejarnos un mensaje en los comentarios o escribir a dinamizacion@datos.gob.es.
Un año más desde el 2016, la Junta de Castilla y León abre el plazo para recibir las propuestas más innovadoras en materia de datos abiertos. La sexta edición del concurso que lleva el mismo nombre tiene como finalidad “reconocer la realización de proyectos que suministren cualquier tipo de idea, estudio, servicio, sitio web o aplicaciones para dispositivos móviles, y que para ello utilicen conjuntos de datos del Portal de Datos Abiertos de la Junta de Castilla y León”.
Con este tipo de iniciativas, Castilla y León busca visibilizar el talento digital presente en la comunidad autónoma, a la vez que impulsa el uso de los datos abiertos y el papel de las empresas reutilizadoras castellanoleonesas.
El plazo para la presentación de las candidaturas está abierto desde el pasado 5 de agosto y concluirá el próximo 4 de octubre. A la hora de presentar los proyectos, los participantes podrán elegir entre la opción presencial o digital. Esta última se llevará a cabo a través de la Sede Electrónica de Castilla y León y podrán tramitarla tanto personas físicas como jurídicas.
4 categías distintas
Al igual que en ediciones anteriores, los proyectos y premios asociados a los mismos se dividen en cuatro categorías diferenciadas:
- Categoría “Ideas”: Aquí se incluyen aquellos proyectos que describan una idea que pueda utilizarse para crear estudios, servicios, sitios web o aplicaciones para dispositivos móviles. El requisito principal que deben cumplir es utilizar conjuntos de datos del portal de Datos Abiertos de la Junta de Castilla y León .
- Categoría “Productos y Servicios”: Engloba aquellos que proporcionen estudios, servicios, sitios web o aplicaciones para dispositivos móviles y que empleen conjuntos de datos del portal de Datos Abiertos de la Junta de Castilla y León, que estén accesibles para toda la ciudadanía vía web mediante una URL.
- Categoría “Recurso Didáctico”: En este apartado se recoge la creación de recursos didácticos abiertos (publicados con licencias Creative Commons) nuevos e innovadores que usen conjuntos de datos del portal de Datos Abiertos de la Junta de Castilla y León, y sirvan de apoyo a la enseñanza en el aula.
- Categoría “Periodismo de Datos”: Por último, esta categoría incluye piezas periodísticas publicadas o actualizadas (de forma relevante) en cualquier soporte (escrito o audiovisual) que utilice conjuntos de datos del portal de Datos Abiertos de la Junta de Castilla y León.
Respecto a los galardones de esta sexta edición, los premios ascienden a una dotación económica 12.000€ que se distribuye en función de la categoría premiada y el puesto alcanzado.
Categoría Ideas
- Primer premio 1.500€
- Segundo premio 500€
Categoría Productos y servicios
- Primer premio 2.500€
- Segundo premio 1.500€
- Tercer premio 500€
- Premio estudiantes: 1.500€
Categoría Recurso didáctico
- Primer premio 1.500€
Categoría Periodismo de datos
- Primer premio 1.500€
- Segundo premio 1.000€
Al igual que en ediciones anteriores, el veredicto final será emitido por un jurado formado por integrantes que cuentan con acreditada experiencia en el ámbito de los datos abiertos, el análisis de información o la economía digital. Igualmente, las decisiones del jurado se adoptarán por mayoría de votos y, en caso de empate, decidirá quién ostente la presidencia.
Por último y respecto a los ganadores, estos tendrán un plazo de 5 días hábiles para aceptar el galardón. De no producirse la aceptación del premio se entenderá que se renuncia al mismo. Si quieres consultar en detalle las condiciones y las bases legales del concurso puedes acceder a ellas a través de este enlace.
Ganadores de la edición 2021
La V edición del Concurso de Datos de Castilla y León contó con un total de 37 propuestas de las cuales tan solo ocho de ellas se alzaron con algún tipo de galardón. Así y de cara a participar en la edición vigente, puede resultar de interés conocer cuáles fueron los proyectos que se ganaron la atención del jurado en 2021.
Categoría Ideas
El primer premio, de 1.500€, fue para APP SOLAR-CYL, una herramienta web de dimensionamiento óptimo de instalaciones de autoconsumo solar fotovoltaico. Dirigida tanto a ciudadanos como a gestores energéticos de la Administración Pública, la solución busca ser un apoyo para el análisis de la viabilidad técnica y económica de este tipo de sistemas.
Categoría Productos y Servicios
Repuéblame es en una web destinada a redescubrir los mejores lugares en los que vivir o teletrabajar. De esta forma, la app cataloga los municipios castellanoleoneses en base a una serie de indicadores numéricos, de elaboración propia, relacionados con la calidad de vida. Al llevarse el primer premio de esta categoría, consiguió una dotación económica de 2.500 euros.
Categoría Periodismo de datos
La Asociación Maldita contra la desinformación obtuvo el primer premio de 1.500€ gracias al proyecto MAPA COVID-19: consulta cuántos casos de coronavirus hay y cómo está la ocupación de tu hospital.
Por último y después de que el jurado dictaminase que las candidaturas presentadas no cumplían con los criterios recogidos en las bases, la categoría “Recurso Didáctico” fue declarada desierta y, por ende, ninguno de los participantes fue premiado.
Si tienes alguna duda o consulta acerca del concurso, puedes escribir un correo a: datosabiertos@jcyl.es.
1. Introducción
Las visualizaciones son representaciones gráficas de datos que permiten comunicar de manera sencilla y efectiva la información ligada a los mismos. Las posibilidades de visualización son muy amplias, desde representaciones básicas, como puede ser un gráfico de líneas, barras o sectores, hasta visualizaciones configuradas sobre cuadros de mando o dashboards interactivos. Las visualizaciones juegan un papel fundamental en la extracción de conclusiones a partir de información visual, permitiendo además detectar patrones, tendencias, datos anómalos o proyectar predicciones, entre otras muchas funciones.
Antes de lanzarnos a construir una visualización efectiva, debemos realizar un tratamiento previo de los datos, prestando especial atención a la obtención de los mismos y validando su contenido, asegurando que se encuentran en el formato adecuado y consistente para su procesamiento y no contienen errores. Un tratamiento previo de los datos es primordial para realizar cualquier tarea relacionada con el análisis de datos y la realización de visualizaciones efectivas.
En la sección “Visualizaciones paso a paso” estamos presentando periódicamente ejercicios prácticos de visualizaciones de datos abiertos que están disponibles en el catálogo datos.gob.es u otros catálogos similares. En ellos abordamos y describimos de manera sencilla las etapas necesarias para obtener los datos, realizar las transformaciones y análisis que resulten pertinentes para, finalmente, crear visualizaciones interactivas, de las que podemos extraer información en forma de conclusiones finales.
En este ejercicio práctico, hemos realizado un sencillo desarrollo de código que está convenientemente documentado apoyandonos en herramientas de uso gratuito.
Accede al repositorio del laboratorio de datos en Github.
Ejecuta el código de pre-procesamiento de datos sobre Google Colab.
2. Objetivo
El objetivo principal de este post es aprender a realizar una visualización interactiva partiendo de datos abiertos. Para este ejercicio práctico hemos escogido conjuntos de datos que contienen información relevante sobre los embalses nacionales. A partir de estos datos realizaremos el análisis de su estado y de su evolución temporal en los últimos años.
3. Recursos
3.1. Conjuntos de datos
Para este caso práctico se han seleccionado conjuntos de datos publicados por el Ministerio para la Transición Ecológica y el Reto Demográfico, que dentro del boletín hidrológico recoge series temporales de datos sobre él volumen de agua embalsada de los últimos años para todos los embalses nacionales con una capacidad superior a 5hm3. Datos históricos del volumen de agua embalsada disponibles en:
También se ha seleccionado un conjunto de datos geoespaciales. Durante su búsqueda, se han encontrado dos posibles archivos con datos de entrada, el que contiene las áreas geográficas correspondientes a los embalses de España y el que contiene las presas que incluye su geoposicionamiento como un punto geográfico. Aunque evidentemente no son lo mismo, embalses y presas guardan relación y para simplificar este ejercicio práctico optamos por utilizar el archivo que contiene la relación de presas de España. Inventario de presas disponible en: https://www.mapama.gob.es/ide/metadatos/index.html?srv=metadata.show&uuid=4f218701-1004-4b15-93b1-298551ae9446 , concretamente:
Este conjunto de datos contiene geolocalizadas (Latitud, Longitud) las presas de toda España con independencia de su titularidad. Se entiende por presa, aquellas estructuras artificiales que, limitando en todo o en parte el contorno de un recinto enclavado en el terreno, esté destinada al almacenamiento de agua dentro del mismo.
Para generar los puntos geográficos de interés se realiza un procesamiento mediante la herramienta QGIS, cuyos pasos son los siguientes: descargar el archivo ZIP, cargarlo en QGIS y guardarlo como CSV incluyendo la geometría de cada elemento como dos campos que especifican su posición como un punto geográfico (Latitud y Longitud).
También se he realizado un filtrado para quedarnos con los datos correspondientes a las presas de los embalses que tengan una capacidad mayor a 5hm3
3.2. Herramientas
Para la realización del preprocesamiento de los datos se ha utilizado el lenguaje de programación Python desde el servicio cloud de Google Colab, que permite la ejecución de Notebooks de Jupyter.
Google Colab o también llamado Google Colaboratory, es un servicio gratuito en la nube de Google Research que permite programar, ejecutar y compartir código escrito en Python o R desde tu navegador, por lo que no requiere la instalación de ninguna herramienta o configuración.
Para la creación de la visualización interactiva se ha usado la herramienta Google Data Studio.
Google Data Studio es una herramienta online que permite realizar gráficos, mapas o tablas que pueden incrustarse en sitios web o exportarse como archivos. Esta herramienta es sencilla de usar y permite múltiples opciones de personalización.
Si quieres conocer más sobre herramientas que puedan ayudarte en el tratamiento y la visualización de datos, puedes recurrir al informe \"Herramientas de procesado y visualización de datos\".
4. Enriquecimiento de los datos
Con la finalidad de aportar mayor información relacionada a cada una de las presas en el dataset con datos geoespaciales, se realiza un proceso de enriquecimiento de datos explicado a continuación.
Para ello vamos a utilizar una herramienta útil para este tipo de tarea, OpenRefine. Esta herramienta de código abierto permite realizar múltiples acciones de preprocesamiento de datos, aunque en esta ocasión la usaremos para llevar a cabo un enriquecimiento de nuestros datos mediante la incorporación de contexto enlazando automáticamente información que reside en el popular repositorio de conocimiento Wikidata.
Una vez instalada la herramienta en nuestro ordenador, al ejecutarse se abrirá una aplicación web en el navegador, en caso de que eso no ocurriese, se accedería a dicha aplicación tecleando en la barra de búsqueda del navegador \"localhost:3333\".
Pasos a seguir:
- Paso 1: Carga del CSV en el sistema (Figura 1).
Figura 1 - Carga de un archivo CSV en OpenRefine
- Paso 2: Creación del proyecto a partir del CSV cargado (Figura 2). OpenRefine se gestiona mediante proyectos (cada CSV subido será un proyecto), que se guardan en el ordenador dónde se esté ejecutando OpenRefine para un posible uso posterior. En este paso debemos dar un nombre al proyecto y algunos otros datos, como el separador de columnas, aunque lo más habitual es que estos últimos ajustes se rellenen automáticamente.
Figura 2 - Creación de un proyecto en OpenRefine
- Paso 3: Enlazado (o reconciliación, usando la nomenclatura de OpenRefine) con fuentes externas. OpenRefine nos permite enlazar recursos que tengamos en nuestro CSV con fuentes externas como Wikidata. Para ello se deben realizar las siguientes acciones (pasos 3.1 a 3.3):
- Paso 3.1: Identificación de las columnas a enlazar. Habitualmente este paso suele estar basado en la experiencia del analista y su conocimiento de los datos que se representan en Wikidata. Como consejo, habitualmente se podrán reconciliar o enlazar aquellas columnas que contengan información de carácter más global o general como nombres de países, calles, distritos, etc., y no se podrán enlazar aquellas columnas como coordenadas geográficas, valores numéricos o taxonomías cerradas (tipos de calles, por ejemplo). En este ejemplo, hemos encontrado la columna NOMBRE que contiene el nombre de cada embalse que puede servir como identificador único de cada ítem y puede ser un buen candidato para enlazar.
- Paso 3.2: Comienzo de la reconciliación. Comenzamos la reconciliación como se indica en la figura 3 y seleccionamos la única fuente que estará disponible: Wikidata(en). Después de hacer clic en Start Reconciling, automáticamente comenzará a buscar la clase del vocabulario de Wikidata que más se adecue basado en los valores de nuestra columna.
Figura 3 – Inicio del proceso de reconciliación de la columna NOMBRE en OpenRefine
- Paso 3.3: Selección de la clase de Wikidata. En este paso obtendremos los valores de la reconciliación. En este caso como valor más probable, seleccionamos el valor de la propiedad “reservoir” cuya descripción se puede ver en https://www.wikidata.org/wiki/Q131681, que corresponde a la descripción de un “lago artificial para acumular agua”. Únicamente habrá que pulsar otra vez en Start Reconciling.
OpenRefine nos ofrece la posibilidad de mejorar el proceso de reconciliación agregando algunas características que permitan orientar el enriquecimiento de la información con mayor precisión. Para ello ajustamos la propiedad P4568 cuya descripción se corresponde con el identificador de un embalse en España, en el SNCZI-Inventario de Presas y Embalses, como se observa en la figura 4.
Figura 4 - Selección de la clase de Wikidata que mejor representa los valores de la columna NOMBRE
- Paso 4: Generar una nueva columna con los valores reconciliados o enlazados. Para ello debemos pulsar en la columna NOMBRE e ir a “Edit Column → Add column based in this column”, dónde se mostrará un texto en la que tendremos que indicar el nombre de la nueva columna (en este ejemplo podría ser WIKIDATA_EMBALSE). En la caja de expresión deberemos indicar: “http://www.wikidata.org/entity/”+cell.recon.match.id y los valores aparecen como se previsualiza en la Figura 6. “http://www.wikidata.org/entity/” se trata de una cadena de texto fija para representar las entidades de Wikidata, mientras el valor reconciliado de cada uno de los valores lo obtenemos a través de la instrucción cell.recon.match.id, es decir, cell.recon.match.id(“ALMODOVAR”) = Q5369429.
Mediante la operación anterior, se generará una nueva columna con dichos valores. Con el fin de comprobar que se ha realizado correctamente, haciendo clic en una de las celdas de la nueva columna, está debería conducir a una página web de Wikidata con información del valor reconciliado.
El proceso lo repetimos para añadir otro tipo de información enriquecida como la referencia en Google u OpenStreetMap.
Figura 5 - Generación de las entidades de Wikidata gracias a la reconciliación a partir de una nueva columna
- Paso 5: Descargar el CSV enriquecido. Utilizamos la función Export → Custom tabular exporter situada en la parte superior derecha de la pantalla y seleccionamos las características como se indica en la Figura 6.
Figura 6 - Opciones de descarga del fichero CSV a través de OpenRefine
5. Preprocesamiento de datos
Durante el preprocesamiento es necesario realizar un análisis exploratorio de los datos (EDA) con el fin de interpretar adecuadamente los datos de partida, detectar anomalías, datos ausentes o errores que pudieran afectar a la calidad de los procesos posteriores y resultados, además de realizar las tareas de transformación y preparación de las variables necesarias. Un tratamiento previo de los datos es esencial para garantizar que los análisis o visualizaciones creadas posteriormente a partir de ellos son confiables y consistentes. Si quieres conocer más sobre este proceso puedes recurrir a la Guía Práctica de Introducción al Análisis Exploratorio de Datos.
Los pasos que se siguen en esta fase de preprocesamiento son los siguientes:
- Instalación y carga de librerías
- Carga de archivos de datos de origen
- Modificación y ajuste de las variables
- Detención y tratamiento de datos ausentes (NAs)
- Generación de nuevas variables
- Creación de tabla para visualización \"Evolución histórica de la reserva hídrica entre los años 2012 y 2022\"
- Creación de tabla para visualización \"Reserva hídrica (hm3) entre los años 2012 y 2022\"
- Creación de tabla para visualización \"Reserva hídrica (%) entre los años 2012 y 2022\"
- Creación de tabla para visualización \"Evolución mensual de la reserva hídrica (hm3) para distintas series temporales\"
- Guardado de las tablas con los datos preprocesados
Podrás reproducir este análisis, ya que el código fuente está disponible en este repositorio de GitHub. La forma de proporcionar el código es a través de un documento realizado sobre un Jupyter Notebook que una vez cargado en el entorno de desarrollo podrás ejecutar o modificar de manera sencilla. Debido al carácter divulgativo de este post y con el fin de favorecer el aprendizaje de lectores no especializados, el código no pretende ser el más eficiente, sino facilitar su comprensión por lo que posiblemente se te ocurrirán muchas formas de optimizar el código propuesto para lograr fines similares. ¡Te animamos a que lo hagas!
Puedes seguir los pasos y ejecutar el código fuente sobre este notebook en Google Colab.
6. Visualización de datos
Una vez hemos realizado un preprocesamiento de los datos, vamos con las visualizaciones. Para la realización de estas visualizaciones interactivas se ha usado la herramienta Google Data Studio. Al ser una herramienta online, no es necesario tener instalado un software para interactuar o generar cualquier visualización, pero sí es necesario que las tablas de datos que le proporcionemos estén estructuradas adecuadamente.
Para abordar el proceso de diseño del conjunto de representaciones visuales de los datos, el primer paso es plantearnos las preguntas que queremos resolver. Proponemos las siguientes:
- ¿Cuál es la localización de los embalses dentro del territorio nacional?
-
¿Qué embalses son los de mayor y menor aporte de volumen de agua embalsada (reserva hídrica en hm3) al conjunto del país?
-
¿Qué embalses poseen el mayor y menor porcentaje de llenado (reserva hídrica en %)?
-
¿Cuál es la tendencia en la evolución de la reserva hídrica en los últimos años?
¡Vamos a buscar las respuestas viendo los datos!
6.1. Localización geográfica y principal información de cada embalse
Esta representación visual se ha realizado teniendo en cuenta las coordenadas geográficas de los embalses y distinta información asociada a cada uno de ellos. Para ello se ha generado durante el preprocesamiento de datos la tabla “geo.csv”
Mediante un mapa de puntos geográficos se visualiza la localización de los embalses en el territorio nacional.
Una vez obtenido el mapa, pinchando en cada uno de los embalses podemos acceder a información complementaria sobre dicho embalse en la tabla inferior. También, mediante las pestañas despegables, aparece la opción de filtrar el mapa por demarcación hidrográfica y por embalse.
Ver la visualización en pantalla completa
6.2. Reserva hídrica (hm3) entre los años 2012 y 2022
Esta representación visual se ha realizado teniendo en cuenta la reserva hídrica (hm3) por embalse entre los años los años 2012 (inclusive) y 2022. Para ello se ha generado durante el preprocesamiento de datos la tabla “volumen.csv”
Mediante un gráfico de jerarquía rectangular se visualiza de forma intuitiva la importancia de cada embalse en cuanto a volumen embalsado dentro del conjunto nacional para el periodo temporal anteriormente indicado.
Una vez obtenido el gráfico, mediante las pestañas despegables, aparece la opción de filtrar la visualización por demarcación hidrográfica y por embalse.
Ver la visualización en pantalla completa
6.3. Reserva hídrica (%) entre los años 2012 y 2022
Esta representación visual se ha realizado teniendo en cuenta la reserva hídrica (%) por embalse entre los años 2012 (inclusive) y 2022. Para ello se ha generado durante el preprocesamiento de datos la tabla “porcentaje.csv”
Mediante un gráfico de barras se visualiza de forma intuitiva el porcentaje de llenado de cada embalse para el periodo temporal anteriormente indicado.
Una vez obtenido el gráfico, mediante las pestañas despegables, aparece la opción de filtrar la visualización por demarcación hidrográfica y por embalse.
Ver la visualización en pantalla completa
6.4. Evolución histórica de la reserva hídrica entre los años 2012 y 2022
Esta representación visual se ha realizado teniendo en cuenta los datos históricos de la reserva hídrica (hm3 y %) para todas las mediciones semanales registradas entre los años 2012(inclusive) y 2022. Para ello se ha generado durante el preprocesamiento de datos la tabla “lineas.csv”
Mediante gráficos de líneas y sus líneas de tendencia se visualiza la evolución temporal de la reserva hídrica (hm3 y %).
Una vez obtenido el gráfico, mediante las pestañas desplegables, podemos modificar la serie temporal, filtrar por demarcación hidrográfica y por embalse.
Ver la visualización en pantalla completa
6.5. Evolución mensual de la reserva hídrica (hm3) para distintas series temporales
Esta representación visual se ha realizado teniendo en cuenta la reserva hídrica (hm3) de los distintos embalses desglosada por meses para distintas series temporales (cada uno de los años desde el 2012 hasta el 2022). Para ello se ha generado durante el preprocesamiento de datos la tabla “lineas_mensual.csv”
Mediante un gráfico de líneas se visualízala la reserva hídrica mes a mes para cada una de las series temporales.
Una vez obtenido el gráfico, mediante las pestañas desplegables, podemos filtrar por demarcación hidrográfica y por embalse. También tenemos la opción de elegir la serie o series temporales (cada uno de los años desde el 2012 hasta el 2022) que queremos visualizar mediante el icono que aparece en la parte superior derecha del gráfico.
Ver la visualización en pantalla completa
7. Conclusiones
La visualización de datos es uno de los mecanismos más potentes para explotar y analizar el significado implícito de los datos, independientemente del tipo de dato y el grado de conocimiento tecnológico del usuario. Las visualizaciones nos permiten construir significado sobre los datos y la creación de narrativas basadas en la representación gráfica. En el conjunto de representaciones gráficas de datos que acabamos de implementar se puede observar lo siguiente:
-
Se observa una tendencia significativa en la disminución del volumen de agua embalsada por el conjunto de embalses nacionales entre los años 2012 y 2022.
-
El año 2017 es el que presenta valores más bajos de porcentaje de llenado total de los embalses, llegando a ser este inferior al 45% en ciertos momentos del año.
-
El año 2013 es el que presenta valores más altos de porcentaje de llenado total de los embalses, llegando a ser este superior al 80% en ciertos momentos del año.
Cabe destacar que en las visualizaciones tienes la opción de filtrar por demarcación hidrográfica y por embalse. Te animamos a lo que lo hagas para sacar conclusiones más específicas de las demarcaciones hidrográficas y embalses que estés interesado.
Esperemos que esta visualización paso a paso te haya resultado útil para el aprendizaje de algunas técnicas muy habituales en el tratamiento y representación de datos abiertos. Volveremos para mostraros nuevas reutilizaciones. ¡Hasta pronto!