Blog

Muchas personas utilizan aplicaciones para desplazarse en su día a día. Apps como Google Maps, Moovit o CityMapper facilitan la ruta más rápida y eficaz para llegar a un destino. Sin embargo, lo que muchos usuarios desconocen es que tras estas plataformas se encuentra una valiosa fuente de información: los datos abiertos. Gracias a la reutilización de conjuntos de datos públicos, como los relacionados con la calidad del aire, el tráfico o el transporte público, estas aplicaciones pueden ofrecer un mejor servicio.

En este post, exploraremos cómo la reutilización de datos abiertos por parte de estas plataformas potencia un ecosistema urbano más inteligente y sostenible.

Google Maps: agrega información de calidad del aire y datos de transporte en GTFS.

Más de mil millones de personas utilizan Google Maps mensualmente alrededor del mundo. El gigante tecnológico ofrece un mapa mundial actualizado y gratuito que obtiene sus datos de diferentes fuentes, algunas de ellas, abiertas.

Una de las funciones que brinda la app es la información sobre la calidad del aire en la ubicación en la que se encuentra el usuario. El Índice de Calidad del Aire (ICA) es un parámetro que viene determinado por cada país o región. La referencia europea se puede consultar en este mapa que muestra calidad del aire por zonas geolocalizadas en tiempo real.

Para mostrar la calidad de aire de la ubicación del usuario, Google Maps aplica un modelo basado en un enfoque multicapa conocido como “enfoque de fusión”. Este método combina datos de varias fuentes de entrada y pondera las capas con un procedimiento sofisticado. Las capas de entrada son:

  • Estaciones de monitorización de referencia de los gobiernos
  • Redes de sensores comerciales
  • Modelos de dispersión mundiales y regionales
  • Modelos de polvo y humo de incendios
  • Información obtenida por satélite
  • Datos del tráfico
  • Información auxiliar como la superficie
  • Meteorología

En el caso de España, esta información se obtiene de fuentes de datos abiertos como el Ministerio de Transición Ecológica y Reto Demográfico, el Instituto Geográfico Nacional (que le permite obtener la cartografía con nombres oficiales de carreteras, poblaciones, etc.) la Conselleria de Medio Ambiente, Territorio y Vivienda de la Xunta de Galicia o la Comunidad de Madrid. Puedes consultar aquí las fuentes de datos abiertos que se utilizan en otros países del mundo.

Otra funcionalidad que ofrece Google Maps para planificar las mejores rutas para llegar a un destino es la información sobre el transporte público. Estos datos son proporcionados de manera voluntaria por las empresas públicas que ofrecen el servicio de transporte en cada ciudad. Para que estos datos abiertos estén a disposición del usuario, primero se vuelcan en Google Transit y deben cumplir el estándar abierto de transporte público GTFS (General Transit Feed Specification). Además, Google Maps también integra datos de transporte en GTFS del Punto de Acceso Nacional.

Moovit: reutiliza datos abiertos para ofrecer información en tiempo real

Moovit es otra de las aplicaciones de movilidad urbana, que utiliza datos abiertos y colaborativos para facilitar a los usuarios la planificación de sus desplazamientos en transporte público.

Desde su lanzamiento en 2012, la app de descarga gratuita ofrece información en tiempo real de las distintas opciones de transporte, sugiere las mejores rutas para llegar al destino indicado, guía al usuario durante su recorrido (cuánto tiene que esperar, cuántas paradas faltan, cuándo tiene que bajar, etc.) y realiza actualizaciones constantes ante cualquier alteración en el servicio.

Como otras apps de movilidad, también está disponible en modalidad offline y permite guardar las rutas y líneas frecuentes en “Favoritos”. Además, se trata de una solución inclusiva ya que integra VoiceOver (iOs) o TalkBack (Android) para personas invidentes.

La plataforma no solo aprovecha datos abiertos proporcionados por gobiernos y autoridades locales, sino que también recopila información de sus usuarios, lo que le permite ofrecer un servicio dinámico y constantemente actualizado.

CityMapper: nace como reutilizador de datos abiertos de movilidad

El equipo de desarrollo de CityMapper reconoce que la aplicación nació con un ADN abierto que todavía se mantiene. Reutilizan conjuntos de datos abiertos de, por ejemplo, OpenStreetMap a nivel global o RENFE y Cercanías Bilbao a nivel nacional. A medida que la aplicación está disponible en más ciudades, mayor es la lista de fuentes de referencia de datos abiertos de las que obtiene información.

La plataforma ofrece información en tiempo real sobre rutas de transporte público, incluyendo autobuses, trenes, metro o bicicletas compartidas. También añade opciones para desplazarse a pie, en bici o en sistemas de transporte compartido. Está diseñada para proporcionar la ruta más eficiente y rápida para llegar a un destino, integrando datos de diferentes medios de transporte en una sola interfaz.

Tal y como publicamos en el informe monográfico “Innovación municipal a través de datos abiertos” CityMapper utiliza principalmente open data de las autoridades de transporte locales normalmente utilizando el estándar GTFS (General Transit Feed Specification). No obstante, cuando estos datos no son suficientes o no son suficientemente precisos, CityMapper los combina con conjuntos de datos generados por los propios usuarios de la aplicación que colaboran voluntariamente. También utiliza datos mejorados y gestionados por el trabajo de los propios empleados locales de la empresa. Todos estos datos se combinan con algoritmos de inteligencia artificial desarrollados para optimizar las rutas y ofrecer recomendaciones ajustadas a las necesidades de los usuarios.

En conclusión, el uso de datos abiertos en el transporte impulsa una transformación significativa en el sector de la movilidad en ciudades. Gracias al aporte que ofrecen a las aplicaciones, los usuarios pueden acceder a datos actualizados y precisos, planificar sus viajes de manera eficiente y tomar decisiones informadas. Los gobiernos, por su parte, han asumido el rol de facilitadores al hacer posible la difusión de datos mediante plataformas abiertas, optimizando recursos y fomentando la colaboración entre distintos sectores. Además, los datos abiertos han creado nuevas oportunidades para los desarrolladores y el sector privado, quienes han contribuido con soluciones tecnológicas, como pueden ser Google Maps, Moovit o CityMapper. En definitiva, el potencial de los datos abiertos para transformar el futuro de la movilidad urbana es algo innegable.

calendar icon
Blog

En la actualidad, las tecnologías digitales están revolucionando diversos sectores, incluido el de la construcción, impulsadas por la Estrategia Digital Europea, que no solo promueve la innovación y la adopción de tecnologías digitales, sino también el uso y la generación de posibles datos abiertos. La incorporación de tecnologías avanzadas ha fomentado una transformación significativa en la gestión de proyectos de construcción, permitiendo que la información sea más accesible y transparente para todos los actores involucrados.

Uno de los elementos clave en esta transformación son los Permisos de Construcción Digital (Digital Building Permit en inglés) y los Registros Digitales de Construcción (Digital Building Log en inglés), conceptos que están mejorando la eficiencia en los procesos administrativos y en la ejecución de proyectos de construcción, estas tecnologías podrán tener un impacto significativo en la generación y gestión de datos de los municipios que las adopten.

Los Digital Building Permits (DBP) y Digital Building Logs (DBL) no solo generan información clave sobre la planificación, ejecución y mantenimiento de infraestructuras, sino que también hacen que estos datos sean accesibles para el público y otras partes interesadas. La disponibilidad de estos datos abiertos permite el análisis avanzado, la investigación académica, y el desarrollo de soluciones innovadoras para la construcción de infraestructuras más sostenibles y seguras.

¿Qué es el Digital Building Permit?

El Digital Building Permit es la digitalización de los procesos tradicionales de obtención de permisos de construcción. Tradicionalmente, este proceso era manual, implicando un intercambio extenso de documentos físicos y la coordinación entre múltiples partes interesadas. Con la digitalización, este procedimiento se simplifica y se vuelve más eficiente, permitiendo una revisión más rápida, transparente y menos propensa a errores. Además, gracias a esta digitalización, se generan grandes cantidades de datos valiosos de manera proactiva que no solo optimizan el proceso, sino que también pueden ser utilizados para mejorar la transparencia y llevar a cabo investigaciones en el sector. Estos datos pueden ser aprovechados para análisis avanzados, contribuyendo al desarrollo de infraestructuras más inteligentes y sostenibles. Facilita, asimismo, la integración de tecnologías como el Building Information Modeling (BIM) y los gemelos digitales, que son fundamentales para el desarrollo de infraestructuras inteligentes.

  • BIM permite crear representaciones digitales detalladas de las infraestructuras, incorporando información precisa sobre cada componente del edificio. Este modelo digital no solo facilita el diseño, sino también la gestión y el mantenimiento de la construcción a lo largo de su ciclo de vida. En España, la legislación relacionada con el uso de Building Information Modeling (BIM) está regida principalmente por la Ley 9/2017 de Contratos del Sector Público. Esta ley establece la posibilidad de exigir el uso de BIM en los proyectos de obras públicas. Esta normativa tiene como objetivo mejorar la eficiencia, transparencia y sostenibilidad en la contratación y ejecución de obras públicas y servicios en España.
  • Los gemelos digitales son réplicas virtuales de las infraestructuras físicas que permiten simular y analizar el comportamiento de un edificio en tiempo real gracias a los datos generados. Estos datos no solo son cruciales para el funcionamiento del gemelo digital, sino que también pueden ser utilizados como datos abiertos para la investigación, la mejora de políticas públicas y la transparencia en el manejo de las infraestructuras. Estos gemelos digitales son fundamentales para prever problemas antes de que ocurran, optimizar la eficiencia energética y gestionar el mantenimiento de manera proactiva.

En conjunto, estas tecnologías no solo podrán optimizar el proceso de obtención de permisos, sino que también aseguran que las construcciones sean más seguras, sostenibles y alineadas con las normativas actuales, promoviendo el desarrollo de infraestructuras inteligentes en un entorno cada vez más digitalizado.

¿Qué es un Digital Building Log?

El Digital Building Log es una herramienta que permite llevar un registro detallado y digitalizado de todas las actividades, decisiones y modificaciones realizadas durante la vida de un proyecto de construcción. Este registro incluye datos con información sobre los permisos otorgados, inspecciones realizadas, cambios en los diseños, y cualquier otra intervención relevante. Funciona como una bitácora digital que ofrece una visión transparente y trazable de todo el proceso de construcción.

Este enfoque no solo mejora la transparencia y la trazabilidad, sino que también facilita la supervisión y el cumplimiento normativo, al mantener un registro actualizado y accesible para todas las partes interesadas.

¿Qué son los Digital Building Permits y los Digital Building Logs?  1. Permisos de Construcción Digital (Digital Building Permit): digitalización de los procesos tradicionales de obtención de permisos de construcción.  2. Registros Digitales de Construcción (Digital Building Log): Herramienta para llevar un registro detallado y digitalizado de todas las actividades, decisiones y modificaciones realizadas durante la vida de un proyecto de construcción. Fuente: elaboración propia

Figura 1. ¿Qué son los Digital Building Permits y los Digital Building Logs? Elaboración propia.  

Proyectos Clave y Objetivos en el Sector

Diversos proyectos europeos están incorporando Digital Building Permits y Digital Building Logs como parte de su estrategia para modernizar el sector de la construcción. A continuación, se destacan algunos de los proyectos más innovadores en este ámbito:

ACCORD

El Proyecto ACCORD (2022-2025) es una iniciativa europea que busca transformar el proceso de obtención y gestión de permisos de construcción a través de la digitalización. ACCORD, que significa "Automated Compliance Checking and Orchestration of Building Projects", tiene como objetivo principal desarrollar un marco semántico para verificar automáticamente el cumplimiento normativo, mejorar la eficiencia, y garantizar la transparencia en el sector de la construcción. Además, ACCORD desarrollará:

  • Una herramienta de formalización de reglas basada en tecnologías web semánticas.
  • Una base de datos de reglas semánticas.
  • Microservicios para la verificación de conformidad en la construcción.
  • Un conjunto de API abiertas y estandarizadas para permitir el flujo de datos integrado entre permisos de construcción, cumplimiento y otros servicios de información.

Proceso del proyecto ACCORD  1. Proceso de solicitud de permisos.  1.1. Rápido, transparente y preciso: diseño de concepto; edificio / infra diseño;     construcción; renovación / demolición. 2.Interfaz de usuario única. 2.2.Herramienta de formalización de reglas y repositorio de reglas: reglas legibles por máquina; CDE (Common Data Environment o entorno común de datos); gemelo digital; marco semántico // microservicios de orquestación. 2.1.Microservicios basados en la nube para la comprobación automática de la conformidad, cálculos, simulaciones y análisis: accesibilidad; energía; CO2 y economía circular; seguridad; mantenimiento predictivo. 3. Proceso de autorización de las autoridades. 3.1.Recursos eficientes: regulación (textos y planes); aprobación de concepto; aprobación del edificio; aprobación de la construcción; aprobación de la renovación/demolición. Entorno de construcción saludable, seguro y sostenible. Fuente: ACCORD Project (About - ACCORD Partners (accordproject.eu))

Figura 2. Proceso del proyecto ACCORD.Fuente: Proyecto ACCORD.

El Proyecto ACCORD se centra en diversas demostraciones en varios países europeos, cada una con un enfoque específico facilitado por el análisis y uso de los datos:

  • En Estonia y Finlandia, ACCORD se enfoca en mejorar la accesibilidad y seguridad en espacios urbanos a través de la automatización de permisos de construcción. En Estonia, se trabaja en la verificación automática del cumplimiento de normativas de planificación y zonificación, mientras que, en Finlandia, el enfoque está en desarrollar espacios urbanos saludables y seguros mediante la digitalización del proceso de permisos y la integración de datos urbanos.
  • En Alemania, ACCORD se centra en la verificación automatizada para permisos de uso del suelo y la certificación de edificios verdes. El proyecto busca automatizar la comprobación del cumplimiento normativo en estos ámbitos, integrando microservicios que permiten verificar automáticamente si los proyectos de construcción cumplen con las normativas de sostenibilidad y uso del suelo antes de que se otorguen los permisos.
  • En el Reino Unido, ACCORD se enfoca en asegurar la integridad del diseño de componentes estructurales de las casas modulares de acero utilizando el modelado BIM y análisis por elementos finitos (FEA). Este enfoque permite verificar automáticamente si los componentes estructurales cumplen con las normas de seguridad y diseño antes de su implementación en la construcción. El proyecto facilita la detección temprana de posibles fallos estructurales, mejorando así la seguridad y eficiencia en el proceso de construcción.
  • En España, ACCORD se centra en la automatización del cumplimiento de normativas urbanísticas en el ayuntamiento de Malgrat de Mar utilizando BIM y datos catastrales abiertos. El objetivo es mejorar la eficiencia en la fase de diseño y construcción, asegurando que los proyectos cumplan con las regulaciones locales antes de que se inicien. Esto incluye la verificación automática de las regulaciones urbanas para facilitar la obtención de permisos de construcción de manera más rápida y precisa.

CHEK

El Proyecto CHEK (2022-2025) que significa "Change Toolkit for Digital Building Permit" es una iniciativa europea que busca eliminar las barreras que enfrentan los municipios para adoptar la digitalización de procesos de gestión de permisos de construcción.

CHEK desarrollará soluciones escalables que incluyen estándares abiertos e interoperabilidad (geoespacial y BIM), herramientas educativas para cerrar brechas de conocimiento y nuevas tecnologías para la digitalización de permisos y verificación automática de conformidad. El objetivo es alinear tecnologías digitales con la tramitación administrativa de ámbito municipal, mejorar la precisión y eficiencia, y demostrar la escalabilidad en áreas urbanas europeas, alcanzando un nivel de madurez tecnológica TRL 7E.

Proceso del proyecto CHEK. Temas actuales: 5.Diversidad de municipios.  4.Fragmentación y desajuste tecnológico 3. Falta de capacidades digitales inclusivas  2.Interoperabilidad no alcanzada  1.Procesos rígidos basados en documentos // Objetivos de CHEK: 5. Mostrar la escalabilidad de las soluciones  4.Mejorar, alinear e integrar la tecnología  3.Mejorar las competencias de los agentes de AECO . 2. Interoperabilidad de los servicios BIM/SIG 1.  Mostrar un novedoso proceso digital de concesión de permisos //  Pruebas cruzadas - multidisciplinas – feedbacks recíprocos // Resultados de CHEK - Herramientas para el cambio CHEK para los Digital Building Permit (DBP): software modular basado en web;    metodología escalable y demostrada para DBP; herramientas para comprobar el cumplimiento normativo basadas en BIM y 3D SIG; plataforma de gestión de procesos CHEK; buenas prácticas bSI-OGX; formación multinivel (GeoBIM y DBP); asistente virtual para la gestión del cambio de procesos; herramientas para requisitos de información formal basadas en estándares abiertos para BIM y 3DGIS; conversores “Geo to BIM” y “BIM to Geo” // Conclusiones de CHEK - Digital Building Permit:80% más de eficiencia en los procesos, 50% más rápidos, mayor valor del trabajo humano, soluciones escalables, transparencia y previsibilidad; mayor calidad de los procesos de comprobación; precisión y objetividad; nuevos análisis avanzados; procesos dirigidos digitalmente; gestión desde remoto (menos CO2; ahorro de papel y recursos; uso de los datos generados más eficiente. Fuente: Ckek Project (Project - CHEK – Change toolkit for digital building permit )

Figura 3. Proceso del Proyecto CHEK. Fuente: Proyecto CHEK.

Para ello es necesario:

  1. Adaptar las tecnologías digitales disponibles a los procesos municipales, posibilitando nuevos métodos y modelos empresariales.
  2. Desarrollar estándares abiertos de datos, incluidos los modelos de información de construcción (BIM), los modelos urbanos en 3D y la integración recíproca (GeoBIM).
  3. Mejorar la formación de empleados público y usuarios.
  4. Mejorar, adaptar e integrar la tecnología.
  5. Realizar y demostrar la escalabilidad.

CHEK proporcionará un conjunto de herramientas metodológicas y tecnológicas para digitalizar por completo los permisos de construcción y automatizar parcialmente las comprobaciones de conformidad de los diseños de los edificios, lo que supondrá una mejora de la eficiencia del 60% y la adopción del DBP por parte del 85% de los municipios europeos.

El futuro de la construccion y el aporte a los datos abiertos

La implementación de Digital Building Permits y Digital Building Logs está transformando el paisaje de la construcción. A medida que estas herramientas se integran en los procesos de construcción, los escenarios futuros que se vislumbran incluyen:

  • Construcción digitalizada: En un futuro no muy lejano, los proyectos de construcción podrían gestionarse completamente de manera digital, desde la solicitud de permisos hasta el monitoreo continuo del proyecto. Esto eliminará la necesidad de documentos físicos y reducirá significativamente los errores y las demoras.
  • Gemelos digitales en tiempo real: Los Digital Building Logs alimentarán gemelos digitales en tiempo real, permitiendo un monitoreo continuo y predictivo de los proyectos. Esto permitirá a los desarrolladores y reguladores anticipar problemas antes de que ocurran y tomar decisiones informadas rápidamente.
  • Interoperabilidad global de datos: Con el avance los espacios de datos, se espera que los sistemas de construcción sean interoperables a nivel global. Esto facilitará la colaboración internacional y permitirá que los estándares y mejores prácticas se compartan y adopten ampliamente.

Los Digital Building Permits y los Digital Building Logs no son simplemente herramientas para la optimización de procesos en el sector de la construcción, sino también vehículos para la creación de datos abiertos que pueden ser aprovechados por un amplio abanico de actores. La implementación de estos sistemas no solo genera datos técnicos sobre el progreso de las obras, sino que también proporciona datos que pueden ser reutilizados por autoridades, desarrolladores y ciudadanos, lo que fomenta un entorno de colaboración abierta. Estos datos pueden ser usados para mejorar los análisis urbanos, ayudar en la planificación de infraestructuras públicas y optimizar la supervisión y transparencia en la ejecución de los proyectos.

El uso de datos abiertos a través de estas plataformas también facilita el desarrollo de aplicaciones innovadoras y servicios tecnológicos que mejoran la eficiencia, promueven la sostenibilidad y contribuyen a una gestión más eficiente de los recursos en las ciudades. Estos datos abiertos pueden, por ejemplo, permitir a los ciudadanos acceder a información sobre las condiciones de construcción en su área, mientras que a los gobiernos les da una visión más clara y en tiempo real de cómo se desarrollan los proyectos, permitiendo la toma de decisiones basadas en datos.

Proyectos como ACCORD y CHECK demuestran cómo estas tecnologías pueden integrar la digitalización, la automatización y los datos abiertos para transformar el sector de la construcción en Europa.


Contenido elaborado por Mayte Toscano, Senior Consultant en Tecnologías ligadas a la economía del dato. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Aplicación

Es una web que recopila información pública sobre el estado de los diferentes embalses que hay en España. El usuario puede filtrar la información por cuencas hidrográficas y unidades administrativas como provincias o comunidades autónomas. 

Los datos se actualizan diariamente y se muestran con porcentajes y gráficas. Además, también ofrece información sobre pluviómetros y la comparación entre el porcentaje de agua embasada actual y la que había hace un año y hace 10 años.  

Embales.net comparte de manera clara y entendible datos abiertos que obtiene de AEMET y el Ministerio de Transición Ecológica y Reto Demográfico. 

calendar icon
Blog

Casi la mitad de los adultos europeos carecen de competencias digitales básicas. De acuerdo con el último informe sobre el estado de la Década Digital, en 2023, solo el 55,6% de los ciudadanos declararon tener este tipo de capacidades. Este porcentaje crece al 66,2% en el caso de España, situado por delante de la media europea.

Tener capacidades digitales básicas es esencial en la sociedad actual, porque permite acceder a una mayor cantidad de información y servicios, así como comunicarse de manera efectiva en entornos online, facilitando una mayor participación en actividades cívicas y sociales. Y también supone una gran ventaja competitiva en el mundo laboral.

En Europa, más del 90% de las funciones profesionales requieren un nivel básico de conocimientos digitales. Hace mucho tiempo que el conocimiento tecnológico dejó de ser únicamente necesario para profesiones técnicas, sino que se está extendiendo a todos los sectores, desde las empresas hasta el transporte e incluso la agricultura. En este sentido, más del 70% de las empresas han afirmado que la falta de personal con las competencias digitales adecuadas es un obstáculo para la inversión.

Por ello, un objetivo clave de la Década Digital es garantizar que al menos el 80% de las personas de entre 16 y 74 años posean al menos competencias digitales básicas de aquí a 2030

Capacidades tecnológicas básicas que todos deberíamos tener

Cuando hablamos de capacidades tecnológicas básicas nos referimos, de acuerdo con el framework DigComp, a diversas áreas, entre las que se encuentran:

  • Alfabetización informacional y de datos: incluye localizar, recuperar, gestionar y organizar datos, juzgando la pertinencia de la fuente y su contenido.
  • Comunicación y colaboración: supone interactuar, comunicarse y colaborar a través de las tecnologías digitales teniendo en cuenta la diversidad cultural y generacional. También incluye la gestión de la propia presencia, identidad y reputación digitales.
  • Creación de contenidos digitales: se definiría como la mejora e integración de información y contenidos para generar nuevos mensajes, respetando los derechos de autor y las licencias. También implica saber dar instrucciones comprensibles para un sistema informático.
  • Seguridad: se circunscribe a la protección de dispositivos, contenidos, datos personales y la intimidad en los entornos digitales, para proteger la salud física y mental.
  • Resolución de problemas: permite identificar y resolver necesidades y problemas en entornos digitales. También se enfoca en el uso de herramientas digitales para innovar procesos y productos, manteniéndose al día de la evolución digital.

¿Qué puestos de trabajo relacionados con datos son los más demandados?

Una vez que tenemos claro cuáles son las competencias básicas, cabe destacar que en un mundo donde cada vez cobra más importancia la digitalización no es de extrañar que también crezca la demanda de conocimientos tecnológicos avanzados y relacionados con los datos.

De acuerdo con los datos de la plataforma de empleo LinkedIn, entre las 25 profesiones que más crecen en España en 2024 encontramos analistas de seguridad (puesto 1), analistas de desarrollo de software (2), ingenieros de datos (11) e ingenieros de inteligencia artificial (25). Datos similares ofrece el Mapa del Empleo de Fundación Telefónica, que además destaca cuatro de los perfiles más demandados relacionados con los datos:

  • Analista de datos: encargados de la gestión y aprovechamiento de la información, se dedican a la recopilación, análisis y explotación de los datos, para lo cual suelen recurrir a la creación de cuadros de mando e informes.
  • Diseñador/a o administrador/a de bases de datos: enfocados en diseñar, implementar y gestionar bases de datos. Así como mantener su seguridad, ejecutando procedimientos de respaldo y recuperación de datos en caso de fallos.
  • Ingeniero/a de datos: responsables del diseño e implementación de arquitecturas de datos e infraestructuras para captar, almacenar, procesar y acceder a los datos, optimizando su rendimiento y garantizando su seguridad.
  • Científico/a de datos: centrado en el análisis de datos y modelado predictivo, la optimización de algoritmos y la comunicación de resultados.

Todos ellos son puestos con buenos salarios y expectativas de futuro, en los que sin embargo sigue existiendo una gran brecha entre hombres y mujeres. De acuerdo con datos europeos, sólo 1 de cada 6 especialistas en TIC y 1 de cada 3 licenciados en ciencias, tecnología, ingeniería y matemáticas (STEM) son mujeres.

Para desarrollar profesiones relacionadas con los datos, se necesitan, entre otros, conocimientos de lenguajes de programación populares como Python, R o SQL, y múltiples herramientas de procesado y visualización de datos, como las detalladas en estos artículos:

Actualmente la oferta de formaciones sobre todas estas capacidades no deja de crecer.

Perspectivas de futuro

Casi una cuarta parte de todos los puestos de trabajo (23%) cambiarán en los próximos cinco años, de acuerdo con el Informe sobre el Futuro del Empleo 2023 del Foro Económico Mundial. Los avances tecnológicos crearán nuevos empleos, transformarán los existentes y destruirán aquellos que se queden anticuados. Los conocimientos técnicos, relacionados con áreas como la inteligencia artificial o el Big Data, y el desarrollo de habilidades cognitivas, como el pensamiento analítico, supondrán grandes ventajas competitivas en el mercado laboral del futuro. En este contexto, las iniciativas políticas para impulsar la recapacitación de la sociedad, como el Plan europeo de Acción de Educación Digital (2021-2027), ayudaran a generar marcos y certificados comunes en un mundo en constante evolución.

La revolución tecnológica ha venido para quedarse y continuará cambiando nuestro mundo. Por ello, quienes antes empiecen a adquirir nuevas capacidades, tendrán una posición más ventajosa en el panorama laboral futuro.

calendar icon
Blog

La ciencia ciudadana se está consolidando como una de las fuentes de referencia más relevantes en la investigación contemporánea. Así lo reconoce el Centro Superior de Investigaciones Científicas (CSIC) que define la ciencia ciudadana como una metodología y un medio para el fomento de la cultura científica en la que confluyen estrategias propias de la ciencia y de la participación ciudadana.

Ya hablamos hace un tiempo de la importancia que la ciencia ciudadana tenía en la sociedad. Hoy en día, los proyectos de ciencia ciudadana no solo han aumentado en número, diversidad y complejidad, sino que también han impulsado un significativo proceso de reflexión sobre cómo la ciudadanía puede contribuir activamente a la generación de datos y conocimiento.

Para llegar a este punto, programas como Horizonte 2020, que reconocía explícitamente la participación ciudadana en ciencia, han jugado un papel fundamental. Más en concreto, el capítulo "Ciencia con y para la sociedad” dio un importante empuje a este tipo de iniciativas en Europa y también en España. De hecho, a raíz de la participación española en dicho programa, así como en iniciativas paralelas, los proyectos españoles han ido aumentando su envergadura y las conexiones con iniciativas internacionales.

Este creciente interés por la ciencia ciudadana también se traduce en políticas concretas. Ejemplo de ello es la actual Estrategia Española de Ciencia, Tecnología e Innovación (EECTI), para el periodo 2021-2027 que incluye “la responsabilidad social y económica de la I+D+I a través de la incorporación de la ciencia ciudadana”.

En definitiva, comentamos hace un tiempo, las iniciativas de ciencia ciudadana buscan incentivar una ciencia más democrática, que responda a los intereses de toda la ciudadanía y que genere información que se pueda reutilizar en pro de la sociedad. A continuación, mostramos algunos ejemplos de proyectos de ciencia ciudadana que ayudan a recolectar datos cuya reutilización puede tener un impacto positivo en la sociedad:

Proyecto AtmOOs Academic: Educación y ciencia ciudadana sobre contaminación atmosférica y movilidad.

En este programa, Thigis desarrolló una prueba piloto de ciencia ciudadana sobre movilidad y medio ambiente con los alumnos de un colegio del distrito del Eixample de Barcelona. Este proyecto, que ya es replicable en otros centros educativos, consiste en recoger datos de patrones de movilidad del alumnado para analizar cuestiones relacionadas con la sostenibilidad.

En la web de AtmOOs Academic se pueden visualizar los resultados de todas las ediciones que llevan realizándose anualmente desde el curso 2017-2018 y muestran información sobre los vehículos que emplean los alumnos para ir a clase o las emisiones generadas según etapa escolar.

WildINTEL: Proyecto de investigación sobre el monitoreo de vida en Huelva

La Universidad de Huelva y la Agencia Estatal de Investigaciones Científicas (CSIC) colaboran para construir un sistema de monitoreo de vida silvestre para obtener las variables esenciales de biodiversidad. Para llevarlo a cabo, se utilizan cámaras de fototrampeo de captura remota de datos e inteligencia artificial.

El proyecto WildINTEL se centra en el desarrollo de un sistema de monitoreo que sea escalable y reproducible, facilitando así la recolección y gestión eficiente de datos sobre biodiversidad. Este sistema incorporará tecnologías innovadoras para proporcionar estimaciones demográficas precisas y objetivas de las poblaciones y comunidades.

A través de este proyecto, que empezó en diciembre de 2023 y seguirá ejecutándose hasta diciembre de 2026, se espera conseguir herramientas y productos para mejorar la gestión de la biodiversidad no solo en la provincia de Huelva sino en toda Europa.

IncluScience-Me: Ciencia ciudadana en el aula para impulsar la cultura científica y la conservación de la biodiversidad.

Este proyecto de ciencia ciudadana que combina educación y biodiversidad surge de la necesidad de abordar la investigación científica en las escuelas. Para ello, el alumnado toma el rol de persona investigadora para abordar un reto real: rastrear e identificar los mamíferos que habitan en sus entornos cercanos para ayudar a la actualización de un mapa de distribución y, por ende, a su conservación.

IncluScience-Me nace en la Universidad de Córdoba y, en concreto, en el Grupo de Investigación en Educación y Gestión de la Biodiversidad (Gesbio), y ha sido posible gracias a la participación de la Universidad de Castilla-La Mancha y el Instituto de Investigación en Recursos Cinegéticos de Ciudad Real (IREC), con la colaboración de la Fundación Española para la Ciencia y la Tecnología - Ministerio de Ciencia, Innovación y Universidades.

La Memoria del Rebaño: Corpus documental de la vida pastoril.

Este proyecto de ciencia ciudadana que lleva activo desde julio de 2023 tiene como objetivo recabar conocimientos y experiencias de pastores y pastoras, en activo y jubilados, sobre el manejo de rebaños y la actividad ganadera.

La entidad responsable del programa es el Institut Català de Paleoecología Humana i Evolució Social aunque también colaboran el Museu Etnogràfic de Ripoll, Institució Milà i Fontanals-CSIC, Universidad Autònoma de Barcelona y Universidad Rovira i Virgili.

A través del programa, se ayuda a interpretar el registro arqueológico y contribuye a conservar los conocimientos de la práctica pastoril. Además, pone en valor la experiencia y los conocimientos de las personas mayores, un trabajo que contribuye a acabar con la connotación negativa de la “vejez” en una sociedad que prima la “juventud”, es decir, que pasen de ser considerados sujetos pasivos a ser considerados sujetos sociales activos.

Plastic Pirates España: Estudio de la contaminación por plástico en ríos europeos.

Es un proyecto de ciencia ciudadana que se ha llevado a cabo durante el último año con jóvenes de entre 12 y 18 años de las comunidades de Castilla y León y Cataluña pretende contribuir a generar evidencias científicas y concienciación ambiental sobre los residuos plásticos en los ríos.

Para ello, grupos de jóvenes de diferentes centros educativos, asociaciones y agrupaciones juveniles, han participado en campañas de muestreo donde se recogen datos de la presencia de residuos y basuras, principalmente plásticos y microplásticos en las riberas y agua de los ríos.

En España este proyecto lo ha coordinado el Centro Tecnológico BETA de la Universidad de Vic - Universidad Central de Cataluña junto a la Universidad de Burgos y la Fundación Oxígeno. Puedes acceder a más información en su página web.

Estos son algunos ejemplos de proyectos de ciencia ciudadana. Puedes consultar más en el Observatorio de Ciencia Ciudadana en España, una iniciativa que recoge múltiples recursos didácticos, informes y más información de interés sobre la ciencia ciudadana y su impacto en España. ¿Conoces algún otro proyecto? Mándanoslo a dinamizacion@datos.gob.es y podemos darlo a conocer a través de nuestros canales de difusión.

calendar icon
Blog

En la era digital actual, la compartición de datos y los datos abiertos (open data) han emergido como pilares fundamentales para la innovación, la transparencia y el desarrollo económico. Diversas compañías y organizaciones alrededor del mundo están adoptando estos enfoques para fomentar el acceso abierto a la información y potenciar la toma de decisiones basada en datos. A continuación, exploramos algunos ejemplos internacionales y nacionales de cómo estas prácticas están siendo implementadas.

Casos de éxito globales

Uno de los referentes globales en la compartición de datos es LinkedIn con su programa Data for Impact. Este programa facilita a gobiernos y organizaciones el acceso a datos económicos agregados y anonimizados, basados en el Economic Graph de LinkedIn, el cual representa la actividad profesional global. Es importante aclarar que los datos solo pueden utilizarse con fines de investigación y desarrollo. El acceso debe solicitarse vía email, adjuntando una propuesta para su evaluación, y se priorizan propuestas de gobiernos y organizaciones multilaterales. Estos datos han sido utilizados por entidades como el Banco Mundial y el Banco Central Europeo para informar de políticas y decisiones económicas clave. El enfoque de LinkedIn en la privacidad y la calidad de los datos asegura que estas colaboraciones beneficien tanto a las organizaciones como a los ciudadanos, promoviendo un crecimiento económico inclusivo, verde y alineado con las tecnologías digitales.

Por otro lado, el Registry of Open Data on AWS (RODA) es un repositorio gestionado Amazon Web Services (AWS) que alberga conjuntos de datos públicos. Los datasets no son proporcionados directamente por AWS, sino que son mantenidos por organizaciones gubernamentales, investigadores, empresas y particulares. Podemos encontrar, en el momento de escribir este post, más de 550 conjuntos de datos publicados por diferentes organizaciones, incluyendo algunas como el Allen Institute for Artificial Intelligence (AI2) o la propia NASA. Esta plataforma facilita que los usuarios aprovechen los servicios de computación en la nube de AWS para su análisis.

En el ámbito del periodismo de datos, FiveThirtyEight, propiedad de ABC News, ha adoptado un enfoque de transparencia radical al compartir públicamente los datos y códigos detrás de sus artículos y visualizaciones. Estos se encuentran accesibles a través de GitHub en formatos fácilmente reutilizables como CSV. Esta práctica no solo permite la verificación independiente de su trabajo, sino que también impulsa la creación de nuevas historias y análisis por parte de otros investigadores y periodistas. FiveThirtyEight se ha convertido en un modelo a seguir en lo relativo a cómo los datos abiertos pueden mejorar la calidad y la credibilidad del periodismo.

Casos de éxito en España

España no se queda atrás en cuanto a iniciativas de compartición de datos y open data por parte de compañías privadas. Varias empresas españolas están liderando iniciativas que promueven la accesibilidad y transparencia de los datos en diferentes sectores. Veamos algunos ejemplos.

Idealista, uno de los portales inmobiliarios más importantes del país, ha publicado un conjunto de datos abiertos que incluye información detallada sobre más de 180,000 viviendas en Madrid, Barcelona y Valencia. Este conjunto de datos proporciona las coordenadas geográficas y los precios de venta de cada propiedad, junto con sus características internas y la información oficial del catastro español. Este conjunto de datos está disponible para su acceso a través de GitHub como un paquete en R y se ha convertido en una gran herramienta para el análisis del mercado inmobiliario, permitiendo a investigadores y profesionales del sector desarrollar modelos de valoración automática y realizar estudios detallados sobre la segmentación del mercado. Cabe destacar que Idealista también reutiliza datos públicos de organismos como el catastro o el INE para ofrecer servicios de datos que dan soporte a las decisiones en el mercado inmobiliario, como contratación de hipotecas, estudios de mercado, valoración de carteras, etc.Por su parte BBVA, a través de su Fundación, ofrece acceso a un extenso fondo estadístico con bases de datos que incluyen cuadros, tablas y gráficos dinámicos. Estas bases de datos, de descarga libre, cubren temas como la productividad, la competitividad, el capital humano o la desigualdad en España, entre otros. Además, proporcionan series históricas sobre la economía española, inversiones, actividades culturales y gasto público. Estas herramientas están diseñadas para complementar publicaciones impresas y ofrecer una visión profunda sobre la evolución económica y social del país.

Además, Esri España habilita su Portal de Datos Abiertos, que pone a disposición de los usuarios una amplia variedad de contenidos que pueden ser consultados, analizados y descargados. Este portal incluye datos gestionados por Esri España, junto con una recopilación de otros portales de datos abiertos desarrollados con tecnología Esri. Esto amplía significativamente las posibilidades para investigadores, desarrolladores y profesionales que buscan aprovechar los datos geoespaciales en sus proyectos. Podemos encontrar conjuntos de datos en las categorías de salud, ciencia y tecnología o economía, entre otros.

En el ámbito de las empresas públicas, España también cuenta con ejemplos destacados de compromiso con los datos abiertos. Renfe, la principal operadora ferroviaria, y Red Eléctrica Española (REE), la entidad responsable de la operación del sistema eléctrico, han desarrollado programas de open data que facilitan el acceso a información relevante para la ciudadanía y para el desarrollo de aplicaciones y servicios que mejoren la eficiencia y la sostenibilidad. Destaca, en el caso de REE, la posibilidad de consumo de los datos disponibles a través de APIs REST, que facilitan la integración de aplicaciones sobre conjuntos de datos que reciben continuas actualizaciones sobre el estado de los mercados eléctricos.

Conclusión

La compartición de datos y el open data representan una evolución crucial en la forma en que las organizaciones gestionan y aprovechan la información. Desde gigantes tecnológicos internacionales como LinkedIn y AWS hasta innovadores nacionales como Idealista y BBVA, están proporcionando acceso abierto a los datos con el fin de impulsar un cambio significativo en cómo se toman decisiones, el desarrollo de políticas y la creación de nuevas oportunidades económicas. En España, tanto las empresas privadas como las públicas están mostrando un fuerte compromiso con estas prácticas, posicionando al país como un líder en la adopción de modelos de datos abiertos y de compartición de datos que beneficien a toda la sociedad.


Contenido elaborado por Juan Benavente, ingeniero superior industrial y experto en Tecnologías ligadas a la economía del dato. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Blog

La inteligencia artificial (IA) está revolucionando la manera en que creamos y consumimos contenido. Desde la automatización de tareas repetitivas hasta la personalización de experiencias, la IA ofrece herramientas que están cambiando el panorama del marketing, la comunicación y la creatividad

Estas inteligencias artificiales necesitan ser entrenadas con datos acordes a los objetivos, sobre los que no discurran derechos de autor. Por ello, los datos abiertos se alzan como una herramienta de gran utilidad de cara al futuro de la IA.

Para profundizar sobre esta temática, The Govlab ha publicado el informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI (¿Una cuarta ola de datos abiertos? Explorando el espectro de escenarios para los datos abiertos y la IA generativa). En él se analiza la relación emergente entre los datos abiertos y la IA generativa, presentado diversos escenarios y recomendaciones. A continuación, se recogen sus claves.

El papel de los datos en la IA generativa

Los datos son la base fundamental de los modelos generativos de inteligencia artificial. Construir y entrenar dichos modelos requiere un gran volumen de datos, cuya escala y variedad está condicionada por los objetivos y los casos de uso del modelo. 

El siguiente gráfico explica cómo los datos funcionan como una pieza clave tanto de entrada de un sistema de IA generativa, como de salida. Los datos se recopilan de diversas fuentes, incluyendo portales de datos abiertos, con el fin de entrenar un modelo de IA de propósito general. Este modelo, posteriormente, será adaptado para realizar funciones específicas y diferentes tipos de análisis, que generan, a su vez, nuevos datos, que pueden utilizarse para seguir entrenando modelos.

Título: El Rol de los datos abiertos en la IA generativa. 1. Datos. Se recopilan, compran o descargan de portales de datos abiertos. 2. Formación. Los modelos generalizan patrones a partir de datos y los aplican a nuevas aplicaciones. 3. IA de propósito general. Los modelos IA se adaptan para propósitos específicos usando datasets relevantes 4. Adaptación para usos específicos. Puede implicar basar los modelos en datos específicos y pertinentes.  5.1. Respuestas a preguntas. 5.2. Análisis de sentimiento. 5.3. Extracción de información. 5.4. Captación de imágenes. 5.5. Reconocimiento de objetos. Se generan nuevos datos a través de los comentarios de usuarios y los resultados del modelo, que pueden utilizarse para seguir entrenando y perfeccionando el modelo IA. Fuente: adaptado del informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI”, de The Govlab, 2024.

Figura 1. El Rol de los datos abiertos en la IA generativa, adaptado del informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI”, de The Govlab, 2024.

5 escenarios donde convergen los datos abiertos y la Inteligencia artificial

Con el fin de ayudar a los proveedores de datos abiertos a “preparar” dichos datos para la IA generativa, The Govlab ha definido cinco escenarios que resumen cinco formas distintas en las que los datos abiertos y la IA generativa pueden cruzarse. Estos escenarios pretenden ser un punto de partida, que se irá ampliando en el futuro, en base a los casos de uso disponibles.

Escenario Función Requisitos de calidad Necesidades de metadatos Ejemplo
Preentrenamiento (Pretraining) Entrenamiento de las capas fundacionales de un modelo de IA generativa con grandes cantidades de datos abiertos. Alto volumen de datos, diversos y representativos del dominio de aplicación y uso no estructurado. Información clara sobre la fuente de los datos. Los datos del proyecto Harmonized Landsat Sentinel-2 (HLS) de la NASA se utilizaron para entrenar el modelo fundacional geoespacial watsonx.ai.
Adaptación (Adaptation) Perfeccionamiento de un modelo preentrenado con datos abiertos específicos para tareas concretas, utilizando técnicas de fine-tuning or RAG. Datos tabulares y/o no estructurados de alta precisión y relevancia para la tarea objetivo, con una distribución equilibrada. Metadatado centrado en la anotación y procedencia de los datos para aportar enriquecimiento contextual. Partiendo del modelo LLaMA 70B, el Gobierno de Francia creó LLaMandement, un modelo de lenguaje grande perfeccionado para el análisis y la redacción de resúmenes de proyectos jurídicos. Para ello usaron datos de SIGNALE, la plataforma legislativa del Gobierno francés.
Inferencia y generación de hechos relevantes (Inference and Insight Generation) Extracción de información y patrones a partir de datos abiertos mediante un modelo entrenado de IA generativa. Datos tabulares de alta calidad, completos y coherentes. Metadatado descriptivo de los métodos de recogida de datos, información de origen y control de versiones. Wobby es una interfaz generativa que acepta consultas en lenguaje natural y produce respuestas en forma de resúmenes y visualizaciones, utilizando conjuntos de datos de distintas oficinas como Eurostat o el Banco Mundial.
Incremento de datos (Data Augmentation) Aprovechamiento de los datos abiertos para generar datos sintéticos o proporcionar ontologías para extender la cantidad de datos de entrenamiento. Datos tabulares y/o no estructurados que sean una representación cercana a la realidad, asegurando el cumplimiento de consideraciones éticas. Transparencia sobre el proceso de generación y posibles sesgos. Un equipo de investigadores adaptó el modelo Synthea de EE.UU. para incluir datos demográficos y hospitalarios de Australia.  Utilizando este modelo, el equipo pudo generar aproximadamente 117.000 historiales médicos sintéticos específicos, aplicados a su región.
Exploración abierta (Open-Ended Exploration) Exploración y descubrimiento de nuevos conocimientos y patrones en datos abiertos mediante modelos generativos. Datos tabulares y/o no estructurados, diversos y completos. Información clara sobre fuentes y derechos de autor, comprensión de posibles sesgos y limitaciones, identificación de entidades. NEPAccess es un piloto para desbloquear el acceso datos relacionados con la Ley Nacional de Política Medioambiental (NEPA) de EE.UU. mediante un modelo generativo de IA. Incluirá funciones para redactar evaluaciones de impacto ambiental, análisis de datos, etc.

Figura 2. Cinco escenarios donde convergen los datos abiertos y la Inteligencia artificial, adaptado del informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI”, de The Govlab, 2024.

Puedes leer el detalle de estos escenarios en el informe, donde se explican más ejemplos. Además, The Govlab también ha puesto en marcha un observatorio donde recopila ejemplos de intersecciones entre datos abiertos e inteligencia artificial generativa (los incluidos en el informe junto con otros adicionales). Cualquier usuario puede proponer nuevos casos a través de este formulario. Dichos ejemplos se utilizarán para continuar estudiando este campo y mejorar los escenarios actualmente definidos.

Entre los casos que se pueden ver en la web, encontramos una empresa española: Tendios. Se trata de una compañía de software como servicio que ha desarrollado un chatbot para ayudar en el análisis de licitaciones y concursos públicos con el fin de  facilitar la concurrencia. Esta herramienta está entrenada con documentos públicos de licitaciones gubernamentales.

Recomendaciones para publicadores de datos

Para extraer el máximo potencial de IA generativa, mejorando su eficiencia y eficacia, el informe destaca que los proveedores de datos abiertos deben hacer frente a algunos retos, como la mejora de la gobernanza y la gestión de los datos. En este sentido, recogen cinco recomendaciones:

  1. Mejorar la transparencia y la documentación. A través del uso de estándares, diccionarios de datos, vocabularios, plantillas de metadatos, etc. se ayudará a aplicar prácticas de documentación  sobre el linaje, la calidad, las consideraciones éticas y el impacto de los resultados.
  2. Mantener la calidad y la integridad. Se necesita formación y procesos rutinarios que aseguren la calidad, incluida la validación automatizada o manual, así como herramientas para actualizar los conjuntos de datos rápidamente cuando sea necesario. Además, son necesarios mecanismos para informar y abordar problemas que puedan surgir relacionados con los datos, a fin de impulsar la transparencia y facilitar la creación de una comunidad en torno a los conjuntos de datos abiertos.
  3. Fomentar la interoperabilidad y los estándares. Implica adoptar y promover normas internacionales de datos, con especial foco en los datos sintéticos y los contenidos generados por IA.
  4. Mejorar la accesibilidad y la facilidad de uso. Supone la mejora de los portales de datos abiertos mediante algoritmos de búsqueda inteligentes y herramientas interactivas. También es imprescindible establecer un espacio compartido donde los publicadores de los datos y los usuarios puedan intercambiar opiniones y manifestar necesidades, con el fin de hacer coincidir oferta y demanda.
  5. Abordar las consideraciones éticas. Proteger a los titulares de los datos es de máxima prioridad al hablar de datos abiertos e IA generativa. Se necesitan comités éticos y directrices éticas exhaustivas en torno a la recopilación, el intercambio y el uso de datos abiertos, así como tecnologías avanzadas de preservación de la intimidad.

Estamos ante un campo en continua evolución que necesita de actualización constante por parte de los publicadores de datos. Estos deben proporcionar conjuntos de datos adecuados tanto técnica como éticamente, para que los sistemas de IA generativa puedan alcanzar todo su potencial.

calendar icon
Documentación

Antes de realizar un análisis de datos, con fines estadístico o predictivos por ejemplo a través de técnicas de machine learning es necesario comprender la materia prima con la que vamos a trabajar. Hay que entender y evaluar la calidad de los datos para así, entre otros aspectos, detectar y tratar los datos atípicos o incorrectos, evitando posibles errores que pudieran repercutir en los resultados del análisis.

Una forma de llevar a cabo este pre-procesamiento es mediante un análisis exploratorio de datos (AED) o exploratory data analysis (EDA).  

¿Qué es el análisis exploratorio de los datos?

El AED consiste en aplicar un conjunto de técnicas estadísticas dirigidas a explorar, describir y resumir la naturaleza de los datos, de tal forma que podamos garantizar su objetividad e interoperabilidad.

Gracias a ello se pueden identificar posibles errores, revelar la presencia de valores atípicos, comprobar la relación entre variables (correlaciones) y su posible redundancia, así como realizar un análisis descriptivo de los datos mediante representaciones gráficas y resúmenes de los aspectos más significativos.

En muchas ocasiones, esta exploración de los datos se descuida y no se lleva a cabo de manera correcta. Por este motivo, desde datos.gob.es hemos elaborado una guía introductoria que recoge una serie de tareas mínimas para realizar un correcto análisis exploratorios de datos, paso previo y necesario antes de llevar a cabo cualquier tipo de análisis estadístico o predictivo ligado a las técnicas de machine learning.

¿Qué incluye la guía?

La guía explica de forma sencilla cuáles son los pasos a seguir para garantizar unos datos consistentes y veraces. Para su elaboración se ha tomado como referencia el análisis exploratorio de datos descrito en el libro R for Data Science de Wickman y Grolemund (2017) disponible de forma gratuita. Estos pasos son:

A los datos en bruto se les realiza un Análisis Exploratorio de Datos (EDA) consistente en 5 fases. 1. Análisis descriptivo. 2. Ajuste de tipos de variables. 3. Detección y tratamiento de datos ausentes. 3. Identificación de datos atípicos. 4. Correlación de variables. De este análisis se obtienen una serie de conclusiones.

Figura 1. Fases del análisis exploratorio de datos. Fuente: elaboración propia.

En la guía se explica cada uno de estos pasos y por qué son necesarios. Asimismo, se ilustran de manera práctica a través de un ejemplo. Para dicho caso práctico, se ha utilizado el dataset relativo al registro de la calidad del aire en la Comunidad Autónoma de Castilla y León incluido en nuestro catálogo de datos abiertos. El tratamiento se ha llevado a cabo con herramientas tecnológicas open source y gratuitas. En la guía se recoge el código para que los usuarios pueden replicarlo de forma autodidacta siguiendo los pasos indicados.

La guía finaliza con un apartado de recursos adicionales para aquellos que quieran seguir profundizando en la materia.

¿A quién va dirigida?

El público objetivo de la guía es el usuario reutilizador de datos abiertos. Es decir, desarrolladores, emprendedores o incluso periodistas de datos que quieran extraer todo el valor posible de la información con la que trabajan para obtener unos resultados fiables.

Es aconsejable que el usuario tenga nociones básicas del lenguaje de programación R, elegido para ilustrar los ejemplos. No obstante, en el apartado de bibliografía se incluyen recursos para adquirir mayores habilidades en este campo.

A continuación, en el apartado documentación, puedes descargarte la guía, así como una infografía-resumen que ilustra los principales pasos del análisis exploratorios de datos. También tienes disponible el código fuente del ejemplo práctico en nuestro Github.

Haz click para ver la infografía completa, en versión accesible

Captura de la infografía sobre Análisis Exploratorio de Datos

Figura 2. Captura de la infografía. Fuente: elaboración propia.

Infografía - Análisis de datos abiertos con herramientas open source PARTE I

Ver la infografía completa

Infografía - Visualización de datos abiertos con herramientas open source PARTE II

Ver infografía completa 

 

calendar icon
Documentación

1. Introducción

Las visualizaciones son representaciones gráficas de datos que permiten comunicar, de manera sencilla y efectiva, la información ligada a los mismos. Las posibilidades de visualización son muy amplias, desde representaciones básicas como los gráficos de líneas, de barras o métricas relevantes, hasta visualizaciones configuradas sobre cuadros de mando interactivos.

En esta sección de “Visualizaciones paso a paso” estamos presentando periódicamente ejercicios prácticos haciendo uso de datos abiertos disponibles en datos.gob.es u otros catálogos similares. En ellos, se abordan y describen de manera sencilla las etapas necesarias para obtener los datos, realizar las transformaciones y los análisis pertinentes para, finalmente obtener unas conclusiones a modo de resumen de dicha información.

En cada ejercicio práctico se utilizan desarrollos de código documentados y herramientas de uso gratuito. Todo el material generado está disponible para su reutilización en el repositorio de GitHub de datos.gob.es.

En este ejercicio concreto, exploraremos los flujos de turistas a nivel nacional, creando visualizaciones de los turistas que se mueven entre las comunidades autónomas (CCAA) y provincias.

 

Accede al repositorio del laboratorio de datos en Github.

Ejecuta el código de pre-procesamiento de datos sobre Google Colab.

En este vídeo, el autor te explica que vas a encontrar tanto en el Github como en Google Colab.

2. Contexto

Analizar los flujos de turistas nacionales nos permite observar ciertos movimientos ya muy conocidos, como, por ejemplo, que la provincia de Alicante es un destino muy popular del turismo veraniego. Además, este análisis es interesante para observar tendencias en el impacto económico que el turismo pueda tener, año tras año, en ciertas CCAA o provincias. El artículo sobre experiencias para la gestión de los flujos de visitantes en destinos turísticos ilustra el impacto de los datos en el sector.

3. Objetivo

El objetivo principal del ejercicio es crear visualizaciones interactivas en Python que permitan visualizar información compleja de manera comprensible y atractiva. Se cumplirá este objetivo usando un conjunto de datos abiertos que contiene información sobre flujos de turistas nacionales, planteando varias preguntas sobre los datos y contestándolas gráficamente. Podremos responder a preguntas como las que se plantean a continuación:

  • ¿En qué CCAA hay más turismo procedente de la misma CA?
  • ¿Cuál es la CA que más sale de su propia CA?
  • ¿Qué diferencias hay entre los flujos de turistas a lo largo del año?
  • ¿Cuál es la provincia valenciana que más turistas recibe?

La comprensión de las herramientas propuestas aportará al lector la capacidad para poder modificar el código contenido en el notebook que acompaña a este ejercicio para seguir explorando los datos por su cuenta y detectar más comportamientos interesantes a partir del conjunto de datos utilizado.

Para poder crear visualizaciones interactivas y contestar a las preguntas sobre los flujos de turistas, será necesario un proceso de limpieza y reformateado de datos que está descrito en el notebook que acompaña este ejercicio.

4. Recursos

Conjunto de datos

El conjunto de datos abiertos utilizado contiene información sobre los flujos de turistas en España a nivel de CCAA y provincias, indicando también los valores totales a nivel nacional. El conjunto de datos ha sido publicado por el Instituto Nacional de Estadística, a través de varios tipos de ficheros. Para el presente ejercicio utilizamos únicamente el fichero .csv separado por “;”. Los datos datan de julio de 2019 a marzo de 2024 (a la hora de redactar este ejercicio) y se actualizan mensualmente.

Número de turistas por CCAA y provincia de destino desagregados por PROVINCIA de origen

El conjunto de datos también se encuentra disponible para su descarga en este repositorio de Github.

Herramientas analíticas

Para la limpieza de los datos y la creación de las visualizaciones se ha utilizado el lenguaje de programación Python. El código creado para este ejercicio se pone a disposición del lector a través de un notebook de Google Colab.

Las librerías de Python que utilizaremos para llevar a cabo el ejercicio son:

  • pandas: es una librería que se utiliza para el análisis y manipulación de datos.
  • holoviews: es una librería que permite crear visualizaciones interactivas, combinando las funcionalidades de otras librerías como Bokeh y Matplotlib.

5. Desarrollo del ejercicio

Para visualizar los datos sobre flujos de turistas interactivamente crearemos dos tipos de diagramas, los diagramas de cuerdas y los diagramas de Sankey.

Los diagramas de cuerdas son un tipo de diagrama que está compuesto por nodos y aristas, véase la figura  1. Los nodos se sitúan en un círculo y las aristas simbolizan las relaciones entre los nodos del círculo. Estos diagramas suelen utilizarse para mostrar tipos de flujos, por ejemplo, flujos migratorios o monetarios. El volumen diferente de las aristas se visualiza de manera comprensible y refleja la importancia de un flujo o de un nodo. Por su forma de círculo, el diagrama de cuerdas es una buena opción para visualizar las relaciones entre todos los nodos de nuestro análisis (relación del tipo “varios a varios).

Figura 1 Diagrama de cuerdas (Migración global)

Figura 1. Diagrama de cuerdas (Migración global). Fuente.

Los diagramas de Sankey, igual que los diagramas de cuerdas, son un tipo de diagrama que está compuesto por nodos y aristas, véase la figura 2. Los nodos se representan en los márgenes de la visualización, estando las aristas entre los márgenes. Por esta agrupación lineal de los nodos, los diagramas de Sankey son mejores que los diagramas de cuerdas para análisis en los cuales queramos visualizar la relación entre:

  •  varios nodos y otros nodos (tipo varios a varios, o varios a pocos, o viceversa)
  • varios nodos y un solo nodo (varios a uno, o viceversa)

 

Figura 2 Diagrama de Sankey (Migración interna Reino Unido)

Figura 2. Diagrama de Sankey (Migración interna Reino Unido). Fuente.

 

El ejercicio está dividido en 5 partes, siendo la parte 0 (“configuración inicial”) solo de montar el entorno de programación. A continuación, describimos las cinco partes y los pasos que se llevan a cabo. 

5.1. Cargar datos

Este apartado podrás encontrarlo en el punto 1 del notebook.

En este parte cargamos el conjunto de datos para poder procesarlo en el notebook. Comprobamos el formato de los datos cargados y creamos un pandas.DataFrame que utilizaremos para el procesamiento de los datos en los siguientes pasos.

5.2. Exploración inicial de los datos

Este apartado podrás encontrarlo en el punto 2 del notebook.

En esta parte realizamos un análisis exploratorio de los datos para entender el formato del conjunto de datos que hemos cargado y para tener una idea más clara de la información que contiene. Mediante esta exploración inicial, podemos definir los pasos de limpieza que tenemos que llevar a cabo para poder crear las visualizaciones interactivas.

Si quieres aprender más sobre cómo abordar esta tarea, tienes a tu disposición esta guía introductoria sobre análisis exploratorio de datos.

5.3. Análisis del formato de los datos

Este apartado podrás encontrarlo en el punto 3 del notebook.

En esta parte resumimos las observaciones que hemos podido hacer durante la exploración inicial de los datos. Recapitulamos aquí las observaciones más importantes:

Provincia de origen Provincia de origen CCAA y provincia de destino CCAA y provincia de destino CCAA y provincia de destino Concepto turístico Periodo Total
Total Nacional   Total Nacional     Turistas 2024M03 13.731.096
Total Nacional Ourense Total Nacional Andalucía Almería Turistas 2024M03 373

Figura 3. Fragmento del conjunto de datos original.

Podemos observar en las columnas uno a cuatro que los orígenes de los flujos de turistas están desagregados por provincia mientras que, para los destinos, las provincias están agregadas por CCAA. Aprovecharemos el mapeado de las CCAA y de sus provincias que podemos extraer de la cuarta y quinta columna para agregar las provincias de origen por CCAA.

También podemos ver que la información contenida en la primera columna a veces es superflua, por lo cual, la combinaremos con la segunda columna. Además, hemos constatado que la quinta y sexta columna no aportan valor para nuestro análisis, por lo cual, las eliminaremos. Renombraremos algunas columnas para tener un pandas. DataFrame más comprensible.

5.4. Limpieza de los datos

Este apartado podrás encontrarlo en el punto 4 del notebook.

En esta parte llevamos a cabo los pasos necesarios para darle mejor formato a nuestros datos. Para ello aprovechamos varias funcionalidades que nos ofrece pandas, por ejemplo, para renombrar las columnas. También definimos una función reutilizable que necesitamos para concatenar los valores de la primera y segunda columna con el objetivo de no tener una columna que exclusivamente indique “Total Nacional” en todas las filas del pandas.DataFrame. Además, extraeremos de las columnas de destino un mapeado de CCAA a provincias que aplicaremos a las columnas de origen.

Queremos obtener una versión del conjunto de datos más comprimida con mayor transparencia de los nombres de las columnas y que no contenga información que no vamos a procesar. El resultado final del proceso de limpieza de datos es el siguiente:

Origen Provincia de origen Destino Provincia de destino Periodo Total
Total Nacional   Total Nacional   2024M03 13731096.0
Galicia Ourense Andalucía Almería 2024M03 373.0

Figura 4. Fragmento del conjunto de datos limpio.

5.5. Crear visualizaciones

Este apartado podrás encontrarlo en el punto 5 del notebook

En esta parte creamos nuestras visualizaciones interactivas utilizando la librería Holoviews. Para poder dibujar gráficos de cuerdas o de Sankey que visualicen el flujo de personas entre CCAA y CCAA y/o provincias, tenemos que estructurar la información de nuestros datos de tal forma que dispongamos de nodos y aristas. En nuestro caso, los nodos son los nombres de CCAA o provincia y las aristas, es decir, la relación entre los nodos, son el número de turistas. En el notebook definimos una función para obtener los nodos y aristas que podemos reutilizar para los diferentes diagramas que queramos realizar, cambiando el período de tiempo según la estación del año que nos interese analizar.

Vamos a crear primero un diagrama de cuerdas usando exclusivamente los datos sobre flujos de turistas de marzo de 2024. En el notebook, este diagrama de cuerdas es dinámico. Te animamos a probar su interactividad.

Figura 5 Diagrama de cuerdas que muestra el flujo de turistas en marzo 2024 agregado por comunidades autónomas

Figura 5. Diagrama de cuerdas que muestra el flujo de turistas en marzo 2024 agregado por comunidades autónomas.

En el diagrama de cuerdas se visualizan los flujos de turistas entre todas las CCAA. Cada CA tiene un color y los movimientos que hacen los turistas provenientes de esta CA se simbolizan con el mismo color. Podemos observar que los turistas de Andalucía y Cataluña viajan mucho dentro de sus propias CCAA. En cambio, los turistas de Madrid salen mucho de su propia CA.

Figura 6 Diagrama de cuerdas que muestra el flujo de turistas entrando y saliendo de Andalucía en marzo 2024 agregado por comunidades autónomas

Figura 6. Diagrama de cuerdas que muestra el flujo de turistas entrando y saliendo de Andalucía en marzo 2024 agregado por comunidades autónomas.

 

Creamos otro diagrama de cuerdas utilizando la función que hemos creado y visualizamos los flujos de turistas en agosto de 2023.

Figura 7 Diagrama de cuerdas que muestra el flujo de turistas en agosto 2023 agregado por comunidades autónomas

Figura 7. Diagrama de cuerdas que muestra el flujo de turistas en agosto 2023 agregado por comunidades autónomas.

Podremos observar que, a grandes rasgos, no cambian los movimientos de los turistas, solo que se intensifican los movimientos que ya hemos podido observar para marzo 2024.

Figura 8 Diagrama de cuerdas que muestra el flujo de turistas entrando y saliendo de la Comunitat Valenciana en agosto 2023 agregado por comunidades autónomas

Figura 8. Diagrama de cuerdas que muestra el flujo de turistas entrando y saliendo de la Comunitat Valenciana en agosto 2023 agregado por comunidades autónomas.

El lector puede crear el mismo diagrama para otros períodos de tiempo, por ejemplo, para el verano del año 2020, con el fin de visualizar el impacto de la pandemia en el turismo veraniego, reutilizando la función que hemos creado.

Para los diagramas de Sankey nos vamos a centrar en la Comunitat Valenciana, ya que es un destino vacacional popular. Filtramos las aristas que hemos creado para el diagrama de cuerdas anterior de manera que solo contengan flujos que terminen en la Comunitat Valenciana. El mismo procedimiento se podría aplicar para estudiar cualquier otra CA o se podría invertir para analizar  dónde van a veranear los valencianos. Visualizamos el diagrama de Sankey que, igual que los diagramas de cuerdas, es interactivo dentro del notebook. El aspecto visual quedaría así:

Figura 9 Diagrama de Sankey que muestra el flujo de turistas en agosto 2023 con destino a la Comunitat Valenciana

Figura 9. Diagrama de Sankey que muestra el flujo de turistas en agosto 2023 con destino a la Comunitat Valenciana.

 

Como ya hemos podido intuir por el diagrama de cuerdas de arriba, véase la figura 8 el mayor grupo de turistas que llegan a la Comunitat Valenciana proviene de Madrid. Vemos que también hay un elevado número de turistas que visitan la Comunitat Valenciana desde las CCAA vecinas como Murcia, Andalucía y Cataluña.

Para comprobar que estas tendencias se dan en las tres provincias de la Comunitat Valenciana, vamos a crear un diagrama de Sankey que muestre en el margen izquierdo todas las CCAA y en el margen derecho las tres provincias de la Comunitat Valenciana.

Para crear este diagrama de Sankey a nivel de provincias tenemos que filtrar nuestro pandas. DataFrame inicial para extraer de él las filas que contienen la información relevante. Los pasos en el notebook se pueden adaptar para realizar este análisis a nivel de provincias para cualquier otra CA. Aunque no estamos reutilizando la función que hemos usado anteriormente, también podemos cambiar el período de análisis.

El diagrama de Sankey que visualiza los flujos de turistas que llegaron en agosto de 2023 a las tres provincias valencianas quedaría así:

Figura 10 Diagrama de Sankey agosto 2023 que muestra el flujo de turistas con destino a provincias de la Comunitat Valenciana

Figura 10. Diagrama de Sankey agosto 2023 que muestra el flujo de turistas con destino a provincias de la Comunitat Valenciana.

Podemos observar que, como ya suponíamos, el mayor número de turistas que llega a la Comunitat Valenciana en agosto proviene de la Comunidad de Madrid. Sin embargo, podemos comprobar que esto no es cierto para la provincia de Castellón, donde en agosto de 2023 la mayoría de los turistas fueron valencianos que se desplazaron dentro de su propia CA.

6. Conclusiones del ejercicio

Gracias a las técnicas de visualización empleadas en este ejercicio, hemos podido observar los flujos de turistas que se desplazan dentro del territorio nacional, enfocándonos en hacer comparaciones entre diversas épocas del año y tratando de identificar patrones. Tanto en los diagramas de cuerdas como en los diagramas de Sankey que hemos creado, hemos podido observar la afluencia de los turistas madrileños en las costas valencianas en verano. También hemos podido identificar las comunidades autónomas donde los turistas salen menos de su propia comunidad autónoma, como Cataluña y Andalucía.

7. ¿Quieres realizar el ejercicio?

Invitamos al lector a ejecutar el código contenido en el notebook de Google Colab que acompaña a este ejercicio para seguir con el análisis de los flujos de turistas. Dejamos aquí algunas ideas de posibles preguntas y de cómo se podrían contestar:

  • El impacto de la pandemia: ya lo hemos mencionado brevemente arriba, pero una pregunta interesante sería medir el impacto que ha tenido la pandemia del coronavirus sobre el turismo. Podemos comparar los datos de los años anteriores con el 2020 y también analizar los años siguientes para detectar tendencias de estabilización. Visto que la función que hemos creado permite cambiar fácilmente el período de tiempo bajo análisis, te proponemos hacer este análisis por tu cuenta.
  • Intervalos de tiempo: también es posible modificar la función que hemos estado usando de tal manera que no solo permita seleccionar un periodo de tiempo concreto, sino que también permita intervalos de tiempos.
  • Análisis a nivel de provincias: igualmente, un lector avanzado con Pandas puede imponerse el reto de crear un diagrama de Sankey que visualice a qué provincias viajan los habitantes de una determinada región, por ejemplo, Ourense. Para no tener demasiadas provincias de destino que podrían hacer ilegible el diagrama de Sankey, se podrían visualizar solo las 10 más visitadas. Para obtener los datos para crear esta visualización, el lector tendría que jugar con los filtros que pone sobre el dataset y con el método de groupby de pandas, dejándose inspirar por el código ya ejecutado.

Esperamos que este ejercicio práctico te haya aportado conocimiento suficiente para desarrollar tus propias visualizaciones. Si tienes algún tema sobre ciencia de datos que quieras que tratemos próximamente, no dudes en proponer tu interés a través de nuestros canales de contacto.

Además, recuerda que tienes a tu disposición más ejercicios en el apartado sección de “Ejercicios de ciencia de datos”.

calendar icon
Documentación

La revolución digital está transformando los servicios municipales, impulsada por la creciente adopción de tecnologías de inteligencia artificial (IA) que también se benefician de los datos abiertos. Estos avances tienen potencial para redefinir la manera en que los municipios ofrecen servicios a sus ciudadanos, proporcionando herramientas para mejorar la eficiencia, accesibilidad y sostenibilidad. El presente informe analiza casos de éxito en el despliegue de aplicaciones y plataformas que buscan mejorar diversos aspectos de la vida en los municipios, destacando su potencial para liberar algo más del vasto potencial aún por explotar de los datos abiertos y las tecnologías asociadas a la inteligencia artificial.

Las aplicaciones y plataformas descritas en este informe tienen un alto potencial de replicabilidad en diferentes contextos municipales, ya que abordan problemas que son comunes. La replicación de estas soluciones puede llevarse a cabo mediante la colaboración entre municipios, empresas y desarrolladores, así como a través de la liberación y estandarización de datos abiertos.

A pesar de los beneficios, la adopción de datos abiertos para la innovación municipal también presenta importantes desafíos. Debe garantizarse la calidad, actualización y estandarización de los datos publicados por las entidades locales, así como la interoperabilidad entre diferentes plataformas y sistemas. Además, es necesario reforzar la cultura de datos abiertos entre todos los actores implicados, incluidos los ciudadanos, los desarrolladores, las empresas y las propias administraciones públicas.

Los casos de uso analizados se dividen en cuatro secciones. A continuación, se describen cada una de estas secciones y se muestran algunos ejemplos de las soluciones incluidas en el informe.

Transporte y Movilidad

Uno de los desafíos más significativos en las áreas urbanas es la gestión del transporte y la movilidad. Las aplicaciones que utilizan datos abiertos han demostrado ser efectivas en la mejora de estos servicios. Por ejemplo, aplicaciones como Park4Dis facilitan la localización de plazas de aparcamiento para persona con movilidad reducida, utilizando datos de múltiples municipios y contribuciones de voluntarios. CityMapper, que ha alanzado escala global, por otro lado, ofrece rutas de transporte público optimizadas en tiempo real, integrando datos de diversos modos de transporte para proporcionar la ruta más eficiente. Estas aplicaciones no solo mejoran la movilidad, sino que también contribuyen a la sostenibilidad al reducir la congestión y las emisiones de carbono.

Medio Ambiente y Sostenibilidad

La creciente conciencia sobre la sostenibilidad ha impulsado el desarrollo de aplicaciones que promueven prácticas ecológicas. CleanSpot, por ejemplo, facilita la localización de puntos de reciclaje y la gestión de residuos urbanos. La aplicación incentiva la participación ciudadana en la limpieza y el reciclaje, contribuyendo a la reducción de la huella ecológica. Liight, por su parte, gamifica comportamientos sostenibles, recompensando a los usuarios por acciones como reciclar o usar el transporte público. Estas aplicaciones no solo mejoran la gestión ambiental, sino que también educan y motivan a los ciudadanos a adoptar hábitos más sostenibles.

Optimización de Servicios Públicos Básicos

Las plataformas de gestión de servicios urbanos, como Gestdropper, utilizan datos abiertos para monitorizar y controlar infraestructuras urbanas en tiempo real. Estas herramientas permiten una gestión más eficiente de recursos como el alumbrado público, redes de agua y mobiliario urbano, optimizando el mantenimiento, la respuesta ante incidencias y reduciendo costes operativos. Por otra parte, el despliegue de sistemas de gestión de citas previas, como CitaME, ayuda a reducir los tiempos de espera y mejorar la eficiencia en la atención al ciudadano.

Agregadores de Servicios a los Ciudadanos

Las aplicaciones que centralizan información y servicios públicos, como Badajoz Es Más y AppValencia, mejoran la accesibilidad y la comunicación entre las administraciones y los ciudadanos. Estas plataformas proporcionan datos en tiempo real sobre transporte público, eventos culturales, turismo y trámites administrativos, facilitando la vida en el municipio tanto a los residentes como a los turistas. Por ejemplo, al integrar múltiples servicios en una sola aplicación, se mejora la eficiencia y se reduce la necesidad de desplazamientos innecesarios. Estas herramientas también apoyan a las economías locales al promover eventos culturales y servicios comerciales.

Conclusiones

La utilización de datos abiertos y tecnologías de inteligencia artificial está transformando la gestión municipal, mejorando la eficiencia, accesibilidad y sostenibilidad de los servicios públicos. Los casos de éxito presentados en este informe describen cómo estas herramientas pueden beneficiar tanto a los ciudadanos como a las administraciones públicas convirtiendo las ciudades en entornos más inteligentes, inclusivos y sostenibles, y respondiendo mejor a las necesidades y bienestar de sus habitantes y visitantes.

Descarga la versión accesible del informe

Escucha el pódcast

Vídeo del pódcast

calendar icon