Noticia

El Gobierno Vasco convoca la quinta edición de los premios a los mejores proyectos de reutilización de datos abiertos de Euskadi. Una iniciativa que nace con el objetivo de premiar las mejores ideas y aplicaciones/servicios creados a partir del catálogo de datos abiertos de Euskadi (Open Data Euskadi) para mostrar su potencial y fomentar la cultura open data.

Como ya venía sucediendo en ediciones anteriores, existen dos modalidades de premios: un concurso de ideas y otro de aplicaciones. En el primero, se repartirá una suma de 13.500 euros en premios. En el segundo, la cifra asciende a 21.000€ en premios.

A continuación, presentamos los detalles de la convocatoria para cada una de las modalidades:

Concurso de ideas

Se valorarán propuestas de servicios, estudios, visualizaciones y aplicaciones (web y móvil) que reutilicen conjuntos de datos abiertos del portal Open Data Euskadi para proporcionar valor a la sociedad. Las ideas podrán ser de utilidad general o centrarse en alguno de estos dos sectores: sanitario y social o medio ambiente y sostenibilidad.

  • ¿A quién va dirigido? A todas aquellas personas o empresas de dentro y fuera del País Vasco que quieran presentar ideas y proyectos de reutilización de datos abiertos de Euskadi. Esta modalidad no requiere de conocimientos técnicos de programación o desarrollo informático.
  • ¿Cómo participar? Será necesario explicar la idea en un documento de texto y adjuntarlo al realizar la inscripción. La inscripción podrá realizarse tanto online como de manera presencial.
  • ¿Qué premios se ofrecen? Se elegirá dos proyectos ganadores por cada categoría, que se dividirán en un primer premio de 3.000 euros y otro segundo premio de 1.500 euros. Es decir, en resumen, los premios son:
  • Categoría sanitaria y social
    • Primer premio: 3.000 €
    • Segundo premio: 1.500 €
  • Categoría de medio ambiente y sostenibilidad
    • Primer premio: 3.000 €
    • Segundo premio: 1.500 €
  • Categoría general
    • Primer premio: 3.000 €
    • Segundo premio: 1.500 €

Aquí puedes leer las bases del concurso de ideas de Open Data Euskadi: https://www.euskadi.eus/servicios/1028505

Concurso de aplicaciones

Esta modalidad sí requiere de cierto conocimiento técnico de programación o desarrollo informático, ya que se debe presentar soluciones ya desarrolladas que utilicen conjuntos de datos abiertos de Open Data Euskadi. Las aplicaciones podrán presentarse a la categoría general o a la categoría específica de servicios web.

  • ¿A quién va dirigido? A aquellas personas o empresas capaces de crear servicios, estudios, visualizaciones, aplicaciones web o para dispositivos móviles que utilicen, como mínimo, un conjunto de datos abiertos de alguno de los catálogos de datos abiertos de Euskadi.
  • ¿Cómo participar? Será necesario explicar el proyecto en un documento de texto y que el proyecto desarrollado (servicio, estudio, visualización, aplicación web o para dispositivos móviles) sea accesible mediante una URL. Al realizar la inscripción se adjuntará tanto el documento explicativo como la URL del proyecto. 
  • ¿Qué premios se ofrecen? En esta modalidad se ofrece un único premio de 8.000 euros para la categoría de servicios web y dos premios para la categoría general de 8.000 y 5.000 euros.
  • Categoría servicios web
    • Único premio: 8.000 €
  •  Categoría general
    • Primer premio: 8.000 €
    • Segundo premio: 5.000 €

Consulta aquí las bases del concurso en modalidad desarrollo de aplicaciones: https://www.euskadi.eus/servicios/1028605

Plazo de inscripción:

El concurso acepta propuestas desde el 31 de julio y el plazo cerrará el próximo 10 de octubre. Síguenos en redes sociales para no perderte ninguna novedad sobre eventos y concursos de reutilización de datos abiertos: @datosgob

¡Anímate y participa!

calendar icon
Noticia

La Junta de Castilla y León acaba de lanzar una nueva edición de su concurso de datos abiertos. Con ello, busca reconocer la realización de proyectos que utilicen conjuntos de datos de su Portal Open Data. La convocatoria estará abierta hasta finales de septiembre, así que puedas aprovechar las semanas que quedan de verano para presentar tu solicitud.

¿En qué consiste la competición?

El objetivo del VIII Concurso de Datos Abiertos es reconocer la realización de proyectos que utilicen datos abiertos en cuatro categorías:

  • Categoría “Ideas”: los participantes tendrán que describir una idea para crear estudios, servicios, sitios web o aplicaciones para dispositivos móviles.
  • Categoría “Productos y Servicios”: se premiarán estudios, servicios, sitios web o aplicaciones para dispositivos móviles, los cuales deben estar accesibles para toda la ciudadanía vía web mediante una URL.
  • Categoría “Recurso Didáctico”: consiste en la creación de recursos didácticos abiertos nuevos e innovadores, que sirvan de apoyo a la enseñanza en el aula. Estos recursos deben ser publicados con licencias Creative Commons.
  • Categoría “Periodismo de Datos”: se buscan piezas periodísticas publicadas o actualizadas (de forma relevante) tanto en soporte escrito como audiovisual.

Todas las categorías tienen algo en común: es necesario que el proyecto utilice, al menos, un conjunto de datos del portal de Datos Abiertos de la Junta de Castilla y León. Estos datasets se puede combinar, si así lo desean los autores, con otras fuentes de datos, privadas o públicas, de cualquier nivel de la administración.

¿Quién puede participar?

La competición está abierta a cualquier persona física o jurídica, que haya realizado un proyecto y que cumpla los requisitos de cada categoría. No podrán participar administraciones públicas ni aquellas personas que hayan colaborado directa o indirectamente en la elaboración de las bases reguladoras y la convocatoria.

Se puede participar de manera individual o en grupo. Además, una misma persona puede presentar más de una candidatura a la misma o diferentes categorías. También un mismo proyecto se puede presentar a diversas categorías, aunque solo podrá ser premiado en una.

¿En qué consisten los premios?

Un jurado valorará las propuestas recibidas en base a una serie de requisitos, entre los que se encuentra su utilidad, valor económico, originalidad, calidad etc. Una vez valorados todos los proyectos, se anunciarán una serie de ganadores, que recibirán un diploma, asesoría en materia de datos abiertos y la siguiente dotación económica:

  1. Categoría Ideas.
    • Primer premio 1.500€.
    • Segundo premio 500€.
  2. Categoría Productos y servicios. En este caso, se ha creado también un premio especial para estudiantes dirigido a personas matriculadas en los cursos lectivos 2023/2024 y 2024/2025, tanto en enseñanza universitaria como no universitaria siempre que sea oficial.
    • Primer premio 2.500€.
    • Segundo premio: 1.500€.
    • Tercer premio: 500€.
    • Premio estudiantes: 1.500€.
  3. Categoría Recurso didáctico.
    • Primer premio: 1.500€.
  4. Categoría Periodismo de datos.
    • Primer premio: 1.500€.
    • Segundo premio : 1.000€.

Además, las candidaturas premiadas se difundirán y promocionarán a través del Portal de Datos Abiertos de Castilla y León y otros medios de la Administración.

¿Cuáles son los plazos?

El plazo para recibir las candidaturas se abrió el pasado 23 de julio de 2024, un día después de la publicación de las bases en el Boletín Oficial de Castilla y León.  Los participantes tendrán hasta el 23 de septiembre de 2024 para presentar sus solicitudes.

¿Cómo puedo participar?

Las candidaturas se pueden presentar de manera presencial o electrónica.

Las solicitudes deberán incluir información sobre:

  • Autor o autores del proyecto.
  • Título del proyecto.
  • Categoría o categorías a las que se presenta.
  • Memoria del proyecto, con una extensión máxima de mil palabras.

Tienes toda la información detallada en la sede electrónica, donde se incluyen  las bases del concurso.

Con esta nueva edición, el Portal de datos de Castilla y León reafirma su compromiso no solo con la publicación de datos abiertos, sino también con el impulso de su reutilización. Este tipo de acciones son un escaparate para promocionar ejemplos del uso de datos abiertos en diferentes campos. Puedes ver los proyectos ganadores del año pasado en este artículo.

¡Anímate y participa!

calendar icon
Aplicación

AUVASA Pay es una aplicación móvil que ofrece información en tiempo real sobre la red pública de autobuses de Valladolid. A través de AUVASA Pay se pueden consultar detalles como los tiempos de espera en parada o incluso comprar títulos de transporte en formato QR y recargar la tarjeta de transporte para utilizarla en los autobuses.

Esta aplicación utiliza datos abiertos de Open Street Map para mostrar los mapas de la ciudad. Además, ofrece conjuntos de datos abiertos sobre el transporte público en Valladolid disponibles para su descarga y reutilización bajo licencia Creative Commons en Datos abiertos - AUVASA

calendar icon
Documentación

1. Introducción

Las visualizaciones son representaciones gráficas de datos que permiten comunicar, de manera sencilla y efectiva, la información ligada a los mismos. Las posibilidades de visualización son muy amplias, desde representaciones básicas como los gráficos de líneas, de barras o métricas relevantes, hasta visualizaciones configuradas sobre cuadros de mando interactivos.

En esta sección de “Visualizaciones paso a paso” estamos presentando periódicamente ejercicios prácticos haciendo uso de datos abiertos disponibles en datos.gob.es u otros catálogos similares. En ellos, se abordan y describen de manera sencilla las etapas necesarias para obtener los datos, realizar las transformaciones y los análisis pertinentes para, finalmente obtener unas conclusiones a modo de resumen de dicha información.

En cada ejercicio práctico se utilizan desarrollos de código documentados y herramientas de uso gratuito. Todo el material generado está disponible para su reutilización en el repositorio de GitHub de datos.gob.es.

En este ejercicio concreto, exploraremos los flujos de turistas a nivel nacional, creando visualizaciones de los turistas que se mueven entre las comunidades autónomas (CCAA) y provincias.

 

Accede al repositorio del laboratorio de datos en Github.

Ejecuta el código de pre-procesamiento de datos sobre Google Colab.

En este vídeo, el autor te explica que vas a encontrar tanto en el Github como en Google Colab.

2. Contexto

Analizar los flujos de turistas nacionales nos permite observar ciertos movimientos ya muy conocidos, como, por ejemplo, que la provincia de Alicante es un destino muy popular del turismo veraniego. Además, este análisis es interesante para observar tendencias en el impacto económico que el turismo pueda tener, año tras año, en ciertas CCAA o provincias. El artículo sobre experiencias para la gestión de los flujos de visitantes en destinos turísticos ilustra el impacto de los datos en el sector.

3. Objetivo

El objetivo principal del ejercicio es crear visualizaciones interactivas en Python que permitan visualizar información compleja de manera comprensible y atractiva. Se cumplirá este objetivo usando un conjunto de datos abiertos que contiene información sobre flujos de turistas nacionales, planteando varias preguntas sobre los datos y contestándolas gráficamente. Podremos responder a preguntas como las que se plantean a continuación:

  • ¿En qué CCAA hay más turismo procedente de la misma CA?
  • ¿Cuál es la CA que más sale de su propia CA?
  • ¿Qué diferencias hay entre los flujos de turistas a lo largo del año?
  • ¿Cuál es la provincia valenciana que más turistas recibe?

La comprensión de las herramientas propuestas aportará al lector la capacidad para poder modificar el código contenido en el notebook que acompaña a este ejercicio para seguir explorando los datos por su cuenta y detectar más comportamientos interesantes a partir del conjunto de datos utilizado.

Para poder crear visualizaciones interactivas y contestar a las preguntas sobre los flujos de turistas, será necesario un proceso de limpieza y reformateado de datos que está descrito en el notebook que acompaña este ejercicio.

4. Recursos

Conjunto de datos

El conjunto de datos abiertos utilizado contiene información sobre los flujos de turistas en España a nivel de CCAA y provincias, indicando también los valores totales a nivel nacional. El conjunto de datos ha sido publicado por el Instituto Nacional de Estadística, a través de varios tipos de ficheros. Para el presente ejercicio utilizamos únicamente el fichero .csv separado por “;”. Los datos datan de julio de 2019 a marzo de 2024 (a la hora de redactar este ejercicio) y se actualizan mensualmente.

Número de turistas por CCAA y provincia de destino desagregados por PROVINCIA de origen

El conjunto de datos también se encuentra disponible para su descarga en este repositorio de Github.

Herramientas analíticas

Para la limpieza de los datos y la creación de las visualizaciones se ha utilizado el lenguaje de programación Python. El código creado para este ejercicio se pone a disposición del lector a través de un notebook de Google Colab.

Las librerías de Python que utilizaremos para llevar a cabo el ejercicio son:

  • pandas: es una librería que se utiliza para el análisis y manipulación de datos.
  • holoviews: es una librería que permite crear visualizaciones interactivas, combinando las funcionalidades de otras librerías como Bokeh y Matplotlib.

5. Desarrollo del ejercicio

Para visualizar los datos sobre flujos de turistas interactivamente crearemos dos tipos de diagramas, los diagramas de cuerdas y los diagramas de Sankey.

Los diagramas de cuerdas son un tipo de diagrama que está compuesto por nodos y aristas, véase la figura  1. Los nodos se sitúan en un círculo y las aristas simbolizan las relaciones entre los nodos del círculo. Estos diagramas suelen utilizarse para mostrar tipos de flujos, por ejemplo, flujos migratorios o monetarios. El volumen diferente de las aristas se visualiza de manera comprensible y refleja la importancia de un flujo o de un nodo. Por su forma de círculo, el diagrama de cuerdas es una buena opción para visualizar las relaciones entre todos los nodos de nuestro análisis (relación del tipo “varios a varios).

Figura 1 Diagrama de cuerdas (Migración global)

Figura 1. Diagrama de cuerdas (Migración global). Fuente.

Los diagramas de Sankey, igual que los diagramas de cuerdas, son un tipo de diagrama que está compuesto por nodos y aristas, véase la figura 2. Los nodos se representan en los márgenes de la visualización, estando las aristas entre los márgenes. Por esta agrupación lineal de los nodos, los diagramas de Sankey son mejores que los diagramas de cuerdas para análisis en los cuales queramos visualizar la relación entre:

  •  varios nodos y otros nodos (tipo varios a varios, o varios a pocos, o viceversa)
  • varios nodos y un solo nodo (varios a uno, o viceversa)

 

Figura 2 Diagrama de Sankey (Migración interna Reino Unido)

Figura 2. Diagrama de Sankey (Migración interna Reino Unido). Fuente.

 

El ejercicio está dividido en 5 partes, siendo la parte 0 (“configuración inicial”) solo de montar el entorno de programación. A continuación, describimos las cinco partes y los pasos que se llevan a cabo. 

5.1. Cargar datos

Este apartado podrás encontrarlo en el punto 1 del notebook.

En este parte cargamos el conjunto de datos para poder procesarlo en el notebook. Comprobamos el formato de los datos cargados y creamos un pandas.DataFrame que utilizaremos para el procesamiento de los datos en los siguientes pasos.

5.2. Exploración inicial de los datos

Este apartado podrás encontrarlo en el punto 2 del notebook.

En esta parte realizamos un análisis exploratorio de los datos para entender el formato del conjunto de datos que hemos cargado y para tener una idea más clara de la información que contiene. Mediante esta exploración inicial, podemos definir los pasos de limpieza que tenemos que llevar a cabo para poder crear las visualizaciones interactivas.

Si quieres aprender más sobre cómo abordar esta tarea, tienes a tu disposición esta guía introductoria sobre análisis exploratorio de datos.

5.3. Análisis del formato de los datos

Este apartado podrás encontrarlo en el punto 3 del notebook.

En esta parte resumimos las observaciones que hemos podido hacer durante la exploración inicial de los datos. Recapitulamos aquí las observaciones más importantes:

Provincia de origen Provincia de origen CCAA y provincia de destino CCAA y provincia de destino CCAA y provincia de destino Concepto turístico Periodo Total
Total Nacional   Total Nacional     Turistas 2024M03 13.731.096
Total Nacional Ourense Total Nacional Andalucía Almería Turistas 2024M03 373

Figura 3. Fragmento del conjunto de datos original.

Podemos observar en las columnas uno a cuatro que los orígenes de los flujos de turistas están desagregados por provincia mientras que, para los destinos, las provincias están agregadas por CCAA. Aprovecharemos el mapeado de las CCAA y de sus provincias que podemos extraer de la cuarta y quinta columna para agregar las provincias de origen por CCAA.

También podemos ver que la información contenida en la primera columna a veces es superflua, por lo cual, la combinaremos con la segunda columna. Además, hemos constatado que la quinta y sexta columna no aportan valor para nuestro análisis, por lo cual, las eliminaremos. Renombraremos algunas columnas para tener un pandas. DataFrame más comprensible.

5.4. Limpieza de los datos

Este apartado podrás encontrarlo en el punto 4 del notebook.

En esta parte llevamos a cabo los pasos necesarios para darle mejor formato a nuestros datos. Para ello aprovechamos varias funcionalidades que nos ofrece pandas, por ejemplo, para renombrar las columnas. También definimos una función reutilizable que necesitamos para concatenar los valores de la primera y segunda columna con el objetivo de no tener una columna que exclusivamente indique “Total Nacional” en todas las filas del pandas.DataFrame. Además, extraeremos de las columnas de destino un mapeado de CCAA a provincias que aplicaremos a las columnas de origen.

Queremos obtener una versión del conjunto de datos más comprimida con mayor transparencia de los nombres de las columnas y que no contenga información que no vamos a procesar. El resultado final del proceso de limpieza de datos es el siguiente:

Origen Provincia de origen Destino Provincia de destino Periodo Total
Total Nacional   Total Nacional   2024M03 13731096.0
Galicia Ourense Andalucía Almería 2024M03 373.0

Figura 4. Fragmento del conjunto de datos limpio.

5.5. Crear visualizaciones

Este apartado podrás encontrarlo en el punto 5 del notebook

En esta parte creamos nuestras visualizaciones interactivas utilizando la librería Holoviews. Para poder dibujar gráficos de cuerdas o de Sankey que visualicen el flujo de personas entre CCAA y CCAA y/o provincias, tenemos que estructurar la información de nuestros datos de tal forma que dispongamos de nodos y aristas. En nuestro caso, los nodos son los nombres de CCAA o provincia y las aristas, es decir, la relación entre los nodos, son el número de turistas. En el notebook definimos una función para obtener los nodos y aristas que podemos reutilizar para los diferentes diagramas que queramos realizar, cambiando el período de tiempo según la estación del año que nos interese analizar.

Vamos a crear primero un diagrama de cuerdas usando exclusivamente los datos sobre flujos de turistas de marzo de 2024. En el notebook, este diagrama de cuerdas es dinámico. Te animamos a probar su interactividad.

Figura 5 Diagrama de cuerdas que muestra el flujo de turistas en marzo 2024 agregado por comunidades autónomas

Figura 5. Diagrama de cuerdas que muestra el flujo de turistas en marzo 2024 agregado por comunidades autónomas.

En el diagrama de cuerdas se visualizan los flujos de turistas entre todas las CCAA. Cada CA tiene un color y los movimientos que hacen los turistas provenientes de esta CA se simbolizan con el mismo color. Podemos observar que los turistas de Andalucía y Cataluña viajan mucho dentro de sus propias CCAA. En cambio, los turistas de Madrid salen mucho de su propia CA.

Figura 6 Diagrama de cuerdas que muestra el flujo de turistas entrando y saliendo de Andalucía en marzo 2024 agregado por comunidades autónomas

Figura 6. Diagrama de cuerdas que muestra el flujo de turistas entrando y saliendo de Andalucía en marzo 2024 agregado por comunidades autónomas.

 

Creamos otro diagrama de cuerdas utilizando la función que hemos creado y visualizamos los flujos de turistas en agosto de 2023.

Figura 7 Diagrama de cuerdas que muestra el flujo de turistas en agosto 2023 agregado por comunidades autónomas

Figura 7. Diagrama de cuerdas que muestra el flujo de turistas en agosto 2023 agregado por comunidades autónomas.

Podremos observar que, a grandes rasgos, no cambian los movimientos de los turistas, solo que se intensifican los movimientos que ya hemos podido observar para marzo 2024.

Figura 8 Diagrama de cuerdas que muestra el flujo de turistas entrando y saliendo de la Comunitat Valenciana en agosto 2023 agregado por comunidades autónomas

Figura 8. Diagrama de cuerdas que muestra el flujo de turistas entrando y saliendo de la Comunitat Valenciana en agosto 2023 agregado por comunidades autónomas.

El lector puede crear el mismo diagrama para otros períodos de tiempo, por ejemplo, para el verano del año 2020, con el fin de visualizar el impacto de la pandemia en el turismo veraniego, reutilizando la función que hemos creado.

Para los diagramas de Sankey nos vamos a centrar en la Comunitat Valenciana, ya que es un destino vacacional popular. Filtramos las aristas que hemos creado para el diagrama de cuerdas anterior de manera que solo contengan flujos que terminen en la Comunitat Valenciana. El mismo procedimiento se podría aplicar para estudiar cualquier otra CA o se podría invertir para analizar  dónde van a veranear los valencianos. Visualizamos el diagrama de Sankey que, igual que los diagramas de cuerdas, es interactivo dentro del notebook. El aspecto visual quedaría así:

Figura 9 Diagrama de Sankey que muestra el flujo de turistas en agosto 2023 con destino a la Comunitat Valenciana

Figura 9. Diagrama de Sankey que muestra el flujo de turistas en agosto 2023 con destino a la Comunitat Valenciana.

 

Como ya hemos podido intuir por el diagrama de cuerdas de arriba, véase la figura 8 el mayor grupo de turistas que llegan a la Comunitat Valenciana proviene de Madrid. Vemos que también hay un elevado número de turistas que visitan la Comunitat Valenciana desde las CCAA vecinas como Murcia, Andalucía y Cataluña.

Para comprobar que estas tendencias se dan en las tres provincias de la Comunitat Valenciana, vamos a crear un diagrama de Sankey que muestre en el margen izquierdo todas las CCAA y en el margen derecho las tres provincias de la Comunitat Valenciana.

Para crear este diagrama de Sankey a nivel de provincias tenemos que filtrar nuestro pandas. DataFrame inicial para extraer de él las filas que contienen la información relevante. Los pasos en el notebook se pueden adaptar para realizar este análisis a nivel de provincias para cualquier otra CA. Aunque no estamos reutilizando la función que hemos usado anteriormente, también podemos cambiar el período de análisis.

El diagrama de Sankey que visualiza los flujos de turistas que llegaron en agosto de 2023 a las tres provincias valencianas quedaría así:

Figura 10 Diagrama de Sankey agosto 2023 que muestra el flujo de turistas con destino a provincias de la Comunitat Valenciana

Figura 10. Diagrama de Sankey agosto 2023 que muestra el flujo de turistas con destino a provincias de la Comunitat Valenciana.

Podemos observar que, como ya suponíamos, el mayor número de turistas que llega a la Comunitat Valenciana en agosto proviene de la Comunidad de Madrid. Sin embargo, podemos comprobar que esto no es cierto para la provincia de Castellón, donde en agosto de 2023 la mayoría de los turistas fueron valencianos que se desplazaron dentro de su propia CA.

6. Conclusiones del ejercicio

Gracias a las técnicas de visualización empleadas en este ejercicio, hemos podido observar los flujos de turistas que se desplazan dentro del territorio nacional, enfocándonos en hacer comparaciones entre diversas épocas del año y tratando de identificar patrones. Tanto en los diagramas de cuerdas como en los diagramas de Sankey que hemos creado, hemos podido observar la afluencia de los turistas madrileños en las costas valencianas en verano. También hemos podido identificar las comunidades autónomas donde los turistas salen menos de su propia comunidad autónoma, como Cataluña y Andalucía.

7. ¿Quieres realizar el ejercicio?

Invitamos al lector a ejecutar el código contenido en el notebook de Google Colab que acompaña a este ejercicio para seguir con el análisis de los flujos de turistas. Dejamos aquí algunas ideas de posibles preguntas y de cómo se podrían contestar:

  • El impacto de la pandemia: ya lo hemos mencionado brevemente arriba, pero una pregunta interesante sería medir el impacto que ha tenido la pandemia del coronavirus sobre el turismo. Podemos comparar los datos de los años anteriores con el 2020 y también analizar los años siguientes para detectar tendencias de estabilización. Visto que la función que hemos creado permite cambiar fácilmente el período de tiempo bajo análisis, te proponemos hacer este análisis por tu cuenta.
  • Intervalos de tiempo: también es posible modificar la función que hemos estado usando de tal manera que no solo permita seleccionar un periodo de tiempo concreto, sino que también permita intervalos de tiempos.
  • Análisis a nivel de provincias: igualmente, un lector avanzado con Pandas puede imponerse el reto de crear un diagrama de Sankey que visualice a qué provincias viajan los habitantes de una determinada región, por ejemplo, Ourense. Para no tener demasiadas provincias de destino que podrían hacer ilegible el diagrama de Sankey, se podrían visualizar solo las 10 más visitadas. Para obtener los datos para crear esta visualización, el lector tendría que jugar con los filtros que pone sobre el dataset y con el método de groupby de pandas, dejándose inspirar por el código ya ejecutado.

Esperamos que este ejercicio práctico te haya aportado conocimiento suficiente para desarrollar tus propias visualizaciones. Si tienes algún tema sobre ciencia de datos que quieras que tratemos próximamente, no dudes en proponer tu interés a través de nuestros canales de contacto.

Además, recuerda que tienes a tu disposición más ejercicios en el apartado sección de “Ejercicios de ciencia de datos”.

calendar icon
Documentación

La revolución digital está transformando los servicios municipales, impulsada por la creciente adopción de tecnologías de inteligencia artificial (IA) que también se benefician de los datos abiertos. Estos avances tienen potencial para redefinir la manera en que los municipios ofrecen servicios a sus ciudadanos, proporcionando herramientas para mejorar la eficiencia, accesibilidad y sostenibilidad. El presente informe analiza casos de éxito en el despliegue de aplicaciones y plataformas que buscan mejorar diversos aspectos de la vida en los municipios, destacando su potencial para liberar algo más del vasto potencial aún por explotar de los datos abiertos y las tecnologías asociadas a la inteligencia artificial.

Las aplicaciones y plataformas descritas en este informe tienen un alto potencial de replicabilidad en diferentes contextos municipales, ya que abordan problemas que son comunes. La replicación de estas soluciones puede llevarse a cabo mediante la colaboración entre municipios, empresas y desarrolladores, así como a través de la liberación y estandarización de datos abiertos.

A pesar de los beneficios, la adopción de datos abiertos para la innovación municipal también presenta importantes desafíos. Debe garantizarse la calidad, actualización y estandarización de los datos publicados por las entidades locales, así como la interoperabilidad entre diferentes plataformas y sistemas. Además, es necesario reforzar la cultura de datos abiertos entre todos los actores implicados, incluidos los ciudadanos, los desarrolladores, las empresas y las propias administraciones públicas.

Los casos de uso analizados se dividen en cuatro secciones. A continuación, se describen cada una de estas secciones y se muestran algunos ejemplos de las soluciones incluidas en el informe.

Transporte y Movilidad

Uno de los desafíos más significativos en las áreas urbanas es la gestión del transporte y la movilidad. Las aplicaciones que utilizan datos abiertos han demostrado ser efectivas en la mejora de estos servicios. Por ejemplo, aplicaciones como Park4Dis facilitan la localización de plazas de aparcamiento para persona con movilidad reducida, utilizando datos de múltiples municipios y contribuciones de voluntarios. CityMapper, que ha alanzado escala global, por otro lado, ofrece rutas de transporte público optimizadas en tiempo real, integrando datos de diversos modos de transporte para proporcionar la ruta más eficiente. Estas aplicaciones no solo mejoran la movilidad, sino que también contribuyen a la sostenibilidad al reducir la congestión y las emisiones de carbono.

Medio Ambiente y Sostenibilidad

La creciente conciencia sobre la sostenibilidad ha impulsado el desarrollo de aplicaciones que promueven prácticas ecológicas. CleanSpot, por ejemplo, facilita la localización de puntos de reciclaje y la gestión de residuos urbanos. La aplicación incentiva la participación ciudadana en la limpieza y el reciclaje, contribuyendo a la reducción de la huella ecológica. Liight, por su parte, gamifica comportamientos sostenibles, recompensando a los usuarios por acciones como reciclar o usar el transporte público. Estas aplicaciones no solo mejoran la gestión ambiental, sino que también educan y motivan a los ciudadanos a adoptar hábitos más sostenibles.

Optimización de Servicios Públicos Básicos

Las plataformas de gestión de servicios urbanos, como Gestdropper, utilizan datos abiertos para monitorizar y controlar infraestructuras urbanas en tiempo real. Estas herramientas permiten una gestión más eficiente de recursos como el alumbrado público, redes de agua y mobiliario urbano, optimizando el mantenimiento, la respuesta ante incidencias y reduciendo costes operativos. Por otra parte, el despliegue de sistemas de gestión de citas previas, como CitaME, ayuda a reducir los tiempos de espera y mejorar la eficiencia en la atención al ciudadano.

Agregadores de Servicios a los Ciudadanos

Las aplicaciones que centralizan información y servicios públicos, como Badajoz Es Más y AppValencia, mejoran la accesibilidad y la comunicación entre las administraciones y los ciudadanos. Estas plataformas proporcionan datos en tiempo real sobre transporte público, eventos culturales, turismo y trámites administrativos, facilitando la vida en el municipio tanto a los residentes como a los turistas. Por ejemplo, al integrar múltiples servicios en una sola aplicación, se mejora la eficiencia y se reduce la necesidad de desplazamientos innecesarios. Estas herramientas también apoyan a las economías locales al promover eventos culturales y servicios comerciales.

Conclusiones

La utilización de datos abiertos y tecnologías de inteligencia artificial está transformando la gestión municipal, mejorando la eficiencia, accesibilidad y sostenibilidad de los servicios públicos. Los casos de éxito presentados en este informe describen cómo estas herramientas pueden beneficiar tanto a los ciudadanos como a las administraciones públicas convirtiendo las ciudades en entornos más inteligentes, inclusivos y sostenibles, y respondiendo mejor a las necesidades y bienestar de sus habitantes y visitantes.

Escucha el pódcast

Vídeo del pódcast

calendar icon
Noticia

Uno de los objetivos de datos.gob.es es divulgar la cultura del dato. Para ello utilizamos diferentes canales de difusión de contenidos como un blog de contenidos especializados, un boletín de envío quincenal o perfiles en redes sociales como X (antiguo Twitter) o LinkedIn. Las redes sociales nos sirven, tanto como canal de divulgación, como espacio de contacto con la comunidad reutilizadora de datos abiertos. En nuestra misión didáctica de dar a conocer la cultura del dato, ahora también estaremos presentes en Instagram.

Esta plataforma visual y dinámica se convertirá en un nuevo punto de encuentro donde nuestros seguidores podrán descubrir, explorar y aprovechar el valor de los datos abiertos y las tecnologías relacionadas.

En nuestra cuenta de Instagram (@datosgob), ofreceremos una variedad de contenidos:

  1. Conceptos clave: definiciones de conceptos del mundo de los datos y tecnologías relacionadas explicadas de manera clara y concisa para crear un glosario a tu alcance.
  2. Infografías informativas: cuestiones complejas como leyes, casos de uso o aplicación de tecnologías innovadoras explicadas gráficamente y de una forma más sencilla.
  3. Historias de impacto: proyectos inspiradores que utilizan datos abiertos para generar un impacto positivo en la sociedad.
  4. Tutoriales y consejos:  para que aprendas a usar nuestra plataforma de manera más efectiva, ejercicios de ciencia de datos y visualizaciones paso a paso, entre otros.
  5. Eventos y novedades: actividades importantes, lanzamientos de nuevos conjuntos de datos y las últimas novedades en el mundo de los datos abiertos.

Formatos variados de contenidos de valor

Además, toda esta información de interés irá presentada en formatos adecuados a la plataforma como son:

  • Publicaciones: posts de píldoras informativas, infografías, monográficos, entrevistas, piezas audiovisuales y casos de éxito que te ayudarán a conocer cómo diferentes herramientas y metodologías digitales son tus aliadas. Podrás disfrutar de distintos tipos de publicaciones (fijas, carruseles, colaborativas con otras cuentas de referencia, etc.), donde tendrás la posibilidad de compartir tus opiniones, dudas y experiencias, y conectar con otros profesionales.
  • Stories: anuncios, encuestas o calendarios para que puedas estar al tanto de todo lo que sucede en el ecosistema de los datos y formar parte de él compartiendo tus impresiones.
  • Historias destacadas: en la parte superior de nuestro perfil, dejaremos seleccionada y ordenada la información más relevante sobre los diferentes ámbitos e iniciativas de datos.gob.es, en tres temáticas: formación, eventos y novedades.

Una plataforma participativa y colaborativa

Tal y como venimos haciendo en las otras redes sociales en las que tenemos presencia, queremos que nuestra cuenta sea un espacio de diálogo y colaboración. Por ello, invitamos a toda la ciudadanía, investigadores, periodistas, desarrolladores y cualquier persona interesada en los datos abiertos a que se unan a la comunidad datos.gob.es. Aquí hay algunas maneras en las que puedes participar:

  • Comenta y comparte: queremos escuchar tus opiniones, preguntas y sugerencias. Interactúa en nuestras publicaciones y comparte nuestro contenido con tu red para ayudar a difundir la importancia de los datos abiertos.
  • Etiquétanos: si estás trabajando en un proyecto que utiliza datos abiertos, ¡muéstranos! Etiquétanos en tus publicaciones y usa el hashtag #datosgob para que podamos ver y compartir tu trabajo con nuestra comunidad.
  • Historias destacadas: ¿tienes una historia interesante que contar sobre cómo has utilizado los datos abiertos? Envíanos un mensaje directo y podríamos destacarla en nuestra cuenta para inspirar a otros.

¿Por qué Instagram?

En un mundo donde la información visual se ha convertido en una herramienta poderosa para la comunicación y el aprendizaje, hemos decidido dar el salto a Instagram. Esta plataforma no solo nos permitirá hacernos eco de las novedades del ecosistema de los datos de manera más atractiva y comprensible, sino que también nos ayudará a conectar con una audiencia más amplia y diversa. Queremos que la información pública sea accesible y relevante para todos, y creemos que Instagram es el lugar perfecto para hacerlo.

En resumen, el lanzamiento de nuestra cuenta de Instagram marca un paso importante en nuestra misión de hacer que los datos abiertos sean más accesibles y útiles para todos.

Síguenos en Instagram en @datosgob y únete a una comunidad creciente de personas interesadas en la transparencia, la innovación y el conocimiento compartido. Al seguirnos, tendrás acceso inmediato a una fuente constante de información y recursos que te ayudarán a aprovechar al máximo los datos abiertos. Además, no olvides seguirnos en nuestras otras redes sociales X o LinkedIn.

¡Nos leemos en Instagram!

calendar icon
Aplicación

ELISA: El Plan en cifras es una herramienta lanzada por el gobierno español para visualizar datos actualizados sobre la ejecución de las inversiones del Plan de Recuperación, Transformación y Resiliencia (PRTR).  A través de visualizaciones intuitivas, esta herramienta ofrece información sobre el número de empresas y hogares que han recibido financiación, el tamaño de las empresas beneficiarias y las inversiones realizadas en las diferentes palancas de actuación definidas en el Plan.

La herramienta también proporciona también el detalle de fondos gestionados y ejecutados en cada Comunidad Autónoma. De esta forma, se puede apreciar la distribución territorial de los proyectos. Además, la herramienta viene acompañada de fichas territoriales, donde se muestra un detalle más cualitativo del impacto del Plan de Recuperación en cada Comunidades Autónomas

calendar icon
Documentación

1. Introducción

En la era de la información, la inteligencia artificial ha demostrado ser una herramienta invaluable para una variedad de aplicaciones. Una de las manifestaciones más increíbles de esta tecnología es GPT  (Generative Pre-trained Transformer), desarrollado por OpenAI. GPT es un modelo de lenguaje natural que puede entender y generar texto, ofreciendo respuestas coherentes y contextualmente relevantes. Con la reciente introducción de Chat GPT-4, las capacidades de este modelo se han ampliado aún más, permitiendo una mayor personalización y adaptabilidad a diferentes temáticas.

En este post, te mostraremos cómo configurar y personalizar un asistente especializado en minerales críticos utilizando GPT-4 y fuentes de datos abiertas. Como ya mostramos en previas publicaciones, los minerales críticos son fundamentales para numerosas industrias, incluyendo la tecnología, la energía y la defensa, debido a sus propiedades únicas y su importancia estratégica. Sin embargo, la información sobre estos materiales puede ser compleja y dispersa, lo que hace que un asistente especializado sea particularmente útil.

El objetivo de este post es guiarte paso a paso desde la configuración inicial hasta la implementación de un asistente GPT que pueda ayudarte a resolver dudas y proporcionar información valiosa sobre minerales críticos en tu día a día. Además, exploraremos cómo personalizar aspectos del asistente, como el tono y el estilo de las respuestas, para que se adapte perfectamente a tus necesidades. Al final de este recorrido, tendrás una herramienta potente y personalizada que transformará la manera en que accedes y utilizas la información en abierto sobre minerales críticos.

Accede al repositorio del laboratorio de datos en Github.

En este vídeo, el autor te explica que vas a encontrar tanto en el Github como en Google Colab.

 

2. Contexto

La transición hacia un futuro sostenible no solo implica cambios en las fuentes de energía, sino también en los recursos materiales que utilizamos. El éxito de sectores como baterías de almacenamiento de energía, aerogeneradores, paneles solares, electrolizadores, drones, robots, redes de transmisión de datos, dispositivos electrónicos o satélites espaciales, depende enormemente del acceso a las materias primas críticas para su desarrollo. Entendemos que un mineral es crítico cuando se cumplen los siguientes factores:

  • Sus reservas mundiales son escasas
  • No existen materiales alternativos que puedan ejercer su función (sus propiedades son únicas o muy singulares)
  • Son materiales indispensables para sectores económicos clave de futuro, y/o su cadena de suministro es de elevado riesgo

Puedes aprender más sobre los minerales críticos en el post mencionado anteriormente.

3. Objetivo

Este ejercicio se centra en mostrar al lector cómo personalizar un modelo GPT especializado para un caso de uso concreto. Adoptaremos para ello el enfoque “aprender haciendo”, de tal forma que el lector pueda comprender cómo configurar y ajustar el modelo para resolver un problema real y relevante, como el asesoramiento experto en minerales críticos. Este enfoque práctico no solo mejora la comprensión de las técnicas de personalización de modelos de lenguaje, sino que también prepara a los lectores para aplicar estos conocimientos en la resolución de problemas reales, ofreciendo una experiencia de aprendizaje rica y directamente aplicable a sus propios proyectos.

El asistente GPT especializado en minerales críticos estará diseñado para convertirse en una herramienta esencial para profesionales, investigadores y estudiantes. Su objetivo principal será facilitar el acceso a información precisa y actualizada sobre estos materiales, apoyar la toma de decisiones estratégicas y promover la educación en este campo. A continuación, se detallan los objetivos específicos que buscamos alcanzar con este asistente:

  • Proporcionar información precisa y actualizada:
    • El asistente debe ofrecer información detallada y precisa sobre diversos minerales críticos, incluyendo su composición, propiedades, usos industriales y disponibilidad.
    • Mantenerse actualizado con las últimas investigaciones y tendencias del mercado en el ámbito de los minerales críticos.
  • Asistir en la toma de decisiones:
    • Proporcionar datos y análisis que puedan ayudar en la toma de decisiones estratégicas en la industria y la investigación sobre minerales críticos.
    • Ofrecer comparativas y evaluaciones de diferentes minerales en función de su rendimiento, coste y disponibilidad.
  • Promover la educación y la concienciación en torno a esta temática:
    • Actuar como una herramienta educativa para estudiantes, investigadores y profesionales, ayudando a mejorar su conocimiento sobre los minerales críticos.
    • Aumentar la conciencia sobre la importancia de estos materiales y los desafíos relacionados con su suministro y sostenibilidad.

4. Recursos

Para configurar y personalizar nuestro asistente GPT especializado en minerales críticos, es esencial disponer de una serie de recursos que faciliten la implementación y aseguren la precisión y relevancia de las respuestas del modelo. En este apartado, detallaremos los recursos necesarios que incluyen tanto las herramientas tecnológicas como las fuentes de información que serán integradas en la base de conocimiento del asistente.

Herramientas y Tecnologías

Las herramientas y tecnologías clave para desarrollar este ejercicio son:

  • Cuenta de OpenAI: necesaria para acceder a la plataforma y utilizar el modelo GPT-4. En este post, utilizaremos la suscripción Plus de ChatGPT para mostrarte cómo crear y publicar un GPT personalizado. No obstante, puedes desarrollar este ejercicio de forma similar utilizando una cuenta gratuita de OpenAI y realizando el mismo conjunto de instrucciones a través de una conversación de ChatGPT estándar.
  • Microsoft Excel: hemos diseñado este ejercicio de forma que cualquier persona sin conocimientos técnicos pueda desarrollarlo de principio a fin. Únicamente nos apoyaremos en herramientas ofimáticas como Microsoft Excel para realizar algunas adecuaciones de los datos descargados.

De forma complementaria, utilizaremos otro conjunto de herramientas que nos permitirán automatizar algunas acciones sin ser estrictamente necesaria su utilización:

  • Google Colab: es un entorno de Python Notebooks que se ejecuta en la nube, permitiendo a los usuarios escribir y ejecutar código Python directamente en el navegador. Google Colab es especialmente útil para el aprendizaje automático, el análisis de datos y la experimentación con modelos de lenguaje, ofreciendo acceso gratuito a potentes recursos de computación y facilitando la colaboración y el intercambio de proyectos.
  • Markmap: es una herramienta que visualiza mapas mentales de Markdown en tiempo real. Los usuarios escriben ideas en Markdown y la herramienta las renderiza como un mapa mental interactivo en el navegador. Markmap es útil para la planificación de proyectos, la toma de notas y la organización de información compleja visualmente. Facilita la comprensión y el intercambio de ideas en equipos y presentaciones.

Fuentes de Información

Con estos recursos, estarás bien equipado para desarrollar un asistente GPT especializado que pueda proporcionar respuestas precisas y relevantes sobre minerales críticos, facilitando la toma de decisiones informadas en este campo.

5. Desarrollo del ejercicio

5.1. Construcción de la base de conocimiento

Para que nuestro asistente GPT especializado en minerales críticos sea verdaderamente útil y preciso, es esencial construir una base de conocimiento sólida y estructurada. Esta base de conocimiento será el conjunto de datos e información que el asistente utilizará para responder a las consultas. La calidad y relevancia de esta información determinarán la eficacia del asistente en proporcionar respuestas precisas y útiles.

Búsqueda de Fuentes de Datos

Comenzamos con la recopilación de fuentes de información que nutrirán nuestra base de conocimiento. No todas las fuentes de información son igualmente fiables. Es fundamental evaluar la calidad de las fuentes identificadas, asegurando que:

  • La información esté actualizada: la relevancia de los datos puede cambiar con rapidez, especialmente en campos dinámicos como el de los minerales críticos.
  • La fuente sea confiable y reconocida: es necesario utilizar fuentes de instituciones reconocidas y respetadas en el ámbito académico y profesional.
  • Los datos sean completos y accesibles: es crucial que los datos sean detallados y que estén accesibles para su integración en nuestro asistente.

En nuestro caso, desarrollamos una búsqueda online en diferentes plataformas y repositorios de información tratando de seleccionar información perteneciente a diversas entidades reconocidas:

Selección y preparación de la información

Nos centraremos ahora en la selección y preparación de la información existente en estas fuentes para asegurar que nuestro asistente GPT pueda acceder a datos precisos y útiles.

RMIS del Joint Research Center de la Unión Europea:

  • Información seleccionada:

Seleccionamos el informe “Supply chain analysis and material demand forecast in strategic technologies and sectors in the EU – A foresight study. Se trata de un análisis de la cadena de suministro y la demanda de minerales en tecnologías y sectores estratégicos de la UE. Presenta un estudio detallado de las cadenas de suministro de materias primas críticas y pronostica la demanda de minerales hasta 2050.

  • Preparación necesaria

El formato del documento, PDF, permite la ingesta directa de la información por parte de nuestro asistente. No obstante, como se observa en la Figura 1, existe una tabla especialmente relevante en sus páginas 238-240 donde se analiza, para cada mineral, su riesgo de suministro, tipología (estratégico, crítico o no crítico) y las tecnologías clave que lo emplean. Decidimos, por ello, extraer esta tabla a un formato estructurado (CSV), de tal forma que dispongamos de dos piezas de información que pasarán a formar parte de nuestra base de conocimiento.

Tabla de minerales contenida en el PDF de JRC

Figura 1: Tabla de minerales contenida en el PDF de JRC

Para extraer de forma programática los datos contenidos en esta tabla y transformarlos en un formato más fácilmente procesable, como CSV (comma separated values o valores separados por comas), utilizaremos un script de Python que podemos utilizar a través de la plataforma Google Colab (Figura 2).

Script Python para la extracción de datos del PDF de JRC desarrollado en plataforma Google Colab.

Figura 2: Script Python para la extracción de datos del PDF de JRC desarrollado en plataforma Google Colab.

A modo de resumen, este script:

  1. Se apoya en la librería de código abierto PyPDF2, capaz de interpretar información contenida en ficheros PDF.
  2. Primero, extrae en formato texto (cadena de caracteres) el contenido de las páginas del PDF donde se encuentra la tabla de minerales eliminando todo el contenido que no se corresponde con la propia tabla.
  3. Posteriormente, recorre, línea a línea, la cadena de caracteres convirtiendo los valores en columnas de una tabla de datos. Sabremos que un mineral es utilizado en una tecnología clave si en la columna correspondiente de dicho mineral encontramos un número 1 (en caso contrario contendrá un 0).
  4. Por último, exporta dicha tabla a un fichero CSV para su posterior utilización.

Agencia Internacional de la Energía (IEA):

  • Información seleccionada:

Seleccionamos el informe “Global Critical Minerals Outlook 2024. Este proporciona una visión general de los desarrollos industriales en 2023 y principios de 2024, y ofrece perspectivas a medio y largo plazo para la demanda y oferta de minerales clave para la transición energética. También evalúa los riesgos para la fiabilidad, sostenibilidad y diversidad de las cadenas de suministro de minerales críticos.

  • Preparación necesaria:

El formato del documento, PDF, nos permite la ingesta directa de la información por parte de nuestro asistente virtual. No realizaremos en este caso ninguna adecuación de la información seleccionada.

Base de Datos de Minerales del Instituto Geológico y Minero Español (BDMIN)

  • Información seleccionada:

En este caso, utilizamos el formulario para seleccionar los datos existentes en esta base de datos en cuanto a indicios y yacimientos del ámbito de la metalogenia, en particular seleccionamos aquellos con contenido de Litio.

Selección de conjunto de datos en BDMIN.

Figura 3: Selección de conjunto de datos en BDMIN.

  • Preparación necesaria:

Observamos cómo la herramienta web nos permite la visualización online y también la exportación de estos datos en varios formatos. Seleccionamos, por tanto, todos los datos a exportar y haciendo clic en esta opción, descargamos un fichero Excel con la información deseada.

Herramienta de visualización y descarga en BDMIN

Figura 4: Herramienta de visualización y descarga en BDMIN

Datos descargados BDMIN

Figura 5: Datos descargados BDMIN.

Todos los archivos que componen nuestra base de conocimiento se encuentran GitHub del proyecto, de tal forma que aquel lector que lo desee pueda saltarse la fase de descarga y preparación de la información.

5.2. Configuración y personalización del GPT para minerales críticos

Cuando hablamos de "crear un GPT," en realidad nos estamos refiriendo a la configuración y personalización de un modelo de lenguaje basado en GPT (Generative Pre-trained Transformer) para adaptarlo a un caso de uso específico. En este contexto, no estamos creando el modelo desde cero, sino ajustando cómo el modelo preexistente (como GPT-4 de OpenAI) interactúa y responde dentro de un dominio específico, en este caso, sobre minerales críticos.

En primer lugar, accedemos a la aplicación a través de nuestro navegador y, en caso de no tener una cuenta, seguimos el proceso de registro y login en la plataforma ChatGPT. Como indicamos con anterioridad, para realizar la creación de un GPT paso a paso será necesario disponer de una cuenta Plus. No obstante, aquellos lectores que no dispongan de dicha cuenta, podrán trabajar con una cuenta gratuita interactuando con ChatGPT a través de una conversación estándar.

Captura de la página de inicio de sesión y registro de ChatGPT.

Figura 6: Página de inicio de sesión y registro de ChatGPT.

Una vez iniciada la sesión, seleccionamos la opción "Explorar GPT", y posteriormente hacemos clic en "Crear" para comenzar el proceso de creación de nuestro GPT.

Captura de la página de creación de un nuevo GPT.

Figura 7: Creación de nuevo GPT.

En pantalla se nos mostrará la pantalla dividida de creación de un nuevo GPT: a la izquierda podremos conversar con el sistema para indicarle las características que debe tener nuestro GPT, mientras que a la izquierda podremos interactuar con nuestro GPT para validar que su comportamiento es el adecuado según vayamos avanzando en el proceso de configuración.

Captura de la pantalla de creación de nuevo GPT.

Figura 8: Pantalla de creación de nuevo GPT.

En el GitHub de este proyecto, podemos encontrar todos los prompts o instrucciones que utilizaremos para configurar y personalizar nuestro GPT y que deberemos introducir de forma secuencial en la pestaña "Crear", situada en la pestaña izquierda de nuestras pantallas, para completar los pasos que se detallan a continuación.

Los pasos que vamos a seguir para la creación del GPT son:

  1. En primer lugar, le indicaremos el objetivo y las consideraciones básicas a nuestro GPT para que pueda entender su modo de empleo.

Captura de las instrucciones básicas de nuevo GPT.

Figura 9: Instrucciones básicas de nuevo GPT.

2. Posteriormente crearemos un nombre y una imagen que representen a nuestro GPT y lo hagan fácilmente identificable. En nuestro caso, lo denominaremos MateriaGuru.

Captura de la pantalla para la selección de nombre para nuevo GPT.

Figura 10: Selección de nombre para nuevo GPT.

Captura de la pantalla para la creación de imagen para GPT.

Figura 11: Creación de imagen para GPT.

3. A continuación, construiremos la base de conocimiento a partir de la información anteriormente seleccionada y preparada para nutrir los conocimientos de nuestro GPT.

Captura de la carga de información a la base de conocimiento de nuevo GPT

Captura de la carga de información a la base de conocimiento de nuevo GPT II

Figura 12: Carga de información a la base de conocimiento de nuevo GPT.

4. Ahora, podemos personalizar aspectos conversacionales como su tono, el nivel de complejidad técnica de sus repuesta o si esperamos respuestas escuetas o elaboradas.

5. Por último, desde la pestaña "Configurar", podemos indicar los iniciadores de conversación deseados para que los usuarios que interactúen con nuestro GPT tengan algunas ideas para empezar la conversación de forma predefinida.

Captura de la pestaña Configurar GPT.

Figura 13: Pestaña Configurar GPT.

En la Figura 13 podemos también observar el resultado definitivo de nuestro entrenamiento, donde aparecen elementos clave como su imagen, nombre, instrucciones, iniciadores de conversación o documentos que forma parte de su base de conocimiento.

5.3. Validación y publicación de GPT

Antes de dar por bueno a nuestro nuevo asistente basado en GPT, procederemos a realizar una breve validación de su correcta configuración y aprendizaje respecto a la temática en torno a la que le hemos entrenado. Para ello, preparamos una batería de preguntas que le realizaremos para comprobar que responde de forma adecuada ante un escenario real de utilización.

# Pregunta Respuesta
1 ¿Qué minerales críticos han experimentado una caída significativa en los precios en 2023? Los precios de los minerales para baterías vieron particularmente grandes caídas con los precios del litio cayendo un 75% y los precios del cobalto níquel y grafito cayendo entre un 30% y un 45%.
2 ¿Qué porcentaje de la capacidad solar fotovoltaica (PV) mundial fue añadido por China en 2023? China representó el 62% del aumento en la capacidad solar fotovoltaica global en 2023.
3 ¿Cuál es el escenario que proyecta que las ventas de autos eléctricos (EV) alcanzarán el 65% en 2030? El escenario de emisiones netas cero (NZE) para 2050 proyecta que las ventas de autos eléctricos alcanzarán el 65% en 2030.
4 ¿Cuál fue el crecimiento de la demanda de litio en 2023? La demanda de litio aumentó en un 30% en 2023.
5 ¿Qué país fue el mayor mercado de autos eléctricos en 2023? China fue el mayor mercado de autos eléctricos en 2023 con 8.1 millones de ventas de autos eléctricos representando el 60% del total global.
6 ¿Cuál es el principal riesgo asociado con la concentración de mercado en la cadena de suministro de grafito para baterías? Más del 90% del grafito de grado batería y el 77% de las tierras raras refinadas en 2030 se originan en China lo que representa un riesgo significativo para la concentración del mercado.
7 ¿Qué proporción de la capacidad mundial de producción de celdas de batería estaba en China en 2023? China poseía el 85% de la capacidad de producción de celdas de batería en 2023.
8 ¿Cuánto aumentó la inversión en minería de minerales críticos en 2023? La inversión en minería de minerales críticos creció un 10% en 2023.
9 ¿Qué porcentaje de la capacidad de almacenamiento de baterías en 2023 estaba compuesto por baterías de fosfato de hierro y litio (LFP)? En 2023, las baterías LFP constituían aproximadamente el 80% del mercado total de almacenamiento de baterías.
10 ¿Cuál es el pronóstico para la demanda de cobre en un escenario de emisiones netas cero (NZE) para 2040? En el escenario de emisiones netas cero (NZE) para 2040 se espera que la demanda de cobre tenga el mayor aumento en términos de volumen de producción.

Figura 14: Tabla con batería de preguntas para la validación de nuestro GPT.

Valiéndonos de la parte de previsualización, situada a la derecha de nuestras pantallas, lanzamos la batería de preguntas y validamos que las respuestas se corresponden con aquellas esperadas.

Captura del proceso de validación de respuestas GPT.

Figura 15: Validación de respuestas GPT.

Por último, hacemos clic en el botón "Crear" para finalizar el proceso. Podremos seleccionar entre diferentes alternativas para restringir su utilización por parte de otros usuarios.

Captura de la pantalla para publicación de nuestro GPT.

Figura 16: Publicación de nuestro GPT.

6. Escenarios de uso

En este apartado mostramos varios escenarios en los que podremos sacar partido a MateriaGuru en nuestro día a día. En el GitHub del proyecto podremos encontrar los prompts utilizados para replicar cada uno de ellos.

6.1. Consulta de información de minerales críticos

El escenario más típico de utilización de este tipo de GPTs es la asistencia para resolución de dudas relacionadas con la temática en cuestión, en este caso, los minerales críticos. A modo de ejemplo, hemos preparado una batería de cuestiones que el lector podrá plantear al GPT creado para comprender en mayor detalle la relevancia y situación actual de un material crítico como es el grafito a partir de los informes provistos a nuestro GPT.

Captura del proceso de resolución de dudas de minerales críticos. 

Figura 17: Resolución de dudas de minerales críticos.

También podemos plantearle preguntas concretas sobre la información tabulada provista respecto a los yacimientos e indicios existentes en el territorio español.

Captura de la respuesta a la pregunta sobre reservas de litio en Extremadura.

Figura 18: Reservas de litio en Extremadura.

6.2. Representación de visualizaciones de datos cuantitativos

Otro escenario común, es la necesidad de consultar información cuantitativa y realizar representaciones visuales para su mejor entendimiento. En este escenario, podemos observar cómo MateriaGuru es capaz de generar una visualización interactiva de la producción de grafito en toneladas de los principales países productores.

Captura de la visualización interactiva generada con nuestro GPT.

Figura 19: Generación de visualización interactiva con nuestro GPT.

6.3. Generación de mapas mentales para facilitar la comprensión

Por último, en línea con la búsqueda de alternativas para un mejor acceso y comprensión del conocimiento existente en nuestro GPT, plantearemos a MateriaGuru la construcción de un mapa mental que nos permita entender de una forma visual conceptos clave de los minerales críticos. Para ello, utilizamos la notación abierta Markmap (Markdown Mindmap), que nos permite definir mapas mentales utilizando notación markdown.

Captura del proceso para la generación de mapas mentales desde nuetro GPT.

Figura 20: Generación de mapas mentales desde nuetro GPT.

Deberemos copiar el código generado e introducirlo en un visualizador de markmap para poder generar el mapa mental deseado. Facilitamos aquí una versión de este código generada por MateriaGuru.

Captura de la visualización de mapas mentales

Figura 21: Visualización de mapas mentales.

7. Resultados y conclusiones

En el ejercicio de construcción de un asistente experto utilizando GPT-4, hemos logrado crear un modelo especializado en minerales críticos. Este asistente proporciona información detallada y actualizada sobre minerales críticos, apoyando la toma de decisiones estratégicas y promoviendo la educación en este campo. Primero recopilamos información de fuentes confiables como el RMIS, la Agencia Internacional de la Energía (IEA), y el Instituto Geológico y Minero Español (BDMIN). Posteriormente, procesamos y estructuramos los datos adecuadamente para su integración en el modelo. Las validaciones demostraron que el asistente responde de manera precisa a preguntas relevantes del dominio, facilitando el acceso a su información.

De esta forma, el desarrollo del asistente especializado en minerales críticos ha demostrado ser una solución efectiva para centralizar y facilitar el acceso a información compleja y dispersa.

La utilización de herramientas como Google Colab y Markmap ha permitido una mejor organización y visualización de los datos, aumentando la eficiencia en la gestión del conocimiento. Este enfoque no solo mejora la comprensión y el uso de la información sobre minerales críticos, sino que también prepara a los usuarios para aplicar estos conocimientos en contextos reales.

La experiencia práctica adquirida en este ejercicio es directamente aplicable a otros proyectos que requieran la personalización de modelos de lenguaje para casos de uso específicos.

8. ¿Quieres realizar el ejercicio?

Si quieres replicar este ejercicio, accede a este repositorio donde encontrarás más información (las prompt utilizadas, el código generado por MateriaGuru, etc.)

Además, recuerda que tienes a tu disposición más ejercicios en el apartado sección de “Visualizaciones paso a paso”.


Contenido elaborado por Juan Benavente, ingeniero superior industrial y experto en Tecnologías ligadas a la economía del dato. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Documentación

1. Introducción

Las visualizaciones son representaciones gráficas de datos que permiten comunicar, de manera sencilla y efectiva, la información ligada a los mismos. Las posibilidades de visualización son muy amplias, desde representaciones básicas como los gráficos de líneas, de barras o métricas relevantes, hasta visualizaciones configuradas sobre cuadros de mando interactivos.

En esta sección de “Visualizaciones paso a paso” estamos presentando periódicamente ejercicios prácticos haciendo uso de datos abiertos disponibles en  datos.gob.es u otros catálogos similares. En ellos se abordan y describen de manera sencilla las etapas necesarias para obtener los datos, realizar las transformaciones y los análisis pertinentes para, finalmente obtener unas conclusiones a modo de resumen de dicha información.

En cada ejercicio práctico se utilizan desarrollos de código documentados y herramientas de uso gratuito. Todo el material generado está disponible para su reutilización en el repositorio de GitHub de datos.gob.es.

En este ejercicio concreto, exploraremos la actual situación de la penetración de los vehículos eléctricos en España y las perspectivas de futuro de esta tecnología disruptiva en el transporte.

Accede al repositorio del laboratorio de datos en Github.

Ejecuta el código de pre-procesamiento de datos sobre Google Colab.

En este vídeo, el autor te explica que vas a encontrar tanto en el Github como en Google Colab.

2. Contexto: ¿Por qué es importante el vehículo eléctrico?

La transición hacia una movilidad más sostenible se ha convertido en una prioridad global, situando al vehículo eléctrico (VE) en el centro de numerosas discusiones sobre el futuro del transporte. En España, esta tendencia hacia la electrificación del parque automovilístico no solo responde a un creciente interés por parte de los consumidores en tecnologías más limpias y eficientes, sino también a un marco regulatorio y de incentivos diseñado para acelerar la adopción de estos vehículos. Con una creciente oferta de modelos eléctricos disponibles en el mercado, los vehículos eléctricos representan una pieza clave en la estrategia del país para reducir las emisiones de gases de efecto invernadero, mejorar la calidad del aire en las ciudades y fomentar la innovación tecnológica en el sector automotriz.

Sin embargo, la penetración de los vehículos eléctricos en el mercado español enfrenta una serie de desafíos, desde la infraestructura de carga hasta la percepción y el conocimiento del consumidor sobre estos vehículos. La expansión de la red de carga, junto con las políticas de apoyo y los incentivos fiscales, son fundamentales para superar las barreras existentes y estimular la demanda. A medida que España avanza hacia sus objetivos de sostenibilidad y transición energética, el análisis de la evolución del mercado de vehículos eléctricos se convierte en una herramienta esencial para entender el progreso realizado y los obstáculos que aún deben superarse.

3. Objetivo

Este ejercicio se centra en mostrar al lector técnicas para el tratamiento, visualización y análisis avanzado de datos abiertos mediante Python. Adoptaremos para ello el enfoque “aprender haciendo”, de tal forma que el lector pueda comprender la utilización de estas herramientas en el contexto de la resolución de un reto real y de actualidad como es el estudio de la penetración del VE en España. Este enfoque práctico no solo mejora la comprensión de las herramientas de ciencia de datos, sino que también prepara a los lectores para aplicar estos conocimientos en la resolución de problemas reales, ofreciendo una experiencia de aprendizaje rica y directamente aplicable a sus propios proyectos.

Las preguntas a las que trataremos de dar respuesta a través de nuestro análisis son:

  1. ¿Qué marcas de vehículos lideraron el mercado en 2023?
  2. ¿Qué modelos de vehículos fueron los más vendidos en el 2023?
  3. ¿Qué cuota de mercado absorbieron los vehículos eléctricos en el 2023?
  4. ¿Qué modelos de vehículos eléctricos fueron los más vendidos en el 2023?
  5. ¿Cómo han evolucionado las matriculaciones de vehículos a lo largo del tiempo?
  6. ¿Observamos algún tipo de tendencia respecto a la matriculación de vehículos eléctricos?
  7. ¿Cómo esperamos que evolucionen las matriculaciones de vehículos eléctricos el próximo año?
  8. ¿Cuál es la reducción de emisiones de CO2 que podemos esperar gracias a las matriculaciones obtenidas durante el próximo año?

4. Recursos

Para completar el desarrollo de este ejercicio requeriremos el uso de dos categorías de recursos: Herramientas Analíticas y Conjuntos de Datos.

4.1. Conjunto de datos

Para completar este ejercicio utilizaremos un conjunto de datos provisto por la Dirección General de Tráfico (DGT) a través de su portal estadístico, también disponible desde el catálogo Nacional de Datos Abiertos (datos.gob.es). El portal estadístico de la DGT es una plataforma en línea destinada a ofrecer acceso público a una amplia gama de datos y estadísticas relacionadas con el tráfico y la seguridad vial. Este portal incluye información sobre accidentes de tráfico, infracciones, matriculaciones de vehículos, permisos de conducción y otros datos relevantes que pueden ser útiles para investigadores, profesionales del sector y el público en general.

En nuestro caso, utilizaremos su conjunto de datos de matriculaciones de vehículos en España disponibles vía:

Aunque durante el desarrollo del ejercicio mostraremos al lector los mecanismos necesarios para su descarga y procesamiento, incluimos en el repositorio de GitHub asociado los datos preprocesados*, de tal forma que el lector pueda proceder directamente al análisis de los mismos en el caso de que lo desee.

*Los datos utilizados en este ejercicio fueron descargados el 04 de marzo de 2024. La licencia aplicable a este conjunto de datos puede encontrarse en https://datos.gob.es/avisolegal.

4.2. Herramientas analíticas

  • Lenguaje de programación: Python – es un lenguaje de programación ampliamente utilizado en análisis de datos debido a su versatilidad y a la amplia gama de bibliotecas disponibles. Estas herramientas permiten a los usuarios limpiar, analizar y visualizar grandes conjuntos de datos de manera eficiente, lo que hace de Python una elección popular entre los científicos de datos y analistas.
  • Plataforma: Jupyter Notebooks – es una aplicación web que permite crear y compartir documentos que contienen código vivo, ecuaciones, visualizaciones y texto narrativo. Se utiliza ampliamente para la ciencia de datos, análisis de datos, aprendizaje automático y educación interactiva en programación.
  • Principales librerías y módulos:
    • Manipulación de datos: Pandas – es una librería de código abierto que proporciona estructuras de datos de alto rendimiento y fáciles de usar, así como herramientas de análisis de datos.
    • Visualización de datos:
      • Matplotlib: es una librería para crear visualizaciones estáticas, animadas e interactivas en Python.
      • Seaborn: es una librería basada en Matplotlib. Proporciona una interfaz de alto nivel para dibujar gráficos estadísticos atractivos e informativos.
    • Estadística y algoritmia:
      • Statsmodels: es una librería que proporciona clases y funciones para la estimación de muchos modelos estadísticos diferentes, así como para realizar pruebas y exploración de datos estadísticos.
      • Pmdarima: es una librería especializada en la modelización automática de series temporales, facilitando la identificación, el ajuste y la validación de modelos para pronósticos complejos.

5. Desarrollo del ejercicio

Es aconsejable ir ejecutando el Notebook con el código a la vez que se realiza la lectura del post, ya que ambos recursos didácticos son complementarios en las futuras explicaciones

 

El ejercicio propuesto se divide en cuatro fases principales.

5.1 Configuración inicial

Este apartado podrás encontrarlo en el punto 1 del Notebook.

En este breve primer apartado, configuraremos nuestro Jupyter Notebook y nuestro entorno de trabajo para poder trabajar con el conjunto de datos seleccionado. Importaremos las librerías Python necesarias y crearemos algunos directorios donde almacenaremos los datos descargados.

5.2 Preparación de datos

Este apartado podrás encontrarlo en el punto 2 del Notebook.

Todo análisis de datos requiere una fase de acceso y tratamiento de los mismos hasta obtener los datos adecuados en el formato deseado. En esta fase, descargaremos los datos del portal estadístico y los transformaremos al formato Apache Parquet antes de proceder a su análisis.

Aquellos usuarios que quieran profundizar en esta tarea, tienen a su disposición la Guía Práctica de Introducción al Análisis Exploratorio de Datos.

5.3 Análisis de datos

Este apartado podrás encontrarlo en el punto 3 del Notebook.

5.3.1 Análisis descriptivo

En esta tercera fase, comenzaremos nuestro análisis de datos. Para ello, responderemos las primeras preguntas apoyándonos en herramientas de visualización de datos que además nos permitirán familiarizarnos con los mismos. Mostramos a continuación algunos ejemplos del análisis:

  • Top 10 Vehículos matriculados en el 2023: En esta visualización representamos los diez modelos de vehículos con mayor número de matriculaciones durante el año 2023, indicando además el tipo de combustión de estos. Las principales conclusiones son:
    • Los únicos vehículos de fabricación europea que aparecen en el Top 10 son el Arona y el Ibiza de la marca española SEAT. El resto son asiáticos.
    • Nueve de los diez vehículos están propulsados por Gasolina.
    • El único vehículo del Top 10 con un tipo de propulsión diferente es el DACIA Sandero GLP (Gas Licuado de Petróleo).

Gráfica que muestra el Top10 de vehículos matriculados en 2023. Son, por este orden: Arona, Toyota Corolla, MG ZS, Toyota C-HR, Sportage, Ibiza, Nissan Qashqai, Sandero, tucson, Toyota Yaris Cross. Todos son de gasolina, excepto el Sandero que es Gas Licuado de Petróleo.

Figura 1. Gráfica "Top 10 Vehículos matriculados en el 2023"

  • Cuota de mercado por tipo de propulsión: En esta visualización representamos el porcentaje de vehículos matriculado por cada tipo de propulsión (vehículos de gasolina, diésel, eléctricos u otros). Vemos cómo la inmensa mayoría del mercado (>70%) la absorbieron vehículos de gasolina, siendo los diésel la segunda opción, y como los vehículos eléctricos alcanzaron el 5.5%.

Gráfico que muestra los vehículos vendidos en 2023 por tipo de propulsión: gasolina (71,3%), Diesel (20,5%), Eléctrico (5,5%), otros (2,7%).

Figura 2. Gráfica "Cuota de mercado por tipo de propulsión".

  • Evolución histórica de las matriculaciones: Esta visualización representa la evolución de las matriculaciones de vehículos en el tiempo. En ella se muestra el número de matriculaciones mensual entre enero de 2015 y diciembre de 2023 distinguiendo entre los tipos de propulsión de los vehículos matriculados.Podemos observar varios aspectos interesantes en este gráfico:
    • Apreciamos un comportamiento estacional anual, es decir, observamos patrones o variaciones que se repiten a intervalos regulares de tiempo. Vemos cómo recurrentemente en junio/julio aparecen altos niveles de matriculación mientras que en agosto/septiembre decrecen drásticamente. Esto es muy relevante, pues el análisis de series temporales con factor estacional tiene ciertas particularidades.
    • Es muy notable también la enorme caída de matriculaciones producida durante los primeros meses del COVID.
    • Vemos también como los niveles de matriculación post-covid son inferiores a los previos.
    • Por último, podemos observar cómo entre los años 2015 y 2023 la matriculación de vehículos eléctricos va creciendo paulatinamente.

Gráfico que muestra el número de matriculaciones mensual entre enero de 2015 y diciembre de 2023 distinguiendo entre los tipos de propulsión de los vehículos matriculados.

Figura 3. Gráfica "Matriculaciones de vehículos por tipo de propulsión".

  • Tendencia en la matriculación de vehículos eléctricos: Analizamos ahora por separado la evolución de vehículos eléctricos y no eléctricos utilizando mapas de calor como herramienta visual. Podemos observar comportamientos muy diferenciados entre ambos gráficos. Observamos cómo el vehículo eléctrico presenta una tendencia de incremento de matriculaciones año a año y, a pesar de suponer el COVID un parón en la matriculación de vehículos, los años posteriores han mantenido la tendencia creciente.

Gráfica que muestra la tendencia  en la matriculación de vehículos eléctricos a través de un mapa de calor. Se observa cómo van creciendo dichas matriculaciones.

Figura 4. Gráfica "Tendencia en la matriculación de vehículos convencionales vs eléctricos".

5.3.2. Analítica predictiva

Para dar respuesta a la última de las preguntas de forma objetiva, utilizaremos modelos predictivos que nos permitan realizar estimaciones respecto a la evolución del vehículo eléctrico en España. Como podemos observar, el modelo construido nos propone una continuación del crecimiento en las matriculaciones esperadas a lo largo del año serán de 70.000, alcanzando valores cercanos a las 8.000 matriculaciones solo en el mes de diciembre del 2024.

Gráfica que muestra el crecimiento futuro, según la estimación de nuestro modelo, de matriculaciones de vehículos eléctricos".

Figura 5. Gráfica "Predicción de matriculaciones de vehículos electricos".

5. Conclusiones del ejercicio

Como conclusión del ejercicio, podremos observar gracias a las técnicas de análisis empleadas como el vehículo eléctrico está penetrando cada vez a mayor velocidad en el parque móvil español aunque aún se encuentre a una distancia grande de otras alternativas como el Diésel o la Gasolina, por ahora liderado por el fabricante Tesla. Veremos en los próximos años si el ritmo crece al nivel necesario para alcanzar los objetivos de sostenibilidad fijados y si Tesla sigue siendo líder a pesar de la fuerte entrada de competidores asiáticos.

6. ¿Quieres realizar el ejercicio?

Si quieres conocer más sobre el Vehículo Eléctrico y poner a prueba tus capacidades analíticas, accede a este repositorio de código donde podrás desarrollar este ejercicio paso a paso.

Además, recuerda que tienes a tu disposición más ejercicios en el apartado sección de “Visualizaciones paso a paso”.


Contenido elaborado por Juan Benavente, ingeniero superior industrial y experto en Tecnologías ligadas a la economía del dato.Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Aplicación

Mejorgasolinera.com es un sitio web que muestra información detallada sobre todas las gasolineras del país. Los datos pueden ser filtrados por marcas, localización o carretera y ordenados por precio y distancia. Además cuenta con un buscador para encontrar la estación de servicio más cercana a una ubicación dada.

calendar icon