Noticia

Uno de los objetivos de datos.gob.es es divulgar la cultura del dato. Para ello utilizamos diferentes canales de difusión de contenidos como un blog de contenidos especializados, un boletín de envío quincenal o perfiles en redes sociales como X (antiguo Twitter) o LinkedIn. Las redes sociales nos sirven, tanto como canal de divulgación, como espacio de contacto con la comunidad reutilizadora de datos abiertos. En nuestra misión didáctica de dar a conocer la cultura del dato, ahora también estaremos presentes en Instagram.

Esta plataforma visual y dinámica se convertirá en un nuevo punto de encuentro donde nuestros seguidores podrán descubrir, explorar y aprovechar el valor de los datos abiertos y las tecnologías relacionadas.

En nuestra cuenta de Instagram (@datosgob), ofreceremos una variedad de contenidos:

  1. Conceptos clave: definiciones de conceptos del mundo de los datos y tecnologías relacionadas explicadas de manera clara y concisa para crear un glosario a tu alcance.
  2. Infografías informativas: cuestiones complejas como leyes, casos de uso o aplicación de tecnologías innovadoras explicadas gráficamente y de una forma más sencilla.
  3. Historias de impacto: proyectos inspiradores que utilizan datos abiertos para generar un impacto positivo en la sociedad.
  4. Tutoriales y consejos:  para que aprendas a usar nuestra plataforma de manera más efectiva, ejercicios de ciencia de datos y visualizaciones paso a paso, entre otros.
  5. Eventos y novedades: actividades importantes, lanzamientos de nuevos conjuntos de datos y las últimas novedades en el mundo de los datos abiertos.

Formatos variados de contenidos de valor

Además, toda esta información de interés irá presentada en formatos adecuados a la plataforma como son:

  • Publicaciones: posts de píldoras informativas, infografías, monográficos, entrevistas, piezas audiovisuales y casos de éxito que te ayudarán a conocer cómo diferentes herramientas y metodologías digitales son tus aliadas. Podrás disfrutar de distintos tipos de publicaciones (fijas, carruseles, colaborativas con otras cuentas de referencia, etc.), donde tendrás la posibilidad de compartir tus opiniones, dudas y experiencias, y conectar con otros profesionales.
  • Stories: anuncios, encuestas o calendarios para que puedas estar al tanto de todo lo que sucede en el ecosistema de los datos y formar parte de él compartiendo tus impresiones.
  • Historias destacadas: en la parte superior de nuestro perfil, dejaremos seleccionada y ordenada la información más relevante sobre los diferentes ámbitos e iniciativas de datos.gob.es, en tres temáticas: formación, eventos y novedades.

Una plataforma participativa y colaborativa

Tal y como venimos haciendo en las otras redes sociales en las que tenemos presencia, queremos que nuestra cuenta sea un espacio de diálogo y colaboración. Por ello, invitamos a toda la ciudadanía, investigadores, periodistas, desarrolladores y cualquier persona interesada en los datos abiertos a que se unan a la comunidad datos.gob.es. Aquí hay algunas maneras en las que puedes participar:

  • Comenta y comparte: queremos escuchar tus opiniones, preguntas y sugerencias. Interactúa en nuestras publicaciones y comparte nuestro contenido con tu red para ayudar a difundir la importancia de los datos abiertos.
  • Etiquétanos: si estás trabajando en un proyecto que utiliza datos abiertos, ¡muéstranos! Etiquétanos en tus publicaciones y usa el hashtag #datosgob para que podamos ver y compartir tu trabajo con nuestra comunidad.
  • Historias destacadas: ¿tienes una historia interesante que contar sobre cómo has utilizado los datos abiertos? Envíanos un mensaje directo y podríamos destacarla en nuestra cuenta para inspirar a otros.

¿Por qué Instagram?

En un mundo donde la información visual se ha convertido en una herramienta poderosa para la comunicación y el aprendizaje, hemos decidido dar el salto a Instagram. Esta plataforma no solo nos permitirá hacernos eco de las novedades del ecosistema de los datos de manera más atractiva y comprensible, sino que también nos ayudará a conectar con una audiencia más amplia y diversa. Queremos que la información pública sea accesible y relevante para todos, y creemos que Instagram es el lugar perfecto para hacerlo.

En resumen, el lanzamiento de nuestra cuenta de Instagram marca un paso importante en nuestra misión de hacer que los datos abiertos sean más accesibles y útiles para todos.

Síguenos en Instagram en @datosgob y únete a una comunidad creciente de personas interesadas en la transparencia, la innovación y el conocimiento compartido. Al seguirnos, tendrás acceso inmediato a una fuente constante de información y recursos que te ayudarán a aprovechar al máximo los datos abiertos. Además, no olvides seguirnos en nuestras otras redes sociales X o LinkedIn.

¡Nos leemos en Instagram!

calendar icon
Aplicación

ELISA: El Plan en cifras es una herramienta lanzada por el gobierno español para visualizar datos actualizados sobre la ejecución de las inversiones del Plan de Recuperación, Transformación y Resiliencia (PRTR).  A través de visualizaciones intuitivas, esta herramienta ofrece información sobre el número de empresas y hogares que han recibido financiación, el tamaño de las empresas beneficiarias y las inversiones realizadas en las diferentes palancas de actuación definidas en el Plan.

La herramienta también proporciona también el detalle de fondos gestionados y ejecutados en cada Comunidad Autónoma. De esta forma, se puede apreciar la distribución territorial de los proyectos. Además, la herramienta viene acompañada de fichas territoriales, donde se muestra un detalle más cualitativo del impacto del Plan de Recuperación en cada Comunidades Autónomas

calendar icon
Documentación

1. Introducción

En la era de la información, la inteligencia artificial ha demostrado ser una herramienta invaluable para una variedad de aplicaciones. Una de las manifestaciones más increíbles de esta tecnología es GPT  (Generative Pre-trained Transformer), desarrollado por OpenAI. GPT es un modelo de lenguaje natural que puede entender y generar texto, ofreciendo respuestas coherentes y contextualmente relevantes. Con la reciente introducción de Chat GPT-4, las capacidades de este modelo se han ampliado aún más, permitiendo una mayor personalización y adaptabilidad a diferentes temáticas.

En este post, te mostraremos cómo configurar y personalizar un asistente especializado en minerales críticos utilizando GPT-4 y fuentes de datos abiertas. Como ya mostramos en previas publicaciones, los minerales críticos son fundamentales para numerosas industrias, incluyendo la tecnología, la energía y la defensa, debido a sus propiedades únicas y su importancia estratégica. Sin embargo, la información sobre estos materiales puede ser compleja y dispersa, lo que hace que un asistente especializado sea particularmente útil.

El objetivo de este post es guiarte paso a paso desde la configuración inicial hasta la implementación de un asistente GPT que pueda ayudarte a resolver dudas y proporcionar información valiosa sobre minerales críticos en tu día a día. Además, exploraremos cómo personalizar aspectos del asistente, como el tono y el estilo de las respuestas, para que se adapte perfectamente a tus necesidades. Al final de este recorrido, tendrás una herramienta potente y personalizada que transformará la manera en que accedes y utilizas la información en abierto sobre minerales críticos.

Accede al repositorio del laboratorio de datos en Github.

En este vídeo, el autor te explica que vas a encontrar tanto en el Github como en Google Colab.

 

2. Contexto

La transición hacia un futuro sostenible no solo implica cambios en las fuentes de energía, sino también en los recursos materiales que utilizamos. El éxito de sectores como baterías de almacenamiento de energía, aerogeneradores, paneles solares, electrolizadores, drones, robots, redes de transmisión de datos, dispositivos electrónicos o satélites espaciales, depende enormemente del acceso a las materias primas críticas para su desarrollo. Entendemos que un mineral es crítico cuando se cumplen los siguientes factores:

  • Sus reservas mundiales son escasas
  • No existen materiales alternativos que puedan ejercer su función (sus propiedades son únicas o muy singulares)
  • Son materiales indispensables para sectores económicos clave de futuro, y/o su cadena de suministro es de elevado riesgo

Puedes aprender más sobre los minerales críticos en el post mencionado anteriormente.

3. Objetivo

Este ejercicio se centra en mostrar al lector cómo personalizar un modelo GPT especializado para un caso de uso concreto. Adoptaremos para ello el enfoque “aprender haciendo”, de tal forma que el lector pueda comprender cómo configurar y ajustar el modelo para resolver un problema real y relevante, como el asesoramiento experto en minerales críticos. Este enfoque práctico no solo mejora la comprensión de las técnicas de personalización de modelos de lenguaje, sino que también prepara a los lectores para aplicar estos conocimientos en la resolución de problemas reales, ofreciendo una experiencia de aprendizaje rica y directamente aplicable a sus propios proyectos.

El asistente GPT especializado en minerales críticos estará diseñado para convertirse en una herramienta esencial para profesionales, investigadores y estudiantes. Su objetivo principal será facilitar el acceso a información precisa y actualizada sobre estos materiales, apoyar la toma de decisiones estratégicas y promover la educación en este campo. A continuación, se detallan los objetivos específicos que buscamos alcanzar con este asistente:

  • Proporcionar información precisa y actualizada:
    • El asistente debe ofrecer información detallada y precisa sobre diversos minerales críticos, incluyendo su composición, propiedades, usos industriales y disponibilidad.
    • Mantenerse actualizado con las últimas investigaciones y tendencias del mercado en el ámbito de los minerales críticos.
  • Asistir en la toma de decisiones:
    • Proporcionar datos y análisis que puedan ayudar en la toma de decisiones estratégicas en la industria y la investigación sobre minerales críticos.
    • Ofrecer comparativas y evaluaciones de diferentes minerales en función de su rendimiento, coste y disponibilidad.
  • Promover la educación y la concienciación en torno a esta temática:
    • Actuar como una herramienta educativa para estudiantes, investigadores y profesionales, ayudando a mejorar su conocimiento sobre los minerales críticos.
    • Aumentar la conciencia sobre la importancia de estos materiales y los desafíos relacionados con su suministro y sostenibilidad.

4. Recursos

Para configurar y personalizar nuestro asistente GPT especializado en minerales críticos, es esencial disponer de una serie de recursos que faciliten la implementación y aseguren la precisión y relevancia de las respuestas del modelo. En este apartado, detallaremos los recursos necesarios que incluyen tanto las herramientas tecnológicas como las fuentes de información que serán integradas en la base de conocimiento del asistente.

Herramientas y Tecnologías

Las herramientas y tecnologías clave para desarrollar este ejercicio son:

  • Cuenta de OpenAI: necesaria para acceder a la plataforma y utilizar el modelo GPT-4. En este post, utilizaremos la suscripción Plus de ChatGPT para mostrarte cómo crear y publicar un GPT personalizado. No obstante, puedes desarrollar este ejercicio de forma similar utilizando una cuenta gratuita de OpenAI y realizando el mismo conjunto de instrucciones a través de una conversación de ChatGPT estándar.
  • Microsoft Excel: hemos diseñado este ejercicio de forma que cualquier persona sin conocimientos técnicos pueda desarrollarlo de principio a fin. Únicamente nos apoyaremos en herramientas ofimáticas como Microsoft Excel para realizar algunas adecuaciones de los datos descargados.

De forma complementaria, utilizaremos otro conjunto de herramientas que nos permitirán automatizar algunas acciones sin ser estrictamente necesaria su utilización:

  • Google Colab: es un entorno de Python Notebooks que se ejecuta en la nube, permitiendo a los usuarios escribir y ejecutar código Python directamente en el navegador. Google Colab es especialmente útil para el aprendizaje automático, el análisis de datos y la experimentación con modelos de lenguaje, ofreciendo acceso gratuito a potentes recursos de computación y facilitando la colaboración y el intercambio de proyectos.
  • Markmap: es una herramienta que visualiza mapas mentales de Markdown en tiempo real. Los usuarios escriben ideas en Markdown y la herramienta las renderiza como un mapa mental interactivo en el navegador. Markmap es útil para la planificación de proyectos, la toma de notas y la organización de información compleja visualmente. Facilita la comprensión y el intercambio de ideas en equipos y presentaciones.

Fuentes de Información

Con estos recursos, estarás bien equipado para desarrollar un asistente GPT especializado que pueda proporcionar respuestas precisas y relevantes sobre minerales críticos, facilitando la toma de decisiones informadas en este campo.

5. Desarrollo del ejercicio

5.1. Construcción de la base de conocimiento

Para que nuestro asistente GPT especializado en minerales críticos sea verdaderamente útil y preciso, es esencial construir una base de conocimiento sólida y estructurada. Esta base de conocimiento será el conjunto de datos e información que el asistente utilizará para responder a las consultas. La calidad y relevancia de esta información determinarán la eficacia del asistente en proporcionar respuestas precisas y útiles.

Búsqueda de Fuentes de Datos

Comenzamos con la recopilación de fuentes de información que nutrirán nuestra base de conocimiento. No todas las fuentes de información son igualmente fiables. Es fundamental evaluar la calidad de las fuentes identificadas, asegurando que:

  • La información esté actualizada: la relevancia de los datos puede cambiar con rapidez, especialmente en campos dinámicos como el de los minerales críticos.
  • La fuente sea confiable y reconocida: es necesario utilizar fuentes de instituciones reconocidas y respetadas en el ámbito académico y profesional.
  • Los datos sean completos y accesibles: es crucial que los datos sean detallados y que estén accesibles para su integración en nuestro asistente.

En nuestro caso, desarrollamos una búsqueda online en diferentes plataformas y repositorios de información tratando de seleccionar información perteneciente a diversas entidades reconocidas:

Selección y preparación de la información

Nos centraremos ahora en la selección y preparación de la información existente en estas fuentes para asegurar que nuestro asistente GPT pueda acceder a datos precisos y útiles.

RMIS del Joint Research Center de la Unión Europea:

  • Información seleccionada:

Seleccionamos el informe “Supply chain analysis and material demand forecast in strategic technologies and sectors in the EU – A foresight study. Se trata de un análisis de la cadena de suministro y la demanda de minerales en tecnologías y sectores estratégicos de la UE. Presenta un estudio detallado de las cadenas de suministro de materias primas críticas y pronostica la demanda de minerales hasta 2050.

  • Preparación necesaria

El formato del documento, PDF, permite la ingesta directa de la información por parte de nuestro asistente. No obstante, como se observa en la Figura 1, existe una tabla especialmente relevante en sus páginas 238-240 donde se analiza, para cada mineral, su riesgo de suministro, tipología (estratégico, crítico o no crítico) y las tecnologías clave que lo emplean. Decidimos, por ello, extraer esta tabla a un formato estructurado (CSV), de tal forma que dispongamos de dos piezas de información que pasarán a formar parte de nuestra base de conocimiento.

Tabla de minerales contenida en el PDF de JRC

Figura 1: Tabla de minerales contenida en el PDF de JRC

Para extraer de forma programática los datos contenidos en esta tabla y transformarlos en un formato más fácilmente procesable, como CSV (comma separated values o valores separados por comas), utilizaremos un script de Python que podemos utilizar a través de la plataforma Google Colab (Figura 2).

Script Python para la extracción de datos del PDF de JRC desarrollado en plataforma Google Colab.

Figura 2: Script Python para la extracción de datos del PDF de JRC desarrollado en plataforma Google Colab.

A modo de resumen, este script:

  1. Se apoya en la librería de código abierto PyPDF2, capaz de interpretar información contenida en ficheros PDF.
  2. Primero, extrae en formato texto (cadena de caracteres) el contenido de las páginas del PDF donde se encuentra la tabla de minerales eliminando todo el contenido que no se corresponde con la propia tabla.
  3. Posteriormente, recorre, línea a línea, la cadena de caracteres convirtiendo los valores en columnas de una tabla de datos. Sabremos que un mineral es utilizado en una tecnología clave si en la columna correspondiente de dicho mineral encontramos un número 1 (en caso contrario contendrá un 0).
  4. Por último, exporta dicha tabla a un fichero CSV para su posterior utilización.

Agencia Internacional de la Energía (IEA):

  • Información seleccionada:

Seleccionamos el informe “Global Critical Minerals Outlook 2024. Este proporciona una visión general de los desarrollos industriales en 2023 y principios de 2024, y ofrece perspectivas a medio y largo plazo para la demanda y oferta de minerales clave para la transición energética. También evalúa los riesgos para la fiabilidad, sostenibilidad y diversidad de las cadenas de suministro de minerales críticos.

  • Preparación necesaria:

El formato del documento, PDF, nos permite la ingesta directa de la información por parte de nuestro asistente virtual. No realizaremos en este caso ninguna adecuación de la información seleccionada.

Base de Datos de Minerales del Instituto Geológico y Minero Español (BDMIN)

  • Información seleccionada:

En este caso, utilizamos el formulario para seleccionar los datos existentes en esta base de datos en cuanto a indicios y yacimientos del ámbito de la metalogenia, en particular seleccionamos aquellos con contenido de Litio.

Selección de conjunto de datos en BDMIN.

Figura 3: Selección de conjunto de datos en BDMIN.

  • Preparación necesaria:

Observamos cómo la herramienta web nos permite la visualización online y también la exportación de estos datos en varios formatos. Seleccionamos, por tanto, todos los datos a exportar y haciendo clic en esta opción, descargamos un fichero Excel con la información deseada.

Herramienta de visualización y descarga en BDMIN

Figura 4: Herramienta de visualización y descarga en BDMIN

Datos descargados BDMIN

Figura 5: Datos descargados BDMIN.

Todos los archivos que componen nuestra base de conocimiento se encuentran GitHub del proyecto, de tal forma que aquel lector que lo desee pueda saltarse la fase de descarga y preparación de la información.

5.2. Configuración y personalización del GPT para minerales críticos

Cuando hablamos de "crear un GPT," en realidad nos estamos refiriendo a la configuración y personalización de un modelo de lenguaje basado en GPT (Generative Pre-trained Transformer) para adaptarlo a un caso de uso específico. En este contexto, no estamos creando el modelo desde cero, sino ajustando cómo el modelo preexistente (como GPT-4 de OpenAI) interactúa y responde dentro de un dominio específico, en este caso, sobre minerales críticos.

En primer lugar, accedemos a la aplicación a través de nuestro navegador y, en caso de no tener una cuenta, seguimos el proceso de registro y login en la plataforma ChatGPT. Como indicamos con anterioridad, para realizar la creación de un GPT paso a paso será necesario disponer de una cuenta Plus. No obstante, aquellos lectores que no dispongan de dicha cuenta, podrán trabajar con una cuenta gratuita interactuando con ChatGPT a través de una conversación estándar.

Captura de la página de inicio de sesión y registro de ChatGPT.

Figura 6: Página de inicio de sesión y registro de ChatGPT.

Una vez iniciada la sesión, seleccionamos la opción "Explorar GPT", y posteriormente hacemos clic en "Crear" para comenzar el proceso de creación de nuestro GPT.

Captura de la página de creación de un nuevo GPT.

Figura 7: Creación de nuevo GPT.

En pantalla se nos mostrará la pantalla dividida de creación de un nuevo GPT: a la izquierda podremos conversar con el sistema para indicarle las características que debe tener nuestro GPT, mientras que a la izquierda podremos interactuar con nuestro GPT para validar que su comportamiento es el adecuado según vayamos avanzando en el proceso de configuración.

Captura de la pantalla de creación de nuevo GPT.

Figura 8: Pantalla de creación de nuevo GPT.

En el GitHub de este proyecto, podemos encontrar todos los prompts o instrucciones que utilizaremos para configurar y personalizar nuestro GPT y que deberemos introducir de forma secuencial en la pestaña "Crear", situada en la pestaña izquierda de nuestras pantallas, para completar los pasos que se detallan a continuación.

Los pasos que vamos a seguir para la creación del GPT son:

  1. En primer lugar, le indicaremos el objetivo y las consideraciones básicas a nuestro GPT para que pueda entender su modo de empleo.

Captura de las instrucciones básicas de nuevo GPT.

Figura 9: Instrucciones básicas de nuevo GPT.

2. Posteriormente crearemos un nombre y una imagen que representen a nuestro GPT y lo hagan fácilmente identificable. En nuestro caso, lo denominaremos MateriaGuru.

Captura de la pantalla para la selección de nombre para nuevo GPT.

Figura 10: Selección de nombre para nuevo GPT.

Captura de la pantalla para la creación de imagen para GPT.

Figura 11: Creación de imagen para GPT.

3. A continuación, construiremos la base de conocimiento a partir de la información anteriormente seleccionada y preparada para nutrir los conocimientos de nuestro GPT.

Captura de la carga de información a la base de conocimiento de nuevo GPT

Captura de la carga de información a la base de conocimiento de nuevo GPT II

Figura 12: Carga de información a la base de conocimiento de nuevo GPT.

4. Ahora, podemos personalizar aspectos conversacionales como su tono, el nivel de complejidad técnica de sus repuesta o si esperamos respuestas escuetas o elaboradas.

5. Por último, desde la pestaña "Configurar", podemos indicar los iniciadores de conversación deseados para que los usuarios que interactúen con nuestro GPT tengan algunas ideas para empezar la conversación de forma predefinida.

Captura de la pestaña Configurar GPT.

Figura 13: Pestaña Configurar GPT.

En la Figura 13 podemos también observar el resultado definitivo de nuestro entrenamiento, donde aparecen elementos clave como su imagen, nombre, instrucciones, iniciadores de conversación o documentos que forma parte de su base de conocimiento.

5.3. Validación y publicación de GPT

Antes de dar por bueno a nuestro nuevo asistente basado en GPT, procederemos a realizar una breve validación de su correcta configuración y aprendizaje respecto a la temática en torno a la que le hemos entrenado. Para ello, preparamos una batería de preguntas que le realizaremos para comprobar que responde de forma adecuada ante un escenario real de utilización.

# Pregunta Respuesta
1 ¿Qué minerales críticos han experimentado una caída significativa en los precios en 2023? Los precios de los minerales para baterías vieron particularmente grandes caídas con los precios del litio cayendo un 75% y los precios del cobalto níquel y grafito cayendo entre un 30% y un 45%.
2 ¿Qué porcentaje de la capacidad solar fotovoltaica (PV) mundial fue añadido por China en 2023? China representó el 62% del aumento en la capacidad solar fotovoltaica global en 2023.
3 ¿Cuál es el escenario que proyecta que las ventas de autos eléctricos (EV) alcanzarán el 65% en 2030? El escenario de emisiones netas cero (NZE) para 2050 proyecta que las ventas de autos eléctricos alcanzarán el 65% en 2030.
4 ¿Cuál fue el crecimiento de la demanda de litio en 2023? La demanda de litio aumentó en un 30% en 2023.
5 ¿Qué país fue el mayor mercado de autos eléctricos en 2023? China fue el mayor mercado de autos eléctricos en 2023 con 8.1 millones de ventas de autos eléctricos representando el 60% del total global.
6 ¿Cuál es el principal riesgo asociado con la concentración de mercado en la cadena de suministro de grafito para baterías? Más del 90% del grafito de grado batería y el 77% de las tierras raras refinadas en 2030 se originan en China lo que representa un riesgo significativo para la concentración del mercado.
7 ¿Qué proporción de la capacidad mundial de producción de celdas de batería estaba en China en 2023? China poseía el 85% de la capacidad de producción de celdas de batería en 2023.
8 ¿Cuánto aumentó la inversión en minería de minerales críticos en 2023? La inversión en minería de minerales críticos creció un 10% en 2023.
9 ¿Qué porcentaje de la capacidad de almacenamiento de baterías en 2023 estaba compuesto por baterías de fosfato de hierro y litio (LFP)? En 2023, las baterías LFP constituían aproximadamente el 80% del mercado total de almacenamiento de baterías.
10 ¿Cuál es el pronóstico para la demanda de cobre en un escenario de emisiones netas cero (NZE) para 2040? En el escenario de emisiones netas cero (NZE) para 2040 se espera que la demanda de cobre tenga el mayor aumento en términos de volumen de producción.

Figura 14: Tabla con batería de preguntas para la validación de nuestro GPT.

Valiéndonos de la parte de previsualización, situada a la derecha de nuestras pantallas, lanzamos la batería de preguntas y validamos que las respuestas se corresponden con aquellas esperadas.

Captura del proceso de validación de respuestas GPT.

Figura 15: Validación de respuestas GPT.

Por último, hacemos clic en el botón "Crear" para finalizar el proceso. Podremos seleccionar entre diferentes alternativas para restringir su utilización por parte de otros usuarios.

Captura de la pantalla para publicación de nuestro GPT.

Figura 16: Publicación de nuestro GPT.

6. Escenarios de uso

En este apartado mostramos varios escenarios en los que podremos sacar partido a MateriaGuru en nuestro día a día. En el GitHub del proyecto podremos encontrar los prompts utilizados para replicar cada uno de ellos.

6.1. Consulta de información de minerales críticos

El escenario más típico de utilización de este tipo de GPTs es la asistencia para resolución de dudas relacionadas con la temática en cuestión, en este caso, los minerales críticos. A modo de ejemplo, hemos preparado una batería de cuestiones que el lector podrá plantear al GPT creado para comprender en mayor detalle la relevancia y situación actual de un material crítico como es el grafito a partir de los informes provistos a nuestro GPT.

Captura del proceso de resolución de dudas de minerales críticos. 

Figura 17: Resolución de dudas de minerales críticos.

También podemos plantearle preguntas concretas sobre la información tabulada provista respecto a los yacimientos e indicios existentes en el territorio español.

Captura de la respuesta a la pregunta sobre reservas de litio en Extremadura.

Figura 18: Reservas de litio en Extremadura.

6.2. Representación de visualizaciones de datos cuantitativos

Otro escenario común, es la necesidad de consultar información cuantitativa y realizar representaciones visuales para su mejor entendimiento. En este escenario, podemos observar cómo MateriaGuru es capaz de generar una visualización interactiva de la producción de grafito en toneladas de los principales países productores.

Captura de la visualización interactiva generada con nuestro GPT.

Figura 19: Generación de visualización interactiva con nuestro GPT.

6.3. Generación de mapas mentales para facilitar la comprensión

Por último, en línea con la búsqueda de alternativas para un mejor acceso y comprensión del conocimiento existente en nuestro GPT, plantearemos a MateriaGuru la construcción de un mapa mental que nos permita entender de una forma visual conceptos clave de los minerales críticos. Para ello, utilizamos la notación abierta Markmap (Markdown Mindmap), que nos permite definir mapas mentales utilizando notación markdown.

Captura del proceso para la generación de mapas mentales desde nuetro GPT.

Figura 20: Generación de mapas mentales desde nuetro GPT.

Deberemos copiar el código generado e introducirlo en un visualizador de markmap para poder generar el mapa mental deseado. Facilitamos aquí una versión de este código generada por MateriaGuru.

Captura de la visualización de mapas mentales

Figura 21: Visualización de mapas mentales.

7. Resultados y conclusiones

En el ejercicio de construcción de un asistente experto utilizando GPT-4, hemos logrado crear un modelo especializado en minerales críticos. Este asistente proporciona información detallada y actualizada sobre minerales críticos, apoyando la toma de decisiones estratégicas y promoviendo la educación en este campo. Primero recopilamos información de fuentes confiables como el RMIS, la Agencia Internacional de la Energía (IEA), y el Instituto Geológico y Minero Español (BDMIN). Posteriormente, procesamos y estructuramos los datos adecuadamente para su integración en el modelo. Las validaciones demostraron que el asistente responde de manera precisa a preguntas relevantes del dominio, facilitando el acceso a su información.

De esta forma, el desarrollo del asistente especializado en minerales críticos ha demostrado ser una solución efectiva para centralizar y facilitar el acceso a información compleja y dispersa.

La utilización de herramientas como Google Colab y Markmap ha permitido una mejor organización y visualización de los datos, aumentando la eficiencia en la gestión del conocimiento. Este enfoque no solo mejora la comprensión y el uso de la información sobre minerales críticos, sino que también prepara a los usuarios para aplicar estos conocimientos en contextos reales.

La experiencia práctica adquirida en este ejercicio es directamente aplicable a otros proyectos que requieran la personalización de modelos de lenguaje para casos de uso específicos.

8. ¿Quieres realizar el ejercicio?

Si quieres replicar este ejercicio, accede a este repositorio donde encontrarás más información (las prompt utilizadas, el código generado por MateriaGuru, etc.)

Además, recuerda que tienes a tu disposición más ejercicios en el apartado sección de “Visualizaciones paso a paso”.


Contenido elaborado por Juan Benavente, ingeniero superior industrial y experto en Tecnologías ligadas a la economía del dato. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Documentación

1. Introducción

Las visualizaciones son representaciones gráficas de datos que permiten comunicar, de manera sencilla y efectiva, la información ligada a los mismos. Las posibilidades de visualización son muy amplias, desde representaciones básicas como los gráficos de líneas, de barras o métricas relevantes, hasta visualizaciones configuradas sobre cuadros de mando interactivos.

En esta sección de “Visualizaciones paso a paso” estamos presentando periódicamente ejercicios prácticos haciendo uso de datos abiertos disponibles en  datos.gob.es u otros catálogos similares. En ellos se abordan y describen de manera sencilla las etapas necesarias para obtener los datos, realizar las transformaciones y los análisis pertinentes para, finalmente obtener unas conclusiones a modo de resumen de dicha información.

En cada ejercicio práctico se utilizan desarrollos de código documentados y herramientas de uso gratuito. Todo el material generado está disponible para su reutilización en el repositorio de GitHub de datos.gob.es.

En este ejercicio concreto, exploraremos la actual situación de la penetración de los vehículos eléctricos en España y las perspectivas de futuro de esta tecnología disruptiva en el transporte.

Accede al repositorio del laboratorio de datos en Github.

Ejecuta el código de pre-procesamiento de datos sobre Google Colab.

En este vídeo, el autor te explica que vas a encontrar tanto en el Github como en Google Colab.

2. Contexto: ¿Por qué es importante el vehículo eléctrico?

La transición hacia una movilidad más sostenible se ha convertido en una prioridad global, situando al vehículo eléctrico (VE) en el centro de numerosas discusiones sobre el futuro del transporte. En España, esta tendencia hacia la electrificación del parque automovilístico no solo responde a un creciente interés por parte de los consumidores en tecnologías más limpias y eficientes, sino también a un marco regulatorio y de incentivos diseñado para acelerar la adopción de estos vehículos. Con una creciente oferta de modelos eléctricos disponibles en el mercado, los vehículos eléctricos representan una pieza clave en la estrategia del país para reducir las emisiones de gases de efecto invernadero, mejorar la calidad del aire en las ciudades y fomentar la innovación tecnológica en el sector automotriz.

Sin embargo, la penetración de los vehículos eléctricos en el mercado español enfrenta una serie de desafíos, desde la infraestructura de carga hasta la percepción y el conocimiento del consumidor sobre estos vehículos. La expansión de la red de carga, junto con las políticas de apoyo y los incentivos fiscales, son fundamentales para superar las barreras existentes y estimular la demanda. A medida que España avanza hacia sus objetivos de sostenibilidad y transición energética, el análisis de la evolución del mercado de vehículos eléctricos se convierte en una herramienta esencial para entender el progreso realizado y los obstáculos que aún deben superarse.

3. Objetivo

Este ejercicio se centra en mostrar al lector técnicas para el tratamiento, visualización y análisis avanzado de datos abiertos mediante Python. Adoptaremos para ello el enfoque “aprender haciendo”, de tal forma que el lector pueda comprender la utilización de estas herramientas en el contexto de la resolución de un reto real y de actualidad como es el estudio de la penetración del VE en España. Este enfoque práctico no solo mejora la comprensión de las herramientas de ciencia de datos, sino que también prepara a los lectores para aplicar estos conocimientos en la resolución de problemas reales, ofreciendo una experiencia de aprendizaje rica y directamente aplicable a sus propios proyectos.

Las preguntas a las que trataremos de dar respuesta a través de nuestro análisis son:

  1. ¿Qué marcas de vehículos lideraron el mercado en 2023?
  2. ¿Qué modelos de vehículos fueron los más vendidos en el 2023?
  3. ¿Qué cuota de mercado absorbieron los vehículos eléctricos en el 2023?
  4. ¿Qué modelos de vehículos eléctricos fueron los más vendidos en el 2023?
  5. ¿Cómo han evolucionado las matriculaciones de vehículos a lo largo del tiempo?
  6. ¿Observamos algún tipo de tendencia respecto a la matriculación de vehículos eléctricos?
  7. ¿Cómo esperamos que evolucionen las matriculaciones de vehículos eléctricos el próximo año?
  8. ¿Cuál es la reducción de emisiones de CO2 que podemos esperar gracias a las matriculaciones obtenidas durante el próximo año?

4. Recursos

Para completar el desarrollo de este ejercicio requeriremos el uso de dos categorías de recursos: Herramientas Analíticas y Conjuntos de Datos.

4.1. Conjunto de datos

Para completar este ejercicio utilizaremos un conjunto de datos provisto por la Dirección General de Tráfico (DGT) a través de su portal estadístico, también disponible desde el catálogo Nacional de Datos Abiertos (datos.gob.es). El portal estadístico de la DGT es una plataforma en línea destinada a ofrecer acceso público a una amplia gama de datos y estadísticas relacionadas con el tráfico y la seguridad vial. Este portal incluye información sobre accidentes de tráfico, infracciones, matriculaciones de vehículos, permisos de conducción y otros datos relevantes que pueden ser útiles para investigadores, profesionales del sector y el público en general.

En nuestro caso, utilizaremos su conjunto de datos de matriculaciones de vehículos en España disponibles vía:

Aunque durante el desarrollo del ejercicio mostraremos al lector los mecanismos necesarios para su descarga y procesamiento, incluimos en el repositorio de GitHub asociado los datos preprocesados*, de tal forma que el lector pueda proceder directamente al análisis de los mismos en el caso de que lo desee.

*Los datos utilizados en este ejercicio fueron descargados el 04 de marzo de 2024. La licencia aplicable a este conjunto de datos puede encontrarse en https://datos.gob.es/avisolegal.

4.2. Herramientas analíticas

  • Lenguaje de programación: Python – es un lenguaje de programación ampliamente utilizado en análisis de datos debido a su versatilidad y a la amplia gama de bibliotecas disponibles. Estas herramientas permiten a los usuarios limpiar, analizar y visualizar grandes conjuntos de datos de manera eficiente, lo que hace de Python una elección popular entre los científicos de datos y analistas.
  • Plataforma: Jupyter Notebooks – es una aplicación web que permite crear y compartir documentos que contienen código vivo, ecuaciones, visualizaciones y texto narrativo. Se utiliza ampliamente para la ciencia de datos, análisis de datos, aprendizaje automático y educación interactiva en programación.
  • Principales librerías y módulos:
    • Manipulación de datos: Pandas – es una librería de código abierto que proporciona estructuras de datos de alto rendimiento y fáciles de usar, así como herramientas de análisis de datos.
    • Visualización de datos:
      • Matplotlib: es una librería para crear visualizaciones estáticas, animadas e interactivas en Python.
      • Seaborn: es una librería basada en Matplotlib. Proporciona una interfaz de alto nivel para dibujar gráficos estadísticos atractivos e informativos.
    • Estadística y algoritmia:
      • Statsmodels: es una librería que proporciona clases y funciones para la estimación de muchos modelos estadísticos diferentes, así como para realizar pruebas y exploración de datos estadísticos.
      • Pmdarima: es una librería especializada en la modelización automática de series temporales, facilitando la identificación, el ajuste y la validación de modelos para pronósticos complejos.

5. Desarrollo del ejercicio

Es aconsejable ir ejecutando el Notebook con el código a la vez que se realiza la lectura del post, ya que ambos recursos didácticos son complementarios en las futuras explicaciones

 

El ejercicio propuesto se divide en cuatro fases principales.

5.1 Configuración inicial

Este apartado podrás encontrarlo en el punto 1 del Notebook.

En este breve primer apartado, configuraremos nuestro Jupyter Notebook y nuestro entorno de trabajo para poder trabajar con el conjunto de datos seleccionado. Importaremos las librerías Python necesarias y crearemos algunos directorios donde almacenaremos los datos descargados.

5.2 Preparación de datos

Este apartado podrás encontrarlo en el punto 2 del Notebook.

Todo análisis de datos requiere una fase de acceso y tratamiento de los mismos hasta obtener los datos adecuados en el formato deseado. En esta fase, descargaremos los datos del portal estadístico y los transformaremos al formato Apache Parquet antes de proceder a su análisis.

Aquellos usuarios que quieran profundizar en esta tarea, tienen a su disposición la Guía Práctica de Introducción al Análisis Exploratorio de Datos.

5.3 Análisis de datos

Este apartado podrás encontrarlo en el punto 3 del Notebook.

5.3.1 Análisis descriptivo

En esta tercera fase, comenzaremos nuestro análisis de datos. Para ello, responderemos las primeras preguntas apoyándonos en herramientas de visualización de datos que además nos permitirán familiarizarnos con los mismos. Mostramos a continuación algunos ejemplos del análisis:

  • Top 10 Vehículos matriculados en el 2023: En esta visualización representamos los diez modelos de vehículos con mayor número de matriculaciones durante el año 2023, indicando además el tipo de combustión de estos. Las principales conclusiones son:
    • Los únicos vehículos de fabricación europea que aparecen en el Top 10 son el Arona y el Ibiza de la marca española SEAT. El resto son asiáticos.
    • Nueve de los diez vehículos están propulsados por Gasolina.
    • El único vehículo del Top 10 con un tipo de propulsión diferente es el DACIA Sandero GLP (Gas Licuado de Petróleo).

Gráfica que muestra el Top10 de vehículos matriculados en 2023. Son, por este orden: Arona, Toyota Corolla, MG ZS, Toyota C-HR, Sportage, Ibiza, Nissan Qashqai, Sandero, tucson, Toyota Yaris Cross. Todos son de gasolina, excepto el Sandero que es Gas Licuado de Petróleo.

Figura 1. Gráfica "Top 10 Vehículos matriculados en el 2023"

  • Cuota de mercado por tipo de propulsión: En esta visualización representamos el porcentaje de vehículos matriculado por cada tipo de propulsión (vehículos de gasolina, diésel, eléctricos u otros). Vemos cómo la inmensa mayoría del mercado (>70%) la absorbieron vehículos de gasolina, siendo los diésel la segunda opción, y como los vehículos eléctricos alcanzaron el 5.5%.

Gráfico que muestra los vehículos vendidos en 2023 por tipo de propulsión: gasolina (71,3%), Diesel (20,5%), Eléctrico (5,5%), otros (2,7%).

Figura 2. Gráfica "Cuota de mercado por tipo de propulsión".

  • Evolución histórica de las matriculaciones: Esta visualización representa la evolución de las matriculaciones de vehículos en el tiempo. En ella se muestra el número de matriculaciones mensual entre enero de 2015 y diciembre de 2023 distinguiendo entre los tipos de propulsión de los vehículos matriculados.Podemos observar varios aspectos interesantes en este gráfico:
    • Apreciamos un comportamiento estacional anual, es decir, observamos patrones o variaciones que se repiten a intervalos regulares de tiempo. Vemos cómo recurrentemente en junio/julio aparecen altos niveles de matriculación mientras que en agosto/septiembre decrecen drásticamente. Esto es muy relevante, pues el análisis de series temporales con factor estacional tiene ciertas particularidades.
    • Es muy notable también la enorme caída de matriculaciones producida durante los primeros meses del COVID.
    • Vemos también como los niveles de matriculación post-covid son inferiores a los previos.
    • Por último, podemos observar cómo entre los años 2015 y 2023 la matriculación de vehículos eléctricos va creciendo paulatinamente.

Gráfico que muestra el número de matriculaciones mensual entre enero de 2015 y diciembre de 2023 distinguiendo entre los tipos de propulsión de los vehículos matriculados.

Figura 3. Gráfica "Matriculaciones de vehículos por tipo de propulsión".

  • Tendencia en la matriculación de vehículos eléctricos: Analizamos ahora por separado la evolución de vehículos eléctricos y no eléctricos utilizando mapas de calor como herramienta visual. Podemos observar comportamientos muy diferenciados entre ambos gráficos. Observamos cómo el vehículo eléctrico presenta una tendencia de incremento de matriculaciones año a año y, a pesar de suponer el COVID un parón en la matriculación de vehículos, los años posteriores han mantenido la tendencia creciente.

Gráfica que muestra la tendencia  en la matriculación de vehículos eléctricos a través de un mapa de calor. Se observa cómo van creciendo dichas matriculaciones.

Figura 4. Gráfica "Tendencia en la matriculación de vehículos convencionales vs eléctricos".

5.3.2. Analítica predictiva

Para dar respuesta a la última de las preguntas de forma objetiva, utilizaremos modelos predictivos que nos permitan realizar estimaciones respecto a la evolución del vehículo eléctrico en España. Como podemos observar, el modelo construido nos propone una continuación del crecimiento en las matriculaciones esperadas a lo largo del año serán de 70.000, alcanzando valores cercanos a las 8.000 matriculaciones solo en el mes de diciembre del 2024.

Gráfica que muestra el crecimiento futuro, según la estimación de nuestro modelo, de matriculaciones de vehículos eléctricos".

Figura 5. Gráfica "Predicción de matriculaciones de vehículos electricos".

5. Conclusiones del ejercicio

Como conclusión del ejercicio, podremos observar gracias a las técnicas de análisis empleadas como el vehículo eléctrico está penetrando cada vez a mayor velocidad en el parque móvil español aunque aún se encuentre a una distancia grande de otras alternativas como el Diésel o la Gasolina, por ahora liderado por el fabricante Tesla. Veremos en los próximos años si el ritmo crece al nivel necesario para alcanzar los objetivos de sostenibilidad fijados y si Tesla sigue siendo líder a pesar de la fuerte entrada de competidores asiáticos.

6. ¿Quieres realizar el ejercicio?

Si quieres conocer más sobre el Vehículo Eléctrico y poner a prueba tus capacidades analíticas, accede a este repositorio de código donde podrás desarrollar este ejercicio paso a paso.

Además, recuerda que tienes a tu disposición más ejercicios en el apartado sección de “Visualizaciones paso a paso”.


Contenido elaborado por Juan Benavente, ingeniero superior industrial y experto en Tecnologías ligadas a la economía del dato.Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Aplicación

Mejorgasolinera.com es un sitio web que muestra información detallada sobre todas las gasolineras del país. Los datos pueden ser filtrados por marcas, localización o carretera y ordenados por precio y distancia. Además cuenta con un buscador para encontrar la estación de servicio más cercana a una ubicación dada.

calendar icon
Blog

Los datos son una pieza clave en la economía digital europea. Así lo reconoce la Estrategia de Datos cuyo objetivo es crear un mercado único que permita su libre circulación para fomentar así la transformación digital y la innovación tecnológica. No obstante, alcanzar este objetivo conlleva superar diferentes obstáculos. Uno de los más destacados es la desconfianza que la ciudadanía puede sentir respecto al proceso.

Como respuesta ante esta necesidad, surge la Ley de Gobernanza del Dato o Data Governance Act (DGA), un instrumento horizontal que busca regular la reutilización de datos sobre los que concurren derechos de terceros, e impulsar su intercambio bajo los principios y valores de la Unión Europea. Entre los objetivos de la DGA se encuentra reforzar la confianza de ciudadanos y empresas en que sus datos se reutilicen bajo su control, conforme a unos mínimos estándares jurídicos.

Entre otras cuestiones, la DGA profundiza en el concepto de los intermediarios de datos, para quienes establece un marco de notificación y supervisión. 

¿Qué son los intermediarios de datos?

El concepto de intermediario de datos es relativamente nuevo en la economía de datos, así que existen múltiples definiciones. Si nos centramos en el contexto de la DGA, los proveedores de servicios de intermediación de datos (Data Intermediation Services Providers o DISPs) son aquellos “cuyo objeto sea establecer relaciones comerciales para el intercambio de datos entre un número indeterminado de interesados y titulares de datos, por una parte, y usuarios de datos, por otra”.

La Data Governance Act también diferencia entre los Proveedores de servicios de intermediación de datos de las Organizaciones de gestión de datos con fines altruistas reconocidas en la Unión (Data Altruism Organisations Recognised in the Union o RDAOs). Este último concepto describe una relación de intercambio de datos, pero sin buscar un rédito por ello, de forma altruista.

Visual que describe los dos tipos de intermediarios de datos: proveedores de servicios de intermediación de datos (DISP, por sus siglas en inglés) con fines comerciales; y organizaciones de gestión de datos con fines altruistas reconocidas en la Unión (RDAOs) con fines altruistas

¿Qué tipos de servicios de intermediación de datos existen según la DGA?

Los servicios de intermediarios de datos son una pieza más en la compartición de datos, ya que facilitan a los titulares compartir sus datos para que puedan ser reutilizados. También pueden proporcionar infraestructura técnica y experiencia para respaldar la interoperabilidad entre conjuntos de datos, o actuar como mediadores que negocian acuerdos de intercambio entre partes interesadas en compartir, acceder o agrupar datos.

En el Capítulo III de la Data Governance Act se explican tres tipos de servicios de intermediación de datos:

  • Servicios de intermediación entre titulares de datos y sus posibles usuarios, incluyendo la facilitación de los medios técnicos o de otro tipo para habilitar dichos servicios. Podrán comprender el intercambio bilateral o multilateral de datos, así como la creación de plataformas, bases de datos o infraestructuras que posibiliten su intercambio o uso común.
  • Servicios de intermediación entre personas físicas que deseen poner a disposición sus datos, ya sean o no personales, con posibles usuarios, incluyendo también los medios técnicos. Estos servicios deben posibilitar el ejercicio de los derechos de los interesados previstos en el Reglamento general de protección de datos (Reglamento 2016/679).
  • Cooperativas de datos. Son estructuras organizativas constituidas por sujetos de datos, empresas unipersonales o pymes. Estas entidades ayudan a los miembros de la cooperativa a ejercer sus derechos sobre sus datos.

En resumen, el primer tipo de servicio puede facilitar el intercambio de datos industriales, el segundo se centra principalmente en el intercambio de datos personales y el tercero abarca el intercambio colectivo de datos y los esquemas de gobernanza relacionados.

Categorías de intermediarios de datos en detalle:

Para profundizar en estos conceptos, la Comisión Europea ha publicado el informe ‘Mapping the landscape of data intermediaries’, donde se profundiza en los tipos de intermediación de datos existentes. Los hallazgos del informe resaltan la fragmentación y heterogeneidad del campo.

Los tipos de intermediarios de datos van desde los individualistas y orientados a los negocios hasta modelos más colectivos e inclusivos que respaldan una mayor participación en la gobernanza de datos por parte de comunidades y sujetos de datos individuales. Teniendo en cuenta las categorías que se incluyen en la DGA, se describen seis tipos de intermediarios de datos:

Tipos de servicios de intermediación
de datos según al DGA
Equivalencia en el informe
“Mapping the landscape of data intermediaries”
Servicios de intermediación entre titulares de datos
y posibles usuarios de datos (I)
  • Grupos de intercambio de datos
  • Mercados de datos
Servicios de intermediación entre sujetos de datos o individuos y usuarios de datos (II)
  • Sistemas de Gestión de Información Personal (PIMS)
Cooperativas de datos (III)
  • Cooperativas de datos
  • Fideicomisos de datos
  • Sindicatos de datos

Fuente: Traducción del box 4 del informe Mapping the landscape of data intermediaries publicado por la Comisión Europea

A continuación, se describe cada uno de ellos:

  1. Sistemas de Gestión de Información Personal (PIMS): proporciona herramientas a individuos para que controlen y dirijan el tratamiento de sus datos.
  2. Cooperativas de datos: fomentan la gobernanza democrática a través de acuerdos entre los miembros. Los individuos gestionan sus datos en favor de toda la comunidad.
  3. Fideicomisos de datos: establecen mecanismos jurídicos específicos para garantizar la gestión responsable e independiente de los datos entre dos entidades, un intermediario que administra los datos y sus derechos, y un beneficiario y propietario de los datos.
  4. Sindicatos de datos: son uniones sectoriales o territoriales entre distintos propietarios de datos que gestionan y protegen los derechos sobre los datos personales generados a través de plataformas tanto por usuarios como por trabajadores.
  5. Mercados de datos: impulsan plataformas que permiten poner en contacto la oferta y la demanda de datos o productos/servicios basados en ellos.
  6. Grupos de intercambio de datos: son alianzas entre partes interesadas en la compartición de datos para mejorar sus activos (productos de datos, procesos y servicios) aprovechando la complementariedad de los datos puestos en común.

Los tipos de intermediarios de datos difieren según varios parámetros, pero son complementarios y pueden superponerse en ciertos aspectos. Para cada tipo de intermediario de datos presentado, el informe proporciona información sobre cómo funciona, sus características principales, ejemplos seleccionados y consideraciones sobre el modelo de negocio.

Requisitos para los intermediarios de datos en la Unión Europea

La DGA establece reglas de juego para garantizar que los proveedores de servicios de intercambio de datos realizan sus servicios bajo los principios y valores de la Unión Europea (UE). Los proveedores estarán sometidos al ordenamiento jurídico del Estado miembro donde tenga su sede principal. Si se trata de un proveedor no establecido en la UE, debe designar un representante legal en uno de los Estados miembros en los que se ofrezca sus servicios.

Todo proveedor de servicios de intermediación de datos que opere en la UE deberá notificarlo a la autoridad competente. Dicha autoridad será designada por cada Estado y velará porque el proveedor realice su actividad bajo el cumplimiento de las leyes. La notificación incluirá información sobre el nombre del proveedor, naturaleza jurídica (incluyendo información sobre la estructura y las filiales), dirección, sitio web con información sobre sus actividades, persona de contacto y estimación de la fecha de inicio de la actividad. Además, deberá incluir una descripción del servicio de intermediación de datos que lleva a cabo, indicando a la categoría detallada en la DGA a la que pertenecen, es decir, servicios de intermediación entre titulares de datos y usuarios, servicios de intermediación entre sujetos de datos o individuos y usuarios de datos o cooperativas de datos.

Además, en su artículo 12, la DGA estable una serie de condiciones para la prestación de servicios de intermediación de datos. Por ejemplo, los proveedores no podrán utilizar los datos en relación con los que presten sus servicios, sino que se limitarán a su puesta a disposición. Así mismo, deberán respetar los formatos originales y solo podrán hacer transformaciones para mejorar su interoperabilidad. También deberán disponer procedimientos para impedir prácticas fraudulentas o abusivas de los usuarios. Con todo ello se busca garantizar que los servicios sean neutrales, transparentes y no discriminatorios.

Escenarios futuros para los intermediarios de datos

De acuerdo con el informe “Mapping the landscape of data intermediaries”, en el horizonte, el escenario previsto para los intermediarios de datos conlleva superar diversos desafíos:

  • Identificar modelos de negocio adecuados que garanticen la sostenibilidad económica.
  • Ampliar la demanda de los servicios de intermediación de datos.
  • Comprender el requisito de neutralidad establecido por la DGA y cómo podría implementarse.
  • Alinear los intermediarios de datos con otros instrumentos de la política de datos de la UE.
  • Considerar las necesidades de los desarrolladores y emprendedores.
  • Suplir la demanda de los intermediarios de datos.

Para consolidar los intermediarios de datos habrá que seguir realizando más investigaciones que ayuden a definir más profundamente el concepto de intermediarios de datos. Este proceso conllevará evaluar las necesidades de desarrolladores y empresarios sobre asuntos económicos, legales y técnicos que desempeñan un papel en el establecimiento de intermediarios de datos, los incentivos tanto para el lado de la oferta como de la demanda de intermediarios de datos, y las posibles conexiones de estos con otros instrumentos de políticas de datos de la UE.

calendar icon
Aplicación

Esta aplicación móvil desarrollada por el Ayuntamiento de Ourense permite consultar información actualizada sobre la ciudad: noticias, avisos o próximos eventos sobre diferentes temáticas como: 

  • Artes y festejos: Eventos culturales organizados por el ayuntamiento. 

  • Turismo: Información sobre instalaciones termales, atracciones turísticas, patrimonio, rutas y gastronomía. 

  • Avisos: Notificaciones en tiempo real sobre posibles cortes de tráfico, apertura de monumentos u otras cuestiones puntuales.  

  • Información: Datos de interés general como números de teléfono de emergencias o atención al ciudadano del ayuntamiento. 

La app mOUbil, desarrollada mediante conjuntos de datos abiertos locales, unifica toda la información de interés para los vecinos y vecinas de Ourense, así como los turistas que quieran conocer la ciudad. Además, cualquier persona puede realizar sugerencias de mejora sobre la aplicación a través de este formulario: Consultas y Sugerencias (ourense.gal)  

Su descarga está disponible tanto para Android mOUbil - Ourense no peto! - Aplicaciones en Google Play  como iOS: moubil - Ourense no peto! en App Store (apple.com)  

calendar icon
Blog

Vivimos un momento histórico en el que los datos son un activo clave, del que dependen cada día multitud de pequeñas y grandes decisiones de empresas, organismos públicos, entidades sociales y ciudadanos. Por ello, es importante conocer de donde proviene cada dato, para garantizar que las cuestiones que afectan a nuestra vida están basadas en información veraz.

¿Qué es la citación de datos?

Cuando hablamos de “citar” nos referimos al proceso de indicar qué fuentes externas se han utilizado para crear contenidos. Una cuestión ampliamente recomendable que afecta a todos los datos, incluidos los datos públicos como está recogido en nuestro ordenamiento jurídico. En el caso de los datos ofrecidos por las adminstraciones, el Real Decreto 1495/2011 incluye la necesidad del reutilizador de citar la fuente de origen de la información.

Para ayudar a los usuarios en esta tarea, la Oficina de Publicaciones de la Unión Europea editó Data Citation: A guide to best practice, donde se habla de la importancia de la citación de datos y se recogen recomendaciones de buenas prácticas, así como los retos a superar para citar conjuntos de datos de manera correcta.

¿Por qué es importante la citación de datos?

La guía menciona las razones más relevantes por las que es recomendable llevar a cabo esta práctica:

  • El crédito. Crear conjuntos de datos conlleva trabajo. Citar al autor o autores les permite recibir feedback y saber que su trabajo es útil, lo que les anima a seguir trabajando en nuevos conjuntos de datos.
  • La transparencia. Cuando los datos se citan, el lector puede acudir a ellos para revisarlos, comprender mejor su alcance y evaluar su idoneidad.
  • La integridad. Los usuarios no deben de caer en el plagio. No deben atribuirse el mérito de la creación de conjuntos de datos que no son suyos..
  • La reproducibilidad. La citación de los datos permite que una tercera persona pueda intentar reproducir los mismos resultados, utilizando la misma información.
  • La reutilización. La citación de datos facilita que cada vez más conjuntos de datos se den a conocer y, por tanto, aumente su uso.
  • Minería de textos. Los datos no solo son consumidos por humanos, también pueden serlo por máquinas. Una correcta citación ayudará a las máquinas a comprender mejor el contexto de los conjuntos de datos, amplificando los beneficios de su reutilización.

Buenas prácticas generales

De entre todas las buenas prácticas generales incluidas en la guía, a continuación destacamos algunas de las más relevantes:

  • Sé preciso. Es necesario que los datos citados estén definidos con exactitud. La citación de datos debe indicar qué datos concretos se han utilizado de cada conjunto de datos. También es importante señalar si han sido procesados y si provienen directamente del creador o de algún agregador (como un observatorio que ha tomado datos de diversas fuentes). 
  • Utiliza "identificadores persistentes" (persistent identifiers  o PID). Al igual que cada libro que encontramos en una biblioteca tiene su identificador, los conjuntos de datos también pueden (y deben) tenerlo. Los identificadores persistentes son esquemas formales que proporcionan una nomenclatura común, que identifican de manera única los conjuntos de datos, evitando ambigüedades. A la hora de citar conjuntos de datos, es necesario localizarlos y escribirlos como un hipervínculo accionable, sobre el que se puede hacer clic para acceder al conjunto de datos citado y a sus metadatos.  Existen diferentes familias de PID, pero la guía destaca dos de las más comunes: el sistema Handle y el identificador de objeto digital (DOI).
  • Indica el momento en el que se ha accedido a los datos. Esta cuestión es de gran importancia cuando trabajamos con datos dinámicos (que se actualizan y cambian periódicamente) o continuos (sobre los que se añaden datos adicionales sin modificar los antiguos). En estos casos, es importante citar la fecha de acceso. Además, si es necesario, el usuario puede añadir “snapshots” o instantáneas del conjunto de datos, es decir, copias tomadas en momentos concretos.
  • Consulta los metadatos del conjunto de datos utilizado y las funcionalidades del portal en que se ubica. En los metadatos se encuentra gran cantidad de la información necesaria para la cita.
    Además, los portales de datos pueden incluir herramientas que ayuden a la citación. Es el caso del Portal de datos abiertos de la Unión Europea en cuyo menú superior se puede encontrar el botón de citación.

  • Apóyate en herramientas de software. La mayoría de los programas informáticos utilizados para crear documentos permiten crear y formatear citas automáticamente, asegurando su formato. Además, existen herramientas específicas de gestión de citas como BibTeX o Mendeley, que permiten crear bases de datos de citas teniendo en cuenta sus peculiaridades, una función de gran utilidad cuando es necesario citar numerosos conjuntos de datos en múltiples documentos.

Cómo citar correctamente

La segunda parte del informe contiene el material técnico de referencia para crear citas que cumplan las recomendaciones indicadas. Abarca los elementos que debe incluir una cita y cómo ordenarlos para distintos fines.

Entre los elementos que debe incluir una cita se encuentran:

  • Autor, puede referir tanto al individuo que ha creado el conjunto de datos (autor personal) como a la organización responsable (autor corporativo).
  • Título del dataset.
  • Versión/edición.
  • Publicador, que es la entidad que hace disponible el conjunto de datos y puede coincidir o no con el autor (en caso de que coincidan no es necesario repetirlo).
  • Fecha de publicación, donde se indica el año en que se creó. Es importante incluir entre paréntesis el momento de la última actualización.
  • Fecha de citación, que expresa la fecha en la que el creador de la cita accedió a los datos, incluyendo la hora si es necesario. Para los formatos de fechas y horas, la guía recomienda acudir a la especificación DCAT, ya que ofrece una precisión mayor en términos de interoperabilidad.
  • Identificador persistente.

Respeto al orden de toda esa información, existen diferentes directrices en relación con la estructura general de las citas. La guía muestra las diferentes formas más adecuadas de citar según el tipo de documento en el que aparece la cita (documentos periodísticos, online, etc.), incluyendo ejemplos y recomendación. Entre otros, destaca el ejemplo del Libro de estilo interinstitucional (ISG), que edita la Oficina de Publicaciones de la UE. Este libro de estilo no contiene orientaciones específicas sobre cómo citar datos, pero sí una estructura general para citas que puede aplicarse a los conjuntos de datos, recogida en la siguiente imagen.

La guía finaliza con una serie de anexos con listas de control, diagramas y ejemplos.

Si quieres saber más sobre este documento, te recomendamos ver este seminario online donde se resumen los puntos más importantes.

En definitiva, citar correctamente los conjuntos de datos mejora la calidad y la transparencia del proceso de reutilización de los datos, estimulándolo al mismo tiempo. Por tanto, fomentar la citación correcta de los datos es una práctica no solo recomendable, sino cada vez más necesaria.

calendar icon
Aplicación

ContratosMenores.es es una web que brinda información sobre los contratos menores realizados en España desde enero de 2022. A través de esta aplicación se pueden localizar los contratos según su clasificación en el Vocabulario Común de la Contratación Pública (CPV), siguiendo el árbol jerárquico de los Órganos de Contratación públicos, con una búsqueda de texto libre, o a partir de diferentes rankings, por ejemplo, de contratos más caros, adjudicatarias más frecuentes y otros.

En la ficha de cada organismo y de cada adjudicataria se detallan sus relaciones destacadas con otras entidades, las categorías más frecuentes de sus contratos, empresas similares, duración de los contratos, importe, y muchos datos más.

En el caso de las empresas adjudicatarias se dibuja un mapa con la ubicación de los contratos que han recibido.

La web es totalmente gratuita, no requiere registro, y se actualiza diariamente, comenzando con más de un millón de contratos menores registrados.

calendar icon
Blog

El enfoque de la regulación de la Unión Europea ha dado un giro importante desde que en 2003 se impulsara la primera normativa sobre reutilización de la información del sector público. En concreto, como consecuencia de la Estrategia Europea de Datos aprobada en 2020 se está ampliando el enfoque regulatorio al menos desde dos puntos de vista: 

  • por una parte, se están impulsando modelos de gobernanza que tengan en cuenta la necesidad de integrar, desde el diseño y por defecto, el respeto a otros derechos e intereses jurídicamente relevantes, como es el caso de la protección de los datos personales, la propiedad intelectual o el secreto comercial, tal y como ha sucedido singularmente a través del Reglamento de Gobernanza de los Datos; 

  • por otra parte, ampliando el ámbito subjetivo de las normas para ir más allá del sector público, de manera que también se empiezan a contemplar obligaciones dirigidas específicamente a entidades privadas, tal y como demuestra la aprobación en noviembre de 2023 del Reglamento sobre normas armonizadas para un acceso justo a los datos y su utilización (conocido como Ley de Datos). 

En este nuevo planteamiento adquieren un singular protagonismo los espacios de datos, tanto por lo que se refiere a la importancia de los sectores sobre los que versan (salud, movilidad, medio ambiente, energía…) como, sobre todo, por el destacado papel que están llamados a jugar a la hora de facilitar la puesta a disposición de grandes cantidades de datos, en concreto a la hora de superar los obstáculos técnicos y jurídicos que dificultan su puesta en común. A este respecto, en España ya disponemos de una previsión legal al respecto, que se ha concretado con la creación de una sección específica en la Plataforma de Contratación del Sector Público

En la propia Estrategia se contempla la creación deun espacio común europeo de datos relativos a las administraciones públicas, a fin de mejorar la transparencia y la rendición de cuentas respecto del gasto público y la calidad del gasto, luchar contra la corrupción tanto a nivel nacional como de la UE, y abordar las necesidades en relación con el cumplimiento de las normas, además de apoyar la aplicación efectiva de la legislación de la UE y favorecer aplicaciones innovadoras”. Si bien, al mismo tiempo se reconoce, que “los datos concernientes a la contratación pública se difunden a través de varios sistemas en los Estados miembros, están disponibles en diferentes formatos y no son fáciles de utilizar” concluyendo la necesidad, en muchos casos, de “mejorar la calidad de los datos”. 

¿Por qué un espacio de datos en el ámbito de la contratación pública? 

Dentro de la actividad que llevan a cabo las entidades públicas destaca la contratación pública, cuya relevancia en la economía del conjunto de la UE llega hasta casi el 14% del PIB, por lo que se trata de un polo estratégico para dinamizar una economía más innovadora, competitiva y eficiente. Sin embargo, tal y como se reconoce expresamente en la Comunicación de la Comisión titulada Contratación pública: Un espacio de datos para mejorar el gasto público, impulsar la elaboración de políticas basadas en datos y mejorar el acceso de las pymes a las licitaciones, publicada en marzo de 2023, aunque existe una gran cantidad de datos sobre contratación pública, sin embargo “de momento su utilidad para los contribuyentes, los responsables públicos y los compradores públicos es escasa”. 

La regulación sobre contratación pública aprobada en 2014 incorporó una decidida apuesta por el uso de medios electrónicos en la divulgación de la información relativa a la convocatoria y la adjudicación de los procedimientos, si bien dicha normativa adolece de algunas limitaciones importantes:  

  • se refiere únicamente a los contratos que superen unos umbrales mínimos fijados a nivel europeo, lo que limita la medida al 20% de la contratación pública en la UE, de manera que son los propios Estados quienes han de promover medidas de transparencia propias para el resto de los supuestos; 

  • no afecta a la fase de ejecución contractual, de manera que no se aplica a cuestiones tan relevantes como el precio finalmente pagado, los plazos de ejecución realmente consumidos o, entre otras cuestiones, los posibles incumplimientos por parte del contratista y, en su caso, las medidas adoptadas por las entidades públicas al respecto; 

  • aunque se refiere al uso de medios electrónicos a la hora de cumplir con la obligación de transparencia, sin embargo, no contempla la necesidad de que se articule en base a formatos abiertos que permitan la reutilización automatizada de la información. 

Ciertamente, desde la aprobación de la regulación de 2014 se han producido importantes avances a la hora de facilitar la normalización del proceso de recogida de datos, sobre todo al imponerse la utilización de formularios electrónicos para los umbrales antes indicados desde el 25 de octubre de 2023. Sin embargo, resultaba imprescindible un planteamiento más ambicioso que permitiera “aprovechar plenamente el poder que ofrecen los datos sobre contratación pública”. Para ello, en esta nueva iniciativa se contemplan no sólo medidas dirigidas a incrementar decididamente la cantidad de datos disponibles y su calidad sino, además, la creación de una plataforma a escala de la UE para hacer frente a la dispersión actual, así como la combinación con un conjunto de herramientas basadas en tecnologías avanzadas, singularmente la inteligencia artificial. 

Las ventajas de este planteamiento son evidentes desde diversos puntos de vista:  

  • por una parte, podría proporcionase una información más precisa a las entidades públicas a la hora de planificar y adoptar sus decisiones;  

  • pero también, por otro lado, se facilitarían las funciones de control y supervisión por parte de las autoridades competentes y, en general, de la sociedad;  

  • y, sobre todo, se impulsaría de manera decisiva el acceso efectivo de las empresas y, en particular, de las pymes a la información sobre procedimientos actuales o futuros a los que poder concurrir. 

¿Cuáles son los principales retos que se han de afrontar desde el punto de vista jurídico? 

La Comunicación sobre el espacio de datos europeo de la contratación pública supone una importante iniciativa de gran interés por cuanto esboza el camino a seguir, planteando las ventajas que podría suponer su puesta en marcha, enfatizando las posibilidades que ofrece un planteamiento tan ambicioso y, asimismo, identificando las principales condiciones que lo harían viable. Todo ello desde el análisis de relevantes casos de uso, la identificación de los actores claves en este proceso y el establecimiento de un calendario preciso con un horizonte temporal hasta 2025. 

El impulso de un espacio europeo de datos específico en el ámbito de la contratación pública es, sin duda, una iniciativa que potencialmente podría tener un enorme impacto tanto en la propia actividad contractual de las entidades públicas como, asimismo, por lo que se refiere a las empresas y, en general, a la sociedad. Pero para que esto sea posible también habría que plantearse importantes desafíos desde la perspectiva jurídica: 

En primer lugar, actualmente no se contempla ampliar la obligación de publicación a los contratos que se encuentran por debajo de los umbrales establecidos a nivel europeo, lo que supone que la mayor parte de las licitaciones quedarían fuera del ámbito del espacio. Esta limitación plantea una consecuencia adicional, ya que supone dejar en manos de los Estados miembros el establecimiento adicional de obligaciones de publicidad activa a partir de las cuales proceder a la recogida y, en su caso, integración de los datos, lo que podría suponer una dificultad importante a la hora de asegurar la integración de múltiples y heterogéneas fuentes de datos, en particular desde la perspectiva de la interoperabilidad. A este respecto, la Comisión pretende crear un conjunto armonizado de datos que, en el caso de que fueran de obligado acatamiento por parte de todas las entidades públicas a nivel europeo, permitiría no sólo que los datos se recopilen por medios electrónicos, sino que, además, puedan traducirse a un lenguaje común que facilite su tratamiento automatizado. 

En segundo lugar, aunque la Comunicación inste a los Estados para que se esfuercen “por recopilar datos tanto en la fase previa a la adjudicación como en la fase posterior a esta”, sin embargo, configura como voluntarios los anuncios de finalización de los contratos. Si fueran obligatorios se podría “alcanzar una comprensión mucho más detallada de la totalidad del ciclo de la contratación pública”, además de impulsar la adopción de medidas correctoras ante situaciones jurídicamente discutibles tanto por lo que se refiere a la posición jurídica de las empresas que no resultaron adjudicatarias como, asimismo, de las autoridades encargadas de llevar a cabo funciones de fiscalización. 

Otro de los principales retos para el óptimo funcionamiento del espacio europeo de datos consiste en la fiabilidad de los datos publicados, ya que con frecuencia se pueden deslizar errores a la hora de cumplimentar los formularios o, incluso, dicha tarea puede percibirse como una actividad rutinaria que se realiza en ocasiones sin prestar la debida atención a su ejecución, tal y como viene demostrando la práctica administrativa con relación a los CPV. Aunque es preciso reconocer que en la actualidad existen herramientas avanzadas que podrían ayudar a corregir este tipo de disfunciones, lo cierto es que resulta imprescindible ir más allá de una mera digitalización de los procesos de gestión y apostar decididamente por modelos de tramitación automatizados que estén basados en los datos y no en los documentos, como todavía hoy resulta habitual en muchos ámbitos del sector público. Desde estas premisas se podría avanzar decididamente desde las exigencias de interoperabilidad antes referidas e implementar las herramientas analíticas basadas en tecnologías emergentes a que se refiere la Comunicación. 

La necesaria adaptación de la regulación europea sobre contratación pública 

Dada la relevancia de los objetivos planteados y la enorme dificultad que conllevan los retos anteriormente indicados, parece justificado que una iniciativa tan ambiciosa y con un potencial impacto tan destacado se articule a partir de una sólida base normativa. Resulta imprescindible ir más allá de las recomendaciones, estableciendo claras y precisas obligaciones jurídicas para los Estados miembros y, en general, para las entidades públicas, a la hora de gestionar y difundir la información sobre su actividad contractual, tal y como se ha planteado por ejemplo en el espacio de datos sanitarios

En definitiva, casi diez años después de la aprobación del paquete de directivas sobre contratación pública, quizás haya llegado el momento de proceder a su actualización con un planteamiento más ambicioso que, desde las exigencias y posibilidades de la innovación tecnológica, permita poner realmente en valor la ingente cantidad de datos que se generan en este ámbito. Más aún, ¿por qué no configurar los datos de la contratación pública como datos de alto valor al amparo de la regulación sobre datos abiertos y reutilización de la información del sector público? 


Contenido elaborado por Julián Valero, catedrático de la Universidad de Murcia y Coordinador del Grupo de Investigación “Innovación, Derecho y Tecnología” (iDerTec). Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon