Cuando hablamos de datos abiertos, es fácil perderse en laberintos técnicos. A menudo el debate se centra en los formatos de archivo, la interoperabilidad semántica, las licencias de uso o la optimización de los metadatos. Sin embargo, detrás de cada conjunto de datos publicado por una administración pública, existe un potencial transformador que impacta de manera directa en la vida cotidiana de las personas.
En este post, explicamos tres proyectos concretos actualmente en marcha en España, que utilizan datos abiertos como materia prima, y que tienen consecuencias tangibles: en el control de la calidad del agua de un parque natural, en cómo la ciencia busca nuevos medicamentos contra el cáncer y en la mejora de la respuesta ante fenómenos meteorológicos extremos.
Medio ambiente: monitorizando en tiempo real la salud de la Albufera de València
La Albufera de València es uno de los humedales más importantes del Mediterráneo y, también, uno de los más presionados. Décadas de actividad agrícola, industrial y turística han dejado su huella en la calidad del agua y en la salud del ecosistema. Hasta ahora, la monitorización de este espacio se hacía con métodos discontinuos, costosos y con una capacidad de respuesta limitada ante eventos extremos. La DANA de octubre de 2024 puso en evidencia, una vez más, la necesidad de contar con información ambiental en tiempo real para poder actuar con rapidez.
En este contexto surge, a principios de 2026, OBEREK, un proyecto europeo en el que participa la Universitat Politècnica de València (UPV) y la Fundació Assut. El proyecto está desarrollando una plataforma de monitorización en tiempo real de la salud del ecosistema y la biodiversidad de la Albufera. La plataforma instalará nodos de transmisión y sensores en puntos críticos del lago como entradas de caudal o salidas de regadío para medir parámetros clave del agua y del entorno natural.
Lo que hace especialmente relevante esta iniciativa desde la perspectiva de los datos abiertos es su arquitectura de acceso: el sistema contará con un panel de control de acceso público para que ciudadanía, investigadores, agricultores y empresas puedan consultar y reutilizar los datos para la toma de decisiones. Además, el proyecto integrará diagramas de conocimiento que traducirán información técnica compleja en explicaciones comprensibles, pensados expresamente para facilitar su uso como herramienta de gobernanza participativa. En concreto, el proyecto es clave para:
- Prevención de crisis: permite detectar de forma precoz anomalías en la calidad del agua, evitando episodios de anoxia (falta de oxígeno) que pongan en peligro la fauna local.
- Gestión eficiente del agua: proporciona datos empíricos para regular las compuertas que conectan el humedal con el mar y los canales de riego, optimizando el recurso hídrico.
- Evidencia científica para políticas públicas: los gestores gubernamentales pueden diseñar normativas de protección basadas en un histórico de datos sólido y transparente.
El objetivo final, según los investigadores de la UPV, es que la solución sea replicable en al menos cinco nuevos humedales europeos en los próximos tres años.
Salud: inteligencia artificial para acelerar el descubrimiento de fármacos oncológicos
El segundo caso de uso se inscribe en el sector de la salud y la investigación biomédica, donde los datos abiertos están empezando a cambiar las reglas del juego en uno de los procesos más costosos y lentos de la ciencia moderna: el descubrimiento de nuevos medicamentos.
Desarrollar un fármaco desde cero puede llevar más de una década y costar miles de millones de euros. Una de las razones es la enorme dificultad para identificar qué moléculas tienen potencial terapéutico antes de iniciar los ensayos clínicos. Es aquí donde entra el proyecto europeo Ligand-IA, en el que participa el Vall d'Hebron Instituto de Oncología (VHIO), uno de los centros de investigación oncológica de referencia en España.
Este proyecto utiliza modelos computacionales avanzados y algoritmos de inteligencia artificial entrenados y alimentados de forma masiva mediante el uso de grandes bases de datos abiertos químicos, biológicos y clínicos de acceso público.
Las bases de datos abiertas aportan el volumen de información biológica y química necesario para entrenar algoritmos de inteligencia artificial. Mediante el análisis de estos datos, la IA es capaz de realizar una predicción masiva de interacciones moleculares en entornos virtuales, lo que optimiza el cribado de compuestos y reduce drásticamente los tiempos y costes en el descubrimiento acelerado de nuevos fármacos.
La inteligencia artificial requiere de un volumen masivo de datos previos para aprender y realizar predicciones precisas. Al reutilizar repositorios abiertos mundiales de estructuras moleculares y resultados de ensayos anteriores, el consorcio Ligand-IA puede simular virtualmente millones de interacciones entre proteínas tumorales y diferentes compuestos químicos. Así que Ligand-IA es especialmente útil para:
- Reducción drástica de plazos: lo que antes requería años de ensayo y error en el laboratorio de química, la IA lo puede cribar virtualmente en cuestión de semanas o meses.
- Optimización de recursos de investigación: permite a los científicos descartar de forma temprana aquellas moléculas que no serán efectivas, concentrando los esfuerzos económicos y humanos en los candidatos con mayores probabilidades de éxito.
- Democratización del conocimiento: al utilizar y enriquecer el ecosistema de datos abiertos, se fomenta un modelo de ciencia colaborativa global que beneficia a toda la comunidad médica.
Resiliencia climática: inteligencia de datos frente a fenómenos meteorológicos extremos
Predecir el tiempo a corto plazo mediante la observación meteorológica convencional es una práctica estandarizada. Sin embargo, anticipar con precisión matemática cómo, cuándo y dónde golpeará un evento climático extremo exige un nivel de computación muy superior. En el escenario actual de cambio climático, la clave para mitigar las pérdidas humanas y los millonarios costes económicos de estas catástrofes reside en transformar los flujos masivos de datos climáticos mundiales en conocimiento predictivo útil.
Con este propósito estratégico nace el proyecto europeo CLINT (Climate Intelligence), una iniciativa de vanguardia financiada por el programa marco de investigación, desarrollo e innovación (I+D+i) Horizonte Europa de la Unión Europea. En el consorcio internacional formado para el proyecto participa el Consejo Superior de Investigaciones Científicas (CSIC), contribuyendo en las líneas de investigación orientadas al desarrollo de algoritmos para la detección, causalidad y atribución de estos fenómenos meteorológicos extremos en escenarios futuros.
El núcleo operativo de CLINT consiste en el desarrollo de un marco avanzado de inteligencia artificial (IA) y machine learning que se nutre directamente de los grandes repositorios de datos abiertos y de acceso público globales. Entre ellos, destacan de manera muy especial los flujos de información paneuropeos procedentes del Servicio de Cambio Climático de Copernicus (C3S), así como, de análisis climáticos históricos y modelos de predicción estacional. Este proyecto es de ayuda para:
- Sistemas de alerta temprana de nueva generación: permite la creación de servicios climáticos operacionales basados en la web, ofreciendo a las confederaciones hidrográficas y a las autoridades de protección civil herramientas para anticipar sequías extremas o riadas con semanas de antelación en la Península Ibérica.
- Gestión eficiente del nexo agua-energía-alimentación: al refinar los modelos predictivos mediante datos abiertos, tanto las empresas del sector energético (hidroeléctrico) como las comunidades de regantes pueden tomar decisiones estratégicas fundamentadas sobre el almacenamiento de agua y la planificación de cultivos.
- Soporte científico a las políticas de adaptación locales: facilita a los planificadores y administraciones públicas datos rigurosos y proyecciones climáticas fiables a escala regional para diseñar planes de urbanismo y contingencia adaptados a los desafíos del calentamiento global.
En resumen, estos tres ejemplos ponen de manifiesto cómo al compartir información de manera accesible y estandarizada, el sector público actúa como un catalizador que multiplica exponencialmente las capacidades del tejido científico y empresarial. Al liberar conocimiento, permitimos que la ciencia avance más rápido, que nuestros recursos naturales se gestionen con responsabilidad y que la sociedad sea más resiliente ante los desafíos del mañana. Impulsar, mantener y defender la cultura del dato abierto es, por tanto, una inversión estratégica, inteligente y colaborativa en nuestro bienestar colectivo futuro.
Abrir los datos públicos es solo el primer paso de un camino mucho más ambicioso. El verdadero éxito de las políticas de datos abiertos no se mide en el número de datasets publicados ni en el volumen de gigabytes descargados, sino en el impacto real que esos datos generan en la sociedad, la economía y la innovación. Es decir, en su reutilización para generar servicios de valor añadido, apoyo a la toma de decisiones estratégicas, etc.
Sin embargo, debido al anonimato que generalmente prima en la descarga de datos, las iniciativas de datos abiertos a menudo desconocen quién está utilizando la información y para qué. Implementar una metodología activa de captación de casos de uso es fundamental para romper esta barrera y conocer el valor del dato.
A continuación, analizamos por qué es crucial realizar esta práctica, qué criterios seguir para seleccionar los casos a considerar y qué información clave debemos recopilar.
¿Por qué es importante captar y publicar ejemplos de reutilización?
La captación y análisis de casos de uso es uno de los mecanismos que los publicadores de datos abiertos tienen para medir el impacto de sus iniciativas open data. En este ámbito, entendemos por caso de uso cualquier modelo de negocio, aplicación, plataforma, servicio, análisis, etc. desarrollado por una entidad (ya sea una empresa, startup, ONG o la propia ciudadanía) que genere un valor tangible mediante la reutilización de datos públicos. Es decir, nos centramos en procesos que transforman datos abstractos en soluciones prácticas que resuelven un problema real, mejoran la toma de decisiones o crean una nueva oportunidad de negocio en el mercado. Las plataformas de datos abiertos suelen contar con una sección donde publican los casos de uso localizados, ya sea mediante catálogos o repositorios donde se recopilan empresas con modelos de negocio basados en datos abiertos, aplicaciones, servicios o historias de éxito a través de artículos o informes concretos. Se trata de un escaparate que beneficia a todos los actores del ecosistema de datos:
- Para las empresas reutilizadoras: funciona como un escaparate institucional gratuito de alta visibilidad. Aparecer en portales oficiales, ya sean internacionales, nacionales, autonómicos o locales, avala su reputación, su capacidad tecnológica y su modelo de negocio ante potenciales clientes e inversores.
- Para la sociedad: actúa como un elemento inspirador que puede desencadenar un "efecto llamada". Mostrar soluciones reales y tangibles fomenta la cultura del dato y estimula a emprendedores, investigadores y desarrolladores a crear nuevos servicios.
- Para la Administración pública: permite conocer qué conjuntos de datos son los más demandados y qué aspectos tienen en común (calidad, formatos, frecuencias de actualización, etc.), lo cual da pistas sobre qué cuestiones se deben impulsar o mejorar en el ejercicio de publicación. Además, el conocimiento sobre el uso de los datos es de gran utilidad para justificar la inversión de recursos en la apertura de datos y demostrar el retorno social de la inversión (SROI).

Figura 1. Beneficios de recopilar casos de uso de datos abiertos. Fuente: elaboración propia - datos.gob.es.
Tres vías para nutrir el repositorio de forma continua
Localizar empresas con modelos de negocio basados en datos abiertos y casos de uso concretos puede parecer una tarea complicada al principio, pero el secreto reside en combinar la automatización con la presencia en los foros adecuados. Para mantener el catálogo actualizado de forma constante, se recomienda activar tres vías complementarias:
- Escucha proactiva: consiste en monitorizar de manera constante las redes sociales, los medios de prensa tecnológica, los listados de empresas de asociaciones del sector (como ASEDIE), así como los ganadores de hackatones y premios de innovación.
- Canales reactivos: en paralelo a la búsqueda proactiva, es necesario mantener un canal de comunicación permanente y visible en el portal web. Lo habitual es contar con un formulario sencillo para que las propias empresas puedan postularse de forma autónoma. Difundir este canal de comunicación a través de los diversos medios de la iniciativa (como redes sociales, boletines periódicos, etc.) es fundamental para garantizar el crecimiento del catálogo de casos de uso.
- Alianzas del ecosistema: otra buena opción es colaborar estrechamente con asociaciones de empresas, universidades, incubadoras de startups y parques tecnológicos, que suelen ser los principales dinamizadores y focos de nacimiento de estas empresas reutilizadoras.
¿Cómo elegir las empresas y casos a categorizar?
Para que la colección de casos de uso sea una herramienta de referencia y mantenga un alto estándar de calidad, es necesario aplicar criterios de filtrado objetivos. Se recomienda priorizar los proyectos bajo las siguientes premisas:
- Uso significativo de datos públicos: el modelo de negocio o solución debe basarse total o parcialmente en la reutilización de conjuntos de datos de origen público (locales, autonómicos, nacionales o europeos), destacando positivamente la hibridación de distintas fuentes de datos (mashup de datos).
- Impacto y relevancia social o económica: se priorizarán aquellas empresas y soluciones que resuelvan problemas reales de la ciudadanía o de los sectores productivos (por ejemplo, optimización de la movilidad urbana, herramientas de diagnóstico de salud, eficiencia energética o transparencia financiera).
- Madurez y viabilidad: deben considerarse empresas que ofrezcan aplicaciones, plataformas o servicios que ya estén operativos en el mercado o, como mínimo, que cuenten con un Producto Mínimo Viable (MVP) testado y funcional. Es recomendable evitar ideas o proyectos en fase puramente conceptual. Estas soluciones iniciales pueden tener su escaparate en los concursos de datos que organizan diversos organismos, como la Junta de Castilla y León o el Cabildo de Tenerife, entre otros.
- Calidad y funcionalidad: las soluciones tecnológicas deben presentar un correcto diseño y funcionamiento técnico, con una experiencia de usuario óptima. El objetivo es garantizar que la reutilización del dato se traduce en un servicio verdaderamente eficiente y robusto para su público objetivo.
- Diversidad sectorial: es importante buscar un equilibrio temático para demostrar que el dato abierto es transversal. El repositorio o catálogo debe reflejar casos en sectores tan diversos como la agricultura, el turismo, la cultura o la educación.
¿Qué información se debe incluir sobre cada caso de uso?
Para que las fichas de los casos de uso sean homogéneas, comparables y útiles para los usuarios del portal, la recogida de información debe estructurarse de forma homogénea. Algunos de los pilares básicos a incluir son:
- Perfil del reutilizador: nombre de la empresa, organismo o persona que la ha puesto en marcha el modelo de negocio o desarrollado la solución. En el caso de las empresas se puede incluir su año de fundación, tamaño, sector de actividad, enlace a su web corporativa, etc.
- Descripción del modelo de negocio / solución: nombre de los productos o servicios, problemas que soluciona, descripción de su funcionalidad, público objetivo al que van dirigida, etc.
- Fuentes de datos abiertos utilizadas: detalle explícito de los datasets consumidos, incluyendo su fuente de procedencia (por ejemplo, "Datos meteorológicos de la Agencia Estatal de Meteorología - AEMET"). Esto ayuda de forma directa a conectar la oferta con la demanda de datos.
- Impacto obtenido: Indicadores cuantitativos o cualitativos del beneficio generado tanto para la empresa como para el reutilizador (ahorro de tiempo, reducción de emisiones, facturación, puestos de trabajo creados, etc.).
Ejemplos de catálogos de casos de uso
Para inspirar el diseño de un repositorio propio o entender cómo se plasman estas metodologías en el entorno real, es útil analizar cómo lo están implementando diferentes administraciones públicas.
En el caso de datos.gob.es, contamos con dos secciones diferenciadas, una para empresas y otra para aplicaciones. Ambos apartados permiten filtrar por sector de actividad o etiquetas, y además incluyen un buscador de texto libre, para que los usuarios puedan encontrar más fácilmente los casos de uso que se corresponden con sus necesidades.
A nivel autonómico y local también son muchos los organismos que han decidido incluir una sección específica en sus plataformas que muestre el potencial de uso de los conjuntos de datos publicados. Es el caso de la Junta de Andalucía, el Gobierno Vasco o el Ayuntamiento de Madrid.
Si miramos a Europa, nuestros vecinos también cuentan con esta funcionalidad en sus plataformas open data. Iniciativas nacionales como las de Francia o Lituania, que ocupan las primeras posiciones de madurez en datos abiertos de acuerdo con el Open Data Maturity 2025, cuentan también con este tipo de escaparates.
Conclusión: pasar del dato publicado al valor compartido
Medir el impacto de los datos abiertos es fundamental para garantizar la sostenibilidad a largo plazo de las iniciativas de datos abiertos. Sin una metodología clara para captar y estructurar las historias de éxito, los portales corren el riesgo de convertirse en meros almacenes de archivos digitales inertes.
Al poner a disposición de la ciudadanía ejemplos reales de la utilidad de los datos abiertos, la Administración no solo justifica la inversión pública en esta materia, sino que devuelve a la sociedad el conocimiento necesario para seguir innovando.
Introducción
En 2018 la compañía Uber creó una herramienta para poder visualizar información geoespacial y poder representar gráficamente miles de puntos de localización, así como trayectorias en un amplio rango temporal. Esta herramienta pasó a ser de dominio público bajo el nombre de KeplerGL y, a día de hoy, está disponible como código abierto para la realización de mapas de forma sencilla.
KeplerGL permite representar información georreferenciada en un interfaz web sin necesidad de utilizar herramientas como ArcGIS o QGIS, o cualquier otro software que necesite de instalación en el ordenador o de complejas actualizaciones.
KeplerGL ofrece una amplia variedad de formas de representación, desde los convencionales puntos o rectángulos a formas de clustering tipo hexagonal binning o mapas de calor, hasta sistemas de mallas más sofisticados como H3.
Toda la gama de elementos gráficos viene con una serie muy completa de opciones de customización, tanto en el tamaño como en el color pasando por los rangos de valores. La propia cartografía de fondo que se utiliza para referenciar la información que queremos visualizar también dispone de todo un catálogo de opciones, entre los que se incluyen fondos claros, oscuros o imágenes satelitales del espectro visible.
En este ejercicio visualizaremos información georreferenciada relacionada con la actividad sísmica de la erupción del volcán de la Palma en torno a septiembre de 2021. Esta información se vio reflejada de formas diversas en varias infografías en medios de comunicación de ámbito estatal, donde se geolocalizaban los epicentros de los terremotos tomando como referencia la isla de La Palma. En la Figura 1 observamos el mismo tipo de mapa, en el cual se superponen círculos a una cartografía de fondo, y donde el radio de los círculos es proporcional a la actividad sísmica. En este ejercicio aprenderemos a hacer mapas similares en contenido y en estilo de forma rápida e intuitiva gracias a KeplerGL.

Figura 1: Mapa mostrado en diversos medios de comunicación con los epicentros de la actividad sísmica previa a la erupción del volcán de la Palma. (a) Antena3, (b) Telemadrid, (c) La Vanguardia y (d) ElDiario.es
Para crear el mapa de actividad sísmica tenemos dos alternativas dependiendo del nivel de detalle y de procesamiento que queramos realizar:
- La primera opción es utilizar los datos que nos bajaremos directamente del portal de datos tal y como están. En el apartado de Datos para el ejercicio se indica el enlace a través del cual podemos acceder a un fichero .CSV con todos los datos que necesitamos para crear el mapa y desarrollar todo el ejercicio sin necesidad de programar ni crear código.
- La segunda opción es procesar y filtrar los datos a través de Python por si queremos familiarizarnos con unas líneas sencillas de código y así seleccionar variables o intervalos temporales de nuestro interés. El acceso al repositorio de Github y el notebook de Google Colab para realizar la lectura, selección de variables y criterios de filtrado para obtener un subconjunto de datos se puede realizar a través de los siguientes enlaces:
Accede al repositorio del laboratorio de datos en GitHub
Accede al notebook de Google Colab
Datos para el ejercicio
En este ejercicio vamos a utilizar datos abiertos del Cabildo Insular de La Palma recopilados durante la actividad sísmica anterior y posterior a la erupción volcánica en La Palma en 2021, y que están disponibles aquí:
https://datos.gob.es/es/catalogo/l03380010-terremotos
En este dataset encontramos el registro de cada uno de los puntos en los que se detectó actividad sísmica durante esos días, así como, entre otras, las siguientes métricas que caracterizan sus propiedades geológicas:
| Metrica | Descripción |
|---|---|
| ID | Identificador asociado a cada evento |
| Datetime | Fecha y hora de cada evento |
| ErrTime | Error asociado al tiempo de registro |
| RMS | Root Mean Square del tiempo de propagación |
| Latitude | Coordenada de latitud en grados |
| Longitude | Coordenada de longitud en grados |
| Az | Grado azimutal |
| Depth | Profundidad del evento en kilómetros |
| ErrDepth | Error asociado a la medida de la profundidad |
| Nsta | Número de estaciones empleadas en medir el evento |
| Gap | Mayor diferencia azimutal entre estaciones adyacentes |
| Author | Organismo responsable de la medición |
| Magnitud | Magnitud sísmica del evento |
| IntensMax | Intensidad máxima del evento |
| Localización | Localización |
| TipoMagnit | Tipo de magnitud |
| XUTM | Coordenada de longitud en el sistema UTM |
| YUTM | Coordenada de latitud en el sistema UTM |
| GlobalID | Identificador del evento |
Para la creación del mapa nos centraremos en la variable asociada a la actividad sísmica: magnitud, así como la longitud y latitud de cada punto y la fecha y la hora de cada evento.
Proceso de desarrollo
1. Acceso a la interfaz web
Como mencionábamos en la introducción, KeplerGL no necesita de instalación en el ordenador, sino que se accede a través de internet a su interfaz. Por lo tanto, lo primero que haremos será abrir un navegador y acceder a la web de KeplerGL a través del dominio:
Una vez en la página de inicio haremos click sobre Get Started para poder subir los datos y empezar a crear nuestro mapa.
Como vemos en la Figura 2, KeplerGL incluye otras opciones, como acceder a datos que estén almacenados en una base de datos o consultar directamente el código Github, especialmene útil para desarrolladores o para integrar KeplerGL dentro de otras aplicaciones. No obstante, en este caso nos centraremos en la opción más sencilla: la carga de nuestros datos directamente en la interfaz.

Figura 2: Pantalla principal de KeplerGL donde se nos ofrece un ejemplo de visualización, así como la opción de empezar el proceso de creación de nuestro mapa.
2. Carga de datos en la página
En la página de carga de datos tenemos el habitual cuadro de diálogo para poder subir nuestros datos. Como vemos en la Figura 3, KeplerGL acepta diferentes formatos:
- CSV: el tradicional formato con valores, generalmente separados por comas.
- JSON: alternativa al CSV con entradas estructuradas en formato de listas y objetos
- GeoJSON: formas geométricas estructuradas como un JSON.
- Arrow: datos estructurados en columnas para la aplicación Apache Arrow.
- Parquet: formato en columnas para grandes cantidades de datos.
En este punto subiremos los datos que hemos obtenido directamente del portal o aquellos filtrados que hemos realizado con el código de Python reflejado en el repositorio de Github y el notebook de GoogleColab. Ambas opciones son válidas para crear los mapas.

Figura 3: Cuadro de dialogo para la carga de archivos, ya sea mediante la selección desde el ordenador o arrastrándolos directamente al navegador.
3. Visualización
KeplerGL nos permite representar la informacion geografica a través de varios elementos, como puntos, rejillas (grids), distribuciones en hexágonos, mapas de calor, así como proyectar todas estas formas en tres dimensiones. En la Figura 4 se detallan los diferentes tipos de visualización posibles que ofrece la herramienta.

Figura 4: Opciones de visualización de la información georreferenciada, que incluye puntos, trayectorias, líneas, cuadros, hexágonos, polígonos, clusters, iconos, mapas de calor, celdas H3, tridimensional, viajes, celdas S2, vectorial y rasters.
A continuación vemos en detalle las características de las formas de visualización que podemos explorar con este conjunto de datos.
3.1 Puntos
Dentro de los puntos podremos parametrizar las siguientes variables: color del punto, borde del punto, magnitud adicional asociada al radio, dimensiones del radio, etiquetas, tooltip con información, interacción entre superposiciones o transparencia.
En la Figura 5 podemos observar la aplicación directa de la representación por puntos. KeplerGL identifica tanto la latitud como la longitud automáticamente para situar sobre el plano cada uno de los puntos. A partir de ahí dibuja un círculo con un radio determinado y asigna un color dependiendo de la intensidad de la magnitud.
En el panel de control de la izquierda se puede controlar tanto el radio de los círculos como la paleta de colores, y aplicar las opciones que más nos gusten para representar la intensidad. El hecho de poder jugar con ambos parámetros nos permitiría añadir otro eje de información a la visualización. En este caso, por simplicidad, dejamos esta representación tal y como está, explorando únicamente el color.

Figura 5: Mapa con los seísmos en la isla de La Palma representados por puntos. El color y el radio es proporcional a la magnitud del seísmo.
3.2 Malla de puntos
De la misma forma que KeplerGL identifica la latitud y la longitud para situar los círculos, también es capaz de promediar los valores de magnitud en celdas. Dichas celdas pueden englobar uno o varios puntos, y KeplerGL asigna en consecuencia un color que representa su valor en base al valor promedio, como vemos en la Figura 6.
Al igual que en el caso de los puntos, el cuadro de diálogo de la izquierda permite cambiar la paleta de colores, aumentar o disminuir el tamaño de las celdas para promediar sobre áreas más extensas o reducidas. Igualmente, la escala de valores sobre la cual se basa la asignación de cada uno de los colores de la escala también está sujeta a su personalización, dependiendo del rango de valores que queramos destacar en la visualización.

Figura 6: Mapa con los seísmos en la isla de La Palma representados por una malla. El color está asociado a la escala de magnitud del seísmo.
3.3 Hexbin
Similar a la malla de celdas, hexbin es un acrónimo de hexagonal binning, es decir, promediado de valores sobre celdas con forma de hexágono. A diferencia de las celdas rectangulares, el empaquetamiento de celdas con forma de hexágono responde a estructuras más compactas, similares a las que pueden observarse en la organización de partículas o átomos en la formación de estructuras de estado sólido.
El hexbin tiene las mismas propiedades que hemos visto en el caso de la malla de celdas, es decir, podemos cambiar el tamaño de la celda hexagonal para que ocupe una mayor superficie en su promedio, podemos cambiar igualmente la paleta de colores y también el rango de valores sobre el cual actúa cada intervalo de color. Un ejemplo del hexagonal binning se encuentra en la Figura 7.

Figura 7: Mapa con los seísmos en la isla de La Palma representados por hexágonos. El color está asociado a la magnitud del seísmo y el hexágono agrega los puntos que cubre su extensión.
3.4 Heatmap
La última de las representaciones que veremos en el plano es el mapa de calor o heatmap, en su concepción en inglés. El heatmap no es más que un diagrama de contorno, donde cada curva de nivel corresponde a un intervalo determinado de valores. En el momento en el que el número de curvas de nivel es muy elevado obtenemos esa sensación de continuo que evoca al mapa de calor.
En este caso, tanto la paleta de color elegida con su número de niveles como el radio sobre el cual se promedian los valores son personalizables a través de las opciones del menú de la izquierda. En la Figura 8 tenemos un ejemplo, donde la densidad de eventos aflora de forma natural con este tipo de representación.

Figura 8: Mapa con los seísmos en la isla de La Palma representados por un mapa de calor. El color está asociado a la densidad de eventos sísmicos.
3.5 Tridimensionalidad
Por último, en la representación geográfica tenemos la posibilidad de utilizar el eje z, o eje vertical, para añadir o redundar información en esa dimensión. Para ello tenemos la opción denominada "Height" dentro del menú de la izquierda. La opción "Height" aplica tanto a círculos como a mallas de celdas, donde afecta al polígono que define cada una de las celdas.
De esta forma, proyectamos en la vertical otra magnitud a nuestra elección, que complementa aquella magnitud ya representada por el color de las celdas o círculos sobre el plano, tal y como ilustra la Figura 9.

Figura 9: Mapa con los seísmos en la isla de La Palma representados por rectángulos. La altura y el color están asociados a la magnitud del seísmo.
3.6 Filtro Temporal
Como se puede ver en la Figura 10, en el menú superior de la izquierda encontramos una herramienta de gran utilidad como es el filtro de tiempo. Cuando, como en este caso, disponemos de información temporal de los eventos, a través del campo de fecha, podemos utilizar ese eje de información para filtrar la información que queremos representar y focalizar sobre aquellos días u horas de mayor interés para nuestro análisis y proyecto de visualización.
La herramienta de filtro permite elegir la magnitud sobre la cual vamos a realizar la selección filtrada. Una vez elegida, se despliega en la parte inferior un histograma en el cual podemos ver a simple vista la distribución del número de puntos que se corresponden con cada fecha. En la Figura 10 podemos ver el histograma en la parte inferior.
Esta herramienta permite no sólo seleccionar un día sino también un intervalo de tiempo. Deslizando ese intervalo de tiempo a lo largo del histograma nos permite, no sólo ver un determinado periodo de interés, sino también realizar una animación que desplace de forma automática ese intervalo de tiempo a lo largo de toda la serie temporal.
Esta característica hace de este filtro una opción muy atractiva para poder crear en segundos lo que se conoce como storytelling, esto es, una animación fácil y muy intuitiva.

Figura 10: Mapas con los seísmos en la isla de la Palma a través de puntos con un filtro temporal aplicado a toda la secuencia de datos en la parte inferior. El intervalo a media altura en el histograma especifica la longitud temporal.
Como ejemplo de animación podemos ver en la Figura 11 un vídeo donde se muestra la herramienta del filtro y cómo la ventana que definimos va recorriendo el histograma. Esta animación se centra en los días anteriores y posteriores a la erupción del volcán el 19 de septiembre de 2021, así como toda la actividad sísmica que siguió a la erupción del volcán hasta entrado 2022.
El acceso al vídeo se puede realizar tanto a través de la miniatura de Youtube de la Figura 11 como a través de este enlace al canal de vídeos de datos.gob.es:
Accede al vídeo de la actividad sísmica en KeplerGL
Figura 11: Secuencia de la actividad sísmica detectada antes, durante y después de la erupción volcánica en la isla de La Palma alrededor de septiembre de 2021.
3.7 Leyenda
Como se ilustra en la Figura 12, en el menú de la derecha tenemos diferentes opciones, tales como disponer la proyección cartográfica en tres dimensiones o, en la esquina inferior derecha, activar la aparición de una leyenda.
La leyenda aparece asociada a la variable que hemos elegido para representar los puntos, en este caso, la magnitud. Los intervalos vienen predefinidos según los intervalos que hayamos definido cuando creamos los intervalos en la escala de color de los puntos.

Figura 12: Leyenda del código de colores y valores utilizado para la representación por puntos, en sintonía con nuestras definiciones de intervalos en la configuración de la representación por puntos.
3.8 Cartografía de fondo
Dependiendo del evento que representemos en el mapa, es conveniente utilizar diferentes tipos de cartografías de fondo para una mejor comprensión del mensaje que se intenta transmitir a través de la visualización. Dependiendo de la audiencia y del contexto, la información que ofrece el mapa de fondo puede resultar más o menos útil. Si, como es en este caso, sólo queremos transmitir información geológica, su relevancia es menor. Si, por el contrario, queremos describir también infraestructuras civiles que se puedan ver afectadas por los terremotos, será necesario incorporar una cartografía base.
De esta forma, KeplerGL ofrece también toda una serie de cartografías de fondo, divididas mayormente en dos familias: las de fondo oscuro y las de fondo claro. Aquí conviene recordar que el ojo humano percibe mejor detalles pequeños sobre un fondo oscuro, e interpreta mejor formas grandes sobre fondo claro. En el caso de los terremotos y la escala a la cual los estamos representando, conviene utilizar un fondo oscuro, ya que seremos capaces de discernir con mejor precisión las distancias y los detalles.
Para seleccionar los diferentes mapas de fondo iremos al icono situado en la parte superior del panel de la izquierda, y en el menú desplegable podremos elegir aquel que más nos convenga. En la Figura 13 se muestran los diferentes tipos de mapas.

Figura 13: Diferentes cartografías de fondo en KeplerGL para la representación de la actividad sísmica en la isla de La Palma en septiembre de 2021: Positron (a), Satellite (b), Voyager (c) y Light (d).
4. Exporta el mapa
Por último, una vez realizado nuestro mapa, podemos exportar el resultado a través del icono de descarga situado en la parte superior del menú de la izquierda. Una vez seleccionado ese icono podemos guardar el mapa como imagen.
Las opciones que se nos ofrecen son: el tamaño mediante el ratio de la imagen respecto a sus dimensiones horizontales y verticales, la resolución ligada a ese ratio que hayamos seleccionado y la opción de incorporar una leyenda en la imagen de salida, tal y como muestra la Figura 14.

Figura 14: Cuadro de diálogo para exportar el mapa como una imagen. Nótese la selección de la casilla de mostrar la leyenda, así como la selección de un formato panorámico con espacio para incorporar más adelante elementos infográficos en otros contenidos
Adicionalmente existe la posibilidad de compartir el mapa con toda su interactividad a través del registro en Dropbox o en Carto, si la intención es la difusión del mapa a través de otros canales más allá de una imagen estática.
Lecciones aprendidas
En este ejercicio hemos aprendido a crear un mapa de forma sencilla e intuitiva con la ayuda de KeplerGL. En concreto hemos aprendido a:
- Subir un fichero a través del interfaz web de KeplerGL.
- Representar de diferentes maneras información georreferenciada.
- Aprender a utilizar un filtro temporal sobre la serie de datos y crear una animación para su difusión como vídeo.
- Añadir una leyenda y manejar los valores que refleja esa leyenda.
- Customizar cada una de las formas de visualización al detalle.
- Exportar el mapa resultante con un cierto grado de customización.
Conclusiones y próximos pasos
El mundo de la cartografía siempre ha necesitado de conocimientos previos sobre proyecciones, sistemas de referencia, formatos de datos georreferenciados y sobre todo la instalación de software específico para crear mapas. Gracias al desarrollo de productos web uno de estos proyectos nos permite crear mapas de forma muy sencilla y puede suponer una herramienta muy potente a la hora de crear mapas sin necesidad de muchos conocimientos previos y con un alto grado de customización.
A partir de este punto se pueden explorar herramientas más sofisticadas que requieren bien de conocimientos generales, bien de conocimientos de programación para poder realizar mapas con Leaflet o con D3.js, dependiendo de la audiencia y de la aplicación en la cual queremos encuadrar el mapa.
Ámbitos de Aplicación
La creación de mapas sencillos tiene muchos campos de aplicación, ya que la cartografía en general resulta ser una de las formas de visualización más claras y populares gracias a su uso desde el origen de la civilización. Los ámbitos propuestos incluyen:
- Redacciones de periodismo: reaccionar a eventos concretos tales como catástrofes naturales o grandes bases de datos de eventos georreferenciados puede ser más fácil gracias a herramientas como KeplerGL.
- Corporaciones y empresas: localización de volúmenes asociados a puntos concretos de la geografía se puede leer de forma intuitiva con la creación de mapas que pueden resumir grandes cantidades de datos.
- Aplicaciones: Integrar mapas dentro de las aplicaciones suele ayudar tanto en las capas tanto de información como en la de interactividad para explorar el rendimiento y resultado de un producto a diferentes escalas.
¿Puede un algoritmo anticipar una inundación o ayudar a un agricultor a regar mejor sus cultivos? La respuesta es sí, y hay ocho equipos en América Latina que ya están demostrándolo.
El cambio climático no es un problema del futuro. Es una realidad que hoy desplaza familias, destruye cosechas, colapsa infraestructuras y pone en riesgo la biodiversidad. Ante este escenario, la tecnología y, en concreto, la combinación de datos abiertos e inteligencia artificial son una herramienta poderosa para construir soluciones más inteligentes, rápidas y eficaces.
En este post queremos presentar ocho proyectos seleccionados en el marco del Open Data and AI Innovation Challenge (Data2AIChallenge), una iniciativa impulsada por Open Data Charter (ODC) con el apoyo de la Fundación Patrick J. McGovern y los gobiernos de Colombia y Uruguay. Estos ocho equipos han sido elegidos entre todas las propuestas recibidas para recibir seis meses de mentoría especializada con la que llevar sus ideas a la realidad.
¿Qué es el Data2AIChallenge?
El Data2AIChallenge es una convocatoria regional centrada en la acción climática que busca apoyar el desarrollo de proyectos que reutilicen datos públicos abiertos y apliquen inteligencia artificial para dar respuesta a desafíos medioambientales concretos en Colombia y Uruguay.
Sus objetivos son:
- Fomentar la participación ciudadana.
- Promover usos éticos e innovadores de la IA y los datos abiertos.
- Visibilizar soluciones con impacto real.
La convocatoria admitió propuestas de estudiantes, desarrolladores, periodistas, activistas e investigadores. Un jurado multidisciplinar (integrado por especialistas en gobierno abierto, cambio climático y transformación digital de instituciones como el Banco de Desarrollo de América Latina, Agencia de Gobierno Electrónico y Sociedad de la Información y del Conocimiento de Uruguay y el Ministerio TIC de Colombia) evaluó las propuestas según criterios de innovación, relevancia y rigor metodológico.
De todos ellos, se seleccionaron ocho proyectos que demuestran que los datos abiertos pueden ser palanca de cambio en el sector medioambiental.
Los ocho proyectos seleccionados
1. Alerta Yí: alertas tempranas ante inundaciones con ciencia ciudadana
La cuenca del río Yí, en Uruguay, es una zona recurrentemente afectada por inundaciones. El equipo de Alerta Yí propone un sistema participativo de alerta temprana que integra datos abiertos, modelos de inteligencia artificial y ciencia ciudadana. El objetivo es tanto anticipar el riesgo como construir resiliencia comunitaria, es decir, que las propias comunidades sean parte activa del sistema de vigilancia y respuesta.
Este tipo de enfoque híbrido entre tecnología y participación ciudadana es especialmente valioso en contextos donde los recursos institucionales son limitados y el conocimiento local resulta imprescindible.
2. Minga Abierta: cartografía comunitaria para prevenir riesgos en Medellín
Las laderas de Medellín (Colombia) concentran barrios populares con alta exposición a deslizamientos e inundaciones. El Colectivo Pluriverso Narrativo, responsable del proyecto Minga Abierta, combina cartografía comunitaria, ciencia ciudadana y modelos predictivos para anticipar riesgos climáticos.
El nombre del proyecto no es casual: "minga" es una palabra de origen quechua que hace referencia al trabajo colectivo. La propuesta entiende que los datos sin comunidad no bastan, y que la prevención de riesgos es también un acto de organización social.
3. AgroClima Platform: prescripciones de riego inteligente para la agricultura familiar
El estrés hídrico amenaza directamente la seguridad alimentaria de pequeños productores en el Municipio del Magdalena (Colombia). AgroClima Platform utiliza inteligencia artificial y datos satelitales de acceso abierto para generar prescripciones de riego precisas y adaptadas a cada parcela.
Se trata de un ejemplo muy claro del potencial democratizador de los datos abiertos. Porque la información climática que antes solo estaba al alcance de grandes explotaciones agroindustriales puede ahora ponerse al servicio de los agricultores familiares que más necesitan adaptarse al cambio climático.
4. Amenaza Roboto: IA para abrir los expedientes ambientales
¿Cuántos procesos de evaluación de impacto ambiental quedan enterrados en documentos densos e inaccesibles? Amenaza Roboto aplica IA generativa para transformar esos expedientes en datos abiertos auditables, comprensibles y reutilizables por cualquier ciudadano.
Este proyecto defiende una premisa fundamental: la transparencia no es solo publicar datos, sino hacer que esos datos sean comprensibles y accionables. Cuando la ciudadanía puede entender lo que dicen los expedientes ambientales, la rendición de cuentas se vuelve real. Cabe destacar que Amenaza Roboto ya tiene una trayectoria previa: fue equipo ganador en un desafío anterior organizado por la propia ODC en Uruguay en 2022.
5. Luz Urbana: mapas de contaminación lumínica para proteger la biodiversidad
La contaminación lumínica es una de las formas de contaminación menos evidentes, pero con efectos documentados sobre la biodiversidad, los ciclos circadianos de animales y plantas, y también sobre la salud humana. Luz Urbana utiliza big data e inteligencia artificial para cruzar imágenes satelitales con datos urbanos y generar mapas de contaminación lumínica en Uruguay.
El proyecto representa un uso innovador de datos geoespaciales abiertos para abordar un problema ambiental que habitualmente queda fuera de las agendas políticas locales.
6. Observatorio de Reciclables: decisiones climáticas a partir de datos de residuos
¿Cómo comparar el impacto climático de distintas políticas de gestión de residuos? El proyecto del Observatorio de Reciclables, impulsado por CEMPRE Uruguay, responde a estas preguntas aplicando datos abiertos, metodología IPCC e inteligencia artificial para medir el impacto climático de las decisiones de reciclaje a escala territorial.
El valor de esta propuesta está en transformar datos dispersos sobre residuos en indicadores comparables y accionables que puedan orientar políticas públicas basadas en evidencia.
7. Guardianes de la Ladera: alertas climáticas accionables contra deslizamientos
Colombia es uno de los países del mundo con mayor incidencia de deslizamientos de tierra. Guardianes de la Ladera transforma datos geoespaciales abiertos en alertas climáticas locales, utilizando inteligencia artificial para anticipar deslizamientos con evidencia trazable y comunicarlos de forma que puedan orientar decisiones concretas a nivel comunitario.
La propuesta pone el foco en un problema clásico de los sistemas de alerta: la brecha entre los pronósticos generales y las decisiones locales.
8. BIO-IA: periodismo de datos para defender el Amazonas
El piedemonte amazónico en Caquetá (Colombia) alberga una riqueza de especies endémicas amenazada por la deforestación y la pérdida de hábitat. BIO-AI combina inteligencia artificial y periodismo de datos para construir experiencias audiovisuales orientadas a la conservación. La propuesta entiende que para que los datos científicos lleguen a la ciudadanía hay que convertirlos en relatos que la gente pueda comprender y que movilicen voluntades.
En un contexto donde la Amazonía sigue siendo objeto de disputas políticas y presiones económicas, proyectos como este demuestran que el conocimiento, cuando se comunica bien, puede ser una herramienta de defensa territorial.
¿Qué nos enseñan estos proyectos?
Más allá de sus particularidades, los ocho proyectos seleccionados comparten una serie de rasgos que merece la pena destacar:
- Los datos abiertos son infraestructura para la acción climática. Sin acceso libre a datos satelitales, climáticos, geoespaciales o de residuos, ninguno de estos proyectos sería posible. La apertura de datos públicos permite que la innovación ciudadana florezca.
- La IA es una herramienta, no una solución mágica. Todos estos equipos utilizan la inteligencia artificial al servicio de un problema concreto, con datos reales y objetivos claros. Pero la IA no es la idea en sí, sino una herramienta para obtener mejores resultados.
- La participación ciudadana amplifica el impacto. Varios de estos proyectos integran ciencia ciudadana y cartografía comunitaria. Esto no solo mejora la calidad de los datos; también genera apropiación local de las soluciones.
- Los datos abiertos reducen brechas. Agricultores familiares, comunidades de ladera, habitantes de zonas inundables: los proyectos seleccionados ponen las herramientas más sofisticadas al servicio de quienes más las necesitan.
Conclusión: cuando los datos abiertos se convierten en acción
Los ocho proyectos del Data2AIChallenge son una demostración práctica de que la apertura de datos públicos, combinada con inteligencia artificial y compromiso ciudadano, puede generar soluciones concretas a problemas climáticos reales. Desde las laderas de Medellín hasta el piedemonte amazónico, desde los campos del Magdalena hasta las noches iluminadas de Uruguay, estas iniciativas muestran que el cambio no siempre viene de grandes instituciones o presupuestos millonarios: a veces nace de equipos pequeños, con buenas preguntas, acceso a datos abiertos y voluntad de transformar su entorno.
El reto ahora es seguir ampliando la disponibilidad, calidad y usabilidad de los datos climáticos públicos, y acompañar a quienes quieren utilizarlos para construir un mundo más resiliente. Porque los datos abiertos son el punto de partida de todo lo que está por venir.
Introducción
En los últimos años hemos visto cómo la inteligencia artificial generativa ha dejado de ser una curiosidad técnica para convertirse en una herramienta cotidiana en el flujo de trabajo de los profesionales del dato. Sin embargo, sigue existiendo una pregunta importante: ¿cómo se traduce esta tecnología en un proceso real de análisis de datos abiertos?, ¿Qué cambia en la práctica cuando un analista trabaja "junto a" un modelo de lenguaje en lugar de hacerlo en solitario?
Este post documenta un ejercicio práctico realizado con datos publicados en el portal datos.gob.es: el análisis de precios de las más de 11.000 estaciones de servicio en España. A diferencia de otros ejercicios publicados en este espacio, el análisis no se ha realizado de forma manual línea por línea, sino que se ha llevado a cabo en un entorno agéntico: una interfaz conversacional apoyada en un modelo grande de lenguaje (LLM) y un sistema de codificación asistido por inteligencia artificial. En la práctica, esto significa que en lugar de escribir el código de análisis nosotros mismos, le describimos al sistema en lenguaje natural qué queremos obtener, y este lo implementa.
El objetivo de este post es doble. Por un lado, explicar el análisis propiamente dicho: qué preguntas nos hacemos sobre los datos, qué problemas técnicos encontramos y qué conclusiones extraemos. Por otro, reflexionar sobre el método: cómo se estructura un proceso de análisis cuando trabajamos con un copiloto de IA, qué patrones de interacción funcionan mejor y dónde están los límites de la asistencia automatizada.
Nota metodológica: para la realización de este ejercicio hemos empleado una metodología Spec Driven Development (SDD), que guía a la IA a través de un proceso estructurado con el objetivo de evitar que la conversación pierda el foco del ejercicio. La explicación detallada de esta metodología queda fuera del alcance del presente post, pero el lector encontrará en el repositorio especificaciones, planes técnicos y checklists que la documentan.
Accede al repositorio del laboratorio de datos en GitHub
Accede al notebook de Google Colab
El proceso: un flujo clásico, asistido por IA
Antes de entrar en cada fase, conviene describir el esquema general del trabajo. El análisis sigue cinco etapas habituales en ciencia de datos —ingesta, limpieza, exploración, ingeniería de variables y análisis de impacto— pero introduciendo en cada una de ellas un patrón conversacional con la IA.
Ese patrón puede resumirse en cinco pasos:
- Describir el problema en lenguaje natural.
- Proponer una primera solución (lo hace la IA).
- Cuestionar los supuestos de esa propuesta (lo hace el analista humano).
- Refinar la solución hasta que sea robusta.
- Documentar el patrón para reutilizarlo en futuros proyectos.
A continuación, veremos, fase por fase, cómo se materializa este patrón en el análisis del precio de los combustibles. Cada apartado comienza explicando el reto conceptual, continúa describiendo cómo abordamos la resolución con la asistencia de la IA, y termina mostrando el código resultante y las lecciones aprendidas.
Fase 1: ingesta robusta de datos desde una API pública
El reto: API públicas que no siempre responden como se espera
Aviso para el lector: esta fase entra en cierto detalle técnico sobre integración de API, errores SSL y estrategias de respaldo. Si tu perfil es más analítico que de desarrollo, puedes hojear el bloque de código y centrarte en los apartados El enfoque y Reflexión, donde la idea de fondo —cómo diseñar una ingesta tolerante a fallos— se explica sin entrar en detalles de implementación.
La descarga de datos desde la API del Ministerio para la Transición Ecológica es conceptualmente sencilla: una petición HTTP GET a un endpoint conocido debería devolver un fichero JSON con aproximadamente 11.000 estaciones de servicio. En la práctica, sin embargo, las API públicas presentan dificultades habituales que cualquier analista termina encontrando antes o después:
- Certificados SSL caducados o mal configurados, que provocan errores del tipo SSLError.
- Bloqueo de IP procedentes de servidores en la nube (Google Colab, AWS, etc.), interpretadas como tráfico sospechoso.
- Servidores inestables, con tiempos de respuesta variables y timeouts esporádicos.
- Inconsistencias en la documentación, por ejemplo, cuando se describe una respuesta JSON pero el servidor devuelve XML.
La pregunta clave es: ¿cómo diseñamos un sistema de ingesta que tolere estos problemas en lugar de fallar al primer obstáculo?
El enfoque: una arquitectura de respaldos escalonados
En ingeniería de software, los sistemas críticos no dependen de un único componente. Cuando un canal falla, existe otro de respaldo (lo que en inglés se denomina fallback). Aplicar esta lógica a la ingesta de datos es especialmente útil cuando trabajamos con fuentes públicas sobre las que no tenemos control.
Para este ejercicio, diseñamos una estrategia de triple respaldo:
- Primer intento — requests con configuración permisiva: realizamos la petición HTTP con la librería estándar de Python, pero configurando un User-Agent que simula un navegador real y desactivando la verificación de SSL. Esto resuelve buena parte de los problemas de certificados.
- Segundo intento — curl desde la shell: si requests falla, invocamos curl como subproceso. La razón es que curl utiliza una pila TLS distinta a la de Python y no envía los mismos certificados, lo que permite sortear ciertos tipos de bloqueo.
- Tercer intento — datos de demostración: si todo lo anterior falla, generamos un conjunto sintético de 11.000 estaciones de servicio con distribuciones realistas. Esto garantiza que el notebook siempre sea ejecutable en un contexto educativo, aunque la API esté caída.
El razonamiento de fondo es sencillo: cada método sortea un tipo distinto de fallo de red, y su combinación proporciona robustez. A continuación, mostramos el código que implementa esta arquitectura.
El código resultante
El siguiente fragmento ilustra cómo se materializan los tres niveles de respaldo en una única función. Las cláusulas try/except permiten detectar el fallo de cada método y pasar automáticamente al siguiente:
def descargar_datos_api(url):
"""
Descarga datos con triple respaldo:
1. requests con verify=False (sortea problemas de SSL)
2. curl -k (pila TLS alternativa)
3. datos sintéticos (garantía de ejecución)
"""
# Intento 1: requests con cabeceras de navegador
try:
sesion = requests.Session()
sesion.headers.update({
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
})
response = sesion.get(url, timeout=45, verify=False)
return response.json()
except Exception as e_requests:
print(f"[Respaldo 1] requests ha fallado: {e_requests}")
# Intento 2: curl como subproceso
try:
resultado = subprocess.run(
["curl", "-s", "-k", url],
capture_output=True, timeout=45, text=True
)
return json.loads(resultado.stdout)
except Exception as e_curl:
print(f"[Respaldo 2] curl ha fallado: {e_curl}")
# Intento 3: datos sintéticos de demostración
print("[Respaldo 3] Utilizando datos de demostración")
return generar_datos_demo_gasolineras(11000)
Reflexión: dónde aporta valor la IA en esta fase
La iteración con la IA no produjo el código anterior de un solo intento. El proceso real fue más interesante: planteamos el problema ("la API a veces rechaza las peticiones, necesito respaldos"), la IA propuso una solución inicial, y el avance vino de cuestionar esa propuesta. La pregunta "¿por qué curl debería funcionar si requests ya ha fallado?" obligó al modelo a explicar las diferencias entre ambas pilas TLS, lo que a su vez nos permitió validar que la solución tenía fundamento técnico real, no era simplemente "probar lo mismo dos veces".
Una estimación razonable: resolver este problema mediante prueba y error puro habría llevado entre dos y tres horas de depuración. Con la iteración asistida, lo abordamos en aproximadamente treinta minutos.
Fase 2: limpieza con conocimiento de dominio
El reto: los datos reales nunca son perfectos
Una vez descargados los datos, comienza el trabajo menos visible pero más decisivo de cualquier análisis: la limpieza y preparación. La calidad del resultado final depende en gran medida del cuidado puesto en esta etapa. En el caso de los combustibles, las inconsistencias más habituales son:
- Variantes textuales no normalizadas: la marca "MOEVE" puede aparecer como "MOEVE", "Moeve" o "moeve" en distintos registros. Para una persona son obviamente la misma marca, pero en una agregación por groupby aparecen como tres categorías independientes.
- Coordenadas geográficas incorrectas: puntos situados fuera del territorio español (islas remotas, fragmentos de Marruecos, errores de captura).
- Separadores decimales inconsistentes: precios codificados como "1,349" con coma, que requieren conversión explícita antes de poder operar con ellos.
- Conversiones que introducen valores nulos: pd.to_numeric(..., errors='coerce') es muy útil, pero genera NaN silenciosos que pueden romper análisis posteriores.
La cuestión central de esta fase es: ¿cómo traducimos el conocimiento humano sobre el dominio en reglas de código?
El enfoque: validación organizada en capas
En lugar de limpiar "según va apareciendo", conviene organizar las reglas de validación en capas, cada una con una responsabilidad clara:
|
Capa |
Responsabilidad |
Ejemplo |
|---|---|---|
| Tipos | Conversión y coerción a tipos adecuados | Precio como float, fecha como datetime |
| Rangos | Valores dentro de límites razonables | Precio entre 0,5€ y 3,0€ por litro |
| Semántica | Coherencia con el dominio | Coordenadas dentro de España, marcas normalizadas |
Figura 1. Tabla de validación organizada en capas. Fuente: elaboración propia - datos.gob.es
La pregunta que cada capa debe responder es siempre la misma: ¿tiene sentido este valor en el contexto de las estaciones de servicio españolas? La novedad respecto a un flujo manual es que aquí describimos las reglas a la IA en lenguaje natural y dejamos que ella las traduzca a código pandas. Nosotros conservamos la responsabilidad de definir qué es válido y qué no.
El código resultante
El siguiente bloque implementa las tres capas de validación de forma secuencial. Conviene destacar que la lista de aliases de marcas (CEPSA → MOEVE) refleja conocimiento de negocio específico —el rebranding de CEPSA a MOEVE en 2023— que la IA no podría inferir por sí sola; es información que aporta el analista. Este es un ejemplo muy claro de aportación del conocimiento humano difícilmente alcanzable por la IA:
def validar_y_limpiar_carburantes(df):
# Capa 1: normalización de tipos
df['precio'] = (
df['precio'].astype(str)
.str.replace(',', '.')
.astype(float)
)
df['marca'] = df['marca'].str.upper().str.strip()
# Capa 2: validación de rangos
df = df[(df['precio'] >= 0.5) & (df['precio'] <= 3.0)]
df = df[
(df['latitud'] >= 27.5) & (df['latitud'] <= 43.8) &
(df['longitud'] >= -18.2) & (df['longitud'] <= 4.4)
]
# Capa 3: coherencia semántica (conocimiento de negocio)
aliases = {'CEPSA': 'MOEVE'} # Rebranding 2023
df['marca'] = df['marca'].map(lambda x: aliases.get(x, x))
# Auditoría de nulos
nulos = df[['precio', 'latitud', 'longitud', 'marca']].isnull().sum()
if nulos.sum() > 0:
print(f"Atención: se han detectado valores nulos:\n{nulos}")
return df.dropna(subset=['precio', 'latitud', 'longitud'])Reflexión: el reparto del trabajo entre la IA y el analista
Esta fase es especialmente reveladora del tipo de colaboración que la IA habilita. Las reglas más técnicas (conversión de tipos, detección de nulos, normalización de mayúsculas) son prácticamente automáticas: basta con describir el problema y el modelo propone una implementación correcta. En cambio, las reglas que dependen del dominio (que las islas Canarias tienen un sobrecoste logístico del 5%, que CEPSA y MOEVE son la misma marca tras la fusión, que un precio inferior a 0,5€ es probablemente un error de carga) deben ser especificadas por el analista humano.
La lección aprendida es importante: la calidad de la limpieza depende directamente del conocimiento de dominio que aporta el analista. La IA acelera la implementación, pero no inventa contexto. Por eso el patrón reutilizable es el mismo en cualquier proyecto: describe tu dominio con detalle, deja que la IA escriba las validaciones, y verifica tú mismo que los resultados son coherentes.
Fase 3: análisis exploratorio visual (EDA)
El reto: convertir números en intuiciones
Con 11.000 registros limpios ya en memoria, el siguiente paso es responder a las preguntas de negocio que motivaron el análisis. En este caso, formulamos cuatro preguntas concretas:
- ¿Qué provincias tienen los combustibles más caros?
- ¿Existe relación entre la ubicación geográfica (latitud y longitud) y el precio?
- ¿Hay diferencias significativas entre marcas?
- ¿Cómo se distribuyen los precios (media, mediana, valores atípicos)?
El reto técnico no es complejo —pandas y matplotlib resuelven cualquiera de estas preguntas— pero sí lo es el reto metodológico: elegir la visualización adecuada para cada pregunta. Una gráfica mal elegida puede ocultar tanto como una agregación incorrecta.
El enfoque: cada pregunta determina su gráfico
En análisis exploratorio existe una correspondencia natural entre el tipo de pregunta y la visualización más apropiada. Conviene tenerla presente antes de escribir una sola línea de código:
|
Pregunta |
Visualización adecuada |
Razón |
|---|---|---|
| ¿Ranking? | Gráfico de barras ordenado | Permite comparar valores ordenados |
| ¿Relación espacial? | Scatter con escala de color | Muestra correlación en dos dimensiones |
| ¿Distribución y atípicos? | Diagrama de caja (box plot) | Revela mediana, cuartiles y outliers |
| ¿Diferencias entre grupos? | Box plot o violin plot | Compara distribuciones simultáneamente |
Figura 2. Tabla de correspondencia natural entre el tipo de pregunta y la visualización más adecuada. Fuente: elaboración propia - datos.gob.es
El objetivo no es producir gráficos vistosos, sino gráficos que respondan a preguntas concretas. Esta es una idea aparentemente obvia, pero conviene recordarla: en la práctica, es frecuente que se generen visualizaciones por inercia, sin tener claro qué se quiere mostrar.
El código resultante
A continuación, mostramos uno de los gráficos como ejemplo, el ranking de precios por provincia. La estructura es siempre la misma: declaración del gráfico, configuración estética, y un breve comentario interpretando el resultado:
# Pregunta 1: ¿qué provincias son las más caras?
top_provincias = (
df.groupby('provincia')['precio']
.mean()
.sort_values(ascending=False)
.head(12)
)
fig, ax = plt.subplots(figsize=(12, 6))
top_provincias.plot(kind='bar', ax=ax, color='steelblue')
ax.set_title('Precio medio del combustible por provincia (Top 12)',
fontsize=14, fontweight='bold')
ax.set_ylabel('Precio (€/litro)')
ax.set_xlabel('Provincia')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()
# Hallazgo: las tres provincias más caras son insulares o costeras
# (Baleares, Canarias, Tarragona). Hipótesis: el coste logístico
# y la lejanía a los hubs de distribución elevan el precio.En el caso del scatter geográfico, aplicamos una segmentación adicional —península, Baleares y Canarias— para visualizar simultáneamente la ubicación y la insularidad. Esta segmentación reveló un patrón que ninguna agregación numérica había mostrado claramente: las estaciones insulares tienen precios sistemáticamente superiores, hallazgo probablemente atribuible a costes de transporte marítimo. El insight no emergió de un cálculo, sino de la visualización.
Reflexión: el punto ciego de la IA
Esta fase pone de manifiesto una limitación importante del modelo: la IA no ve el resultado gráfico. Puede sugerir el tipo de visualización adecuado, escribir el código correctamente y proponer una paleta de colores, pero no puede juzgar si la escala del eje es apropiada, si la densidad de puntos satura el gráfico o si los rótulos se solapan. Todas estas validaciones siguen siendo responsabilidad humana.
En la práctica, esto significa que la fase de EDA es la que requiere más iteración entre persona y máquina: la IA escribe, el analista observa, identifica un problema visual ("este eje no muestra bien la variación"), y describe la corrección ("ajusta el eje Y a [precio_min0.95, precio_max1.05]"). El patrón reutilizable es claro: una pregunta clara, un tipo de gráfico adecuado y una validación visual humana.
Fase 4: ingeniería de variables (feature engineering)
El reto: capturar variación con nuevas variables
El análisis exploratorio identifica patrones, pero rara vez los explica. Para entender qué factores influyen en el precio es necesario construir nuevas variables —features— que capturen hipótesis específicas sobre la dinámica del mercado. En este ejercicio formulamos tres hipótesis:
- Temporal: ¿Influye el día de la semana en el precio? ¿Es más caro repostar en fin de semana?
- Geográfica: ¿Influye la distancia a un hub económico (en este caso, Madrid)?
- Regional: ¿Existen diferencias estructurales entre el norte, el centro y el sur de España?
La ingeniería de variables consiste precisamente en traducir esas hipótesis en columnas calculadas que el resto del análisis pueda utilizar.
El enfoque: cada variable, una historia testable
Una buena variable debe contar una historia clara. No basta con calcular un número: hay que poder explicar qué pregunta intenta responder. En nuestro caso:
- es_fin_semana (0/1): ¿cambia el precio el sábado y el domingo?
- distancia_a_madrid (km): ¿se encarece el combustible al alejarse del hub logístico?
- region (norte/centro/sur): ¿hay brechas estructurales entre regiones?
Cada una de estas tres variables es, en realidad, una pregunta empírica disfrazada de columna. Si la variable no explica nada cuando la cruzamos con el precio, simplemente la descartamos.
El código resultante
Implementamos las tres variables en una única función. La más interesante técnicamente es la distancia a Madrid, que requiere la fórmula de Haversine para calcular distancias sobre la superficie terrestre teniendo en cuenta la curvatura del planeta:
from math import radians, cos, sin, asin, sqrt
def crear_features_carburantes(df):
# Variable temporal
df['es_fin_semana'] = (
df['fecha'].dt.dayofweek.isin([5, 6]).astype(int)
)
# Variable geográfica: distancia haversine a Madrid
madrid_lat, madrid_lon = 40.4168, -3.7038
def haversine(lat, lon):
lat, lon = radians(lat), radians(lon)
m_lat, m_lon = radians(madrid_lat), radians(madrid_lon)
dlat = lat - m_lat
dlon = lon - m_lon
a = sin(dlat/2)**2 + cos(m_lat) * cos(lat) * sin(dlon/2)**2
return 6371 * 2 * asin(sqrt(a)) # radio de la Tierra en km
df['distancia_a_madrid'] = df.apply(
lambda r: haversine(r['latitud'], r['longitud']), axis=1
)
# Variable regional
def region(lat):
if lat >= 42: return 'Norte'
if lat >= 39: return 'Centro'
return 'Sur'
df['region'] = df['latitud'].apply(region)
return dfReflexión: proponer variables con argumento, no solo con código
En esta fase la IA aporta un valor especialmente alto, pero no en lo que se podría pensar a primera vista. Lo verdaderamente útil no es que escriba la fórmula de Haversine —cualquier referencia técnica la contiene—, sino que proponga variables candidatas con argumentación detrás. Cuando le preguntamos "¿qué features podrían capturar la variación de precios?", la propuesta vino acompañada de razonamiento: Madrid se sugirió como hub porque es el mercado más eficiente y estable, y por tanto las desviaciones respecto a su precio funcionan como aproximación a la fricción logística.
Ese razonamiento es lo valioso: no la fórmula, sino la justificación. Trial-and-error puro habría llevado tres o cuatro horas explorando variables hasta encontrar las útiles; con la iteración asistida, llegamos a un conjunto razonado en aproximadamente cuarenta y cinco minutos.
Fase 5: análisis de impacto de las variables
El reto: cuantificar la contribución real
Construir variables es una cosa; demostrar que realmente explican algo es otra. En esta última fase del análisis evaluamos el impacto efectivo de cada una de las tres variables creadas, combinando dos enfoques: una medida numérica (correlación o diferencia de medias) y una representación visual que permita interpretar el resultado de un vistazo.
El enfoque: dos enfoques complementarios
Para cada variable, calculamos:
- Una medida numérica que cuantifica el efecto (correlación de Pearson para variables continuas; diferencia de medias para categóricas).
- Una representación visual que permite interpretar la magnitud del efecto y detectar relaciones no lineales.
El cruce de ambos enfoques es lo que da fiabilidad al resultado. Una correlación alta sin una visualización que la respalde puede ser engañosa (por ejemplo, si está dominada por outliers); una visualización sugestiva sin métrica puede llevar a sobreinterpretación.
El código resultante
Como ejemplo, mostramos el análisis de impacto de la distancia a Madrid. Primero calculamos la correlación, después segmentamos en cuartiles para hacer la relación visualmente interpretable:
# Medida numérica
correlacion = df['distancia_a_madrid'].corr(df['precio'])
print(f"Correlación (distancia a Madrid → precio): {correlacion:.3f}")
# Representación visual por cuartiles de distancia
df['cuartil_distancia'] = pd.qcut(
df['distancia_a_madrid'], q=4,
labels=['Q1 (cercano)', 'Q2', 'Q3', 'Q4 (lejano)']
)
precio_por_cuartil = df.groupby('cuartil_distancia')['precio'].mean()
fig, ax = plt.subplots(figsize=(10, 5))
precio_por_cuartil.plot(kind='bar', ax=ax, color='#2ecc71')
ax.set_title('Impacto geográfico: precio medio por cuartiles de distancia a Madrid')
ax.set_ylabel('Precio medio (€/litro)')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()El patrón emergente del análisis completo —comparando las tres variables— es que la distancia a Madrid es la más explicativa, seguida por la región, y por último por el efecto fin de semana, que en nuestro periodo de estudio resulta ser marginal. En conjunto, las tres variables explican aproximadamente el 60-70% de la variación de precios; el resto depende de factores como la marca específica, el tipo de estación (autopista, urbana, rural) y eventos puntuales del mercado.
Reflexión: no todas las variables impactan por igual
Una de las virtudes de este análisis estructurado es que revela cuáles de nuestras hipótesis iniciales se sostienen y cuáles no. En este caso, la hipótesis temporal (fin de semana) resultó ser mucho más débil de lo esperado, mientras que la hipótesis geográfica se confirmó con claridad. Sin este paso de cuantificación, habríamos podido seguir asumiendo que todas las variables aportan información valiosa.
Síntesis: las lecciones técnicas que nos llevamos
A lo largo de las cinco fases anteriores hemos ido acumulando soluciones a problemas concretos. La siguiente tabla resume las más reutilizables; cada una está documentada con mayor detalle en el directorio prompts del repositorio:
|
Fase |
Problema |
Solución |
Reutilizable en |
|---|---|---|---|
| Ingesta | Bloqueos SSL o de IP en APIs | Triple respaldo: request -> curl -> demo | Cualquier API pública |
| Ingesta | Documentación inconsistente | Validación de estructura + manejo de errores | APIs gubernamentales |
| Limpieza | Variantes textuales en marcas | .st.upper().str.trip() antes de agrupar | Cualquier agregación categórica |
| Limpieza | Coordenadas fuera de España | Bounding box [27.5-43.8, -18.2- 4.4] | Análisis geográficos en España |
| Limpieza | Rangos comprimidos en gráficos | ax.set_xlim(min*0.95, max*1.05) | Visualización con rangos estrechos |
| EDA | Elección de tipo de gráfico | Mapeo explícito pregunta -> gráfico | Cualquier EDA |
| Features | Variables sin justificación | Cada feature responde una hipótesis testable | Feature engineering en general |
| Análisis | Impacto no cuantificado | Métrica + visualización en paralelo | Cualquier análisis de impacto |
Figura 3. Tabla resumen de soluciones a problemas concretos. Fuente: elaboración propia - datos.gob.es
Reflexión final: qué hace que la IA sea un buen copiloto
Al cabo del ejercicio, podemos extraer algunas conclusiones generales sobre el uso de IA generativa como apoyo al análisis de datos. Las dividimos en dos planos: dónde aporta valor, y dónde no debe sustituir al criterio humano.
Donde la IA aporta valor de forma clara:
- Iteración rápida. El ciclo "describir problema – obtener solución – validar" se reduce de horas a minutos. Esto cambia cualitativamente la dinámica de trabajo: nos permite probar ideas que de otro modo descartaríamos por coste.
- Pensamiento lateral. La IA propone alternativas que un analista podría pasar por alto, como la idea de usar curl cuando requests falla. No siempre acierta, pero sí amplía el espacio de soluciones consideradas.
- Documentación articulada. La IA es especialmente buena explicando el porqué de una decisión técnica, no solo el qué. Esto facilita que el código resultante sea legible para personas no técnicas.
Donde el criterio humano sigue siendo imprescindible:
- Conocimiento de dominio. La IA no sabe que CEPSA y MOEVE son la misma marca, ni que Canarias tiene un sobrecoste logístico estructural. Esa información debe aportarla el analista.
- Validación estadística. La IA puede sugerir modelos, pero la validez estadística del análisis es responsabilidad humana.
- Lectura de gráficos. La IA no ve sus propias visualizaciones. El juicio sobre si una gráfica es legible, comunica lo que se pretende y respeta buenas prácticas visuales sigue siendo humano.
- Decisiones de negocio. Qué preguntar a los datos, qué considerar relevante, cómo comunicar los resultados a la organización: son decisiones que la IA puede apoyar, pero no sustituir.
En síntesis, la idea que resume mejor nuestra experiencia es la siguiente: la IA generativa funciona mejor cuando piensa con nosotros que cuando piensa por nosotros. El ejercicio que aquí presentamos no fue "pedir a Claude que hiciera el análisis", sino mantener una conversación estructurada en la que la IA proponía, el analista cuestionaba, la IA refinaba y el analista validaba. El resultado de esa conversación es un análisis más robusto, mejor documentado y más reutilizable que el que habríamos producido en solitario.
Cómo aprovechar este repositorio
El código completo, los prompts y la documentación están disponibles en el repositorio público del proyecto. Distintos perfiles pueden aprovecharlo de formas distintas:
- Si estudias análisis de datos: abre directamente el notebook en Google Colab y recorre cada celda en orden. Para cada visualización, consulta el prompt correspondiente en prompts/visualizacion/.
- Si trabajas como científico de datos: revisa specs/001-carburantes-ia/plan.md, donde están documentadas las decisiones arquitectónicas y las lecciones aprendidas. Los snippets de prompts/ son reutilizables tal cual en otros proyectos.
- Si te interesa la metodología de prompt engineering: el patrón "describe – cuestiona – refina – valida" está documentado caso por caso a lo largo de los prompts. Es replicable en cualquier dominio: finanzas, salud, marketing o cualquier análisis de datos abiertos.
Conclusión
El ejercicio que hemos presentado muestra que la IA generativa, utilizada con criterio, puede acelerar de manera notable el análisis de datos abiertos sin sacrificar rigor metodológico. Las cinco fases recorridas —ingesta, limpieza, exploración, ingeniería de variables y análisis de impacto— siguen siendo las mismas que en un flujo tradicional, pero la dinámica de trabajo cambia: pasamos de escribir código a describir intenciones y validar resultados.
Contenido elaborado por Alejandro Alija, experto en Transformación Digital e Innovación. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor
Uno de los mayores desafíos del ecosistema de datos abiertos es su difusión y el reconocimiento de su valor por parte de la sociedad. Conocer su existencia y comprender para qué sirven amplifica su impacto. En un entorno en el que los algoritmos están cada vez más presentes en la vida cotidiana, la alfabetización en datos se ha convertido en una habilidad cívica necesaria. Los derechos civiles se expresan cada vez más en clave digital y, en este contexto, los derechos digitales emergen como marco de referencia esencial para garantizar que la transformación tecnológica no deja a nadie atrás. A esto se suma el auge de la inteligencia artificial, que amplifica el valor de los datos, pero también de los riesgos derivados de su uso sesgado o poco transparente.
Incorporar la alfabetización en datos a los currículos educativos desde edades tempranas es clave para superar estos desafíos, ya que proporciona al alumnado conocimientos técnicos y herramientas para participar en la sociedad de manera informada. El V Encuentro Nacional de Datos Abiertos celebrado en Pamplona el 8 de mayo puso el foco precisamente en el papel de los datos en el sector educativo bajo el lema “Aprende y emprende”. El reto de esta edición ha sido EDUCA-DATA, un recurso que acerca los datos abiertos al aula de forma práctica y accesible, mostrando su valor para entender la realidad y generar oportunidades.
¿En qué consiste el reto anual del Encuentro Nacional de Datos Abiertos?
El Encuentro Nacional de Datos Abiertos plantea cada año un reto diferente, en el que expertos de diferentes ámbitos trabajan conjuntamente para encontrar soluciones. El reto es propuesto por la organización y voluntarios relacionados con el ámbito de los datos, ligados al mundo académico y a la Administración pública, colaboran a lo largo de todo el año para dar respuestas al desafío. Las conclusiones se presentan durante el evento anual y toda la documentación generada es pública.
¿Qué es EDUCA-DATA?
Los datos son una herramienta ciudadana para entender y transformar el mundo. EDUCA-DATA es un proyecto educativo que facilita el aprendizaje del uso y la reutilización de datos abiertos públicos. Busca fortalecer las competencias digitales, el pensamiento crítico y promover la cultura del conocimiento abierto.
EDUCA-DATA se dirige, principalmente, al alumnado y profesorado de Educación Secundaria Obligatoria, Bachillerato y Formación Profesional, pero también a la ciudadanía en general. El material educativo permite al alumnado trabajar en el aula los conceptos sobre datos abiertos, contiene recursos que el profesorado puede utilizar como apoyo en el aula y facilita que cualquier persona interesada pueda aprender de manera autónoma sobre este tema.
Durante el abordaje de este reto se han elaborado tres piezas documentales coordinadas y complementarias entre sí, sin que sea necesario consultar las tres para comprender el contenido completo. A continuación, se detalla el contenido de cada una. Todos los materiales están disponibles en el apartado 5 del reto EDUCA-DATA, al final de la página del encuentro.
Presentación de los datos abiertos, una recopilación de los datos esenciales
La pieza central de los materiales elaborados es una presentación en formato PowerPoint. Se trata de un documento de 65 diapositivas que permite que cualquier persona sin conocimiento previo pueda acercarse a los datos abiertos. Este documento incluye todo el contenido que el alumnado trabajará en el aula junto al profesorado y articula la secuencia didáctica completa, desde la introducción a los datos hasta los beneficios de su apertura.
Documento teórico: conceptos, ejemplos y recursos para profundizar
Todo el material elaborado se asienta sobre una sólida base teórica. El documento técnico desarrolla en mayor profundidad los conceptos, las definiciones y los ejemplos que aparecen en la presentación, y actúa como referencia cuando el alumnado o el profesorado necesite profundizar en algún punto concreto.
Con un enfoque didáctico, traza un recorrido que permite comprender cómo los datos abiertos, correctamente tratados y publicados, aportan un valor significativo en ámbitos tan diversos como el periodismo de investigación, la ciencia contra el cambio climático o la participación ciudadana. La inclusión de casos reales, explicados de una forma clara y accesible, facilita entender su impacto en nuestra vida diaria. El documento está concebido tanto para leerse de forma continua, con una lectura fluida y amena, como para consultarse de manera puntual cada vez que se quiera aclarar un concepto o ampliar un aspecto específico. Además, incluye enlaces a recursos externos para quienes deseen profundizar en los diferentes apartados.
Guía del profesorado, descubriendo el poder de los datos
Para que el profesorado pueda trabajar en el aula, se ha elaborado una exhaustiva guía docente, que les permite gestionar de forma autónoma el trabajo con el alumnado. Este documento contiene el marco curricular, las orientaciones didácticas y la información necesaria para la práctica en el aula. La guía se organiza en dos partes: la primera incluye el marco conceptual y el encaje curricular, y la segunda contiene los materiales de aula.
A nivel curricular, el material elaborado encaja principalmente en las siguientes materias: Digitalización, Economía, Geografía e Historia y Matemáticas.
El contenido se desarrolla en cinco unidades didácticas que permiten acercarse de manera gradual a los datos abiertos:
- Introducción. El mundo de los datos.
- Datos abiertos (Open Data). ¿Qué son y qué los define?
- Los formatos. El envase de la información.
- Las licencias. Las reglas del juego.
- Los beneficios. ¿Por qué importa todo esto?

Figura 1. Unidades didáctica de EDUCA-DATA: los datos abiertos en las aulas. Fuente: elaboración propia - datos.gob.es
En la guía didáctica el profesorado encontrará todo lo necesario para poder impartir las cinco unidades didácticas y sus actividades de forma autónoma, sin necesidad de formación previa específica en datos abiertos. Esto es:
- El contexto conceptual e histórico que enmarca los datos abiertos.
- Su encaje en el currículo LOMLOE de varias materias.
- Los objetivos y contenidos de cada unidad.
- Las ideas clave que conviene trasladar al aula.
- Los errores y confusiones más habituales del alumnado.
- Propuestas de evaluación rápida.
- Referencias para ampliar.
La guía recorre cuatro ámbitos:
- Un marco conceptual e histórico que proporciona al profesorado el contexto necesario sobre los datos abiertos. Es una información que no está pensada para trasladar al aula tal cual.
- Un marco curricular con la valoración del encaje en cuatro asignaturas (Digitalización, Economía, Geografía e Historia y Matemáticas), una recomendación didáctica argumentada, la progresión cognitiva según la taxonomía de Bloom y las tablas detalladas de alineación con LOMLOE.
- Las cinco unidades didácticas. Es el núcleo de este material y cada una sigue la misma estructura para facilitar la labor del profesorado.
- Dos piezas integradores que cierran el recorrido, en forma de ejercicios de aplicación práctica: un caso de estudio integrador planteado como un juego de rol periodístico y un ejercicio práctico avanzado para trabajar con datos.
Además, se incluyen como contenidos transversales un glosario básico y dos profundizaciones sobre los conceptos de distribución y licencia. La guía se presenta como una propuesta abierta que el profesorado puede tomar como referencia y adaptarla a su clase, su alumnado y su forma de enseñar.
Datos abiertos en el aula, una apuesta por la ciudadanía del futuro
Acercar los datos abiertos al alumnado de Educación Secundaria, Bachillerato y Formación Profesional contribuye a formar una ciudadanía capaz de comprender el ecosistema digital de la información, de contrastar lo que lee con datos públicos y de ejercer su derecho a la transparencia y a la participación. Por eso, estos recursos educativos tienen un gran valor que va más allá de la alfabetización digital y de datos, ya que, en su dimensión más cívica, contribuyen a formar personas más informadas, más críticas y mejor preparadas para entender y transformar el mundo en el que viven.
La información medioambiental accesible, actualizada e interoperable ya no es solo un recurso técnico: es una herramienta de seguridad, bienestar y poder ciudadano frente a la emergencia climática.
Cada vez que una persona asmática consulta el nivel de partículas en suspensión antes de salir a correr, o cuando un ayuntamiento decide cerrar un parque infantil por un episodio de contaminación, hay datos abiertos detrás de esa decisión. Los datos medioambientales y climáticos abiertos —sobre calidad del aire, agua, biodiversidad o fenómenos extremos— han dejado de ser patrimonio exclusivo de científicos y científicas e instituciones para convertirse en una infraestructura cívica global: accesible, reutilizable y, cada vez más, generada por la propia ciudadanía.
La pregunta ya no es si estos datos existen. Existen y en cantidades sin precedentes. La pregunta es: ¿quién los usa y para qué? Este artículo recorre ese ecosistema de información, desde las plataformas globales hasta los repositorios locales, pasando por proyectos ciudadanos que han transformado nuestro entorno.
El giro ciudadano: de consumidores a productores de datos
Durante décadas, los datos medioambientales procedían principalmente de agencias estatales, satélites gubernamentales y grandes laboratorios. Ese panorama empezó a transformarse cuando los sensores se abarataron, los teléfonos inteligentes se masificaron y las comunidades organizadas entendieron que medir su entorno también era una forma de protegerlo y de protegerse. De esta forma, la información generada por la ciudadanía se suma a la de los organismos públicos, ampliando y enriqueciendo la comprensión colectiva del medio ambiente. Algunos ejemplos son:
- iNaturalist, la plataforma de ciencia ciudadana para documentar la biodiversidad, acumula más de 200 millones de observaciones, realizadas por 3,3 millones de participantes en todo el mundo. Sus datos, integrados en GBIF (Global Biodiversity Information Facility), se utilizan en la investigación de conservación, en el seguimiento de los impactos del cambio climático y en las políticas de biodiversidad en decenas de países.
- IQAir AirVisual es otra red mundial de calidad del aire, con más de 30.000 estaciones y datos en tiempo real de más de 100 países, que incluye mapas, previsiones de 7 días y recomendaciones para grupos vulnerables.
- GLOBE Observer de la NASA lleva desde 2016 permitiendo a cualquier persona registrar desde su móvil observaciones sobre nubes, temperatura, cobertura del suelo y hábitats de mosquitos —un indicador crítico para detectar focos de enfermedades vectoriales agravadas por el calentamiento global.
- Meteoclimatic es una red colaborativa de estaciones meteorológicas automáticas que comparten datos en tiempo real, centrada en la península Ibérica y zonas cercanas.
Estos proyectos ponen de manifiesto que la ciudadanía ya no solo consume datos: también los produce, los valida y los pone a disposición pública.
Casos que cambian políticas: del dato ciudadano a la decisión pública
Uno de los prejuicios más persistentes sobre la ciencia ciudadana es que sus datos son demasiado imprecisos como para tener un impacto real o siquiera para considerarse ciencia. Varios proyectos recientes cuestionan ese argumento y están impulsando que la creencia cambie.
El proyecto europeo COMPAIR, financiado por el programa Horizonte Europa entre 2021 y 2024, desplegó sensores ciudadanos de calidad del aire en cinco ciudades: Atenas, Berlín, Flandes, Plovdiv y Sofía. Los sensores ciudadanos son dispositivos de medición ambiental de bajo coste (aire, ruido, temperatura, agua, etc.) que la propia ciudadanía instala, mantiene y utiliza para generar datos abiertos sobre su entorno inmediato. Estos sensores se instalaron en barrios y espacios utilizados por comunidades romaníes, personas mayores y escolares. Esta elección pretendía visibilizar exposiciones al riesgo que suelen quedar fuera del radar (por ejemplo, rutas escolares con tráfico intenso o barrios periférico insuficientemente monitorizados) y aportar datos adicionales que permitieran a las administraciones diseñar medidas dirigidas a quienes respiran el aire más contaminado. En Sofía, por ejemplo, la publicación de mapas de contaminación en los accesos a los colegios derivó en un aumento documentado del uso del transporte público escolar; un proyecto de datos ciudadanos que cambió un comportamiento colectivo.
Los datos ciudadanos, además, cuando respetan las condiciones metodológicas y legales, pueden ser admisibles ante los tribunales y contribuir a mejorar las políticas. Es precisamente ese tipo de uso el que desarrolla el proyecto Sensing for Justice (SensJus): una iniciativa Marie Curie —un prestigioso programa europeo de financiación para la investigación— que utiliza redes de sensores ciudadanos como prueba en litigios ambientales y en mediaciones extrajudiciales, con casos de éxito documentados en Estados Unidos e Italia.
Proyectos situados en contextos más cercanos
El activismo de datos medioambientales o climáticos no es un fenómeno lejano. España cuenta con una red creciente de iniciativas que llevan la medición ambiental a escala de barrio, río y tejado.
Smart Citizen, creado por el Fab Lab Barcelona del Instituto de Arquitectura Avanzada de Cataluña (IAAC), es uno de los proyectos de referencia mundial en citizen sensing: combina un kit de sensores de bajo coste —calidad del aire, temperatura, humedad, ruido, luz— con una plataforma de datos abierta en tiempo real. Con más de 9.000 usuarios y usuarias registrados/as y más de 1.900 sensores desplegados en más de 40 países, demuestra que la monitorización ambiental ciudadana puede tener alcance global a partir de una iniciativa local. SensaCitizens, por su parte, es una red española de monitores ambientales de bajo coste, con tecnología LoRaWAN, orientada a generar datos útiles para políticas públicas locales sobre la calidad del aire y el confort urbano.
En el ámbito de la salud cotidiana destaca Planttes, una app desarrollada por la Universidad Autónoma de Barcelona que permite a la ciudadanía mapear en tiempo real las plantas alergénicas de su entorno e indicar su estado fenológico. El resultado es un mapa de riesgo de alergia a nivel de calle que complementa la información oficial de pólenes.
La vigilancia fluvial, por su parte, se manifiesta en el Proyecto Ríos de Cantabria, activo desde 2008, que involucra a voluntarios que adoptan tramos de río de unos 500 metros y realizan inspecciones bianuales para monitorizar el estado ecológico del río. Con 282 tramos inspeccionados y más de 300 acciones documentadas, sus datos alimentan las decisiones de la Administración en materia de conservación de ecosistemas.
En el ámbito urbano también existen diversas iniciativas. Vitoria-Gasteiz participó en el proyecto europeo CITI-SENSE —junto a otras ocho ciudades, como Barcelona, Oslo y Viena— con una iniciativa específica de diseño participativo de espacios públicos, que combinaba sensores de ruido, calidad del aire y confort térmico. En total, el proyecto generó más de 9,4 millones de observaciones en las ciudades participantes.
En el ámbito ciudadano y local, el recién presentado SolData Spain (Universidad Autónoma de Madrid) ofrece un geoportal de acceso abierto para analizar la evolución de la energía solar en España durante casi tres décadas, al cruzar datos de irradiación satelital con registros meteorológicos históricos.
El siguiente visual resume los proyectos mencionados hasta ahora:

Figura 1. Datos abiertos y ciencia ciudadana para luchas contra el cambio climático. Fuente: elaboración propia - datos.gob.es
La empresa también actúa: adaptación climática con datos abiertos
La crisis climática no solo es un problema ambiental y social, sino también un riesgo operativo para las empresas. Según el informe Utility Transformation Profile de la Smart Electric Power Alliance (2023), el 62% de las utilities eléctricas encuestadas han desarrollado un plan público de reducción de carbono —mitigación—, pero las medidas de adaptación climática siguen siendo escasas y rara vez cuantificadas. No obstante, encontramos algunos ejemplos:
Meteoflow, de Iberdrola, es una plataforma de predicción meteorológica, reconocida por el International Research Centre on Artificial Intelligence (IRCAI) vinculada a la UNESCO, entre los mejores proyectos de IA para la sostenibilidad. Su función es optimizar la producción de sus parques eólicos y solares anticipando las condiciones meteorológicas, aunque también incorpora módulos de alerta ante fenómenos extremos que le permiten gestionar riesgos. Para ello utiliza información meteorológica de acceso abierto junto a datos propios, tanto históricos como de producción en tiempo real.
Otro ejemplo es Solarmap de dotGIS, que combina datos abiertos de cartografía (CNIG/INSPIRE), de radiación solar (AEMET/Copernicus) y de big data geoespacial para calcular la rentabilidad por tejado de instalar paneles solares en cualquier punto de España.
Se trata de iniciativas que tienen un impacto en la resiliencia operativa de las empresas y un potencial beneficio para el sistema energético colectivo, pero cuyo alcance transformador crece cuando sus resultados trascienden la lógica de protección de los activos corporativos para integrarse en la infraestructura pública compartida. En el sector privado, los datos (abiertos o no) pueden contribuir a reducir riesgos colectivos —como evitar apagones o anticipar impactos sobre los ecosistemas—, de modo que su impacto no se limita a la protección de activos corporativos. Su potencial cívico se multiplica cuando los resultados, metodologías y conjuntos de datos a los que sea posible acceder se integran en infraestructuras de datos compartidas con otros actores públicos y sociales.
Hacia dónde vamos: tres tendencias que redefinen la seguridad
El paisaje de los datos medioambientales y climáticos abiertos está cambiando, y tres tendencias marcan el horizonte próximo.
- De la mitigación a la adaptación. Durante años, la política climática se centró en reducir emisiones. Ese foco se está desplazando hacia la adaptación: anticipar riesgos, reducir vulnerabilidades y proteger a las comunidades frente a cambios ya irreversibles. Euskadi es un ejemplo de este giro: la Estrategia de Cambio Climático de Euskadi 2050 (KLIMA 2050) establece la adaptación como eje transversal con objetivos por sector —salud, agua, biodiversidad, energía—, y Vitoria-Gasteiz lidera compromisos en el marco de la Misión Europea de Ciudades Climáticamente Neutras. El salto es también es un avance en datos abiertos:: además de medir y publicar datos abiertos sobre las emisiones, las estrategias de adaptación empiezan a abrir y documentar datos sobre vulnerabilidades (olas de calor, inundaciones, salud pública) y capacidades de respuesta institucional y comunitaria, de forma que puedan ser reutilizados por administraciones, empresas y ciudadanía.
- La ciudadanía como centinela cívica. La ciudadanía actúa cada vez más como centinela cívica (civic sentinel): recopila, contrasta y comparte datos ambientales que complementan las mediciones oficiales. Cuando el vecindario de una ciudad detectan niveles de contaminación que las estaciones oficiales no registran, o cuando una comunidad indígena documenta cambios en su ecosistema que los satélites no capturan, se genera una segunda capa de información crítica para la gestión de riesgos. Proyectos como OpenTEK / LICCI del ICTA-UAB integran saberes indígenas de Nepal, Tailandia, Vietnam y países de América Latina como fuentes científicamente legítimas de datos sobre la variabilidad climática, y los ponen a disposición bajo principios FAIR y CARE, buscando que sean lo más abiertos y reutilizables posible sin comprometer la soberanía de las comunidades que los generan.
- Estándares FAIR y espacios de datos europeos. La Unión Europea impulsa el Green Deal Data Space y la iniciativa AD4GD para integrar datos ambientales abiertos bajo estándares FAIR (findable, accessible, interoperable, reusable), que faciliten su uso combinado por múltiples actores. En este marco, el Informe de Prospectiva Estratégica 2025 de la UE identifica la transición climática y la seguridad como los dos ejes que ejercen mayor presión sobre Europa, y subraya la necesidad de infraestructuras de datos compartidas basadas en esos principios para responder con resiliencia.
Los datos abiertos medioambientales y climáticos no son solo una cuestión técnica ni una aspiración de transparencia burocrática. Son, cada vez más, una condición para que las comunidades puedan anticipar riesgos, exigir responsabilidades y tomar decisiones colectivas bien fundamentadas frente al mayor desafío. La infraestructura existe. La ciudadanía que la usa, también, por lo que hay que seguir impulsando para lograr que su uso sea universal y equitativo.
Anexo: ¿Dónde están los datos? Una guía práctica de repositorios
Para quien quiera explorar, reutilizar o combinar datos medioambientales y climáticos abiertos, el ecosistema de repositorios es amplio y cada vez más accesible. Aquí una selección organizada por escala:
A escala europea:
- data.europa.eu: catálogo europeo de datos, donde se pueden encontrar, entre otros, datos sobre aire, agua, biodiversidad, clima y energía, con casos de uso documentados
- Copernicus C3S: datos climáticos históricos y proyecciones; variables esenciales del clima.
- Copernicus CAMS: datos sobre calidad del aire y composición atmosférica en tiempo real.
- ESA CCI Open Data: variables climáticas esenciales sobre glaciares, nivel del mar, gases de efecto invernadero, etc.
- European Environment Agency (EEA): indicadores ambientales, mapas de riesgo climático, biodiversidad y calidad del agua.
- INSPIRE : es el punto de acceso central para localizar, visualizar y acceder a la información geográfica y a los datos espaciales armonizados de los países miembros de la Unión Europea.
Puedes encontrar más repositorios de interés en este artículo 10 repositorios de datos públicos relacionados con el clima.
A escala estatal:
- datos.gob.es: portal nacional de datos abiertos con una sección sobre medioambiente.
- AEMET OpenData: series climatológicas históricas, datos meteorológicos en tiempo real, API REST, etc.
- MITECO Datos Abiertos: datos sobre calidad del aire, agua y emisiones.
- Geoportal IDEE: datos geoespaciales y cartografía ambiental nacional, entre otros.
Contenido elaborado por Miren Gutiérrez, Doctora e investigadora en la Universidad de Deusto, experta en activismo de datos, justicia de datos, alfabetización de datos y desinformación de género. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
Solo unos meses después del éxito de su primera entrega, el Ayuntamiento de Madrid ha abierto la convocatoria de la segunda edición de los Premios a la Reutilización de Datos Abiertos. Se trata de una iniciativa que busca reconocer y promover proyectos innovadores que utilicen los conjuntos de datos publicados en el portal datos.madrid.es. Con una dotación total de 15.000 euros, estos premios consolidan el compromiso municipal con la cultura del dato, la transparencia y la creación de valor social y económico a partir de la información pública.
En este artículo te contamos algunas de las claves que debes tener en cuenta para participar.
Dos categorías de premios a considerar
La convocatoria establece dos categorías, cada una con varios premios:
1) Servicios web, aplicaciones y visualizaciones: premia proyectos que generen servicios, visualizaciones o aplicaciones web o para dispositivos móviles.
- Primer premio: 4.000 €
- Segundo premio: 3.000 €
- Tercer premio: 1.500 €
- Premio para estudiante: 1.500 €
2) Estudios, investigaciones e ideas: se centra en proyectos de investigación, análisis o descripción de ideas para crear servicios, estudios, visualizaciones, aplicaciones web o móviles. En esta categoría también pueden participar trabajos universitarios de fin de grado y de fin de máster (TFG-TFM).
- Primer premio: 2.500 €
- Segundo premio: 1.500 €
- Tercer premio: 1.000 €
En ambas categorías es necesario que se utilice al menos un conjunto de datos del portal municipal, pudiendo combinarse con fuentes públicas o privadas de cualquier ámbito territorial. Los proyectos pueden ser recientes o haber finalizado en los dos años previos al cierre de la convocatoria.
Los premios pueden declararse desiertos si no se alcanza la calidad mínima. En ese caso, los importes sobrantes se redistribuirán proporcionalmente entre el resto de premiados.
Requisitos para participar
La convocatoria está abierta a personas físicas y jurídicas autoras de los proyectos o iniciativas. El objetivo es que cualquier persona o entidad con interés en la reutilización de datos pueda presentar su propuesta, independientemente de su nivel técnico. Por ello, pueden participar tanto profesionales y empresas, personas investigadoras, periodistas y desarrolladores, como aficionados y amateurs interesados en el análisis y visualización de datos.
En el caso del premio para estudiante, solo podrán participar aquellas personas físicas matriculadas en cursos oficiales 2023/24, 2024/25 o 2025/26.
Por el contrario, quedan excluidos de todas las categorías:
- Proyectos ya premiados, subvencionados o contratados por el Ayuntamiento de Madrid.
- Proyectos que no utilicen ningún conjunto de datos del portal municipal.
Fases del proceso
En el portal municipal se detallan las fases de la convocatoria, que incluyen:
- Publicación de la convocatoria. El pasado 3 de marzo se publicaron las bases reguladoras en el Boletín Oficial del Ayuntamiento de Madrid.
- Presentación de candidaturas. El plazo para presentar las solicitudes abarca del 4 de marzo al 4 de mayo (ambos incluidos). Se pueden presentar online o presencialmente, como se explica más adelante.
-
Análisis y subsanación. Hasta el 3 de junio, se llevará a cabo la revisión de la documentación presentada. En caso necesario, se contactará con los solicitantes para la subsanación de errores.
-
Valoración y deliberación. Un jurado evaluará todos los proyectos admitidos, según los criterios establecidos en las bases de la convocatoria. Se tendrá en cuenta su utilidad, valor económico, valor social y contribución a la transparencia; su grado de innovación y creatividad; la variedad de conjuntos de datos utilizados del Portal de Datos Abiertos de Madrid; y su calidad técnica. Esta fase se extenderá hasta el 15 septiembre.
-
Resolución. En los meses de septiembre y octubre se llevará a cabo la propuesta de concesión y publicación oficial de la resolución.
-
Entrega de premios. Los galardones se entregarán en un acto público, estimado para el mes de noviembre.
La página oficial irá actualizando fechas y documentación a medida que avance el proceso.
Cómo se presentan las candidaturas
Como se mencionó anteriormente, las candidaturas se pueden presentar de manera telemática o presencial:
- En línea, a través de la sede electrónica del Ayuntamiento de Madrid. Para ello se requiere identificación y firma electrónica.
- Presencialmente, en las oficinas de asistencia en materia de registro del Ayuntamiento de Madrid, así como en los registros de otras administraciones públicas.
Las personas físicas podrán presentar la solicitud de ambas formas, mientras que las personas jurídicas solo podrán presentar la solicitud de forma telemática.
En ambos casos, las candidaturas deben incluir:
- Formulario oficial de solicitud, a descargar en la sede electrónica del Ayuntamiento de Madrid.
- Memoria del proyecto, en base a un modelo a descargar en la citada sede electrónica. Este documento incluirá el título, la autoría y una descripción detallada, así como la relación de conjuntos de datos utilizados, los objetivos, el público beneficiario, el impacto previsto, el grado de innovación y la tecnología empleada.
- Declaración responsable.
- Acuerdo de colaboración, en caso de presentarse como agrupación.
Inspírate con los proyectos ganadores de la primera edición
La segunda edición de los Premios a la Reutilización de Datos Abiertos llega precedida por el éxito de la convocatoria anterior. En 2025, el Ayuntamiento de Madrid celebró la primera edición de estos galardones, que reunió 65 candidaturas de gran calidad y diversidad. Entre ellas destacaron propuestas impulsadas por estudiantes universitarios, startups, equipos multidisciplinares y ciudadanía comprometida con el uso inteligente de los datos públicos.
Los proyectos premiados demostraron que los datos abiertos pueden convertirse en herramientas reales para mejorar la vida urbana, impulsar la transparencia y generar conocimiento útil para la ciudad. En este artículo te resumimos en qué consistían estos proyectos.
En resumen, los II Premios a la Reutilización de Datos Abiertos 2026 son una oportunidad para demostrar cómo los datos públicos pueden convertirse en innovación real. Una invitación a desarrollar proyectos que impulsen un Madrid más inteligente, transparente y participativo.
El pasado miércoles 4 de marzo, la Cátedra Cajasiete Big Data, Open Data y Blockchain de la Universidad de La Laguna celebró un webinar para presentar las ideas ganadoras del l Concurso Datos Abiertos Cabildo de Tenerife: Ideas de Reutilización. Un evento para poner en valor el potencial que tiene la información pública cuando se pone al servicio de la ciudadanía. La grabación de la presentación está disponible aquí.
En este post repasaremos en qué consiste cada uno de los proyectos ganadores -que son todavía ideas pendientes de desarrollo en apps y a qué retos darían respuesta.
Cultiva+ Tenerife: agricultura de precisión para el campo tinerfeño
El proyecto ganador del primer premio nace de una necesidad muy concreta que conoce bien cualquier agricultor de la isla: tomar decisiones acertadas en el momento adecuado. ¿Qué cultivo es más rentable esta temporada? ¿Cuáles son las condiciones climáticas previstas para las próximas semanas? ¿Hay alguna feria o evento del sector que convenga no perderse?
Cultiva+ Tenerife es una aplicación diseñada específicamente para el sector agrícola que integra datos abiertos del Cabildo para responder a estas preguntas de forma sencilla e intuitiva.
En concreto, va dirigido tanto a trabajadores ya establecidos en el sector como a nuevos agricultores. En el primer caso, la app facilitaría el trabajo diario a través de recomendaciones de riego y otras cuestiones que mejoren la producción; mientras que para nuevos agricultores la aplicación ayudaría a seleccionar la mejor parcela para empezar una actividad agraria según tipo de suelo, condiciones climáticas, etc.

Figura 1. Posibles utilidades de la aplicación Cultiva+ Tenerife según el tipo de usuario. Fuente: presentación de Cultiva+Tenerife en el Webinar “De los datos a la innovación: Ideas de reutilización premiadas en el I Concurso de Datos Abiertos del Cabildo de Tenerife, Universidad de la Laguna”.
La aplicación recogería de forma intuitiva y clara información como:
- Información de precios: el agricultor puede consultar la evolución de los precios de mercado de distintos productos, lo que le permite planificar qué cultivar en función de la rentabilidad esperada.
- Condiciones climatológicas: la app cruza datos meteorológicos con las necesidades específicas de cada tipo de cultivo, ayudando a anticipar riegos, protecciones o cosechas.
-
Agenda de actividades de interés: ferias agrícolas, jornadas técnicas, convocatorias de ayudas... toda la información relevante para el sector, centralizada en un solo lugar.

Figura 2. Estructura visual de la aplicación Cultiva+Tenerife. Fuente: presentación de Cultiva+Tenerife en el Webinar “De los datos a la innovación: Ideas de reutilización premiadas en el I Concurso de Datos Abiertos del Cabildo de Tenerife, Universidad de la Laguna”.
Algo que se destacó como valioso de este proyecto en el webinar es su enfoque en un colectivo que históricamente ha tenido menos acceso a herramientas digitales: los agricultores y agricultoras de Tenerife. La propuesta no busca complicar su día a día con tecnología innecesaria, sino simplificar decisiones que hoy se toman muchas veces a ojo o con información incompleta. La agricultura de precisión ya no es solo cosa de grandes explotaciones: con datos abiertos y una buena aplicación, puede estar al alcance de cualquier productor local.
Análisis de tendencias y modelos sobre el turismo en Tenerife: cuando los datos revelan una crisis
El segundo proyecto ganador aborda uno de los temas más complejos y urgentes de la realidad tinerfeña: la relación entre el turismo, la vivienda y el mercado laboral. Una ecuación con múltiples variables que afecta directamente a la calidad de vida de los residentes y que, hasta ahora, era difícil de analizar de forma rigurosa sin acceso a datos fiables.
El punto de partida del proyecto es revelador: en junio de 2024, el 35 % de los nuevos contratos laborales firmados en Tenerife correspondieron al sector de la hostelería. Un dato que ilustra a la perfección la dependencia estructural de la economía isleña respecto al turismo, pero que también abre preguntas incómodas: ¿hasta qué punto el crecimiento turístico está transformando el mercado de la vivienda? ¿Está desplazando a los residentes habituales de determinadas zonas? ¿Cómo evolucionará la llegada de turistas en los próximos años?
Este proyecto propone dar respuesta a estas preguntas a través de un modelo de análisis y predicción construido con herramientas de ciencia de datos. Su desarrolladora plantea utilizar datos como el número de turistas alojados en Tenerife según categoría y zona de establecimiento, disponible en datos.tenerife.es, para construir modelos con Python y NumPy que permitan identificar tendencias y proyectar escenarios futuros.
Los objetivos del proyecto son ambiciosos pero concretos:
- Analizar la relación entre demanda turística y oferta de alojamientos, identificando qué zonas de la isla sufren mayor presión y en qué momentos del año.
- Desarrollar un modelo predictivo capaz de estimar la llegada futura de turistas y su impacto en el sector de la vivienda turística.
- Contribuir a mitigar la crisis habitacional aportando datos y análisis que permitan entender cómo el turismo está afectando a la disponibilidad de vivienda para los residentes.
- Apoyar la planificación empresarial y urbanística, ofreciendo a empresas, inversores y administraciones una herramienta de análisis que facilite la toma de decisiones estratégicas.
Se trata, en definitiva, de poner la inteligencia de los datos al servicio de uno de los debates más actuales que tiene Tenerife sobre la mesa.
La universidad como puente entre los datos y la sociedad
La elección de la Cátedra Cajasiete Big Data, Open Data y Blockchain de la Universidad de La Laguna como espacio para dar visibilidad a los ganadores es en sí misma un mensaje: la Universidad tiene un papel clave en la construcción del ecosistema de datos abiertos en Tenerife.
Esta cátedra lleva años trabajando en la frontera entre la investigación académica y la aplicación práctica de tecnologías como el análisis de datos masivos, la cadena de bloques o la reutilización de información pública. Su implicación en este concurso y en la difusión de sus resultados refuerza la idea de que los datos abiertos son también un recurso de valor para la formación, la investigación y el desarrollo económico local.
El éxito de esta primera convocatoria ha confirmado que había demanda real de este tipo de iniciativas. Tanto es así que el Cabildo ya ha lanzado el II Concurso de Datos Abiertos: Desarrollo de APP, que da continuidad al proceso llevando las ideas al siguiente nivel: el desarrollo de aplicaciones funcionales.
Si en la primera edición se premiaron ideas y propuestas conceptuales, en esta segunda convocatoria el reto es construir soluciones reales, con código, interfaz de usuario y funcionalidades demostradas. La dotación económica es de 6.000 euros repartidos en tres premios.
Proyectos como Cultiva+ Tenerife o el Análisis del impacto turístico en la vivienda demuestran que hay ideas con potencial para convertirse en herramientas útiles y sostenibles. Esta segunda fase es la oportunidad de materializarlas.
“Voy a subirte un fichero CSV. Quiero que lo analices y me resumas las conclusiones más relevantes que puedas extraer de los datos”. Hace unos años, el análisis de datos era territorio de quien sabía escribir código y utilizar entornos técnicos complejos, y una petición así habría requerido programación o habilidades avanzadas de Excel. Hoy, poder analizar en poco tiempo ficheros de datos con herramientas de IA nos aporta una gran autonomía profesional. Formular preguntas, contrastar ideas preliminares y explorar de primera mano la información cambia nuestra relación con el conocimiento, sobre todo, porque dejamos de depender de intermediarios para obtener respuestas. Ganar la capacidad de analizar datos con IA de manera independiente acelera los procesos, pero también puede provocarnos un exceso de confianza en las conclusiones.
A partir del ejemplo de un fichero de datos en bruto, vamos a revisar posibilidades, precauciones y pautas básicas para explorar la información sin asumir conclusiones demasiado rápido.
El fichero:
Para mostrar un ejemplo de análisis de datos con IA utilizaremos un fichero del Instituto Nacional de Estadística (INE) que recoge información sobre flujos turísticos en Europa, en concreto sobre ocupación en alojamientos de turismo rural. El fichero de datos contiene información desde enero de 2001 hasta diciembre de 2025. Contiene desagregaciones por sexo, edad y comunidad o ciudad autónoma, lo que permite realizar análisis comparativos a lo largo del tiempo. En el momento de escribir este artículo, la última actualización de este conjunto de datos fue el 28 de enero de 2026.

Figura 1. Información del dataset. Fuente: Instituto Nacional de Estadística (INE).
1. Exploración inicial
Para esta primera exploración vamos a utilizar una versión gratuita de Claude, el chat multitarea basado en IA desarrollado por Anthropic. Es uno de los modelos de lenguaje más avanzados en benchmarks de razonamiento y análisis, lo que lo hace especialmente adecuado para este ejercicio, y es la opción más utilizada actualmente por la comunidad para realizar tareas que requieren código.
Pensemos que nos enfrentamos al fichero de datos por primera vez. Sabemos a grandes rasgos qué contiene, pero desconocemos la estructura de la información. Nuestro primer prompt, por tanto, debería centrarse en describirla:
PROMPT: Quiero trabajar con un fichero de datos sobre ocupación en alojamientos de turismo rural. Explícame qué estructura tiene el fichero: qué variables contiene, qué mide cada una y qué posibles relaciones existen entre ellas. Señala también posibles valores ausentes o elementos que requieran aclaración.

Figura 2. Exploración inicial del fichero de datos con Claude. Fuente: Claude.
Una vez que Claude nos ha dado la idea general y la explicación de las variables, es buena práctica abrir el fichero y hacer una comprobación rápida. El objetivo es evaluar que, como mínimo, el número de filas, el número de columnas, los nombres de las variables, el período temporal y el tipo de datos coinciden con lo que nos ha dicho el modelo.
Si detectamos algún error en este punto, el LLM puede no estar leyendo correctamente los datos. Si después de intentarlo en otra conversación el error persiste, es señal de que hay algo en el fichero que dificulta su lectura automática. En este caso, lo más recomendable es no proseguir con el análisis, ya que las conclusiones serán muy aparentes, pero estarán basadas en datos mal interpretados.
2. Gestión de anomalías
En segundo lugar, si hemos descubierto anomalías, lo habitual es documentarlas y decidir cómo manejarlas antes de seguir con el análisis. Podemos pedir al modelo que nos sugiera qué hacer, pero las decisiones finales serán nuestras. Por ejemplo:
- Valores faltantes: si hay celdas vacías, tenemos que decidir si rellenarlas con un valor “promedio” de la columna o simplemente eliminar esas filas.
- Duplicados: tenemos que eliminar filas repetidas o que no aportan información nueva.
- Errores de formato o inconsistencias: debemos corregirlos para que las variables sean coherentes y comparables. Por ejemplo, fechas representadas en distintos formatos.
- Outliers: si aparece un número que no tiene sentido o es exageradamente distinto del resto, tenemos que decidir si corregirlo, ignorarlo o tratarlo tal y como está.

Figura 3. Ejemplo de análisis de valores faltantes con Claude. Fuente: Claude.
En el caso de nuestro fichero, por ejemplo, hemos detectado que en Ceuta y Melilla los valores ausentes en la variable Total son estructurales, no hay turismo rural registrado en esas ciudades, por lo que podríamos excluirlas del análisis.
Antes de tomar la decisión, una buena práctica en este punto es pedir al LLM los pros y contras de la modificación en los datos. Su respuesta puede darnos alguna pista de cuál es la mejor opción, o indicarnos algún inconveniente que no habíamos tenido en cuenta.

Figura 4. Análisis de Claude sobre la posibilidad de eliminar o no valores. Fuente: Claude.
Si decidimos seguir adelante y excluir las ciudades de Ceuta y Melilla del análisis, Claude puede ayudarnos a efectuar esta modificación directamente sobre el fichero. El prompt sería el siguiente:
PROMPT: Elimina del fichero todas las filas correspondientes a Ceuta y Melilla, de manera que el resto de los datos se mantenga intacto. Explica también los pasos que estás siguiendo para que pueda revisarlos.

Figura 5. Paso a paso en la modificación de datos en Claude. Fuente: Claude.
En este punto, Claude nos ofrece descargar de nuevo el fichero modificado, así que una buena práctica de comprobación sería validar de forma manual que la operación se hizo bien. Por ejemplo, revisar el número de filas en un fichero y otro o cotejar algunas filas al azar con el primer fichero para asegurarnos de que los datos no se han corrompido.
3. Primeras preguntas y visualizaciones
Si el resultado hasta aquí es satisfactorio, ya podemos empezar a explorar los datos para hacernos preguntas iniciales y buscar patrones interesantes. Lo ideal al empezar la exploración es hacer preguntas grandes, claras y fáciles de responder con los datos, porque nos dan una primera visión.
PROMPT: Trabaja con el fichero sin Ceuta y Melilla a partir de ahora. ¿Cuáles han sido las cinco comunidades con más turismo rural en el período total?

Figura 6. Respuesta de Claude a las cinco comunidades con más turismo rural en el período. Fuente: Claude.
Por último, podemos pedirle a Claude que nos ayude a visualizar los datos. En lugar de hacer el esfuerzo de indicarle un tipo de gráfico concreto, le damos libertad para elegir el formato que mejor muestre la información.
PROMPT: ¿Puedes visualizar esta información en un gráfico? Elige el formato más adecuado para representar los datos.

Figura 7. Gráfico elaborado por Cloude para representar la información. Fuente: Claude.
Aquí, la pantalla se desdobla: a la izquierda, podemos continuar con la conversación o descargar el fichero, mientras que a la derecha podemos visualizar el gráfico directamente. Claude ha generado una gráfica de barras horizontales muy visual y lista para usar. Los colores diferencian las comunidades y se indica correctamente el período y el tipo de datos.
¿Qué ocurre si le pedimos cambiar la paleta de color del gráfico por una inadecuada? En este caso, por ejemplo, vamos a pedirle una serie de tonos pastel que apenas se diferencian.
PROMPT: ¿Puedes cambiar la paleta de colores del gráfico por esta otra? #E8D1C5, #EDDCD2, #FFF1E6, #F0EFEB, #EEDDD3

Figura 8. Ajustes realizados en el gráfico por Claude para representar la información. Fuente: Claude.
Ante el reto, Claude ajusta por sí mismo el gráfico de manera inteligente, oscurece el fondo y cambia el texto de las etiquetas para mantener legibilidad y contraste.
Todo el ejercicio anterior se ha realizado con Claude Sonnet 4.6, que no es el modelo de mayor calidad de Anthropic. Sus versiones superiores, como Claude Opus 4.6, tienen mayor capacidad de razonamiento, comprensión profunda y resultados más finos. Además, existen muchas otras herramientas para trabajar con datos y visualizaciones basadas en IA, como Julius o Quadratic. Aunque en ellas las posibilidades son casi infinitas, cuando trabajamos con datos sigue siendo fundamental mantener una metodología y un criterio propios.
Contextualizar en la vida real los datos que estamos analizando y conectarlos con otros conocimientos no es una tarea que se pueda delegar; necesitamos tener una mínima idea previa de qué queremos conseguir con el análisis para poder transmitirla al sistema. Esto nos permitirá hacer mejores preguntas, interpretar adecuadamente los resultados y por tanto hacer un prompting más eficaz.
Contenido elaborado por Carmen Torrijos, experta en IA aplicada al lenguaje y la comunicación. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.