La visualización de datos es una práctica fundamental para democratizar el acceso a la información pública. Sin embargo, crear gráficos efectivos va mucho más allá de elegir colores atractivos o utilizar las últimas herramientas tecnológicas. Como señala Alberto Cairo, experto en visualización de datos y docente de la academia del portal europeo de datos abiertos (data.europa.eu), “cada decisión de diseño debe ser deliberada: inevitablemente subjetiva, pero nunca arbitraria”. A través de una serie de tres webinar que puedes volver a ver aquí, el experto ofreció consejos innovadores para estar a la vanguardia de la visualización de datos.
Cuando trabajamos con visualización de datos, especialmente en el contexto de la información pública, es crucial desmontar algunos mitos arraigados en nuestra cultura profesional. Frases como "los datos hablan por sí mismos", "una imagen vale más que mil palabras" o "muestra, no cuentes" suenan bien, pero esconden una verdad incómoda: los gráficos no siempre comunican automáticamente.
La realidad es más compleja. Un/a profesional del diseño puede querer comunicar algo específico, pero los lectores pueden interpretar algo completamente diferente. ¿Cómo se puede superar la brecha entre intención y percepción en visualización de datos? En este post, ofrecemos algunas claves de la serie formativa.
Un marco estructurado para diseñar con propósito
En lugar de seguir "reglas" rígidas o aplicar plantillas predefinidas, en el curso se propone un marco de pensamiento basado en cinco componentes interrelacionados:
- Contenido: la naturaleza, origen y limitaciones de los datos
- Personas: la audiencia a la que nos dirigimos
- Intención: los propósitos que definimos
- Restricciones: las limitaciones que enfrentamos
- Resultados: cómo es recibido el gráfico
Este enfoque holístico nos obliga a preguntarnos constantemente: ¿qué necesitan realmente saber nuestros lectores? Por ejemplo, cuando comunicamos información sobre riesgos de huracanes o emergencias sanitarias, ¿es más importante mostrar trayectorias exactas o comunicar impactos potenciales? La respuesta correcta depende del contexto y, sobre todo, de las necesidades informativas de la ciudadanía.
El peligro de la agregación excesiva
Aún sin perder de vista el propósito es importante no caer en añadir demasiada información o presentar solo promedios. Imaginemos, por ejemplo, un conjunto de datos sobre seguridad ciudadana a nivel nacional: un promedio puede esconder que la mayoría de las localidades son muy seguras, mientras unas pocas con tasas extremadamente altas distorsionan el indicador nacional.
Como explica Claus O. Wilke en su libro "Fundamentals of Data Visualization", esta práctica puede ocultar patrones cruciales, valores atípicos y paradojas que son precisamente los más relevantes para la toma de decisiones. Para evitar este riesgo, en la formación se propone visualizar una gráfica como un sistema de capas que debemos construir cuidadosamente desde la base:
1. Codificación (Encoding)
- Es la base de todo: cómo traducimos datos en atributos visuales. Las investigaciones en percepción visual nos muestran que no todos los "canales visuales" son igual de efectivos. La jerarquía sería:
- Más efectivos: posición, longitud y altura
- Medianamente efectivos: ángulo, área y pendiente
- Menos efectivos: color, saturación y forma
¿Cómo ponemos esto en práctica? Pues, por ejemplo, para realizar comparaciones precisas, un gráfico de barras será casi siempre mejor opción que un gráfico circular. Sin embargo, como se matiza en los materiales formativos, "efectivo" no siempre significa "apropiado". Un gráfico circular puede ser perfecto cuando queremos expresar la idea de un "todo y sus partes", aunque las comparaciones precisas sean más difíciles.
2. Disposición (Arrangement)
El posicionamiento, orden y agrupación de los elementos afecta profundamente a la percepción. ¿Queremos que el lector compare entre categorías dentro de un grupo, o entre grupos? La respuesta determinará si organizamos nuestra visualización con barras agrupadas o apiladas, con paneles múltiples o en una única vista integrada.
3. Andamiaje (Scaffolding)
Los títulos, introducciones, anotaciones, escalas y leyendas son fundamentales. En datos.gob.es hemos visto cómo las visualizaciones interactivas pueden condensar información compleja, pero sin un andamiaje adecuado, la interactividad puede confundir más que aclarar.
El valor de una correcta escala
Uno de los aspectos técnicos más delicados —y a menudo más manipulables— de una visualización es la elección de la escala. Una simple modificación en el eje Y puede cambiar por completo la interpretación del lector: una tendencia suave puede parecer una crisis repentina, o un crecimiento sostenido puede pasar desapercibido.
Como se menciona en el segundo webinar de la serie, las escalas no son un detalle menor: son un componente narrativo. Decidir dónde empieza un eje, qué intervalos se usan o cómo se representan los periodos de tiempo implica hacer elecciones que afectan directamente la percepción de la realidad. Por ejemplo, si una gráfica de empleo comienza el eje Y en 90 % en lugar de 0 %, el descenso puede parecer dramático, aunque, en realidad, sea mínimo.
Por eso, las escalas deben ser honestas con los datos. Ser “honesto” no significa renunciar a decisiones de diseño, sino mostrar claramente qué decisiones se tomaron y por qué. Si existe una razón válida para empezar el eje Y en un valor distinto de cero, debe explicarse explícitamente en la gráfica o en su pie de texto. La transparencia debe prevalecer sobre el dramatismo.
La integridad visual no solo protege al lector de interpretaciones engañosas, sino que refuerza la credibilidad de quien comunica. En el ámbito de los datos públicos, esa honestidad no es opcional: es un compromiso ético con la verdad y con la confianza ciudadana.
Accesibilidad: visualizar para todos
Por otro lado, uno de los aspectos frecuentemente olvidado es la accesibilidad. Aproximadamente el 8 % de los hombres y el 0,5 % de las mujeres tienen algún tipo de daltonismo. Herramientas como Color Oracle permiten simular cómo se ven nuestras visualizaciones para personas con diferentes tipos de deficiencias en la percepción del color.
Además, en el webinar se mencionó el proyecto Chartability, una metodología para evaluar la accesibilidad de las visualizaciones de datos. En el sector público español, donde la accesibilidad web es un requisito legal, esto no es opcional: es una obligación democrática. Bajo esta premisa publicó la Federación Española de Municipios y Provincias publicó una Guía de Visualización de Datos para Entidades Locales.
Narrativa visual: cuando los datos cuentan historias
Una vez resueltas las cuestiones técnicas, podemos abordar el aspecto narrativo que cada día es más importante para comunicar correctamente. En este sentido, el curso plantea un método sencillo pero poderoso:
- Escribe una frase larga que resuma los puntos que quieres comunicar.
- Divide esa frase en componentes, aprovechando las pausas naturales.
- Transforma esos componentes en secciones de tu infografía.
Este enfoque narrativo es especialmente efectivo para proyectos como los que encontramos en data.europa.eu, donde se combinan visualizaciones con explicaciones contextuales para comunicar el valor de los conjuntos de datos de alto valor o en los ejercicios de visualización y ciencia de datos de datos de datos.gob.es.
El futuro de la visualización de datos también incluye aproximaciones más creativas y centradas en el usuario. Proyectos que incorporan elementos personalizados, que permiten a los lectores situarse en el centro de la información, o que utilizan técnicas narrativas para generar empatía, están redefiniendo lo que entendemos por "comunicación de datos".
Incluso emergen formas alternativas de "sensificación de datos": la fisicalización (crear objetos tridimensionales con datos) y la sonificación (traducir datos a sonido) abren nuevas posibilidades para hacer la información más tangible y accesible. La empresa española Tangible Data, de la que nos hacemos eco en datos.gob.es porque reutiliza conjuntos de datos abiertos, es prueba de ello.

Figura 1. Ejemplos de sensificación de datos. Fuente: https://data.europa.eu/sites/default/files/course/webinar-data-visualisation-episode-3-slides.pdf
A modo de conclusión, podemos resaltar que la integridad en el diseño no es un lujo: es un requisito ético. Cada gráfico que publicamos en plataformas oficiales influye en cómo los ciudadanos perciben la realidad y toman decisiones. Por eso, dominar herramientas técnicas como las bibliotecas y API de visualización, que se analizan en otros artículos del portal, es tan relevante.
La próxima vez que crees una visualización con datos abiertos, no te preguntes solo "¿qué herramienta uso?" o "¿qué gráfico se ve mejor?". Pregúntate: ¿qué necesita realmente saber mi audiencia? ¿Esta visualización respeta la integridad de los datos? ¿Es accesible para todos? Las respuestas a estas preguntas son las que transforman un gráfico bonito en una herramienta de comunicación verdaderamente efectiva.
La Inteligencia Artificial (IA) está convirtiéndose en uno de los principales motores del aumento de la productividad y la innovación tanto en el sector público como en el privado, siendo cada vez más relevante en tareas que van desde la creación de contenido en cualquier formato (texto, audio, video) hasta la optimización de procesos complejos a través de agentes de Inteligencia Artificial.
Sin embargo, los modelos avanzados de IA, y en particular los grandes modelos de lenguaje, exigen cantidades ingentes de datos para su entrenamiento, optimización y evaluación. Esta dependencia genera una paradoja: a la vez que la IA demanda más datos y de mayor calidad, la creciente preocupación por la privacidad y la confidencialidad (Reglamento General de Protección de Datos o RGPD), las nuevas reglas de acceso y uso de datos (Data Act), y los requisitos de calidad y gobernanza para sistemas de alto riesgo (Reglamento de IA), así como la inherente escasez de datos en dominios sensibles limitan el acceso a los datos reales.
En este contexto, los datos sintéticos pueden ser un mecanismo habilitador para conseguir nuevos avances, conciliando innovación y protección de la privacidad. Por una parte, permiten alimentar el progreso de la IA sin exponer información sensible, y cuando se combinan con datos abiertos de calidad amplían el acceso a dominios donde los datos reales son escasos o están fuertemente regulados.
¿Qué son los datos sintéticos y cómo se generan?
De forma sencilla, los datos sintéticos se pueden definir como información fabricada artificialmente que imita las características y distribuciones de los datos reales. La función principal de esta tecnología es reproducir las características estadísticas, la estructura y los patrones del dato real subyacente. En el dominio de las estadísticas oficiales existen casos como el del Censo de Estados Unidos que publica productos parcial o totalmente sintéticos como OnTheMap (movilidad de los trabajadores entre lugar de residencia y lugar trabajo) o el SIPP Synthetic Beta (microdatos socioeconómicos vinculados a impuestos y seguridad social).
La generación de datos sintéticos es actualmente un campo aún en desarrollo que se apoya en diversas metodologías. Los enfoques pueden ir desde métodos basados en reglas o modelado estadístico (simulaciones, bayesianos, redes causales), que imitan distribuciones y relaciones predefinidas, hasta técnicas avanzadas de aprendizaje profundo. Entre las arquitecturas más destacadas encontramos:
- Redes Generativas Adversarias (GAN): un modelo generativo, entrenado con datos reales, aprende a imitar sus características, mientras que un discriminador intenta distinguir entre datos reales y sintéticos. A través de este proceso iterativo, el generador mejora su capacidad para producir datos artificiales que son estadísticamente indistinguibles de los originales. Una vez entrenado, el algoritmo puede crear nuevos registros artificiales que son estadísticamente similares a la muestra original, pero completamente nuevos y seguros.
- Autoencoders Variacionales (VAE): Estos modelos se basan en redes neuronales que aprenden una distribución probabilística en un espacio latente de los datos de entrada. Una vez entrenado, el modelo utiliza esta distribución, para obtener nuevas observaciones sintéticas mediante el muestreo y decodificación de los vectores latentes. Los VAE son frecuentemente considerados una opción más estable y sencilla de entrenar en comparación con las GAN para la generación de datos tabulares.
- Modelos autorregresivos/jerárquicos y simuladores de dominio: utilizados, por ejemplo, en datos de historia clínica electrónica, que capturan dependencias temporales y jerárquicas. Los modelos jerárquicos estructuran el problema por niveles, primero muestrean variables de nivel superior y, después las de niveles inferiores condicionadas a las anteriores. Los simuladores de dominio codifican reglas del proceso y se calibran con datos reales, aportando control e interpretabilidad y garantizando el cumplimiento de reglas de negocio.
Puedes conocer más sobre los datos sintéticos y cómo se crean en esta infografía:
Figura 1. Infografía sobre datos sintéticos. Fuente: elaboración propia - datos.gob.es.
Si bien la generación sintética reduce inherentemente el riesgo de divulgación de datos personales, no lo elimina por completo. Sintético no significa automáticamente anónimo ya que, si los generadores se entrenan de forma inadecuada, pueden filtrarse trazas del conjunto real y ser vulnerables a ataques de inferencia de pertenencia (membership inference). De ahí que sea necesario utilizar Tecnologías de Mejora de la Privacidad (PET) como la privacidad diferencial y realizar evaluaciones de riesgo específicas. También el Supervisor Europeo de Protección de Datos (EDPS) ha subrayado la necesidad de realizar una evaluación de garantía de privacidad antes de que los datos sintéticos puedan ser compartidos, garantizando que el resultado no permita obtener datos personales reidentificables.
La Privacidad Diferencial (DP) es una de las tecnologías principales en este dominio. Su mecanismo consiste en añadir ruido controlado al proceso de entrenamiento o a los datos mismos, asegurando matemáticamente que la presencia o ausencia de cualquier individuo en el conjunto de datos original no altere significativamente el resultado final de la generación. El uso de métodos seguros, como el descenso de gradiente estocástico con privacidad diferencial (DP-SGD), garantiza que las muestras generadas no comprometan la privacidad de los usuarios que contribuyeron con sus datos al conjunto sensible.
¿Cuál es el papel de los datos abiertos?
Como es obvio, los datos sintéticos no aparecen de la nada, necesitan datos reales de alta calidad como semilla y, además, requieren buenas prácticas de validación. Por ello, los datos abiertos o los datos que no pueden abrirse por cuestiones relacionadas con la privacidad son, por una parte, una excelente materia prima para aprender patrones del mundo real y, por otra, una referencia independiente para verificar que lo sintético se parece a la realidad sin exponer a personas o empresas.
Como semilla de aprendizaje los datos abiertos de calidad, como los conjuntos de datos de alto valor, con metadatos completos, definiciones claras y esquemas estandarizados, aportan cobertura, granularidad y actualidad. Cuando ciertos conjuntos no pueden hacerse públicos por motivos de privacidad, pueden emplearse internamente con las adecuadas salvaguardas para producir datos sintéticos que sí podrían liberarse. En salud, por ejemplo, existen generadores abiertos como Synthea, que producen historias clínicas ficticias sin las restricciones de uso propias de los datos reales.
Por otra parte, frente a un conjunto sintético, los datos abiertos permiten actuar como patrón de verificación, para contrastar distribuciones, correlaciones y reglas de negocio, así como evaluar la utilidad en tareas reales (predicción, clasificación) sin recurrir a información sensible. En este sentido ya existen trabajos, como el del Gobierno de Gales con datos de salud, que han experimentado con distintos indicadores,. Entre ellos destacan la distancia de variación total (TVD), el índice de propensión (propensity score) y el desempeño en tareas de aprendizaje automático.
¿Cómo se evalúan los datos sintéticos?
La evaluación de los conjuntos de datos sintéticos se articula a través de tres dimensiones que, por su naturaleza, implican un compromiso:
- Fidelidad (Fidelity): mide lo cerca que está el dato sintético de replicar las propiedades estadísticas, correlaciones y la estructura de los datos originales.
- Utilidad (Utility): mide el rendimiento del conjunto de datos sintéticos en tareas posteriores de aprendizaje automático, como la predicción o la clasificación.
- Privacidad (Privacy): mide la efectividad con la que el dato sintético oculta la información sensible y el riesgo de que los sujetos de los datos originales puedan ser reidentificados.

Figura 2. Tres dimensiones para evaluar datos sintéticos. Fuente: elaboración propia - datos.gob.es.
El reto de gobernanza reside en que no es posible optimizar las tres dimensiones simultáneamente. Por ejemplo, aumentar el nivel de privacidad (inyectando más ruido mediante privacidad diferencial) inevitablemente puede reducir la fidelidad estadística y, en consecuencia, la utilidad para ciertas tareas. La elección de qué dimensión priorizar (máxima utilidad para investigación estadística o máxima privacidad) se convierte en una decisión estratégica que debe ser transparente y específica para cada caso de uso.
¿Datos abiertos sintéticos?
La combinación de datos abiertos y datos sintéticos ya puede considerarse algo más que una idea, ya que existen casos reales que demuestran su utilidad para acelerar la innovación y, al mismo tiempo, proteger la privacidad. Además de los ya citados OnTheMap o SIPP Synthetic Beta en Estados Unidos, también encontramos ejemplos en Europa y el resto del mundo. Por ejemplo, el Centro Común de Investigación (JRC) de la Comisión Europea ha analizado el papel de los datos sintéticos generados con IA en la formulación de políticas “AI Generated Synthetic Data in Policy Applications”, destacando su capacidad para acortar el ciclo de vida de las políticas públicas al reducir la carga de acceso a datos sensibles y habilitar fases de exploración y prueba más ágiles. También ha documentado aplicaciones de poblaciones sintéticas multipropósito para análisis de movilidad, energía o salud, reforzando la idea de que los datos sintéticos actúan como habilitador transversal.
En Reino Unido, el Office for National Statistics (ONS) llevó a cabo un Synthetic Data Pilot para entender la demanda de datos sintéticos. En el piloto se exploró la producción de herramientas de generación de microdatos sintéticos de alta calidad para requisitos específicos de los usuarios.
También en salud se observan avances que ilustran el valor de datos abiertos sintéticos para innovación responsable. El Departamento de Salud de la región de Australia Occidental ha impulsado un Synthetic Data Innovation Project y hackatones sectoriales donde se liberan conjuntos sintéticos realistas que permiten a equipos internos y externos probar algoritmos y servicios sin acceso a información clínica identificable, fomentando la colaboración y acelerando la transición de prototipos a casos de uso reales.
En definitiva, los datos sintéticos ofrecen una vía prometedora, aunque no suficientemente explorada, para el desarrollo de las aplicaciones de inteligencia artificial, ya que contribuyen al equilibrio entre el fomento de la innovación y la protección de la privacidad.
Los datos sintéticos no sustituyen a los datos abiertos, sino que se potencian mutuamente. En particular, representan una oportunidad para que las Administraciones públicas pueden ampliar su oferta de datos abiertos con versiones sintéticas de conjuntos sensibles para educación o investigación, y para facilitar que las empresas y desarrolladores independientes experimenten cumpliendo la regulación y puedan generar un mayor valor económico y social.
Contenido elaborado por Jose Luis Marín, Senior Consultant in Data, Strategy, Innovation & Digitalization. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
La educación tiene el poder de transformar vidas. Reconocida como un derecho fundamental por la comunidad internacional, constituye un pilar clave para el desarrollo humano y social. Sin embargo, según datos de la UNESCO, 272 millones de niños y jóvenes siguen sin acceso a la escuela, el 70% de los países destina menos del 4% de su PIB a la educación y aún son necesarios 69 millones de docentes más para lograr la educación primaria y secundaria universal en 2030. Ante este desafío global, los recursos educativos abiertos y las iniciativas de acceso libre se presentan como herramientas decisivas para fortalecer los sistemas de enseñanza, reducir desigualdades y avanzar hacia una educación inclusiva, equitativa y de calidad.
Los recursos educativos abiertos (REA) ofrecen tres beneficios principales: aprovechan las posibilidades de las tecnologías digitales para solucionar retos educativos comunes; actúan como catalizadores de innovación pedagógica y social al transformar la relación entre docentes, estudiantes y conocimiento; y contribuyen a mejorar el acceso equitativo a materiales educativos de alta calidad.
Qué son los recursos educativos abiertos (REA)
Según la UNESCO, los recursos educativos abiertos son "materiales de aprendizaje, enseñanza e investigación en cualquier formato y soporte que existen en el dominio público o están bajo derechos de autor y fueron liberados bajo una licencia abierta". El concepto, acuñado en el foro celebrado en París en el año 2002, tiene como característica fundamental que estos recursos permiten "su acceso sin coste, su reutilización, reorientación, adaptación y redistribución por parte de terceros".
Los REA abarcan una amplia variedad de formatos, desde cursos completos, libros de texto y programas curriculares hasta mapas, vídeos, pódcasts, aplicaciones multimedia, herramientas de evaluación, aplicaciones móviles, bases de datos e incluso simulaciones.
Los recursos educativos abiertos están constituidos por tres elementos que funcionan de manera inseparable:
- Contenidos educativos: incluyen todo tipo de material utilizable en el proceso de enseñanza-aprendizaje, desde objetos formales hasta recursos externos y sociales. Es aquí donde entrarían los datos abiertos, los cuales se pueden aprovechar para generar este tipo de recursos.
- Herramientas tecnológicas: software que permite desarrollar, utilizar, modificar y distribuir el contenido, incluyendo aplicaciones para la creación de contenidos y plataformas para comunidades de aprendizaje.
- Licencias abiertas: elemento diferenciador que respeta la propiedad intelectual mientras proporciona permisos para el uso, adaptación y redistribución de los materiales.
Por tanto, los REA se caracterizan principalmente por su accesibilidad universal, eliminando barreras económicas y geográficas que tradicionalmente limitan el acceso a la educación de calidad.
Innovación educativa y transformación pedagógica
La transformación pedagógica constituye uno de los principales impactos de los recursos educativos abiertos en el panorama educativo actual. Los REA no son simples contenidos digitales gratuitos, sino catalizadores de innovación que están redefiniendo los procesos de enseñanza-aprendizaje a nivel global.
Combinados con metodologías pedagógicas adecuadas y objetivos de aprendizaje bien diseñados, los REA ofrecen nuevas opciones de enseñanza innovadoras para lograr que tanto los docentes como los estudiantes asuman un papel más activo en el proceso educativo e incluso en la creación de contenidos. Fomentan competencias esenciales como el pensamiento crítico, la autonomía y la capacidad de “aprender a aprender”, superando los modelos tradicionales basados en la memorización.
La innovación educativa impulsada por los REA se materializa a través de herramientas tecnológicas abiertas que facilitan su creación, adaptación y distribución. Programas como eXeLearning permiten desarrollar contenidos educativos digitales de manera sencilla, mientras que LibreOffice e Inkscape ofrecen alternativas libres para la producción de materiales.
La interoperabilidad lograda mediante estándares abiertos, como IMS Global o SCORM, garantiza que estos recursos puedan integrarse en diferentes plataformas y, por tanto, la accesibilidad para todos los usuarios, incluidas personas con discapacidades.
Otra innovación prometedora para el futuro de los REA es la combinación de tecnologías descentralizadas como Nostr con herramientas de autoría como LiaScript. Este enfoque resuelve la dependencia de servidores centrales, permitiendo crear un curso completo y distribuirlo a través de una red abierta y resistente a la censura. El resultado es un único y permanente enlace (URI de Nostr) que encapsula todo el material, otorgando al creador la soberanía total sobre su contenido y garantizando su perdurabilidad. En la práctica, esto supone una revolución para el acceso universal al conocimiento. Los educadores comparten su trabajo con la seguridad de que el enlace será siempre válido, mientras que los estudiantes acceden al material de forma directa, sin necesidad de plataformas o intermediarios. Esta sinergia tecnológica es un paso fundamental para materializar la promesa de un ecosistema educativo verdaderamente abierto, resiliente y global, donde el conocimiento fluye sin barreras.
El potencial de los Recursos Educativos Abiertos se concreta gracias a las comunidades y proyectos que los desarrollan y difunden. Iniciativas institucionales, repositorios colaborativos y programas promovidos por organismos públicos y docentes aseguran que los REA sean accesibles, reutilizables y sostenibles.
Colaboración y comunidades de aprendizaje abiertas
La dimensión colaborativa representa uno de los pilares fundamentales que sostienen el movimiento de recursos educativos abiertos. Este enfoque trasciende fronteras y conecta a profesionales de la educación a nivel global.
Las comunidades educativas alrededor de los REA han generado espacios donde docentes comparten experiencias, acuerdan aspectos metodológicos y resuelven dudas sobre la aplicación práctica de estos recursos. La coordinación entre profesionales suele producirse en redes sociales o a través de canales digitales como Telegram, en los que participan tanto usuarios como creadores de contenidos. Este "claustro virtual" facilita la implementación efectiva de metodologías activas en el aula.
Más allá de los espacios surgidos por iniciativa de los propios docentes, distintos organismos e instituciones han promovido proyectos colaborativos y plataformas que facilitan la creación, el acceso y el intercambio de Recursos Educativos Abiertos, ampliando así su alcance e impacto en la comunidad educativa.
Proyectos y repositorios de REA en España
En el caso de España, los Recursos Educativos Abiertos cuentan con un ecosistema consolidado de iniciativas que reflejan la colaboración entre administraciones públicas, centros educativos, comunidades docentes y entidades culturales. Plataformas como Procomún, proyectos de creación de contenidos como EDIA (Educativo, Digital, Innovador y Abierto) o CREA (Creación de Recursos Educativos Abiertos), y repositorios digitales como Hispana muestran la diversidad de enfoques adoptados para poner a disposición de la ciudadanía recursos educativos y culturales en abierto. A continuación, te contamos un poco más sobre ellos:
- El Proyecto EDIA (Educativo, Digital, Innovador y Abierto), desarrollado por el Centro Nacional de Desarrollo Curricular en Sistemas no Propietarios (CEDEC), se centra en la creación de recursos educativos abiertos diseñados para integrarse en entornos que fomentan las competencias digitales y que se adaptan a metodologías activas. Los recursos se crean con eXeLearning, que facilita la edición, e incluyen plantillas, guías, rúbricas y todos los documentos necesarios para llevar al aula la propuesta didáctica.
- La red Procomún nació fruto del Plan de Cultura Digital en la Escuela puesto en marcha en 2012 por el Ministerio de Educación, Cultura y Deporte. Actualmente este repositorio cuenta con más de 74.000 recursos y 300 itinerarios de aprendizaje, junto a un banco multimedia de 100.000 activos digitales bajo la licencia Creative Commons y que, por tanto, se pueden reutilizar para crear nuevos materiales. Dispone, además, de una aplicación móvil. Procomún también utiliza eXeLearning y el estándar LOM-ES, lo que asegura una descripción homogénea de los recursos y facilita su búsqueda y clasificación. Además, es una web semántica, lo que supone que puede conectarse con comunidades existentes a través de la Linked Open Data Cloud.
Desde las comunidades autónomas también se ha promovido la creación de recursos educativos abiertos. Un ejemplo es CREA, un programa de la Junta de Extremadura orientado a la producción colaborativa de recursos educativos abiertos. Su plataforma permite al profesorado crear, adaptar y compartir materiales didácticos estructurados, integrando contenidos curriculares con metodologías activas. Los recursos se generan en formatos interoperables y se acompañan de metadatos que facilitan su búsqueda, reutilización e integración en distintas plataformas.
Existen iniciativas similares, como el proyecto REA-DUA en Andalucía, que aglutina más de 250 recursos educativos para primaria, secundaria y bachillerato, con atención a la diversidad. Por su parte, Galicia puso en marcha el curso 2022-23 cREAgal cuyo portal cuenta en la actualidad con más de 100 recursos de educación primaria y secundaria. Este proyecto incide en la inclusión y promueve la autonomía personal del alumnado. Además, desde algunas consejerías de educación se ponen a disposición recursos educativos abiertos, como es el caso de Canarias.
Hispana, el portal de acceso al patrimonio cultural español
Además de estas iniciativas orientadas a la creación de recursos educativos, han surgido otras que promueven la recopilación de contenidos que no fueron creados con un fin educativo pero que pueden ser utilizados en el aula. Es el caso de Hispana, un portal de agregación de fondos digitales de bibliotecas, archivos y museos españoles.
Para proporcionar acceso al patrimonio cultural y científico español, Hispana recolecta y hace accesibles los metadatos de los objetos digitales, permitiendo visualizar dichos objetos a través de enlaces que dirigen a las páginas de las instituciones propietarias. Además de actuar como recolector, Hispana también agrega el contenido de las instituciones que lo deseen a Europeana, la biblioteca digital europea, lo que permite aumentar la visibilidad y reutilización de los recursos.
Hispana es un repositorio OAI-PMH, lo que significa que utiliza el protocolo Open Archives Initiative – Protocol for Metadata Harvesting, un estándar internacional para la recolección e intercambio de metadatos entre repositorios digitales. Así, Hispana recolecta los metadatos de los archivos, museos y bibliotecas españoles que exponen sus fondos con este protocolo y los envía a Europeana.
Iniciativas internacionales y cooperación global
A nivel global es importante destacar el papel de la Unesco a través de la Coalición Dinámica sobre los REA, que busca coordinar esfuerzos para aumentar la disponibilidad, calidad y sostenibilidad de estos activos.
En Europa, ENCORE+ (European Network for Catalysing Open Resources in Education) busca fortalecer el ecosistema europeo de REA. Entre sus objetivos se encuentra crear una red que conecte universidades, empresas y organismos públicos para impulsar la adopción, reutilización y calidad de los REA en Europa. ENCORE+ promueve, además, la interoperabilidad entre plataformas, la estandarización de metadatos y la cooperación para garantizar la calidad de los recursos.
En Europa se han desarrollado otras iniciativas interesantes como EPALE (Electronic Platform for Adult Learning in Europe), una iniciativa de la Comisión Europea dirigida a los especialistas en educación para personas adultas. La plataforma contiene estudios, informes y materiales formativos, muchos de ellos bajo licencias abiertas, lo que contribuye a la difusión y uso de los REA.
Además, existen numerosos proyectos que generan y ponen a disposición recursos educativos abiertos en todo el mundo. En Estados Unidos, OER Commons funciona como un repositorio global de materiales educativos de diferentes niveles y materias. Este proyecto utiliza Open Author, un editor en línea que facilita que docentes sin conocimientos técnicos avanzados creen y personalicen recursos educativos digitales directamente en la plataforma.
Otro proyecto destacado es el Plan Ceibal, un programa público en Uruguay que representa un modelo de inclusión tecnológica para la igualdad de oportunidades. Además de proveer acceso a tecnología, genera y distribuye REA en formatos interoperables, compatibles con estándares como SCORM y metadatos estructurados que facilitan su búsqueda, integración en plataformas de aprendizaje y reutilización por parte del profesorado.
Junto a iniciativas como estas, existen otras que, aunque no producen recursos educativos abiertos de manera directa, sí fomentan su creación y uso mediante la colaboración entre docentes y estudiantes de diferentes países. Es el caso de proyectos como eTwinning y Global Classroom.
La fortaleza de los REA radica en su contribución a la democratización del conocimiento, su naturaleza colaborativa y su capacidad para impulsar metodologías innovadoras. Al derribar barreras geográficas, económicas y sociales, los recursos educativos abiertos hacen que el derecho a la educación esté un poco más cerca de convertirse en una realidad universal.
Los datos abiertos de fuentes públicas han evolucionado a lo largo de estos años, pasando de ser simples repositorios de información a constituir ecosistemas dinámicos que pueden transformar la gobernanza pública. En este contexto, la inteligencia artificial (IA) emerge como una tecnología catalizadora que se beneficia del valor de los datos abiertos y potencia exponencialmente su utilidad. En este post veremos cómo es la relación simbiótica de mutuo beneficio entre la IA y los datos abiertos.
Tradicionalmente, el debate sobre datos abiertos se ha centrado en los portales: las plataformas en las que gobiernos publican información para que la ciudadanía, las empresas y las organizaciones puedan acceder a ella. Pero la llamada “Tercera Ola de Datos Abiertos”, término acuñado por el GovLab de la Universidad de Nueva York, enfatiza que ya no basta con publicar datasets a demanda o por defecto. Lo importante es pensar en el ecosistema completo: el ciclo de vida de los datos, su explotación, mantenimiento y, sobre todo, el valor que generan en la sociedad.
¿Qué función pueden tener los datos abiertos aplicados a la IA?
En este contexto, la IA aparece como un catalizador capaz de automatizar tareas, enriquecer los datos abiertos gubernamentales (OGD), facilitar su comprensión y estimular la colaboración entre actores.
Una investigación reciente, desarrollada por universidades europeas, mapea cómo está sucediendo esta revolución silenciosa. El estudio propone una clasificación de los usos según en dos dimensiones:
-
Perspectiva, que a su vez se divide en dos posibles vías:
-
Inward-looking (portal): el foco está en las funciones internas de los portales de datos.
-
Outward-looking (ecosistema): el foco se amplía a las interacciones con actores externos (ciudadanos, empresas, organizaciones).
-
-
Fases del ciclo de vida del dato, las cuales podemos dividir en pre-procesamiento, exploración, transformación y mantenimiento.
En resumen, el informe identifica estos ocho tipos de uso de la IA en los datos abiertos gubernamentales, que se producen al cruzar las perspectivas y las fases en el ciclo de vida del dato.

Figura 1. Ocho uso de la IA para mejorar los datos abiertos gubernamentales. Fuente: presentación "Data for AI or AI for data: artificial intelligence as a catalyser for open government ecosystems", basada en el informe del mismo nombre, de los EU Open Data Days 2025.
A continuación, se detalla cada uno de estos usos:
1. IA como depuradora (portal curator)
Esta aplicación se centra en el pre-procesamiento de datos dentro del portal. La IA ayuda a organizar, limpiar, anonimizar y etiquetar datasets antes de su publicación. Algunos ejemplos de tareas son:
-
Automatización y mejora de las tareas de publicación de datos.
-
Realización de funciones de etiquetado automático y categorización.
-
Anonimización de datos para proteger la privacidad.
-
Limpieza y filtrado automático de conjuntos de datos.
-
Extracción de características y manejo de datos faltantes.
2. IA como recolectora de datos del ecosistema (ecosystem data retriever)
También en la fase de pre-procesamiento, pero con un enfoque externo, la IA amplía la cobertura de los portales al identificar y recopilar información de fuentes diversas. Algunas tareas son:
-
Recuperar datos estructurados desde textos legales o normativos.
-
Minería de noticias para enriquecer datasets con información contextual.
-
Integración de datos urbanos procedentes de sensores o registros digitales.
-
Descubrimiento y enlace de fuentes heterogéneas.
- Conversión de documentos complejos en información estructurada.
3. IA como exploradora del portal (portal explorer)
En la fase de exploración, los sistemas de IA también pueden facilitar la búsqueda e interacción con los datos publicados, con un enfoque más interno. Algunos casos de uso:
-
Desarrollar buscadores semánticos para localizar conjuntos de datos.
-
Implementar chatbots que guíen a los usuarios en la exploración de datos.
-
Proporcionar interfaces de lenguaje natural para consultas directas.
-
Optimizar los motores de búsqueda internos del portal.
-
Utilizar modelos de lenguaje para mejorar la recuperación de información.
4. IA como recolectora de información en la web (ecosystem connector)
Operando también en la fase de exploración, la IA actúa como un puente entre actores y recursos del ecosistema. Algunos ejemplos son:
-
Recomendar datasets relevantes a investigadores o empresas.
-
Identificar socios potenciales a partir de intereses comunes.
-
Extraer temas emergentes para apoyar la formulación de políticas.
-
Visualizar datos de múltiples fuentes en paneles interactivos.
-
Personalizar sugerencias de datos basadas en actividades en redes sociales.
5. IA que referencia el portal (portal linker)
Esta funcionalidad se enfoca en la transformación de datos dentro del portal. Su función es facilitar la combinación y presentación de información para distintos públicos. Algunas tareas son:
-
Convertir datos en grafos de conocimiento (estructuras que conectan información relacionada, conocidas como Linked Open Data).
-
Resumir y simplificar datos con técnicas de PLN (Procesamiento del Lenguaje Natural).
-
Aplicar razonamiento automático para generar información derivada.
-
Potenciar la visualización multivariante de datasets complejos.
-
Integrar datos diversos en productos de información accesibles.
6. IA como desarrolladora de valor en el ecosistema (ecosystem value developer)
En la fase de transformación y con mirada externa, la IA genera productos y servicios basados en datos abiertos que aportan valor añadido. Algunas tareas son:
-
Sugerir técnicas analíticas adecuadas según el tipo de conjunto de datos.
-
Asistir en la codificación y procesamiento de información.
-
Crear paneles de control basados en análisis predictivo.
-
Garantizar la corrección y coherencia de los datos transformados.
-
Apoyar el desarrollo de servicios digitales innovadores.
7. IA como supervisora del portal (portal monitor)
Se centra en el mantenimiento del portal, con un enfoque interno. Su papel es garantizar la calidad, consistencia y cumplimiento de estándares. Algunas tareas son:
-
Detectar anomalías y valores atípicos en conjuntos de datos publicados.
-
Evaluar la consistencia de metadatos y esquemas.
-
Automatizar procesos de actualización y depuración de datos.
-
Identificar incidencias en tiempo real para su corrección.
-
Reducir costes de mantenimiento mediante monitorización inteligente.
8. IA como dinamizadora del ecosistema (ecosystem engager)
Y, por último, esta función opera en la fase de mantenimiento, pero hacia afuera. Busca promover la participación ciudadana y la interacción continua. Algunas tareas son:
-
Predecir patrones de uso y anticipar necesidades de los usuarios.
-
Proporcionar retroalimentación personalizada sobre datasets.
-
Facilitar la auditoría ciudadana de la calidad de los datos.
-
Incentivar la participación en comunidades de datos abiertos.
-
Identificar perfiles de usuarios para diseñar experiencias más inclusivas.
¿Qué nos dice la evidencia?
El estudio se basa en una revisión de más de 70 artículos académicos que examinan la intersección entre IA y los datos abiertos gubernamentales (open government data u OGD). A partir de estos casos, los autores observan que:
-
Algunos de los perfiles definidos, como portal curator, portal explorer y portal monitor, están relativamente maduros y cuentan con múltiples ejemplos en la literatura.
-
Otros, como ecosystem value developer y ecosystem engager, están menos explorados, aunque son los que más potencial tienen para generar impacto social y económico.
-
La mayoría de las aplicaciones actuales se centran en automatizar tareas concretas, pero hay un gran margen para diseñar arquitecturas más integrales, que combinen varios tipos de IA en un mismo portal o en todo el ciclo de vida del dato.
Desde un punto de vista académico, esta tipología aporta un lenguaje común y una estructura conceptual para estudiar la relación entre IA y datos abiertos. Permite identificar vacíos en la investigación y orientar futuros trabajos hacia un enfoque más sistémico.
En la práctica, el marco es útil para:
-
Gestores de portales de datos: les ayuda a identificar qué tipos de IA pueden implementar según sus necesidades, desde mejorar la calidad de los datasets hasta facilitar la interacción con los usuarios.
-
Responsables políticos: les orienta sobre cómo diseñar estrategias de adopción de IA en iniciativas de datos abiertos, equilibrando eficiencia, transparencia y participación.
-
Investigadores y desarrolladores: les ofrece un mapa de oportunidades para crear herramientas innovadoras que atiendan necesidades específicas del ecosistema.
Limitaciones y próximos pasos de la sinergia entre IA y open data
Además de las ventajas, el estudio reconoce algunas asignaturas pendientes que, en cierta manera, sirven como hoja de ruta para el futuro. Para empezar, varias de las aplicaciones que se han identificado están todavía en fases tempranas o son conceptuales. Y, quizá lo más relevante, aún no se ha abordado en profundidad el debate sobre los riesgos y dilemas éticos del uso de IA en datos abiertos: sesgos, privacidad, sostenibilidad tecnológica.
En definitiva, la combinación de IA y datos abiertos es todavía un terreno en construcción, pero con un enorme potencial. La clave estará en pasar de experimentos aislados a estrategias integrales, capaces de generar valor social, económico y democrático. La IA, en este sentido, no funciona de manera independiente a los datos abiertos: los multiplica y los hace más relevantes para gobiernos, ciudadanía y sociedad en general.
Sabemos que los datos abiertos que gestiona el sector público en el ejercicio de sus funciones constituyen un recurso de gran valor para fomentar la transparencia, impulsar la innovación y estimular el desarrollo económico. A nivel global, en los últimos 15 años esta idea ha llevado a la creación de portales de datos que sirven como punto de acceso único para la información pública tanto de un país, como de una región o ciudad.
Sin embargo, en ocasiones nos encontramos que el pleno aprovechamiento del potencial de los datos abiertos se ve limitado por problemas inherentes a su calidad. Inconsistencias, falta de estandarización o interoperabilidad y metadatos incompletos son solo algunos de los desafíos comunes que a veces merman la utilidad de los conjuntos de datos abiertos y que las agencias gubernamentales además señalan como el principal obstáculo para la adopción de la IA.
Cuando hablamos de la relación entre datos abiertos e inteligencia artificial, casi siempre partimos de la misma idea: los datos abiertos alimentan a la IA, esto es, son parte del combustible de los modelos. Ya sea para entrenar modelos fundacionales como ALIA, para especializar modelos de lenguaje pequeños (SLM) frente a LLM, o para evaluar y validar sus capacidades o explicar su comportamiento (XAI), el argumento gira en torno a la utilidad de los datos abiertos para la inteligencia artificial, olvidando que los datos abiertos ya estaban ahí y tienen muchas otras utilidades.
Por ello, vamos a invertir la perspectiva y a explorar cómo la propia IA puede convertirse en una herramienta poderosa para mejorar la calidad y, por tanto, el valor de los propios datos abiertos. Este enfoque, que ya esbozó la Comisión Económica para Europa de las Naciones Unidas (UNECE) en su pionero informe Machine Learning for Official Statistics de 2022, adquiere una mayor relevancia desde la explosión de la IA generativa. Actualmente podemos utilizar la inteligencia artificial disponible para incrementar la calidad de los conjuntos de datos que se publican a lo largo de todo su ciclo de vida: desde la captura y la normalización hasta la validación, la anonimización, la documentación y el seguimiento en producción.
Con ello, podemos aumentar el valor público del dato, contribuir a que crezca su reutilización y a amplificar su impacto social y económico. Y, al mismo tiempo, a mejorar la calidad de la siguiente generación de modelos de inteligencia artificial.
Desafíos comunes en la calidad de los datos abiertos
La calidad de los datos ha sido tradicionalmente un factor crítico para el éxito de cualquier iniciativa de datos abiertos, que aparece citado en numerosos informes como el de Comisión Europea “Improving data publishing by open data portal managers and owners”. Los desafíos más frecuentes que enfrentan los publicadores de datos incluyen:
-
Inconsistencias y errores: en los conjuntos de datos, es frecuente la presencia de datos duplicados, formatos heterogéneos o valores atípicos. La corrección de estos pequeños errores, idealmente en la propia fuente de los datos, tenía tradicionalmente un coste elevado y limitaba enormemente la utilidad de numerosos conjuntos de datos.
-
Falta de estandarización e interoperabilidad: dos conjuntos que hablan de lo mismo pueden nombrar las columnas de forma diferente, usar clasificaciones no comparables o carecer de identificadores persistentes para enlazar entidades. Sin un mínimo común, combinar fuentes se convierte en un trabajo artesanal que encarece la reutilización de los datos.
- Metadatos incompletos o inexactos: la carencia de información clara sobre el origen, la metodología de recolección, la frecuencia de actualización o el significado de los campos, complica la comprensión y el uso de los datos. Por ejemplo, saber con certeza si se puede integrar el recurso en un servicio, si está al día o si existe un punto de contacto para resolver dudas es muy importante para su reutilización.
- Datos obsoletos o desactualizados: en dominios muy dinámicos como la movilidad, los precios o los datos de medio ambiente, un conjunto desactualizado puede generar conclusiones erróneas. Y si no hay versiones, registro de cambios o indicadores de frescura, es difícil saber qué ha variado y por qué. La ausencia de un “historial” de los datos complica la auditoría y reduce la confianza.
- Sesgos inherentes: a veces la cobertura es incompleta, ciertas poblaciones quedan infrarrepresentadas o una práctica administrativa introduce una desviación sistemática. Si estos límites no se documentan y advierten, los análisis pueden reforzar desigualdades o llegar a conclusiones injustas sin que nadie lo perciba.
Dónde puede ayudar la Inteligencia Artificial
Por fortuna, en su estado actual, la inteligencia artificial ya está en disposición de proporcionar un conjunto de herramientas que pueden contribuir a abordar algunos de estos desafíos de calidad de los datos abiertos, transformando su gestión de un proceso manual y propenso a errores en uno más automatizado y eficiente:
- Detección y corrección de errores automatizada: los algoritmos de aprendizaje automático y los modelos de IA pueden identificar automáticamente y con una gran fiabilidad inconsistencias, duplicados, valores atípicos y errores tipográficos en grandes volúmenes de datos. Además, la IA puede ayudar a normalizar y estandarizar datos, transformándolos por ejemplo a formatos y esquemas comunes para facilitar la interoperabilidad (como DCAT-AP), y con una fracción del coste que suponía hasta el momento.
- Enriquecimiento de metadatos y catalogación: las tecnologías asociadas al procesamiento de lenguaje natural (PLN), incluyendo el uso de modelos de lenguaje grandes (LLM) y pequeños (SLM), puede ayudar en la tarea de analizar descripciones y generar metadatos más completos y precisos. Esto incluye tareas como sugerir etiquetas relevantes, categorías de clasificación o extraer entidades clave (nombres de lugares, organizaciones, etc.) de descripciones textuales para enriquecer los metadatos.
- Anonimización y privacidad: cuando los datos abiertos contienen información que podría afectar a la privacidad, la anonimización se convierte en una tarea crítica, pero, en ocasiones, costosa. La Inteligencia Artificial puede contribuir a que la anonimización sea mucho más robusta y a minimizar riesgos relacionados con la re-identificación al combinar diferentes conjuntos de datos.
Evaluación de sesgos: la IA puede analizar los propios conjuntos de datos abiertos para detectar sesgos de representación o históricos. Esto permite a los publicadores tomar medidas para corregirlos o, al menos, advertir a los usuarios sobre su presencia para que sean tenidos en cuenta cuando vayan a reutilizarse. En definitiva, la inteligencia artificial no debe verse solo como “consumidora” de datos abiertos, sino también como una aliada estratégica para mejorar su calidad. Cuando se integra con estándares, procesos y supervisión humana, la IA ayuda a detectar y explicar incidencias, a documentar mejor los conjuntos y a publicar evidencias de calidad que refuerzan la confianza. Tal y como se describe en la Estrategia de Inteligencia Artificial 2024, esa sinergia libera más valor público: facilita la innovación, permite decisiones mejor informadas y consolida un ecosistema de datos abiertos más robusto y fiable con unos datos abiertos más útiles, más confiables y con mayor impacto social.
Además, se activa un ciclo virtuoso: datos abiertos de mayor calidad entrenan modelos más útiles y seguros; y modelos más capaces facilitan seguir elevando la calidad de los datos. De este modo la gestión del dato deja de ser una tarea estática de publicación y se convierte en un proceso dinámico de mejora continua.
Contenido elaborado por Jose Luis Marín, Senior Consultant in Data, Strategy, Innovation & Digitalization. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
La inteligencia artificial (IA) se ha convertido en una tecnología central en la vida de las personas y en la estrategia de las empresas. En poco más de una década hemos pasado de interactuar con asistentes virtuales que entendían órdenes sencillas, a ver sistemas capaces de redactar informes completos, crear imágenes hiperrealistas o incluso escribir código.
Este salto tan visible ha hecho que muchos se pregunten: ¿es todo lo mismo?, ¿qué diferencia hay entre lo que ya conocíamos como IA y esta nueva “IA Generativa” de la que tanto se habla?
En este artículo vamos a ordenar esas ideas y explicar, con ejemplos claros, cómo encajan la IA “Tradicional” y la IA Generativa bajo el gran paraguas de la inteligencia artificial.
La IA tradicional: análisis y predicción
Durante muchos años, lo que entendíamos por IA estaba más cerca de lo que hoy llamamos “IA Tradicional”. Estos sistemas se caracterizan por resolver problemas concretos, bien definidos y dentro de un marco de reglas o datos disponibles.
Algunos ejemplos prácticos:
-
Motores de recomendación: Spotify sugiere canciones basadas en tu historial de escucha y Netflix ajusta su catálogo a tus gustos personales, generando hasta el 80% de las visualizaciones en la plataforma.
-
Sistemas de predicción: Walmart utiliza modelos predictivos para anticipar la demanda de productos en función de factores como el clima o eventos locales; Red Eléctrica de España aplica algoritmos similares para prever el consumo eléctrico y equilibrar la red.
- Reconocimiento automático: Google Photos clasifica imágenes reconociendo rostros y objetos; Visa y Mastercard usan modelos de detección de anomalías para identificar fraudes en tiempo real; herramientas como Otter.ai transcriben reuniones y llamadas automáticamente.
En todos estos casos, los modelos aprenden de datos pasados para ofrecer una clasificación, una predicción o una decisión. No inventan nada nuevo, sino que reconocen patrones y los aplican al futuro.
La IA Generativa: creación de contenido
La novedad de la IA generativa es que no solo analiza, sino que produce (genera) a partir de los datos que tiene.
En la práctica, esto significa que:
-
Puede generar texto estructurado a partir de un par de ideas iniciales.
-
Puede combinar elementos visuales existentes a partir de una descripción escrita.
-
Puede crear prototipos de productos, borradores de presentaciones o proponer fragmentos de código basados en patrones aprendidos.
La clave está en que los modelos generativos no se limitan a clasificar o predecir, sino que generan nuevas combinaciones basadas en lo que aprendieron durante su entrenamiento.
El impacto de este avance es enorme: en el mundo del desarrollo, GitHub Copilot ya incluye agentes que detectan y corrigen errores de programación por sí mismos; en diseño, la herramienta Nano Banana de Google promete revolucionar la edición de imágenes con una eficacia que podría dejar obsoletos programas como Photoshop; y en música, bandas enteramente creadas por IA como Velvet Velvet Sundown ya superan el millón de oyentes mensuales en Spotify, con canciones, imágenes y biografía totalmente generadas, sin músicos reales detrás.
¿Cuándo es mejor utilizar cada tipo de IA?
La elección entre IA Tradicional y Generativa no es cuestión de moda, sino de qué necesidad concreta se quiere resolver. Cada una brilla en situaciones distintas:
IA Tradicional: la mejor opción cuando…
-
Necesitas predecir comportamientos futuros basándote en datos históricos (ventas, consumo energético, mantenimiento predictivo).
-
Quieres detectar anomalías o clasificar información de forma precisa (fraude en transacciones, diagnóstico por imágenes, spam).
-
Buscas optimizar procesos para ganar eficiencia (logística, rutas de transporte, gestión de inventarios).
-
Trabajas en entornos críticos donde la fiabilidad y la precisión son imprescindibles (salud, energía, finanzas).
Utilízala cuando el objetivo es tomar decisiones basadas en datos reales con la máxima precisión posible.
IA Generativa: la mejor opción cuando…
-
Necesitas crear contenido (textos, imágenes, música, vídeos, código).
-
Quieres prototipar o experimentar con rapidez, explorando diferentes escenarios antes de decidir (diseño de productos, pruebas en I+D).
-
Buscas interacción más natural con usuarios (chatbots, asistentes virtuales, interfaces conversacionales).
-
Requieres personalización a gran escala, generando mensajes o materiales adaptados a cada individuo (marketing, formación, educación).
-
Te interesa simular escenarios que no puedes obtener fácilmente con datos reales (casos clínicos ficticios, datos sintéticos para entrenar otros modelos).
Utilízala cuando el objetivo es crear, personalizar o interactuar de una manera más humana y flexible.
Un ejemplo del ámbito sanitario lo ilustra bien:
-
La IA tradicional puede analizar miles de registros clínicos para anticipar la probabilidad de que un paciente desarrolle una enfermedad.
-
La IA generativa puede crear escenarios ficticios para entrenar a estudiantes de medicina, generando casos clínicos realistas sin exponer datos reales de pacientes.
¿Compiten o se complementan?
En 2019, Gartner introdujo el concepto de Composite AI para describir soluciones híbridas que combinaban distintos enfoques de inteligencia artificial con el fin de resolver un problema de manera más completa. Aunque entonces era un término poco extendido, hoy cobra más relevancia que nunca gracias a la irrupción de la IA Generativa.
La IA Generativa no sustituye a la IA Tradicional, sino que la complementa. Cuando se integran ambos enfoques dentro de un mismo flujo de trabajo, se logran resultados mucho más potentes que si se empleara cada tecnología por separado.
Aunque, según Gartner, Composite AI continúa en la fase de Innovation Trigger, donde una tecnología emergente comienza a generar interés, y aunque su uso práctico todavía es limitado, ya vemos muchas nuevas tendencias generándose en múltiples sectores:
-
En retail: un sistema tradicional predice cuántos pedidos recibirá una tienda la próxima semana, y una IA generativa genera automáticamente descripciones de producto personalizadas para los clientes de esos pedidos.
-
En educación: un modelo tradicional evalúa el progreso de los estudiantes y detecta áreas débiles, mientras que una IA generativa diseña ejercicios o materiales adaptados a esas necesidades.
-
En diseño industrial: un algoritmo tradicional optimiza la logística de fabricación, mientras que una IA generativa propone prototipos de nuevas piezas o productos.
En definitiva, en lugar de cuestionar qué tipo de IA es más avanzada, lo acertado es preguntarse: ¿qué problema quiero resolver y qué enfoque de IA es el adecuado para ello?
Contenido elaborado por Juan Benavente, ingeniero superior industrial y experto en Tecnologías ligadas a la economía del dato. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
Desde hoy, 15 de septiembre, están abiertas las inscripciones para uno de los eventos más importantes del sector geoespacial en la península ibérica. Las XVI Jornadas Ibéricas de Infraestructuras de Datos Espaciales (JIIDE 2025) se celebrarán en Oviedo del 12 al 14 de noviembre de 2025. Este encuentro anual representa una oportunidad única para explorar las últimas tendencias en reutilización de datos espaciales, especialmente en el contexto de la aplicación de inteligencia artificial al conocimiento territorial.
Desde su primera edición en 2011, las JIIDE han evolucionado como resultado de la colaboración entre la Direção-Geral do Território de Portugal, el Instituto Geográfico Nacional de España a través del Centro Nacional de Información Geográfica, y el Gobierno de Andorra. En esta decimosexta edición se suman también la Consejería de Ordenación del Territorio, Urbanismo, Vivienda y Derechos Ciudadanos del Principado de Asturias y la Universidad de Oviedo, consolidando así una iniciativa que reúne cada año a centenares de profesionales de la Administración pública, el sector privado y el ámbito académico.
Durante tres días, expertos con acreditada experiencia y conocimiento técnico en información geográfica compartirán sus desarrollos más innovadores, metodologías de trabajo y casos de éxito en la gestión y reutilización de datos espaciales.
Dos ejes: la inteligencia artificial y el marco normativo INSPIRE y HVDS
El tema central de esta edición, "IA y territorio: explorando las nuevas fronteras del conocimiento espacial", refleja la evolución natural del sector hacia la incorporación de tecnologías emergentes. La inteligencia artificial, el aprendizaje automático y los algoritmos de análisis avanzado están transformando radicalmente la manera en que procesamos, analizamos y extraemos valor de los datos geoespaciales.
Esta orientación hacia la IA no es casual. La publicación y de los datos geoespaciales permite aprovechar uno de los activos digitales más valiosos para el desarrollo económico, la vigilancia medioambiental, la competitividad, la innovación y la creación de empleo. Cuando estos datos se combinan con técnicas de inteligencia artificial, su potencial se multiplica exponencialmente.
Las jornadas se desarrollan en un momento especialmente relevante para el ecosistema de datos abiertos. La Directiva INSPIRE, junto con la Directiva (UE) 2019/1024 sobre datos abiertos y reutilización de la información del sector público, ha establecido un marco regulatorio que reconoce explícitamente el valor económico y social de los datos geoespaciales digitales.
La evolución en la publicación de los conjuntos de datos de alto valor marca un hito importante en este proceso. Estos conjuntos, caracterizados por su gran potencial para la reutilización, deben estar disponibles de forma gratuita, en formatos legibles por máquinas y a través de interfaces de programación de aplicaciones (API). Los datos geoespaciales ocupan una posición central en esta categorización, lo que subraya su importancia estratégica para el ecosistema de datos abiertos europeo.
Las JIIDE 2025 dedicarán especial atención a presentar ejemplos prácticos de reutilización de estos conjuntos de datos de alto valor, tanto mediante las nuevas OGC API como a través de los servicios de descarga tradicionales y los formatos interoperables establecidos. Esta aproximación práctica permitirá a los asistentes conocer casos reales de implementación y sus resultados tangibles.
Programa diverso: casos de uso, IA y reutilización de datos geoespaciales
También puedes consultar el programa aquí. Entre las actividades previstas, hay sesiones que abarcan desde aspectos técnicos fundamentales hasta aplicaciones innovadoras que demuestran el potencial transformador de estos datos. Las actividades se organizan en cinco temáticas principales:
Estructura de datos espaciales y metadatos.
Gestión y publicación de datos.
Desarrollo de software espacial.
Inteligencia artificial.
Cooperación entre agentes.
Algunos de los temas destacados son la gestión de proyectos y coordinación, donde se presentarán sistemas corporativos como el SIG de la Junta de Andalucía o el SITNA del Gobierno de Navarra. La observación de la Tierra ocupará también un lugar prominente, con presentaciones sobre la evolución del programa del Plan Nacional de Ortofotografía Aérea (APNOA) y técnicas avanzadas de procesamiento de imágenes mediante deep learning.
Por otro lado, los visualizadores temáticos también representan otro eje fundamental, mostrando cómo los datos espaciales pueden transformarse en herramientas accesibles para la ciudadanía. Desde visualizadores de eclipses hasta herramientas para calcular el potencial solar de los tejados, se presentarán desarrollos que demuestran cómo la reutilización creativa de datos puede generar servicios de alto valor social.
Siguiendo la temática anual, la aplicación de IA a los datos geoespaciales se abordará desde múltiples perspectivas. Se presentarán casos de uso en áreas tan diversas como la detección automática de instalaciones deportivas, la clasificación de nubes de puntos LiDAR, la identificación de materiales peligrosos como el amianto, o la optimización de la movilidad urbana.
Una de las sesiones más relevantes para la comunidad de datos abiertos se centrará específicamente en "Reutilización y gobierno abierto". Esta sesión abordará la integración de las infraestructuras de datos espaciales en los portales de datos abiertos, los metadatos de datos espaciales según el estándar GeoDCAT-AP, y la aplicación de normativas de calidad del dato.
Las administraciones locales desempeñan un papel fundamental en la generación y publicación de datos espaciales. Por este motivo, las JIIDE 2025 dedicarán una sesión específica a la publicación de datos locales, donde municipios como Barcelona, Madrid, Bilbao o Cáceres compartirán sus experiencias y desarrollos.
Además de las sesiones teóricas, las jornadas incluyen talleres prácticos sobre herramientas, metodologías y tecnologías específicas. Estos talleres, de 45 minutos a una hora de duración, permiten a los asistentes experimentar directamente con las soluciones presentadas. Algunos de ellos abordan la creación de geoportales web personalizados y otros, por ejemplo, la implementación de API OGC, pasando por técnicas de visualización avanzada y herramientas de gestión de metadatos.
Participa de manera presencial u online
Las JIIDE mantienen su compromiso con la participación abierta, invitando tanto a investigadores como a profesionales a presentar sus herramientas, soluciones técnicas, metodologías de trabajo y casos de éxito. Además, las JIIDE 2025 se celebrarán en modalidad híbrida, permitiendo tanto la participación presencial en Oviedo como el seguimiento virtual.
Esta flexibilidad, mantenida desde las experiencias de los últimos años, garantiza que los profesionales de todo el territorio ibérico y más allá puedan beneficiarse del conocimiento compartido. La participación continúa siendo gratuita, aunque requiere registro previo en cada sesión, mesa redonda o taller.
Desde hoy mismo, puedes inscribirte y aprovechar esta oportunidad de aprendizaje e intercambio de experiencias sobre datos geoespaciales. Las inscripciones están disponibles en la web oficial del evento: https://www.jiide.org/web/portal/inicio
Las imágenes sintéticas son representaciones visuales generadas de forma artificial mediante algoritmos y técnicas computacionales, en lugar de capturarse directamente de la realidad con cámaras o sensores. Se producen a partir de distintos métodos, entre los que destacan las redes generativas antagónicas (Generative Adversarial Networks, GAN), los modelos de difusión, y las técnicas de renderizado 3D. Todas ellas permiten crear imágenes de apariencia realista que en muchos casos resultan indistinguibles de una fotografía auténtica.
Cuando se traslada este concepto al campo de la observación de la Tierra, hablamos de imágenes satelitales sintéticas. Estas no se obtienen a partir de un sensor espacial que capta radiación electromagnética real, sino que se generan digitalmente para simular lo que vería un satélite desde la órbita. En otras palabras, en vez de reflejar directamente el estado físico del terreno o la atmósfera en un momento concreto, son construcciones computacionales capaces de imitar el aspecto de una imagen satelital real.
El desarrollo de este tipo de imágenes responde a necesidades prácticas. Los sistemas de inteligencia artificial que procesan datos de teledetección requieren conjuntos muy amplios y variados de imágenes. Las imágenes sintéticas permiten, por ejemplo, recrear zonas de la Tierra poco observadas, simular desastres naturales -como incendios forestales, inundaciones o sequías- o generar condiciones específicas que son difíciles o costosas de capturar en la práctica. De este modo, constituyen un recurso valioso para entrenar algoritmos de detección y predicción en agricultura, gestión de emergencias, urbanismo o monitorización ambiental.
Su valor no se limita al entrenamiento de modelos. Allí donde no existen imágenes de alta resolución —por limitaciones técnicas, restricciones de acceso o motivos económicos—, la síntesis permite rellenar huecos de información y facilitar estudios preliminares. Por ejemplo, los investigadores pueden trabajar con imágenes sintéticas aproximadas para diseñar modelos de riesgo o simulaciones antes de disponer de datos reales.
Sin embargo, las imágenes satelitales sintéticas también plantean riesgos importantes. La posibilidad de generar escenas muy realistas abre la puerta a la manipulación y a la desinformación. En un contexto geopolítico, una imagen que muestre tropas inexistentes o infraestructuras destruidas podría influir en decisiones estratégicas o en la opinión pública internacional. En el terreno ambiental, se podrían difundir imágenes manipuladas para exagerar o minimizar impactos de fenómenos como la deforestación o el deshielo, con efectos directos en políticas y mercados.
Por ello, conviene diferenciar dos usos muy distintos. El primero es el uso como apoyo, cuando las imágenes sintéticas complementan a las reales para entrenar modelos o realizar simulaciones. El segundo es el uso como falsificación, cuando se presentan deliberadamente como imágenes auténticas con el fin de engañar. Mientras el primer uso impulsa la innovación, el segundo amenaza la confianza en los datos satelitales y plantea un reto urgente de autenticidad y gobernanza.
Riesgos de las imágenes satelitales aplicada a la observación de la Tierra
Las imágenes satelitales sintéticas plantean riesgos significativos cuando se utilizan en vez de imágenes captadas por sensores reales. A continuación, se detallan ejemplos que lo demuestran.
Un nuevo frente de desinformación: “deepfake geography”
El término deepfake geography ya se ha consolidado en la literatura académica y divulgativa para describir imágenes satelitales ficticias, manipuladas con IA, que parecen auténticas, pero no reflejan ninguna realidad existente. Una investigación de la Universidad de Washington, liderada por Bo Zhao, utilizó algoritmos como CycleGAN para modificar imágenes de ciudades reales -por ejemplo, alterando la apariencia de Seattle con edificios inexistentes o transformando Beijing en zonas verdes- lo que pone en evidencia el potencial para generar paisajes falsos convincentes.
Un artículo de la plataforma OnGeo Intelligence (OGC) subraya que estas imágenes no son puramente teóricas, sino amenazas reales que afectan a la seguridad nacional, el periodismo y el trabajo humanitario. Por su parte, el OGC advierte que ya se han observado imágenes satelitales fabricadas, modelos urbanos generados por IA y redes de carreteras sintéticas, y que representan desafíos reales a la confianza pública y operativa.
Implicaciones estratégicas y políticas
Las imágenes satelitales son consideradas "ojos imparciales" sobre el planeta, usadas por gobiernos, medios y organizaciones. Cuando estas imágenes se falsifican, sus consecuencias pueden ser graves:
- Seguridad nacional y defensa: si se presentan infraestructuras falsas o se ocultan otras reales, se pueden desviar análisis estratégicos o inducir decisiones militares equivocadas.
- Desinformación en conflictos o crisis humanitarias: una imagen alterada que muestre incendios, inundaciones o movimientos de tropas falsos puede alterar la respuesta internacional, los flujos de ayuda o la percepción de los ciudadanos, especialmente si se difunde por redes sociales o medios sin verificación.
- Manipulación de imágenes realistas de lugares: no solo las imágenes generales están en juego. Nguyen y colaboradores (2024) demostraron que es posible generar imágenes satelitales sintéticas altamente realistas de instalaciones muy específicas como plantas nucleares.
Crisis de confianza y erosión de la verdad
Durante décadas, las imágenes satelitales han sido percibidas como una de las fuentes más objetivas y fiables de información sobre nuestro planeta. Eran la prueba gráfica que permitía confirmar fenómenos ambientales, seguir conflictos armados o evaluar el impacto de desastres naturales. En muchos casos, estas imágenes se utilizaban como “evidencia imparcial”, difíciles de manipular y fáciles de validar. Sin embargo, la irrupción de las imágenes sintéticas generadas por inteligencia artificial ha empezado a poner en cuestión esa confianza casi inquebrantable.
Hoy en día, cuando una imagen satelital puede ser falsificada con gran realismo, surge un riesgo profundo: la erosión de la verdad y la aparición de una crisis de confianza en los datos espaciales.
La quiebra de la confianza pública
Cuando los ciudadanos ya no pueden distinguir entre una imagen real y una fabricada, se resquebraja la confianza en las fuentes de información. La consecuencia es doble:
- Desconfianza hacia las instituciones: si circulan imágenes falsas de un incendio, una catástrofe o un despliegue militar y luego resultan ser sintéticas, la ciudadanía puede empezar a dudar también de las imágenes auténticas publicadas por agencias espaciales o medios de comunicación. Este efecto “que viene el lobo” genera escepticismo incluso frente a pruebas legítimas.
- Efecto en el periodismo: los medios tradicionales, que han usado históricamente las imágenes satelitales como fuente visual incuestionable, corren el riesgo de perder credibilidad si publican imágenes adulteradas sin verificación. Al mismo tiempo, la abundancia de imágenes falsas en redes sociales erosiona la capacidad de distinguir qué es real y qué no.
- Confusión deliberada: en contextos de desinformación, la mera sospecha de que una imagen pueda ser falsa ya puede bastar para generar duda y sembrar confusión, aunque la imagen original sea completamente auténtica.
A continuación, se resumen los posibles casos de manipulación y riesgo en imágenes satelitales:
| Ámbito | Tipo de manipulación | Riesgo principal | Ejemplo documentado |
|---|---|---|---|
| Conflictos armados | Inserción o eliminación de infraestructuras militares. | Desinformación estratégica; decisiones militares erróneas; pérdida de credibilidad en observación internacional. | Alteraciones demostradas en estudios de deepfake geography donde se añadían carreteras, puentes o edificios ficticios en imágenes satelitales. |
| Cambio climático y medio ambiente | Alteración de glaciares, deforestación o emisiones. | Manipulación de políticas ambientales; retraso en medidas contra el cambio climático; negacionismo. | Estudios han mostrado la capacidad de generar paisajes modificados (bosques en zonas urbanas, cambios en el hielo) mediante GAN. |
| Gestión de emergencias | Creación de desastres inexistentes (incendios, inundaciones). | Mal uso de recursos en emergencias; caos en evacuaciones; pérdida de confianza en agencias. | Investigaciones han demostrado la facilidad de insertar humo, fuego o agua en imágenes satelitales. |
| Mercados y seguros | Falsificación de daños en infraestructuras o cultivos. | Impacto financiero; fraude masivo; litigios legales complejos. | Uso potencial de imágenes falsas para exagerar daños tras desastres y reclamar indemnizaciones o seguros. |
| Derechos humanos y justicia internacional | Alteración de pruebas visuales sobre crímenes de guerra. | Deslegitimación de tribunales internacionales; manipulación de la opinión pública. | Riesgo identificado en informes de inteligencia: imágenes adulteradas podrían usarse para acusar o exonerar a actores en conflictos. |
| Geopolítica y diplomacia | Creación de ciudades ficticias o cambios fronterizos. | Tensiones diplomáticas; cuestionamiento de tratados; propaganda estatal. | Ejemplos de deepfake maps que transforman rasgos geográficos de ciudades como Seattle o Tacoma. |
Figura 2. Tabla con los posibles casos de manipulación y riesgo en imágenes satelitales
Impacto en la toma de decisiones y políticas públicas
Las consecuencias de basarse en imágenes adulteradas van mucho más allá del terreno mediático:
- Urbanismo y planificación: decisiones sobre dónde construir infraestructuras o cómo planificar zonas urbanas podrían tomarse sobre imágenes manipuladas, generando errores costosos y de difícil reversión.
- Gestión de emergencias: si una inundación o un incendio se representan en imágenes falsas, los equipos de emergencia pueden destinar recursos a lugares equivocados, mientras descuidan zonas realmente afectadas.
- Cambio climático y medio ambiente: imágenes adulteradas de glaciares, deforestación o emisiones contaminantes podrían manipular debates políticos y retrasar la implementación de medidas urgentes.
- Mercados y seguros: aseguradoras y empresas financieras que confían en imágenes satelitales para evaluar daños podrían ser engañadas, con consecuencias económicas significativas.
En todos estos casos, lo que está en juego no es solo la calidad de la información, sino la eficacia y legitimidad de las políticas públicas basadas en esos datos.
El juego del gato y el ratón tecnológico
La dinámica de generación y detección de falsificaciones ya se conoce en otros ámbitos, como los deepfakes de vídeo o audio: cada vez que surge un método de generación más realista, se desarrolla un algoritmo de detección más avanzado, y viceversa. En el ámbito de las imágenes satelitales, esta carrera tecnológica tiene particularidades:
- Generadores cada vez más sofisticados: los modelos de difusión actuales pueden crear escenas de gran realismo, integrando texturas de suelo, sombras y geometrías urbanas que engañan incluso a expertos humanos.
- Limitaciones de la detección: aunque se desarrollan algoritmos para identificar falsificaciones (analizando patrones de píxeles, inconsistencias en sombras o metadatos), estos métodos no siempre son fiables cuando se enfrentan a generadores de última generación.
- Coste de la verificación: verificar de forma independiente una imagen satelital requiere acceso a fuentes alternativas o sensores distintos, algo que no siempre está al alcance de periodistas, ONG o ciudadanos.
- Armas de doble filo: las mismas técnicas usadas para detectar falsificaciones pueden ser aprovechadas por quienes las generan, perfeccionando aún más las imágenes sintéticas y haciendo más difícil diferenciarlas.
De la prueba visual a la prueba cuestionada
El impacto más profundo es cultural y epistemológico: lo que antes se asumía como una prueba objetiva ahora se convierte en un elemento sujeto a duda. Si las imágenes satelitales dejan de ser percibidas como evidencia fiable, se debilitan narrativas fundamentales en torno a la verdad científica, la justicia internacional y la rendición de cuentas política.
- En conflictos armados, una imagen de satélite que muestre posibles crímenes de guerra puede ser descartada bajo la acusación de ser un deepfake.
- En tribunales internacionales, pruebas basadas en observación satelital podrían perder peso frente a la sospecha de manipulación.
- En el debate público, el relativismo de “todo puede ser falso” puede usarse como arma retórica para deslegitimar incluso la evidencia más sólida.
Estrategias para garantizar autenticidad
La crisis de confianza en las imágenes satelitales no es un problema aislado del sector geoespacial, sino que forma parte de un fenómeno más amplio: la desinformación digital en la era de la inteligencia artificial. Así como los deepfakes de vídeo han puesto en cuestión la validez de pruebas audiovisuales, la proliferación de imágenes satelitales sintéticas amenaza con debilitar la última frontera de datos percibidos como objetivos: la mirada imparcial desde el espacio.
Garantizar la autenticidad de estas imágenes exige una combinación de soluciones técnicas y mecanismos de gobernanza, capaces de reforzar la trazabilidad, la transparencia y la responsabilidad en toda la cadena de valor de los datos espaciales. A continuación, se describen las principales estrategias en desarrollo.
Metadatos robustos: registrar el origen y la cadena de custodia
Los metadatos constituyen la primera línea de defensa frente a la manipulación. En imágenes satelitales, deben incluir información detallada sobre:
- El sensor utilizado (tipo, resolución, órbita).
- El momento exacto de la adquisición (fecha y hora, con precisión temporal).
- La localización geográfica precisa (sistemas de referencia oficiales).
- La cadena de procesado aplicada (correcciones atmosféricas, calibraciones, reproyecciones).
Registrar estos metadatos en repositorios seguros permite reconstruir la cadena de custodia, es decir, el historial de quién, cómo y cuándo ha manipulado una imagen. Sin esta trazabilidad, resulta imposible distinguir entre imágenes auténticas y falsificadas.
EJEMPLO: el programa Copernicus de la Unión Europea ya implementa metadatos estandarizados y abiertos para todas sus imágenes Sentinel, lo que facilita auditorías posteriores y confianza en el origen.
Firmas digitales y blockchain: garantizar la integridad
Las firmas digitales permiten verificar que una imagen no ha sido alterada desde su captura. Funcionan como un sello criptográfico que se aplica en el momento de adquisición y se valida en cada uso posterior.
La tecnología blockchain ofrece un nivel adicional de garantía: almacenar los registros de adquisición y modificación en una cadena inmutable de bloques. De esta manera, cualquier cambio en la imagen o en sus metadatos quedaría registrado y sería fácilmente detectable.
EJEMPLO: el proyecto ESA – Trusted Data Framework explora el uso de blockchain para proteger la integridad de datos de observación de la Tierra y reforzar la confianza en aplicaciones críticas como cambio climático y seguridad alimentaria.
Marcas de agua invisible: señales ocultas en la imagen
El marcado de agua digital consiste en incrustar señales imperceptibles en la propia imagen satelital, de modo que cualquier alteración posterior se pueda detectar automáticamente.
- Puede hacerse a nivel de píxel, modificando ligeramente patrones de color o luminancia.
- Se combina con técnicas criptográficas para reforzar su validez.
- Permite validar imágenes incluso si han sido recortadas, comprimidas o reprocesadas.
EJEMPLO: en el sector audiovisual, las marcas de agua se usa desde hace años en la protección de contenidos digitales. Su adaptación a imágenes satelitales está en fase experimental, pero podría convertirse en una herramienta estándar de verificación.
Estándares abiertos (OGC, ISO): confianza mediante interoperabilidad
La estandarización es clave para garantizar que las soluciones técnicas se apliquen de forma coordinada y global.
- OGC (Open Geospatial Consortium) trabaja en estándares para la gestión de metadatos, la trazabilidad de datos geoespaciales y la interoperabilidad entre sistemas. Su trabajo en API geoespaciales y metadatos FAIR (Findable, Accessible, Interoperable, Reusable) es esencial para establecer prácticas comunes de confianza.
- ISO desarrolla normas sobre gestión de la información y autenticidad de registros digitales que también pueden aplicarse a imágenes satelitales.
EJEMPLO: el OGC Testbed-19 incluyó experimentos específicos sobre autenticidad de datos geoespaciales, probando enfoques como firmas digitales y certificados de procedencia.
Verificación cruzada: combinar múltiples fuentes
Un principio básico para detectar falsificaciones es contrastar fuentes. En el caso de imágenes satelitales, esto implica:
- Comparar imágenes de diferentes satélites (ej. Sentinel-2 vs. Landsat-9).
- Usar distintos tipos de sensores (ópticos, radar SAR, hiperespectrales).
- Analizar series temporales para verificar la consistencia en el tiempo.
EJEMPLO: la verificación de daños en Ucrania tras el inicio de la invasión rusa en 2022 se realizó mediante la comparación de imágenes de varios proveedores (Maxar, Planet, Sentinel), asegurando que los hallazgos no se basaban en una sola fuente.
IA contra IA: detección automática de falsificaciones
La misma inteligencia artificial que permite crear imágenes sintéticas se puede utilizar para detectarlas. Las técnicas incluyen:
- Análisis forense de píxeles: identificar patrones generados por GAN o modelos de difusión.
- Redes neuronales entrenadas para distinguir entre imágenes reales y sintéticas en función de texturas o distribuciones espectrales.
- Modelos de inconsistencias geométricas: detectar sombras imposibles, incoherencias topográficas o patrones repetitivos.
EJEMPLO: investigadores de la Universidad de Washington y otros grupos han demostrado que algoritmos específicos pueden detectar falsificaciones satelitales con una precisión superior al 90% en condiciones controladas.
Experiencias actuales: iniciativas globales
Varios proyectos internacionales ya trabajan en mecanismos para reforzar la autenticidad:
- Coalition for Content Provenance and Authenticity (C2PA): una alianza entre Adobe, Microsoft, BBC, Intel y otras organizaciones para desarrollar un estándar abierto de procedencia y autenticidad de contenidos digitales, incluyendo imágenes. Su modelo se puede aplicar directamente al sector satelital.
- Trabajo del OGC: la organización impulsa el debate sobre confianza en datos geoespaciales y ha destacado la importancia de garantizar la trazabilidad de imágenes satelitales sintéticas y reales (OGC Blog).
- NGA (National Geospatial-Intelligence Agency) en EE. UU. ha reconocido públicamente la amenaza de imágenes sintéticas en defensa y está impulsando colaboraciones con academia e industria para desarrollar sistemas de detección.
Hacia un ecosistema de confianza
Las estrategias descritas no deben entenderse como alternativas, sino como capas complementarias en un ecosistema de confianza:
|
Id |
Capas |
¿Qué aportan? |
|---|---|---|
| 1 | Metadatos robustos (origen, sensor, cadena de custodia) |
Garantizan trazabilidad |
| 2 | Firmas digitales y blockchain (integridad de datos) |
Aseguran integridad |
| 3 | Marcas de agua invisible (señales ocultas) |
Añade un nivel oculto de protección |
| 4 | Verificación cruzada (múltiples satélites y sensores) |
Valida con independencia |
| 5 | IA contra IA (detector de falsificaciones) |
Responde a amenazas emergentes |
| 6 | Gobernanza internacional (responsabilidad, marcos legales) |
Articula reglas claras de responsabilidad |
Figura 3. Capas para garantizar la confianza en las imágenes sintéticas satelitales
El éxito dependerá de que estos mecanismos se integren de manera conjunta, bajo marcos abiertos y colaborativos, y con la implicación activa de agencias espaciales, gobiernos, sector privado y comunidad científica.
Conclusiones
Las imágenes sintéticas, lejos de ser únicamente una amenaza, representan una herramienta poderosa que, bien utilizada, puede aportar un valor significativo en ámbitos como la simulación, el entrenamiento de algoritmos o la innovación en servicios digitales. El problema surge cuando estas imágenes se presentan como reales sin la debida transparencia, alimentando la desinformación o manipulando la percepción pública.
El reto, por tanto, es doble: aprovechar las oportunidades que ofrece la síntesis de datos visuales para avanzar en ciencia, tecnología y gestión, y minimizar los riesgos asociados al mal uso de estas capacidades, especialmente en forma de deepfakes o falsificaciones deliberadas.
En el caso particular de las imágenes satelitales, la confianza adquiere una dimensión estratégica. De ellas dependen decisiones críticas en seguridad nacional, respuesta a desastres, políticas ambientales y justicia internacional. Si la autenticidad de estas imágenes se pone en duda, se compromete no solo la fiabilidad de los datos, sino también la legitimidad de las decisiones basadas en ellos.
El futuro de la observación de la Tierra estará condicionado por nuestra capacidad de garantizar la autenticidad, transparencia y trazabilidad en toda la cadena de valor: desde la adquisición de los datos hasta su difusión y uso final. Las soluciones técnicas (metadatos robustos, firmas digitales, blockchain, marcas de agua, verificación cruzada e IA para detección de falsificaciones), combinadas con marcos de gobernanza y cooperación internacional, serán la clave para construir un ecosistema de confianza.
En definitiva, debemos asumir un principio rector sencillo pero contundente:
“Si no podemos confiar en lo que vemos desde el espacio, ponemos en riesgo nuestras decisiones en la Tierra.”
Contenido elaborado por Mayte Toscano, Senior Consultant en Tecnologías ligadas a la economía del dato. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
Los asistentes de inteligencia artificial (IA) ya forman parte de nuestro día a día: les preguntamos la hora, cómo llegar a un determinado lugar o les pedimos que reproduzcan nuestra canción favorita. Y aunque la IA, en el futuro, pueda llegar a ofrecernos infinitas funcionalidades, no hay que olvidar que la diversidad lingüística es aún una asignatura pendiente.
En España, donde conviven el castellano junto con lenguas cooficiales como el euskera, catalán, valenciano y gallego, esta cuestión cobra especial relevancia. La supervivencia y vitalidad de estas lenguas en la era digital depende, en gran medida, de su capacidad para adaptarse y estar presentes en las tecnologías emergentes. Actualmente, la mayoría de asistentes virtuales, traductores automáticos o sistemas de reconocimiento de voz no entienden todos los idiomas cooficiales. Sin embargo, ¿sabías que existen proyectos colaborativos para garantizar la diversidad lingüística?
En este post te contamos el planteamiento y los mayores avances de algunas iniciativas que están construyendo los cimientos digitales necesarios para que las lenguas cooficiales en España también prosperen en la era de la inteligencia artificial.
ILENIA, el paraguas coordinador de iniciativas de recursos multilingües en España
Los modelos que vamos a ver en este post comparten enfoque porque forman parte de ILENIA, coordinador a nivel estatal que conecta los esfuerzos individuales de las comunidades autónomas. Esta iniciativa agrupa los proyectos BSC-CNS (AINA), CENID (VIVES), HiTZ (NEL-GAITU) y la Universidad de Santiago de Compostela (NÓS), con el objetivo de generar recursos digitales que permitan desarrollar aplicaciones multilingües en las diferentes lenguas de España.
El éxito de estas iniciativas depende fundamentalmente de la participación ciudadana. A través de plataformas como Common Voice de Mozilla, cualquier hablante puede contribuir a la construcción de estos recursos lingüísticos mediante diferentes modalidades de colaboración:
- Habla leída: recopilar diferentes maneras de hablar a través de las donaciones de voz de un texto específico.
- Habla espontánea: crea datasets reales y orgánicos fruto de conversaciones con los prompts.
- Texto en idioma: colaborar en la transcripción de audios o en la aportación de contenido textual, sugiriendo nuevas frases o preguntas para enriquecer los corpus.
Todos los recursos se publican bajo licencias libres como CC0, permitiendo su uso gratuito por parte de investigadores, desarrolladores y empresas.
El reto de la diversidad lingüística en la era digital
Los sistemas de inteligencia artificial aprenden de los datos que reciben durante su entrenamiento. Para desarrollar tecnologías que funcionen correctamente en una lengua específica, es imprescindible contar con grandes volúmenes de datos: grabaciones de audio, corpus de texto y ejemplos de uso real del idioma.
En otras publicaciones de datos.gob.es hemos abordado el funcionamiento de los modelos fundacionales y las iniciativas en castellano como ALIA, entrenadas con grandes corpus de texto como los de la Real Academia Española.
En ambos posts se explica por qué la recopilación de datos lingüísticos no es una tarea barata ni sencilla. Las empresas tecnológicas han invertido masivamente en recopilar estos recursos para lenguas con gran número de hablantes, pero las lenguas cooficiales españolas se enfrentan a una desventaja estructural. Esto ha llevado a que muchos modelos no funcionen correctamente o no estén disponibles en valenciano, catalán, euskera o gallego.
No obstante, existen iniciativas colaborativas y de datos abiertos que permiten crear recursos lingüísticos de calidad. Se trata de los proyectos que varias comunidades autónomas han puesto en marcha marcando el camino hacia un futuro digital multilingüe.
Por un lado, el Proyecto Nós en Galicia crea recursos orales y conversacionales en gallego con todos los acentos y variantes dialectales para facilitar la integración a través de herramientas como GPS, asistentes de voz o ChatGPT. Un propósito similar el de Aina en Catalunya que además ofrece una plataforma académica y un laboratorio para desarrolladores o Vives en la Comunidad Valenciana. En el País Vasco también existe el proyecto Euskorpus que tiene como objetivo la constitución de un corpus de texto de calidad en euskera. Veamos cada uno de ellos.
Proyecto Nós, un enfoque colaborativo para el gallego digital
El proyecto ha desarrollado ya tres herramientas operativas: un traductor neuronal multilingüe, un sistema de reconocimiento de voz que convierte habla en texto, y una aplicación de síntesis de voz. Estos recursos se publican bajo licencias abiertas, garantizando su acceso libre y gratuito para investigadores, desarrolladores y empresas. Estas son sus características principales:
- Impulsado por: la Xunta de Galicia y la Universidad de Santiago de Compostela.
- Objetivo principal: crear recursos orales y conversacionales en gallego que capturen la diversidad dialectal y de acentos de la lengua.
- Cómo participar: el proyecto acepta contribuciones voluntarias tanto leyendo textos como respondiendo a preguntas espontáneas.
- Dona tu voz en gallego: https://doagalego.nos.gal
Aina, hacia una IA que entienda y hable catalán
Con un planteamiento similar al proyecto Nós, Aina busca facilitar la integración del catalán en los modelos de lenguaje de inteligencia artificial.
Se estructura en dos vertientes complementarias que maximizan su impacto:
- Aina Tech se centra en facilitar la transferencia tecnológica al sector empresarial, proporcionando las herramientas necesarias para traducir automáticamente al catalán webs, servicios y negocios en línea.
- Aina Lab impulsa la creación de una comunidad de desarrolladores a través de iniciativas como Aina Challenge, fomentando la innovación colaborativa en tecnologías del lenguaje en catalán. A través de esta convocatoria se han premiado 22 propuestas ya seleccionadas con un importe total de 1 millón para que ejecuten sus proyectos.
Las características del proyecto son:
- Impulsado por: la Generalitat de Catalunya en colaboración con el Barcelona Supercomputing Center (BSC-CNS)
- Objetivo principal: va más allá de la creación de herramientas, busca construir una infraestructura de IA abierta, transparente y responsable con el catalán.
- Cómo participar: puedes añadir comentarios, mejoras y sugerencias a través del buzón de contacto: https://form.typeform.com/to/KcjhThot?typeform-source=langtech-bsc.gitbook.io.
Vives, el proyecto colaborativo para IA en valenciano
Por otro lado, Vives recopila voces hablando en valenciano para que sirvan de entrenamiento a los modelos de IA.
- Impulsado por: el Centro de Inteligencia Digital de Alicante (CENID).
- Objetivo: busca crear corpus masivos de texto y voz, fomentar la participación ciudadana en la recolección de datos, y desarrollar modelos lingüísticos especializados en sectores como el turismo y el audiovisual, garantizando la privacidad de los datos.
- Cómo participar: puedes donar tu voz a través de este enlace: https://vives.gplsi.es/instruccions/.
Gaitu: inversión estratégica en la digitalización del euskera
En Euskera, podemos destacar Gaitu que busca recopilar voces hablando en euskera para poder entrenar los modelos de IA. Sus características son:
- Impulsado por: HiTZ, el centro vasco de tecnología de la lengua.
- Objetivo: desarrollar un corpus en euskera para entrenar modelos de IA.
- Cómo participar: puedes donar tu voz en euskera aquí https://commonvoice.mozilla.org/eu/speak.
Ventajas de construir y preservar modelos de lenguaje multilingües
Los proyectos de digitalización de las lenguas cooficiales trascienden el ámbito puramente tecnológico para convertirse en herramientas de equidad digital y preservación cultural. Su impacto se manifiesta en múltiples dimensiones:
- Para la ciudadanía: estos recursos garantizan que hablantes de todas las edades y niveles de competencia digital puedan interactuar con la tecnología en su lengua materna, eliminando barreras que podrían excluir a determinados colectivos del ecosistema digital.
- Para el sector empresarial: la disponibilidad de recursos lingüísticos abiertos facilita que empresas y desarrolladores puedan crear productos y servicios en estas lenguas sin asumir los altos costes tradicionalmente asociados al desarrollo de tecnologías lingüísticas.
- Para el tejido investigador, estos corpus constituyen una base fundamental para el avance de la investigación en procesamiento de lenguaje natural y tecnologías del habla, especialmente relevante para lenguas con menor presencia en recursos digitales internacionales.
El éxito de estas iniciativas demuestra que es posible construir un futuro digital donde la diversidad lingüística no sea un obstáculo sino una fortaleza, y donde la innovación tecnológica se ponga al servicio de la preservación y promoción del patrimonio cultural lingüístico.
En el campo de la ciencia de datos, la capacidad de construir modelos predictivos robustos es fundamental. Sin embargo, un modelo no es solo un conjunto de algoritmos, es una herramienta que debe ser comprendida, validada y, en última instancia, útil para la toma de decisiones.
Gracias a la transparencia y accesibilidad de los datos abiertos, tenemos la oportunidad única de trabajar en este ejercicio con información real, actualizada y de calidad institucional que refleja problemáticas ambientales. Esta democratización del acceso permite no solo desarrollar análisis rigurosos con datos oficiales, sino también contribuir al debate público informado sobre políticas ambientales, creando un puente directo entre la investigación científica y las necesidades sociales.
En este ejercicio práctico, nos sumergiremos en el ciclo de vida completo de un proyecto de modelado, utilizando un caso de estudio real: el análisis de la calidad del aire en Castilla y León. A diferencia de los enfoques que se centran únicamente en la implementación de algoritmos, nuestra metodología se enfoca en:
- Carga y exploración inicial de los datos: identificar patrones, anomalías y relaciones subyacentes que guiarán nuestro modelado.
- Análisis exploratorio orientado al modelado: construir visualizaciones y realizar ingeniería de características para optimizar el modelado.
- Desarrollo y evaluación de modelos de regresión: construir y comparar múltiples modelos iterativos para entender cómo la complejidad afecta el rendimiento.
- Aplicación del modelo y conclusiones: utilizar el modelo final para simular escenarios y cuantificar el impacto de posibles políticas ambientales.
Accede al repositorio del laboratorio de datos en Github.
Ejecuta el código de pre-procesamiento de datos sobre Google Colab.
Arquitectura del Análisis
El núcleo de este ejercicio sigue un flujo estructurado en cuatro fases clave, como se ilustra en la Figura 1. Cada fase se construye sobre la anterior, desde la exploración inicial de los datos hasta la aplicación final del modelo.
Figura 1. Fases del proyecto de modelado predictivo.
Proceso de Desarrollo
1. Carga y exploración inicial de los datos
El primer paso es entender la materia prima de nuestro análisis: los datos. Utilizando un conjunto de datos de calidad del aire de Castilla y León, que abarca 24 años de mediciones, nos enfrentamos a desafíos comunes en el mundo real:
- Valores Faltantes: variables como el CO y el PM2.5 tienen una cobertura de datos limitada.
- Datos Anómalos: se detectan valores negativos y extremos, probablemente debidos a errores de los sensores.
A través de un proceso de limpieza y transformación, convertimos los datos brutos en un conjunto de datos limpio y estructurado, listo para el modelado.
2. Análisis exploratorio orientado al modelado
Una vez limpios los datos, buscamos patrones. El análisis visual revela una fuerte estacionalidad en los niveles de NO₂, con picos en invierno y valles en verano. Esta observación es crucial y nos lleva a la creación de nuevas variables (ingeniería de características), como componentes cíclicos para los meses, que permiten al modelo "entender" la naturaleza circular de las estaciones.
Figura 2. Variación estacional de los niveles de NO₂ en Castilla y León.
3. Desarrollo y evaluación de modelos de regresión
Con un conocimiento sólido de los datos, procedemos a construir tres modelos de regresión lineal de complejidad creciente:
- Modelo Base: utiliza solo los contaminantes como predictores.
- Modelo Estacional: añade las variables de tiempo.
- Modelo Completo: incluye interacciones y efectos geográficos.
La comparación de estos modelos nos permite cuantificar la mejora en la capacidad predictiva. El Modelo Estacional emerge como la opción óptima, explicando casi el 63% de la variabilidad del NO₂, un resultado notable para datos ambientales.
4. Aplicación del modelo y conclusiones
Finalmente, sometemos el modelo a un riguroso diagnóstico y lo utilizamos para simular el impacto de políticas ambientales. Por ejemplo, nuestro análisis estima que una reducción del 20% en las emisiones de NO podría traducirse en una disminución del 4.8% en los niveles de NO₂.
Figura 3. Rendimiento del modelo estacional. Los valores predichos se alinean bien con los valores reales.
¿Qué puedes aprender?
Este ejercicio práctico te permite aprender:
- Ciclo de vida de un proyecto de datos: desde la limpieza hasta la aplicación.
- Técnicas de regresión lineal: construcción, interpretación y diagnóstico.
- Manejo de datos temporales: captura de estacionalidad y tendencias.
- Validación de modelos: técnicas como la validación cruzada y temporal.
- Comunicación de resultados: cómo traducir hallazgos en insights accionables.
Conclusiones y Futuro
Este ejercicio demuestra el poder de un enfoque estructurado y riguroso en la ciencia de datos. Hemos transformado un conjunto de datos complejo en un modelo predictivo que no solo es preciso, sino también interpretable y útil.
Para aquellos interesados en llevar este análisis al siguiente nivel, las posibilidades son numerosas:
- Incorporación de datos meteorológicos: variables como la temperatura y el viento podrían mejorar significativamente la precisión.
- Modelos más avanzados: explorar técnicas como los Modelos Aditivos Generalizados (GAM) u otros algoritmos de machine learning.
- Análisis espacial: investigar cómo varían los patrones de contaminación entre diferentes ubicaciones.
En resumen, este ejercicio no solo ilustra la aplicación de técnicas de regresión, sino que también subraya la importancia de un enfoque integral que combine el rigor estadístico con la relevancia práctica.
