Documentación

La ciencia de datos se ha consolidado como un pilar de la toma de decisiones basada en evidencias en sectores públicos y privados. En este contexto, surge la necesidad de una guía práctica y universal que trascienda modas tecnológicas y proporcione principios sólidos y aplicables. La presente guía ofrece un decálogo de buenas prácticas que acompaña al científico de datos a lo largo de todo el ciclo de vida de un proyecto, desde la conceptualización del problema hasta la evaluación ética del impacto.

  1. Comprender el problema antes de mirar los datos. La clave inicial es definir claramente el contexto, objetivos, restricciones e indicadores de éxito. Un framing sólido evita errores posteriores.
  2. Conocer los datos en profundidad. Más allá de las variables, implica analizar su origen, trazabilidad y posibles sesgos. La auditoría de datos es esencial para garantizar representatividad y fiabilidad.
  3. Cuidar la calidad. Sin datos limpios no hay ciencia. Técnicas de EDA, imputación, normalización y control de métricas de calidad permiten construir bases sólidas y reproducibles.
  4. Documentar y versionar. La reproducibilidad es condición científica. Notebooks, pipelines, control de versiones y prácticas de MLOps aseguran trazabilidad y replicabilidad de procesos y modelos.
  5. Elegir el modelo adecuado. No siempre gana la sofisticación: la decisión debe equilibrar rendimiento, interpretabilidad, costes y restricciones operativas.
  6. Medir con sentido. Las métricas deben alinearse con los objetivos. Validación cruzada, control del data drift y separación rigurosa de datos de entrenamiento, validación y test son imprescindibles para garantizar generalización.
  7. Visualizar para comunicar. La visualización no es un adorno, sino un lenguaje para comprender y persuadir. Storytelling con datos y diseño claro son herramientas críticas para conectar con audiencias diversas.
  8. Jugar en equipo. La ciencia de datos es colaborativa: requiere ingenieros de datos, expertos de dominio y responsables de negocio. El científico de datos debe actuar como facilitador y traductor entre lo técnico y lo estratégico.
  9. Mantenerse actualizado (y crítico). El ecosistema evoluciona constantemente. Es necesario combinar aprendizaje continuo con criterio selectivo, priorizando fundamentos sólidos frente a modas pasajeras.
  10. Ser ético. Los modelos tienen impacto real. Es imprescindible evaluar sesgos, proteger la privacidad, garantizar la explicabilidad y anticipar usos indebidos. La ética es brújula y condición de legitimidad.

Título: Decálogo del científico de datos  Comprender el problema antes de mirar los datos.  Conocer los datos en profundidad.  Cuidar la calidad.  Documentar y versionar.  Elegir el modelo adecuado.  Medir con sentido.  Visualizar para comunicar.  Jugar en equipo.  Mantenerse actualizado (y crítico).   Ser ético.  Fuente: informe “Decálogo del científico de datos”, datos.gob.es.

Finalmente, el informe incluye un bonus-track sobre Python y R, destacando que ambos lenguajes son aliados complementarios: Python domina en producción y despliegue, mientras que R ofrece rigor estadístico y visualización avanzada. Conocer ambos multiplica la versatilidad del científico de datos.

El Decálogo del científico de datos constituye una guía práctica, atemporal y de aplicación transversal que ayuda a profesionales y organizaciones a convertir los datos en decisiones informadas, confiables y responsables. Su objetivo es reforzar la calidad técnica, la colaboración y la ética en una disciplina en plena expansión y con gran impacto social.

calendar icon
Noticia

La iniciativa de datos abiertos de España, datos.gob.es, se renueva para ofrecer una experiencia más accesible, intuitiva y eficiente. El cambio responde al afán de mejorar el acceso a los datos y facilitar su uso por parte de ciudadanos, investigadores, empresas y administraciones. Con un diseño actualizado y nuevas funcionalidades, la plataforma continuará actuando como punto de encuentro entre todos aquellos que busquen innovar en base a los datos.

Foco en conjuntos de datos de alto valor y servicios web

La nueva web refuerza su eje central, el Catálogo Nacional de datos abiertos, un punto de acceso a cerca de 100.000 conjuntos de datos, que agrupan más de 500.000 ficheros, y que la Administración Pública española pone a disposición de empresas, investigadores y ciudadanos para su reutilización. En él se pueden encontrar datasets publicados por organismos de la Administración General del Estado, autonómicos, locales, universidades, etc.

Uno de los avances más relevantes es la mejora en las posibilidades que tienen los publicadores de datos para describir de forma más precisa y estructurada las colecciones de datos que desean poner a disposición del público. Una descripción más detallada de las fuentes revierte en mayor facilidad de los usuarios a la hora de localizar datos de su interés.

En concreto, la plataforma incorpora un nuevo modelo de metadatos alineado con las últimas versiones de los estándares europeos, el perfil de aplicación nacional DCAT-AP-ES, que adapta directrices del esquema europeo de intercambio de metadatos DCAT-AP (Data Catalog Vocabulary – Aplication Profile). Este perfil mejora la interoperabilidad a nivel nacional y europeo, facilita el cumplimiento con las normativas comunitarias, favorece la federación de catálogos y a la localización de datasets, y contribuye a mejorar la calidad de los metadatos mediante mecanismos de validación, entre otras ventajas.

Además, la nueva versión de datos.gob.es introduce importantes mejoras en la vista del Catálogo, destacando los conjuntos de datos de alto valor (high value data o HVD en inglés) y los datos ofrecidos a través de servicios web. Para mejorar su identificación, se han añadido símbolos distintivos que permiten diferenciar los tipos de recursos de un solo vistazo.

captura de la home de la sección Descubre los últimos conjuntos y servicios de datos publicados, donde se pueden ver tres columnas  relativas a los últimos conjuntos de datos, conjuntos de datos de alto valor (HVD) y datos ofrecidos a través de servicios web.
Figura 1. Ejemplo de vista de la página de inicio de la plataforma, donde se muestran diversos conjuntos de datos en el Catálogo y se aprecian los iconos que los diferencian.

Asimismo, se ha ampliado el número de metadatos documentados, los cuales se muestran a los usuarios a través de una estructura más clara. Ahora los metadatos proporcionados por los organismos publicadores se pueden categorizan en información general, ficha técnica, contacto y aspectos relativos a la calidad. Esta nueva organización proporciona a los usuarios una visión más completa y accesible de cada conjunto de datos.

Ejemplo de vista de un conjunto de datos en el catálogo, donde se muestra la nueva organización de los metadatos divididos en datos, información, ficha técnica, contacto, calidad.
Figura 2. Ejemplo de vista de un conjunto de datos en el catálogo, donde se muestra la nueva organización de los metadatos.

También cabe destacar que se ha optimizado el proceso de solicitud de datos para ofrecer una experiencia más intuitiva y fluida.

Una nueva arquitectura de la información para mejorar la usabilidad

La nueva plataforma de datos.gob.es también ha adaptado su arquitectura de la información para hacerla más intuitiva y mejorar la navegación y el acceso a la información relevante. Los nuevos ajustes facilitan la localización de datasets y contenidos editoriales, a la vez que contribuyen a la accesibilidad, asegurando que todos los usuarios, independientemente de sus conocimientos técnicos o tipo de dispositivo, puedan interactuar con la web sin dificultades.

Entre otras cuestiones, se ha simplificado el menú, agrupando la información en cinco grandes secciones:

  • Datos: incluye el acceso al Catálogo Nacional, junto con los formularios para solicitar nuevos datos a publicar como abiertos. En esta sección también se puede encontrar información sobre espacios de datos y sobre entornos seguros, junto con un apartado de recursos para el  apoyo a los publicadores.
  • Comunidad: pensada para conocer más sobre las iniciativas de datos abiertos de España e inspirarse con ejemplos de reutilización a través de diversos casos de uso, organizados en empresas y aplicaciones. Cabe destacar que el mapa de iniciativas ha sido actualizado con fichas revisadas y mejoradas, con la opción de filtrar por la categoría de datos que se ofrecen, facilitando su consulta. En esta sección también encontramos información sobre los desafíos y la subsección de sectores, que se ha ampliado considerablemente, incorporando todos los definidos por la Norma Técnica de Interoperabilidad de Reutilización de Recursos de Información, lo que permite una visión más completa tanto de los datos como de su potencial de uso según cada ámbito.
  • Actualidad: los usuarios podrán estar al día de las novedades del ecosistema de datos a través de noticias e información sobre eventos relacionados con la materia.
  • Conocimiento: una de las principales novedades de la nueva plataforma es que se han unificado todos los recursos que buscan promover la innovación basada en datos en un único epígrafe, facilitando su organización. A través de esta sección, los usuarios podrán acceder a: artículos del blog, realizados por expertos en diversos campos (ciencia de datos, gobierno del dato, aspectos legales, etc.), donde se explican y analizan tendencias del sector; ejercicios de datos para aprender paso a paso a procesar y trabajar con los datos; infografías que resumen de forma gráfica casos de uso o conceptos complejos; entrevistas con expertos tanto en formato pódcast, como en vídeo o escritas; y guías e informes, dirigidas tanto a publicadores como reutilizadores de datos. También se incluye el enlace al repositorio de GitHub, cuya visibilidad se ha reforzado con el fin de promover el acceso y la colaboración de la comunidad de datos en el desarrollo de herramientas y recursos abiertos.
  • Sobre nosotros: además de la información sobre el proyecto, preguntas frecuentes, contacto, tecnología de la plataforma, etc. en esta sección se puede acceder al nuevo cuadro de mando, que ahora proporciona métricas más detalladas sobre el catálogo, los contenidos y las acciones de divulgación.

La nueva versión de datos.gob.es también introduce mejoras clave en la forma de localizar contenidos y datasets. La plataforma se ha optimizado con una búsqueda inteligente, que permite una búsqueda guiada y un mayor número de filtros, lo que facilita encontrar información de forma más rápida y precisa.

Mejora de las funcionalidades internas

La nueva versión de datos.gob.es también trae consigo mejoras internas que facilitarán la gestión para los publicadores de datos, optimizando procesos. La parte privada a la que acceden los organismos ha sido renovada para ofrecer una interfaz más intuitiva y funcional. Se ha rediseñado la consola para agilizar la gestión y administración de datos, permitiendo un control más eficiente y estructurado.

Además, el gestor de contenidos ha sido actualizado a su última versión, lo que garantiza un mejor rendimiento.

Estas mejoras refuerzan el compromiso de datos.gob.es con la evolución continua y la optimización de su plataforma, asegurando un entorno más accesible y eficiente para todos los actores involucrados en la publicación y gestión de datos abiertos. La nueva plataforma no solo mejora la experiencia de usuario, sino que también impulsa la reutilización de datos en múltiples sectores.

¡Te invitamos a explorar las novedades y aprovechar los beneficios de los datos como motor de la innovación!

calendar icon
Evento

Un año más, la Junta de Castilla y León ha lanzado su concurso de datos abiertos para premiar el uso innovador de la reutilización de la información pública.

En este post, te resumimos los detalles para participar en la IX edición de este evento, que es una oportunidad tanto para profesionales como para estudiantes, personas creativas o equipos multidisciplinares que deseen dar visibilidad a su talento a través de la reutilización de datos públicos.

¿En qué consiste la competición?

El objetivo del concurso es reconocer proyectos que utilicen conjuntos de datos abiertos de la Junta de Castilla y León. Estos datasets pueden combinarse, si así lo desean los participantes, con otras fuentes públicas o privadas, de cualquier nivel de la administración.

Los proyectos pueden presentarse en cuatro categorías:

  • Categoría Ideas: orientada a personas o equipos que quieran presentar una propuesta para crear un servicio, estudio, aplicación, sitio web o cualquier otro tipo de desarrollo. No es necesario que el proyecto esté finalizado; lo importante es que la idea sea original, viable y tenga un impacto potencial positivo.
  • Categoría Productos y Servicios: pensada para proyectos ya desarrollados y accesibles para la ciudadanía, como servicios online, aplicaciones móviles o sitios web. Todos los desarrollos deben estar disponibles a través de una URL pública. Esta categoría incluye un premio específico para estudiantes matriculados en enseñanzas oficiales durante los cursos lectivos 2024/2025 o 2025/2026.
  • Categoría Recurso Didáctico: se dirige a proyectos educativos que utilicen datos abiertos como herramienta de apoyo en el aula. El objetivo es fomentar la enseñanza innovadora mediante recursos con licencia Creative Commons, que puedan ser compartidos y reutilizados por docentes y alumnado.
  • Categoría Periodismo de Datos: premiará trabajos periodísticos publicados o actualizados de forma relevante, en formato escrito o audiovisual, que hagan uso de los datos abiertos para informar, contextualizar o analizar temas de interés para la ciudadanía. Las piezas periodísticas deberán haber sido publicadas en un medio de comunicación impreso o digital desde el día 24 de septiembre de 2024, día siguiente a la fecha de finalización del plazo de presentación de candidaturas de la convocatoria de premios inmediatamente anterior.

En todas las categorías, es imprescindible que se utilice al menos un conjunto de datos del portal de datos abiertos de la Junta de Castilla y León. Esta plataforma cuenta con centenares de datasets sobre diferentes sectores como medio ambiente, economía, sociedad, administración pública, cultura, educación, etc. que pueden aprovecharse como base para desarrollar ideas útiles, informativas y transformadoras.

¿Quién puede participar?

El concurso está abierto a cualquier persona física o jurídica, que se puede presentar de manera individual como en grupo. Además, puedes presentar más de una candidatura incluso para distintas categorías. Aunque un mismo proyecto no podrá recibir más de un premio, esta flexibilidad permite que una misma idea se explore desde diferentes enfoques: educativo, periodístico, técnico o conceptual.

¿Qué premios se otorgan?

La edición de 2025 del concurso contempla premios con dotación económica, diploma acreditativo y difusión institucional a través del portal de datos abiertos y otros canales de comunicación de la Junta.

El reparto y la cuantía de los premios por categoría es:

  • Categoría Ideas
    • Primer premio: 1.500 €
    • Segundo premio: 500 €
  • Categoría Productos y Servicios
    • Primer premio: 2.500 €
    • Segundo premio: 1.500 €
    • Tercer premio: 500 €
    • Premio especial estudiantes: 1.500 €
  • Categoría Recurso Didáctico
    • Primer premio: 1.500 €
  • Categoría Periodismo de Datos
    • Primer premio: 1.500 €
    • Segundo premio: 1.000 €

¿Bajo qué criterios se otorgan los premios? El jurado valorará las candidaturas teniendo en cuenta diferentes criterios de valoración, conforme recogen las bases y la orden de convocatoria, entre los que se encuentran su originalidad, utilidad social, calidad técnica, viabilidad, impacto, valor económico y grado de innovación.

¿Cómo participar?

Como ya pasaba en otras ediciones, las candidaturas podrán presentarse de dos maneras:

  • Presencial, en el Registro General de la Consejería de la Presidencia, en las oficinas de asistencia en materia de registros de la Junta de Castilla y León o en los lugares establecidos en el artículo 16.4 de la Ley 39/2015.
  • Electrónica, a través de la sede electrónica de la Junta de Castilla y León

Cada solicitud debe incluir:

  • Datos identificativos del autor o autores.
  • Título del proyecto.
  • Categoría o categorías a las que se presenta.
  • Una memoria explicativa del proyecto, con una extensión máxima de 1.000 palabras, aportando toda aquella información que pueda ser valorada por el jurado conforme al baremo establecido.
  • En el caso de presentar candidatura a la categoría Productos y Servicios, se especificará la URL de acceso al proyecto

La fecha límite para enviar propuestas es el 22 de septiembre de 2025

Con este certamen, la Junta de Castilla y León reafirma su compromiso con la política de datos abiertos y la cultura de la reutilización. El concurso no solo reconoce la creatividad, la innovación y la utilidad de los proyectos presentados, sino que también contribuye a divulgar el potencial transformador de los datos abiertos en áreas como la educación, el periodismo, la tecnología o el emprendimiento social.

En ediciones anteriores, se han premiado soluciones para mejorar la movilidad, mapas interactivos sobre incendios forestales, herramientas para el análisis del gasto público o recursos educativos sobre el medio rural, entre muchos otros ejemplos. Puedes leer más sobre las propuestas ganadoras del año pasado y otras, en nuestro portal. Además, todos estos proyectos pueden consultarse en el histórico de ganadores disponible en el portal open data de la comunidad.

¡Te animamos a participar en el concurso y sacar el máximo provecho a los datos abiertos de Castilla y León!

calendar icon
Evento

El Ayuntamiento de Madrid ha lanzado una iniciativa para demostrar el potencial de los datos abiertos: la I edición de los Premios a la Reutilización de Datos Abiertos 2025. Con un presupuesto total de 15.000 euros, esta competición busca fomentar la reutilización de los datos compartidos por el consistorio en su portal open data, demostrando que pueden ser motor de innovación social y participación ciudadana.

El reto está claro: convertir los datos en ideas útiles, originales e impactantes. Si crees que puedes hacerlo, a continuación, te resumimos la información que debes tener en cuenta para concursar.

¿Quién puede participar?

La competición está abierta a prácticamente todo el mundo: desde personas a título individual, hasta empresas o colectivos de cualquier tipo. La única condición es presentar un proyecto que haya sido realizado entre el 10 de septiembre de 2022 y el 9 de septiembre de 2025 y que utilice como base al menos un conjunto de datos del portal de datos abiertos del Ayuntamiento de Madrid. Se pueden usar también datos provenientes de otras fuentes públicas y privadas, siempre y cuando los datasets del Ayuntamiento de Madrid sean una pieza clave del proyecto.

Eso sí, no se aceptan proyectos que ya hayan sido premiados, contratados o financiados por el propio Ayuntamiento, ni trabajos presentados fuera de plazo o sin la documentación requerida.

¿Qué proyectos se pueden presentar?

Hay cuatro grandes áreas en las que se puede participar:

  • Servicios web y aplicaciones: hace referencia a proyectos que proporcionen servicios, estudios, aplicaciones web o apps móviles.
  • Estudios, investigaciones e ideas: se refiere a proyectos de exploración, análisis o descripción de ideas dirigidas a la creación de servicios, estudios, visualizaciones, aplicaciones web o apps móviles. También pueden participar en esta categoría trabajos universitarios de fin de grado y máster.
  • Propuestas de mejora de la calidad del portal de datos abiertos: incluye proyectos, servicios, aplicaciones o iniciativas que contribuyan a impulsar la calidad de los conjuntos de datos publicados en el portal de datos abiertos del Ayuntamiento de Madrid.
  • Visualizaciones de datos: se puede participar en esta categoría con diversos contenidos, como mapas, gráficos, tablas, modelos 3D, arte digital, aplicaciones web y animaciones. Las representaciones pueden ser estáticas, como infografías, carteles o figuras en publicaciones, o dinámicas, incluyendo vídeos, cuadros de mando interactivos e historias.

¿Cuáles son los premios?

Para cada categoría se otorgan dos premios de diversa dotación económica:

Categoría

Primer premio

Segundo premio

Servicios web y aplicaciones

3.000 € 1.500 € 
Propuestas de mejora de la calidad del Portal de Datos Abiertos 3.000 € 1.500 € 
Estudios, investigaciones e ideas 2.000 €  1.000 €
Visualizaciones de datos 2.000 € 1.000 €

Figura 1. Dotación económica de la I edición de los Premios a la Reutilización de Datos Abiertos 2025. Fuente: Ayuntamiento de Madrid.

Más allá del premio económico, esta convocatoria es una gran oportunidad para darle visibilidad a ideas que aprovechan la transparencia y el potencial de los datos abiertos. Además, si la propuesta mejora servicios públicos, resuelve un problema real o ayuda a comprender mejor la ciudad, tendrá un gran valor que va mucho más allá del reconocimiento.

¿Cómo se valoran los proyectos?

Un jurado valorará cada proyecto asignando una puntuación máxima de 50 puntos, que tendrá en cuenta aspectos como la originalidad, el beneficio social, la calidad técnica, la accesibilidad, la facilidad de uso, o incluso el diseño, en el caso de las visualizaciones. Si se considera necesario, el jurado podrá solicitar la ampliación de la información presentada a los participantes.

Ganarán los dos proyectos con máxima puntuación, aunque para ser consideradas, las propuestas deben alcanzar al menos 25 puntos de los 50 posibles. Si ninguna cumple este requisito, la categoría se declarará desierta.

El jurado estará compuesto por representantes de diferentes áreas del Ayuntamiento, con experiencia en innovación, transparencia, tecnología y datos. También participará un representante de ASEDIE (Asociación Multisectorial de la Información), la asociación que promueve la reutilización y distribución de la información en España.

¿Cómo se participa?

La fecha límite para inscribirse es el 9 de septiembre de 2025 a las 23:59 h. En el caso de las personas físicas, la solicitud se puede presentar:

  • De forma online a través de la Sede Electrónica del Ayuntamiento. Este procedimiento requiere de  identificación y firma electrónica.
  • De forma presencial en oficinas de atención municipal.

En el caso de las personas jurídicas, solo podrán presentar su candidatura de forma telemática.

En cualquier caso, hay que completar el formulario oficial y acompañarlo de una memoria donde se explique bien el proyecto, su funcionamiento, sus beneficios, el uso de los datos, y si es posible, se incluyan capturas, enlaces o prototipos.

Puedes ver las bases completas aquí.

calendar icon
Evento

Más de 90.000 personas de todo el mundo participaron en la última edición del Space App Challenge. Este evento anual de dos días, que organiza la agencia espacial estadounidense, la NASA, es una oportunidad para innovar y aprender sobre las ventajas que pueden ofrecer los datos abiertos espaciales.

Este año la competición se celebrará durante el 4 y 5 de octubre. A través de un hackathon, los participantes se involucrarán de primera mano con las misiones e investigaciones más relevantes de la NASA. Es una oportunidad para aprender a lanzar y liderar proyectos mediante el uso práctico de los datos de la NASA en el mundo real. Además, se trata de una actividad gratuita abierta a cualquier persona (los menores de 18 años deberán estar acompañados por un tutor legal).

En este post, te contamos algunas de las claves que necesitas saber sobre este evento de referencia global.

¿Dónde se celebra?

Bajo el sello del Space Apps Challenge tienen lugar eventos virtuales y presenciales por todo el mundo. En concreto, en España se celebran encuentros en varias ciudades:

  • Barcelona
    • Dónde: presencial, en 42 Barcelona (Carrer D’Albert Einstein 11).
  • Madrid
    • Dónde: presencial, en la Escuela de Competencias Digitales – San Blas Digital (Calle Amposta, 34).
  • Murcia
    • Dónde: presencial en UCAM HITECH (Av. Andrés Hernandez Ros, 1, Guadalupe).
  • Málaga
    • Dónde: presencial, en una ubicación por determinar (puedes ponerte en contacto con la organizadora del evento a través del enlace).
  • Pamplona
    • Dónde: presencial y virtual, en una ubicación por determinar (puedes ponerte en contacto con la organización del evento a través del enlace)
  • San Vicente del Raspeig (Alicante)
    • Dónde: presencial, en el Parque Científico de Alicante (Universidad de Alicante, San Vicente del Raspeig).
  • Sevilla
    • Dónde: presencial, en una ubicación todavía por determinar (puedes ponerte en contacto con la organizadora del evento a través del enlace).
  • Valencia
    • Dónde: presencial, en la Casa del Alumno UPV, Universidad Politécnica de Valencia (Camino de Vera, s/n Edificio 4K).
  • Zaragoza
    • Dónde: presencial, en el Edificio Betancourt, Campus Río Ebro (EINA) Calle María de Luna, 1.

Todos ellos contarán con una ceremonia de bienvenida el viernes 3 de octubre a las 17.30 en la que se presentarán los detalles de la competición, se organizarán los equipos y las temáticas de cada reto.

Para participar en cualquiera de los eventos, puedes registrarte individualmente y la organización te ayudará a encontrar equipo. También puedes inscribir directamente a tu equipo (de un máximo de 6 personas).

Si no encuentras ningún evento presencial cerca de ti, puedes inscribirte al evento universal que será online.

¿Hay premios?

¡Sí! Cada evento entregará sus propios premios. Y, además, la NASA reconoce, cada año, diez premios globales divididos en diferentes categorías:

  • Premio mejor uso de la ciencia: reconoce al proyecto que realiza el uso más válido y destacado de la ciencia y/o del método científico.
  • Premio mejor uso de los datos: se otorga al proyecto que hace más accesibles los datos espaciales o los utiliza de manera única.
  • Premio mejor uso de la tecnología: distingue al proyecto que representa el uso más innovador de la tecnología.
  • Premio impacto galáctico: se concede al proyecto con mayor potencial para mejorar la vida en la Tierra o en el universo.
  • Premio mejor concepto de misión: reconoce al proyecto con el concepto y diseño más plausibles.
  • Premio más inspirador: se entrega al proyecto que logra conmover e inspirar al público.
  • Premio mejor narrativa: destaca al proyecto que comunica de forma más creativa el potencial de los datos abiertos a través del arte de contar historias.
  • Premio conexión global: se otorga al proyecto que mejor conecta a personas de todo el mundo mediante la tecnología.
  • Premio arte y tecnología: reconoce al proyecto que combina de manera más efectiva las habilidades técnicas y creativas.
  • Premio impacto local: se concede al proyecto que demuestra el mayor potencial para generar un impacto a nivel local.

Figura 1. Premios del Space App Challenge. Fuente: https://www.spaceappschallenge.org/brand/ 

De Gijón al mundo: el proyecto español premiado en 2024

En la edición del año pasado, un proyecto español, en concreto de Gijón, ganó el premio global a mejor concepto de misión con su propuesta de aplicación Landsat Connect. El equipo AsturExplorer desarrolló una aplicación web diseñada para proporcionar una forma rápida, sencilla e intuitiva de seguir la trayectoria de los satélites Landsat y acceder a los datos de reflectancia superficial. Su proyecto fomentaba las capacidades de aprendizaje interdisciplinar y científico, y capacitaba a la ciudadanía.

El programa Landsat consiste en una serie de misiones satelitales de observación de la Tierra, gestionadas conjuntamente por la NASA y el Servicio Geológico de Estados Unidos (USGS), que proporcionan imágenes y datos sobre nuestro planeta desde 1972.

Los usuarios finales de la app desarrollada por AsturExplorer pueden establecer una ubicación de destino y recibir notificaciones con antelación para conocer cuándo pasará el satélite Landsat sobre cada zona. Esto permite a los usuarios preparar y tomar sus propias mediciones en el terreno y obtener datos de píxeles sin necesidad de controlar constantemente los horarios de los satélites.

El equipo AsturExplorer utilizó datos abiertos Landsat de la NASA y de Earth Explorer. También hicieron uso de la inteligencia artificial para entender el problema técnico y comparar múltiples alternativas. Puedes leer más sobre este caso de uso aquí.

¿Cómo me registro?

La web de Space App Challenge ofrece un apartado de preguntas frecuentes y un vídeo tutorial para facilitar el registro. El proceso es sencillo:

  1. Crea una cuenta
  2. Regístrate en el Hackathon
  3. Elige un evento local
  4. Únete a un equipo y forma el tuyo propio
  5. Entrega un proyecto (antes de las 11.59h del 5 de octubre)
  6. Completa la encuesta de participación

Te animamos a formar parte de este evento de referencia global en el que reutilizarás conjuntos de datos abiertos. ¡Una gran oportunidad!

calendar icon
Evento

Marzo se acerca y con ello una nueva edición del Open Data Day. Se trata de una celebración anual a nivel mundial que se organiza desde hace 12 años, impulsada por la fundación Open Knowledge a través de la Open Knowledge Network. Su objetivo es promover el uso de los datos abiertos en todos los países y culturas.

El tema central de este año es “Datos abiertos para abordar la policrisis”. El término policrisis hace referencia a una situación en la que existen diferentes riesgos en el mismo periodo temporal. Con esta temática se quiere poner el foco en los datos abiertos como herramienta para abordar, a través de su reutilización, desafíos globales como la pobreza y las múltiples desigualdades, la violencia y los conflictos, y los riegos climáticos y las catástrofes naturales.

Si hace varios años las actividades se limitaban a un único día, desde 2023 tenemos una semana para poder disfrutar de diversas conferencias, seminarios, talleres, etc. centradas en esta temática. En concreto, en 2025, las actividades relacionadas con el Open Data Day tendrán lugar del 1 al 7 de marzo.

A través de su página web puedes ver las diversas actividades que se realizarán a lo largo de la semana en todo el planeta. En este artículo repasamos algunas de las que puedes seguir desde España, bien porque se realizan en el territorio nacional o porque se pueden seguir online.

Open Data Day 2025: mujeres liderando datos abiertos para la igualdad

Iniciativa Barcelona Open Data organiza una sesión la tarde del 6 de marzo centrada en cómo los datos abiertos pueden ayudar a abordar los retos relacionados con la igualdad. La cita reunirá a mujeres expertas en tecnologías de datos y open data, para compartir conocimiento, experiencias y buenas prácticas tanto en la publicación como en la reutilización de datos abiertos en este campo.

El evento comenzará a las 17:30 con la bienvenida e introducción. A continuación, tendrán lugar dos mesas redondas y una entrevista:

  • Mesa redonda 1. Instituciones publicadoras. Estrategia de datos con perspectiva de género para abordar la agenda feminista.
  • Diálogo. Data lab. Construyendo la práctica feminista Tech Data.
  • Mesa redonda 2. Reutilizadores/as. Proyectos basados en el uso de datos abiertos para abordar la agenda feminista.

La jornada terminará a las 19:40 con un cóctel y la oportunidad para los asistentes de conversar sobre los temas tratados y ampliar la red de contactos a través del networking.

¿Cómo lo puedes seguir? Se trata de un evento presencial, que se celebrará en Ca l’Alier, en la calle de Pere IV, 362 (Barcelona).

Inscripción al evento

Las publicaciones científico-académicas de acceso abierto como herramientas para enfrentar la policrisis del siglo XXI: el rol clave de los editores

Organizada por un particular, el profesor Damián Molgaray, esta conferencia analiza el rol clave de los/as editores/as en las publicaciones científico-académicas de acceso abierto. La idea es que los participantes reflexionen sobre cómo el conocimiento abierto se posiciona como una herramienta fundamental para enfrentar los desafíos de la policrisis del siglo XXI, con el foco puesto en América Latina.

La cita será el 4 de marzo a las 11:00 de Argentina (15:00 en España peninsular).

¿Cómo lo puedes seguir? Se trata de un evento online a través de Google Meet.

Inscripción al evento

WhoFundsThem

La organización mySociety mostrará los resultados de su último proyecto. Durante los últimos meses, un equipo de voluntarios ha recopilado datos de los intereses financieros de los 650 diputados de la Cámara de los Comunes del Reino Unido, a través de fuentes como el Registro de Intereses oficial, el Registro Mercantil, las participaciones de los diputados a los debates, etc. Eso datos, comprobados y verificados con los propios diputados mediante un sistema de “derecho de réplica”, se han transformado a un formato de fácil acceso, para que cualquier persona pueda entenderlos fácilmente, y se publicarán en el sitio web de seguimiento parlamentario TheyWorkForYou.

En este evento se presentará el proyecto y se analizarán las conclusiones. Se celebra en martes 4 a las 14:00 hora de Londres (15:00 en España peninsular).

¿Cómo lo puedes seguir? La sesión se puede seguir online, pero es necesario registrarse. El evento será en inglés.

Inscripción al evento

Science on the 7th: A conversation on Open Data & Air Quality

El viernes 7 a las 9:00 EST – (15:00 en España peninsular) se podrá seguir online una conferencia sobre datos abiertos y calidad del aire. La sesión reunirá a diversos expertos para debatir los temas de actualidad en materia de calidad del aire y salud mundial, y se examinará la contaminación atmosférica procedente de fuentes clave, como las partículas, el ozono y la contaminación relacionada con el tráfico.

Esta iniciativa está organizada por Health Effects Institute, una corporación sin ánimo de lucro que proporciona datos científicos sobre los efectos de la contaminación atmosférica en la salud.

¿Cómo lo puedes seguir? La conferencia, que será en inglés, se puede ver a través de YouTube. No es necesario inscribirse.

Inscripción al evento

Abierto el plazo para recibir nuevas propuestas de eventos

Los eventos anteriores son solo algunos ejemplos de las actividades que forman parte de esta celebración mundial, pero, como se mencionó anteriormente, puedes ver todas las acciones en la página web de la iniciativa.

Además, todavía está abierto el plazo para inscribir nuevos eventos. Si tienes una propuesta, puedes registrarla a través de este enlace.

Desde datos.gob.es te invitamos a unirte a esta semana de celebración, que sirve para reivindicar el poder de los datos abiertos para generar cambios positivos en nuestra sociedad. ¡No te lo pierdas!

calendar icon
Documentación

Los portales de datos abiertos son una fuente invaluable de información pública. Sin embargo, extraer insights significativos de estos datos puede resultar desafiante para usuarios sin conocimientos técnicos avanzados.

En este ejercicio práctico, exploraremos el desarrollo de una aplicación web que democratiza el acceso a estos datos mediante el uso de inteligencia artificial, permitiendo realizar consultas en lenguaje natural.

La aplicación, desarrollada utilizando el portal datos.gob.es como fuente de datos, integra tecnologías modernas como Streamlit para la interfaz de usuario y el modelo de lenguaje Gemini de Google para el procesamiento de lenguaje natural. La naturaleza modular permite que se pueda utilizar cualquier modelo de Inteligencia Artificial con mínimos cambios. El proyecto completo está disponible en el repositorio de Github.

 

Accede al repositorio del laboratorio de datos en Github.

Ejecuta el código de pre-procesamiento de datos sobre Google Colab.

En este vídeo, el autor te explica que vas a encontrar tanto en el Github como en Google Colab.

 

 

Arquitectura de la aplicación

 

El núcleo de la aplicación se basa en cuatro apartados principales e interconectados que trabajan para procesar las consultas de la persona usuaria:

  1. Generación del Contexto
    • Analiza las características del dataset elegido.
    • Genera una descripción detallada incluyendo dimensiones, tipos de datos y estadísticas.
    • Crea una plantilla estructurada con guías específicas para la generación de código.
  2. Combinación de Contexto y Consulta
    • Une el contexto generado con la pregunta de la persona usuaria creando el prompt que recibirá el modelo de inteligencia artificial.
  3. Generación de Respuesta
    • Envía el prompt al modelo y obtiene el código Python que permite resolver la cuestión generada.
  4. Ejecución del Código
    • Ejecuta de manera segura el código generado con un sistema de reintentos y correcciones automáticas.
    • Captura y expone los resultados en el frontal de la aplicación.

 

Figura 1. Flujo de procesamiento de solicitudes de Usuario, indicando los pasos

Figura 1. Flujo de procesamiento de solicitudes

Proceso de desarrollo

El primer paso es establecer una forma de acceder a los datos públicos. El portal datos.gob.es ofrece vía API los datasets. Se han desarrollado funciones para navegar por el catálogo y descargar estos archivos de forma eficiente.

 

Figura 2. Captura de la página de la API del catálogo de datos

Figura 2. API de datos.gob

El segundo paso aborda la cuestión: ¿cómo convertir preguntas en lenguaje natural en análisis de datos útiles? Aquí es donde entra Gemini, el modelo de lenguaje de Google. Sin embargo, no basta con simplemente conectar el modelo; es necesario enseñarle a entender el contexto específico de cada dataset.

Se ha desarrollado un sistema en tres capas:

  1. Una función que analiza el dataset y genera una "ficha técnica" detallada.
  2. Otra que combina esta ficha con la pregunta del usuario.
  3. Y una tercera que traduce todo esto en código Python ejecutable.

Se puede ver en la imagen inferior como se desarrolla este proceso y, posteriormente, se muestran los resultados del código generado ya ejecutado.

Figura 3. Captura del formulario con el prompt y el diagrama resultante

Figura 3. Visualización del procesamiento de respuesta de la aplicación

Por último, con Streamlit, se ha construido una interfaz web que muestra el proceso y sus resultados al usuario. La interfaz es tan simple como elegir un dataset y hacer una pregunta, pero también lo suficientemente potente como para mostrar visualizaciones complejas y permitir la exploración de datos.

El resultado final es una aplicación que permite a cualquier persona, independientemente de sus conocimientos técnicos, realizar análisis de datos y aprender sobre el código ejecutado por el modelo. Por ejemplo, un funcionario municipal puede preguntar "¿Cuál es la edad media de la flota de vehículos?" y obtener una visualización clara de la distribución de edades.

Figura 4. Captura del formulario con el prompt y el diagrama y código resultantes

Figura 4. Caso de uso completo. Visualizar la distribución de los años de matriculación de la flota automovilística del ayuntamiento de Almendralejo en 2018

¿Qué puedes aprender?

Este ejercicio práctico te permite aprender:

  1. Integración de IA en Aplicaciones Web:
    • Cómo comunicarse efectivamente con modelos de lenguaje como Gemini.
    • Técnicas para estructurar prompts que generen código preciso.
    • Estrategias para manejar y ejecutar código generado por IA de forma segura.
  2. Desarrollo Web con Streamlit:
    • Creación de interfaces interactivas en Python.
    • Manejo de estado y sesiones en aplicaciones web.
    • Implementación de componentes visuales para datos.
  3. Trabajo con Datos Abiertos:
    • Conexión y consumo de APIs de datos públicos.
    • Procesamiento de archivos Excel y DataFrames.
    • Técnicas de visualización de datos.
  4. Buenas Prácticas de Desarrollo:
    • Estructuración modular de código Python.
    • Manejo de errores y reintentos.
    • Implementación de sistemas de feedback visual.
    • Despliegue de aplicaciones web usando ngrok.

Conclusiones y futuro

Este ejercicio demuestra el extraordinario potencial de la inteligencia artificial como puente entre los datos públicos y los usuarios finales. A través del caso práctico desarrollado, hemos podido observar cómo la combinación de modelos de lenguaje avanzados con interfaces intuitivas permite democratizar el acceso al análisis de datos, transformando consultas en lenguaje natural en análisis significativos y visualizaciones informativas.

Para aquellas personas interesadas en expandir las capacidades del sistema, existen múltiples direcciones prometedoras para su evolución:

  • Incorporación de modelos de lenguaje más avanzados que permitan análisis más sofisticados.
  • Implementación de sistemas de aprendizaje que mejoren las respuestas basándose en el feedback del usuario.
  • Integración con más fuentes de datos abiertos y formatos diversos.
  • Desarrollo de capacidades de análisis predictivo y prescriptivo.

En resumen, este ejercicio no solo demuestra la viabilidad de democratizar el análisis de datos mediante la inteligencia artificial, sino que también señala un camino prometedor hacia un futuro donde el acceso y análisis de datos públicos sea verdaderamente universal. La combinación de tecnologías modernas como Streamlit, modelos de lenguaje y técnicas de visualización abre un abanico de posibilidades para que organizaciones y ciudadanos aprovechen al máximo el valor de los datos abiertos.

calendar icon
Noticia

Impulsar la cultura del dato es un objetivo clave a nivel nacional que también comparten las administraciones autonómicas. Uno de los caminos para llevar a cabo este propósito es premiar aquellas soluciones que han sido desarrolladas con conjuntos de datos abiertos, una iniciativa que potencia su reutilización e impacto en la sociedad.

En esta misión, la Junta de Castilla y León y el Gobierno Vasco llevan años organizando concursos de datos abiertos, temática de la que hablamos en nuestro primer episodio del pódcast de datos.gob.es que puedes escuchar aquí.

En este post, repasamos cuáles han sido los proyectos premiados en las últimas ediciones de los concursos de datos abiertos de Euskadi y Castilla y León.

Premiados en el VIII Concurso de Datos Abiertos de Castilla y León

En la octava edición de esta competición anual, que suele abrir su plazo a finales de verano, se presentaron 35 candidaturas, de las cuales se han escogido 8 ganadores divididos en diferentes categorías.

Categoría Ideas: los participantes tenían que describir una idea para crear estudios, servicios, sitios web o aplicaciones para dispositivos móviles. Se repartían un primer premio de 1.500€ y un segundo premio de 500€.

  • Primer premio: Guardianes Verdes de Castilla y León presentado por Sergio José Ruiz Sainz. Se trata de una propuesta para desarrollar una aplicación móvil que oriente a los visitantes de los parques naturales de Castilla y León. Los usuarios pueden acceder a información (como mapas interactivos con puntos de interés) a la vez que pueden contribuir con datos útiles de su visita, que enriquecen la aplicación.
  • Segundo premio: ParkNature: sistema inteligente de gestión de aparcamientos en espacios naturales presentado por Víctor Manuel Gutiérrez Martín. Consiste en una idea para la crear una aplicación que optimice la experiencia de los visitantes de los espacios naturales de Castilla y León, mediante la integración en tiempo real de datos sobre aparcamientos y la conexión con eventos culturales y turísticos cercanos.

Categoría Productos y Servicios: premiaba estudios, servicios, sitios web o aplicaciones para dispositivos móviles, los cuales deben estar accesibles para toda la ciudadanía vía web mediante una URL. En esta categoría se repartieron un primer, segundo y tercer premio de 2.500€, 1.500€ y 500€, respectivamente, además de un premio específico de 1.500€ para estudiantes.

  • Primer premio: AquaCyL de Pablo Varela Vázquez. Es una aplicación que ofrece información sobre las zonas de baño en la comunidad autónoma.
  • Segundo premio: ConquistaCyL presentado por Markel Juaristi Mendarozketa y Maite del Corte Sanz. Es un juego interactivo pensado para hacer turismo en Castilla y León y aprender a través de un proceso gamificado.
  • Tercer premio: Todo el deporte de Castilla y León presentado por Laura Folgado Galache. Es una app que presenta toda la información de interés asociada a un deporte según la provincia.
  • Premio estudiantes: Otto Wunderlich en Segovia por Jorge Martín Arévalo. Es un repositorio fotográfico ordenado según tipo de monumentos y localización de las fotografías de Otto Wunderlich.

Categoría Recurso Didáctico: consistía en la creación de recursos didácticos abiertos nuevos e innovadores, que sirvieran de apoyo a la enseñanza en el aula. Estos recursos debían ser publicados con licencias Creative Commons. En esta categoría se otorgaba un único primer premio de 1.500€.

  • Primer premio: StartUp CyL: Creación de empresas a través de la Inteligencia Artificial y Datos Abiertos presentado por José María Pérez Ramos. Es un chatbot que utiliza la API de ChatGPT para asistir en la creación de una empresa utilizando datos abiertos.

Categoría Periodismo de Datos: premiaba piezas periodísticas publicadas o actualizadas (de forma relevante), tanto en soporte escrito como audiovisual, y ofrecía un premio de 1.500€.

Premiados de la 5ª edición del Concurso de Datos Abiertos de Open Data Euskadi

Como ya venía sucediendo en ediciones anteriores, el portal de datos abiertos de Euskadi abrió dos modalidades de premios: un concurso de ideas y otro de aplicaciones, cada uno de los cuales estaba dividido en varias categorías. En esta ocasión, se presentaron 41 candidaturas en el concurso de ideas y 30 para el de aplicaciones

Concurso de ideas: en esta modalidad se han repartido dos premios por categoría, el primero de 3.000€ y el segundo de 1.500€.

Categoría Sanitaria y Social

Categoría Medio ambiente y Sostenibilidad

  • Primer premio: Baratzapp de Leire Zubizarreta Barrenetxea. La idea consiste en el desarrollo de un software que facilita y asiste en la planificación de un huerto mediante algoritmos que buscan potenciar el conocimiento relacionado con la huerta de autoconsumo, a la vez que integra, entre otras, la información climatológica, medioambiental y parcelaria de una manera personalizada para el usuario.
  • Segundo premio: Euskal Advice de Javier Carpintero Ordoñez. El objetivo de esta propuesta es definir un recomendador turístico basado en inteligencia artificial.

Categoría General

  • Primer premio: Lanbila de Hodei Gonçalves Barkaiztegi. Es una propuesta de app que utiliza IA generativa y datos abiertos para emparejar curriculum vitae con ofertas de empleo de forma semántica. Proporciona recomendaciones personalizadas, alertas proactivas de empleo y formación, y permite decisiones informadas a través de indicadores laborales y territoriales.
  • Segundo premio: Desarrollo de un LLM para la consulta interactiva de Datos Abiertos del Gobierno Vasco de Ibai Alberdi Martín. La propuesta consiste en el desarrollo de un Modelo de Lenguaje a Gran Escala (LLM) similar a ChatGPT, entrenado específicamente con datos abiertos, enfocado en proporcionar una interfaz conversacional y gráfica que permita a los usuarios obtener respuestas precisas y visualizaciones dinámicas.

Concurso de aplicaciones: esta modalidad ha seleccionado un proyecto en la categoría de servicios web, premiado con 8.000€, y dos más en la Categoría General que han recibido un primer premio de 8.000€ y 5.000€ como segundo premio.

Categoría Servicios web

Categoría General

  • Primer premio: Garbiñe AI de Beatriz Arenal Redondo. Es un asistente inteligente que combina la inteligencia artificial (IA) con datos abiertos de Open Data Euskadi para promover la economía circular y mejorar los ratios de reciclaje en Euskadi.
  • Segundo premio: Vitoria-Gasteiz Businessmap de Zaira Gil Ozaeta. Es una herramienta de visualización interactiva basada en datos abiertos, diseñada para mejorar las decisiones estratégicas en el ámbito del emprendimiento y la actividad económica en Vitoria-Gasteiz.

Todas estas soluciones premiadas reutilizan conjuntos de datos abiertos del portal autonómico de Castilla y León o Euskadi, según el caso. Te animamos a que eches un vistazo a las propuestas que pueden inspirarte de cara a participar en la próxima edición de estos concursos. ¡Síguenos en redes sociales para no perderte las convocatorias de este año!

calendar icon
Evento

ASEDIE, Asociación Multisectorial de la Información, celebrará el próximo 12 de diciembre su habitual Conferencia Internacional sobre Reutilización de la Información del Sector Público. Esta será su 16ª edición y el lema central es “ASEDIE, 25 años impulsando la economía del dato”. El objetivo del encuentro es abordar los avances realizados durante este tiempo, ofrecer una foto de la situación actual y debatir sobre barreras y posibles soluciones para la reutilización de información del sector público.

ASEDIE, actor relevante en el Sector Infomediario, 25 años de historia. ASEDIE galardonada por la AEPD: Premio buenas prácticas Primer protocolo de colaboración con el Sector Público Vocal del Consejo Consultivo para Transformación Digital Vocal Comisión Permanente de Digitalización de la Economía, la Administración y la Ciudadanía 2019 2020 CNIG Socio Honorario Vocal ponencia Plan Estadístico Nacional 2025-2028 Nuevo Sector y Comisión Geoespacial Country Reasercher: Global Data Barometer Experto Foro de Gobierno Abierto Top 3 ASEDIE, en el Observatorio de buenas prácticas del IV Plan de Gobierno Abierto 2021 2022 Nueva Comisión Tecnologías de la Información Se crea con FEBIS la National Asociation Platform Con la URJC: Observatorio Open Data Reuse y Manifiesto de Datos Abiertos Reutilizables Cocreación V Plan Gobierno Abierto Miembro GT: Nuevo Portal de Transparencia de la AGE

 

¿Cuándo y dónde se celebra?

El evento se celebrará en formato presencial el próximo 12 de diciembre de 2024 en el Instituto Nacional de Estadística (INE), ubicado en la Avenida de Manoteras 52, en Madrid. El aforo es limitado, la recepción de asistentes comenzará a las 9:00 y el acto finalizará a las 13:40. Para asistir al evento debes registrarte en este enlace.

¿Cuál es el programa?

El foco de esta edición estará puesto en la reutilización de la información del sector público y en conmemorar los 25 años que lleva la Asociación ASEDIE impulsando la economía del dato en España.

La sesión se abrirá a las 9:30 con la inauguración del evento a cargo del
Presidente de ASEDIE, Ignacio Jiménez y de la Presidenta del INE, Elena Manzanera, para dar la bienvenida a los asistentes.

El evento contará con tres mesas redondas:

  • La primera mesa tendrá lugar de 9:45 a 10:30 y versará sobre ‘Inteligencia Artificial y protección de datos conviviendo con la reutilización’. Contará con la participación de Miguel Valle del Olmo, Consejero de Transformación Digital de la Representación Permanente de España en la Unión Europea y Leonardo Cervera Navas, Secretario General de European Data Protection Supervisor; y será moderada por Valentín Arce, Vicepresidente de ASEDIE.

Una vez finalizado este bloque temático, se hará entrega del Premio ASEDIE 2024 que tiene como finalidad reconocer a aquellas personas, empresas o instituciones que se distingan por el mejor trabajo o la mayor contribución a la innovación y desarrollo del sector Infomediario en el año en curso.

Después de una pausa de café, a partir de las 11:30, dará comienzo la segunda mesa redonda:

  • Esta segunda mesa bajo el título “Liderando los datos abiertos” reunirá a figuras líderes del sector público para destacar su rol coordinador. En ella participarán Carmen Cabanilla, Directora General de Gobernanza Pública de la Secretaría de Estado de Función Pública; Ruth del Campo, Directora General del Dato y Francisco Javier García Vieira, Director de RedIRIS y Servicios Públicos Digitales de Red.es. Todo ello, moderado por Manuel Suarez, Vocal de la Junta Directiva de ASEDIE.
  • A partir de las 12:30, dará comienzo la tercera mesa redonda sobre “La realidad de los datos abiertos: calidad, gobernanza y acceso” que será moderada por la Catedrática de la Universidad Rey Juan Carlos, Carmen de Pablo. En esta mesa participarán Fernando Serrano, Vocal Asesor de la Dirección General del Catastro; Joseba Asiain, Director General de Presidencia, Gobierno Abierto y Relaciones con el Parlamento del Gobierno de Navarra y Ángela Perez, Directora General de Transparencia y calidad del Ayuntamiento de Madrid.

Finalmente, el evento acabará con una breve intervención de clausura de Ignacio Jiménez, presidente de ASEDIE.

Puedes consultar el programa completo aquí.

¿Cómo puedo inscribirme?

La asistencia es presencial con aforo limitado y las inscripciones pueden realizarse en la web de ASEDIE.

calendar icon
Documentación

Los portales de datos abiertos juegan un papel fundamental en el acceso y reutilización de la información pública. Un aspecto clave en estos entornos es el etiquetado de los conjuntos de datos, que facilita su organización y recuperación.

Los word embeddings representan una tecnología transformadora en el campo del procesamiento del lenguaje natural, permitiendo representar palabras como vectores en un espacio multidimensional donde las relaciones semánticas se preservan matemáticamente. En este ejercicio se explora su aplicación práctica en un sistema de recomendación de etiquetas, utilizando como caso de estudio el portal de datos abiertos datos.gob.es.

El ejercicio se desarrolla en un notebook que integra la configuración del entorno, la adquisición de datos y el procesamiento del sistema de recomendación, todo ello implementado en Python. El proyecto completo se encuentra disponible en el repositorio de Github.

Accede al repositorio del laboratorio de datos en Github.

Ejecuta el código de pre-procesamiento de datos sobre Google Colab.

En este vídeo, el autor te explica que vas a encontrar tanto en el Github como en Google Colab.

Entendiendo los word embeddings

Los word embeddings son representaciones numéricas de palabras que revolucionan el procesamiento del lenguaje natural al transformar el texto en un formato matemáticamente procesable. Esta técnica codifica cada palabra como un vector numérico en un espacio multidimensional, donde la posición relativa entre vectores refleja relaciones semánticas y sintácticas entre palabras. La verdadera potencia de los embeddings radica en tres aspectos fundamentales:

  • Captura de contexto: a diferencia de técnicas tradicionales como one-hot encoding, los embeddings aprenden del contexto en el que aparecen las palabras, permitiendo capturar matices de significado.
  • Algebra semántica: los vectores resultantes permiten operaciones matemáticas que preservan relaciones semánticas. Por ejemplo, vector('Madrid') - vector('España') + vector('Francia') ≈ vector('París'), demostrando la captura de relaciones capital-país.
  • Similitud cuantificable: la similitud entre palabras se puede medir mediante métricas, permitiendo identificar no solo sinónimos exactos sino también términos relacionados en diferentes grados y generalizar estas relaciones a nuevas combinaciones de palabras.

En este ejercicio se han utilizado embeddings pre-entrenados GloVe (Global Vectors for Word Representation), un modelo desarrollado por Stanford que destaca por su capacidad de capturar relaciones semánticas globales en el texto. En nuestro caso, empleamos vectores de 50 dimensiones, un equilibrio entre complejidad computacional y riqueza semántica. Para evaluar exhaustivamente su capacidad de representar el lenguaje castellano, se han realizado múltiples pruebas:

  1. Se ha analizado la similitud entre palabras mediante la similitud coseno, una métrica que evalúa el ángulo entre los vectores de dos palabras. Esta medida resulta en valores entre -1 y 1, donde valores cercanos a 1 indican alta similitud semántica, mientras que valores cercanos a 0 indican poca o ninguna relación. Se evaluaron términos como "amor", "trabajo" y "familia" para verificar que el modelo identificara correctamente palabras semánticamente relacionadas.
  2. Se ha probado la capacidad del modelo para resolver analogías lingüísticas, por ejemplo, "hombre es a mujer lo que rey es a reina", confirmando su habilidad para capturar relaciones semánticas complejas.
  3. Se han realizado operaciones vectoriales (como "rey - hombre + mujer") para comprobar si los resultados mantenían coherencia semántica.
  4. Finalmente, se han aplicado técnicas de reducción de dimensionalidad sobre una muestra representativa de 40 palabras en español, permitiendo visualizar las relaciones semánticas en un espacio bidimensional. Los resultados revelaron patrones de agrupación natural entre términos semánticamente relacionados, como se observa en la figura:

Figura 1. Análisis de Componentes principales sobre 50 dimensiones (embeddings) con un porcentaje de variabilidad explicada por los dos componentes de 0.46

 

- Los términos relacionados con familia (padre, hermano, abuelo) se concentran en la parte inferior.

- Los medios de transporte (coche, autobús, camión) forman un grupo distintivo.

- Los colores (azul, verde, rojo) aparecen próximos entre sí.

Para sistematizar este proceso de evaluación, se ha desarrollado una función unificada que encapsula todas las pruebas descritas anteriormente. Esta arquitectura modular permite evaluar de manera automática y reproducible diferentes modelos de embeddings pre-entrenados, facilitando así la comparación objetiva de su rendimiento en el procesamiento del lenguaje castellano. La estandarización de estas pruebas no solo optimiza el proceso de evaluación, sino que también establece un marco consistente para futuras comparaciones y validaciones de nuevos modelos por parte del público.

La buena capacidad para capturar relaciones semánticas en el lenguaje castellano es la que aprovechamos en nuestro sistema de recomendación de etiquetas.

Sistema de recomendación basado en embeddings

Aprovechando las propiedades de los embeddings, desarrollamos un sistema de recomendación de etiquetas que sigue un proceso de tres fases:

  1. Generación de embeddings: para cada conjunto de datos del portal, generamos una representación vectorial combinando el título y la descripción. Esto nos permite comparar datasets por su similitud semántica.
  2. Identificación de datasets similares: utilizando la similitud coseno entre los vectores, identificamos los conjuntos de datos más similares semánticamente.
  3. Extracción y estandarización de etiquetas: a partir de los conjuntos similares, extraemos sus etiquetas asociadas y las mapeamos con términos del tesauro Eurovoc. Este tesauro, desarrollado por la Unión Europea, es un vocabulario controlado multilingüe que proporciona una terminología estandarizada para la catalogación de documentos y datos en el ámbito de las políticas europeas. Aprovechando nuevamente la potencia de los embeddings, identificamos los términos de Eurovoc semánticamente más cercanos a nuestras etiquetas, garantizando así una estandarización coherente y una mejor interoperabilidad entre sistemas de información europeos.

Los resultados muestran que el sistema es capaz de generar recomendaciones de etiquetas coherentes y estandarizadas. Para ilustrar el funcionamiento del sistema, tomemos el caso del conjunto de datos “Agenda de Actividades Ciudad de Tarragona”:

Figura 2. Agenda de Actividades Ciudad de Tarragona

El sistema:

  1. Encuentra conjuntos de datos similares como "Agenda de actividades de Terrassa" y "Agenda cultural de Barcelona".
  2. Identifica etiquetas comunes de estos conjuntos de datos, como "EXPOSICIONES", "TEATRO" y "CULTURA".
  3. Sugiere términos Eurovoc relacionados: "turismo cultural", "promoción cultural" e "industria cultural".

Ventajas del enfoque

Este enfoque ofrece ventajas significativas:

  • Recomendaciones Contextuales: el sistema sugiere etiquetas basándose en el significado real del contenido, no solo en coincidencias textuales.
  • Estandarización Automática: la integración con Eurovoc garantiza un vocabulario controlado y coherente.
  • Mejora Continua: el sistema aprende y mejora sus recomendaciones a medida que se añaden nuevos datasets.
  • Interoperabilidad: el uso de Eurovoc facilita la integración con otros sistemas europeos.

Conclusiones

Este ejercicio demuestra el gran potencial de los embeddings como herramienta para la asociación de textos en función de su naturaleza semántica. A través del caso práctico analizado, se ha podido observar cómo, mediante la identificación de títulos y descripciones similares entre datasets, es posible generar recomendaciones precisas de etiquetas o keywords. Estas etiquetas, a su vez, pueden vincularse con palabras clave de un tesauro estandarizado como Eurovoc, aplicando el mismo principio.

A pesar de los retos que pueden surgir, la implementación de este tipo de sistemas en entornos de producción presenta una valiosa oportunidad para mejorar la organización y recuperación de información. La precisión en la asignación de etiquetas puede verse influenciada por diversos factores interrelacionados del proceso:

  • La especificidad de los títulos y descripciones de los datasets es fundamental, ya que de ella depende una correcta identificación de contenidos similares y, por tanto, una adecuada recomendación de etiquetas.
  • La calidad y representatividad de las etiquetas existentes en los datasets similares determina directamente la relevancia de las recomendaciones generadas.
  • La cobertura temática del tesauro Eurovoc, que, si bien es extensa, puede no abarcar términos específicos necesarios para describir ciertos datasets de manera precisa.
  • La capacidad de los vectores para capturar fielmente las relaciones semánticas entre los contenidos, lo cual impacta directamente en la precisión de las etiquetas asignadas.

Para aquellos que deseen profundizar en el tema, existen otras aproximaciones interesantes al uso de embeddings que complementan lo visto en este ejercicio, tales como:

  • Utilización de modelos de embeddings más complejos y computacionalmente costosos (como BERT, GPT, etc.).
  • Entrenamiento de modelos en un corpus propio adaptado al dominio.
  • Aplicación de técnicas más profundas de limpieza de datos.

En resumen, este ejercicio no solo demuestra la eficacia de los embeddings para la recomendación de etiquetas, sino que abre la puerta a que el lector explore todas las posibilidades que esta poderosa herramienta ofrece.

calendar icon