Documentación

La anonimización de datos define la metodología y el conjunto de buenas prácticas y técnicas que reducen el riesgo de identificación de personas, la irreversibilidad del proceso de anonimización y la auditoría de la explotación de los datos anonimizados, monitorizando quién, cuándo y para qué se usan.

Este proceso es fundamental, tanto cuando hablamos de datos abiertos como de datos en general, para proteger la privacidad de las personas, garantizando el cumplimiento normativo y de los derechos fundamentales.

El informe “Introducción a la anonimización de datos: Técnicas y casos prácticos”, elaborado por Jose Barranquero, define los conceptos clave de un proceso de anonimización, incluyendo términos, principios metodológicos, tipos de riesgos y técnicas existentes.

El objetivo del informe es ofrecer una introducción suficiente y concisa, principalmente orientada a publicado­res de datos que necesitan garantizar la privacidad de estos. No se trata de una guía exhaustiva, sino una primera toma de contacto para entender los riesgos y técnicas disponibles, así como la complejidad inherente a cualquier proceso de anonimización de datos.

¿Qué técnicas se incluyen en el informe?

Tras una introducción donde se definen los términos más relevantes y los principios básicos de anonimización, el informe se centra en comentar tres enfoques generales para la anonimización de datos, cada uno de los cuales está integrado a su vez por diversas técnicas:

  1. Aleatorización: tratamiento de datos, eliminando la correlación con el individuo, mediante la adición de ruido, la permutación, o la Privacidad Diferencial.
  2. Generalización: alteración de escalas u órdenes de magnitud a través de técnicas basadas en agregación como Anonimato-K, Diversidad-L, o Proximidad-T.
  3. Seudonimización: reemplazo de valores por versiones cifradas o tokens, habitualmente a través de algoritmos de HASH, que impiden la identificación directa del individuo, a menos que se combine con otros datos adicionales, que deben estar custodiados de forma adecuada.

El documento describe cada una de estas técnicas, así como los riesgos que suponen, aportando recomendaciones para evitarlos. Si bien, la decisión final sobre qué técnica o conjunto de técnicas es más adecuada depende de cada caso particular.

El informe finaliza con un conjunto de ejemplos prácticos sencillos que muestran la aplicación de las técnicas Anonimato-K y seudonimización mediante cifrado con borrado de clave. Para simplificar la ejecución del caso, se pone a disposición de los usuarios el código y los datos utilizados en el ejercicio, disponibles en Github. Para seguir el ejercicio, es recomendable tener unos conocimientos mínimos del lenguaje pyhton.

A continuación, puedes descargar el informe completo, así como el resumen ejecutivo y una presentación-resumen.

 

calendar icon
Blog

Tras varios meses de pruebas y entrenamientos de distinto tipo, el primer sistema masivo de Inteligencia Artificial de la lengua española es capaz de generar sus propios textos y resumir otros ya existentes. MarIA es un proyecto que ha sido impulsado por la Secretaría de Estado de Digitalización e Inteligencia Artificial y desarrollado por el Centro Nacional de Supercomputación, a partir de los archivos web de la Biblioteca Nacional de España (BNE).

Hablamos de un avance muy importante en este ámbito, ya que se trata del primer sistema de inteligencia artificial experto en comprender y escribir en lengua española. Enmarcada dentro del Plan de Tecnologías del Lenguaje, esta herramienta pretende contribuir al desarrollo de una economía digital en español, gracias al potencial que los desarrolladores pueden encontrar en ella.

El reto de crear los asistentes del lenguaje del futuro

Los modelos de lenguaje al estilo de MarIA son la piedra angular sobre la que se sustenta el desarrollo del procesamiento del lenguaje natural, la traducción automática o los sistemas conversacionales, tan necesarios para comprender y replicar de forma automática una lengua. MarIA es un sistema de inteligencia artificial formado por redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, de su léxico y de sus mecanismos para expresar el significado y escribir a nivel experto.

Gracias a este trabajo previo, los desarrolladores pueden crear herramientas relacionadas con el lenguaje y capaces de clasificar documentos, realizar correcciones o elaborar herramientas de traducción.

La primera versión de MarIA fue elaborada con RoBERTa, una tecnología que crea modelos del lenguaje del tipo “codificadores”, capaces de generar una interpretación que puede servir para categorizar documentos, encontrar similitudes semánticas en diferentes textos o detectar los sentimientos que se expresan en ellos.

Así, la última versión de MarIA ha sido desarrollada con GPT-2, una tecnología más avanzada que crea modelos generativos decodificadores y añade prestaciones al sistema. Gracias a estos modelos decodificadores, la última versión de MarIA es capaz de generar textos nuevos a partir de un ejemplo previo, lo que resulta muy útil a la hora de elaborar resúmenes, simplificar grandes cantidades de información, generar preguntas y respuestas e, incluso, mantener un diálogo.

Avances como los anteriores convierten a MarIA en una herramienta que, con entrenamientos adaptados a tareas específicas, puede ser de gran utilidad para desarrolladores, empresas y administraciones públicas. En esta línea, modelos similares que se han desarrollado en inglés son utilizados para generar sugerencias de texto en aplicaciones de escritura, resumir contratos o buscar informaciones concretas dentro de grandes bases de datos de texto para relacionarlas posteriormente con otras informaciones relevantes.

En otras palabras, además de redactar textos a partir de titulares o palabras, MarIA puede comprender no solo conceptos abstractos, sino también el contexto de los mismos.

Más de 135 mil millones de palabras al servicio de la inteligencia artificial

Para ser exactos, MarIA se ha entrenado con 135.733.450.668 de palabras procedentes de millones de páginas web que recolecta la Biblioteca Nacional y que ocupan un total de 570 Gigabytes de información. Para estos mismos entrenamientos, se ha utilizado el superordenador MareNostrum del Centro Nacional de Supercomputación de Barcelona y ha sido necesaria una potencia de cálculo de 9,7 trillones de operaciones (969 exaflops).

Teniendo en cuenta que uno de los primeros pasos para diseñar un modelo del lenguaje pasa por construir un corpus de palabras y frases que sirva como base de datos para entrenar al propio sistema, en el caso de MarIA, fue necesario realizar un cribado para eliminar todos los fragmentos de texto que no fuesen “lenguaje bien formado” (elementos numéricos, gráficos, oraciones que no terminan, codificaciones erróneas, etc.) y así entrenar correctamente a la IA.

Debido al volumen de información que maneja, MarIA se sitúa ya como el tercer sistema de inteligencia artificial experto en comprender y escribir con mayor número de modelos masivos de acceso abierto. Por delante solo están los modelos del lenguaje elaborados para el inglés y el mandarín. Esto ha sido posible principalmente por dos razones. Por un lado, debido al elevado nivel de digitalización  en el que se encuentra el patrimonio de la Biblioteca Nacional  y, por el otro, gracias a la existencia de un Centro de Supercomputación Nacional que cuenta con superordenadores como el MareNostrum 4.

El papel de los conjuntos de datos de la BNE

Desde que en 2014 lanzase su propio portal de datos abiertos (datos.bne.es), la BNE ha apostado por acercar los datos que están a su disposición y bajo su custodia: datos de las obras que conserva, pero también de autores, vocabularios controlados de materias y términos geográficos, entre otros.

En los últimos años, se ha desarrollado también la plataforma educativa BNEscolar, que busca ofrecer contenidos digitales del fondo documental de la Biblioteca Digital Hispánica y que pueden resultar de interés para la comunidad educativa.

Así mismo y para cumplir con los estándares internacionales de descripción e interoperabilidad, los datos de la BNE están identificados mediante URIs y modelos conceptuales enlazados, a través de tecnologías semánticas y ofrecidos en formatos abiertos y reutilizables. Además, cuentan con un alto nivel de normalización.

Próximos pasos

Así y con el objetivo de perfeccionar y ampliar las posibilidades de uso de MarIA, se pretende que la versión actual dé lugar a otras especializadas en áreas de conocimiento más concretas. Teniendo en cuenta que se trata de un sistema de inteligencia artificial dedicado a comprender y generar texto, se torna fundamental que este sea capaz de desenvolverse con soltura ante léxicos y conjuntos de información especializada.

Para ello, el PlanTL continuará expandiendo MarIA para adaptarse a los nuevos desarrollos tecnológicos en procesamiento del lenguaje natural (modelos más complejos que el GPT-2 ahora implementado, entrenados con mayor cantidad de datos) y se buscará la forma de crear espacios de trabajo para facilitar el uso de MarIA por compañías y grupos de investigación.

 


Contenido elaborado por el equipo de datos.gob.es.

calendar icon
Aplicación

PCT Cartuja es una aplicación que busca dar servicio en tiempo real a los usuarios del Parque Tecnológico sevillano de la Cartuja. Entre las funciones disponibles puedes visualizar las plazas de aparcamiento disponibles en cada momento o acceder al directorio de entidades del Parque gracias a un buscador categorizado por sectores de actividad. 

Además, dispondrás de toda la información relativa a horarios, disponibilidad de espacios para empresas o promociones vigentes para los trabajadores del PCT Cartuja.  

Igualmente, la app informa sobre las notificaciones urgentes de última hora, la agenda de eventos empresariales y también sobre las últimas noticias relacionadas con las empresas y servicios que ofrece. 

calendar icon
Noticia

El auge de las ciudades inteligentes, la distribución de los recursos durante la pandemia o la lucha contra los desastres naturales ha despertado el interés por los datos geográficos. Y es que, de la misma forma que los datos abiertos del ámbito sanitario contribuyen a implementar mejoras sociales relacionadas con el diagnóstico de enfermedades o la reducción de listas de espera, los Sistemas de Información Geográfica ayudan a agilizar y simplificar algunos de los retos del futuro, con el objetivo de hacer de estos una realidad más sostenible desde el punto de vista ambiental, más eficiente en términos energéticos y más habitable para los ciudadanos.

Al igual que sucede en otros ámbitos, los profesionales que se dedican a optimizar al máximo los Sistemas de Información Geográfica (GIS en adelante) también construyen sus propios grupos de trabajo, asociaciones y comunidades formativas. Las comunidades GIS son grupos de voluntarios interesados en utilizar la información geográfica para maximizar los beneficios sociales que este tipo de datos pueden aportar en términos colectivos.

Así y a través de abordar los distintos enfoques que ofrece el campo de la información geográfica, las comunidades de datos trabajan en la elaboración de aplicaciones, el análisis de información geoespacial, la generación de cartografías y la creación de contenido divulgativo, entre otros.

En las siguientes líneas, analizaremos paso a paso cuál es el compromiso y el objetivo de tres ejemplos de comunidades GIS que actualmente están en activo.

GIS and Beers

¿Qué es y cuál es su objetivo?

Gis and Beers es una asociación centrada en la difusión, el análisis y el diseño de herramientas vinculadas a la información geográfica y los datos cartográficos. Especializados en sostenibilidad y medioambiente, utilizan los datos abiertos para proponer y difundir soluciones que buscan diseñar un entorno sostenible y respetuoso con la naturaleza.

¿Qué funciones lleva a cabo?

Además de difundir contenido especializado como informes y análisis de datos, los integrantes de Gis and Beers ofrecen recursos formativos dedicados a facilitar la comprensión de los sistemas de información geográfica desde la perspectiva medioambiental. Resulta habitual  leer en su web artículos centrados en nuevos datos ambientales o ver tutoriales sobre cómo acceder a las plataformas de datos abiertos especializadas en medioambiente o a las herramientas disponibles para su gestión. Igualmente, cada vez que detectan la publicación de un nuevo catálogo de datos abiertos, comparten en su web las instrucciones necesarias para descargar los datos, gestionarlos y representarlos cartográficamente.

Próximos pasos

En línea con la conciencia medioambiental que marca el proyecto, desde Gis and Beers dedican cada vez más esfuerzos a fortalecer dos pilares clave para su contenido: concienciar sobre la importancia de la ciencia ciudadana (movimiento colaborativo que aporta datos observados por la ciudadanía) y promover el acceso a datos que faciliten el modelado sin adaptarlos previamente a necesidades cartográficas de análisis.

El papel de los datos abiertos

El origen de la mayor parte de los datos abiertos que utilizan proceden de fuentes estatales como el IGN, Aemet o el INE, aunque también se nutren de otras opciones como las que ofrecen organismos Google Earth Engine y Google Public Data.

¿Cómo contactar con ellos?

Si te interesa conocer más de cerca el trabajo de esta comunidad o necesitas ponerte en contacto con Gis and Beers, puedes visitar su página web o escribirles directamente a esta cuenta de correo electrónico.

Geovoluntarios

¿Qué es y cuál es su objetivo?

Se trata de una Organización sin ánimo de lucro formada por profesionales experimentados en el uso y la aplicación en remoto de tecnología geoespacial y cuyo objetivo es cooperar con otras organizaciones que prestan su apoyo en situaciones de emergencia y en proyectos alineados con los Objetivos de Desarrollo Sostenible.

La asociación tiene como objetivos principales:

  • Proporcionar ayuda a organizaciones en cualquiera de las fases de una emergencia, priorizando la ayuda a organizaciones sin ánimo de lucro, de salvamento o que apoyen al tercer sector. Algunas de ellas son Cruz Roja, Protección Civil, organizaciones humanitarias, etc.
  • Fomentar el voluntariado digital entre personas con conocimientos o interés en las tecnologías geoespaciales y el trabajo con datos geolocalizados.
  • Buscar formas de apoyar a organizaciones trabajando en la consecución de los Objetivos de Desarrollo Sostenible (ODS).
  • Proveer de herramientas geoespaciales y datos geolocalizados a proyectos sin ánimo de lucro que de otra forma no serían técnica o económicamente viables.

¿Qué funciones lleva a cabo?

La experiencia profesional acumulada por los integrantes de geovoluntarios permite ofrecer apoyo en tareas relacionadas con el análisis de datos geográficos, el diseño de modelos o la monitorización de situaciones de especial emergencia. De este modo, las funciones más habituales que llevan a cabo como ONG pueden resumirse en:

  • Capacitar y ofrecer medios a voluntarios y organizaciones en todos los aspectos necesarios para proporcionar la ayuda con garantías: sistemas de información geográfica, análisis espacial, RGPD, seguridad, etc.
  • Facilitar la creación de equipos temporales de trabajo para dar respuesta a las solicitudes de ayuda recibidas y que estén acorde con los fines de la organización.
  • Crear grupos de trabajo que mantengan datos que sirvan de propósito general.
  • Buscar acuerdos de colaboración con otras entidades, organizar y participar en eventos y realizar campañas de promoción del voluntariado digital.

Desde un punto de vista más concreto, entre todos los proyectos en los que ha participado Geovoluntarios, cabe destacar dos iniciativas en las que los integrantes se volcaron especialmente. Por un lado, el proyecto propio datos Covid, donde se logró crear una comunidad de voluntarios digitales comprometidos con la búsqueda y el análisis de datos fiables para, así, ofrecer información de calidad sobre la situación que se estaba viviendo en cada una de las diferentes comunidades autónomas de España.

Otra de las iniciativas a destacar fue Reactiva Madrid, un evento organizado por el Ayuntamiento de Madrid y Esri España que surgió para identificar y desarrollar trabajos que, a través de la participación ciudadana, ayudasen a prevenir y/o solucionar problemas relacionados con la pandemia provocada por la COVID-19 en los ámbitos de la economía, la movilidad y la sociedad.

Próximos pasos

Tras dos años volcados en resolver parte de los problemas generados por la crisis de la Covid-19, desde Geovoluntarios siguen centrados en colaborar con organizaciones que estén comprometidas con la asistencia a las personas más vulnerables en situaciones de emergencias, sin olvidar el compromiso que les vincula a cumplir los Objetivos de Desarrollo Sostenible.

Así, uno de los proyectos propios en los que los voluntarios están más activos es la aplicación y el perfeccionamiento de GeoObs, una app para geolocalizar diferentes proyectos de observación sobre: puntos sucios, peligro de incendios, zonas peligrosas para moteros, mejorar de una ciudad, ciclismo seguro, etc.

El papel de los datos abiertos

Para una ONG como Geovoluntarios los datos abiertos son esenciales tanto para desarrollar las tareas solidarias que llevan a cabo junto a otras asociaciones, como para diseñar servicios y aplicaciones propias. De ahí que estos recursos formen parte de las nuevas funcionalidades en las que la Asociación quiere centrarse.

Tanto es así que la recogida de datos marca un punto inicial para los proyectos piloto que se pueden encontrar actualmente bajo el ámbito de Geovoluntarios. Sin ir más lejos, la aplicación mencionada anteriormente es un ejemplo que demuestra cómo generar datos por observación puede contribuir a enriquecer los catálogos de datos abiertos disponibles.

¿Cómo contactar con ellos?

Si te interesa contactar con Geovoluntarios, puedes visitar su página web o rellenar el formulario de contacto.

Comunidad SIG

¿Qué es y cuál es su objetivo?

Comunidad SIG es un colectivo virtual que reúne a profesionales del ámbito de los datos geográficos y los sistemas de información vinculados al mismo sector. Fundados en el año 2009, difunden su trabajo a través de redes sociales como Facebook, Twitter o Instagram desde donde, además, comparten noticias e información relevante sobre geotecnología, geoprocesamiento u ordenamiento territorial entre otros temas.

Su objetivo no es otro que contribuir a ampliar el conocimiento divulgativo y de interés para la comunidad de datos geográficos, un espacio virtual con escasa presencia cuando este proyecto comenzó su labor en internet.

¿Qué funciones lleva a cabo?

En línea con los objetivos mencionados anteriormente, las tareas desarrolladas por SIG están centradas en la compartición y generación de contenido relacionado con los Sistemas de Información Geográfica. Dada la diversidad de campos y sectores de actuación dentro del mismo ámbito, tratan de equilibrar el contenido de sus publicaciones para conseguir congregar tanto a quien busca información como a quien provee oportunidades. Por esta razón es posible encontrar noticias sobre eventos, capacitaciones, proyectos de investigación, noticias sobre emprendedores o literatura entre muchos otros.

Próximos pasos

Conscientes del peso que tienen como comunidad dentro del ámbito de los datos geográficos, desde SIG tienen planificado reforzar cuatro ejes que afectan directamente al trabajo del proyecto: organizar charlas y webinars, contactar con organismos e instituciones capaces de aportar financiación a proyectos del área SIG, buscar entidades que proporcionen información geoespacial abierta y, por último, conseguir que una parte del sector privado participe económicamente en la formación y capacitación de los profesionales del ámbito SIG.

El papel de los datos abiertos

Se trata de una comunidad que está estrechamente vinculada al universo de los datos abiertos, debido a que comparte contenido que puede ser utilizado, complementado y redistribuido libremente por los usuarios. De hecho, según apuntan sus propios integrantes, cada vez se aprecia más la aceptación y la preferencia por esta tendencia, logrando que los colaboradores de la comunidad y sus propios proyectos, impulsen el debate y el interés a la utilizar datos abiertos en todas las fases activas de sus tareas o actividades.

¿Cómo contactar con ellos?

Al igual que en los casos anteriores, si te interesa ponerte en contacto con Comunidad SIG puedes hacerlo a través de su página de Facebook, Twitter o Instagram o enviando un correo electrónico al siguiente email.

Comunidades como Gis and Beers, SIG o Geovoluntarios son tan solo un pequeño ejemplo del trabajo que está desarrollando el colectivo GIS en la actualidad. Si formas parte de alguna comunidad de datos de este u otro ámbito o conoces de cerca la labor de comunidades que puedan resultar de interés en datos.gob.es, no dudes en enviarnos un correo electrónico a dinamizacion@datos.gob.es.

Geo Developers

¿Qué es y cuál es su objetivo?

Geodevelopers es una comunidad cuyo objetivo es reunir a desarrolladores y topógrafos del ámbito de los datos geográficos. La función principal de esta comunidad es compartir distintas experiencias profesionales relacionadas con los datos geográficos y, para ello, organizan charlas donde todo el mundo puede compartir su experiencia y conocimiento con el resto.

A través de su canal de YouTube es posible acceder a las formaciones y charlas realizadas hasta la fecha, así como estar al tanto de las siguientes que podrán llevar a cabo.

El papel de los datos abiertos

Aunque no se trata de una comunidad centrada en la reutilización de datos abiertos como tal, estos les sirven para desarrollar algunos proyectos y extraer nuevos aprendizajes que después incorporan a los flujos de trabajo.

Próximos pasos y contacto

El principal objetivo de futuro de Geodevelopers es hacer crecer la comunidad para, así, poder seguir compartiendo experiencias y conocimiento con el resto de interesados del ámbito GIS. Si quieres ponerte en contacto y seguir la evolución de este proyecto puedes hacerlo a través de su perfil de Twitter.

calendar icon
Blog

Según el último análisis realizado por Gartner en septiembre de 2021, sobre las tendencias en materia de Inteligencia Artificial, los Chatbots son una de las tecnologías más cercanas a ofrecer una productividad efectiva en menos de 2 años. En la Figura 1, extraída de dicho informe, se observa que existen 4 tecnologías que han superado ampliamente el estado de sobre-expectativa (peak of inflated expectations) y comienzan ya a salir del canal de desilusión (trough of disillisionment), hacia estados de mayor madurez y estabilidad, incluyendo chatbots, búsqueda semántica, visión artificial y vehículos autónomos.

Gráfica que muestra las expectativas de las tecnologías ligadas a la Inteligencia artificial, donde se ve como destacan los chatbots

Figura 1 - Tendencias en IA para los próximos años.

En el caso concreto de los chatbots, existen grandes expectativas de productividad en los próximos años gracias a la madurez de las diferentes plataformas disponibles, tanto en opciones de Cloud Computing, como en proyectos de código abierto, es especial RASA o Xatkit. En la actualidad es relativamente sencillo desarrollar un chatbot o asistente virtual sin conocimientos de IA, mediante el uso de estas plataformas.

¿Cómo funciona un chatbot?

A modo de ejemplo, la Figura 2 muestra un diagrama de los diferentes componentes que habitualmente incluye un chatbot, en este caso enfocado en la arquitectura del proyecto RASA.

Diagrama de la arquitectura del proyecto RASA, explicada a continuación en el texto

Figura 2 - Arquitectura del proyecto RASA

Uno de los componentes principales es el módulo agente (agent), que actúa a modo de controlador del flujo de datos y normalmente es la interfaz del sistema con los diferentes canales (input/output channels) ofrecidos a los usuarios, como aplicaciones de chat, redes sociales, aplicaciones web o móviles, etc.

El módulo de NLU (Natural Languge Understanding) se encarga de identificar la intención del usuario (qué quiere consultar o hacer), la extracción de entidades (de qué está hablando) y la generación de respuestas. Se considera un flujo (pipeline) porque intervienen varios procesos de diferente complejidad, en muchos casos incluso mediante el uso de modelos pre-entrenados de Inteligencia Artificial.

Finalmente, el módulo de gestión de conversaciones (dialogue policies) define cuál es el siguiente paso en una conversación, basándose en el contexto y el histórico de mensajes. Este módulo se integra con otros subsistemas como el almacén de conversaciones (tracker store) o el servidor que procesa las acciones necesarias para dar respuesta al usuario (action server).

Chatbots en portales de datos abiertos como mecanismo para localizar datos y acceder a información

Cada vez existen más iniciativas para empoderar a los ciudadanos en la consulta de datos abiertos mediante el uso de chatbots, empleando interfaces de lenguaje natural, aumentando así el valor neto que ofrecen dichos datos. El uso de chatbots permite automatizar la recopilación de datos a partir de la interacción con el usuario y responder de forma sencilla, natural y fluida, permitiendo la democratización de la puesta en valor de datos abiertos.

En el SOM Research Lab (Universitat Oberta de Catalunya) fueron pioneros en la aplicación de chatbots para mejorar el acceso de los ciudadanos a los datos abiertos a través de los proyectos Open Data for All y BODI (Bots para interactuar con datos abiertos – Interfaces conversacionales para facilitar el acceso a los datos públicos). Puedes encontrar más información sobre este último proyecto en este artículo.

También cabe destacar el chatbot de Aragón Open Data, del portal de datos abiertos del Gobierno de Aragón, cuyo objetivo es acercar la gran cantidad de datos disponibles a la ciudadanía, para que esta pueda aprovechar su información y valor, evitando cualquier barrera técnica o de conocimiento entre la consulta realizada y los datos abiertos existentes. Los dominios sobre los que ofrece información son:

  • Información general sobre Aragón y su territorio
  • Turismo y viajes en Aragón
  • Transporte y agricultura
  • Asistencia técnica o preguntas frecuentes en materia de sociedad de la información

Conclusiones

Estos son sólo algunos ejemplos del uso práctico de chatbots en la puesta en valor de datos abiertos y su potencial a corto plazo. En los próximos años veremos cada vez más ejemplos de asistentes virtuales en diferentes escenarios, tanto del ámbito de las administraciones públicas como en servicios privados, en especial enfocados a la mejora de la atención al usuario en aplicaciones de comercio electrónico y servicios surgidos de iniciativas de transformación digital.


Contenido elaborado por José Barranquero, experto en Ciencia de Datos y Computación Cuántica.

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Evento

La situación de pandemia que hemos vivido durante los últimos años ocasionó que una gran cantidad de eventos tuvieran que celebrarse de manera online. Fue el caso de las Jornadas Ibéricas de Infraestructuras de Datos Espaciales (JIIDE), cuyas ediciones de 2020 y 2021 tuvieron un formato virtual. Sin embargo, la situación ha cambiado y en este 2022 podremos volver a reunirnos para hablar de las últimas tendencias en información geográfica.

Sevilla será la sede de la JIIDE 2022

Sevilla ha sido la ciudad elegida para reunir a todos aquellos profesionales de la administración pública, el sector privado y el académico interesados en la información geográfica y que utilizan Infraestructuras de Datos Espaciales (IDE) en el ejercicio de sus actividades. 

En concreto, la cita tendrá lugar del 25 al 27 de octubre en la Universidad de Sevilla. Puedes ver más información aquí.

Foco en la experiencia de usuario

El lema de este año es «Experiencia y evolución tecnológica: acercando la IDE a la ciudadanía».  Con ello se quiere poner el énfasis en las nuevas tendencias tecnológicas y su uso para proporcionar al ciudadano soluciones que resuelvan problemas concretos, mediante la publicación y tratamiento de la información geográfica de forma normalizada, interoperable y abierta.

Durante tres días los asistentes podrán compartir experiencias y casos de uso sobre cómo utilizar técnicas de Big Data, Inteligencia Artificial o el Cloud Computing para mejorar la capacidad de análisis, el almacenamiento y la publicación web de grandes volúmenes de datos procedente de diversas fuentes, incluyendo sensores en tiempo real.

También se hablarán de las nuevas especificaciones y estándares que han surgido, así como de la evaluación que se está realizando de la Directiva INSPIRE.

Agenda ya disponible

Aunque aún quedan por confirmar algunas participaciones, el programa ya está disponible en la web de las Jornadas. Habrá unas 80 comunicaciones donde se mostrarán experiencias relativas a proyectos reales, 7 talleres técnicos donde compartir conocimientos concretos y una mesa redonda para promover el debate

Entre las ponencias encontramos algunas enfocadas en los datos abiertos. Es el caso del Ayuntamiento de Valencia que nos hablará de cómo utilizan datos abiertos para la obtención de la equidad ambiental en los barrios de la ciudad o la sesión dedicada a la “fototeca aérea Digital de Andalucía: un proyecto para la convergencia de las IDE y Open-Data”.

¿Cómo puedo asistir?

El evento es gratuito, pero para acudir es necesario registrarse a través de este formulario. En él es necesario indicar la jornada a la que se desea acudir.

De momento está abierto el registro para acudir presencialmente, pero en septiembre, se abrirá, en la web de las jornadas, la posibilidad de participar en las JIIDE de forma virtual.

Organizadores

Las Jornadas Ibéricas de Infraestructuras de Datos Espaciales (JIIDE) nacieron de la colaboración de la Direção-Geral do Território de Portugal, el Instituto Geográfico Nacional de España y el Govern d' Andorra. En esta ocasión se une como organizador el Instituto de Estadística y Cartografía de Andalucía y la Universidad de Sevilla.

calendar icon
Empresa reutilizadora

KSNET (Knowledge Sharing Network S.L) es una empresa dedicada a la transferencia de conocimiento que tiene por objetivo mejorar los programas y las políticas con un impacto tanto social como económico. Por eso acompañan a sus clientes en todo el proceso de creación de estos programas, desde la fase de diagnóstico, diseño e implementación hasta la evaluación de los resultados e impacto conseguido, aportando también una visión de futuro a partir de propuestas de mejora.

calendar icon
Empresa reutilizadora

Estudio Alfa es una empresa tecnológica dedicada a ofrecer servicios que favorezcan la imagen de empresas y marcas en Internet, incluyendo el desarrollo de apps. Para llevar a cabo estos servicios utilizan técnicas y estrategias que cumplen con estándares de usabilidad y favorecen el posicionamiento en buscadores web, facilitando así que las páginas de sus clientes reciban más visitantes y con ello potenciales clientes. Cuentan además con especial experiencia en sectores productivos y de turismo.

 

 

calendar icon
Entrevista

Hace unos meses, la compañía Facebook nos sorprendió a todos con un cambio de nombre: se convirtió en Meta. Este cambio alude al concepto de "metaverso" que la marca quiere desarrollar, uniendo el mundo real y el virtual, conectando personas y comunidades.

Dentro de las iniciativas enmarcadas en Meta, se encuentra Data for Good, centrada en la compartición de datos preservando la privacidad de las persona. Helene Verbrugghe, Public Policy Manager para España y Portugal de Meta ha hablado con datos.gob.es para contarnos más sobre los datos que compartir y su utilidad para el avance de la economía y la sociedad.

Entrevista completa:

1. ¿Qué tipos de datos se ofrecen a través de la Iniciativa Data for Good?

El equipo de Data For Good de Meta ofrece diferentes herramientas que incluyen mapas, encuestas y datos para ayudar a nuestros cerca de 600 partners en todo el mundo, que son desde grandes instituciones de la ONU como UNICEF y la Organización Mundial de la Salud, hasta universidades locales en España como la Universitat Poliècnica de Catalunya y la Universidad de Valencia.

Para apoyar la respuesta internacional a la COVID-19, se han utilizado en gran medida datos como los incluidos en nuestros Mapas de Rango de Movimiento para medir la eficacia de las medidas de permanencia en casa, y en nuestra Encuesta de Tendencias e Impacto de la COVID-19 para comprender cuestiones como la reticencia a la vacunación e informar sobre las campañas de divulgación. Otras herramientas, como nuestros mapas de densidad de población de alta resolución, han servido para elaborar planes de electrificación rural e inversiones quinquenales en agua y saneamiento en lugares como Ruanda y Zambia. También contamos con mapas de pobreza basados en IA que han ayudado a ampliar la protección social en Togo y un índice de conectividad social internacional que ha sido útil para comprender el comercio transfronterizo y los flujos financieros. Por último, recientemente hemos trabajado para apoyar a grupos como la Federación Internacional de la Cruz Roja y la Organización Internacional para las Migraciones en su respuesta a la crisis de Ucrania, proporcionando información agregada sobre los volúmenes de personas que salen del país y llegan a lugares como Polonia, Alemania y Chequia.    

La privacidad está integrada en todos nuestros productos por defecto; agregamos y desidentificamos la información de las plataformas de Meta, y no compartimos la información personal de nadie.

 

2. ¿Cuál es el valor para la ciudadanía y las empresas? ¿Por qué es importante que las compañías privadas compartan sus datos?

La toma de decisiones, sobre todo en política pública, requiere de información lo más exacta posible. A medida que más personas se conectan y comparten contenido online, Meta proporciona una ventana única al mundo. El alcance de la plataforma de Facebook a través de miles de millones de personas en todo el mundo nos permite ayudar a llenar los vacíos de datos clave. Por ejemplo, Meta se encuentra en una posición única para comprender lo que la gente necesita en las primeras horas de una catástrofe o en la conversación pública en torno a una crisis sanitaria, información que es crucial para la toma de decisiones pero que antes no estaba disponible o era demasiado cara para recopilarla a tiempo.

Por ejemplo, para apoyar la respuesta a la crisis en Ucrania, podemos proporcionar información actualizada sobre los cambios de población en los países vecinos casi en tiempo real, de forma más rápida que otras estimaciones. También podemos recopilar datos a escala promoviendo encuestas en Facebook como nuestra Encuesta de Tendencias e Impacto de COVID-19, que se ha utilizado para comprender mejor cómo afectará a la transmisión el comportamiento de uso de mascarillas en 200 países y territorios de todo el mundo.   

3. La información que se comparte a través de Data for Good está anonimizada, pero ¿cómo es el proceso? ¿Cómo se garantiza la seguridad y privacidad de los datos de los usuarios?

Data For Good respeta las decisiones de los usuarios de Facebook. Por ejemplo, todas las encuestas de Data For Good son completamente voluntarias. En cuanto a los datos de ubicación que se utilizan para los mapas de Data For Good, los usuarios pueden elegir si quieren compartir esa información desde la configuración del historial de ubicaciones. 

También nos esforzamos en compartir cómo protegemos la privacidad publicando blogs sobre nuestros métodos y enfoques. Por ejemplo, puede leer sobre nuestro enfoque de privacidad diferencial para proteger los datos de movilidad utilizados en la respuesta a la COVID-19 aquí.

4. ¿Qué otros retos os habéis encontrado a la hora de poner en marcha una iniciativa de este tipo y cómo los habéis solucionado?

Cuando iniciamos Data For Good, la gran mayoría de nuestros conjuntos de datos sólo estaban disponibles a través de un acuerdo de licencia, lo que suponía un proceso engorroso para algunos socios e inviable para muchos gobiernos. Sin embargo, al comienzo de la pandemia de COVID-19, nos dimos cuenta de que, para poder operar a escala, tendríamos que hacer que una mayor parte de nuestro trabajo fuera de dominio público, incorporando al mismo tiempo medidas estrictas, como la privacidad diferencial, que garantizaran la seguridad. En los últimos años, la mayoría de nuestros conjuntos de datos se han hecho públicos en plataformas como Humanitarian Data Exchange, y a través de esta herramienta y otras API, nuestras herramientas públicas se han consultado más de 55 millones de veces el año pasado. Nos sentimos orgullosos de la evolución hacia el uso compartido del código abierto, que nos ha ayudado a superar las dificultades que teníamos al principio para ampliar y satisfacer la demanda de nuestros datos por parte de los partners en todo el mundo.

5. ¿Cuáles son los planes de futuro de Meta en relación con Data for Good?

Nuestro objetivo es seguir ayudando a nuestros socios a sacar el máximo provecho de nuestras herramientas, al mismo tiempo que seguimos evolucionando y creando nuevas formas de ayudar a resolver problemas del mundo real. En el último año, nos hemos centrado en aumentar nuestro conjunto de herramientas para responder a problemas como el cambio climático mediante iniciativas como nuestra Encuesta de Opinión sobre el Cambio Climático, que se ampliará este año; así como en la evolución de nuestros conocimientos sobre los flujos de población transfronterizos, que están demostrando ser fundamentales para apoyar la respuesta a la crisis en Ucrania.

 

calendar icon
Documentación

A la hora de publicar datos abiertos, es importante hacerlo siguiendo una serie de pautas que faciliten su reutilización, entre ellas, el uso de esquemas comunes, como formatos estándar, ontologías y vocabularios. De esta forma, los conjuntos de datos publicados por distintas organizaciones serán más homogéneos y los usuarios podrán extraer valor más fácilmente.

Una de las familias de formatos más recomendada para la publicación de datos abiertos es el RDF (Resource Description Framework). Se trata de un modelo estándar de intercambio de datos en la web recomendado por el World Wide Web Consortium, y destacado en los principios F.A.I.R. o el esquema de cinco estrellas en la publicación de datos abiertos.

Los RDFs son el fundamento de la web semántica, ya que permiten representar relaciones entre entidades, propiedades y valores, formando grafos. Así se interconectan datos y metadatos de manera automática, generando una red de datos enlazados que facilita su explotación por parte de los reutilizadores. Para ello también es necesario utilizar esquemas de datos consensuados (vocabularios u ontologías), con definiciones comunes que eviten malentendidos o ambigüedades.

Con el fin de promover el uso de este modelo, desde datos.gob.es ponemos a disposición de los usuarios la Guía práctica para la publicación de datos enlazados”, elaborada con la colaboración del equipo del Ontology Engineering Group, del Departamento de Inteligencia Artificial de la ETSI Informáticos de la Universidad Politécnica de Madrid.

La guía destaca una serie de buenas prácticas, consejos y flujos de trabajo para la creación de conjuntos de datos en RDF a partir de datos tabulares, de una forma eficiente y sostenible en el tiempo.

¿A quién va dirigida la guía?

La guía está dirigida a los responsables de los portales de datos abiertos y a aquellos que preparan los datos para su publicación en dichos portales. No es necesario tener conocimientos previos sobre RDF, vocabularios u ontologías, aunque sí es recomendable una base técnica sobre XML, YAML, SQL y algún lenguaje de programación de scripting, como Python.

¿Qué incluye la guía?

Tras una pequeña introducción, se abordan algunos conceptos teóricos necesarios (tripletas, URIs, vocabularios controlados de dominio, etc.), a la vez que se explica cómo se organiza la información en un RDF o cómo funcionan las estrategias de nombrado.

A continuación, se describen detalladamente los pasos a seguir para transformar un fichero de datos CSV que es el más habitual en los portales de datos abiertos en un conjunto de datos RDF normalizados en base al uso de vocabularios controlados y enriquecido con datos externos que mejoran la información de contexto de los datos de partida. Estos pasos son los siguientes:

Pasos a seguir para transformar datos CSV a RDF. Paso 1: Selección de vocabulario controlado para el dominio. Paso 2: Limpieza y preparación de los datos en CSV. Paso 3: Construcción de reglas de transformación (mappings). Paso 4: Generación de datos en RDF a partir de las reglas. Fuente: Guía práctica para la publicación de datos enlazados. datos.gob.es.

La guía finaliza con una sección orientada a perfiles más técnicos que implementa un ejemplo de uso de los datos en RDF generados utilizando  algunas de las librerías de programación y bases de datos para almacenar tripletas más comunes para explotar datos en RDF.

Materiales adicionales

La guía práctica para la publicación de datos enlazados se complementa con una cheatsheet que resumen la información más importante de la guía y una serie de vídeos que ayudan a entender el conjunto de pasos llevados a cabo para la transformación de archivos CSV en RDF. Los vídeos se agrupan en dos series que se relacionan con los pasos explicados en la guía práctica:

1) Serie de vídeos explicativos para la preparación de datos en CSV utilizando OpenRefine. En esta serie se explican los pasos a realizar para preparar un archivo CSV para su posterior transformación en RDF:

  • Vídeo 1: Pre-carga de los datos tabulares y creación de un proyecto OpenRefine.
  • Vídeo 2: Modificación de valores en las columnas con funciones de transformación.
  • Vídeo 3: Generación de valores para las listas controladas o SKOS.
  • Vídeo 4: Enlazado de valores con fuentes externas (Wikidata) y descarga del archivo con las nuevas modificaciones.

2) Serie de vídeos explicativos para la construcción de reglas de transformación o mappings CSV a RDF.  En esta serie se explican los pasos a realizar para transformar un archivo CSV en RDF mediante la aplicación de reglas de transformación.

  • Vídeo 1: Descarga de la plantilla-básica para la creación de las reglas de transformación y creación del esqueleto del documento de reglas de transformación.
  • Vídeo 2: Especificación de las referencias para cada propiedad y cómo añadir los valores reconciliados con Wikidata obtenidos a través de OpenRefine.

A continuación puedes descargarte la guía completa, así como la cheatsheet. Para ver los vídeos debes visitar nuestro canal de Youtube.

calendar icon