Entrevista

En este nuevo episodio de nuestro pódcast nos centraremos en los datos abiertos estadísticos. Una de las categorías de conjuntos de datos considerados de alto valor por la Unión Europea. Hoy vamos a hablar de cómo este tipo de datos que producen las administraciones públicas pueden convertirse en una herramienta clave para entender mejor la realidad, tomar decisiones y crear nuevos servicios. Tenemos para ello dos invitados. 

  • María Santana Álvarez, subdirectora general de difusión y comunicación del Instituto Nacional de Estadística (INE).
  • Alberto González Yanes, subdirector de Estadística y Análisis de Datos del Instituto Canario de Estadística (ISTAC)

Escuchar el pódcast completo

Resumen / Transcripción de la entrevista

1. ¿Por qué los datos estadísticos se consideran datos de alto valor? ¿Cuál es su potencial?

María Santana Álvarez: En esta sociedad en la que vivimos, donde los datos nos rodean y la información fluye con tanta rapidez, es importante que las estadísticas oficiales sean conocidas y reconocidas como datos de alta calidad y confiables, y esto se consigue haciéndolas accesibles a toda la sociedad de manera abierta. Esta información es de utilidad para la toma de decisiones informadas y, por ello, los datos estadísticos ya de por sí tienen mucho valor, pero su reutilización aumenta ese valor y tiene un gran impacto en la sociedad. 

En relación con los datos producidos por el INE, las operaciones estadísticas de las cuales somos responsables cubren temas tan variados como la demografía, la economía, el mercado laboral, el medio ambiente, el sector servicios, la ciencia y tecnología, y las condiciones de vida, entre otros muchos temas. Os voy a dar algunos ejemplos concretos de operaciones estadísticas: Índice de cifras de negocio, Estadísticas sobre actividades en I+D, Estimación mensual de nacimientos o la Encuesta de empleo del tiempo, además de las comúnmente conocidas como son el Índice de precios de consumo, la Encuesta de población activa o la Contabilidad trimestral. Como veis, los datos estadísticos oficiales tienen un gran valor y su reutilización es primordial. 

La definición de los conjuntos de datos de alto valor ha venido a reforzar esto. Son datos que tienen un gran potencial por los beneficios para la sociedad, el medio ambiente, la economía y, de hecho, una de las categorías establecidas en el Reglamento es la de estadística, que incluye conjuntos relativos a contabilidad nacional, demografía o desigualdad -como veis, los temas que he comentado anteriormente- y en esta categoría la mayoría de los datasets son producidos por el INE. 

Alberto González Yanes: En este siglo -o este principio del nuevo siglo en el que estamos viviendo-, tan saturado de información y de datos, es importante tener en cuenta la importancia de la estadística en sí misma dentro de una sociedad democrática y de los estados democráticos avanzados. La estadística, como dato objetivo y transparente, es importante que esté presente en formatos abiertos, no solo para la economía - para que se puedan construir nuevos servicios-, sino para reforzar y seguir reforzando la toma de decisiones basadas en datos por parte no solo de las administraciones públicas, sino también por parte de las empresas y de la ciudadanía. 

Hay que tener en cuenta una cosa importante: que el dato oficial, sea publicado por el INE o por los institutos autonómicos como el ISTAC, genera derechos y deberes. Siempre pongo el ejemplo de cómo un dato oficial como el IPC, o como las mismas cifras oficiales de población, generan derechos y deberes para los municipios, las entidades locales, cabildos, gobiernos, etc. 

Ese nivel de envergadura, de la importancia del dato estadístico como pilar fundamental de los estados democráticos  -y así lo reconoce Naciones Unidas -, da lugar a la necesidad de que, no solo el catálogo del conjunto de datos abiertos definido por el Reglamento de Ejecución de la Comisión Europea, sea de alto valor, sino que  todos los datos producidos por la estadística oficial deben ser considerado de alto valor, porque es fundamental para los estados democráticos

2. ¿Podéis explicarnos un poco más el papel de ISTAC y el INE en el ecosistema de datos abiertos estadísticos? ¿Qué servicios basados en datos abiertos ofrecen a la ciudadanía?

Alberto González Yanes: Los sistemas estadísticos autonómicos y el estatal somos dos patas que están coordinadas. Tenemos la gran coordinación dentro del sistema, dentro del CITE (Comité Interterritorial de Estadística). Lo que hacemos las comunidades autónomas es, o bien reutilizar la propia información del INE, o ampliar la información que a escala nacional no se desarrolla y que es necesaria para fines autonómicos. Nosotros, por ejemplo, somos uno de los grandes referentes internacionales en producción de estadísticas turísticas, de tal manera que incluso aparecemos dentro de los sistemas de buenas prácticas de la Organización Mundial del Turismo. Ofrecemos información a escala municipal en materia turística que algunos estados no tienen ni siquiera a escala de nación. La información que tenemos es reutilizada por todos los sistemas de información turística de todas las administraciones públicas, pero también por las patronales hoteleras. Ahí incluyo la Estadística de Alojamiento Turístico, la Encuesta de Gasto Turístico, la Estadística de Movimiento Turístico en Fronteras (FRONTUR), -que además desarrollamos colaborativamente con el Instituto Nacional de Estadística, ampliando la muestra para el caso de Canarias- y la Encuesta de Ocupación de Vivienda Turística. Esas son las grandes estrellas de la información en una comunidad autónoma que tiene un PIB de casi el 35% vinculado al turismo.

María Santana Álvarez: En el caso del INE, toda nuestra producción se ofrece de manera abierta a través de la página web, que es el principal punto de encuentro con nuestros usuarios. Muestra de ello es que en el año pasado, en 2025, recibió más de 42 millones de visitas. Todos los datos que producimos se difunden de acuerdo al calendario de publicaciones de las operaciones estadísticas, de manera gratuita y bajo una licencia abierta. 

Me gusta hablar de este tema de una manera así pedagógica, tomando de referencia a las cinco estrellas de Tim Berners-Lee y haciendo una analogía entre el sistema de difusión del INE y cómo vamos subiendo de escala en ese sistema. El actual sistema de difusión del INE es el resultado de muchos años de evolución y en esa evolución hemos apostado por el desarrollo de herramientas que hacen que la reutilización sea efectiva. 

Empezando por las estrellas de Tim Berners-Lee, una estrella es que tú produzcas los datos y los difundas de manera abierta bajo una licencia que permita la reutilización, pero eso no es suficiente para que los reutilizadores puedan, de una manera efectiva y fácil, hacer uso de ellos. Dos estrellas sería ofrecer los datos agregados que producimos en formatos propietarios como son excel y pc-axis. Las tres estrellas serían csv, en formatos planos. Y llegamos a la cuarta estrella, que es hacer accesible la información a través de URI. Las URL son URI y en el caso del INE disponemos de una API JSON para todos los datos agregados que producimos. 

En relación a esto sí que quiero comentar cuáles son las ventajas de tener una API JSON. En nuestro caso, se ofrece acceso a los metadatos y a los datos agregados que producimos. Esto supone una explotación automática y directa de toda la información que producimos. Los datos están actualizados de acuerdo al calendario; independientemente del momento en el que un usuario acceda a ese servicio web, va a encontrar el último dato que está disponible. Los usuarios que utilicen este sistema pueden personalizar sus consultas y hacer filtros a través de los metadatos que definen a las tablas y las series. 

Tampoco nos hemos olvidado de la gran comunidad de usuarios de R en ciencia de datos. Por eso hemos producido un paquete llamado INEapir, que incorpora todas las funcionalidades de la API JSON y facilita a esos reutilizadores trabajar con nuestros datos en un entorno que ellos ya conocen, en unos sistemas y unas estructuras de datos a las que están acostumbrados.

Además, próximamente, toda la documentación relacionada con la API, no solamente va a estar en el formato actual que tenemos en la página web, sino también en OpenAPI con Swagger. Esto permitirá tener un acceso a la información de nuestra API de una manera más interactiva e intuitiva para todos esos usuarios que están acostumbrados a utilizar API generales. 

Alberto González Yanes: Es importante reseñar, en primer lugar, que todo dato estadístico es público por naturaleza, porque la normativa estadística estatal -la Ley 12/1989- o autonómica así lo obligan. En nuestro caso, tenemos diferentes iniciativas que permiten la reutilización. Desde un ecosistema de unas 10 o 15 API sostenidas en estándares internacionales como SDMX (Statistical Data and Metadata Exchange), que permite llevarte toda la información que producimos, incluso todo el catálogo de datos abiertos: API de georreferenciación, toda la cartografía… Todo lo tenemos en ese ecosistema de API al que evidentemente le incorporamos conectores, sean Python, sean R, con diferentes librerías o conectores específicos para algunas soluciones de mercado, para facilitar la reutilización por parte de terceros en cuadros de mandos. 

Para nosotros también es importante, al margen de abrir los datos, abrir toda la parte de activos semánticos. Nosotros gestionamos conceptos, clasificaciones, diseños de registro… Para nosotros es importante también la reutilización de toda la parte de clasificaciones y conceptos, al margen de todos los datos estadísticos. Uno de los principales reutilizadores de todo ese sistema es el propio Gobierno de Canarias, incorporando, desde base, desde los formularios electrónicos de la administración electrónica -y esto a veces se conoce poco- todas las clasificaciones normalizadas que tenemos. Eso lo están haciendo a través de la API de servicios que tenemos.

Por tanto, tenemos diferentes propuestas, no solo de acceso a datos, sino también de procesamiento y de normalización de datos. 

3. ¿Cómo trabajan para asegurar la interoperabilidad entre sus sistemas estadísticos, y también con organismos internacionales, como Eurostat?

María Santana Álvarez: Antes he estado utilizando el sistema de Tim Berners-Lee para contar nuestro nivel de apertura en el sistema de difusión del INE. Me quedé en la cuarta estrella, pero en ese sistema hay cinco estrellas. Y precisamente esa quinta estrella garantiza la interoperabilidad. Desde el punto de vista de difusión, los datos que están sujetos a una clasificación nacional o internacional, como pueden ser la Clasificación Nacional de Actividades Económicas, de educación, o de ocupaciones u otros estándares que han sido aprobados por el INE, como los códigos de las Comunidades Autónomas, las provincias y los municipios, siempre van a ir acompañados de esos metadatos. Por tanto, los datos que hayan producido otros actores de este sistema estadístico nacional que utilicen estas mismas clasificaciones, códigos, etc., van a ser interoperables entre sí. Eso es desde el punto de vista de la difusión, pero también desde el punto de vista de la producción, porque en este sistema estadístico nacional del que forma parte el INE, todos tenemos que transmitir a Eurostat cuáles son los datos que recogemos y que difundimos, los datos agregados. Esa manera de establecer la interoperabilidad empieza muchísimo antes que la difusión, es decir, cuando se establecen nuevas operaciones estadísticas o agrupación de ellas, se desarrollan directivas y reglamentos en los cuales se establecen metodologías y conceptos que todos los Estados miembros tienen que utilizar. De esa manera se garantiza que cuando nosotros transmitimos los microdatos o los resultados agregados a Eurostat ya se sabe que hemos tomado de base esos mismos conceptos, esos mismos estándares. 

En cuanto a la transmisión que hacemos, para que sea todavía más estándar, se utiliza SDMX y DSD basados en estructuras de datos y listas de códigos estándares para que se garantice la comparabilidad y la coherencia en las estadísticas oficiales europeas. 

Alberto González Yanes: Como bien ha contado María, la interoperabilidad es una cuestión clave y fundamental dentro de la estadística pública. Ha hablado de la estandarización de SDMX, que es fundamental y ha sido de referencia incluso para la W3C, para sacar estándares y ontologías de interoperabilidad. Ha hablado de la creación de códigos y de clasificaciones que no solo son utilizables entre nosotros, sino utilizables también por el resto del sector público. Y ahí lo vinculo mucho con la competencia que tiene la estadística pública en materia de normalización semántica, según el Esquema Nacional de Interoperabilidad en el artículo 10.3. 

En este sentido, como nos los tomamos en serio, se planteó por parte del Comité Interterritorial de Estadística la creación de un nodo de interoperabilidad estadística a escala nacional, que facilite no solo el intercambio de información entre los diferentes órganos estadísticos del Estado español, sino también la transmisión de datos administrativos para fines estadísticos desde las administraciones públicas al sistema estadístico. Es un proyecto de referencia a escala europea. Fue financiado por la Comisión Europea y esperamos que a lo largo del 2026 empecemos a desplegar las diferentes acciones para el desarrollo del nodo como elemento de referencia a escala europea. 

4. ¿Cuáles son los principales desafíos actuales en la apertura de datos estadísticos?

María Santana Álvarez: Anteriormente he comentado que toda nuestra producción de datos agregados de las operaciones estadísticas, y también ciertos microdatos anonimizados, se publican de manera abierta. Sin embargo, el INE tiene mucha más información que ofrecer, pero dada su naturaleza no se puede hacer de manera abierta. Me estoy refiriendo a los microdatos confidenciales

Veamos un poquito de base legal en este asunto porque es un tema bastante sensible. En el año 2022 hubo una modificación de la Ley de la Función Estadística Pública, mediante la cual los servicios estadísticos podemos conceder a entidades de investigación acceso a datos confidenciales. Estos datos no permiten la identificación directa de las unidades y solamente se pueden utilizar para llevar a cabo estudios científicos de interés público, además de que hay que cumplir determinados requisitos para poder acceder a ellos. De hecho, los servicios estadísticos evaluamos si es posible proporcionar esa información, o sea, somos muy rigurosos en dar acceso a esos datos. Para que os hagáis una idea, el INE gestionó durante el año pasado, más de 80 solicitudes de este tipo de acceso a microdatos confidenciales y un alto porcentaje de estas fueron considerados viables. 

Además, el INE es coordinador de un proyecto denominado Es_DataLab, que surge de un convenio firmado por la Agencia Tributaria, la Seguridad Social, el Banco de España y el Servicio Público de Empleo. Todos estos organismos somos grandes productores de estadísticas oficiales, pero también tenedores de un gran volumen de registros administrativos. Es_DataLab ofrece a los investigadores el acceso a conjuntos de microdatos confidenciales resultantes de la combinación de diferentes bases de datos de al menos dos de los organismos que hemos firmado este convenio, pero esto no se puede ofrecer de manera abierta por cuestiones de confidencialidad y de secreto estadístico. 

¿Qué reto hay en el horizonte para poder proporcionar este tipo de datos, es decir, microdatos a nivel de unidad informante de una manera abierta, sin que suponga un problema de confidencialidad, de secreto estadístico? La solución serían las poblaciones sintéticas. De hecho, en el INE estamos trabajando en la construcción de estas poblaciones sintéticas: poblaciones que reproducen las características estadísticas de la población real, pero los registros no corresponden a una unidad informante real. Es algo ficticio, pero que, cuando se hacen los análisis estadísticos, tienen las mismas características que las poblaciones reales. Esto sería una manera de publicar de forma abierta microdatos a este nivel de detalle, sin tener que pasar por los comités de evaluación que ahora mismo tenemos y las restricciones que hay que cumplir con la legislación vigente. 

Alberto González Yanes: Yo creo que, además, -y esa reflexión la sacamos en el Encuentro Nacional de Datos Abiertos cuando se celebró aquí en Lanzarote-, otro reto que tenemos por delante en la estadística pública es el tema de facilitar la reutilización de los datos privados protegidos por parte de los dueños de los datos. El concepto de portabilidad, que está restringido dentro de la estadística pública. No existe ese concepto. Mientras que el derecho de acceso a datos confidenciales para fines científicos sí que está recogido y viene fortalecido por el reglamento europeo, el derecho de portabilidad no está recogido. Es verdad que esto es una mirada más allá del concepto de datos abiertos, que se asimila con dato público, con ciertos criterios para facilitar su reutilización, pero, ¿qué mejor reutilización que la que puede hacer una empresa, por ejemplo, de los datos que tenemos en la propia estadística pública? Esos datos que tenemos los podría poner en sus sistemas de información. Debemos tener en cuenta que, muchas veces, disponemos de más datos de las empresas que ellas mismas, sobre todo en una estructura empresarial basada en pymes, como en Canarias, donde las empresas no tienen esas capacidades analíticas gigantescas, o para simplemente vincularlo con el concepto de economía del dato y poner esos datos en mercado y que se pueda generar beneficio a partir de datos que nosotros tenemos depositados en nuestros bancos de datos. Eso requeriría, posiblemente una acción de mayor vista a diez o quince años.

5. Para terminar, ¿cómo veis la evolución de los datos abiertos en los próximos años?  ¿Qué innovaciones tecnológicas o metodológicas creéis que transformarán la estadística pública?

Alberto González Yanes:  No podemos terminar este pódcast sin hablar de inteligencia artificial, que parece que es la palabra de moda en los últimos años y es así por algo. Creo que se está dando una disrupción tecnológica al respecto. Tenemos el gran reto de la incorporación de los datos y de la información estadística a los sistemas de IA generativa, sobre todo para evitar las alucinaciones o el sesgo que se está produciendo en muchas de ellas. Además, como la IA generativa no duda, sino que afirma, en algunos casos se plantean datos que no son ciertos y pueden conllevar problemas reputacionales, porque dicen “fuente INE” o “fuente ISTAC” y no es cierto. Entonces tenemos el gran reto de acompañar o mejorar los sistemas de inteligencia artificial generativa para evitar ese sesgo. 

Otro gran reto también es enseñar a la ciudadanía en la alfabetización de uso de estos sistemas. No solo para el acceso a datos, sino que también se genera código y transformaciones basadas en datasets que nosotros aportamos y a veces los cálculos también están mal hechos.

María Santana Álvarez: Esta misma reflexión es compartida internacionalmente y por ello se han empezado a crear grupos de trabajo para la construcción de guías que lean, interpreten y respondan de manera adecuada respecto a las preguntas que se hagan de datos estadísticos oficiales. Para ello es necesario el uso de metadatos comunes a nivel internacional y la construcción de una tecnología que los interprete debidamente. Así contado de manera resumida parece poco, pero el reto es importante y la implementación no es trivial. Desde luego que merecerá la pena ver cómo se desarrolla y el impacto que va a tener en la sociedad. 

Mientras tanto, en el INE estamos apostando por mejorar la descripción de las páginas web, de los metadatos de nuestras series temporales, de las tablas, etc., y creando componentes para que los buscadores puedan encontrar nuestra información de una manera más eficaz y acertada.

Clips de la entrevista

1. ¿Qué servicios basados en datos abiertos ofrece el INE a la ciudadanía?

2. ¿Cuál es el papel del ISTAC en el ecosistema de datos abiertos estadísticos? ¿cuál es su relación con el INE?

calendar icon
Entrevista

En los últimos quince años hemos visto cómo las administraciones públicas han pasado de publicar sus primeros conjuntos de datos abiertos a trabajar con conceptos mucho más complejos. Interoperabilidad, estándares, espacios de datos o soberanía digital son algunos de los conceptos de moda. Y, en paralelo, también ha cambiado la web. Aquel espacio abierto, descentralizado e interoperable que inspiró las primeras iniciativas de datos abiertos, ha evolucionado hacia un ecosistema mucho más complejo, donde conviven tecnologías, nuevos estándares y al mismo tiempo desafíos importantes como silos de información hasta ética digital y concentración tecnológica.

Para hablar de todo ello, hoy tenemos la suerte de contar con dos voces que no solo han observado esta evolución, sino que han sido protagonistas directos de ella a nivel internacional:

  • Josema Alonso, con más de veinticinco años de experiencia trabajando en la web abierta, los datos y los derechos digitales, ha trabajado en la World Wide Web Foundation, en Open Government Partnership y el Foro Económico Mundial, entre otros.
  • Carlos Iglesias, experto en estándares web, open data y gobierno abierto, ha asesorado a administraciones de todo el mundo en más de veinte proyectos. Ha participado activamente en comunidades como W3C, la Web Foundation o la Open Knowledge Foundation.

Escuchar el pódcast completo

Resumen / Transcripción de la entrevista

1. ¿En qué momento creéis que estamos ahora y qué ha cambiado respecto a aquella primera etapa del open data?

Carlos Iglesias: Bueno, yo creo que lo que ha cambiado es que entendemos que hoy en día ese grito de guerra inicial de “queremos los datos ya” no es suficiente. Era una primera fase que en su día fue muy útil y necesaria porque había que romper con esa tendencia de tener los datos encerrados, no compartir los datos. Digamos que la urgencia en aquel momento era simplemente cambiar el paradigma y por eso el grito de guerra era el que era. He estado implicado, como Josema, en estudiar y analizar todos esos portales de datos abiertos e iniciativas que surgieron a partir de este movimiento. Y he visto que muchos de ellos empezaron a crecer sin ningún tipo de estrategia. De hecho, varios se quedaban por el camino o no tenían una visión clara de lo que querían hacer. La simple práctica yo creo que llegó a la conclusión de que la publicación de datos por sí misma no era suficiente. Y a partir de ahí yo creo que se han ido planteando, un poco con la madurez del movimiento, que hay que hacer más cosas, y hoy en día hablamos más de la gobernanza de los datos, de abrir datos con un propósito específico, de la importancia de los metadatos, los modelos. O sea, ya no es simplemente tener datos por tenerlos, sino que hay una visión más del dato como uno de los elementos más valiosos en la actualidad, probablemente, y también como una infraestructura necesaria para que funcionen muchas cosas hoy en día. Igual que en su día fueron claves infraestructuras como las redes de carreteras o de transporte público o la energía. Ahora mismo estamos en el momento de la gran eclosión de la inteligencia artificial. Convergen una serie de cuestiones que han hecho que esto haya eclosionado y el cambio es inmenso, a pesar de que estamos hablando solo de quizás poco más de diez o quince años desde ese primer movimiento de “queremos los datos ya”. Yo creo que ahora mismo el panorama es completamente distinto.

Josema Alonso: Sí que es cierto que teníamos aquella idea de “tú publica que alguien vendrá y hará algo con ello”. Y aquello lo que hizo es que se empezara a concienciar a la gente. Pero yo, personalmente, de aquella no me hubiera podido imaginar que muy pocos años después hubiéramos tenido incluso una directiva a nivel europeo de publicación de datos abiertos. Fue algo, la verdad, que recibimos con mucho agrado. Y que luego se empezara a implementar en todos los Estados miembros. Aquello movió un poco conciencias y movió prácticas, sobre todo dentro de la administración. Había mucho miedo de “a ver si pongo algo allí que sea problemático, que sea de mala calidad, que me critiquen por ello”, etc. Pero empezó a generar una cultura del dato y de la utilidad del dato muy importante. Y como también comentó Carlos en los últimos años, yo creo que ya nadie duda de esto. Las inversiones que se están realizando, por ejemplo, a nivel europeo y de Estados miembros, incluido en nuestro país, en España, en el fomento y desarrollo de los espacios de datos, son de cientos de millones de euros. Ya nadie tiene ese tipo de dudas y ahora está más el foco en cómo hacerlo bien, en cómo conseguir que todos interoperen. Esto es, que cuando se crea un espacio de datos europeos de un sector concreto, como puede ser agricultura o salud, todos los países y organizaciones puedan compartir datos de la mejor manera posible, de forma que se puedan intercambiar mediante modelos comunes y que se hagan dentro de entornos de confianza.

2. En este contexto, ¿por qué los estándares se han vuelto tan esenciales?

Josema Alonso: Yo creo que es por todo lo que hemos aprendido a lo largo de estos años. Hemos aprendido que es necesario que la gente pueda tener una cierta libertad a la hora de desarrollar sus propios sistemas. La propia arquitectura de la web, por ejemplo, así funciona, no tiene un control central ni nada, sino que cada participante dentro de la web gestiona las cosas a su manera. Pero existen unas reglas claras de cómo esas cosas luego tienen que interactuar unas con otras, Si no, no funcionaría, sino no seríamos capaces de cargar una página web en diferentes navegadores o en diferentes teléfonos móviles. Entonces, lo que estamos viendo últimamente es que se intenta cada vez más averiguar cómo llegar a ese tipo de consensos en un beneficio mutuo. Por ejemplo, parte de mi trabajo actual para la Comisión Europea es en la Comunidad de Interoperabilidad Semántica, donde gestionamos la creación de modelos uniformes que se utilizan en toda Europa, definiciones de vocabularios estándar básicos que se utilizan en todos los sistemas. En estos últimos años también se ha instrumentalizado de una manera que apoya, digamos, ese consenso mediante regulaciones que se han ido emitiendo, por ejemplo, a nivel europeo. Estos últimos años hemos visto la regulación de datos, la regulación de la gobernanza de datos y la de inteligencia artificial, cosas que intentan también poner un cierto orden y unas barreras. No es que todo el mundo vaya por medio del monte, porque si no, al final no llegamos a ningún lado, sino vamos a intentar todos hacerlo por consenso, pero vamos a intentar todos conducir dentro de la misma carretera para llegar al mismo destino de forma conjunta. Y creo que, desde la parte de las administraciones públicas, aparte de regular, es muy interesante que sean muy transparentes en la forma que se hace. Es la manera en la que todos podemos llegar a ver que lo que se construye está construido de una determinada manera, los modelos de datos que son transparentes, todo el mundo los puede ver participar en su desarrollo. Y aquí es donde estamos viendo algunas carencias de los sistemas de algoritmia y de inteligencia artificial, donde no sabemos muy bien los datos que utilizan ni donde se alojan. Y aquí es donde a lo mejor tendríamos que incidir un poquito más en el futuro. Pero creo que mientras se consiga esta dualidad, de generar el consenso y ofrecer un contexto en el que la gente se sienta segura desarrollándolo, seguiremos avanzando en la línea adecuada.

Carlos Iglesias: Si nos fijamos en los principios que hicieron que la web funcionara en su día, hay mucho enfoque también en la parte de comunidad y de dejar una plataforma abierta que se desarrolla en abierto, con unos estándares abiertos en el que todo el mundo podía unirse. Se buscaba un poco la participación de todo el mundo para enriquecer ese ecosistema. Y yo creo que con los datos deberíamos pensar que ese es el camino a recorrer. De hecho, más o menos es un poco también el concepto que creo que hay detrás de los espacios de datos. Al final no es fácil hacer algo así. Es muy ambicioso y no vemos un invento como la web todos los días.

3. Desde vuestra perspectiva, ¿qué riesgos existen realmente de que los datos queden atrapados en infraestructuras o modelos opacos? Y lo que es más importante, ¿qué podemos hacer para evitarlo?

Carlos Iglesias: Hace años veíamos que se intentaba cuantificar la cantidad de datos que se generaban diariamente. Yo creo que ahora ya nadie lo intenta siquiera, porque está a otra escala completamente, y ya en esa escala solo hay una forma de trabajar, que es automatizando las cosas. Y cuando hablamos de automatización, al final lo que necesitas son estándares, interoperabilidad, mecanismos de confianza, etc. Si miramos diez o quince años atrás, cuáles eran las compañías que tenían mayor cotización a nivel mundial, eran compañías como Ford o General Electric. Si te miras el top diez a nivel mundial hoy en día hay compañías que todos conocemos y usamos cada día como Meta, que es la matriz de Facebook, Instagram, WhatsApp y otros, o Alphabet que es la matriz de Google. O sea, de hecho, yo creo que ahora mismo dudo un poco, pero probablemente de las diez mayores cotizadas del mundo, todas se dedican a los datos. Estamos hablando de un ecosistema gigantesco y, para que esto funcione de verdad y siga siendo un ecosistema abierto del que todo el mundo se pueda beneficiar, la clave es la estandarización.

Josema Alonso: Yo estoy de acuerdo con todo lo que dijo Carlos y tenemos que poner el foco en que no quedemos atrapados. Y sobre todo desde las administraciones públicas hay un papel esencial que jugar. Yo comentaba antes la regulación, que a veces a la gente no le gusta mucho porque el mapa regulatorio empieza a ser extremadamente complicado. La Comisión Europea, a través de un decreto ómnibus, está intentando aliviar esa complejidad regulatoria y, como ejemplo, en la propia regulación de datos, que obliga a las empresas que tienen datos a facilitar la portabilidad de datos a sus usuarios. A mí me parece que es algo esencial. Vamos a ver muchos cambios en eso. Hay tres cosas que siempre me vienen a la cabeza; se necesita capacitación permanente. Esto cambia cada día a una velocidad sorprendente. Los volúmenes de datos que se gestionan ahora son descomunales. Como decía Carlos antes, hace unos días estuve hablando con una persona que dirige la infraestructura de una de las más grandes plataformas de streaming a nivel global y me decía que están recibiendo peticiones de datos generados por inteligencia artificial en un volumen tan grande en tan solo una semana como todo el catálogo que tienen disponible. Entonces la administración necesita tener una capacitación permanente en estos temas de todo tipo, tanto de la puntera tecnológica como acabamos de comentar, como de lo que hablábamos antes, de cómo mejorar la interoperabilidad, cómo crear mejores modelos de datos, etc. Otra es la infraestructura común en Europa, como la futura cartera digital europea, lo que sería el equivalente a la carpeta ciudadana nacional.  Un ejemplo súper simple con el que tratamos es el certificado de nacimiento. Es muy complicado intentar integrar los sistemas de veintisiete países diferentes, que a su vez tienen gobiernos regionales y que a su vez tienen gobiernos locales. Entonces, cuanto más invirtamos en infraestructura común, tanto a nivel de semántico como a nivel de los de la propia infraestructura, de la nube, etcétera, yo creo que nos va a ir mejor. Y luego la última, que es la necesidad de gobernanza distribuida pero coordinada.  Cada uno se rige por unas determinadas leyes a nivel local, nacional o europeo. Es bueno que empecemos a tener cada vez más coordinación en las capas más altas y que esas capas más altas vayan permeando hacia las capas más bajas y los sistemas sean cada vez más fáciles de integrar y que se entiendan unos con otros. Los espacios de datos es una de las grandes inversiones a nivel europeo, donde creo que esto se está empezando a lograr. Entonces, por resumir tres cosas así muy prácticas de hacer: capacitación permanente, invertir en infraestructura común y que la gobernanza siga siendo distribuida, pero cada vez más coordinada.

calendar icon
Entrevista

En este pódcast hablamos de los datos de transporte y movilidad, un tema muy presente en nuestro día a día. Cada vez que consultamos una aplicación para saber cuánto tardará un autobús, estamos aprovechando los datos abiertos ligados al transporte. De la misma forma, cuando una administración realiza una planificación urbanística u optimiza flujos de tráfico, hace uso de datos de movilidad.

Para profundizar en los retos y oportunidades que hay detrás de la apertura de este tipo de datos por parte de las administraciones públicas españolas, contamos con dos invitadas de excepción:

  • Tania Gullón Muñoz-Repiso, directora de la División de Estudios y Tecnología del Transporte del Ministerio de Transportes y Movilidad Sostenible. ¡Bienvenida, Tania!
  • Alicia González Jiménez, subdirectora adjunta en la Subdirección General de Cartografía y Observación del Territorio del Instituto Geográfico Nacional. ¡Bienvenida, Alicia!

Escuchar el pódcast completo

Resumen / Transcripción de la entrevista

1. Tanto el IGN como el Ministerio generan gran cantidad de datos relacionados con el transporte. De todos ellos, ¿nos podéis indicar qué datos y servicios se ponen a disposición de la ciudadanía como datos abiertos?

Alicia González: Por parte del Instituto Geográfico Nacional diría que todo, todo lo que producimos está a disposición de los usuarios, porque desde finales de 2015 la política de difusión que adoptó la Dirección General del Instituto Geográfico Nacional, a través del Organismo Autónomo Centro Nacional de Información Geográfica (CNIG), que es por donde se distribuyen todos los productos y servicios, es una política de datos abiertos, de forma que todo se distribuye bajo la licencia CCC BY 4.0, que ampara el uso libre y gratuito. Simplemente hay que hacer una atribución, una mención del origen de los datos. Entonces estamos hablando, en general, no solamente de transporte, sino de todo tipo de datos, de más de 100 productos que suponen más de dos millones y medio de ficheros que los usuarios demandan cada vez más. De hecho, en 2024 hemos llegado a tener hasta 20 millones de ficheros descargados, o sea que es muy demandada. Y concretamente en materia de redes de transporte, el conjunto fundamental de datos es la Información Geográfica de Referencia de Redes de Transportes (IGR-RT). Se trata de un conjunto de datos geoespacial multimodal que está compuesto por cinco redes de transporte que están continuas por todo el territorio nacional y además interconectadas. En concreto, contempla:

1. La red viaria que se compone de toda la red de carreteras, independientemente de su titular y que discurre por todo el territorio. Son más de 300 mil kilómetros de carretera que están además conectados a todos los callejeros, a la red viaria urbana de todos los núcleos de población. Es decir, tenemos un grafo viario que vertebra todo el territorio, , además de tener conectados los caminos que luego posteriormente se distribuyen y se difunden en el Mapa Topográfico Nacional.

2. La segunda red de mayor relevancia es la red de transporte por raíl. Contempla todos los datos de transporte ferroviario y además también de metro, tranvía y otros tipos de modos por rail.

3 y 4. En el ámbito marítimo y aéreo, las redes ya se limitan a lo que son las infraestructuras, de forma que contiene todos los puertos de la costa española y todas las infraestructuras de aeródromos, aeropuertos, helipuertos en la parte de aéreo.

5. Y por último, la última red, que es mucho más modesta, son datos de carácter residual: el transporte por cable.

Está todo interconectado mediante relaciones de intermodalidad. Es un conjunto de datos que se genera a partir de fuentes oficiales. No podemos incorporar cualquier dato, tienen que ser siempre datos oficiales y se genera en el marco de cooperación del Sistema Cartográfico Nacional.

Al ser un conjunto de datos que es conforme con la Directiva INSPIRE tanto en su definición como en la forma por la que se difunde a través de servicios web estándar, también ha sido clasificado como un conjunto de datos de alto valor en la categoría de movilidad, conforme al Reglamento de ejecución de los datos de alto valor. Es un conjunto bastante importante y normalizado.

¿Cómo se puede localizar y acceder? Precisamente, al ser estándar, está catalogado en el catálogo de la IDE (Infraestructura de Datos espaciales), gracias a la descripción estándar de sus metadatos. También se puede localizar a través del catálogo oficial de datos y servicios INSPIRE (Servicios de Publicación de Información) o está accesible a través de portales tan relevantes como el portal de datos abiertos.

Una vez que lo tenemos localizado, ¿cómo puede acceder el usuario? ¿Cómo puede ver los datos? Hay varias vías. La más sencilla: consultar su visualizador. Ahí se muestran todos los datos y hay ciertas herramientas de consulta para facilitar su uso. Y después, por supuesto, a través del centro de descargas del CNIG. Ahí publicamos todos los datos de todas las redes y tiene gran demanda. Y luego la última vía es consultar los servicios web estándar que generamos, servicios de visualización y de descargas de distintas tecnologías. O sea que es un conjunto de datos que está a disposición de los usuarios para su reutilización.

Tania Gullón: En el Ministerio también compartimos muchos datos en abierto. A mí me gustaría, para no alargarnos mucho, comentar en especial cuatro grandes conjuntos de datos:

1. El primero sería el OTLE, el Observatorio del Transporte y la Logística en España, que es una iniciativa del Ministerio de Transportes, cuyo objetivo principal es proporcionar una visión global e integral de la situación del transporte y la logística en España. Se organiza en siete bloques: movilidad, socioeconomía, infraestructura, seguridad, sostenibilidad, transporte metropolitano y logística. Estos no son datos georreferenciados, sino que son datos estadísticos. El Observatorio pone a disposición del público datos, gráficos, mapas, indicadores y, no solo eso, sino que también ofrece informes anuales, monográficos, jornadas, etcétera. Y también de los observatorios que tenemos transfronterizos, que se hacen de forma colaborativa con Portugal y con Francia.

2. El segundo conjunto de datos que quiero mencionar es el NAP, el Punto de Acceso Nacional de Transporte Multimodal, que es una plataforma digital oficial gestionada por el Ministerio de Transportes, pero que se elabora de forma colaborativa entre las diferentes administraciones. Su objetivo es centralizar y publicar toda la información digitalizada sobre la oferta de transportes de viajeros en el territorio nacional de todos los modos de transporte. ¿Qué tenemos aquí? Todos los horarios, servicios, rutas, paradas de todos los servicios de transporte, del transporte por carretera, de los autobuses urbanos, interurbanos, rurales, discrecionales a demanda. Hay 116 conjuntos de datos. El de transporte ferroviario, los horarios de todos esos trenes, sus paradas, etcétera. También del transporte marítimo y del transporte aéreo. Y estos datos se van actualizando permanentemente en tiempo real. A día de hoy disponemos solo de los datos estáticos en formato GTFS (General Transit Feed Specification), también reutilizables y en un formato estándar útiles para el desarrollo posterior de aplicaciones de movilidad por los reutilizadores. Y aunque inicialmente este NAP se centró en datos estáticos, como esas rutas, horarios y paradas, se está avanzando hacia la incorporación también de datos dinámicos. De hecho, en diciembre ya tenemos además una obligación por una normativa europea que nos obliga a tener esos datos en tiempo real para, al final, mejorar toda esa planificación de transportes y la experiencia de usuario.

3. El tercer conjunto de datos es Hermes. Es el sistema de información geográfico de la red de transportes de interés general. ¿Cuál es su objetivo? Ofrecer una visión integral, en este caso georreferenciada. Aquí quiero hacer referencia a lo que ha comentado mi compañera Alicia, para que veáis cómo todos vamos colaborando unos con otros. No inventamos nada, sino que todo está proyectado sobre esos ejes de los viales, por ejemplo, de RT, la información geográfica de referencia de la red de transporte. Y lo que se hace es añadir todos esos parámetros técnicos, como un valor añadido para tener un sistema de información completo, integral, multimodal, de carreteras, ferrocarriles, puertos, aeropuertos, terminales ferroviarias y también vías navegables. Es un GIS (Sistema de Información Geográfica), con lo cual permite todo ese análisis, no solo descarga, consulta, con esos servicios web que ponemos al servicio de la ciudadanía en abierto, también en un catálogo de datos abiertos hecho con CKAN, que luego comentaré. Bueno, al final son más de 300 parámetros consultables. ¿De qué estamos hablando? Sobre cada tramo de carretera, se conoce la intensidad media de tráfico, la velocidad media, la capacidad de las infraestructuras, actuaciones planificadas también -no solo la red en servicio, sino también la red planificada, las actuaciones que tiene previstas hacer el Ministerio-, las titularidades de la vía, las longitudes, velocidades, accidentes... bueno, muchísimos parámetros, modos de acceso, proyectos cofinanciados, temas de combustibles alternativos, la red transeuropea de transportes, etcétera. Ese es el tercero de los conjuntos de datos.

4. El cuarto conjunto quizá es el más voluminoso porque son 16 GB al día. Es el proyecto que le llamamos Big Data Movilidad. Este proyecto es una iniciativa pionera que utiliza tecnologías Big Data y de inteligencia artificial para analizar en profundidad los patrones de movilidad en el país se basa principalmente en el análisis de los registros anonimizados de telefonía móvil de la población para obtener información detallada sobre todos los desplazamientos de las personas no individualizados, sino agregados a nivel de distrito censal. Desde 2020 se realiza un estudio diario de movilidad y se dan todos estos datos en abierto. Eso es la movilidad por horas, por origen / destino que nos permite monitorizar y evaluar la demanda de transportes para planificar mejoras en esas infraestructuras y servicios. Además, como se dan los datos en abierto, se puede utilizar para cualquier fin, para fines turísticos, para investigaciones…

2. ¿Cómo se generan y recopilan estos datos? ¿A qué retos hay que hacer frente en este proceso y cómo los solventáis?

Alicia González: Concretamente, en el ámbito de los productos que se generan tecnológicamente en entornos de sistema de información geográfica y bases de datos geoespaciales, al final se trata de proyectos en los que la base fundamental es la captura de datos y la integración de fuentes de referencia existentes. Cuando vemos que el titular tiene un dato, ese es el que hay que integrar. De una forma resumida, en los trabajos técnicos principales, se podrían identificar:

  • Por un lado, la captura, es decir, cuando queremos almacenar un objeto geográfico hay que digitalizarlo, dibujarlo. ¿Sobre dónde? Sobre una base métrica adecuada como son las ortofotografías aéreas del Plan Nacional de Ortofotografía Aérea (PNOA)que también es otro conjunto de datos que está disponible y abierto. Bueno, nosotros cuando tenemos, por ejemplo, que dibujar o digitalizar una carretera, vamos trazándolo sobre esa imagen aérea que nos proporciona PNOA.
  • Una vez que tenemos capturada esa componente geométrica, hay que dotarle de una atribución y no vale cualquier dato, tienen que ser fuentes oficiales. Entonces, tenemos que localizar quién es el titular de esa infraestructura o quién es el proveedor del dato oficial para detectar cuáles son los atributos, la caracterización que queremos darle a esa información, que en principio era solamente geométrica. Para eso hay que hacer una serie de procesos de validación de la fuente, detectar que no tiene incidencias y unos procesos que llamamos de integración, que son bastante complejos para garantizar que el resultado cumple lo que queremos.
  • Y, por último, una fase fundamental en todos estos proyectos es el aseguramiento de la calidad geométrica y semántica. Es decir, hay que desarrollar y ejecutar una serie de controles de calidad que permitan validar el producto, el resultado final de esa integración y confirmar que cumple con los requisitos indicados en la especificación de producto.

En cuanto a retos, un desafío fundamental es la gobernanza de los datos, es decir, el resultado que se genera se alimenta de ciertas fuentes, pero al final se crea el resultado. Luego hay que definir bien el rol de cada proveedor que después quizá posteriormente sea usuario. Otro desafío en todo este proceso es la localización de proveedores de datos. A veces el responsable de esa infraestructura o del objeto que queramos almacenar en base de datos no publica la información de una forma estandarizada o es difícilmente localizable porque no está en un catálogo. A veces es complicado localizar la fuente oficial que necesitas para completar la información geográfica. Y ya mirando un poco al usuario, yo resaltaría que otro reto es el identificar, el tener la agilidad para identificar de una forma flexible y rápida los casos de uso que van cambiando con los usuarios, que nos van demandando, porque al final se trata de continuar siendo relevantes para la sociedad. Por finalizar, y porque el Instituto Geográfico es un entorno científico técnico y esta parte nos afecta mucho, otro desafío es la transformación digital, es decir, estamos trabajando en proyectos tecnológicos, luego tenemos que tener también bastante capacidad de gestión del cambio y adaptarnos a las nuevas tecnologías.

Tania Gullón: Respecto a cómo se generan y recopilan los datos y los retos que enfrentamos, por ejemplo, el NAP, del Punto de Acceso Nacional de Transporte multimodal, es una generación colaborativa, es decir, aquí los datos provienen de las propias comunidades autónomas, de los consorcios y de las empresas de transporte. El reto es que hay muchas comunidades autónomas que todavía no están digitalizadas, son muchas empresas… La digitalización del sector va lenta -va, pero va lenta-. Al final hay datos incompletos, datos duplicados. No está todavía bien definida la gobernanza. Nos pasa que, imaginaros, la empresa ALSA sube todos sus autobuses, pero tiene autobuses en todas las comunidades autónomas. Y si a la vez la comunidad autónoma sube sus datos, esos datos están duplicados. Es tan sencillo como eso. Es verdad que estamos empezando y todavía no está bien definida esa gobernanza, para que no sobren datos. Antes faltaban y ahora casi sobran.

En Hermes, el sistema de información geográfico, lo que se hace, como he dicho, es proyectarlo sobre la información de las redes de transporte, que es la oficial que ha comentado Alicia, y se integran datos de los diferentes gestores y administradores de infraestructuras, como son Adif, Puertos del Estado, AENA, la Dirección General de Carreteras, ENAIRE, etcétera. ¿Cuál es el principal reto - si tuviera que destacar, porque de esto nos podemos tirar hablando una hora-? Nos ha costado mucho, llevamos siete años con este proyecto y ha costado mucho porque, primero, la gente no se lo creía. No creían que iba a funcionar y no colaboraban. Al final todo esto es llamar a la puerta de Adif, de AENA y cambiar esa conciencia en la que los datos no pueden estar en un cajón, sino que hay que ponerlos todos al servicio del bien común. Y yo creo que eso es lo que nos ha costado un poco más. Además, está el tema de la gobernanza, que ya lo ha comentado Alicia. Vas a pedir un dato y en la propia organización no saben bien quién es el propietario de ese dato, porque quizá el dato de tráfico lo manejan diferentes departamentos. ¿Y quién es el propietario? Todo esto es muy importante.

Hemos de decir que justo Hermes ha sido el gran impulsor de las oficinas del Dato, de la oficina del Dato de Adif. Al final se han ido dando cuenta de que lo que necesitaban era poner orden en su casa, igual que en la casa de todos y en el Ministerio también, que se necesitan oficinas del Dato.

En el proyecto Big Data, ¿cómo se generan los datos? En este caso es completamente diferente. Es un proyecto pionero, más de nuevas tecnologías, en el que los datos se generan a partir de los registros anonimizados de telefonía móvil. Entonces, mediante la reconstrucción de toda esa gran cantidad de datos de Big Data, de los registros que hay en cada antena de España, con inteligencia artificial y con una serie de algoritmos, se reconstruyen y se hacen esas matrices. Luego, esos datos de esa muestra – al final tenemos una muestra de un 30 % de la población, de más de 13 millones de líneas móviles- se extrapola con datos abiertos del INE. Y luego, ¿qué hacemos también? Se calibra con fuentes externas, es decir, con fuentes de referencia cierta, como puede ser el billetaje de AENA, de los vuelos, los datos de Renfe, etc. Vamos calibrando ese modelo para poder generar esas matrices con calidad. Los retos: que es muy experimental. Para que os hagáis una idea, somos el único país que tiene todos estos datos. Entonces hemos ido abriendo brecha y aprendiendo por el camino. La dificultad es, otra vez, los datos. Esos datos para calibrar, nos cuesta Dios y ayuda encontrarlos y que nos los den con una periodicidad determinada y demás, porque esto va en tiempo real y necesitamos permanentemente ese flujo de datos. También la adaptación al usuario, que lo ha dicho Alicia. Nos debemos adaptar a lo que va demandando la sociedad y los reutilizadores de este Big Data. E irnos acompasando también, como ha dicho Alicia, a la tecnología, que no es lo mismo el dato de telefonía que hay ahora que el que había hace dos años. Y el gran reto del control de calidad. Pero bueno, aquí yo creo que le voy a dejar a Alicia, que es la súper experta, que nos explique qué mecanismos existen para garantizar que los datos sean fiables y actualizados y comparables. Y luego yo os doy mi visión, si te parece.

Alicia González: ¿Cómo se puede garantizar la fiabilidad, actualización y comparación? La fiabilidad no sé si se puede garantizar, pero creo que puede haber un par de indicadores que son especialmente relevantes. Uno, es el grado de conformidad de un conjunto de datos a la normativa que le atañe. En el ámbito de la información geográfica, la forma de trabajar es siempre normalizada, es decir, hay una familia de ISO 19100 de Información Geográfica/Geomática o la propia Directiva INSPIRE, que condiciona mucho la forma de trabajar y de publicar los datos. Y también, mirando en la administración pública, creo que el marchamo de oficialidad también debería de ser un garante de fiabilidad. Es decir, nosotros cuando tratamos los datos debemos hacerlo de una forma homogénea y sin sesgos, mientras que quizá, a lo mejor, una empresa privada pueda estar condicionada por ellos. Creo que esos dos parámetros son importantes, que pueden indicar fiabilidad.

En cuanto a grado de actualización y comparación de los datos, creo que esa información el usuario la deduce de los metadatos. Los metadatos al final son la carta de presentación de los conjuntos de datos. Entonces, si un conjunto de datos está correctamente y de forma veraz metadatado y además está hecho conforme a perfiles estándar -igual en el ámbito GEO, pues hablamos del perfil INPIREGeoDCAT-AP- , si distintos conjuntos de datos están definidos en sus metadatos conforme a estos perfiles normalizados, es mucho más fácil ver si son comparables y el usuario puede determinar y decidir si finalmente satisface sus requisitos de actualización y de comparabilidad con otro conjunto de datos. 

Tania Gullón: Totalmente Alicia. Y si me permites complementar, nosotros, por ejemplo, en el Big Data hemos estado siempre muy empeñados en medir la calidad -más justo cuando son nuevas tecnologías que, al principio, la gente no se fiaba de qué resultados salen de todo esto-. Siempre intentando medir esta calidad - que, en este caso, es muy difícil porque son grandes conjuntos de datos-, desde el principio empezamos a diseñar unos procesos que tardan. Tarda siete horas el proceso de control de calidad diario de los datos, pero es verdad que al principio teníamos que detectar si se había caído alguna antena, si había ocurrido alguna cosa… Entonces hacemos un control con parámetros estadísticos y demás de consistencia interna y lo que detectamos aquí son las anomalías. Lo que estamos viendo es que el 90 % de las anomalías que salen son anomalías reales de movilidad. O sea, no ocurren errores en los datos, sino que son anomalías: ha habido una manifestación o ha habido un partido de fútbol. Son temas que distorsionan la movilidad. O ha habido una tormenta o una lluvia o cualquier cosa de estas. Y es importante no solo controlar esa calidad y ver si hay anomalías, sino que también creemos que es muy importante publicar esos criterios de calidad: el cómo estamos midiendo la calidad y sobre todo los resultados. Diariamente no solo damos el dato, sino que damos este metadato, que dice Alicia, de calidad, de cómo era la muestra ese día, de esos valores que se han obtenido de anomalías. Esto se da también en abierto: no solo el dato, sino el metadato. Y luego también publicamos las anomalías y el porqué de esos errores. Cuando se encuentran errores decimos “vale, es que ha habido una anomalía porque en el pueblo - no sé qué imaginaros, es toda España – del Casar era la fiesta de la torta del Casar”. Y ya está, se ha encontrado la anomalía y se publica.

¿Y cómo se mide otro parámetro de calidad: la exactitud temática? En este caso, comparando con fuentes de referencia cierta. Sabemos que la evolución respecto a sí mismo ya está muy controlada con esa consistencia lógica interna, pero también hay que compararlo con lo que ocurre en el mundo real. Lo hablaba antes con Alicia, decíamos “los datos son fiables, pero ¿cuál es la realidad de la movilidad? ¿Quién la conoce?” Al final tenemos algunas pistas, como en los billetajes de cuántos se han subido a los autobuses. Si tenemos ese dato, tenemos una pista, pero de la gente que va andando y de la gente que coge su coche y demás ¿cuál es la realidad? Es muy difícil tener un punto de comparación, pero sí que comparamos con todos los datos de AENA, de Renfe, de las concesiones de autobuses y se pasan todos esos controles para determinar cuánto nos desviamos de esa realidad que podemos conocer.

3. Todos estos datos sirven de base para desarrollar aplicaciones y soluciones, pero también son fundamentales a la hora de tomar decisiones y acelerar la implementación de los ejes centrales, por ejemplo, de la Estrategia de Movilidad Segura, Sostenible y Conectada o del Proyecto de Ley de Movilidad Sostenible. ¿Cómo se usan estos datos para tomar estas decisiones reales?

Tania Gullón: Si me permites, primero quiero hacer una introducción a esta estrategia y a la Ley en torno al dato para los que no lo conozcan. Uno de los ejes, el eje 5 de la Estrategia de Movilidad Segura Sostenible y Conectada 2030 del Ministerio es el de “Movilidad inteligente”. Y justo está centrado en esto y tiene como objetivo principal impulsar la digitalización, innovación y el uso de tecnologías avanzadas para mejorar esa eficiencia, sostenibilidad y experiencia de usuario en el sistema de transportes de España. Y justo una de las medidas de ese eje es la “facilitación de la Movilidad como Servicio (Mobility as a Service), Datos Abiertos y Nuevas Tecnologías”. O sea que justo aquí es donde se enmarcan todos estos proyectos que estamos comentando. De hecho, una submedida es impulsar la publicación de datos abiertos de movilidad, otra es el realizar análisis de flujos de movilidad y otra de las medidas, la última, es la creación de un espacio de datos integrado de movilidad. Me gustaría destacar -y aquí ya entronco con ese Proyecto de Ley que esperemos que pronto lo veamos aprobado- que la Ley, en el artículo 89 regula el Punto de Acceso Nacional, que también vemos cómo está metido en este instrumento legislativo. Y luego la Ley establece un instrumento digital clave para el Sistema Nacional de Movilidad Sostenible: fijaros la importancia que se la da al dato que en una ley de movilidad se ponga por escrito que este espacio de datos integrado de movilidad es un instrumento digital clave. Este espacio de datos es un ecosistema de compartición de datos confiable, materializado como la infraestructura digital gestionada por el Ministerio de Transportes y en coordinación con la SEDIA (la Secretaría de Estado de Digitalización e Inteligencia Artificial), cuyo objetivo es centralizar y estructurar la información sobre movilidad generada por administraciones públicas, operadores de transporte, gestores de infraestructuras, etc. y garantizar ese acceso abierto a todos estos datos para todas las administraciones bajo condiciones reglamentarias.

Alicia González: Yo en este caso quiero decir que cualquier toma de decisiones objetiva, por supuesto, se tiene que hacer a partir de datos que, como decíamos antes, tienen que ser fiables, actualizados y comparables. En este sentido, indicar que el IGN, el soporte fundamental que ofrece al Ministerio para el despliegue de la Estrategia de Movilidad Segura, Sostenible y Conectada, es la provisión de datos de servicios y análisis complejos de información geoespacial. Muchos de ellos, por supuesto, sobre el conjunto de datos que venimos hablando de redes de transporte.

En este sentido, mencionar como ejemplo los mapas de accesibilidad con los que contribuimos al eje 1 de la estrategia “Movilidad para todos”, en el que, a través de la Mesa de Movilidad Rural, se solicitó al IGN si podíamos generar unos mapas que representaran el coste en tiempo y en distancia que le cuesta a cualquier ciudadano, viviendo en cualquier núcleo de población, acceder a la infraestructura de transporte más cercana, empezando por red viaria. Es decir, cuánto le cuesta a un usuario en esfuerzo, tiempo y distancia, acceder desde su casa a la autopista o autovía más cercana y luego, por extensión, a cualquier carretera de la red básica. Hicimos ese análisis - por lo que decía que esta red vertebra todo el territorio, es continua - y esos resultados finalmente los publicamos vía web. Son datos también abiertos, cualquier usuario los puede consultar y, además, también los ofrecemos no solamente de forma numérica, sino representado en distintos tipos de mapas. Al final, esa visibilización geolocalizada del resultado aporta un valor fundamental y facilita, por supuesto, la toma de decisiones estratégicas en materia de planificación de infraestructuras.

Otro ejemplo a destacar que es posible gracias a la disponibilidad de datos abiertos, es el cálculo de indicadores de seguimiento de los Objetivos de Desarrollo Sostenible de la Agenda 2030. Actualmente, en colaboración con el Instituto Nacional de Estadística, estamos trabajando en el cálculo de varios de ellos, incluyendo uno asociado directamente a Transportes, que trata de hacer el seguimiento del objetivo 11, que es el de lograr que las ciudades sean más inclusivas, seguras, resilientes y sostenibles.

4. Hablando de esta toma de decisiones basada en datos, también existe cooperación a nivel de generación y reutilización de datos entre distintas administraciones públicas. ¿Nos podéis contar algún ejemplo de proyecto?

Tania Gullón: Yo te contesto también eso a la toma de decisiones basada en datos que antes me he ido por las ramas con el tema de la Ley. También se puede decir que todos esos datos de Big Data, Hermes y todo lo que hemos comentado están favoreciendo ese cambio del Ministerio y de las organizaciones hacia organizaciones basadas en datos, que significa que las decisiones se basan en ese análisis de datos objetivos. Cuando preguntas así por un ejemplo, es que tengo tantos que no sabría qué contarte. En el caso de los datos Big Data, se están utilizando para la planificación de infraestructuras desde hace unos años. Antes se hacía con encuestas y se dimensionaba porque ¿cuántos carriles pongo en una carretera? O algo muy básico, ¿cuánta frecuencia necesitamos en un tren? Pues eso, como no tengas datos de cuál va a ser la demanda, no puedes planificarlo. Esto se hace con los datos de Big Data, no solo el Ministerio sino, como están en abierto, los usan todas las administraciones, todos los ayuntamientos y todos los gestores de infraestructuras. Conocer las necesidades de movilidad de la población nos permite adecuar nuestras infraestructuras y nuestros servicios a esas necesidades reales. Por ejemplo, ahora se están estudiando los servicios de cercanías en Galicia. O imaginaros el soterramiento de la A-5. También se utilizan para emergencias, que no lo hemos comentado, pero también están siendo clave. Siempre nos damos cuenta de que cuando hay una emergencia, de repente todo el mundo piensa “datos, ¿dónde hay datos?, ¿dónde están los datos abiertos?”, pues han sido fundamentales. Os puedo contar, en el caso de la Dana, que es quizá el más reciente se quedaron gravemente afectadas varias líneas de tren de cercanías, se destrozaron las vías, y el 99 % de los vehículos de las personas que vivían en Paiporta, en Torrent, en toda la zona afectada, se quedaron inutilizados. Y el 1 % era porque no estaba en la zona de la Dana en ese momento. Entonces había que restablecer la movilidad cuanto antes, pues gracias a estos datos abiertos en una semana había unos autobuses haciendo unos servicios alternativos de transporte que se habían planificado con los datos de Big Data. O sea que fijaros el impacto sobre la población.

Hablando de emergencias, este proyecto nació justo por una emergencia, por el COVID. O sea, el estudio, este Big Data, nació en 2020 porque desde Presidencia de Gobierno se nos encargó monitorizar esa movilidad diariamente y darla en abierto. Y aquí enlazo con esa colaboración entre administraciones, organizaciones, empresas, universidades. Porque fijaros, estos datos de movilidad alimentaban los modelos epidemiológicos. Aquí trabajamos con el Instituto Carlos III, con el Barcelona Supercomputing Center, con estos institutos y centros de investigación que estaban empezando a dimensionar las camas de los hospitales para la segunda ola. Cuando todavía estábamos en la primera ola, no sabíamos ni lo que era una ola y ya nos estaban diciendo “ojo, porque va a haber una segunda ola, y con estos datos de movilidad y demás vamos a poder dimensionar cuántas camas se van a necesitar, según también el modelo epidemiológico”. Fijaos la reutilización tan importante. Estos datos, por ejemplo, de Big Data sabemos que los están utilizando miles de empresas, administraciones, centros de investigación, investigadores de todo el mundo. Además, nos llegan consultas de Alemania, de todos los países, porque en España yo somos un poco pioneros en esto de dar todos los datos en abierto. Estamos ahí creando escuela y no solo para transporte, sino para temas de turismo también, por ejemplo.

Alicia González: Nosotros, en el ámbito de la información geográfica, a nivel de cooperación, tenemos un instrumento específico que es el Sistema Cartográfico Nacional, que directamente promueve la coordinación en la actuación de las distintas administraciones en materia de información geográfica. No sabemos trabajar de otra forma que no sea cooperando. Y un ejemplo claro es el mismo conjunto del que venimos hablando: el conjunto de información geográfica de referencia de redes de transporte es el resultado de esta cooperación. Es decir, a nivel nacional lo impulsa y promueve el Instituto Geográfico, pero en su actualización, en su producción también participan agencias cartográficas autonómicas con diferente rango de colaboración. Incluso se llega a alcanzar el máximo de hacer coproducción de datos de ciertos subconjuntos en determinadas zonas. Además, una de las características de este producto es que se genera a partir de datos oficiales de otras fuentes. Es decir, ahí ya hay colaboración sí o sí. Hay cooperación porque hay una integración de datos, porque al final hay que rellenarlo con los datos oficiales. Y de partida, a lo mejor son datos que facilita INE, el Catastro, las propias agencias cartográficas, los callejeros locales… Pero, una vez que se ha conformado el resultado, como comentaba antes, el resultado tiene un valor añadido que es de interés para el propio proveedor original. Por ejemplo, este conjunto de datos se reutiliza internamente, en la casa, en el IGN: cualquier producto o servicio que precise de información de transporte se alimenta de este conjunto de datos. Ahí hay una reutilización interna, pero, además, en el ámbito de las administraciones públicas, en todos los niveles. En la estatal, pues, por ejemplo, en el Catastro, una vez que se ha generado el resultado, les es de interés para estudios de análisis de la delimitación del dominio público asociado a las infraestructuras, por ejemplo. O el propio Ministerio, como comentaba antes Tania. Hermes se generó a partir de un tratamiento de datos de RT, de los datos de redes de transporte. La Dirección General de Carreteras utiliza redes de transporte en su gestión interna para hacerse un mapa de tráfico, su gestión de catálogo, etcétera. Y en las propias comunidades autónomas, igualmente el resultado que se genera les es de utilidad en las agencias cartográficas o incluso a nivel local. Luego hay una reutilización cíclica continua, como tiene que ser, al final todo es dinero público y tiene que reutilizarse al máximo posible. Y en el ámbito privado, también se reutiliza y se generan servicios de valor añadido a partir de estos datos que se facilitan en múltiples casos de uso. Por no extenderme, simplemente eso: participamos facilitando datos sobre los que se generan servicios de valor añadido.

5. Y ya para terminar, podréis recapitular brevemente alguna idea que resalte el impacto en la vida cotidiana y el potencial comercial de estos datos para para los reutilizadores.

Alicia González: Muy brevemente, yo creo que el impacto fundamental en la vida cotidiana es que la distribución de datos abiertos ha permitido democratizar el acceso a los datos a todo el mundo, a empresas, pero también a ciudadanos; y, sobre todo, creo que ha sido fundamental en el ámbito académico, en el que seguramente, actualmente, es más fácil desarrollar ciertas investigaciones que en otros tiempos era más complejo. Y otro impacto en la vida cotidiana es la transparencia institucional que ello implica. Y en cuanto al potencial comercial de reutilizadores, reitero la idea anterior: la disponibilidad de datos impulsa la innovación y el incremento de soluciones de valor añadido. En este sentido, mirando una de las conclusiones del informe que se realizó en 2024 por ASEDIE; la Asociación de Empresas Infomediarias, sobre el impacto que tenían los datos geoespaciales que publica el CNIG en el sector privado, hubo un par de conclusiones bastante importantes. Una de ellas decía que cada vez que se libera un nuevo conjunto de datos se incentiva a los reutilizadores a generar soluciones de valor añadido y, además, les permite focalizar sus esfuerzos en ese desarrollo de innovación y no tanto en la captura del dato. Y también de ese informe se desprendía que desde la adopción de la política de datos abiertos que mencioné al principio, que se adoptó en 2015 por parte del IGN, el 75 % de las empresas encuestadas respondió que había podido ampliar de forma muy significativa el catálogo de productos y servicios basados en estos datos que son abiertos. Luego, yo creo que el impacto finalmente es enriquecedor para toda la sociedad.

Tania Gullón: yo suscribo todas las palabras de Alicia, totalmente de acuerdo. Y además, que los pequeños operadores de transporte y los ayuntamientos con menos recursos tengan a su disposición todos estos datos abiertos y gratuitos de calidad y el acceso a las herramientas digitales que les permitan competir en igualdad de condiciones. En el caso de las empresas o ayuntamientos, imaginaros poder planificar sus transportes y ser más eficientes. No solo les ahorra dinero, sino que ganan al final en el servicio al ciudadano. Y desde luego, el hecho de que en el sector público se tome las decisiones basadas en datos y se fomente ese ecosistema de compartición de datos, favoreciendo el desarrollo de aplicaciones de movilidad, por ejemplo, tiene un impacto directo en la vida cotidiana de las personas. O también el tema de las ayudas al transporte: el que se estudie con esos datos de demanda el impacto de las ayudas al transporte con datos de accesibilidad y demás. Se estudia quiénes son los más vulnerables y al final, ¿qué hace? Pues que las políticas sean cada vez más justas y esto, obviamente impacta en el ciudadano. Que las decisiones sobre cómo invertir el dinero de todos, de nuestros impuestos, el cómo invertirlo en infraestructuras o en ayudas o en servicios, se base en datos objetivos y no en intuiciones, sino en datos reales. Esto es lo más importante.

Clips de la entrevista

1. ¿Qué datos ofrece en abierto el Ministerio de Transportes y Movilidad Sostenible? 

2. ¿Qué datos ofrece en abierto el Instituto Geográfico Nacional (IGN)?

calendar icon
Entrevista

En este episodio hablamos de medio ambiente, centrándonos en el papel que juegan los datos en la transición ecológica ¿Pueden los datos abiertos ayudar a impulsar la sostenibilidad y proteger el planeta? Lo descubrimos con nuestros dos invitados:

  • Francisco José Martínez García, director conservador de los parques naturales del sur de Alicante.
  • José Norberto Mazón, catedrático de lenguajes y sistemas informáticos de la Universidad de Alicante.

Escuchar el pódcast completo

Resumen / Transcripción de la entrevista

1. Los dos sois unos apasionados del uso de los datos en pro de la sociedad, ¿cómo descubristeis el potencial de los datos abiertos para la gestión del medio ambiente?

Francisco José Martínez: Yo, por mi parte, te puedo decir que cuando llegué a la administración pública, a la Generalitat Valenciana, la Generalitat puso en marcha un visor que se llama Visor Gva, que es abierto, que da mucha información de imágenes, de metadatos, de datos en diversos campos… y la verdad es que me facilitó muchísimo -y me sigue facilitando- el trabajo en la resolución de expedientes y el trabajo propio de un funcionario. Después también se incorporó otra base de datos que es el Banco de Datos de Biodiversidad, que ofrece datos en cuadrículas de un kilómetro por un kilómetro. Y finalmente, ya aplicado a los espacios naturales y humedales que yo dirijo, datos de calidad de aguas, todos ellos están en abierto y pueden ser objeto de generar investigación aplicada por parte de todos los investigadores.

Jose Norberto Mazón: En mi caso, fue precisamente con Francisco como director. Él dirige tres parques naturales que son humedales del sur de Alicante y sobre uno de ellos, en el que teníamos especial interés, que es el Parque Natural de la Laguna de la Mata y Torrevieja, Francisco nos comentó su experiencia -toda esta experiencia que acaba de comentar-. Nosotros en la Universidad de Alicante llevamos tiempo trabajando en gestión de datos, datos abiertos, interoperabilidad de datos, etcétera, y vimos la oportunidad de hacer una perspectiva de gestión del dato, de generación del dato y de reutilización del dato desde el territorio, desde el propio Parque Natural. Junto con otras entidades como Proyecto MastralFaunaturaAGAMED, y también compañeros y compañeras de la Universidad Politécnica de Valencia, vimos la posibilidad de estudiar esos datos de utilidad, poniendo el foco sobre todo en el concepto de datos de alto valor, que desde la Unión Europea se estaba apostando por ellos: esos datos que tienen potencial para generar beneficios socioeconómicos o medioambientales, beneficiar a todos los usuarios y contribuir a hacer una sociedad europea basada en la economía del dato. Y bueno, nos pusimos ahí a ver cómo podíamos colaborar, sobre todo para descubrir ese potencial de los datos a nivel de territorio.

2. A través de una estrategia llamada el Pacto verde, la Unión Europea aspira a convertirse en la primera economía del mundo competitiva y eficiente en el uso de los recursos, logrando emisiones netas de gases de efecto invernadero cero para 2050. ¿Qué medidas concretas son más urgentes para lograrlo y cómo pueden ayudar los datos a alcanzar estas metas? ¿Qué proyectos se están impulsando desde Europa para ello?

Francisco José Martínez: La Unión Europea tiene varias líneas, varios proyectos como el proyecto LIFE, enfocado a especies en peligro de extinción, los fondos FEDER para restaurar hábitats… Aquí en la Laguna de la Mata y Torrevieja, los hábitats terrestres los hemos mejorado con estos fondos FEDER y se trata precisamente de que esos hábitats sean mejores captadores de CO2 y se generen comunidades vegetales más autóctonas, eliminando las especies invasoras. Luego también tenemos el reglamento, a nivel normativo, de restauración de la naturaleza, que está en vigor desde 2024, y que nos obliga a restaurar hasta un 30 % de los ecosistemas terrestres y marinos degradados. He de decir también que la Fundación Biodiversidad, dependiente del Ministerio, genera bastantes proyectos relacionados, por ejemplo, con la generación de refugios climáticos en zonas urbanas. O sea, hay una serie de proyectos y bastante financiación en todo lo que tiene que ver con la renaturalización, la mejora de hábitats y la conservación de especies.

Jose Norberto Mazón: Yo me centraría también, por complementar lo que ha dicho Francisco, en toda la gestión del dato, la importancia que se le da a la gestión del dato a nivel de Pacto Verde Europeo, en concreto con proyectos de compartición de datos, de hacer los datos más interoperables. Es decir que, al final, todos aquellos actores que generen datos puedan ser de utilidad mediante su combinación y generar mucho más valor en lo que se denominan espacios de datos y sobre todo en el espacio de datos del Pacto Verde Europeo. Recientemente, además, acaban de terminar unos proyectos iniciales. Por ejemplo, por resaltar un par de ellos, el proyecto USAGE (Urban Data Spaces for Green dEal), que lo voy a comentar con dos pilotos concretos que han desarrollado muy interesantes. Uno sobre cómo se tiene que introducir todo lo que tiene que ver con datos para mitigar el cambio climático en la gestión urbanística en la ciudad de Ferrara, en Italia. Y otro piloto sobre la gobernanza del dato y cómo se tiene que hacer para que se cumplan los principios FAIR, en este caso en Zaragoza, con un concepto de islas climáticas también muy interesante. Y luego hay otro proyecto, el AD4GD (All Data for Green Deal) que ha hecho también pilotos en relación de esa interoperabilidad del dato. En este caso, en la Red de Lagos de Berlín. Berlín tiene como 300 lagos a los que tienen que monitorizar la calidad del agua, la cantidad de agua, etc. y se ha hecho a través de sensorización. La gestión de corredores biológicos en Cataluña, también, con datos de cómo se mueven las especies y cómo es necesario gestionar esos corredores biológicos. Y también han hecho alguna iniciativa de calidad del aire con ciencia ciudadana. Estos proyectos han finalizado ya, pero hay un proyecto súper interesante a nivel europeo que es el que va a poner en marcha ese gran espacio de datos del pacto europeo, que es el proyecto SAGE (Sustainable Green Europe Data Space), que está desarrollando diez casos de uso que engloban todo ese gran ámbito del Pacto Verde Europeo. En concreto, por resaltar uno que es muy pertinente, porque está alineado con lo que son los parques naturales, los humedales del sur de Alicante y que Francisco dirige, es el de los compromisos entre la naturaleza y los servicios ecosistémicos. Es decir, cómo hay que proteger la naturaleza, cómo tenemos que conservar, pero también tenemos que permitir esas actividades socioeconómicas de manera sostenible. Este espacio de datos va a integrar teledetección, modelos basados en inteligencia artificial, datos, etc.

3. ¿Querrías añadir algún otro proyecto a este nivel local o regional?

Francisco José Martínez: Sí, claro. Bueno, el que hemos realizado con Norberto, su equipo y varios equipos, varios departamentos de la Universidad Politécnica de Valencia y de la Universidad de Alicante, y es el gemelo digital. Se ha estado realizando una investigación para la generación de un gemelo digital en el Parque Natural de las Lagunas, aquí en Torrevieja. Y la verdad es que ha sido una investigación aplicada, se han generado muchos datos a partir de sensores, también de observaciones directas o de grabadoras de imágenes y de sonidos. Se ha hecho un buen registro de información a nivel de ruidos, de clima, de datos meteorológicos para poder realizar una buena gestión y que sea una ayuda inestimable para la gestión de los que tenemos que tomar decisiones día a día. Otros datos que también se han realizado en este proyecto aquí local, ha sido la recopilación de datos de carácter social, de uso turístico, de sentimiento de las personas (si están de acuerdo con lo que ven en el espacio natural o no). Es decir, hemos mejorado el conocimiento de este espacio natural gracias a este gemelo digital y esa es una información que no nos puede aportar ni nuestro visor ni el Banco de Datos de Biodiversidad.

Jose Norberto Mazón: Hablaba Francisco, por ejemplo, del conocimiento de las personas, de la afluencia de personas de determinadas zonas del parque natural. Y saber también lo que sienten, lo que piensan las personas que lo visitan, pues si no es a través de encuestas que son muy farragosas, etcétera es complicado. Nosotros hemos puesto al servicio de descubrir ese conocimiento, este gemelo digital con multitud de esa sensorización y con datos que al final también son interoperables y que permiten conocer muy bien el territorio. Evidentemente que sea territorial no significa que no sea escalable. Lo que estamos haciendo con el proyecto de gemelo digital, el proyecto ChanTwin, lo que hacemos es que se pueda volcar o que se pueda extrapolar a cualquier otra área natural, porque las problemáticas que hemos tenido al final las vamos a encontrar en cualquier área natural, como por ejemplo, problemas de conectividad, problemas de interoperabilidad de datos que vienen de sensores, etc. Sensores tenemos de muchos tipos, de afluencia de personas, de la calidad del agua, de temperaturas y variables climáticas, contaminación, etc. y al final además con todas las garantías de privacidad de datos. Esto lo tengo que decir, que es muy importante porque siempre intentamos que esa recolección de datos, por supuesto, garantice la privacidad de las personas. Podemos conocer las inquietudes de la gente que visita el parque y también, por ejemplo, la procedencia de esas personas. Y esto es una información muy interesante a nivel de dirección del parque, porque así, por ejemplo, Francisco puede tomar unas decisiones más informadas para gestionar mejor el parque. Pero, las personas que visitan el parque vienen de un municipio concreto, con un ayuntamiento que, por ejemplo, tiene una concejalía de Medio Ambiente o tiene una concejalía de Turismo. Y esa información puede ser muy interesante para poner en valor determinados aspectos, por ejemplo, medioambientales, de biodiversidad, o de actividad socioeconómica.

Francisco José Martínez: Los datos son fundamentales en la gestión del medio natural de un humedal, de una montaña, de un bosque, de un pastizal... en general de todos los espacios naturales. Fíjate que solo con el seguimiento y monitoreo de determinados parámetros ambientales nos sirven para dar explicación de eventos que pueden suceder, por ejemplo, una mortandad de peces. Sin haber tenido el histórico de los datos de oxígeno disuelto de temperatura, es muy difícil saber si es por eso o por un contaminante. Por ejemplo, la temperatura de las aguas, que está relacionada con el oxígeno disuelto: a más temperatura, menos oxígeno disuelto. Y sin oxígeno, resulta que aparecen en primavera verano -de acuerdo, como sean las temperaturas ambientales, se traslada al agua, a las lagunas, a los humedales-, aparece una enfermedad que es el botulismo y ya ha habido dos años que se nos han muerto cada año más de mil animales. La manera de controlarlo es previendo que esas temperaturas van a llegar a una concreta, que a partir de ahí el oxígeno casi desaparece de las aguas y nos da tiempo a planificar los equipos de trabajo que van retirando los cadáveres, que es la actuación fundamental para evitarla. Otro, por ejemplo, son los censos mensuales de aves acuáticas, que se observan de forma presencial, que se registran, que también tenemos grabadoras que registran sonidos. Podemos con eso conocer la dinámica cuando vienen las especies en migración y con eso también podemos hacer gestión de las aguas. Otro ejemplo puede ser el de la temperatura de la laguna de aquí de la Mata, que con el gemelo digital estamos haciendo un seguimiento, pues sabemos que cuando llega casi a treinta grados, el principal alimento de las aves desaparece, que es la artemia salina, porque no pueden vivir en esas temperaturas extremas con esa salinidad. pero sí podemos meter agua del mar, que a pesar de que ha estado muy caliente estas últimas primaveras y veranos, siempre está más fresca y podemos refrescar y alargar la vida de esta especie que precisamente se sincroniza con la reproducción de las aves. Entonces podemos hacer gestión de las aguas gracias al seguimiento y gracias a los datos que tenemos de las temperaturas de las aguas.

Jose Norberto Mazón: Fijaos la importancia de estos ejemplos que decía Francisco, que son paradigmáticos y de la importancia también del uso de los datos. Yo añadiría una cuestión simplemente que al final estos datos, el esfuerzo es ponerlos todos en abierto y que cumplan esos principios FAIR, es decir, que sean interoperables, porque como hemos oído que ha comentado Francisco, son datos de muchas fuentes, cada uno con características diferentes, recopilados de maneras diferentes, etc. Nos está hablando de datos de sensores, pero también otros datos que se recopilan de otra manera. Y luego también que nos permiten de alguna manera empezar a hacer procesos de cocreación de herramientas que utilicen estos datos a varios niveles. Por supuesto, a nivel de gestión del propio parque natural para tomar decisiones informadas, pero también a nivel de ciudadanía, incluso a nivel también de otro tipo de profesionales. Como bien decía Francisco, en los parques, en estos humedales se hacen actividades económicas y por lo tanto también el poder cocrear herramientas con esos actores o con el propio personal investigador de universidades es muy interesante. Y aquí siempre de lo que se trata es de fomentar que haya terceras personas, tanto físicas como jurídicas, por ejemplo, empresas o startups, personas emprendedoras, etc. que realicen diversas aplicaciones y servicios de valor añadido con esos datos: que diseñen herramientas fáciles de usar para la toma de decisiones, por ejemplo, o cualquier otro tipo de herramientas. Esto sería muy interesante, porque nos daría también un ecosistema de emprendimiento alrededor de esos datos. Y esto también lo que haría es que la propia sociedad se implicara más a partir de esos datos abiertos, a partir de la reutilización de datos abiertos, en un cuidado medioambiental y una concienciación medioambiental.

4. Un aspecto importante de esta transición es que debe ser “justa y no dejar a nadie atrás”. ¿Qué papel pueden jugar los datos para garantizar esa equidad?

Francisco José Martínez: En nuestro caso, nosotros venimos realizando con los técnicos de Educación y Divulgación Ambiental actuaciones de ciencia ciudadana. Vamos recopilando datos con personas que se apuntan a estas actividades. Hacemos dos actividades al mes y, por ejemplo, hemos realizado censos de murciélagos de distintas especias - porque uno ve los murciélagos y no distingue la especie, a veces ni los ve- en rutas nocturnas, para detectarlos y registrarlos. También hemos hecho actividades de grabación de fototrampeo para detectar mamíferos muy difíciles de ver. Con eso conseguimos que los niños, las niñas, las familias, la gente en general conozca una fauna que no sabe que existe cuando va caminando por la montaña. Y yo considero que llegamos a mucha gente y que estamos divulgando a la mayor cantidad de personas, de sectores posibles.

Jose Norberto Mazón: Y a partir de esos datos, de hecho, fijaos toda la cantidad de datos que está hablando Francisco. A partir de ahí, y fomentando esa línea que Francisco sigue como director de los Parques Naturales del sur de Alicante, lo que nos planteamos es: ¿podemos ir un paso más allá usando la tecnología? Y hemos hecho videojuegos que posibilitan tener más concienciación a esos grupos objetivo a los que a lo mejor de otra manera es muy difícil llegar. Por ejemplo, a adolescentes, a los que hay que inculcarles de alguna manera ese comportamiento, esa importancia también de los parques naturales. Y pensamos que los videojuegos pueden ser un canal muy interesante. ¿Y cómo lo hemos hecho? Basando esos videojuegos en datos, en datos que vienen de esto que ha comentado Francisco y también de los datos del propio gemelo digital. Es decir, datos que tenemos de la lámina de agua, de los niveles de ruido… Todos esos datos los incluimos en los videojuegos. Son videojuegos dinámicos que permiten de alguna manera tener una mejor concienciación de lo que es el parque natural y de los valores medioambientales y de conservación de la biodiversidad.

5. Nos lleváis un rato hablando de todos los datos que utilizáis, que al final provienen de diversas fuentes. ¿Nos resumirnos ese tipo de datos que utilizáis en vuestro día a día y cuáles son los retos que os encontráis a la hora de integrarlos en proyectos concretos?

Francisco José Martínez: Los datos vienen a ser espaciales, son imágenes con sus metadatos, censos de aves, de mamíferos, de los distintos grupos taxonómicos, de la fauna, de la flora… También realizamos inventarios de flora protegida en peligro de extinción. Datos meteorológicos fundamentales que, por cierto, también son muy importantes a la hora del tema de la protección civil. Fíjate todos los desastres que hay con las gotas frías o DANA. Datos muy importantes como son los de la calidad de aguas, datos físicos y químicos, altura de la lámina de agua que nos sirve para conocer la evaporación, las curvas de evaporación y con eso gestionar las entradas de agua y por supuesto, los datos de carácter social de carácter de uso público. Porque el uso público es muy importante en los espacios naturales. Es una manera de abrir a la ciudadanía, a las personas para que puedan conocer sus recursos naturales y conocerlos, valorarlos y de esa manera protegerlos. En cuanto a la dificultad, es verdad que hay una serie de datos, especialmente cuando se realizan investigaciones que a los que no podemos acceder. Están en repositorios para los técnicos que estamos en la administración o incluso para los consultores difíciles de acceder. Esto yo creo que Norberto lo puede explicar mejor: cómo se podría integrar esto si en plataformas, por sectores, por grupos…

Jose Norberto Mazón: De hecho, es un tema nuclear para nosotros. Al final hay muchos datos abiertos, como ha explicado Francisco durante todo este ratito que llevamos hablando, pero es verdad que están muy dispersos porque también se generan para cumplir diversos objetivos. Al final el objetivo principal de los datos abiertos es que se reutilicen, es decir, que se usen para fines diferentes de los que fueron concedidos inicialmente. Pero lo que nos encontramos es que al final hay muchas propuestas que son, como diríamos, de arriba hacia abajo (muy top down). Pero verdaderamente, donde está la problemática es en el territorio, desde abajo, en todos los actores implicados en el territorio, que aparte muchos datos se generan en el propio territorio. Es decir, es verdad que hay datos, por ejemplo, datos satelitales con teledetección, que los generan los propios satélites y luego nosotros los reutilizamos, pero luego los datos que vienen de sensores o los datos que vienen de ciencia ciudadana, etc. se generan en el propio territorio. Y nos encontramos que muchas veces, al final esos datos, por ejemplo, si hay personal investigador que hace un trabajo en un parque natural concreto, pues evidentemente ese equipo de investigación publica sus artículos y sus datos en abierto (porque por la ley de la ciencia tienen que publicarlos en abierto en repositorios). Pero claro, eso está muy orientado a la investigación. Entonces, los demás tipos de actores, por ejemplo, la dirección del parque, los gestores de una entidad local o incluso la propia ciudadanía, no tienen conciencia a lo mejor de que esos datos están disponibles y ni siquiera tienen mecanismos para consultarlos y obtener valor de ellos. La dificultad mayor, de hecho, está en esto, en que los datos que se generen desde el territorio se reutilicen desde el territorio. Es muy fácil reutilizarlos desde el territorio para solventar esos problemas también. Y esa dificultad es la que nosotros estamos intentando atajar con estos proyectos que tenemos en marcha, de momento con la creación de un data Lake, de una arquitectura de datos que nos permita gestionar toda esa heterogeneidad de los datos y hacerlo desde el territorio. Pero claro, aquí lo que tenemos que hacer verdaderamente es intentar hacerlo de manera federada, con esa filosofía de datos abiertos a nivel federado y además con un plus también, porque es verdad que la casuística dentro del territorio es muy grande. Hay multitud de actores, porque estamos hablando de datos abiertos, pero puede haber actores también que digan “yo quiero compartir ciertos datos, pero otros ciertos datos todavía no, porque puedo perder cierta competitividad, pero no me importaría dentro de tres meses poder compartirlos”. Es decir, hay que tener también un control sobre cierta tipología de datos y que convivan datos abiertos con otra tipología de datos que puedan ser compartidos. A lo mejor no de manera tan amplia, pero sí de manera, digamos, aportando gran valor. Estamos viendo esta posibilidad con un nuevo proyecto que estamos creando: un espacio de datos medioambientales, de biodiversidad en estos tres parques naturales del sur de la provinciade Alicante, y estamos con ese proyecto: Heleade.

Si quieres saber más sobre estos proyectos, te invitamos a visitar sus páginas web:

Clips de la entrevista

1. ¿Cómo se planteó el gemelo digital del Parque Natural de las Lagunas de Torrevieja? 

 

2. ¿Qué proyectos se están impulsando en el marco del Espacio de Datos del Pacto Verde europeo? 

calendar icon
Entrevista

¿Sabes por qué es tan importante categorizar conjuntos de datos? ¿Conoces la referencias que existen para hacerlo acorde al estándar global, europeo y nacional? En este pódcast te contamos las claves sobre la categorización de datasets y te guiamos para poder hacerlo en tu organización.

  • David Portolés, Jefe de Proyecto del Servicio de Asesoramiento.
  • Manuel Ángel Jáñez, Experto Senior en Datos.

Escuchar el pódcast completo

Resumen / Transcripción de la entrevista

1. ¿A qué nos referimos cuando hablamos de catalogar datos y por qué es tan importante hacerlo?

David Portolés: Cuando hablamos de catalogar datos, lo que se quiere es describirlos de forma estructurada. Es decir, hablamos de metadatos: información relacionada con los datos. ¿Por qué es tan importante? Porque gracias a estos metadatos se logra la interoperabilidad. Esta palabra puede sonar complicada, pero simplemente significa que los sistemas puedan comunicarse entre sí de forma autónoma.

Manuel Ángel Jañez: Exacto, como dice David, categorizar no es solo etiquetar. Se trata de dotar a los datos de propiedades que los hagan comprensibles, accesibles y reutilizables. Para eso necesitamos acuerdos o estándares. Si cada productor define sus propias reglas, los consumidores no podrán interpretarlos correctamente, y se pierde valor. Categorizar es alcanzar consensos entre lo general y lo específico, y esto no es nuevo: es una evolución de la documentación en bibliotecas, adaptada al entorno digital.

2. Entonces entendemos que interoperabilidad es hablar el mismo idioma para sacar el máximo provecho. ¿Qué referencias existen a nivel global, europeo y nacional?

Manuel Ángel Jáñez:  La forma de describir datos es de forma abierta, usando estándares o especificaciones de referencia, de marcos.

  • A nivel global: DCAT (una recomendación del W3C) permite modelar catálogos, conjuntos de datos, distribuciones, servicios, etc. En esencia, todas las entidades que son clave y que luego se reutilizan en el resto de perfiles.
  • A nivel europeo: DCAT-AP, el perfil de aplicación en portales de datos en la Unión Europea, particularmente los correspondientes al sector público. Es en esencia lo que se usa para el perfil español, DCAT-AP-ES.
  • En España: DCAT-AP-ES, es el contexto en el que se incorporan restricciones más concretas a nivel español. Es un perfil basado en la Norma Técnica de Interoperabilidad (NTI) de 2013. Este perfil añade características nuevas, evoluciona el modelo para hacerlo compatible con el estándar europeo, añade características relacionadas con  los conjuntos de alto valor (HVD) y adapta la norma al presente del ecosistema de datos.

David Portolés: Con una buena descripción, el reutilizador puede buscar, recuperar y localizar los conjuntos de datos que son de su interés y, por otro lado,descubrir otros datasets nuevos que no había contemplado. Los estándares, los modelos, los vocabularios compartidos. La principal diferencia entre ellos es el grado de detalle que aplican. La clave es llegar al compromiso entre que sean  lo más generales posible para que no sean restrictivos, pero, por otro lado, hay que concretar, se precisa que también sean específicos. Aunque hablamos mucho de datos abiertos, estos estándares también se aplican a datos protegidos que pueden ser descritos. El universo de aplicación de estos estándares es muy amplio.

3. Centrándonos en DCAT-AP-ES, ¿qué ayuda o recursos existen para que un usuario pueda implantarlo?

David Portolés: DCAT-AP-ES es un conjunto de reglas y modelos base de aplicación. Como toda norma técnica tiene una guía de aplicación y, además, hay una guía de implementación online con ejemplos, convenciones, preguntas frecuentes y espacios de discusión técnica y divulgativa. Esta guía tiene un propósito muy claro, la idea es crear una comunidad en torno a esta norma técnica, con el propósito de generar una base de conocimiento accesible para todos, un canal de soporte transparente y abierto para todo aquel que quiera participar.

Manuel Ángel Jañez: Los recursos disponibles no parten de  cero. Todo está alineado con iniciativas europeas como SEMIC, que impulsa la interoperabilidad semántica en la UE. Queremos una herramienta viva y dinámica que evolucione con las necesidades, bajo un enfoque participativo, con buenas prácticas, debates, armonización del perfil, etc. En definitiva, se busca que el modelo sea útil, sea robusto, fácil de mantener en tiempo y suficientemente flexible para que cualquier persona pueda participar en su mejora.

4. ¿Hay alguna implementación temática ya existente en DCAT-AP-ES?

Manuel Ángel Jáñez:  Sí, se han dado pasos importantes en esa dirección. Por ejemplo, ya se ha incluido el modelo de conjuntos de alto valor, clave para datos relevantes para la economía o sociedad, útiles para IA, por ejemplo.  DCAT-AP-ES se inspira en perfiles como DCAT-AP v2.1.1 (2022) que incorpora algunas mejoras semánticas, pero aún quedan implementaciones temáticas por incorporar en DCAT-AP-ES, como las series de datos. La idea es que las extensiones temáticas permitan  la modelización para conjuntos de datos específicos.

David Portolés: Como dice Manu, la idea es que sea un modelo vivo.  Las futuras extensiones posibles son:

  • Datos geográficos: GeoDCAT-AP (europeo).
  • Datos estadísticos: StatDCAT-AP.

Además, habrá que tener en cuenta futuras directivas sobre datos de alto valor.

5. ¿Y qué próximos objetivos tiene el desarrollo de DCAT-AP-ES?

David Portolés: El objetivo principal es lograr la plena adopción por parte de:

  • Proveedores: que modifiquen la forma en que o ofrecen y difunden sus metadatos relativos a sus conjuntos de datos con este nuevo paradigma.

  • Reutilizadores: que integren el nuevo perfil en sus desarrollos, en sus sistemas, y en todas las integraciones que hayan hecho hasta ahora, y que puedan hacer productos derivados mucho mejores.

Manuel Ángel Jáñez:  También mantener coherencia con estándares internacionales como DCAT-AP. Queremos seguir apostando por un modelo de gobernanza técnica ágil, participativo y alineado con tecnologías emergentes (como datos protegidos, infraestructuras de datos soberanos y espacios de datos). En resumen: que DCAT-AP-ES sea útil, flexible y preparado para el futuro.

Clips de la entrevista

1. ¿Por qué es importante catalogar los datos? 

2. ¿Cómo podemos describir datos en formatos abiertos? 

calendar icon
Entrevista

La cultura colaborativa y los proyectos ciudadanos de datos abiertos son clave para el acceso democrático a la información. Esto contribuye a un conocimiento libre que permite impulsar la innovación y empoderar a la ciudadanía.

En este nuevo episodio del pódcast de datos.gob.es, nos acompañan dos profesionales ligados a proyectos ciudadanos que han revolucionado la forma en que accedemos, creamos y reutilizamos el conocimiento. Damos la bienvenida a:

  • Florencia Claes, profesora titular y coordinadora de Cultura Libre en la Universidad Rey Juan Carlos, y ex presidenta de Wikimedia España.
  • Miguel Sevilla-Callejo, investigador del CSIC (Consejo Superior de Investigaciones Científicas) y vicepresidente de la asociación OpenStreetMap España.

Escuchar el pódcast completo

Resumen de la entrevista / Transcripción de la entrevista

1. ¿Cómo definiríais la cultura libre?

Florencia Claes: Es cualquier expresión cultural, científica, intelectual, etc. que como autoras o autores permitimos que cualquier otra persona las utilice, las aproveche, las reaproveche, las intervenga y las vuelva a lanzar a la sociedad, para que otra persona haga lo mismo con ese material.

En la cultura libre entran en juego las licencias, esos permisos de uso que nos indican qué es lo que podemos hacer con esos materiales o con esas expresiones de la cultura libre.

2. ¿Qué papel tienen los proyectos colaborativos dentro de la cultura libre?

Miguel Sevilla-Callejo: Tener unos proyectos que sean capaces de aglutinar estas iniciativas de cultura libre es muy importante. Los proyectos colaborativos son iniciativas horizontales en las que puede aportar cualquier persona. En torno a ellos se estructura un consenso para hacer crecer ese proyecto, esa cultura.

3. Los dos estáis ligados a proyectos colaborativos como son Wikimedia y OpenStreetMap. ¿Cómo impactan estos proyectos en la sociedad?

Florencia Claes: Claramente el mundo no sería el mismo sin Wikipedia. No concebimos un mundo sin Wikipedia, sin acceso libre a la información. Creo que Wikipedia está asociado a la sociedad en la que estamos actualmente. Ha construido lo que somos hoy, también como sociedad. El hecho de que sea un espacio colaborativo, abierto, libre, hace que cualquiera pueda sumarse e intervenirlo y que tenga un rigor alto.

Entonces, ¿cómo impacta? Impacta en que (va a sonar un poco cursi, pero…) podemos ser mejores personas, podemos conocer más, podemos tener más información. Impacta en que cualquier persona con acceso a internet, claro está, puede beneficiarse de sus contenidos y aprender sin tener que pasar necesariamente por un muro de pago o estar registrado en una plataforma y cambiar datos para poder apropiarse o acercarse a la información.

Miguel Sevilla-Callejo: A OpenStreetMap le llamamos la Wikipedia de los mapas, porque en muy buena parte de su filosofía está copiado o clonado de la filosofía de Wikipedia. Si os imagináis Wikipedia, lo que hace la gente es que mete artículos enciclopédicos. Lo que hacemos en OpenStreetMap es meter datos espaciales. Construimos un mapa de manera colaborativa y esto supone que la página openstreetmap.org, que es donde podrías ir a mirar los mapas, es solo la punta del iceberg. Es ahí donde OpenStreetMap está un poco más difuso y oculto, pero la mayor parte de las páginas web, mapas e información espacial que estáis viendo en Internet, muy probablemente en su gran mayoría, procede de los datos de la gran base de datos libre, abierta y colaborativa que es OpenStreetMap.

Muchas veces estáis leyendo un periódico y veis un mapa y esos datos espaciales están sacados de OpenStreetMap. Incluso se utilizan en agencias: en la Unión Europea, por ejemplo, se está utilizando OpenStreetMap. Se usa en información de empresas privadas, de administraciones públicas, particulares, etc. Y, además, al ser libre se reaprovecha constantemente.

A mí me gusta traer siempre a colación proyectos que hemos hecho aquí, en la ciudad de Zaragoza. Hemos generado toda la red peatonal urbana, o sea, todas las aceras, los pasos de cebra, las zonas por las que se puede circular... y con esto se hace un cálculo de cómo te puedes mover por la ciudad andando. Esta información de las aceras, los pasos de peatones y demás no lo encuentras en un sitio web porque no es muy lucrativo, como podría ser por ejemplo moverse en coche, y se puede aprovechar, por ejemplo -que es lo que hicimos en algunos trabajos que dirigí yo en la universidad- para poder saber cómo de diferente es la movilidad con personas invidentes, en silla de ruedas o con un carrito de un bebé.

4. Nos estáis contando que estos proyectos son abiertos. Si un ciudadano nos está escuchando ahora mismo y quiere participar en ellos, ¿qué debe hacer para participar? ¿Cómo puede formar parte de estas comunidades?

Florencia Claes: Lo interesante de estas comunidades es que no necesitas asociarte o ligarte formalmente a ellas para poder contribuir. En Wikipedia simplemente entras a la página de Wikipedia y te haces un usuario, o no, y ya puedes editar. ¿Qué diferencia hay entre hacer tu usuario o no? En que vas a poder tener mejor acceso a las contribuciones que has hecho, pero no necesitamos estar asociados o registrados en ningún sitio para poder editar Wikipedia.

Si hay a nivel local o regional grupos relacionados con la Fundación Wikimedia que reciben ayudas y subvenciones para hacer encuentros o actividades. Ahí está bueno, porque se conoce gente con las mismas inquietudes y que suelen ser muy entusiastas con respecto al conocimiento libre. Como dicen mis amigos, somos una panda de frikis que nos hemos encontrado y sentimos que tenemos un grupo de pertenencia en el que compartimos y planificamos cómo cambiar el mundo.

Miguel Sevilla-Callejo: En OpenStreetMap sucede prácticamente igual, o sea, lo puedes hacer en solitario. Es verdad que hay un poco de diferencia con respecto a Wikipedia. Si vas a la página de openstreetmap.org, en la que tenemos toda la documentación -que es wiki.OpenStreetMap.org- tú puedes entrar ahí y tienes toda la documentación.

Sí que es verdad que para editar en OpenStreetMap sí que se necesita un usuario para hacer un mejor seguimiento de los cambios que hace la gente en el mapa. Si fuera anónimo podría llegar a haber más problema, porque no es como los textos en Wikipedia. Pero como ha dicho Florencia, es mucho mejor si te asocias a una comunidad.

Tenemos grupos locales en diferentes sitios. Una de las iniciativas que hemos reactivado últimamente es la asociación OpenStreetMap España, en la que, como decía Florencia, estamos un grupo a los que nos gustan los datos y las herramientas libres, y ahí compartimos todo el conocimiento. Se acerca mucha gente y nos dicen "oye, acabo de entrar en OpenStreetMap, este proyecto me gusta, ¿cómo puedo hacer esto? ¿cómo puedo hacer lo otro?" Y bueno, siempre es mucho mejor hacerlo con otros colegas que hacerlo tú solo. Pero lo puede hacer cualquiera.

5. ¿Qué desafíos os habéis encontrado a la hora de implementar estos proyectos colaborativos y garantizar su sostenibilidad en el tiempo? ¿Cuáles son los principales retos, tanto técnicos como sociales, a los que hacéis frente?

Miguel Sevilla-Callejo: Uno de los problemas que encontramos en todos estos movimientos que son tan horizontales y en los que hay que buscar consensos para saber hacia dónde avanzar, es que al final es relativamente problemático lidiar con una comunidad muy diversa. Siempre surgen roces, diferentes puntos de vista... Esto yo creo que es lo más problemático. Lo que sucede es que, en el fondo, como nos mueve a todos el entusiasmo por el proyecto, terminamos llegando a acuerdos que hacen crecer el proyecto, como se puede ver en los propios Wikimedia y OpenStreetMap, que siguen creciendo y creciendo.

Desde el punto de vista técnico, para algunas cosas en concreto, tienes que tener una cierta destreza informática, pero vamos muy, muy básica. Por ejemplo, hemos hecho mapatones, que consisten en que nos reunimos en un área con ordenadores y empezamos a poner información espacial en zonas, por ejemplo, donde ha habido una catástrofe natural o algo así. La gente básicamente, sobre una imagen de satélite, va colocando casitas donde va viendo - casitas ahí en mitad del Sahel, por ejemplo, para ayuda a ONG como Médicos Sin Fronteras-. Eso es muy fácil: lo abres en el navegador, abres OpenStreetMap y enseguida, con cuatro indicaciones, eres capaz de editar y contribuir.

Sí que es verdad que, si quieres hacer cosas un poco más complejas, tienes que tener más destreza informática. Entonces sí que es verdad que siempre nos adaptamos. Hay gente que está metiendo datos en plan muy pro, incluyendo edificios, importando datos del catastro… y hay gente como hace poco una chica aquí en Zaragoza, que descubrió el proyecto y está metiendo los datos que va encontrando con una aplicación en el móvil.

Sí que de verdad encuentro un cierto sesgo de género en el proyecto. A mí eso dentro de OpenStreetMap me preocupa un poco, porque es verdad que una gran mayoría de las personas que estamos editando, incluidos a la comunidad, somos hombres y eso al final sí que se traduce en que algunos datos tienen cierto sesgo. Pero bueno, estamos trabajando en ello.

Florencia Claes: En ese sentido, en el entorno Wikimedia, también nos pasa eso. Tenemos, más o menos a nivel mundial, un 20% de mujeres participantes en el proyecto contra 80% de varones y eso hace que, por ejemplo, en el caso de Wikipedia, haya preferencia por artículos sobre futbolistas a veces. No es preferencia, sino simplemente que las personas que editan tienen esos intereses y como son más hombres, pues tenemos más futbolistas, y echamos en falta artículos relacionados, por ejemplo, con la salud de la Mujer.

Entonces sí nos enfrentamos a sesgos y nos enfrentamos a esa coordinación de la comunidad. A veces participa gente con muchos años, gente nueva… y lograr un equilibrio es importantísimo y muy difícil. Pero lo interesante es cuando logramos tener presente o recordar que el proyecto está por encima de nosotros, que estamos construyendo algo, que estamos regalando algo, que estamos participando en algo muy grande. Cuando volvemos a tomar conciencia de eso, las diferencias se tranquilizan y volvemos a centrarnos en el bien común que, al fin y al cabo, creo que es el objetivo de estos dos proyectos, tanto del entorno Wikimedia como de OpenStreetMap.

6. Como comentabais, tanto Wikimedia como OpenStreetMap son proyectos construidos por voluntarios. ¿Cómo se garantiza la calidad y precisión de los datos?

Miguel Sevilla-Callejo: Lo interesante de todo esto es que la comunidad es muy amplia y hay muchos ojos observando. Cuando hay una falta de rigurosidad en la información, tanto en Wikipedia -que lo conoce la gente más- pero también en OpenStreetMap, saltan las alarmas. Tenemos sistemas de seguimiento y es relativamente sencillo ver disfunciones en los datos. Entonces podemos actuar rápidamente. Esto da una capacidad, en OpenStreetMap en concreto, de reacción y actualización de los datos prácticamente inmediata y de resolución de aquellas problemáticas que puedan surgir también bastante rápida. Sí que es verdad que tiene que haber una persona atenta de ese lugar o de esa zona.

A mí siempre me ha gustado hablar de los datos de OpenStreetMap como una especie de - refiriendo como se hace en el software- mapa beta, que tiene lo ultimísimo, pero puede haber algunos errores mínimos. Entonces, como un mapa fuertemente actualizado y de gran calidad, se puede utilizar para muchas cosas, pero para otras por supuesto que no, porque tenemos otra cartografía de referencia que se está construyendo por la administración pública.

Florencia Claes: En el entorno Wikimedia también funcionamos así, por la masa, por la cantidad de ojos que están mirando lo que hacemos y lo que hacen otros. Cada uno, dentro de esta comunidad, va asumiendo roles. Hay roles que están pautados, como los de administradores o bibliotecarios o bibliotecarias, pero hay otros que simplemente son: a mí me gusta patrullar, entonces lo que hago es estar pendiente de los artículos nuevos y podría estar mirando los artículos que se publican a diario para ver si necesitan algún apoyo, alguna mejora o si, por el contrario, están tan mal que necesitan ser retirados de la parte principal o borrados.

La clave de estos proyectos es la cantidad de gente que participa y todo es de forma voluntaria, altruista. La pasión es muy es muy alta, el nivel de compromiso es muy alto. Entonces la gente cuida mucho esas cosas. Tanto cuando se curan datos para subir a Wikidata o se escribe un artículo en Wikipedia, cada persona que lo hace, lo hace con mucho cariño, con mucho celo. Después pasa el tiempo y está pendiente de ese material que subió, a ver cómo siguió creciendo, si se utilizó, si se enriqueció más o si por el contrario se le borró algo.

Miguel Sevilla-Callejo: Respecto a la calidad de los datos, me parece interesante, por ejemplo, una iniciativa que ha tenido ahora el Sistema de Información Territorial de Navarra. Han migrado todos sus datos para la planificación y la guía de las rutas de emergencias a OpenStreetMap, tomando sus datos. Ellos se han implicado en el proyecto, han mejorado la información, pero tomando lo que ya había [en OpenStreetMap], considerando que tenían una gran calidad y que les resultaba mucho más útil que utilizar otras alternativas, lo cual pone de manifiesto la calidad y la importancia que puede llegar a tener este proyecto.

7. Estos datos también pueden servir para generar recursos educativos abiertos, junto con otras fuentes de conocimiento. ¿En qué consisten estos recursos y qué papel juegan en la democratización del conocimiento?

Florencia Claes: Los REA, los recursos educativos abiertos, deberían ser la norma. Cada docente que genera contenidos debería ponerlos a disposición de la ciudadanía y deberían estar construidos por módulos a partir de recursos libres. Sería lo ideal.

¿Qué papel tiene el entorno Wikimedia en esto? Desde albergar información que puede ser utilizada a la hora de construir los recursos, como proporcionar espacios para realizar ejercicios o para tomar, por ejemplo, datos y hacer un trabajo con SPARQL. O sea, hay diferentes formas de abordar los proyectos Wikimedia en relación a los recursos educativos abiertos. Se puede desde intervenir y enseñarle al alumnado cómo identificar datos, cómo verificar las fuentes, hasta simplemente hacer una lectura crítica de cómo está presentada la información, cómo está curada, y hacer, por ejemplo, una valoración entre idiomas.

Miguel Sevilla-Callejo: En OpenStreetMap es muy similar. Lo interesante y único es cuál es la naturaleza de los datos. No es exactamente información en diferentes formatos como en Wikimedia. Aquí la información es esa base de datos espaciales libre que es OpenStreetMap. Entonces los límites son la imaginación.

Me acuerdo que había un compañero que iba a unas conferencias y hacía una tarta con el mapa de OpenStreetMap. Se la daba a comer a la gente y les decía: "¿Veis? Estos son mapas que hemos podido comer porque son libres". Para hacer cartografía más seria o más informal o lúdica, el límite es solo tu imaginación. Sucede exactamente igual que con Wikipedia.

8. Para acabar, ¿cómo se puede motivar a los ciudadanos y organizaciones para que participen en la creación y mantenimiento de proyectos colaborativos ligados a la cultura libre y datos abiertos?

Florencia Claes: Yo creo que hay que hacer claramente lo que decía Miguel de la tarta. Hay que hacer una tarta e invitar a la gente a comer tarta. Hablando en serio sobre qué podemos hacer para motivar a la ciudadanía a reutilizar estos datos, yo creo, sobre todo por experiencia personal y por los grupos con los que yo he trabajado en estas plataformas, que la interfaz sea amigable es un paso importantísimo.

En Wikipedia en 2015 se activó el editor visual. El editor visual hizo que nos incorporamos muchísimas más mujeres a editar Wikipedia. Antes se editaba solo en código y el código, pues a primera vista puede parecer hostil o distante o “eso no va conmigo”. Entonces, tener interfaces donde la gente no necesite tener demasiados conocimientos para saber que este es un paquete que tiene tal tipo de datos y lo voy a poder leer con tal programa o lo voy a poder volcar en tal cosa y que sea sencillo, que sea amigable, que sea atractivo… Eso creo que nos va a quitar muchísimas barreras y que va a dejar de lado esa idea de que el dato es para los informáticos. Y creo que los datos van más allá, que realmente podemos aprovecharlos todas y todos de muy diferentes formas. Entonces creo que es una de las barreras que deberíamos vencer.

Miguel Sevilla-Callejo: A nosotros no sucedió que hasta más o menos 2015 (perdóname si no es exactamente la fecha), teníamos un interfaz que era bastante horrible, casi como la edición de código que tenéis en Wikipedia, o peor, porque había que meter los datos sabiendo el etiquetado, etc. Era muy complejo. Y ahora tenemos un editor que básicamente tú estás en OpenStreetMap, le das a editar y sale un interfaz súper sencillo. Ya ni siquiera hay que poner etiquetado en inglés, está todo traducido. Hay muchas cosas preconfiguradas y la gente puede meter los datos inmediatamente y de una manera muy sencilla. Entonces eso lo que ha permitido es que se acerque mucha más gente al proyecto.

Otra cosa muy interesante, que también pasa en Wikipedia, aunque es verdad que está mucho más centrado en la interfaz web, es que en torno a OpenStreetMap se ha generado un ecosistema de aplicaciones y servicios que ha posibilitado que, por ejemplo, aparezcan aplicaciones móviles que, de una manera muy rápida, muy sencilla, permiten meter los datos directamente a pie sobre el terreno. Y esto posibilita que la gente pueda meter los datos de una manera sencilla.

Quería de todas maneras incidir otra vez, aunque ya sé que estamos reiterando todo el rato en la misma circunstancia, pero creo que es importante comentarlo, porque creo que eso se nos olvida dentro de los proyectos: necesitamos que la gente sea consciente otra vez de que los datos son libres, que pertenecen a la comunidad, que no está en manos de una empresa privada, que se puede modificar, que se pueden transformar, que detrás lo que hay es una comunidad de gente voluntaria, libre, pero que eso no quita calidad a los datos, y que llega a todos lados. Para que la gente se acerque y no nos vean como un bicho raro. Yo creo que Wikipedia está mucho más integrado dentro del conocimiento de la sociedad y ahora con la inteligencia artificial mucho más, pero nos pasa en OpenStreetMap, que te miran así como diciendo “pero, ¿qué me estás contando si yo utilizo otra aplicación en el móvil?” o está utilizando la nuestra, está utilizando datos de OpenStreetMap sin saberlo. Entonces nos falta acercarnos más a la sociedad, que nos conozcan más.

Volviendo al tema de la asociación, ese es uno de nuestros objetivos, que la gente nos conozca, que sepa que esos datos son abiertos, que se pueden transformar, los pueden utilizar y que son libres de tenerlos para construir, como decía antes, lo que quieran y el límite es su imaginación.

Florencia Claes: Creo que deberíamos integrar de alguna forma mediante gamificación, mediante juegos en el aula, la incorporación de mapas, de datos dentro del aula, dentro del día a día en la escolarización. Creo que ahí tendríamos un punto a favor. Dado que estamos dentro de un ecosistema libre, podemos integrar en las mismas páginas de los repositorios de datos herramientas de visualización o de reaprovechamiento que creo que harían todo bastante más amable y daría cierto poder a la ciudadanía, los empoderaría de tal forma que se animaría a utilizarlos.

Miguel Sevilla-Callejo: Es interesante que tenemos cosas que conectan ambos proyectos (también se nos olvida a veces a la gente de OpenStreetMap y de Wikipedia), que hay datos que podemos intercambiar, coordinar y sumar. Y eso también se sumaría a lo que acabas de decir.

Clips de la entrevista

1. ¿En qué consisteOpenStreetMap?

 

 

2. ¿Cómo ayuda Wikimedia en la creación de Recursos Educativos Abiertos?

2. 

calendar icon
Entrevista

El conocimiento abierto es aquel que puede ser reutilizado, compartido y mejorado por otros usuarios e investigadores sin restricciones notables. Esto incluye datos, publicaciones académicas, software y otros recursos disponibles. Para profundizar en esta temática contamos con representantes de dos instituciones cuyo objetivo es impulsar la producción científica y que esta sea dispuesta en abierto para su reutilización:

  • Mireia Alcalá Ponce de León, técnica de recursos de información del área de aprendizaje, investigación y ciencia abierta del Consorcio de Servicios Universitarios de Cataluña (CSUC).
  • Juan Corrales Corrillero, gestor del repositorio de datos del Consorcio Madroño.

Escuchar el pódcast completo

Resumen / Transcripción de la entrevista

1. ¿Podéis explicar brevemente a qué se dedican las instituciones para las que trabajáis?

Mireia Alcalá: El CSUC es el Consorcio de Servicios Universitarios de Cataluña y es una organización que tiene como objetivo ayudar a universidades y centros de investigación que están en Cataluña a mejorar su eficiencia a través de proyectos colaborativos. Estamos hablando de unas 12 universidades y casi unos 50 centros de investigación.
Ofrecemos servicios en muchas áreas: cálculo científico, administración electrónica, repositorios, administración en la nube, etc. y también ofrecemos servicios bibliotecarios y de ciencia abierta, que es lo que nos toca más de cerca. En el área de aprendizaje, investigación y ciencia abierta, que es donde estoy trabajando, lo que hacemos es intentar facilitar la adopción de nuevas metodologías por parte del sistema universitario y de investigación, sobre todo, en la ciencia abierta, y damos apoyo a la gestión de datos de investigación.

Juan Corrales: El Consorcio Madroño es un consorcio de bibliotecas universitarias de la Comunidad de Madrid y de la de la UNED (Universidad Nacional de Educación a Distancia) para la cooperación bibliotecaria. Buscamos incrementar la producción científica de las universidades que forman parte del consorcio y también incrementar la colaboración entre las bibliotecas en otros ámbitos. Estamos también, al igual que el CSUC, muy involucrados con la ciencia abierta: en promocionar la ciencia abierta, en proporcionar infraestructuras que la faciliten, no solamente para los miembros del Consorcio Madroño, sino también de forma global. Aparte, también damos otros servicios bibliotecarios y creamos estructuras para ellos.

2. ¿Qué requisitos debe de cumplir una investigación para qué se considere abierta?

Juan Corrales: Para que una investigación se considere abierta hay muchas definiciones, pero quizás una de las más importantes es la que da la Estrategia Nacional de Ciencia Abierta que tiene seis pilares.

Uno de ellos es que hay que poner en acceso abierto tanto los datos de investigación como las publicaciones, los protocolos, las metodologías... Es decir, todo tiene que estar accesible y, en principio, sin barreras para todo el mundo, no solamente para los científicos, no solamente para las universidades que pueden pagar el acceso a estos datos de investigación o a estas publicaciones.

También es importante utilizar plataformas de código abierto que podamos personalizar. El código abierto es software que cualquiera, en principio con conocimientos, puede modificar, personalizar y redistribuir, como contrapunto al software privado de muchas empresas, que no permite hacer todas estas gestiones.
Otro punto importante, aunque este estemos todavía lejos de llegar en la mayoría de las instituciones, es permitir la revisión por pares abiertas, porque permite saber quién ha hecho una revisión, con qué comentarios, etc. Se puede decir que permite volver a hacer el ciclo de revisión por pares y mejorarlo.

Un último punto es la ciencia ciudadana: permitir a los ciudadanos de a pie formar parte de la ciencia, que no solamente se haga dentro de las universidades o institutos de investigación.
Y otro punto importante es añadir nuevas formas de medir la calidad de la ciencia.

Mireia Alcalá: Estoy de acuerdo con lo que dice Juan. A mí también me gustaría añadir que, para que un proceso de investigación se considere abierto, lo tenemos que mirar globalmente. Es decir, que incluya todo el ciclo de vida de los datos. No podemos hablar de que una ciencia es abierta si solo nos fijamos en que los datos al final estén en abierto. Ya desde el principio de todo el ciclo de vida del dato, es importante que se usen plataformas y se trabaje de una manera más abierta y colaborativa.

3. ¿Por qué es importante que universidades y centros de investigación pongan sus estudios y datos a disposición de la ciudadanía?

Mireia Alcalá: Yo creo que es clave que las universidades y los centros compartan sus estudios, porque gran parte de la investigación, tanto aquí en España como a nivel europeo o mundial, se financia con dinero público. Por lo tanto, si la sociedad es quien está pagando la investigación, lo lógico es que también se beneficie de sus resultados. Además, abrir el proceso de investigación puede ayudar a que sea más transparente, más responsable, etc.

Se ha visto que gran parte de la investigación hecha hasta hoy en día no es reutilizable, ni reproducible. ¿Esto qué quiere decir? Que los estudios que se han hecho, casi en el 80% de los casos otra persona no puede cogerlo y volver a utilizar esos datos. ¿Por qué? Porque no siguen los mismos estándares, las mismas maneras, etc. Por lo tanto, yo creo que tenemos que hacer que sea extensivo a todos los sitios y un ejemplo claro está en época de pandemia. Con la COVID-19, investigadores de todo el mundo trabajaron juntos, compartiendo datos y hallazgos en tiempo real, trabajando de la misma manera, y se vio que la ciencia fue mucho más rápida y eficiente.

Juan Corrales: Los puntos claves ya los ha tocado todos Mireia. Aparte, se podría añadir que acercar la ciencia a la sociedad puede hacer que todos los ciudadanos sintamos que la ciencia es algo nuestro, no solamente de científicos o universitarios. Es algo en lo que podemos participar y esto puede ayudar también a frenar quizás los bulos, las fake news, a tener una visión más exhaustiva de las noticias que nos llegan a través de redes sociales y a poder filtrar qué puede ser real y qué puede ser falso.

4. ¿Qué investigaciones deben publicarse en abierto?

Juan Corrales: Ahora mismo, según la ley que tenemos en España, la última Ley de ciencia, deben publicarse en abierto todas las publicaciones que están financiadas principalmente por fondos públicos o en las que participan instituciones públicas. Esto realmente no ha tenido mucha repercusión hasta el año pasado, porque, aunque la ley salió hace dos años, en la anterior también se decía, también hay una ley de la Comunidad de Madrid que dice lo mismo… pero desde el año pasado se está teniendo en cuenta en la evaluación que hace la ANECA (la Agencia de Evaluación de la Calidad) a los investigadores. Desde entonces casi todos los investigadores han tenido como algo prioritario publicar sus datos e investigaciones en abierto. Sobre todo, con los datos era algo que no se estaba haciendo prácticamente hasta ahora.

Mireia Alcalá: A nivel estatal es como dice Juan. Nosotros a nivel autonómico también tenemos una ley del 2022, la Ley de la ciencia, que básicamente dice exactamente lo mismo que la ley española. Pero a mí también me gusta que la gente conozca que no solo tenemos que tener en cuenta la legislación estatal, sino las convocatorias de donde se consigue el dinero para financiar los proyectos. Básicamente en Europa, en los programas marco como el Horizon Europe, se dice claramente que, si tú recibes una financiación de la Comisión Europea, tendrás que hacer un plan de gestión de datos al inicio de tu investigación y publicar los datos siguiendo los principios FAIR.

5.Entre otras cuestiones, tanto el CSUC como el Consorcio Madroño se encargan de dar soporte a entidades e investigadores que quieren poner sus datos a disposición de la ciudadanía, ¿cómo debe ser un proceso de apertura de datos de datos de investigación? ¿Qué retos son los más habituales y cómo los solucionan?

Mireia Alcalá: En nuestro repositorio que se llama RDR (de Repositori de Dades de Recerca), son básicamente las instituciones participantes las que se encargan de dar apoyo al personal investigador. El investigador llega al repositorio cuando ya está en la fase final de la investigación y necesita publicar para ayer los datos y entonces todo es mucho más complejo y lento. Se tarda más en verificar estos datos y hacer que sean encontrables, accesibles, interoperables y reutilizables.
En nuestro caso particular, tenemos una checklist que pedimos que todo dataset cumpla para garantizar este mínimo de calidad en los datos, para que se puedan reutilizar. Estamos hablando de que tenga identificadores persistentes como ORCID para el investigador o ROR para identificar las instituciones, que tenga documentación que explique cómo reutilizar esos datos, que tenga una licencia, etc. Como tenemos este checklist, los investigadores, a medida que van depositando, van mejorando sus procesos y empiezan a trabajar y a mejorar la calidad de los datos desde el principio. Es un proceso lento.

El principal reto, yo creo que es que el investigador asuma que eso que él tiene son datos, porque la mayoría lo desconoce. La mayoría de los investigadores creen que los datos son unos números que ha sacado una máquina que mide la calidad del aire, y desconoce que un dato puede ser una fotografía, una lámina de una excavación arqueológica, un sonido captado en una determinada atmósfera, etc. Por lo tanto, el principal reto es que todo el mundo entienda qué es un dato y que su dato puede ser valioso para otros.
¿Y cómo lo solucionamos? Intentando hacer mucha formación, mucha sensibilización. En los últimos años, desde el Consorcio, hemos trabajado para formar al personal de curación de datos, el que se dedica a ayudar a los investigadores directamente a fairificar estos datos. También estamos empezando a hacer sensibilización directamente con los investigadores para que usen las herramientas y entiendan un poco todo este nuevo paradigma que es la gestión de datos.

Juan Corrales: En el Consorcio Madroño, hasta noviembre, la única forma de abrir datos era que los investigadores pasaran un formulario con los datos y sus metadatos a los bibliotecarios, y eran los bibliotecarios los que los subían para asegurar que eran FAIR. Desde noviembre, también permitimos a los investigadores que suban los datos directamente al repositorio, pero no se publican hasta que han sido revisados por bibliotecarios expertos, que verifican que los datos y metadatos tienen calidad. Es muy importante que los datos estén bien descritos para que puedan ser fácilmente encontrables, reutilizables e identificables.

En cuanto a los retos, están todos los que ha dicho Mireia - que los investigadores muchas veces no saben que tienen datos- y también, aunque la ANECA ha ayudado mucho con las nuevas obligaciones a que se publiquen datos de investigación, muchos investigadores quieren poner sus datos corriendo en los repositorios, sin tener en cuenta que tienen que ser datos de calidad, que no basta con ponerlos, sino que es importante que esos datos después se puedan reutilizar.

6. ¿Qué actividades y herramientas proporcionáis desde vuestras instituciones u otras similares para ayudar a las organizaciones a alcanzar el éxito en esta tarea?

Juan Corrales: Desde Consorcio Madroño, el propio repositorio que utilizamos, la herramienta donde se suben los datos de investigación, facilita que los datos sean FAIR, porque ya proporciona identificadores únicos, plantillas para los metadatos bastante completas que se pueden personalizar, etc. También tenemos otra herramienta que ayuda a crear los planes de gestión de datos para que los investigadores, para que antes de crear sus datos de investigación, empiecen a planificar cómo van a trabajar con ellos. Eso es algo muy importante y que desde las instituciones europeas se está impulsando desde hace ya mucho, y también desde la Ley de la ciencia y la Estrategia Nacional de Ciencia Abierta.
Después, más que las herramientas, es muy importante también la revisión por parte de bibliotecarios expertos.

Hay otras herramientas que ayudan a evaluar la calidad de un dataset, de los datos de investigación, como son Fair EVA o de F-Uji, pero lo que hemos comprobado es que esas herramientas al final lo que están evaluando más es la calidad del repositorio, del software que se está utilizando, y de los requisitos que estás pidiendo a los investigadores para subir estos metadatos, porque todos nuestros datasets tienen una evaluación bastante alta y bastante similar. Entonces, para lo que sí nos sirven esas herramientas es para mejorar tanto los requisitos que estamos poniendo a nuestros datasets, a nuestros conjuntos de datos, como para poder mejorar las herramientas que tenemos, en este caso el software de Dataverse, que es el que estamos utilizando.

Mireia Alcalá: A nivel de herramientas y actividades vamos a la par, porque con el Consorcio Madroño tenemos relación desde hace años, e igual que ellos tenemos todas estas herramientas que ayudan y facilitan el poner los datos de la mejor manera posible ya desde el principio, por ejemplo, con la herramienta para hacer planes de gestión de datos.

Aquí en el CSUC se ha trabajado también en los últimos años de una manera muy intensa en poder cerrar este gap en el ciclo de vida de los datos, abarcando temas de infraestructuras, almacenaje, cloud, etc. para que, en el momento que se analicen y se gestionen los datos, los investigadores tengan también un sitio donde poder ir. Después del repositorio, ya pasamos a todos los canales y portales que permiten difundir y visibilizar toda esta ciencia, porque no tiene sentido que hagamos repositorios y estén allí a modo de silo, sino que tienen que estar interconectados. Desde hace ya muchos años se ha trabajado muy bien en hacer protocolos de interoperabilidad y en seguir los mismos estándares. Por lo tanto, los datos tienen que estar disponibles en otros sitios, y tanto el Consorcio Madroño como nosotros estamos en todos los sitios posibles y más.

7. ¿Nos podéis contar un poco más sobre estos repositorios que ofrecéis? Además de ayudar a los investigadores a poner sus datos a disposición de la ciudadanía, también ofrecéis un espacio, unos repositorios digitales donde albergar estos datos, para que puedan ser localizados por los usuarios.

Mireia Alcalá: Si hablamos específicamente de datos de investigación, como tenemos un mismo repositorio tanto el Consorcio Madroño como nosotros, vamos a dejar que Juan nos explique el software y las especificaciones, y yo me voy a centrar en otros repositorios de producción científica que también ofrece el CSUC. Aquí lo que hacemos es coordinar diferentes repositorios cooperativos según la tipología del recurso que contiene. Por lo tanto, tenemos TDX para tesis, RECERCAT para documentos de investigación, RACO para revista científicas o MACO, para monografías en acceso abierto. En función de tipo de producto, disponemos de un repositorio concreto, porque no todo puede estar en un mismo sitio ya que cada output de la investigación tiene unas particularidades diferentes. Aparte de los repositorios, que son cooperativos, también tenemos otros espacios que hacemos para instituciones concretas, ya sea con una solución más estándar o algunas funcionalidades más personalizadas. Pero básicamente es esto: tenemos para cada tipo de output que hay en la investigación, un repositorio específico que se adapta a cada una de las particularidades de estos formatos.

Juan Corrales: En el caso de Consorcio Madroño, nuestro repositorio se llama e-cienciaDatos, pero está basado en el mismo software que el repositorio del CSUC, que es el Dataverse. Es un software de código abierto, con lo cual puede ser mejorado y personalizado. Aunque en principio el desarrollo está gestionado desde la Universidad de Harvard, en Estados Unidos, estamos participando en su desarrollo instituciones de todo el mundo -no sé si treinta y tantos países hemos participado ya en su desarrollo-.
Entre otras cosas, por ejemplo, las traducciones al catalán la han hecho desde el CSUC, la traducción al español la hemos hecho desde el Consorcio Madroño y también hemos participado en otros pequeños desarrollos. La ventaja que tiene este software es que facilita mucho que los datos sean FAIR y compatible con otros puntos que tienen mucha más visibilidad, porque, por ejemplo, el CSUC es mucho más grande, pero en el Consorcio Madroño estamos seis universidades, y es raro que alguien vaya a buscar un dataset en el Consorcio Madroño, en e-cienciaDatos, directamente. Lo normal es que lo busquen desde Google o un portal europeo o internacional. Con estas facilidades que tiene Dataverse, lo pueden buscar desde cualquier sitio y pueden terminar encontrando los datos que tenemos en el Consorcio Madroño o en el CSUC.

8. ¿Qué otras plataformas con datos en abierto de investigaciones, a nivel español o europeo, recomiendan?

Juan Corrales:  Por ejemplo, a nivel español está la FECYT, la Fundación Española de Ciencia y Tecnología, que tiene un recolector que recoge los datos de investigación de todas las instituciones españolas prácticamente. Ahí aparecen todas las publicaciones de todas las instituciones: de Consorcio Madroño, de CSUC y muchísimas más.
Luego, en concreto para datos de investigación, hay muchas investigaciones que conviene ponerlas en un repositorio temático, porque es donde van a buscar los investigadores de esa rama de la ciencia. Tenemos alguna herramienta que ayuda a elegir el repositorio temático. A nivel europeo está Zenodo, que tiene mucha visibilidad, pero no tiene el apoyo de calidad de los datos del CSUC o el Consorcio Madroño. Y eso es algo que se nota muchísimo a nivel de reutilización después.

Mireia Alcalá: A nivel nacional, fuera de las iniciativas de Consorcio Madroño y la nuestra, los repositorios de datos aún no están muy extendidos. Conocemos algunas iniciativas en desarrollo, pero todavía es pronto para ver sus resultados. Sin embargo, sí que conozco algunas universidades que han adaptado sus repositorios institucionales para poder también añadir datos. Y aunque esto es una solución válida para aquellas que no tengan más opción, se ha visto que los softwares utilizados en repositorios que no están diseñados para gestionar las particularidades de los datos - que puede ser la heterogeneidad, el formato, la diversidad, el gran tamaño, etc.-. quedan un poco cojos. Después, como decía Juan, a nivel europeo, sí que está establecido que Zenodo es el repositorio multidisciplinario y multiformato, que nace a raíz de un proyecto europeo de la Comisión. Coincido con él que, como es un repositorio de autoarchivo y autopublicación - es decir, yo Mireia Alcalá puedo ir en cinco minutos, poner cualquier documento que tengo allí, nadie se lo ha mirado, pongo los mínimos metadatos que me piden y lo publico-, está claro que la calidad es muy variable. Hay cosas que realmente son utilizables y están perfectas, pero hay otras que necesitan un poco más de cariño.

Como decía Juan, también a nivel disciplinar es importante destacar que, en todas esas áreas que tengan un repositorio disciplinar, los investigadores tienen que ir allí, porque es donde van a poder usar sus metadatos más adecuados, donde todo el mundo trabajará de la misma manera, donde todo el mundo sabrá dónde buscar esos datos… Para quien tenga interés existe un directorio que se llama re3data, que es básicamente un directorio de todos estos repositorios multidisciplinares y disciplinares. Por lo tanto, es un buen sitio para quien tenga interés y no conozca qué hay en su disciplina. Que vaya allí, que es un buen recurso.

9. ¿Qué acciones consideráis como prioritarias a realizar desde las instituciones públicas de cara a promover el conocimiento abierto?

Mireia Alcalá: Yo básicamente lo que diría es que las instituciones públicas deben centrarse en hacer y establecer políticas claras sobre ciencia abierta, porque es verdad que hemos avanzado mucho en los últimos años, pero hay veces que los investigadores están un poco desconcertados. Y aparte de las políticas, sobre todo es ofrecer incentivos a toda la comunidad investigadora, porque hay mucha gente que está haciendo el esfuerzo de cambiar su manera de trabajar para impregnarse de la ciencia abierta y a veces no ve cómo revierte todo ese esfuerzo de más que está haciendo en cambiar su manera de trabajar para hacerlo de esta manera. O sea que yo diría esto: políticas e incentivos.

Juan Corrales: Desde mi punto de vista, las políticas teóricas que tenemos ya a nivel nacional, a nivel autonómico, suelen ser bastante correctas, bastante buenas. El problema es que muchas veces no se ha intentado hacerlas cumplir. Hasta ahora, por lo que hemos visto por ejemplo con la ANECA -que ha promocionado el uso de los repositorios de datos o de artículos de investigación-, no se han empezado a utilizar de forma masiva realmente. O sea, que los incentivos son necesarios, que no sea solamente por obligación. Hay que convencer, como ha dicho también Mireia, a los investigadores, que vean como algo suyo el publicar en abierto, que es algo que les beneficia tanto a ellos como a toda la sociedad. Lo que creo que eso más importante es eso: la concienciación a los investigadores.

Clips de la entrevista

1. ¿Por qué deben universidad e investigadores compartir sus estudios en formatos abiertos?  

2. ¿Qué requisitos debe cumplir una investigación para que se considere abierta?

calendar icon
Entrevista

¿Sabías que las habilidades de ciencia de datos están entre las más demandadas por las empresas? En este pódcast, te vamos a contar cómo puedes formarte en este campo, de manera autodidacta. Para ello, contaremos con dos expertos en ciencia de datos:

  • Juan Benavente, ingeniero industrial e informático con más de 12 años de experiencia en innovación tecnológica y transformación digital. Además, lleva años formando a nuevos profesionales en escuelas tecnológicas, escuelas de negocio y universidades.
  • Alejandro Alija, doctor en física, científico de datos y experto en transformación digital. Además de su amplia experiencia profesional enfocada en el Internet of Things (internet de las cosas), Alejandro también trabaja como profesor en diferentes escuelas de negocio y universidades.

Escuchar el pódcast completo

Resumen / Transcripción de la entrevista

1. ¿Qué es la ciencia de datos? ¿Por qué es importante y para qué nos puede servir? 

Alejandro Alija: La ciencia de datos podría definirse como una disciplina cuyo principal objetivo es entender el mundo, los procesos propios de un negocio y de la vida, analizando y observando los datos. En los últimos 20 años ha cobrado una relevancia excepcional debido a la explosión en la generación de datos, principalmente por la irrupción de internet y del mundo conectado.

Juan Benavente:  El término ciencia de datos ha ido evolucionando desde su creación. Hoy, un científico de datos es la persona que está trabajando en el nivel más alto en análisis de datos, frecuentemente asociado con la construcción de algoritmos de machine learning o inteligencia artificial para empresas o sectores específicos, como predecir u optimizar la fabricación en una planta.

La profesión está evolucionando rápidamente, y probablemente en los próximos años se vaya fragmentando. Hemos visto aparecer nuevos roles como ingenieros de datos o especialistas en MLOps. Lo importante es que hoy cualquier profesional, independientemente de su área, necesita trabajar con datos. No cabe duda de que cualquier posición o empresa requiere análisis de datos, cada vez más avanzados. Da igual si estás en marketing, ventas, operaciones o en la universidad. Cualquiera hoy en día está trabajando con datos, manipulándolos y analizándolos. Si además aspiramos a la ciencia de datos, que sería el mayor nivel de expertise, estaremos en una posición muy beneficiosa. Pero, sin duda, recomendaría a cualquier profesional que tenga esto en radar.

2. ¿Cómo os iniciasteis en la ciencia de datos y qué hacéis para manteneros actualizados? ¿Qué estrategias recomendaríais tanto para principiantes como para perfiles más experimentados?

Alejandro Alija: Mi formación básica es en física, e hice mi doctorado en ciencia básica. En realidad, podría decirse que cualquier científico, por definición, es un científico de datos, porque la ciencia se basa en formular hipótesis y demostrarlas con experimentos y teorías. Mi relación con los datos comenzó temprano en la academia. Un punto de inflexión en mi carrera fue cuando empecé a trabajar en el sector privado, específicamente en una compañía de gestión medioambiental que se dedica a medir y observar la contaminación atmosférica. El medio ambiente es un campo que tradicionalmente es gran generador de datos, especialmente por ser un sector regulado donde las administraciones y empresas privadas están obligadas, por ejemplo, a registrar los niveles de contaminación atmosférica en determinadas condiciones. Encontré series históricas de hasta 20 años de antigüedad que estaban a mi disposición para analizar. A partir de ahí empezó mi curiosidad y me especialicé en herramientas concretas para analizar y entender lo que está ocurriendo en el mundo.

Juan Benavente: Yo me identifico con lo que ha comentado Alejandro porque tampoco soy informático. Me formé en ingeniería industrial y aunque la informática es uno de mis intereses, no fue mi base. A diferencia, hoy en día,  sí veo que se están formando más especialistas desde la universidad. Actualmente, un científico de datos tiene muchas skills a la espalda como cuestiones de estadística, matemáticas y la capacidad de entender todo lo que pasa en el sector. Yo he ido adquiriendo estos conocimientos en base a la práctica. Sobre cómo mantenerse actualizado, yo creo que, en muchos casos, puedes estar en contacto con empresas que están innovando en este campo. También en eventos sectoriales o tecnológicos se puede aprender mucho. Yo empecé en las smart cities y he ido pasando por el mundo industrial hasta aprender poco a poco.

Alejandro Alija: Por añadir otra fuente en la que mantenerse actualizado. A parte de las que ha comentado Juan, creo que es importante identificar lo que llamamos outsiders, los fabricantes de tecnologías, los actores del mercado. Son una fuente de información muy útil para estar actualizado: identificar sus estrategias de futuros y por qué apuestan.

3. Pongámonos en el caso hipotético de que alguien con pocos o nulos conocimientos técnicos, quiera aprender ciencia de datos, ¿por dónde empieza?

Juan Benavente: En formación, me he encontrado perfiles muy diferentes: desde gente que acabe de salir de la carrera hasta perfiles que se han formado en ámbitos muy diferentes y encuentran en la ciencia de datos una oportunidad para transformarse y dedicarse a esto. Pensando en alguien que está empezando, creo que lo mejor es poner en práctica tus conocimientos. En proyectos en los que he trabajado definíamos la metodología en tres fases: una primera fase más de aspectos teóricos teniendo en cuenta matemáticas, programación y todo lo que necesita saber un científico de datos; una vez tengas esas bases, cuanto antes empieces a trabajar y practicar esos conocimientos, mejor. Creo que la habilidad agudiza el ingenio y, tanto para estar actualizado, como para formarte e ir adquiriendo conocimiento útil, cuanto antes entres en proyecto, mejor. Y más, hablando de un mundo que se actualiza tan recurrentemente. Estos últimos años, la aparición de la IA generativa ha supuesto otras oportunidades. En estas herramientas también hay oportunidades para nuevos perfiles que quieran formarse. Aunque no seas experto en programación tienes herramientas que te puedan ayudar a programar, y lo mismo te puede suceder en matemáticas o estadística.

Alejandro Alija: Por complementar un poco lo que dice Juan desde una perspectiva diferente. Creo que vale la pena destacar la evolución de la profesión de ciencia de datos. Recuerdo cuando se hizo famoso aquel paper en el que se hablaba de "la profesión más sexy del mundo", que se volvió muy viral, aunque luego las cosas se fueron ajustando. Los primeros pobladores del mundo de la ciencia de datos no venían tanto de ciencias de la computación o informática. Eran más los outsiders: físicos, matemáticos, con bases robustas en matemáticas y física, e incluso algunos ingenieros que por su trabajo y desarrollo profesional terminaban utilizando muchas herramientas del ámbito informático. Poco a poco se ha ido balanceando. Ahora es una disciplina que sigue teniendo esas dos vertientes: personas que vienen del mundo de la física y matemáticas hacia los datos más básicos, y personas que vienen con conocimientos de programación. Cada uno sabe lo que tiene que balancear de su caja de herramientas. Pensando en un perfil junior que esté empezando, creo que una cosa muy importante - y así lo vemos cuando damos clase - es la capacidad de programación. Diría que tener skills de programación no es solo un plus, sino un requisito básico para avanzar en esta profesión. Es verdad que algunas personas pueden desempeñarse bien sin muchas habilidades de programación, pero yo diría que un principiante necesita tener esas primeras skills de programación con un toolset básico. Estamos hablando de lenguajes como Python y R, que son los lenguajes de cabecera. No se trata de ser un gran codificador, pero sí de tener conocimientos básicos para poder arrancar. Luego, evidentemente, la formación específica sobre fundamentos matemáticos de la ciencia de datos es crucial. La estadística fundamental y la estadística más avanzada son complementos que, si se tienen, harán que la persona avance mucho más rápido en la curva de aprendizaje de la ciencia de datos. En tercer lugar, diría que la especialización en herramientas particulares es importante. Hay gente que se orienta más hacia la ingeniería de datos, otros hacia el mundo de los modelos. Lo ideal es especializarse en algunos frameworks y utilizarlos de manera conjunta, de la forma más óptima posible.

4. Además de como profesores, ambos trabajáis en empresas tecnológicas, ¿qué certificaciones técnicas son más valoradas en el sector empresarial y qué fuentes abiertas de conocimiento recomendáis para prepararse para ellas?

Juan Benavente: Personalmente, no es lo que más miro, pero creo que puede ser relevante, sobre todo para personas que están comenzando y que necesitan ayuda para estructurar su forma de aproximarse al problema y entenderlo. Recomiendo certificaciones de tecnologías que están en uso en cualquier empresa donde quieras acabar trabajando. Especialmente de proveedores de cloud computing y herramientas ampliamente extendidas de análisis de datos. Son certificaciones que recomendaría para alguien que quiere aproximarse a este mundo y necesita una estructura que le ayude. Cuando no tienes una base de conocimiento, puede ser un poco confuso entender por dónde empezar. Quizás deberías reforzar primero la programación o los conocimientos matemáticos, pero todo puede parecer un poco lioso. Donde sin duda te ayudan estas certificaciones es, además de reforzar conceptos, para garantizar que te mueves bien y conoces el ecosistema de herramientas típico con el que vas a trabajar mañana. No se trata solo de conceptos teóricos, sino de conocer los ecosistemas que te encontrarás cuando empieces a trabajar, ya sea fundando tu propia empresa o trabajando en una empresa establecida. Te facilita mucho conocer el ecosistema típico de herramientas. Llámalo Microsoft Computing, Amazon u otros proveedores de este tipo de soluciones. Así podrás centrarte más rápidamente en el trabajo en sí, y no tanto en todas las herramientas que lo rodean. Creo que este tipo de certificaciones son útiles, sobre todo para perfiles que se están acercando a este mundo con ilusión. Les ayudará tanto a estructurarse como a aterrizar bien en su destino profesional. Probablemente también se valoren en los procesos de selección.

Alejandro Alija: Si alguien nos escucha y quiere directrices más específicas, se podría estructurar en bloques. Hay una serie de cursos masivos en línea que, para mí, fueron un punto de inflexión. En mis comienzos, traté de inscribirme en varios de estos cursos en plataformas como Coursera, edX, donde incluso los propios fabricantes de tecnología son los que diseñan estos cursos. Creo que este tipo de cursos online masivos, que se pueden hacer de manera autoservicio, proporcionan una buena base inicial. Un segundo bloque serían los cursos y las certificaciones de los grandes proveedores de tecnología, como Microsoft, Amazon Web Services, Google y otras plataformas que son referentes en el mundo de los datos. Estas compañías tienen la ventaja de que sus rutas de aprendizaje están muy bien estructuradas, lo que facilita el crecimiento profesional dentro de sus propios ecosistemas. Se pueden ir combinando certificaciones de diferentes proveedores. Para una persona que quiera dedicarse a este campo, el camino va desde las certificaciones más sencillas hasta las más avanzadas, como ser un arquitecto de soluciones en el área de datos o un especialista en un servicio o producto específico de análisis de datos. Estos dos bloques de aprendizaje están disponibles en internet, la mayoría son abiertos y gratuitos o cercanos a la gratuidad. Más allá del conocimiento, lo que se valora es la certificación, especialmente en las compañías que buscan estos perfiles profesionales.

5. Además de la formación teórica, la práctica es clave, uno de los métodos más interesantes para aprender es replicar ejercicios paso a paso. En este sentido, desde datos.gob.es ofrecemos recursos didácticos, muchos de ellos desarrollados por vosotros como expertos en el proyecto, ¿nos podéis contar en qué consisten estos ejercicios? ¿Cómo se plantean?

Alejandro Alija: El planteamiento que siempre hicimos fue pensado para un público amplio, sin requisitos previos complejos. Queríamos que cualquier usuario del portal pudiera replicar los ejercicios, aunque es evidente que cuanto más conocimiento se tiene, más se puede aprovechar. Los ejercicios tienen una estructura bien definida: un apartado documental, generalmente un post de contenido o un informe que describe en qué consiste el ejercicio, qué materiales se necesitan, cuáles son los objetivos y qué se pretende conseguir. Además, acompañamos cada ejercicio con dos recursos adicionales. El primer recurso es un repositorio de código donde subimos los materiales necesarios, con una descripción breve y el código del ejercicio. Puede ser un notebook de Python, un Jupyter Notebook o un script simple, donde está el contenido técnico. Y luego otro elemento fundamental que creemos importante y que va dirigido a facilitar la ejecución de los ejercicios. En ciencia de datos y programación, los usuarios no especialistas suelen tener dificultades para configurar un entorno de trabajo. Un ejercicio en Python, por ejemplo, requiere tener instalado un entorno de programación, conocer las librerías necesarias y realizar configuraciones que para profesionales son triviales, pero para principiantes pueden ser muy complejas. Para mitigar esta barrera, publicamos la mayoría de nuestros ejercicios en Google Colab, una herramienta maravillosa y abierta. Google Colab es un entorno de programación web donde el usuario solo necesita un navegador para acceder. Básicamente, Google nos proporciona un ordenador virtual donde podemos ejecutar nuestros programas y ejercicios sin necesidad de configuraciones especiales. Lo importante es que el ejercicio esté listo para usarse y siempre lo verificamos en este entorno, lo que facilita enormemente el aprendizaje para usuarios principiantes o con menos experiencia técnica.

Juan Benavente: Sí, siempre planteamos un enfoque orientado para cualquier usuario, paso a paso, intentando que sea abierto y accesible. Se busca que cualquiera pueda ejecutar un ejercicio sin necesidad de configuraciones complejas, centrándose en temáticas lo más cercanas a la realidad que sea posible. Aprovechamos, muchas veces, datos abiertos publicados por entidades como la DGT u otros organismos para hacer análisis realistas. Hemos desarrollado ejercicios muy interesantes, como predicciones del mercado energético, análisis de materiales críticos para baterías y electrónica, que permiten aprender no solo tecnología, sino también sobre la temática específica. En seguida puedes ponerte manos a la obra, no solo aprender, sino además averiguar sobre la temática.

6. Para cerrar, nos gustaría que pudierais ofrecer un consejo más orientado a actitud que a conocimientos técnicos, ¿qué le diríais a alguien que esté empezando en ciencia de datos?

Alejandro Alija:  En cuanto a un consejo de actitud para alguien que está empezando en ciencia de datos, sugiero ser valiente. No hay que preocuparse por no estar preparado, porque en este campo todo está por hacer y cualquier persona puede aportar valor. La ciencia de datos tiene múltiples vertientes: hay profesionales más cercanos al mundo de negocio que pueden aportar conocimientos valiosos, y otros más técnicos que necesitan comprender el contexto de cada área. Mi consejo es formarse con los recursos disponibles sin asustarse, porque, aunque el camino parezca complejo, las oportunidades son muy altas. Como consejo técnico, es importante tener sensibilidad hacia el desarrollo y uso de datos. Cuanta más comprensión se tenga de este mundo, más fluida será la aproximación a los proyectos.

Juan Benavente: Suscribo el consejo de ser valiente y añado una reflexión sobre la programación: mucha gente encuentra atractivo el concepto teórico, pero cuando llegan a la práctica y ven la complejidad de programar, algunos se desaniman por falta de conocimientos previos o expectativas diferentes. Es importante añadir los conceptos de paciencia y constancia. Al comenzar en este campo, te enfrentas a múltiples áreas que necesitas dominar: programación, estadística, matemáticas, y conocimiento específico del sector en el que trabajarás, ya sea marketing, logística u otro ámbito. La expectativa de convertirse en un experto rápidamente no es realista. Es una profesión que, aunque se puede comenzar sin miedo y colaborando con profesionales, requiere un recorrido y un proceso de aprendizaje. Hay que ser constante y paciente, gestionando las expectativas adecuadamente. La mayoría de las personas que llevan tiempo en este mundo coinciden en que no se arrepienten de dedicarse a la ciencia de datos. Es una profesión muy atractiva donde puedes aportar valor significativo, con un componente tecnológico importante. Sin embargo, el camino no siempre es directo. Habrá proyectos complejos, momentos de frustración cuando los análisis no arrojan los resultados esperados o cuando trabajar con datos resulta más desafiante de lo previsto. Pero mirando hacia atrás, son pocos los profesionales que se arrepienten de haber invertido tiempo y esfuerzo en formarse y desarrollarse en este campo. En resumen, los consejos fundamentales son: valentía para empezar, constancia en el aprendizaje y desarrollo de habilidades de programación.

Clips de la entrevista

1. ¿Merece la pena formarse en ciencia de datos?

2. ¿Cómo se plantean los ejercicios de ciencia de datos de datos.gob.es?

3. ¿Qué es la ciencia de datos? ¿Qué competencias son necesarias?

calendar icon
Entrevista

En este episodio vamos a hablar de la inteligencia artificial y sus retos, tomando como base el Reglamento Europeo de Inteligencia Artificial que entró en vigor este año. Quédate para conocer los retos oportunidades y novedades del sector de la mano de dos expertos en la materia:

  • Ricard Martínez, profesor de derecho constitucional de la Universitat de València en la que dirige la Cátedra de Privacidad y Transformación Digital Microsoft Universidad de Valencia.
  • Carmen Torrijos, lingüista computacional, experta en IA aplicada al lenguaje y profesora de minería de texto en la Universidad Carlos III.

Escuchar el pódcast completo

Resumen / Transcripción de la entrevista

1. Está claro que la inteligencia artificial está en continua evolución. Para entrar en materia, me gustaría que nos contarais ¿cuáles son los últimos avances en la IA?

Carmen Torrijos: Surgen muchas aplicaciones nuevas. Por ejemplo, este fin de semana pasado ha tenido mucho eco una IA de generación de imagen en X, en Twitter, no sé si lo habéis seguido, que se llama Grok. Ha tenido bastante impacto, no porque aporte nada nuevo, ya que la generación de imagen es algo que estamos haciendo desde diciembre de 2023. Pero esta es una IA que tiene menos censura, es decir, teníamos hasta ahora muchas dificultades con los sistemas generalistas para hacer imágenes que tuvieran caras de famosos o tuvieran situaciones determinadas y estaba muy vigilado desde cualquier herramienta. Grok lo que hace es levantar todo eso y que cualquiera pueda hacer cualquier tipo de imagen con cualquier persona famosa o con cualquier cara conocida. Es una moda seguramente muy pasajera. Haremos imágenes durante un tiempo y luego se nos pasará.

Y después tenemos también sistemas de creación de podcast automáticos, como Notebook LM. Ya llevamos un par de meses viéndolos y ha sido realmente una de las cosas que a mí, en los últimos meses, me ha sorprendido de verdad. Porque ya parece que todos son innovaciones incrementales: sobre lo que ya tenemos, nos dan algo mejor. Pero esto es algo realmente nuevo que sorprende. Tú subes un PDF y te puede generar un podcast de dos personas hablando de manera totalmente natural, totalmente realista, sobre ese PDF. Es algo que puede hacer Notebook LM que es de Google.

2. El Reglamento Europeo de Inteligencia Artificial es la primera norma jurídica del mundo sobre IA, ¿con qué objetivos se publica este documento que es ya un marco referencial a nivel internacional?

Ricard Martínez:  El Reglamento surge por algo que está implícito en lo que Carmen nos ha contado. Todo esto que Carmen cuenta es porque nos hemos abierto a la misma carrera desenfrenada a la que nos abrimos con la aparición de las redes sociales. Porque cuando esto pasa, no es inocente, no es que las compañías sean generosas, es que las compañías están compitiendo por nuestros datos. Nos gamifican, nos animan a jugar, nos animan a proporcionarles información, por eso se abren. No se abren porque sean generosas, no se abren porque quieran trabajar para el bien común o para la humanidad. Se abren porque les estamos haciendo el trabajo. ¿Qué es lo que la Unión Europea quiere frenar? Lo que aprendimos con las redes sociales. La Unión Europea plantea dos grandes enfoques que voy a tratar de explicar de modo muy sucinto. El primer enfoque es un enfoque de riesgo sistémico. La Unión Europea ha dicho: “no voy a tolerar herramientas de inteligencia artificial que puedan poner en peligro el sistema democrático, es decir, el estado de derecho y mi modo de funcionamiento o que puedan vulnerar gravemente derechos fundamentales”. Eso es una línea roja.

El segundo enfoque es un enfoque de orientación a producto. Una IA es un producto. Cuando usted fabrica un coche, sigue unas reglas que gestionan cómo produce ese coche, y ese coche llega al mercado cuando es seguro, cuando tiene todas las especificaciones. Ese es el segundo gran enfoque del Reglamento. El Reglamento dice que puede usted estar desarrollando una tecnología porque usted está investigando y casi le dejo hacer lo que quiera. Ahora, si esta tecnología va a llegar al mercado, usted catalogará el riesgo. Si el riesgo es bajo o leve, usted va a poder hacer muchas cosas y, prácticamente, con transparencia y códigos de conducta, se lo voy a dar por bueno. Pero si es un riesgo alto, usted va a tener que seguir un proceso de diseño estandarizado, y va a necesitar que un órgano notificado verifique esa tecnología, se asegure que en su documentación usted ha cumplido lo que tiene que cumplir, y entonces le darán un sello CE. Y no acabamos aquí, porque va a haber vigilancia postcomercial. De modo que, a lo largo del ciclo de vida del producto, usted debe garantizar que esto funciona bien y que se ajusta a la norma.

Por otra parte, se establece un control férreo respecto de los grandes modelos de datos, no solo LLM, también puede ser de imagen o de otro tipo de información, cuando crea que pueden plantear riesgos sistémicos.

En ese caso, hay un control muy directo por parte de la Comisión. Por tanto, en el fondo, lo que están diciendo es: "respeten los derechos, garanticen la democracia, produzcan la tecnología de modo ordenado de acuerdo con ciertas especificaciones".

Carmen Torrijos:  Sí, en cuanto a los objetivos está claro. Me he quedado con lo último que decía Ricard sobre producir tecnología de acuerdo a esta Regulación. Tenemos este mantra de que Estados Unidos hace cosas, Europa las regula y China las copia. A mí no me gusta nada generalizar así. Pero es verdad que Europa es pionera en materia de legislación y seríamos mucho más fuertes si pudiéramos producir tecnología acorde a los estándares regulatorios que estamos poniendo. Hoy por hoy todavía no podemos, quizás es una cuestión de darnos tiempo, pero creo que esa es la clave de la soberanía tecnológica en Europa.

3. Para poder producir esa tecnología, los sistemas de IA necesitan datos para entrenar sus modelos. ¿Qué criterios deberían cumplir los datos para poder entrenar correctamente un sistema de IA? ¿Los conjuntos de datos abiertos podrían ser una fuente? ¿De qué manera?

Carmen Torrijos: Los datos con los que alimentamos la IA son el punto de mayor conflicto. ¿Podemos entrenar con cualquier conjunto de datos incluso aunque estén disponibles? No vamos a hablar de datos abiertos, sino de datos disponibles.

Datos abiertos es, por ejemplo, la base de todos los modelos de lenguaje, y todo el mundo esto lo sabe, que es Wikipedia. Wikipedia es un ejemplo ideal para entrenar, porque es abierta, está optimizado para su uso computacional, es descargable, es muy fácil de usar, hay muchísimo lenguaje, por ejemplo, para entrenar modelos de lenguaje, y hay muchísimo conocimiento del mundo. Con lo cual es el conjunto de datos ideal para entrenar un modelo de IA. Y Wikipedia está en abierto, está disponible, es de todos y es para todos, se puede utilizar.

Ahora bien, ¿todos los conjuntos de datos que hay disponibles en Internet se pueden utilizar para entrenar sistemas de IA? Esa es un poco la duda. Porque el hecho de que algo esté publicado en Internet no quiere decir que sea público, de uso público, aunque tú puedas cogerlo y entrenar un sistema y empezar a generar lucro a partir de ese sistema. Tenía unos derechos de autor, una autoría y propiedad intelectual. Ese yo creo que es el conflicto más grave que tenemos ahora mismo en IA generativa porque utiliza contenidos para inspirarse y crear. Y ahí poco a poco Europa está dando pasitos. Por ejemplo, el Ministerio de Cultura ha lanzado una iniciativa para empezar a ver cómo podemos crear contenidos, conjuntos de datos licenciados, que permitan entrenar la IA de una manera legal, ética y con respecto a los derechos de propiedad intelectual de los autores.

Todo esto está generando muchísima fricción. Porque si seguimos así, nos ponemos en contra a muchos ilustradores, traductores, escritores, etc. (todos los creadores que trabajan con el contenido), porque no van a querer que se desarrolle esta tecnología a costa de sus contenidos. De alguna manera hay que encontrar el equilibrio en la regulación y en la innovación para que las dos cosas ocurran. Desde los grandes sistemas tecnológicos que se están desarrollando, sobre todo en Estados Unidos, se repite una idea que es que solo con contenidos licenciados, con conjuntos de datos legales que están libres de propiedad intelectual, o que se ha pagado los rendimientos necesarios por su propiedad intelectual, no se puede llegar al nivel de calidad de las IA's que tenemos ahora. Es decir, solamente con conjuntos de datos legales no hubiéramos tenido ChatGPT al nivel que está el ChatGPT.

Eso no está escrito en piedra y no tiene por qué ser así. Tenemos que seguir investigando, o sea, tenemos que seguir viendo cómo podemos lograr una tecnología de ese nivel, pero que cumpla con la regulación. Porque lo que han hecho en Estados Unidos, lo que ha hecho GPT-4, los grandes modelos del lenguaje, los grandes modelos de generación de imagen, es enseñarnos el camino. Esto es hasta dónde podemos llegar. Pero lo habéis hecho cogiendo contenido que no es vuestro, que no era lícito coger. Tenemos que conseguir volver a ese nivel de calidad, volver a ese nivel de rendimiento de los modelos, respetando la propiedad intelectual del contenido. Y eso es un papel que yo creo que corresponde principalmente a Europa

4. Otra de las cuestiones que le preocupa a la ciudadanía respecto al rápido desarrollo de la IA es el tratamiento de los datos personales. ¿Cómo deberían protegerse y qué condiciones establece el reglamento europeo para ello?

Ricard Martínez: Hay un conjunto de conductas que se han prohibido esencialmente para garantizar los derechos fundamentales de las personas. Pero no es la única medida. Yo le concedo muchísima importancia a un artículo en la norma al que seguramente no le vamos a dar muchas vueltas, pero para mí es clave. Hay un artículo, el cuarto, que en inglés se ha titulado AI Literacy, y en castellano “Formación en inteligencia artificial” que dice que cualquier sujeto que está interviniendo en la cadena de valor tiene que haber sido adecuadamente formado. Tiene que conocer de qué va esto, tiene que conocer cuál es el estado del arte, tiene que conocer cuáles son las implicaciones de la tecnología que va a desarrollar o que va a desplegar. Le concedo mucho valor porque significa incorporar en toda la cadena de valor (desarrollador, comercializador, importador, compañía que despliegue un modelo para su uso, etc.) un conjunto de valores que suponen lo que en inglés se llama accountability, responsabilidad proactiva, por defecto. Esto se puede traducir en un elemento que es muy sencillo, sobre el que se habla hace dos mil años en el mundo del derecho, que es el ‘no hacer daño’, es el principio de no maleficencia.

Con algo tan sencillo como eso, "no haga usted daño a los demás, actúe de buena y garantice sus derechos",  no se deberían producir efectos perversos o efectos dañosos, lo cual no significa que no pueda suceder. Y precisamente eso lo dice el Reglamento muy particularmente cuando se refiere a los sistemas de riesgo alto, pero es aplicable a todos los sistemas. El Reglamento te dice que tienes que garantizar los procesos de cumplimiento y las garantías durante todo el ciclo de vida del sistema. De ahí que sea tan importante la robustez, la resiliencia y el disponer de planes de contingencia que te permiten revertir, paralizar, pasar a control humano, cambiar el modelo de uso cuando se produce algún incidente.

Por tanto, todo el ecosistema está dirigido a ese objetivo de no lesionar derechos, no causar perjuicios. Y hay un elemento que ya no depende de nosotros, depende de las políticas públicas. La IA no solo va a lesionar derechos, va a cambiar el modo en el que entendemos el mundo. Si no hay políticas públicas en el sector educativo que aseguren que nuestros niños y niñas desarrollen capacidades de pensamiento computacional y de ser capaces de tener una relación con una interfaz-máquina, su acceso al mercado de trabajo se va a ver significativamente afectado. Del mismo modo, si no aseguramos la formación continua de los trabajadores en activo y también las políticas públicas de aquellos sectores condenados a desaparecer.

Carmen Torrijos: Me parece muy interesante el enfoque de Ricard de formar es proteger. Formar a la gente, informar a la gente, que la gente tenga capacitación en IA, no solamente la gente que está en la cadena de valor, sino todo el mundo. Cuanto más formas y capacitas, más estás protegiendo a las personas.

Cuando salió la ley, hubo cierta decepción en los entornos IA y sobre todo en los entornos creativos. Porque estábamos en plena efervescencia de la IA generativa y no se estaba regulando apenas la IA generativa, pero se estaban regulando otras cosas que dábamos por hecho que en Europa no iban a pasar, pero que hay que regular para que no puedan pasar. Por ejemplo, la vigilancia biométrica: que Amazon no pueda leerte la cara para decidir si estás más triste ese día y venderte más cosas o sacarte más publicidad o una publicidad determinada. Digo Amazon, pero puede ser cualquier plataforma. Eso, por ejemplo, en Europa no se va a poder hacer porque está prohibido desde la ley, es un uso inaceptable: la vigilancia biométrica.

Otro ejemplo es la puntuación social, el social scoring que vemos que pasa en China, que se dan puntos a los ciudadanos y se accede a servicios públicos a partir de estos puntos. Eso tampoco se va a poder hacer. Y hay que contemplar también esta parte de la ley, porque damos muy por hecho que esto no nos va a ocurrir, pero cuando no lo regulas es cuando ocurre. China tiene instalados 600 millones de cámaras de TRF, de tecnología de reconocimiento facial, que te reconocen con tu DNI. Eso no va a pasar en Europa porque no se puede, porque también es vigilancia biométrica. Entonces hay que entender que la ley quizá parece que va más despacio en lo que ahora nos tiene embelesados que es la IA generativa, pero se ha dedicado a tratar puntos muy importantes que había que cubrir para proteger a las personas. Para no perder derechos fundamentales que ya teníamos ganados.

Por último, la ética tiene un componente muy incómodo, que nadie quiere mirar, que es que a veces hay que revocar. A veces hay que quitar algo que está en funcionamiento, incluso que está dando un beneficio, porque está incurriendo en algún tipo de discriminación, o porque está trayendo algún tipo de consecuencia negativa que viola a los derechos de un colectivo, de una minoría o de alguien vulnerable. Y eso es muy complicado. Cuando ya nos hemos acostumbrado a tener una IA funcionando en determinado contexto, que puede ser incluso un contexto público, parar y decir que esto está discriminando a personas, entonces este sistema no puede seguir en producción y hay que quitarlo. Ese punto es muy complicado, es muy incómodo y cuando hablamos de ética, que hablamos muy fácil de ética, hay que pensar también en cuántos sistemas vamos a tener que parar y revisar antes de poder volver a poner en funcionamiento, por muy fácil que nos hagan la vida o por muy innovadores que parezcan.

5. En este sentido, teniendo en cuenta todo lo que recoge el Reglamento, algunas empresas españolas, por ejemplo, tendrán que adaptarse a este nuevo marco. ¿Qué deberían estar haciendo ya las organizaciones para prepararse? ¿Qué deberían revisar las empresas españolas teniendo en cuenta el reglamento europeo?

Ricard Martínez: Esto es muy importante, porque hay un nivel corporativo empresarial de altas capacidades que a mí no me preocupa porque estas empresas entienden que estamos hablando de una inversión. Y del mismo modo que invirtieron en un modelo basado en procesos que integraba el compliance desde el diseño para protección de datos. El siguiente salto, que es hacer exactamente lo mismo con inteligencia artificial, no diré que carece de importancia, porque posee una importancia relevante, pero digamos que es recorrer un camino que ya se ensayó. Estas empresas ya tienen unidades de compliance, ya tienen asesores, y ya tienen unas rutinas en las que se puede integrar como una parte más del proceso el marco de referencia de la normativa de inteligencia artificial. Al final lo que va a hacer es crecer en un sentido el análisis de riesgos. Seguramente va a obligar a modular los procesos de diseño y también las propias fases de diseño, es decir, mientras que en un diseño de software prácticamente hablamos de pasar de un modelo no funcional a picar código, aquí hay una serie de labores de enriquecimiento, anotación, validación de los conjuntos de datos, prototipado que exigen seguramente más esfuerzo, pero son rutinas que se pueden estandarizar.

Mi experiencia en proyectos europeos en los que hemos trabajado con clientes, es decir, con las PYMES, que esperan que la IA sea plug and play, lo que hemos apreciado es una enorme falta de capacitación. Lo primero que deberías preguntarte no es si tu empresa necesita IA, sino si tu empresa está preparada para la IA. Es una pregunta previa y bastante más relevante. Oiga, usted cree que puede dar un salto a la IA, que puede contratar un determinado tipo de servicios, y nos estamos dando cuenta que es que usted ni siquiera cumple bien la norma de protección de datos.

Hay una cosa, una entidad que se llama Agencia Española de Inteligencia Artificial, AESIA y hay un Ministerio de Transformación Digital, y si no hay políticas públicas de acompañamiento, podemos incurrir en situaciones de riesgo. ¿Por qué? Porque yo tengo el enorme placer de formar en grados y posgrados a futuros emprendedores en inteligencia artificial. Cuando se enfrentan al marco ético y jurídico no diré que se quieren morir, pero se les cae el mundo encima. Porque no hay un soporte, no hay un acompañamiento, no hay recursos, o no los pueden ver, que no le supongan una ronda de inversión que no pueden soportar, o no hay modelos guiados que les ayuden de modo, no diré fácil, pero sí al menos usable.

Por lo tanto, creo que hay un reto sustancial en las políticas públicas, porque si no se da esa combinación, las únicas empresas que podrán competir son las que ya tienen una masa crítica, una capacidad inversora y un capital acumulado que les permite cumplir con la norma. Esta situación podría conducir a un resultado contraproducente.

Queremos recuperar la soberanía digital europea, pero si no hay políticas públicas de inversión, los únicos que van a poder cumplir la norma europea son las empresas de otros países.

Carmen Torrijos: No porque sean de otros países sino porque son más grandes.

Ricard Martínez: Sí, por no citar países.

6. Hemos hablado de retos, pero también es importante destacar oportunidades. ¿Qué aspectos positivos podríais destacar a raíz de esta regulación reciente?

Ricard Martínez: Yo trabajo en la construcción, con fondos europeos, de Cancer Image EU que pretende ser una infraestructura digital para la imagen de cáncer. En estos momentos, hablamos de un partenariado que engloba a 14 países, 76 organizaciones, camino de 93, para generar una base de datos de imagen médica con 25 millones de imágenes  de cáncer con información clínica asociada para el desarrollo de inteligencia artificial. La infraestructura se está construyendo, todavía no existe, y aún así, en el Hospital La Fe, en Valencia, ya se está investigando con mamografías de mujeres que se han practicado el screening bienal y que después han desplegado cáncer, para ver si es capaz de entrenar un modelo de análisis de imagen que sea capaz de reconocer preventivamente esa manchita que el oncólogo o el radiólogo no vieron y que después acabó siendo un cáncer. ¿Significa que te van a poner quimioterapia cinco minutos después? No. Significa que te van a monitorizar, que van a tener una capacidad de reacción temprana. Y que el sistema de salud se va a ahorrar doscientos mil euros. Por mencionar alguna oportunidad.

Por otra parte, las oportunidades hay que buscarlas, además, en otras normas. No solo en el Reglamento de Inteligencia Artificial. Hay que irse a Data Governance Act, que quiere contrarrestar el monopolio de datos que tienen las empresas norteamericanas con una compartición de datos desde el sector público, privado y desde la propia ciudadanía. Con Data Act, que pretende empoderar a los ciudadanos para que puedan recuperar sus datos y compartirlos mediante consentimiento. Y finalmente con el European Health Data Space que quiere crear un ecosistema de datos de salud para promover la innovación, la investigación y el emprendimiento. Ese ecosistema de espacios de datos es el que debería ser un enorme generador de espacios de oportunidad.

Y además, yo no sé si lo van a conseguir o no, pero pretende ser coherente con nuestro ecosistema empresarial. Es decir, un ecosistema de pequeña y mediana empresa que no tiene altas capacidades en la generación de datos y lo que le vamos a hacer es a construirles el campo. Les vamos a crear los espacios de datos, les vamos a crear los intermediarios, los servicios de intermediación y esperemos que ese ecosistema en su conjunto permita que el talento europeo emerja desde la pequeña y media empresa. ¿Que se vaya a conseguir o no? No lo sé, pero el escenario de oportunidad parece muy interesante.

Carmen Torrijos: Si preguntas por oportunidades, oportunidades todas. No solamente la inteligencia artificial, sino todo el avance tecnológico, es un campo tan grande que puede traer oportunidades de todo tipo. Lo que hay que hacer es bajar las barreras, que ese es el problema que tenemos. Y barreras las tenemos también de muchos tipos, porque tenemos barreras técnicas, de talento, salariales, disciplinares, de género, generacionales, etc.

Tenemos que concentrar las energías en bajar esas barreras, y luego también creo que seguimos viniendo del mundo analógico y tenemos poca conciencia global de que tanto lo digital como todo lo que afecta a la IA y a los datos es un fenómeno global. No sirve de nada mantenerlo todo en lo local, o en lo nacional, o ni siquiera a nivel europeo, sino que es un fenómeno global. Los grandes problemas que tenemos vienen porque tenemos empresas tecnológicas que se desarrollan en Estados Unidos trabajando en Europa con datos de ciudadanos europeos. Ahí se genera muchísima fricción. Todo lo que pueda llevar a algo más global va a ir siempre en favor de la innovación y va a ir siempre en favor de la tecnología. Lo primero es levantar las barreras dentro de Europa. Esa es una parte muy positiva de la ley.

7. Llegados a este punto, nos gustaría realizar un repaso sobre el estado en el que nos encontramos y las perspectivas de futuro. ¿Cómo veis el futuro de la inteligencia artificial en Europa?

Ricard Martínez: Yo tengo dos visiones: una positiva y una negativa. Y las dos vienen de mi experiencia en protección de datos. Si ahora que tenemos un marco normativo, las autoridades reguladoras, me refiero desde inteligencia artificial y desde protección de datos, no son capaces de encontrar soluciones funcionales y aterrizadas, y generan políticas públicas desde arriba hacia abajo y desde una excelencia que no se corresponde con las capacidades y las posibilidades de la investigación -me refiero no solo a la investigación empresarial, también a la universitaria-, veo el futuro muy negro. Si por el contrario, entendemos de modo dinámico la regulación con políticas públicas de soporte y acompañamiento que generen las capacidades para esa excelencia, veo un futuro prometedor porque en principio lo que haremos será competir en el mercado con las mismas soluciones que los demás, pero responsive: seguras, responsables y confiables.

Carmen: Sí, yo estoy muy de acuerdo. Yo introduzco en eso la variable tiempo, ¿no? Porque creo que hay que tener mucho cuidado en no generar más desigualdad de la que ya tenemos. Más desigualdad entre empresas, más desigualdad entre la ciudadanía. Si tenemos cuidado con eso, que se dice fácil, pero se hace difícil, yo creo que el futuro puede ser brillante, pero no lo va a ser de manera inmediata. Es decir, vamos a tener que pasar por una época más oscura de adaptación al cambio. Igual que muchos temas de la digitalización ya no nos son ajenos, ya están trabajados, ya hemos pasado por ellos y ya los hemos regulado, la inteligencia artificial necesita su tiempo también.

Llevamos muy pocos años de IA, muy pocos años de IA generativa. De hecho, dos años no es nada en un cambio tecnológico a nivel mundial. Y tenemos que dar tiempo a las leyes y tenemos también que dar tiempo a que ocurran cosas. Por ejemplo, pongo un ejemplo muy evidente, la denuncia del New York Times a Microsoft y a OpenAI no se ha resuelto todavía. Llevamos un año, se interpuso en diciembre de 2023, el New York Times se queja de que han entrenado con sus contenidos los sistemas de IA y en un año no se ha conseguido llegar a nada en ese proceso. Los procesos judiciales son muy lentos. Necesitamos que ocurran más cosas. Y que se resuelvan más procesos de este tipo para tener precedentes y para tener madurez como sociedad en lo que está ocurriendo, y nos falta mucho. Es como que no ha pasado casi nada. Entonces, la variable tiempo creo que es importante y creo que, aunque al principio tengamos un futuro más negro, como dice Ricard, creo que a largo plazo, si mantenemos claros los límites, podemos llegar a algo brillante.

Clips de la entrevista

1. ¿Qué criterios deberían tener los datos para entrenar un sistema de IA?

2. ¿Qué deberían revisar las empresas españolas teniendo en cuenta el Reglamento de IA?

calendar icon
Entrevista

Este episodio se centra en el gobierno del dato y en explicar por qué es importante contar con normas, políticas y procesos que permitan asegurar que los datos sean correctos, fiables, seguros y útiles. Para ello, analizamos la Ordenanza Tipo sobre Gobierno del Dato de la Federación Española de Municipios y Provincias, conocida como la FEMP, y su aplicación en un organismo público como es el Ayuntamiento de Zaragoza. De ello se encargarán los siguientes invitados:

  • Roberto Magro Pedroviejo, coordinador del grupo de trabajo de datos abiertos de la Red de Entidades Locales por la Transparencia y la participación Ciudadana de la Federación Española de Municipios y Provincias y funcionario público del Ayuntamiento de Alcobendas.
  • María Jesús Fernández Ruiz, jefa de la Oficina Técnica de Transparencia y Gobierno Abierto del Ayuntamiento de Zaragoza.

Escuchar el pódcast completo

Resumen / Transcripción de la entrevista

1. ¿Qué es el gobierno del dato?

Roberto Magro Pedroviejo: Nosotros, en el ámbito de las Administraciones Públicas, definimos el gobierno del dato como un mecanismo organizativo y técnico que aborda de forma integral las cuestiones relativas al uso de los datos en nuestra organización. Abarca todo el ciclo de vida de los datos, es decir, desde su creación hasta su archivo o incluso, si fuera necesario, su purga y destrucción. Su propósito es que los datos sean de calidad y estén disponibles para todos aquellos que los precisen: a veces, será solo la propia organización internamente, pero otras muchas veces será la ciudadanía en general, los reutilizadores, el ámbito universitario, etc. El gobierno del dato debe facilitar el derecho de acceso a los mismos. En definitiva, el gobierno del dato permite dar respuesta al objetivo de gestionar eficaz y eficientemente nuestra administración y conseguir mayor interoperabilidad entre todas las administraciones.

2. ¿Por qué es importante este concepto para un municipio?

María Jesús Fernández Ruiz: Porque hemos comprobado que, dentro de las organizaciones, tanto públicas como privadas, la obtención y la gestión de los datos muchas veces se realizan sin seguir criterios homogéneos, estándares o las técnicas adecuadas. Esto se traduce en una situación difícil y costosa, que se agrava cuando intentamos desarrollar un espacio de datos o desarrollar servicios relacionados con los datos. Por lo tanto, es necesario un paraguas que nos obligue a la gestión del dato, como ha comentado Roberto, eficaz y eficiente, siguiendo estándares y criterios homogéneos, lo que nos facilita la interoperabilidad.

3. Para dar respuesta a este reto, es necesario establecer una serie de directrices que ayuden a las administraciones locales a establecer un marco legal. Por ello se ha creado la Ordenanza Tipo sobre Gobierno del Dato de la FEMP. ¿Cómo fue el proceso de desarrollo de este documento de referencia?

Roberto Magro Pedroviejo: Dentro del Grupo de Datos Abiertos de la Red que se creó allá por el año 2017, una de las personas con la que hemos contado y que ha aportado muchísimas ideas, ha sido María Jesús, desde el Ayuntamiento de Zaragoza. Salíamos del COVID, justo en marzo de 2021, y recuerdo perfectamente la reunión que tuvimos en una sala que nos prestó el Ayuntamiento de Madrid en el Palacio de Cibeles. María Jesús estaba en Zaragoza y entró por videoconferencia a esa reunión. Ese día María Jesús, viendo qué cosas y qué trabajos podíamos abordar dentro de este grupo multidisciplinar, propuso crear una ordenanza tipo. La FEMP y la Red ya tenían experiencia en crear ordenanzas tipo para intentar mejorar, y sobre todo ayudar, a los municipios y entidades locales o diputaciones a que crearan normativas.

Empezamos a trabajar un equipo multidisciplinar, liderado por José Félix Muñoz Soro, de la Universidad de Zaragoza, que es la persona que ha coordinado el texto normativo que hemos publicado. Y unos meses más tarde, concretamente en enero de 2022, hicimos ya una quedada. Nos reunimos presencialmente en el Ayuntamiento de Zaragoza y ahí empezamos a fijar las bases de por qué la ordenanza tipo, qué tipo de articulado debía ser, qué tipo de estructura debía tener, etc. Y nos reunimos un equipo, como decíamos, multidisciplinar, en el que estaban expertos en gobernanza del dato y juristas de la Universidad de Zaragoza, personal de la Universidad Politécnica de Madrid, compañeras de la Universidad Politécnica de Valencia, profesionales del ámbito público local y periodistas expertos en datos abiertos.

El primer borrador se publicó en mayo/junio del año 2022. Además, se dispuso a consulta pública a través de la plataforma que tiene el Ayuntamiento de Zaragoza de Participación Ciudadana. Nos pusimos en contacto con unos 100 expertos de ámbito nacional y recibimos como unas 30 aportaciones de mejoras, de las cuales se incluyeron la mayoría, y que permitieron que a finales del año pasado tuviéramos ya el texto definitivo, que se pasó al área jurídica de la FEMP para validarlo. En febrero del año 2024 se publicó la normativa, que ya está dispuesta en la página web de la Red para su descarga de forma gratuita.

Quiero aprovechar esta oportunidad para agradecer el excelente trabajo realizado por todas las personas participantes en el equipo que desde sus respectivas ópticas han trabajado de forma desinteresada para crear este conocimiento y compartirlo con todas las administraciones públicas españolas.

4. ¿Cuáles son los beneficios que se esperaban de la ordenanza?

María Jesús Fernández Ruiz: Para mí, uno de los objetivos principales de la ordenanza, y creo que es un gran instrumento, es que recoge el ciclo completo de vida del dato. Se recoge desde que se genera el dato, cómo se gestiona el dato, cómo se facilita el dato, cómo se tiene que guardar la documentación asociada al dato, cómo se tienen que guardar los históricos, etc. Lo más importante es que establece unos criterios para gestionar el dato respetando todo su ciclo de vida.

La ordenanza también establece unos principios, que no son muchos, pero que son muy importantes y que nos van marcando, que nos hablan, por ejemplo, de la gobernanza efectiva del dato y nos describe lo importante que es establecer procesos a la hora de generar el dato, de gestionar el dato, de facilitar el dato, etc.

También es otro principio muy importante, que lo ha comentado Roberto, el tratamiento ético del dato. Es decir, la importancia de recoger la trazabilidad del dato, de ver por dónde se mueve el dato y de respetar los derechos de las personas físicas y jurídicas.

Otro principio muy importante y que genera mucho ruido en las instituciones es que hay que gestionar el dato desde la fase de diseño, la gestión del dato por defecto. Muchas veces, cuando empezamos a trabajar los datos con criterios de apertura, lo estamos ya haciendo a la mitad del ciclo de vida del dato o casi al final. Tenemos que diseñar la gestión del dato desde el principio, desde el origen. Esto nos ahorra muchísimos recursos, tanto humanos como económicos.

Otro tema importante para nosotros y que defendemos dentro de la ordenanza es que la administración tiene que estar orientada al dato. Tiene que ser una administración que va a diseñar sus políticas basada en la evidencia. Una administración que va a considerar el dato como un activo estratégico y por lo tanto facilitará los recursos que sean necesarios.

Y otro tema, que comentamos muchas veces también con Roberto, es la importancia de la cultura del dato. Cuando trabajamos y publicamos el dato, un dato que es interoperable, que es fácil de reutilizar, que se comprende, etc. no podemos detenernos ahí, sino que hay que hablar de la cultura del dato, que también viene recogida en la ordenanza. Es importante que difundamos qué es un dato, qué es un dato de calidad, cómo acceder al dato, cómo utilizar el dato. Es decir, cada vez que publiquemos un conjunto de datos, debemos plantearnos actuaciones relacionadas con la cultura del dato.

5. El Ayuntamiento el de Zaragoza ha sido pionero en la aplicación de esta ordenanza. ¿Cómo ha sido este proceso de implementación y qué retos os estáis encontrando?

María Jesús Fernández Ruiz: Este reto ha sido muy interesante y además nos ha ayudado a mejorar. Fue muy rápido al principio y ya en junio íbamos a presentar la ordenanza a lo que es el gobierno de la ciudad. Hay un proceso donde los diferentes partidos hacen votos particulares sobre la ordenanza y dicen “este punto me gusta”, “este punto me parece más interesante”, “este habría que modificarlo”, etc. Nuestra sorpresa es que hemos tenido más de 50 votos particulares a la ordenanza, después de haber pasado el proceso de consulta pública y de haber salido en todos los medios de comunicación, que también fue enriquecedor, y ha habido que contestar a estos votos. La verdad es que nos ha ayudado a mejorar y, en estos momentos, estamos esperando a que vaya a gobierno.

Cuando me dicen ¿cómo te sientes María Jesús? La respuesta es bien, vamos avanzando, porque gracias a esa ordenanza que está pendiente de aprobarse en gobierno del Ayuntamiento de Zaragoza, ya hemos sacado una serie de contratos. Uno que es importantísimo para nosotros: elaborar un inventario de datos y de fuentes de información de nuestra institución, que creemos que es el instrumento básico para gestionar el dato, saber qué datos tenemos, dónde se originan, qué trazabilidad tienen, etc. Por lo tanto, no hemos parado. Gracias a ese marco todavía no aprobado, nosotros hemos podido avanzar a base de contratos o algo que es básico en una institución: la definición de los profesionales que tienen que participar en la gestión del dato.

6. Mencionabas la necesidad de elaborar un inventario de conjuntos de datos y fuentes de información, ¿de qué tipo de conjuntos de datos estamos hablando y qué información descriptiva debe incluirse de cada uno?

Roberto Magro Pedroviejo: Hay un core, digamos un núcleo central, con una serie de conjuntos de datos que nosotros recomendamos en la propia ordenanza, haciendo referencia a otro trabajo que se hace en el grupo de datos abiertos, que es el de recomendar 80 conjuntos de datos que podríamos publicar en las administraciones públicas españolas. Ahí, además, se pone el foco en los conjuntos de datos de alto valor, los que más pueden beneficiar a la gestión municipal o pueden beneficiar aportando valor social y económico a la ciudadanía en general y al ámbito empresarial y los reutilizadores. Cualquier administración que quiera empezar a trabajar el tema de los conjuntos de datos y se pregunte por dónde empezar a publicar o gestionar datos, se tiene que centrar, sobre todo, bajo mi punto de vista, en tres apartados clave en una en una ciudad:

  • Los datos de las personas, es decir, nuestro queridísimo padrón: quiénes son las personas que vive en nuestra ciudad, sus edades, sexo, direcciones postales, etc.
  • Los datos urbanísticos y de territorio, es decir, dónde viven esas personas, cuál es la delimitación territorial que tiene el municipio, etc. Todo lo que tiene que ver con esos conjuntos de datos relacionados con las calles, los viales, incluso el alcantarillado, las vías públicas o el alumbrado, es necesario inventariarlo, conocer dónde están esos datos y tenerlos, como ya hemos dicho, actualizados, estructurados, accesibles, etc.
  • Y, por último, todo lo que tiene que ver con cómo se gestiona la ciudad, por supuesto, con el ámbito tributario y presupuestario.

Es decir: el ámbito de las personas, el ámbito del territorio y el ámbito tributario. Eso es por lo que nosotros recomendamos empezar. Y al final ese inventario de conjuntos de datos lo que hace es describir cuáles son, dónde están, cómo están y será la primera base sobre la que empezar a construir el gobierno del dato.

María Jesús Fernández Ruiz: Otro tema que también es muy fundamental, que se recoge en la ordenanza, es definir los conjuntos de datos maestros. Simplemente una pequeña anécdota. A la hora de crear un espacio de datos espaciales, es básico el callejero, la cartografía base y el portalero. A la hora de reunirnos a trabajar, se creó una comisión técnica y consideramos que estos eran conjuntos de datos maestros del Ayuntamiento de Zaragoza. La calidad del dato viene determinada por un concepto que viene en la ordenanza, que es respetar la soberanía del dato: quien crea el dato es el soberano del dato y él es el responsable de la calidad del dato. Hay que respetar la soberanía y eso determina la calidad.

Entonces descubrimos que, en el Ayuntamiento de Zaragoza, teníamos cinco identificadores distintos de portal. Para mejorar esta situación, definimos un identificador único descriptivo que declaramos como dato maestro. De esta forma, todas las entidades municipales van a utilizar el mismo identificador, el mismo callejero, la misma cartografía, etc. y eso hará que todos los servicios relacionados con la ciudad sean interoperables.

7. ¿Qué mejoras adicionales creéis que podrían incluirse en futuras revisiones de la ordenanza?

Roberto Magro Pedroviejo: La propia ordenanza, al ser un instrumento normativo, está adaptada a la normativa actual española y europea. Es decir, habrá que estar muy atentos. -ya lo estamos- a todo lo que se está publicando sobre inteligencia artificial, espacios de datos y datos abiertos. La ordenanza se tendrá que ir adaptando porque es un marco normativo para dar cumplimiento a la legislación presente, pero si ese marco normativo cambia, haremos las modificaciones oportunas para su cumplimiento.

También me gustaría resaltar, dos cosas. Ha habido algún ayuntamiento más y una universidad, concretamente el Ayuntamiento de San Feliu de Llobregat y la Universidad de La Laguna, interesados en la ordenanza. Hemos recibido más peticiones para conocer un poquito más la ordenanza, pero lo más valientes han sido el Ayuntamiento de Zaragoza, que fueron los que la propusieron y son los que están sufriendo en sus carnes el proceso de publicación y aprobación definitiva. De esa experiencia que está obteniendo el propio Ayuntamiento de Zaragoza seguramente aprenderemos todos, sobre cómo abordarlo en cada una de las administraciones, porque nos copiamos y podemos ir más rápido. Yo creo que, poco a poco, una vez que Zaragoza publique la ordenanza, otros ayuntamientos y otras instituciones se irán sumando. Primero porque ayuda a organizar la casa por dentro. Ahora que estamos en un proceso de transformación digital que no es rápido, sino que es un proceso largo, este tipo de ordenanzas nos va a ayudar, sobre todo, a ordenar los datos que tenemos en la administración. Los datos y la gestión del gobierno de los datos nos van a poder ayudar a mejorar la gestión pública hacia dentro de la propia organización, pero sobre todo hacia los servicios que se prestan a la ciudadanía.

Y lo último que quería remarcar, y es muy importante también, es que, si los datos no son de calidad, no están actualizados y no están metadatados, poco haremos o nada en la administración desde el punto de vista de la inteligencia artificial, porque la inteligencia artificial se va a basar en los datos que tengamos y si no son correctos ni están actualizados, el resultado y las predicciones que nos pueda hacer la IA no nos van a servir para nada en la administración pública.

María Jesús Fernández Ruiz: Decir que es muy importante lo que acaba de decir Roberto sobre la inteligencia artificial y los datos de calidad. Y añadir dos cosas que estamos aprendiendo a la hora de implementar esta ordenanza. La primera sería la necesidad de definir procesos, es decir, la gestión eficiente de los datos se tiene que basar en procesos. Y otra cosa que yo creo que tendríamos que hablar, y hablaremos dentro de la FEMP, es la importancia de definir los roles de los diferentes profesionales que participan en la gestión del dato. Hablamos de gestor de los datos, de proveedor de los datos, proveedor tecnológico, etc. Si yo tuviera ahora la ordenanza, hablaría de esa definición de los roles que tienen que participar en una eficiente gestión de los datos. Es decir, procesos y profesionales.

Clips de la entrevista

1. ¿Qué es el gobierno del dato?

 2. ¿En qué consiste la Ordenanza Tipo sobre Gobierno del Dato de FEMP?

calendar icon