Fecha publicación 24/02/2026
Fecha actualización 18/03/2026
Sector
Ciencia y tecnología
Nombre María Santana Álvarez, Instituto Nacional de Estadística (INE), y Alberto González Yanes, Instituto Canario de Estadística (ISTAC).
Caratula del pódcast. Título: El valor de los datos estadísticos en abierto.  Subtítulo: María Santana Álvarez (Instituto Nacional de Estadística) y Alberto González Yanes (Instituto Canario de Estadística).
Descripción

En este nuevo episodio de nuestro pódcast nos centraremos en los datos abiertos estadísticos. Una de las categorías de conjuntos de datos considerados de alto valor por la Unión Europea. Hoy vamos a hablar de cómo este tipo de datos que producen las administraciones públicas pueden convertirse en una herramienta clave para entender mejor la realidad, tomar decisiones y crear nuevos servicios. Tenemos para ello dos invitados. 

  • María Santana Álvarez, subdirectora general de difusión y comunicación del Instituto Nacional de Estadística (INE).
  • Alberto González Yanes, subdirector de Estadística y Análisis de Datos del Instituto Canario de Estadística (ISTAC)

Escuchar el pódcast completo

Resumen / Transcripción de la entrevista

1. ¿Por qué los datos estadísticos se consideran datos de alto valor? ¿Cuál es su potencial?

María Santana Álvarez: En esta sociedad en la que vivimos, donde los datos nos rodean y la información fluye con tanta rapidez, es importante que las estadísticas oficiales sean conocidas y reconocidas como datos de alta calidad y confiables, y esto se consigue haciéndolas accesibles a toda la sociedad de manera abierta. Esta información es de utilidad para la toma de decisiones informadas y, por ello, los datos estadísticos ya de por sí tienen mucho valor, pero su reutilización aumenta ese valor y tiene un gran impacto en la sociedad. 

En relación con los datos producidos por el INE, las operaciones estadísticas de las cuales somos responsables cubren temas tan variados como la demografía, la economía, el mercado laboral, el medio ambiente, el sector servicios, la ciencia y tecnología, y las condiciones de vida, entre otros muchos temas. Os voy a dar algunos ejemplos concretos de operaciones estadísticas: Índice de cifras de negocio, Estadísticas sobre actividades en I+D, Estimación mensual de nacimientos o la Encuesta de empleo del tiempo, además de las comúnmente conocidas como son el Índice de precios de consumo, la Encuesta de población activa o la Contabilidad trimestral. Como veis, los datos estadísticos oficiales tienen un gran valor y su reutilización es primordial. 

La definición de los conjuntos de datos de alto valor ha venido a reforzar esto. Son datos que tienen un gran potencial por los beneficios para la sociedad, el medio ambiente, la economía y, de hecho, una de las categorías establecidas en el Reglamento es la de estadística, que incluye conjuntos relativos a contabilidad nacional, demografía o desigualdad -como veis, los temas que he comentado anteriormente- y en esta categoría la mayoría de los datasets son producidos por el INE. 

Alberto González Yanes: En este siglo -o este principio del nuevo siglo en el que estamos viviendo-, tan saturado de información y de datos, es importante tener en cuenta la importancia de la estadística en sí misma dentro de una sociedad democrática y de los estados democráticos avanzados. La estadística, como dato objetivo y transparente, es importante que esté presente en formatos abiertos, no solo para la economía - para que se puedan construir nuevos servicios-, sino para reforzar y seguir reforzando la toma de decisiones basadas en datos por parte no solo de las administraciones públicas, sino también por parte de las empresas y de la ciudadanía. 

Hay que tener en cuenta una cosa importante: que el dato oficial, sea publicado por el INE o por los institutos autonómicos como el ISTAC, genera derechos y deberes. Siempre pongo el ejemplo de cómo un dato oficial como el IPC, o como las mismas cifras oficiales de población, generan derechos y deberes para los municipios, las entidades locales, cabildos, gobiernos, etc. 

Ese nivel de envergadura, de la importancia del dato estadístico como pilar fundamental de los estados democráticos  -y así lo reconoce Naciones Unidas -, da lugar a la necesidad de que, no solo el catálogo del conjunto de datos abiertos definido por el Reglamento de Ejecución de la Comisión Europea, sea de alto valor, sino que  todos los datos producidos por la estadística oficial deben ser considerado de alto valor, porque es fundamental para los estados democráticos

2. ¿Podéis explicarnos un poco más el papel de ISTAC y el INE en el ecosistema de datos abiertos estadísticos? ¿Qué servicios basados en datos abiertos ofrecen a la ciudadanía?

Alberto González Yanes: Los sistemas estadísticos autonómicos y el estatal somos dos patas que están coordinadas. Tenemos la gran coordinación dentro del sistema, dentro del CITE (Comité Interterritorial de Estadística). Lo que hacemos las comunidades autónomas es, o bien reutilizar la propia información del INE, o ampliar la información que a escala nacional no se desarrolla y que es necesaria para fines autonómicos. Nosotros, por ejemplo, somos uno de los grandes referentes internacionales en producción de estadísticas turísticas, de tal manera que incluso aparecemos dentro de los sistemas de buenas prácticas de la Organización Mundial del Turismo. Ofrecemos información a escala municipal en materia turística que algunos estados no tienen ni siquiera a escala de nación. La información que tenemos es reutilizada por todos los sistemas de información turística de todas las administraciones públicas, pero también por las patronales hoteleras. Ahí incluyo la Estadística de Alojamiento Turístico, la Encuesta de Gasto Turístico, la Estadística de Movimiento Turístico en Fronteras (FRONTUR), -que además desarrollamos colaborativamente con el Instituto Nacional de Estadística, ampliando la muestra para el caso de Canarias- y la Encuesta de Ocupación de Vivienda Turística. Esas son las grandes estrellas de la información en una comunidad autónoma que tiene un PIB de casi el 35% vinculado al turismo.

María Santana Álvarez: En el caso del INE, toda nuestra producción se ofrece de manera abierta a través de la página web, que es el principal punto de encuentro con nuestros usuarios. Muestra de ello es que en el año pasado, en 2025, recibió más de 42 millones de visitas. Todos los datos que producimos se difunden de acuerdo al calendario de publicaciones de las operaciones estadísticas, de manera gratuita y bajo una licencia abierta. 

Me gusta hablar de este tema de una manera así pedagógica, tomando de referencia a las cinco estrellas de Tim Berners-Lee y haciendo una analogía entre el sistema de difusión del INE y cómo vamos subiendo de escala en ese sistema. El actual sistema de difusión del INE es el resultado de muchos años de evolución y en esa evolución hemos apostado por el desarrollo de herramientas que hacen que la reutilización sea efectiva. 

Empezando por las estrellas de Tim Berners-Lee, una estrella es que tú produzcas los datos y los difundas de manera abierta bajo una licencia que permita la reutilización, pero eso no es suficiente para que los reutilizadores puedan, de una manera efectiva y fácil, hacer uso de ellos. Dos estrellas sería ofrecer los datos agregados que producimos en formatos propietarios como son excel y pc-axis. Las tres estrellas serían csv, en formatos planos. Y llegamos a la cuarta estrella, que es hacer accesible la información a través de URI. Las URL son URI y en el caso del INE disponemos de una API JSON para todos los datos agregados que producimos. 

En relación a esto sí que quiero comentar cuáles son las ventajas de tener una API JSON. En nuestro caso, se ofrece acceso a los metadatos y a los datos agregados que producimos. Esto supone una explotación automática y directa de toda la información que producimos. Los datos están actualizados de acuerdo al calendario; independientemente del momento en el que un usuario acceda a ese servicio web, va a encontrar el último dato que está disponible. Los usuarios que utilicen este sistema pueden personalizar sus consultas y hacer filtros a través de los metadatos que definen a las tablas y las series. 

Tampoco nos hemos olvidado de la gran comunidad de usuarios de R en ciencia de datos. Por eso hemos producido un paquete llamado INEapir, que incorpora todas las funcionalidades de la API JSON y facilita a esos reutilizadores trabajar con nuestros datos en un entorno que ellos ya conocen, en unos sistemas y unas estructuras de datos a las que están acostumbrados.

Además, próximamente, toda la documentación relacionada con la API, no solamente va a estar en el formato actual que tenemos en la página web, sino también en OpenAPI con Swagger. Esto permitirá tener un acceso a la información de nuestra API de una manera más interactiva e intuitiva para todos esos usuarios que están acostumbrados a utilizar API generales. 

Alberto González Yanes: Es importante reseñar, en primer lugar, que todo dato estadístico es público por naturaleza, porque la normativa estadística estatal -la Ley 12/1989- o autonómica así lo obligan. En nuestro caso, tenemos diferentes iniciativas que permiten la reutilización. Desde un ecosistema de unas 10 o 15 API sostenidas en estándares internacionales como SDMX (Statistical Data and Metadata Exchange), que permite llevarte toda la información que producimos, incluso todo el catálogo de datos abiertos: API de georreferenciación, toda la cartografía… Todo lo tenemos en ese ecosistema de API al que evidentemente le incorporamos conectores, sean Python, sean R, con diferentes librerías o conectores específicos para algunas soluciones de mercado, para facilitar la reutilización por parte de terceros en cuadros de mandos. 

Para nosotros también es importante, al margen de abrir los datos, abrir toda la parte de activos semánticos. Nosotros gestionamos conceptos, clasificaciones, diseños de registro… Para nosotros es importante también la reutilización de toda la parte de clasificaciones y conceptos, al margen de todos los datos estadísticos. Uno de los principales reutilizadores de todo ese sistema es el propio Gobierno de Canarias, incorporando, desde base, desde los formularios electrónicos de la administración electrónica -y esto a veces se conoce poco- todas las clasificaciones normalizadas que tenemos. Eso lo están haciendo a través de la API de servicios que tenemos.

Por tanto, tenemos diferentes propuestas, no solo de acceso a datos, sino también de procesamiento y de normalización de datos. 

3. ¿Cómo trabajan para asegurar la interoperabilidad entre sus sistemas estadísticos, y también con organismos internacionales, como Eurostat?

María Santana Álvarez: Antes he estado utilizando el sistema de Tim Berners-Lee para contar nuestro nivel de apertura en el sistema de difusión del INE. Me quedé en la cuarta estrella, pero en ese sistema hay cinco estrellas. Y precisamente esa quinta estrella garantiza la interoperabilidad. Desde el punto de vista de difusión, los datos que están sujetos a una clasificación nacional o internacional, como pueden ser la Clasificación Nacional de Actividades Económicas, de educación, o de ocupaciones u otros estándares que han sido aprobados por el INE, como los códigos de las Comunidades Autónomas, las provincias y los municipios, siempre van a ir acompañados de esos metadatos. Por tanto, los datos que hayan producido otros actores de este sistema estadístico nacional que utilicen estas mismas clasificaciones, códigos, etc., van a ser interoperables entre sí. Eso es desde el punto de vista de la difusión, pero también desde el punto de vista de la producción, porque en este sistema estadístico nacional del que forma parte el INE, todos tenemos que transmitir a Eurostat cuáles son los datos que recogemos y que difundimos, los datos agregados. Esa manera de establecer la interoperabilidad empieza muchísimo antes que la difusión, es decir, cuando se establecen nuevas operaciones estadísticas o agrupación de ellas, se desarrollan directivas y reglamentos en los cuales se establecen metodologías y conceptos que todos los Estados miembros tienen que utilizar. De esa manera se garantiza que cuando nosotros transmitimos los microdatos o los resultados agregados a Eurostat ya se sabe que hemos tomado de base esos mismos conceptos, esos mismos estándares. 

En cuanto a la transmisión que hacemos, para que sea todavía más estándar, se utiliza SDMX y DSD basados en estructuras de datos y listas de códigos estándares para que se garantice la comparabilidad y la coherencia en las estadísticas oficiales europeas. 

Alberto González Yanes: Como bien ha contado María, la interoperabilidad es una cuestión clave y fundamental dentro de la estadística pública. Ha hablado de la estandarización de SDMX, que es fundamental y ha sido de referencia incluso para la W3C, para sacar estándares y ontologías de interoperabilidad. Ha hablado de la creación de códigos y de clasificaciones que no solo son utilizables entre nosotros, sino utilizables también por el resto del sector público. Y ahí lo vinculo mucho con la competencia que tiene la estadística pública en materia de normalización semántica, según el Esquema Nacional de Interoperabilidad en el artículo 10.3. 

En este sentido, como nos los tomamos en serio, se planteó por parte del Comité Interterritorial de Estadística la creación de un nodo de interoperabilidad estadística a escala nacional, que facilite no solo el intercambio de información entre los diferentes órganos estadísticos del Estado español, sino también la transmisión de datos administrativos para fines estadísticos desde las administraciones públicas al sistema estadístico. Es un proyecto de referencia a escala europea. Fue financiado por la Comisión Europea y esperamos que a lo largo del 2026 empecemos a desplegar las diferentes acciones para el desarrollo del nodo como elemento de referencia a escala europea. 

4. ¿Cuáles son los principales desafíos actuales en la apertura de datos estadísticos?

María Santana Álvarez: Anteriormente he comentado que toda nuestra producción de datos agregados de las operaciones estadísticas, y también ciertos microdatos anonimizados, se publican de manera abierta. Sin embargo, el INE tiene mucha más información que ofrecer, pero dada su naturaleza no se puede hacer de manera abierta. Me estoy refiriendo a los microdatos confidenciales

Veamos un poquito de base legal en este asunto porque es un tema bastante sensible. En el año 2022 hubo una modificación de la Ley de la Función Estadística Pública, mediante la cual los servicios estadísticos podemos conceder a entidades de investigación acceso a datos confidenciales. Estos datos no permiten la identificación directa de las unidades y solamente se pueden utilizar para llevar a cabo estudios científicos de interés público, además de que hay que cumplir determinados requisitos para poder acceder a ellos. De hecho, los servicios estadísticos evaluamos si es posible proporcionar esa información, o sea, somos muy rigurosos en dar acceso a esos datos. Para que os hagáis una idea, el INE gestionó durante el año pasado, más de 80 solicitudes de este tipo de acceso a microdatos confidenciales y un alto porcentaje de estas fueron considerados viables. 

Además, el INE es coordinador de un proyecto denominado Es_DataLab, que surge de un convenio firmado por la Agencia Tributaria, la Seguridad Social, el Banco de España y el Servicio Público de Empleo. Todos estos organismos somos grandes productores de estadísticas oficiales, pero también tenedores de un gran volumen de registros administrativos. Es_DataLab ofrece a los investigadores el acceso a conjuntos de microdatos confidenciales resultantes de la combinación de diferentes bases de datos de al menos dos de los organismos que hemos firmado este convenio, pero esto no se puede ofrecer de manera abierta por cuestiones de confidencialidad y de secreto estadístico. 

¿Qué reto hay en el horizonte para poder proporcionar este tipo de datos, es decir, microdatos a nivel de unidad informante de una manera abierta, sin que suponga un problema de confidencialidad, de secreto estadístico? La solución serían las poblaciones sintéticas. De hecho, en el INE estamos trabajando en la construcción de estas poblaciones sintéticas: poblaciones que reproducen las características estadísticas de la población real, pero los registros no corresponden a una unidad informante real. Es algo ficticio, pero que, cuando se hacen los análisis estadísticos, tienen las mismas características que las poblaciones reales. Esto sería una manera de publicar de forma abierta microdatos a este nivel de detalle, sin tener que pasar por los comités de evaluación que ahora mismo tenemos y las restricciones que hay que cumplir con la legislación vigente. 

Alberto González Yanes: Yo creo que, además, -y esa reflexión la sacamos en el Encuentro Nacional de Datos Abiertos cuando se celebró aquí en Lanzarote-, otro reto que tenemos por delante en la estadística pública es el tema de facilitar la reutilización de los datos privados protegidos por parte de los dueños de los datos. El concepto de portabilidad, que está restringido dentro de la estadística pública. No existe ese concepto. Mientras que el derecho de acceso a datos confidenciales para fines científicos sí que está recogido y viene fortalecido por el reglamento europeo, el derecho de portabilidad no está recogido. Es verdad que esto es una mirada más allá del concepto de datos abiertos, que se asimila con dato público, con ciertos criterios para facilitar su reutilización, pero, ¿qué mejor reutilización que la que puede hacer una empresa, por ejemplo, de los datos que tenemos en la propia estadística pública? Esos datos que tenemos los podría poner en sus sistemas de información. Debemos tener en cuenta que, muchas veces, disponemos de más datos de las empresas que ellas mismas, sobre todo en una estructura empresarial basada en pymes, como en Canarias, donde las empresas no tienen esas capacidades analíticas gigantescas, o para simplemente vincularlo con el concepto de economía del dato y poner esos datos en mercado y que se pueda generar beneficio a partir de datos que nosotros tenemos depositados en nuestros bancos de datos. Eso requeriría, posiblemente una acción de mayor vista a diez o quince años.

5. Para terminar, ¿cómo veis la evolución de los datos abiertos en los próximos años?  ¿Qué innovaciones tecnológicas o metodológicas creéis que transformarán la estadística pública?

Alberto González Yanes:  No podemos terminar este pódcast sin hablar de inteligencia artificial, que parece que es la palabra de moda en los últimos años y es así por algo. Creo que se está dando una disrupción tecnológica al respecto. Tenemos el gran reto de la incorporación de los datos y de la información estadística a los sistemas de IA generativa, sobre todo para evitar las alucinaciones o el sesgo que se está produciendo en muchas de ellas. Además, como la IA generativa no duda, sino que afirma, en algunos casos se plantean datos que no son ciertos y pueden conllevar problemas reputacionales, porque dicen “fuente INE” o “fuente ISTAC” y no es cierto. Entonces tenemos el gran reto de acompañar o mejorar los sistemas de inteligencia artificial generativa para evitar ese sesgo. 

Otro gran reto también es enseñar a la ciudadanía en la alfabetización de uso de estos sistemas. No solo para el acceso a datos, sino que también se genera código y transformaciones basadas en datasets que nosotros aportamos y a veces los cálculos también están mal hechos.

María Santana Álvarez: Esta misma reflexión es compartida internacionalmente y por ello se han empezado a crear grupos de trabajo para la construcción de guías que lean, interpreten y respondan de manera adecuada respecto a las preguntas que se hagan de datos estadísticos oficiales. Para ello es necesario el uso de metadatos comunes a nivel internacional y la construcción de una tecnología que los interprete debidamente. Así contado de manera resumida parece poco, pero el reto es importante y la implementación no es trivial. Desde luego que merecerá la pena ver cómo se desarrolla y el impacto que va a tener en la sociedad. 

Mientras tanto, en el INE estamos apostando por mejorar la descripción de las páginas web, de los metadatos de nuestras series temporales, de las tablas, etc., y creando componentes para que los buscadores puedan encontrar nuestra información de una manera más eficaz y acertada.

Clips de la entrevista

1. ¿Qué servicios basados en datos abiertos ofrece el INE a la ciudadanía?

2. ¿Cuál es el papel del ISTAC en el ecosistema de datos abiertos estadísticos? ¿cuál es su relación con el INE?