Existen una serie de datos muy valiosos, pero que por su naturaleza no se pueden abrir al gran público. Son datos confidenciales sobre los que recaen derechos de terceros que impiden su puesta a disposición a través de plataformas abiertas, pero que pueden ser fundamentales para investigaciones que promuevan avances para toda la sociedad, en campos como el diagnóstico médico, la evaluación de políticas públicas, la detección o enjuiciamiento de infracciones penales, etc.
Para facilitar la extracción de valor de estos datos, respetando la normativa vigente y los derechos vinculados, se han puesto a disposición de los investigadores unos entornos de tratamiento seguro, conocidos como salas seguras. El objetivo es que los investigadores puedan solicitar y, posteriormente, utilizar e integrar los datos contenidos en ciertas bases de datos en poder de organismos para llevar a cabo trabajos con fines científicos de interés público. Todo ello de manera controlada, segura y preservando la privacidad. Por ello, los investigadores e instituciones que tengan acceso a los datos estarán obligados a guardar absoluta reserva sobre los mismos y a no difundir ninguna información identificable.
En este contexto, el Instituto Nacional de Estadística (INE), la Agencia Estatal de Administración Tributaria (AEAT), distintas instancias de la Seguridad Social, el Servicio Público de Empleo Estatal (SEPE) y el Banco de España han firmado un convenio para dinamizar el acceso controlado a este tipo de datos. El acuerdo se enmarca en la estrategia de la Unión Europea y el Reglamento de Gobernanza de Datos (Data Governance Act o DGA en inglés), como te contamos en este artículo. Una de las ventajas de este convenio es que facilita el cruce de datos de diferentes organismos a través de Es_Datalab.
Es_Datalab, acceso conjunto a múltiples bases de datos
ES_DataLab es un laboratorio de microdatos restringido para investigadores que desarrollan proyectos con fines científicos y de interés público. El acceso a los microdatos se da en un entorno que garantiza la confidencialidad de la información, ya que no permite la identificación directa de las unidades, procedentes de distintas bases de datos.
Para acceder a este entorno se debe realizar una solicitud que se describe aquí y el acceso solo será válido durante el periodo especificado que dure la investigación. El proceso es el siguiente:
- El investigador debe ser reconocido como "entidad de investigación". Actualmente existe un registro de entidades (universidades, institutos de investigación, departamentos de investigación de administraciones públicas, etc.) que se irá ampliando a medida que nuevos organismos soliciten su incorporación.
- Una vez acreditada, la entidad debe solicitar el acceso a los microdatos, para lo cual es necesario presentar una propuesta de investigación.
A través de Es_ Datalab, se puede acceder a diversos microdatos, recogidos en este enlace. En este sentido, ES_Datalab facilita el cruce de bases de datos de las instituciones participantes, maximizando el valor que los datos pueden ofrecer al desarrollo de la investigación.
A continuación, te mostramos algunos ejemplos de los datos ofrecidos por cada uno de los organismos, ya sea a través de ES_datalab para su cruce con otras fuentes, o en sus propios entornos de tratamiento seguro.
Instituto Nacional de Estadística
Actualmente pone a disposición microdatos relativos conjuntos de datos del INE, entre los que se encuentran:
- Resultados de encuestas que recogen información sobre la inserción laboral de titulados universitarios, la estructura salarial, la población activa, las condiciones de vida, la salud en España, etc.
- Estadísticas sobre diversos aspectos sociales y económicos, como matrimonios o defunciones, actividades de protección medioambiental, filiales de empresas en el exterior, etc.
- Censos, tanto generales de población como por actividades económicas (por ejemplo, el censo agrario).
El INE, a su vez, cuenta con su propia sala segura que facilita el acceso a datos confidenciales para la realización de análisis estadísticos con fines científicos de interés público.
Agencia Estatal de la Administración Tributaria
Los microdatos relativos a las bases de datos que la AEAT ofrece incluyen información detallada sobre:
- Datos sobre las principales partidas contenidas en diversos modelos, como por ejemplo el modelo 100, relativo a la declaración anual del IRPF, el modelo 576, sobre matriculaciones de vehículos, o el modelo 714, del Impuesto sobre patrimonio, entre otros.
- Estadísticas de comercio exterior, con datos tanto totales como segmentados por sector de actividad.
También cabe destacar la aportación del Instituto de Estudios Fiscales, que se nutre de datos de la Agencia Estatal de la Administración Tributaria. Ligado al Ministerio de Hacienda, ha puesto a disposición de los ciudadanos un Área de estadística del Instituto de Estudios Fiscales, así como su propia sala segura. Entre sus bases de datos destacan, por ejemplo, las muestras de IRPF, los paneles de hogares, los paneles de renta o la base de datos económicos del sector español (BADESPE). La descripción de los productos y el protocolo de petición de datos se encuentra disponible aquí.
Seguridad Social
La Seguridad Social concede acceso a microdatos que hacen referencia a bases de datos como:
- La Muestra Continua de Vidas Laborales (MCVL), que incluye datos individuales, actuales e históricos, de bases de cotización, afiliaciones (vida laboral), pensiones, convivientes, Impuesto sobre la Renta de Personas Físicas (IRPF), etc.
- Los afiliados a la Seguridad Social con información mensual de relaciones laborales, por fechas de alta y baja de empresas, tipo de contrato, colectivo, régimen, provincia, etc.
- Las prestaciones reconocidas en el ejercicio anterior, que incluye pensiones de jubilación, incapacidad permanente, incapacidad temporal y nacimiento y cuidado del menor.
- Otras bases de datos como diversas liquidaciones presupuestarias, los expedientes de regulación temporal de empleo (ERTE) por COVID-19, los reconocimientos médicos del Instituto Social de la Marina (ISM) o datos sobre la formación marítima de estudiantes.
Las salas seguras de la Seguridad Social, disponibles en Madrid, Barcelona y Albacete, permiten el tratamiento de esta y otra información protegida ofreciendo acceso a una serie de puestos seguros con diversos programas y lenguajes de programación (SAS, STATA, R, Python y LibreOffice). También se permite el acceso remoto a través de dispositivos seguros (llamados “dispositivos bastionados”) que se distribuyen entre los investigadores.
Gracias a estos datos se han podido realizar estudios sobre el impacto de la edad de Jubilación sobre la mortalidad o el uso de los permisos de paternidad en España.
Banco de España
También encontramos en Es_Datalab microdatos relativos al Banco de España y a bases de datos como:
- Bases de datos sobre empresas, con información sobre empresas individuales, grupos empresariales no financieros consolidados o la estructura de grupos empresariales.
- Datos macroeconómicos, como la deuda del sector público o los préstamos a personas jurídicas.
- Otros datos relativos a indicadores de sostenibilidad o el panel de hogares.
BELab es el laboratorio de datos protegidos gestionado por el Banco de España, que ofrece acceso in situ (Madrid) y en remoto. Sus datos han permitido el desarrollo de proyectos sobre los efectos del salario mínimo interprofesional en las empresas españolas, la gestión de la tecnología en el sector textil o el machine learning aplicado al riesgo de crédito, entre otros. Puedes conocer todos los proyectos aquí, tanto los finalizados como los que todavía están en marcha.
Impulso a la reutilización de datos gracias al Reglamento de Gobernanza de Datos
Todas estas medidas forman parte del planteamiento y procesos armonizados llevado a cabo en ejecución de las previsiones del Reglamento de Gobernanza de Datos (Data Governance Act o DGA en inglés) para facilitar y fomentar la utilización con fines de investigación científica de los datos que obren en poder de los organismos del sector público, por razones de interés público. Asimismo, a fin de incentivar la reutilización de categorías específicas de datos que obren en poder de organismos del sector público, se ha habilitado en datos.gob.es el “Punto Único de Información Nacional” (NSIP por sus siglas en inglés), gestionado por la Dirección General del Dato.
Con ello, se busca contribuir al avance de la investigación científica en nuestro país, al tiempo que se protege la confidencialidad de los datos sensibles. Las Salas Seguras son un recurso importante para la reutilización de datos protegidos en poder del sector público. Permiten un tratamiento controlado de la información, preservan la privacidad y otros derechos vinculados a los datos, al mismo tiempo que facilitan el cumplimiento del Reglamento de Gobernanza de Datos europeo.
La Unión Europea ha diseñado una estrategia fundamental para garantizar la existencia de datos accesibles y reutilizables al servicio de la investigación, de la innovación y del emprendimiento. Se han tomado decisiones estratégicas tanto desde el punto de vista de la regulación, como en sentido material, para construir espacios para la compartición de datos y potenciar la aparición de intermediarios con la capacidad de procesar la información.
Las políticas europeas dan lugar a un ecosistema muy diverso que conviene diferenciar. De una parte, se profundiza en las políticas de reutilización de datos abiertos. De otra se trata de cubrir un espacio hasta hoy inaccesible. Nos referimos a aquellos datos que, debido a la garantía del derecho fundamental a la protección de datos, la propiedad intelectual o el secreto empresarial resultaban inaccesibles. Hoy las tecnologías de anonimización, y también las de intermediación de datos, hacen posible su tratamiento con las debidas garantías. Por último, se busca proporcionar recursos mediante el impulso de espacios de datos, las iniciativas que proponen modelos federativos, como Gaia X, o las infraestructuras europeas digitales (EDIC) impulsadas por la Comisión Europea y los Digital Innovation Hub dirigidos a impulsar la empresa y la Administración en este ámbito. Este escenario dinamizará distintos tipos de uso en la investigación, la invocación y el emprendimiento.
Este artículo se centra en el convenio celebrado por el Instituto Nacional de Estadística (INE), la Agencia Estatal de Administración Tributaria (AEAT), distintas instancias de la Seguridad Social, el Servicio Público de Empleo Estatal (SEPE) y el Banco de España para dinamizar el acceso a datos, que se enmarca en esta estrategia de la UE cuyos principios, reglas y condiciones deben exponerse para situarla en el contexto, subrayar su importancia y entender las implicaciones del convenio.
Competir desde la garantía de nuestros derechos
La UE compite con cierta desventaja estructural respecto de Estados Unidos o la República Popular China. En el lado norteamericano, los procesos de desarrollo de tecnologías disruptivas en el contexto de Internet y, particularmente, el despliegue de buscadores, redes sociales y aplicaciones móviles han favorecido el nacimiento de un mercado de data broking en el que unas pocas empresas poseen un poder casi monopolístico sobre los datos. Los grandes campeones del mundo digital manejan información prácticamente sobre todos los sectores de actividad, gracias a un modelo de negocio basado en la capitalización o la mercantilización de nuestra privacidad y su entrada en sectores como la salud o las pulseras de actividad. Cada vez que un usuario hizo una búsqueda, envió un mensaje de correo electrónico, comentó en una red social o dictó un mensaje al móvil, alimentó esa posición de dominio y sustentó el desarrollo de grandes modelos de lenguaje en inteligencia artificial o el despliegue de herramientas algorítmicas vinculadas al marketing neuroemocional.
Del lado chino, existe un modelo de Internet cerrado bajo control estatal, con una posición de participación y vigilancia sobre las grandes multinacionales locales del sector y se apunta un dominio global sobre el tráfico de las redes 5G. Se trata de un Estado vigilante que se ha convertido en la primera potencia en el despliegue de la inteligencia artificial mediante videovigilancia y reconocimiento facial y que maneja una política de Estado muy clara en materia de despliegue de la Inteligencia artificial (IA), generando ventajas para competir en esta carrera.
La UE parte de una posición aparentemente desventajosa. No se trata en absoluto de carencia de talento o altas capacidades. Gran parte del ecosistema de Internet y de las tecnologías de la información ha sido desarrollado en Europa o por talento europeo. Sin embargo, nuestro mercado no ha sido capaz de generar condiciones que permitieran la aparición de grandes campeones tecnológicos capaces de soportar el conjunto de la cadena de valor, desde infraestructuras en cloud a la disponibilidad de grandes volúmenes de datos que alimentan este ecosistema. Por otra parte, la UE adoptó un compromiso ético, político y jurídico con las libertades, la equidad y la democracia. Esta posición, que ha operado como una suerte de barrera en términos de costes y procesos, integra en su seno los requerimientos esenciales que requiere una transformación digital democrática, inclusiva y garante de las libertades.
La apuesta de Data Governance Act
El sustrato jurídico de la compartición de datos se integra por una compleja estructura modular que integra el Reglamento General de Protección de Datos (RGPD), la Directiva de datos abiertos y reutilización de información del sector público, la Data Governance Act (DGA), la Data Act (DA) y, en el futuro inmediato, la ley sobre Inteligencia Artificial (RIA) y el Reglamento sobre el Espacio Europeo de Datos Sanitarios (EHDS en sus siglas en inglés). Las normas deben facilitar la reutilización de los datos, incluidos aquellos bajo el alcance de la protección de datos, la propiedad intelectual y el secreto empresarial. Para hacerlo posible deben operar varios factores, que se exponen a continuación:
- La compartición de datos desde la Administración debe crecer exponencialmente y generar un mercado de datos hoy por hoy monopolizado por compañías foráneas.
- La soberanía digital en términos jurídicos será también un elemento dinamizador del crecimiento en la medida en la que define reglas de mercado basadas en la filosofía de la Unión Europea centradas en la garantía de los derechos fundamentales. Ello debería tener una consecuencia inmediata a la hora de definir procesos orientados a generar productos seguros y confiables.
- La soberanía digital tendrá a su vez consecuencias tecnológicas relevantes. Los espacios de datos ya sea públicos, ya sea promovidos desde digital hubs o federaciones de nodos, como Gaia X, deben poner los datos al alcance del investigador individual o la start up, incluyendo los dashboard de aplicaciones y el soporte técnico.
- El resultado de la normativa no es otro que acelerar e incrementar las posibilidades de liberar y compartir datos. La UE y el convenio que analizamos buscan liberar datos sujetos a deberes de secreto comercial, propiedad intelectual o, singularmente, la protección de los datos de carácter personal, de modo seguro a través de procesos de intermediación en entornos de datos seguros. Esta materia ha ocupado entre otros a la Agencia Española de Protección de Datos o a la Agencia Europea de Ciberseguridad (ENISA, en sus siglas en inglés). Ello implica apostar por la anonimización y/o por entornos de cuasi-anonimización a través de tecnologías como la privacidad diferencial, la encriptación homomórfica o la computación multi-parte.
Y todo ello desde la garantía de los derechos fundamentales y el empoderamiento de las personas. RGPD, DGA, DA y EHDS deberían permitir alcanzar el doble objetivo de generar un mercado europeo de libre circulación y reutilización de datos protegidos. Se garantiza así que las personas y entidades ejerzan sus derechos de control y, a la vez sea posible compartirlos fomentando además el altruismo de datos. Por otra parte, RGPD, DGA, EHDS y RIA definen límites precisos mediante prohibiciones de uso, condiciones de acceso regladas y procedimientos de diseño ética y jurídicamente garantizados. Con una idea que debe considerarse central, hay una dimensión del interés público o común que, más allá de las batallas épicas de COVID, alcanza a las pequeñas pero esenciales aspiraciones del investigador individual, del emprendedor disruptivo, de la PYME que trata de mejorar su cadena de valor o de la Administración innovando procesos al servicio de las personas.
España apuesta por la transformación digital de los espacios de datos
El Plan 2025, la Estrategia de Inteligencia Artificial, el esfuerzo de los fondos Next Generation a través de sus Proyectos Estratégicos para la Recuperación y Transformación Económica (PERTES), las Misiones de IA y la Carta de Derechos Digitales ejemplifican el alineamiento y liderazgo de España en este ámbito. Para hacer viables estas estrategias, es fundamental disponer de datos y entornos seguros de proceso. Ahora, al Espacio Nacional de Datos de Salud, se une el convenio celebrado entre el INE, la AEAT, distintas instancias de la Seguridad Social, el SEPE y el Banco de España. Como declara su exposición de motivos, constituye un primer y esperanzador paso para el despliegue de DGA en nuestro país.
Estas entidades entienden no solo el valor científico y empresarial de la información estadística que manejan, sino también el significativo crecimiento de su demanda y necesidad. Por otra parte, asumen una cuestión cualitativamente relevante: el interés que deriva de la interconexión de conjuntos de datos desde el punto de vista del valor que aportan. Por ello declaran su voluntad de maximizar el valor añadido de sus datos permitiendo el cruce o integración cuando la investigación se realice con fines científicos de interés público.
Las claves del convenio para proporcionar datos estadísticos a investigadores con fines científicos de interés público
A continuación, se resuelven algunas de las dudas que puedan surgir con respecto a este convenio.
-
¿Cómo se puede acceder a los datos?
El acceso a los datos pasa por una solicitud de acceso a información cruzada que debe ser individualmente aceptada por cada institución. Para ello se tienen en cuenta ciertos criterios de valoración que atienden a la naturaleza de los datos y al interés de la propuesta.
Facilitar este acceso implica para las instituciones firmantes un esfuerzo de desidentificación y cruce realizado por cada una de ellas directamente o a través de terceros de confianza. El resultado, “dependiendo del nivel de seguridad del fichero resultante”, implicará:
- Un acceso directo y autónomo.
- Un proceso de los datos en uno de las salas o centros seguros que pongan a disposición las entidades firmantes.
Algunas de las salas actualmente disponibles son:
También cabe destacar la creacion de ES_DataLab, que facilita el acceso a microdatos, en un entorno que garantiza la confidencialidad de la información. Permite cruzar datos de distintas instituciones participantes, como el INE, la AEAT, la Secretaría de Estado de Seguridad Social y Pensiones, la Tesorería General de la Seguridad Social (TGSS), el Instituto Nacional de la Seguridad Social (INSS), el Instituto Social de la Marina (ISM), la Gerencia de Informática de la Seguridad Social (GISS), el Servicio Público de Empleo Estatal y el Banco de España.
Además, en ejecución de las previsiones de la DGA se ha habilitado el “Punto Único de Información Nacional” (NSIP por sus siglas en inglés), gestionado por la Dirección General del Dato, desde donde ciudadanos, empresarios o investigadores, puedan localizar información sobre datos protegidos del sector público. Este punto se encuentra disponible en datos.gob.es.
-
¿Qué datos se comparten?
El volumen y las tipologías de datos que manejan son realmente significativos. La nota de prensa de presentación del convenio señalaba que se podrá acceder a "las bases de microdatos de las que son titulares el INE, la AEAT, la SS y el BE, con las necesarias garantías de seguridad, secreto estadístico, protección de datos personales y sometimiento a la Ley vigente. Además de las bases de datos estadísticas procedentes de sus encuestas, el INE también podrá dar acceso a registros administrativos, tanto a los elaborados o coordinados por él, como a los de otra titularidad pero que el INE utiliza para elaborar sus estadísticas (consultando en este último caso todas las solicitudes de acceso a los titulares de los correspondientes registros)".
-
¿Quién puede acceder a los datos?
Para conceder el acceso a los datos, se tendrán en cuenta, entre otros aspectos, el régimen de confidencialidad aplicable a los datos solicitados y su marco legal, el interés social de los resultados que se pretenden obtener en la investigación, el perfil, trayectoria y publicaciones científicas del investigador principal y de los investigadores asociados o el historial de proyectos de investigación de la entidad que avala el proyecto.
Una de las cuestiones que ha previsto la DGA en esta materia consiste en posibilitar el establecimiento de contraprestaciones económicas que aseguren la sostenibilidad del sistema. En cualquier caso, la cláusula tercera del convenio ha previsto la posibilidad de percibir contraprestaciones económicas de los solicitantes por los servicios de preparación y puesta a disposición de los datos contenidos en las bases que son de su titularidad, según lo previsto en la legislación estadística (artículo 21.3 de la Ley 12/1989, de 9 de mayo, de la Función Estadística Pública - LFEP) y en la normativa reguladora de cada institución.
-
¿Qué retos afrontan los solicitantes de acceso a datos y los firmantes?
Con independencia de las condiciones científicas de la propuesta de investigación, es fundamental apelar a las instituciones que la despliegan para crecer de modo significativo en la calidad de sus procesos de cumplimiento en materia de protección de datos y seguridad de la información. Pero no bastará con ello, el despliegue de la inteligencia artificial obliga a incorporar procesos adicionales que podemos encontrar en el documento de la Conferencia de Rectores de Universidades Españolas CRUE TIC 360º, abordado en 2023 para el supuesto de la universidad. Si bien es cierto que RIA propone un escenario de menor regulación en la investigación básica, también obliga a un despliegue ético de alto nivel. Y para ello, será esencial aplicar principios de ética de la inteligencia artificial, con el modelo ALTAI (Assessment List for Trustworthy Artificial Intelligence) u otro alternativo, y al Análisis de Impacto en los derechos fundamentales (FRAIA). Ello sin descuidar los altos requerimientos legales para el desarrollo de sistemas orientados al mercado. Más allá, de las declaraciones formales del Convenio, las lecciones aprendidas en proyectos europeos nos hacen afirmar la necesidad de un entramado procedimental de verificación jurídica y ética, basada en la evidencia, sobre los proyectos de investigación y las capacidades de las instituciones que soliciten acceso a datos.
Desde el punto de vista de las instituciones firmantes, además del reto de la sostenibilidad económica del modelo, prevista y regulada en el convenio, parece evidente la necesidad de una estrategia de inversión regulatoria. No nos cabe duda que cada repositorio de datos y los procesos que los sostienen han contado con una evaluación de impacto relativa a la protección de datos y con las metodologías de seguridad vinculadas al Esquema Nacional. La protección de datos desde el diseño y por defecto o el cumplimiento de las recomendaciones sobre anonimización y gestión de espacios de datos arriba citadas serán otros elementos considerados. Y ello se traduce en procesos, pero también en personas, -chief data officers, analistas de datos, otros mediadores como personas delegadas de protección de datos… -, junto a un alto nivel de exigencia en seguridad. Por otra parte, el deber de transparencia respecto de la ciudadanía obligará a disponer de canales eficientes y un modelo muy preciso de gestión del riesgo ante un eventual ejercicio masivo de un derecho de oposición al tratamiento, sin perjuicio de su viabilidad.
Por último, la Agencia Española de Protección de Datos debería aproximarse a este proceso de modo proactivo y promocional sin renunciar a su rol de garante de derechos fundamentales, pero contribuyendo al desarrollo de soluciones funcionales. Este no es un convenio cualquiera sino un banco de pruebas esencial para el futuro de la investigación con datos en España.
A nuestro juicio, la declaración más ilusionante de estas instituciones consiste en entender el convenio "como el embrión del futuro Sistema de acceso a datos para la investigación con fines científicos de interés público, que deberá ser conforme a la estrategia española y europea sobre datos y a la legislación sobre su gobernanza, en un marco de desarrollo de espacios de datos del sector público, y respetar en todo caso la autonomía y el régimen legal aplicable al Banco de España".
Contenido elaborado por Ricard Martínez Martínez, Director de la Cátedra de Privacidad y Transformación Digital, Departamento de Derecho Constitucional de la Universitat de València. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.