La Agencia Española de Protección de Datos ha publicado recientemente la traducción al español de la Guía sobre generación de datos sintéticos, elaborada originalmente por la Autoridad de Protección de Datos de Singapur. Este documento ofrece orientación técnica y práctica para personas responsables, encargadas y delegadas de protección de datos sobre cómo implementar esta tecnología que permite simular datos reales manteniendo sus características estadísticas sin comprometer información personal.
La guía destaca cómo los datos sintéticos pueden impulsar la economía del dato, acelerar la innovación y mitigar riesgos en brechas de seguridad. Para ello, presenta casos prácticos, recomendaciones y buenas prácticas orientadas a reducir los riesgos de reidentificación. En este post, analizamos los aspectos clave de la Guía destacando casos de uso principales y ejemplos de aplicación práctica.
¿Qué son los datos sintéticos? Concepto y beneficios
Los datos sintéticos son datos artificiales generados mediante modelos matemáticos específicamente diseñados para sistemas de inteligencia artificial (IA) o aprendizaje automático (ML). Estos datos se crean entrenando un modelo con un conjunto de datos de origen para imitar sus características y estructura, pero sin replicar exactamente los registros originales.
Los datos sintéticos de alta calidad conservan las propiedades estadísticas y los patrones de los datos originales. Por lo tanto, permiten realizar análisis que produzcan resultados similares a los que se obtendrían con los datos reales. Sin embargo, al ser artificiales, reducen significativamente los riesgos asociados con la exposición de información sensible o personal.
Para profundizar en este tema, tienes disponible este Informe monográfico sobre datos sintéticos: ¿Qué son y para qué se usan? con información detallada sobre los fundamentos teóricos, metodologías y aplicaciones prácticas de esta tecnología.
La implementación de datos sintéticos ofrece múltiples ventajas para las organizaciones, por ejemplo:
- Protección de la privacidad: permiten realizar análisis de datos manteniendo la confidencialidad de la información personal o comercialmente sensible.
- Cumplimiento normativo: facilitan el seguimiento de regulaciones de protección de datos mientras se maximiza el valor de los activos de información.
- Reducción de riesgos: minimizan las posibilidades de brechas de datos y sus consecuencias.
- Impulso a la innovación: aceleran el desarrollo de soluciones basadas en datos sin comprometer la privacidad.
- Mejora en la colaboración: posibilitan compartir información valiosa entre organizaciones y departamentos de forma segura.
Pasos para generar datos sintéticos
Para implementar correctamente esta tecnología, la Guía sobre generación de datos sintéticos recomienda seguir un enfoque estructurado en cinco pasos:
- Conocer los datos: comprender claramente el propósito de los datos sintéticos y las características de los datos de origen que deben preservarse, estableciendo objetivos precisos respecto al umbral de riesgo aceptable y la utilidad esperada.
- Preparar los datos: identificar las ideas clave que deben conservarse, seleccionar los atributos relevantes, eliminar o seudonimizar identificadores directos, y estandarizar los formatos y estructuras en un diccionario de datos bien documentado.
- Generar datos sintéticos: seleccionar los métodos más adecuados según el caso de uso, evaluar la calidad mediante comprobaciones de integridad, fidelidad y utilidad, y ajustar iterativamente el proceso para lograr el equilibrio deseado.
- Evaluar riesgos de reidentificación: aplicar técnicas basadas en ataques para determinar la posibilidad de inferir información sobre individuos o su pertenencia al conjunto original, asegurando que los niveles de riesgo sean aceptables.
- Gestionar riesgos residuales: implementar controles técnicos, de gobernanza y contractuales para mitigar los riesgos identificados, documentando adecuadamente todo el proceso.
Aplicaciones prácticas y casos de éxito
Para obtener todas estas ventajas, los datos sintéticos pueden aplicarse en diversos escenarios que responden a necesidades específicas de las organizaciones. La Guía menciona, por ejemplo:
1. Generación de conjuntos de datos para entrenar modelos de IA/ML: los datos sintéticos resuelven el problema de la escasez de datos etiquetados (es decir, que se pueden utilizar) para entrenar modelos de IA. Cuando los datos reales son limitados, los datos sintéticos pueden ser una alternativa rentable. Además, permiten simular eventos extraordinarios o incrementar la representación de grupos minoritarios en los conjuntos de entrenamiento. Una aplicación interesante para mejorar el rendimiento y la representatividad de todos los grupos sociales en los modelos de IA.
2. Análisis de datos y colaboración: este tipo de datos facilitan el intercambio de información para análisis, especialmente en sectores como la salud, donde los datos originales son particularmente sensibles. Tanto en este sector como en otros, proporcionan a las partes interesadas una muestra representativa de los datos reales sin exponer información confidencial, permitiendo evaluar la calidad y potencial de los datos antes de establecer acuerdos formales.
3. Pruebas de software: son muy útiles para el desarrollo de sistemas y la realización de pruebas de software porque permiten utilizar datos realistas, pero no reales en entornos de desarrollo, evitando así posibles brechas de datos personales en caso de comprometerse el entorno de desarrollo.
La aplicación práctica de datos sintéticos ya está demostrando resultados positivos en diversos sectores:
I. Sector financiero: detección de fraudes. J.P. Morgan ha utilizado con éxito datos sintéticos para entrenar modelos de detección de fraude, creando conjuntos de datos con un mayor porcentaje de casos fraudulentos que permitieron mejorar significativamente la capacidad de los modelos para identificar comportamientos anómalos.
II. Sector tecnológico: investigación sobre sesgos en IA. Mastercard colaboró con investigadores para desarrollar métodos de prueba de sesgos en IA mediante datos sintéticos que mantenían las relaciones reales de los datos originales, pero eran lo suficientemente privados como para compartirse con investigadores externos, permitiendo avances que no habrían sido posibles sin esta tecnología.
III. Sector salud: salvaguarda de datos de pacientes. Johnson & Johnson implementó datos sintéticos generados por IA como alternativa a las técnicas tradicionales de anonimización para procesar datos sanitarios, logrando una mejora significativa en la calidad del análisis al representar eficazmente a la población objetivo mientras se protegía la privacidad de los pacientes.
El equilibrio entre utilidad y protección
Es importante destacar que los datos sintéticos no están inherentemente libres de riesgos. La semejanza con los datos originales podría, en determinadas circunstancias, permitir la filtración de información sobre individuos o datos confidenciales. Por ello, resulta crucial encontrar un equilibrio entre la utilidad de los datos y su protección.
Este equilibrio puede lograrse mediante la implementación de buenas prácticas durante el proceso de generación de datos sintéticos, incorporando medidas de protección como:
- Preparación adecuada de los datos: eliminación de valores atípicos, seudonimización de identificadores directos y generalización de datos granulares.
- Evaluación de riesgos de reidentificación: análisis de la posibilidad de que se puedan vincular los datos sintéticos con individuos reales.
- Implementación de controles técnicos: añadir ruido a los datos, reducir la granularidad o aplicar técnicas de privacidad diferencial.
Los datos sintéticos representan una oportunidad excepcional para impulsar la innovación basada en datos mientras se respeta la privacidad y se cumple con las normativas de protección de datos. Su capacidad para generar información estadísticamente representativa pero artificial los convierte en una herramienta versátil para múltiples aplicaciones, desde el entrenamiento de modelos de IA hasta la colaboración entre organizaciones y el desarrollo de software.
Al implementar adecuadamente las buenas prácticas y controles descritos en Guía sobre generación de datos sintéticos que ha traducido la AEPD, las organizaciones pueden aprovechar los beneficios de los datos sintéticos minimizando los riesgos asociados, posicionándose a la vanguardia de la transformación digital responsable. La adopción de tecnologías de mejora de la privacidad como los datos sintéticos no solo representa una medida defensiva, sino un paso proactivo hacia una cultura organizacional que valora tanto la innovación como la protección de datos, aspectos fundamentales para el éxito en la economía digital del futuro.
La Agencia Española de Protección de Datos (AEPD) ha lanzado una guía de orientación para fomentar la reutilización de la información del sector público mientras se garantiza la privacidad de los ciudadanos. Con el fin de ofrecer unas directrices que acompañen en la implementación de estas técnicas, la AEPD ha publicado conjuntamente el documento Orientaciones y garantías en los procedimientos de anonimización de datos personales que explica pormenorizadamente cómo ocultar, enmascarar o disociar datos personales con el fin deeliminar o reducir al mínimo los riesgos de reidentificación de los datos anonimizados,permitiendo su divulgación y asegurando que no se vulneren los derechos a la protección de datos de las personas u organizaciones que no deseen ser identificadas, o que hayan puesto el anonimato como condición para ceder sus datos para su publicación. En resumen, una fórmula para compatibilizar el fomento de la reutilización y la normativa reguladora en materia de protección de datos, que asegure que el esfuerzo de reidentificación de los sujetos conlleva un coste suficientemente elevado para que no pueda ser abordado “en términos de relación esfuerzo-beneficio”.
El documento muestra, tanto los principios a tener en cuenta en un proceso de anonimización en las etapas de diseño del sistema de información(principio de privacidad por defecto, de privacidad objetiva, de plena funcionalidad, etc.), como las fases del protocolo de actuación en el proceso de anonimización, entre otras las siguientes:
- Definición del equipo de trabajo detallando las funciones de cada perfil, y garantizando, en la medida de lo posible, que cada miembro desempeñe sus tareas de forma independiente del resto. De esta manera, se evita que un error en un nivel sea revisado y aprobado en un nivel distinto por el mismo agente.
- Análisis de riesgos para gestionar los riesgos resultantes del principio de que ninguna técnica de anonimización puede garantizar en términos absolutos la imposibilidad de reidentificación.
- Definición de objetivos y finalidad de la información anonimizada.
- Preanonimización, eliminación/reducción de variables y anonimización criptográfica a través de técnicas tales como los algoritmos de Hash, algoritmos de cifrado, sello de tiempo, capas de anonimización, etc.
- Creación de un mapa de sistemas de información que asegure entornos segregados para cada tratamiento de datos personales que implique la separación del personal que accede a dicha información.
Por último el documento señala la importancia de formar e informar al personal implicado en los procesos de anonimización y al que trabaja con los datos anonimizados, destaca la necesidad de establecer garantías para proteger los derechos de los interesados (acuerdos de confidencialidad, auditorías del uso de la información anonimizada por parte de su destinatario…) y establece como fundamental la realización de auditorías periódicas de las políticas de anonimización, que deben estar documentadas.
La AEPD ofrece estas orientaciones aún a sabiendas que las mismas capacidades tecnológicas que se utilizan para anonimizar datos personales pueden ser utilizadas para la reidentificación de las personas. Es por ello por lo que insiste en la importancia de contemplar el riesgo como una contingencia latente y sustentar la fortaleza de la anonimización en medidas de evaluación del impacto, organizativas, tecnológicas, etc.; todo ello con el fin de conjugar la puesta a disposición de datos públicos y, a su vez, garantizar la protección de datos personales en la reutilización de la información con fines sociales, científicos y económicos.
La Ley 18/2015, de 9 de julio, por la que se modifica la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público, establece que las Administraciones y los organismos públicos tienen la obligación inequívoca de autorizar la reutilización de su información, incluyendo a aquellas instituciones del ámbito cultural como museos, archivos y bibliotecas.
Con el fin de que la puesta a disposición de la información para su reutilización no interfiera con la privacidad de los datos de carácter personal, la Agencia Española de Protección de Datos ha publicado un documento de Orientaciones sobre protección de datos en la reutilización de la información del sector público donde se reúnen aquellos aspectos a tener en cuenta por el sector público a la hora de abrir sus datos de forma compatible con la garantía del derecho fundamental a la protección de datos reconocido en el artículo 18.4 de la Constitución, en el artículo 4.6 de la Ley Orgánica 15/1999 de Protección de Datos de Carácter Personal y en el artículo 8 de la Carta de los Derechos Fundamentales de la Unión Europea.
Tal y como se refiere en el documento, el tratamiento y reutilización de la información del sector público por parte del reutilizador puede comportar la combinación de dicha información con otras fuentes de datos, la utilización de tecnologías de datos masivos (big data) o de minería de datos (data mining) que limitan el seguimiento y control sobre el uso de los datos abiertos públicos y, por ende, lo que podría producir incertidumbre respecto de la privacidad de dicha información. Sin embargo, según la AEPD, estos riesgos asociados no deberían suponer una restricción de la reutilizaciónteniendo en cuenta las ventajas que supone para el conjunto de la sociedad. La guía intenta dar respuesta a esta cuestión, resaltando la importancia de metodologías preventivas como la evaluación de impacto de la reutilización en la protección de datos personales (EIPD) -que analiza los posibles riesgos que puede implicar el tratamiento de los datos personales- y de soluciones proactivas como la anonimización de los datos, así como las garantías jurídicas e instrumentos jurídicos precisos para recoger estas garantías.
El documento muestra cómo realizar la evaluación de impacto en la protección de datos por parte del organismo que autoriza la reutilización, el cual puede elaborar el análisis de forma autónoma o con la ayuda del reutilizador, sin facilitar, en tal caso, datos sensibles o de carácter personal.
A su vez, el texto indica cómo la anonimización puede reforzarse por medio de compromisos jurídicamente vinculantes como la indicación expresa de prohibir la reidentificación y reutilización de los datos personales en la toma de decisiones. Por último, también incluye algunas medidas de ejemplo para asegurar el cumplimiento de dichas garantías jurídicas: desde las evaluaciones periódicas sobre el riesgo de reidentificación; la realización de auditorías sobre el uso de la información reutilizada o la inclusión de advertencias en los sitios web sobre la reidentificación de los datos personales.
Gracias a esta guía de orientación, la Agencia Española de Protección de Datos abre el camino para difundir buenas prácticas de cara a encontrar la respuesta a uno de los principales riesgos asociados a la reutilización de la información del sector público como es la reidentificación de los ciudadanos, instruyendo a los gestores de las instituciones públicas sobre cómo facilitar los datos abiertos cumpliendo las debidas garantías jurídicas de protección de datos.