Malentendidos comunes en la anonimización de datos
Fecha de la noticia: 28-11-2022
La anonimización de datos es un proceso complejo y habitualmente propenso a malentendidos. En el peor de los casos, estos errores de concepto conllevan la fuga de datos personales (data leakage), afectando directamente a las garantías que deberían ofrecerse a los usuarios con respecto a su privacidad.
La anonimización tiene por objetivo convertir los datos en anónimos, evitando la reidentificación de los individuos. Sin embargo, la mera aplicación de técnicas de anonimización no garantiza el anonimato de los datos. El riesgo principal se mide precisamente por la probabilidad de reidentificación, es decir, la probabilidad de que se identifique a un individuo dentro de un conjunto de datos.
La mayoría de los ataques realizados sobre conjuntos de datos anonimizados tratan de explotar debilidades comunes en el proceso, normalmente mediante el uso de datos complementarios. Un ejemplo muy conocido es el caso del conjunto de datos publicado por Netflix en 2007, donde a partir de los datos obtenidos de Internet Movie Database (IMDb), dos investigadores de la Universidad de Texas fueron capaces de identificar a los usuarios y vincularlos con sus posibles preferencias políticas y otros datos sensibles.
Pero estos fallos no sólo afectan a empresas privadas, a mediados de los 90, el Dr. Sweeney fue capaz de re-identificar registros médicos del Gobernador de Massachusetts, quién había asegurado que el conjunto de datos publicados era seguro. Más adelante, en el año 2000, el mismo investigador demostró que era posible re-identificar al 87% de los habitantes de Estados unidos con sólo conocer su código postal, fecha de nacimiento el sexo.
A continuación, veremos algunos ejemplos habituales de malentendidos que es importante evitar si queremos abordar un proceso de anonimización de forma adecuada.
No siempre es posible anonimizar un conjunto de datos
La anonimización de datos es un proceso diseñado a medida, para cada fuente de datos y para cada estudio o caso de uso a desarrollar. En ocasiones, el riesgo de reidentificación puede ser inasumible o el conjunto de datos resultante podría no tener la utilidad suficiente. Dependiendo del contexto concreto y los requisitos establecidos, la anonimización podría no ser viable.
Sin embargo, un error común es pensar que siempre es factible anonimizar un conjunto de datos, cuando realmente depende del nivel de garantías requerido o la utilidad necesaria para el caso de estudio.
La automatización y reutilización de procesos de anonimización es limitada
Aunque es posible automatizar algunas partes del proceso, otras fases requieren la intervención manual de un experto. Es especial, no existen herramientas que permitan evaluar de forma fiable la utilidad del conjunto de datos resultante para un escenario concreto, o la detección de posibles identificadores indirectos a partir de fuentes externas de datos.
De igual modo, no es recomendable reutilizar procesos de anonimización aplicados sobre fuentes de datos diferentes. Los condicionantes varían en cada caso concreto, siendo crítico evaluar el volumen de datos disponible, la existencia de fuentes de datos complementarias y el público objetivo.
La anonimización no es ni permanente ni absoluta
Debido a la posible aparición de nuevos datos o el desarrollo de nuevas técnicas, el riesgo de reidentificación aumenta con el paso del tiempo. El nivel de anonimización se debe medir en una escala, no es un concepto binario, donde normalmente la anonimización no puede considerarse absoluta, porque no es posible asumir un nivel de riesgo nulo.
La seudonimización no es lo mismo que la anonimización
En concreto, esta técnica consiste en modificar los valores de atributos clave (como identificadores) por otros valores que no estén vinculados al registro original.
El problema principal es que sigue existiendo la posibilidad de vincular a la persona física de manera indirecta a partir de datos adicionales, haciendo que sea un proceso reversible. De hecho, normalmente el responsable del tratamiento de datos preserva la capacidad de deshacer dicho proceso.
El cifrado no es una técnica de anonimización, sino de seudonimización
El cifrado de datos se enmarca en la seudonimización, en este caso reemplazando los atributos clave por versiones cifradas. La información adicional sería la clave de cifrado, custodiada por el responsable del tratamiento de los datos.
El ejemplo más conocido es el conjunto de datos publicado en 2013 por la Comisión de Taxis y Limusinas de la ciudad de Nueva York. Entre otros datos, contenía ubicaciones de recogida y destino, horarios y en especial el número de licencia cifrado. Posteriormente se descubrió que era relativamente sencillo deshacer el cifrado e identificar a los conductores.
Conclusiones
Existen otros lugares comunes que dan lugar a malentendidos respecto a la anonimización, como el equívoco generalizado sobre la pérdida total de la utilidad de un conjunto de datos anonimizado, o la falta de interés por la reidentificación de datos personales.
La anonimización es un proceso técnicamente complejo, que requiere de la participación de perfiles especializados y técnicas avanzadas de análisis de datos. Un proceso sólido de anonimización, evalúa el riesgo de reidentificación y define las pautas para gestionarlo a lo largo del tiempo.
A cambio, la anonimización permite compartir más fuentes de datos, de forma más segura y preservando su utilidad en multitud de escenarios, con especial hincapié en el análisis de datos de salud y estudios de investigación que habilitan el avance de la ciencia a nuevos niveles.
Si quieres profundizar en esta materia te invitamos a leer la guia de Introducción a la anonimización de datos: Técnicas y casos prácticos, la cual incluye un conjunto de ejemplos prácticos. El código y los datos utilizados en el ejercicio, están disponibles en Github.
Contenido elaborado por José Barranquero, experto en Ciencia de Datos y Computación Cuántica.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.