Blog

En los últimos años, las iniciativas de datos abiertos han transformado la forma en que, tanto instituciones públicas como organizaciones privadas, gestionan y comparten la información. La adopción de los principios FAIR (Findable, Accessible, Interoperable, Reusable) ha sido clave para garantizar que los datos generen un impacto positivo, maximizando su disponibilidad y su reutilización.

Sin embargo, en contextos de vulnerabilidad (como pueblos indígenas, minorías culturales o territorios en situación de riesgo) surge la necesidad de incorporar un marco ético que garantice que la apertura de datos no derive en perjuicios ni profundice las desigualdades. Aquí es donde entran en juego los principios CARE (Collective Benefit, Authority to Control, Responsibility, Ethics), propuestos por el Global Indigenous Data Alliance (GIDA), que complementan y enriquecen el enfoque FAIR.

Es importante señalar que, aunque los principios CARE surgen en el contexto de las comunidades indígenas (para asegurar una soberanía efectiva de los pueblos indígenas sobre sus datos y su derecho a generar valor de acuerdo con sus propios valores), estos pueden extrapolarse a otros escenarios diferentes. De hecho, estos principios son muy útiles en cualquier situación donde los datos se recolecten en territorios con algún tipo de vulnerabilidad social, territorial, medioambiental o, incluso, cultural.

Este artículo explora cómo los principios CARE pueden integrarse en las iniciativas de datos abiertos generando un impacto social sobre la base de un uso responsable que no perjudique a comunidades vulnerables.

Los principios CARE en detalle

Los principios CARE ayudan a garantizar que las iniciativas de datos abiertos no se limiten a aspectos técnicos, sino que incorpore también consideraciones sociales, culturales y éticas. En concreto, los cuatro principios CARE son los siguientes:

  1. Collective Benefit (beneficio colectivo): los datos deben usarse para generar un beneficio que sean compartido de manera justa entre todas las partes involucradas. De esta manera, la apertura de datos debería apoyar el desarrollo sostenible, el bienestar social y el fortalecimiento cultural de una comunidad vulnerable, por ejemplo, evitando prácticas relacionadas con los datos abiertos que solo favorezcan a terceros.
  2. Authority to Control (autoridad para controlar): las comunidades vulnerables tienen el derecho a decidir cómo se recopilan, gestionan, comparten y reutilizan los datos que generan. Este principio reconoce la soberanía de los datos y la necesidad de respetar sistemas de gobernanza propios, en lugar de imponer criterios externos.

  3. Responsibility (responsabilidad): quienes gestionan y reutilizan los datos deben actuar con responsabilidad hacia las comunidades involucradas, reconociendo posibles impactos negativos y aplicando medidas para mitigarlos. Esto incluye prácticas como la consulta previa, la transparencia en el uso de los datos y la creación de mecanismos de rendición de cuentas.

  4. Ethics (ética): la dimensión ética exige que la apertura y reutilización de los datos respete los derechos humanos, los valores culturales y la dignidad de las comunidades. No se trata únicamente de cumplir con la legalidad, sino de ir más allá, aplicando principios éticos a través de un código deontológico.

En conjunto, estos cuatro principios ofrecen una guía para gestionar los datos abiertos de manera más justa y responsable, respetando la soberanía y los intereses de las comunidades a las que esos datos se refieren.

CARE y FAIR: principios complementarios para datos abiertos que trascienden

Los principios CARE y FAIR no son opuestos, sino que operan en planos distintos y complementarios:

  1. FAIR se centra en la facilitar técnicamente el consumo de datos.

  2. CARE introduce la dimensión social y ética (incluso cultural considerando comunidades vulnerables concretas).

Los principios FAIR se enfocan en las dimensiones técnicas y operativas de los datos. Es decir, los datos que cumplen estos principios son fácilmente localizables, están disponibles sin barreras innecesarias y con identificadores únicos, usan estándares para asegurar la interoperabilidad y pueden utilizarse en distintos contextos para fines diferentes de los que fueron pensados en un principio.

No obstante, los principios FAIR no abordan directamente cuestiones de justicia social, soberanía ni ética. En particular, estos principios no contemplan que los datos pueden representar conocimientos, recursos o identidades de comunidades que históricamente han sufrido exclusión o explotación o de comunidades relacionadas con territorios con valores medioambientales, sociales o culturales únicos. Para ello, se pueden utilizar los principios CARE, que complementan a los principios FAIR, agregando una base ética y de gobernanza comunitaria a cualquier iniciativa de datos abiertos.

De esta forma, una estrategia de datos abiertos que aspire a ser socialmente justa y sostenible debe articular ambos principios. FAIR sin CARE corre el riesgo de invisibilizar derechos colectivos promoviendo una reutilización de datos poco ética. Por otro lado, CARE sin FAIR puede limitar el potencial de interoperabilidad y reutilización, haciendo los datos inservibles para generar un beneficio positivo en una comunidad o territorio vulnerable.

Infografía titulada “Principios FAIR vs Principios CARE”. En el centro hay un diagrama de Venn con dos círculos superpuestos: el círculo azul a la izquierda representa los “Principios FAIR” y el círculo amarillo a la derecha representa los “Principios CARE”. En la intersección se indica “Datos abiertos responsablemente”. A la izquierda, junto al círculo azul, se listan los cuatro principios FAIR con iconos:  Encontrables (icono de lupa) Accesibles (icono de mano señalando) Interoperables (icono de red de nodos) Reutilizables (icono de flechas circulares)  A la derecha, junto al círculo amarillo, se listan los cuatro principios CARE con iconos:  Beneficio colectivo (icono de personas conectadas) Autoridad para controlar (icono de persona con engranaje) Responsabilidad (icono de lista con marcas) Ética (icono de balanza)  En la parte inferior izquierda aparece el logotipo “datos.gob.es” con el lema “potenciando nuestra economía digital”. En la esquina inferior derecha se indica la fuente: “Fuente: elaboración propia - datos.gob.es”.

Un ejemplo ilustrativo se encuentra en la gestión de datos sobre biodiversidad en un área natural protegida. Mientras los principios FAIR aseguran que los datos puedan integrarse con diversas herramientas para ser ampliamente reutilizados (por ejemplo, en investigaciones científicas), los principios CARE recuerdan que los datos sobre especies y los territorios en los que habitan pueden tener implicaciones directas para las comunidades que viven en (o cerca de) esa área natural protegida. Por ejemplo, hacer públicos los puntos exactos donde se encuentran especies en peligro de extinción en un área natural protegida, podría facilitar su explotación ilegal en lugar de su conservación, lo que obliga a definir cuidadosamente cómo, cuándo y bajo qué condiciones se comparten esos datos.

Veamos ahora cómo en este ejemplo se podrían cumplir los principios CARE:

  • En primer lugar, los datos sobre biodiversidad deben usarse para proteger los ecosistemas y fortalecer a las comunidades locales, generando beneficios en forma de conservación, turismo sostenible o educación ambiental, en lugar de favorecer intereses privados aislados (es decir, principio de beneficio colectivo).

  • En segundo lugar, las comunidades que habitan cerca del área natural protegida o dependen de esos recursos tienen derecho a decidir cómo se gestionan los datos sensibles, por ejemplo, exigir que la ubicación de ciertas especies no se publique de forma abierta o se publique de manera agregada (es decir, principio de autoridad).

  • Por otra parte, las personas encargadas de la gestión de estas áreas protegidas del parque deben actuar con responsabilidad, estableciendo protocolos para evitar daños colaterales (como la caza furtiva) y garantizando que los datos se usen de manera coherente con los objetivos de conservación (esto es, principio de responsabilidad).

  • Finalmente, la apertura de estos datos debe guiarse por principios éticos, priorizando la protección de la biodiversidad y los derechos de las comunidades locales frente a intereses económicos (o incluso académicos) que puedan poner en riesgo los ecosistemas o las poblaciones que dependen de ellos (principio de ética).

Cabe destacar que varias iniciativas internacionales, como la justicia de datos ambientales indígenas relacionada con el International Indigenous Data Sovereignty Movement y el Research Data Alliance (RDA) a través del Care Principles for Indigenous Data Governance, ya promueven la adopción conjunta de CARE y FAIR como base de iniciativas de datos más equitativas.

Conclusiones

Garantizar los principios FAIR es esencial para que los datos abiertos generen valor a través de su reutilización. Sin embargo, las iniciativas de datos abiertos deben ir acompañadas de un compromiso firme con la justicia social, la soberanía de las comunidades vulnerables y la ética. Solo la integración de los principios CARE junto a los FAIR permitirá impulsar prácticas de datos abiertos verdaderamente justas, equitativas, inclusivas y responsables.

Jose Norberto Mazón, Catedrático de Lenguajes y Sistemas Informáticos de la Universidad de Alicante​. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

Blog

Durante los últimos años hemos visto avances espectaculares en el uso de la inteligencia artificial (IA) y, detrás de todos estos logros, siempre encontraremos un mismo ingrediente común: los datos. Un ejemplo ilustrativo y conocido por todo el mundo es el de los modelos de lenguaje utilizados por OpenAI para su famoso ChatGPT, como por ejemplo GPT-3, uno de sus primeros modelos que fue entrenado con más de 45 terabytes de datos, convenientemente organizados y estructurados para que resultaran de utilidad.

Sin suficiente disponibilidad de datos de calidad y convenientemente preparados, incluso los algoritmos más avanzados no servirán de mucho, ni a nivel social ni económico. De hecho, Gartner estima que más del 40% de los proyectos emergentes de agentes de IA en la actualidad terminarán siendo abandonados a medio plazo debido a la falta de datos adecuados y otros problemas de calidad. Por tanto, el esfuerzo invertido en estandarizar, limpiar y documentar los datos puede marcar la diferencia entre una iniciativa de IA exitosa y un experimento fallido. En resumen, el clásico principio de basura entra, basura sale en la ingeniería informática aplicado esta vez a la inteligencia artificial: si alimentamos una IA con datos de baja calidad, sus resultados serán igualmente pobres y poco fiables.

Tomando consciencia de este problema surge el concepto de AI Data Readiness o preparación de los datos para ser usados por la inteligencia artificial. En este artículo exploraremos qué significa que los datos estén "listos para la IA", por qué es importante y qué necesitaremos para que los algoritmos de IA puedan aprovechar nuestros datos de forma eficaz. Esto revierta en un mayor valor social, favoreciendo la eliminación de sesgos y el impulso de la equidad.

¿Qué implica que los datos estén "listos para la IA"?

Tener datos listos para la IA (AI-ready) significa que estos datos cumplen una serie de requisitos técnicos, estructurales y de calidad que optimizan su aprovechamiento por parte de los algoritmos de inteligencia artificial. Esto incluye múltiples aspectos como la completitud de los datos, la ausencia de errores e inconsistencias, el uso de formatos adecuados, metadatos y estructuras homogéneas, así como proporcionar el contexto necesario para poder verificar que estén alineados con el uso que la IA les dará.

Preparar datos para la IA suele requerir de un proceso en varias etapas. Por ejemplo, de nuevo la consultora Gartner recomienda seguir los siguientes pasos:

  1. Evaluar las necesidades de datos según el caso de uso: identificar qué datos son relevantes para el problema que queremos resolver con la IA (el tipo de datos, volumen necesario, nivel de detalle, etc.), entendiendo que esta evaluación puede ser un proceso iterativo que se refine a medida que el proyecto de IA avanza.
  2. Alinear las áreas de negocio y conseguir el apoyo directivo: presentar los requisitos de datos a los responsables según las necesidades detectadas y lograr su respaldo, asegurando así los recursos requeridos para preparar los datos adecuadamente.
  3. Desarrollar buenas prácticas de gobernanza de los datos: implementar políticas y herramientas de gestión de datos adecuadas (calidad, catálogos, linaje de datos, seguridad, etc.) y asegurarnos de que incorporen también las necesidades de los proyectos de IA.
  4. Ampliar el ecosistema de datos: integrar nuevas fuentes de datos, romper potenciales barreras y silos que estén trabajando de forma aislada dentro de la organización y adaptar la infraestructura para poder manejar los grandes volúmenes y variedad de datos necesarios para el correcto funcionamiento de la IA.
  5. Garantizar la escalabilidad y cumplimiento normativo: asegurar que la gestión de datos pueda escalar a medida que crecen los proyectos de IA, manteniendo al mismo tiempo un marco de gobernanza sólido y acorde con los protocolos éticos necesarios y el cumplimiento de la normativa existente.

Si seguimos una estrategia similar a esta estaremos consiguiendo integrar los nuevos requisitos y necesidades de la IA en nuestras prácticas habituales de gobernanza del dato. En esencia, se trata simplemente de conseguir que nuestros datos estén preparados para alimentar modelos de IA con las mínimas fricciones posibles, evitando posibles contratiempos a posteriori durante el desarrollo de los proyectos.

Datos abiertos “preparados para IA”

En el ámbito de la ciencia abierta y los datos abiertos se han promovido desde hace años los principios FAIR. Estas siglas en inglés establecen que los datos deben localizables, accesibles, interoperables y reutilizables. Los principios FAIR han servido para guiar la gestión de datos científicos y datos abiertos para hacerlos más útiles y mejorar su uso por parte de la comunidad científica y la sociedad en general. Sin embargo, dichos principios no fueron diseñados para abordan las nuevas necesidades particulares asociadas al auge de la IA.

Se plantea por tanto en la actualidad la propuesta de extender los principios originales añadiendo un quinto principio de preparación (readiness) para la IA, pasando así del FAIR inicial a FAIR-R o FAIR². El objetivo sería precisamente el de hacer explícitos aquellos atributos adicionales que hacen que los datos estén listos para acelerar su uso responsable y transparente como herramienta necesaria para las aplicaciones de la IA de alto interés público.

Principios FAIR-R: Encontrables (Findable), Accesibles (Accessible), Interoperables (Interoperable), Reutilizables (Reusable), Preparados para la IA (Readness). Fuente: elaboración propia - datos.gob.es

¿Qué añadiría exactamente esta nueva R a los principios FAIR? En esencia, enfatiza algunos aspectos como:

  • Etiquetado, anotado y enriquecimiento adecuado de los datos.
  • Transparencia sobre el origen, linaje y tratamiento de los datos.
  • Estándares, metadatos, esquemas y formatos óptimos para su uso por parte de la IA.
  • Cobertura y calidad suficientes para evitar sesgos o falta de representatividad.

En el contexto de los datos abiertos, esta discusión es especialmente relevante dentro del discurso de la "cuarta ola" del movimiento de apertura de datos, a través del cual se argumenta que si los gobiernos, universidades y otras instituciones liberan sus datos, pero estos no se encuentran en las condiciones óptimas para poder alimentar a los algoritmos, se estaría perdiendo una oportunidad única para todo un nuevo universo de innovación e impacto social: mejoras en los diagnósticos médicos, detección de brotes epidemiológicos, optimización del tráfico urbano y de las rutas de transporte, maximización del rendimiento de las cosechas o prevención de la deforestación son sólo algunos ejemplos de las posibles oportunidades perdidas.

Además, de no ser así, podríamos entrar también en un largo “invierno de los datos”, en el que las aplicaciones positivas de la IA se vean limitadas por conjuntos de datos de mala calidad, inaccesibles o llenos de sesgos. En ese escenario, la promesa de una IA por el bien común se quedaría congelada, incapaz de evolucionar por falta de materia prima adecuada, mientras que las aplicaciones de la IA lideradas por iniciativas con intereses privados continuarían avanzando y aumentando el acceso desigual al beneficio proporcionado por las tecnologías.

Conclusión: el camino hacia IA de calidad, inclusiva y con verdadero valor social

En la era de la inteligencia artificial, los datos son tan importantes como los algoritmos. Tener datos bien preparados y compartidos de forma abierta para que todos puedan utilizarlos, puede marcar la diferencia entre una IA que aporta valor social y una que tan sólo es capaz de producir resultados sesgados.

Nunca podemos dar por sentada la calidad ni la idoneidad de los datos para las nuevas aplicaciones de la IA: hay que seguir evaluándolos, trabajándolos y llevando a cabo una gobernanza de estos de forma rigurosa y efectiva del mismo modo que se venía recomendado para otras aplicaciones. Lograr que nuestros datos estén listos para la IA no es por tanto una tarea trivial, pero los beneficios a largo plazo son claros: algoritmos más precisos, reducir sesgos indeseados, aumentar la transparencia de la IA y extender sus beneficios a más ámbitos de forma equitativa.

Por el contrario, ignorar la preparación de los datos conlleva un alto riesgo de proyectos de IA fallidos, conclusiones erróneas o exclusión de quienes no tienen acceso a datos de calidad. Abordar las asignaturas pendientes sobre cómo preparar y compartir datos de forma responsable es esencial para desbloquear todo el potencial de la innovación impulsada por IA en favor del bien común. Si los datos de calidad son la base para la promesa de una IA más humana y equitativa, asegurémonos de construir una base suficientemente sólida para poder alcanzar nuestro objetivo.

En este camino hacia una inteligencia artificial más inclusiva, alimentada por datos de calidad y con verdadero valor social, la Unión Europea también está avanzando con pasos firmes. A través de iniciativas como su estrategia de la Data Union, la creación de espacios comunes de datos en sectores clave como salud, movilidad o agricultura, y el impulso del llamado AI Continent y las AI factories, Europa busca construir una infraestructura digital donde los datos estén gobernados de forma responsable, sean interoperables y estén preparados para ser utilizados por sistemas de IA en beneficio del bien común. Esta visión no solo promueve una mayor soberanía digital, sino que refuerza el principio de que los datos públicos deben servir para desarrollar tecnologías al servicio de las personas y no al revés.


Content prepared by Carlos Iglesias, Open data Researcher and consultant, World Wide Web Foundation. The contents and views reflected in this publication are the sole responsibility of the author.

calendar icon
Documentación

A continuación, se recoge la definición de diversos términos relacionados con los datos y tecnologías relacionadas.

1. Glosario de términos relacionados con datos abiertos.

(Puedes descargar la versión accesible aquí)

 

2. Glosario de términos relacionados con nuevas tecnologías y datos

(Puedes descargar la versión accesible aquí)
calendar icon
Blog

Los libros son una fuente inagotable de conocimientos y de experiencias vividas por otros antes que nosotros, que podemos reutilizar para avanzar en nuestras vidas. Las bibliotecas, por tanto, son lugares donde los lectores que buscan libros, los toman prestados y una vez usados y extraído de ellos lo que necesitan, los devuelven. Resulta curioso imaginar las razones por las que un lector necesita encontrar un libro concreto que trate de un determinado tema.  

En caso de que haya varios libros que cumplan con las características requeridas, cuáles pueden ser los criterios que pesen más para elegir el libro que el lector considera que mejor contribuye a su tarea. Y una vez finalizado el periodo de préstamo del libro, la labor de los bibliotecarios para hacer que todo vuelva a un estado inicial resulta casi mágica. El proceso de dejar los libros de vuelta en las estanterías se puede repetir indefinidamente.

Tanto en esas estanterías inmensas que están a disposición pública de todos los lectores en las salas, como esas otras más pequeñas, fuera de la vista de todos, donde descansan bajo custodia los libros que, debido a alguna razón no pueden estar públicamente disponibles. Este proceso lleva pasando siglos desde que el hombre empezó a escribir y a compartir su conocimiento entre coetáneos y entre generaciones.

En cierto sentido, los datos son como los libros. Y los repositorios de datos son como las bibliotecas: en nuestro día a día, tanto a nivel profesional como a nivel personal, necesitamos datos que están en las “estanterías” de numerosas “bibliotecas”. Algunos, que están abiertos, muy pocos aún, se pueden usar; otros están restringidos, y necesitamos permisos para usarlos.

En cualquier caso, contribuyen a desarrollar proyectos personales y profesionales; y por eso, estamos entendiendo que los datos son el pilar de la nueva economía del dato, lo mismo que los libros llevan siendo el pilar del conocimiento desde hace miles de años.

Los cuatro principios FAIR 

Tal como ocurre con las bibliotecas, para poder elegir y usar los datos más adecuados para nuestras tareas, necesitamos que “los bibliotecarios de los datos hagan su magia” para ordenarlo todo de tal manera que sea fácil encontrar, acceder, interoperar y reutilizar los datos. Ese es el secreto de los “magos de los datos”: algo que ellos, recelosamente, llaman principios FAIR para que el resto de los humanos no podamos descubrirlos. No obstante, siempre es posible dar algunas pistas, para que podamos sacar mejor partido de su magia:

 

 

  • Tiene que poder ser fácil encontrar los datos. De aquí viene la “F” de los principios FAIR, de “findable” (localizable, en español). Para ello, es importante que los datos estén suficientemente descritos mediante una colección adecuada de metadatos, de tal manera que se puedan realizar búsquedas de manera sencilla. Del mismo modo que en las bibliotecas se establece un tejuelo para etiquetar los libros, los datos necesitan su propia etiqueta. Los “magos de los datos” tienen que encontrar, por un lado, formas de escribir las etiquetas para que sea fácil localizar los libros, y por otro proporcionar herramientas (como buscadores) para que los usuarios puedan hacer búsquedas. Los usuarios, por nuestra parte, tenemos que conocer y saber interpretar lo que significan las distintas etiquetas de los libros, y saber cómo funcionan las herramientas de búsqueda (imposible no acordarse aquí de los protagonistas de “Ángeles y demonios” de Dan Brown buscando en la Biblioteca del Vaticano).
  • Una vez localizados los datos que se pretenden utilizar, tiene que ser fácil poder acceder a ellos para utilizarlos. Esta es la A de “accessible” de FAIR. Lo mismo que para tomar prestado un libro de una biblioteca hay que hacerse socio y te dan un carné, con los datos pasa lo mismo: hay que conseguir una licencia para acceder a los datos. En este sentido, sería ideal poder acceder a cualquier libro sin tener ningún tipo de traba previa como ocurre con los datos abiertos licenciados por CC BY 4.0 o equivalente. Pero el hecho de ser socio de la “biblioteca de datos”, no tiene por qué conferirte acceso a toda la biblioteca. Quizás para ciertos datos que descansan en esas estanterías custodiadas fuera del alcance de todas las miradas, necesites ciertos permisos (imposible no acodarse aquí de “El nombre de la rosa” de Umberto Eco).
  • No es suficiente con poder acceder a los datos, tiene que ser fácil poder interoperar con ellos, entendiendo su significado y sus descripciones. Este principio se representa con la “I” de “interoperable” en FAIR. Así, los “magos de los datos” tienen que conseguir, mediante las correspondientes técnicas, que los datos estén descritos y puedan ser entendidos para poder ser usados en el contexto de uso de los usuarios; aunque en, no pocas ocasiones, serán los usuarios los que tengan que adaptarse para poder operar con los datos (imposible no acordarse de las runas élficas de “El Señor de los Anillos” de J.R.R. Tolkien).
  • Finalmente, los datos, al igual que los libros, tienen que poder ser reutilizados para ayudar una y otra vez a que otros puedan cubrir sus propias necesidades. De aquí la “R” de “reusable” en FAIR. Para ello, los “magos de los datos” tiene que establecer los mecanismos para asegurar que, tras su uso, todo puede volver a ese estado inicial, que será el punto de partida desde el que otros empezarán sus propios caminos.

A medida que nuestra sociedad va avanzando en esto de la economía digital, nuestras necesidades de datos van cambiando. Y no es que necesitemos más datos, sino que necesitamos disponer de forma distinta de los datos que se tienen, de los que se producen y de los que se ponen a disposición de los usuarios. Además, necesitamos ser más respetuosos con los datos que se generan, y con cómo usamos esos datos para no violar los derechos ni las libertades de los ciudadanos. Así que puede decirse, que nos enfrentamos a nuevos retos, lo que requiere nuevas soluciones. Esto obliga a nuestros “magos de datos” a perfeccionar sus trucos, pero siempre manteniendo la esencia de su magia, esto es, de los principios FAIR.

Hace poco, al final de febrero de 2023, tuvo lugar una Asamblea de estos magos de datos. Y estuvieron discutiendo sobre cómo revisar los principios FAIR para perfeccionar estos trucos de magia para escenarios tan relevantes como los espacios europeos de datos, los datos geoespaciales, o incluso cómo medir lo bien que se aplican los principios FAIR para estos nuevos retos. Si quieres ver de lo que hablaron, puedes ver los videos y el material en el siguiente enlace: https://www.go-peg.eu/2023/03/07/go-peg-final-workshop-28-february-20203-1030-1300-cet/


Contenido elaborado por Dr. Ismael Caballero, Profesor titular en UCLM

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

 
calendar icon