Principios FAIR: Buenas prácticas para la gestión y administración de datos científicos

Fecha del post: 23-10-2017

open science, datos científicos, principios FAIR

Vivimos rodeados de datos e inmersos en su cultura: open data, big data, linked data… El crecimiento de la capacidad para generar, almacenar y procesar datos no para y va acompañado de la generalización del uso de aplicaciones tecnológicas (por ejemplo, datos creados de manera particular por millones de personas usuarias que utilizan servicios digitales por motivos personales y/o profesionales, los generados por el progresivo “Internet de las Cosas”, o aquellos procedentes de la investigación científica).

En este contexto, la comunidad científica, que ya estaba volcada con la Investigación Abierta (Open Science) -donde se estimula que los datos obtenidos mediante experimentación sean automáticamente de acceso público, sobre todo los producidos con fondos públicos-, necesitaba una serie de buenas prácticas para la publicación de datos científicos que fuesen claramente especificadas, y ampliamente compartidas y aplicadas.

Esto se debe a que la gestión de publicaciones académicas en revistas científicas estaba ya bien especificada desde hace tiempo, pero no se podía decir lo mismo de la publicación formal de datos científicos. Y eso que, a día de hoy, los datos están comenzando a ser considerados como la principal producción de la investigación científica, siendo su publicación y reutilización necesaria para garantir su validez, su reproductibilidad y para conducir a nuevos descubrimientos.

El 15 de marzo de 2016 fue publicado en la revista Scientific Data de Nature el artículo: “Principios FAIR para el manejo y administración de datos científicos”. Los Principios FAIR ofrecen un conjunto de cualidades precisas y medibles que una publicación de datos debería seguir para que los datos sean Encontrables, Accesibles, Interoperables y Reutilizables (del inglés FAIR – Findable, Accessible, Interoperable, and Reusable), como detallamos a continuación:

FINDABLE (Encontrables): Los datos y metadatos pueden ser encontrados por la comunidad después de su publicación, mediante herramientas de búsqueda.

F1. Asignarles un identificador único y persistente a los datos y los metadatos

F2. Describir los datos con metadatos de manera prolija

F3. Registrar/Indexar los datos y los metadatos en un recurso de búsqueda

F4. En los metadatos se debe especificar el identificador de los datos que se describen.

ACCESSIBLE (Accesibles): Los datos y metadatos están accesibles y por ello pueden ser descargados por otros investigadores utilizando sus identificadores.

A1 Los datos y los metadatos pueden ser recuperados por sus identificadores mediante protocolos estandarizados de comunicación

A1.1 Los protocolos tienen que ser abiertos, gratuitos e implementados universalmente

A1.2 El protocolo debe de permitir procedimientos para la autentificación y la autorización (por si fuera necesario).

A2 Los metadatos deben de estar accesibles, incluso cuando los datos ya no estuvieran disponibles.

INTEROPERABLE (Interoperables): Tanto los datos como los metadatos deben de estar descritos siguiendo las reglas de la comunidad, utilizando estándares abiertos, para permitir su intercambio y su reutilización.

I1. Los datos y los metadatos deben de usar un lenguaje formal, accesible, compartible y ampliamente aplicable para representar el conocimiento

I2. Los datos y los metadatos usan vocabularios que sigan los principios FAIR

I3. Los datos y los metadatos incluyen referencias cualificadas a otros datos o metadatos

REUSABLE (Reutilizables): Los datos y los metadatos pueden ser reutilizados por otros investigadores, al quedar clara su procedencia y las condiciones de reutilización.

R1. Los datos y los metadatos contienen una multitud de atributos precisos y relevantes

R1.1. Los datos y los metadatos se publican con una licencia clara y accesible sobre su uso y reutilización

R1.2. Los datos y los metadatos se asocian con información sobre su procedencia

R1.3. Los datos y los metadatos siguen los estándares relevantes que usa la comunidad del dominio concreto

Open Research Data

Los Principios FAIR dejan a un lado temas controvertidos como la tecnología o el enfoque utilizados en la implementación. Este nivel de abstracción hace que ya sean aceptados por varias organizaciones financiadoras de proyectos de investigación y formuladores de políticas.

El interés de la aplicación de estos principios se refleja en su incorporación en los proyectos del Programa Horizonte 2020 de Investigación e Innovación de la Unión Europea

Inicialmente, durante el periodo 2014-2015, se hizo una prueba piloto (denominado “Open Research Data” -que incluía los planes de gestión de datos, base de los principios FAIR-) con 7 áreas de trabajo seleccionadas. Posteriormente, se ha ido aumentado el número de áreas hasta llegar a la situación actual, donde se aplica a todas las áreas temáticas del Programa Horizonte 2020, siendo ya todos los proyectos por defecto “Open Research Data”. Si quieres conocer más en detalle estos principios y como aplicarlos a repositorios digitales, te recomendamos este webinar (en inglés) FAIR Data in Trustworthy Data Repositories Webinar (DANS/EUDAT/OpenAIRE)”.

Para concluir, debemos recalcar el lema fundamental que está bajo los principios FAIR: “tan abierto como sea posible, tan cerrado como sea necesario” (abierto por defecto). Esperamos que así sea, y la comunidad Open Data siga creciendo en múltiples direcciones gracias a iniciativas tan concretas como los principios FAIR