Consejos para elaborar un Plan de gestión de datos, en base a la guía de BiodivERsa

Fecha de la noticia: 27-10-2020

Open data Management

BiodivERsA es una red de organizaciones enfocada en la investigación sobre la biodiversidad y los ecosistemas en los países y territorios europeos, para impulsar su conservación y gestión sostenible. Entre otras acciones, esta red ha publicado una guía sobre gestión de datos, datos abiertos y elaboración de planes de gestión de los mismos en el marco de la investigación científica. 

El documento se ha desarrollado en el contexto de Horizon 2020, con el objetivo de orientar a los equipos de proyectos financiados mediante convocatorias conjuntas de investigación transnacionales en la redacción y desarrollo de su Plan de Gestión de Datos, con un enfoque centrado en hacer que sus datos y publicaciones sean lo más abiertos posibles.

El informe comienza con una introducción sobre la importancia de los datos científicos y su gestión, los principios de ciencia abierta, los datos abiertos y los principios FAIR. A continuación, analiza los conceptos y necesidades de gestión de datos en el contexto de este tipo de proyectos financiados a nivel internacional, y finaliza resaltando una serie de herramientas y recursos de interés.

La importancia de los datos científicos y su gestión

Organizar y lograr que los datos sean accesibles es algo que cada vez adquiere mayor relevancia en el mundo de la ciencia, con el objetivo de mejorar la trazabilidad y fomentar el intercambio de datos. De esta forma se mejora la transparencia de los estudios, pero también se impulsa la reutilización de los datos en nuevas investigaciones que generen conocimiento en beneficio de la sociedad.

La guía hace referencia a una encuesta realizada por CrowdFlower, donde se recoge que, lejos de lo que se puede imaginar, los científicos de datos no invierten la mayor parte de su tiempo en la construcción de algoritmos, la exploración de datos o la realización de análisis predictivos. Por el contrario, la realidad refleja que la mayor parte de su tiempo está destinado a la limpieza y organización de los datos. Por tanto, una mejora en este aspecto supondría un gran avance en eficiencia, optimización de recursos y reducción de costes.

Los autores de la guía destacan que la ciencia requiere hoy en día un acceso abierto más sistemático a los datos científicos y, para ello, se paran a analizar conceptos como el data sharing, el open access o los principios FAIR que deben cumplir los datos científicos para poder ser compartidos con todo su potencial.

Claves y beneficios de desarrollar un Data Management Plan (DMP)

Un Plan de gestión de datos o Data Management Plan (DMP) es un documento que describe el ciclo de la gestión de los datos que se recopilarán y procesarán a la hora de generar un proyecto de investigación. El informe se basa en este informe para destacar los principales beneficios que reporta la creación y desarrollo de un DMP:

  • Incrementa la eficiencia durante el proyecto
  • Permite recopilar y almacenar datos de una manera más estructurada
  • Evita o minimiza el riesgo de pérdida de datos
  • Permite compartir y reutilizar datos con garantías
  • Incrementa la verificabilidad de la investigación
  • Aumenta la longevidad del proyecto al hacer los datos estén disponibles incluso después de que el proyecto finalice

Estructura de un Plan de Gestión de datos

Los DMP son únicos: su contenido, composición y estructura pueden variar enormemente ya que dependen del proyecto y los datos generados. Sin embargo, para garantizar que todos los aspectos se cubren, en el informe se propone una estructura genérica para un DMP que puede modificarse o adaptarse según las necesidades de cada proyecto. Esta estructura se encuentra organizada en nueve secciones, con una serie de preguntas para facilitar su redacción.  A continuación se incluyen algunos ejemplos de dichas preguntas:  

  1. Gestores de los datos. ¿Quién se encarga de gestionar los datos? ¿Cuenta el equipo de investigación con un experto en datos? 
  2. Identificación y descripción de datos. ¿Cuál es el propósito de la investigación? ¿Qué datos se utilizan y en qué formato? ¿Cada cuánto tiempo se recopilan? 
  3. Organización e intercambio de datos. ¿Cómo es la gestión de los datos? ¿Dónde se guardan? ¿Quién tiene acceso a ellos? 
  4. Almacenamiento y back-up. ¿Cuál es la estrategia de back-up y almacenamiento de datos? ¿Con qué frecuencia se hacen copias de seguridad? 
  5. Intercambio de datos, estándares y metadatos. ¿Se está utilizando un estándar de datos? ¿Qué herramientas se requieren para leerlos? ¿Se está generando documentación de soporte? 
  6. Restricciones de datos. ¿Qué grado de apertura tendrán los datos? ¿Existe un plan para proteger o anonimizar los datos si fuera necesario? 
  7. Licencias y publicaciones de datos. ¿Dónde y cómo se publicarán los datos? ¿Bajo qué licencias? 
  8. Archivo de datos. ¿Cómo se gestionarán los datos cuando termine el proyecto para asegurar su disponibilidad a largo plazo? ¿Se publicarán con un Identificador Digital de Objetos (DOI)? 
  9. Costes. ¿Cuáles son los costes estimados de la gestión de los datos? ¿Cómo se han contabilizado dichos costos? 

El informe también recoge una serie de recomendaciones generales y prácticas que se aplican a todos los tipos de proyectos y sus planes de gestión, como por ejemplo que deben utilizarse, en la medida de lo posible, herramientas de la Ciencia Abierta de libre y fácil acceso o que datos generados por el proyecto deben figurar en una sola página web.

Herramientas y recursos 

El informe finaliza con una serie de herramientas y recursos, como repositorios de datos o los estándares de datos de biodiversidad más importantes.  

Repositorios de datos 

Los proyectos de investigación financiados deben almacenar y poner a disposición de otros usuarios los datos de sus proyectos a través de los principales archivos y servicios de almacenamiento nacionales e internacionales.  

El informe divide los repositorios en dos grandes grupos. Por una parte, los repositorios generales, que se encuentran abiertos a todos los campos de investigación, y por otra, los repositorios específicos, enfocados en materias concretas. El siguiente cuadro muestra algunos ejemplos de repositorios de datos de investigación generalistas.

Puedes acceder a estos repositorios a través de los siguientes enlaces:

El informe también muestra ejemplos de repositorios específicos en el área de la biodiversidad como Arctic   Biodiversity   Data   Service  o Dynamic Ecological Information Management System.

Estándares y licencias 

El uso de normas y estándares por parte de la comunidad de investigadores de la biodiversidad mejora enormemente la interoperabilidad de los conjuntos de datos publicadosEn esta web se pueden encontrar algunos de los principales. 

Por su parte las licencias impulsan la visibilidad, sobre todo cuando se usan las de atribución. En este sentido, el informe recoge una lista de recursos para comprender y abordar mejor el tema de la concesión de licencias y otras consideraciones relativas a la publicación. 

Como conclusión final podemos establecer la importancia capital que tiene la realización de un plan de gestión de datos en el ámbito científico y su posterior almacenamiento en los repositorios correspondientes para fomentar la reutilización de esa información y con ello el desarrollo de nuevas investigaciones que impulsen el saber de la humanidad. Este informe ofrece las claves necesarias para desarrollarlo paso a paso de una manera práctica y sencilla.