10 repositorios de datos públicos relacionados con las ciencias naturales y el medio ambiente

Fecha de la noticia: 23-12-2021

10 repositorios de datos públicos relacionados con las ciencias naturales y el medio ambiente   cuerpo: NASA Open Data Portal, Copernicus, Climate Data Online, AlphaFold Protein Structure Database, Free GIS DATA, GBIF (Global Biodiversity Information Facility), EDI Data Portal, PANGAEA, re3data, IRIS

La apertura de datos es fundamental en el campo de la ciencia. Los datos abiertos facilitan la colaboración científica y enriquecen las investigaciones dotándolas de una mayor profundidad. Gracias a este tipo de datos podemos conocer mejor nuestro entorno y llevar a cabo análisis más certeros para fundamentar las decisiones.

Además de los recursos incluidos en portales de datos generalistas, cada vez son más los bancos de datos abiertos que podemos encontrar centrados en ámbitos concretos de las ciencias naturales y el medio ambiente. En este artículo te acercamos 10 de ellos.

10 repositorios de datos públicos relacionados con las ciencias naturales y el medio ambiente   cuerpo: NASA Open Data Portal, Copernicus, Climate Data Online, AlphaFold Protein Structure Database, Free GIS DATA, GBIF (Global Biodiversity Information Facility), EDI Data Portal, PANGAEA, re3data, IRIS

NASA Open Data Portal

  • Publicador: NASA

El portal data.nasa.gov centraliza datos abiertos geoespaciales de la NASA, generados fruto de su rico historial de misiones planetarias, lunares y terrestres. Cuenta con casi 20.000 usuarios únicos mensuales y más de 40.000 conjuntos de datos. Un pequeño porcentaje de estos conjuntos de datos está alojado directamente en data.nasa.gov, pero en la mayoría de los casos se ofrecen metadatos y los enlaces a otros proyectos de la agencia espacial. 

data.nasa.gov incluye gran cantidad de temáticas, desde datos relacionados con pruebas de cohetes hasta mapas geológicos de Marte. Los datos se ofrecen en múltiples formatos, dependiendo de cada publicador.

El sitio se enmarca en el proyecto Open Innovation Sites, junto con api.nasa.gov, un espacio para el intercambio de información sobre las API de la NASA, y code.nasa.gov, donde se recopilan los proyectos de código abierto de la NASA.

Copernicus

  • Publicador: Copernicus

COPERNICUS es el programa de observación de la Tierra de la Unión Europea. Liderado por la Comisión Europea, con la colaboración de los estados miembros y diversas agencias y organizaciones europeas, recopila, almacena, combina y analiza datos obtenidos a través de la observación por satélite y por sistemas de sensores in situ terrestres, aéreos y marítimos.

Ofrece datos a través de 6 servicios: emergencias, seguridad, vigilancia marina, vigilancia terrestre, cambio climático y vigilancia atmosférica. Los dos puntos principales de acceso a los datos satelitales de Copernicus están gestionados por la ESA: la Plataforma de acceso abierto de Copernicus -que cuenta con una API- y el CSCDA (acceso a los datos del componente espacial de Copernicus). Otros puntos de acceso a los datos satelitales de Copernicus están gestionados por la Eumetsat.

Climate Data Online

  • Publicador: NOAA (National Centers for Environmental Information)

Climate Data Online (CDO) de la agencia del gobierno americana NOAA proporciona acceso gratuito a datos meteorológicos y climáticos históricos a nivel mundial. En concreto, se ofrecen 26.000 conjuntos de datos, que incluyen mediciones diarias, mensuales, estacionales y anuales de parámetros como la temperatura, las precipitaciones o el viento, entre otros. La mayoría de los datos se pueden descargar en formato CSV.

Para acceder a la información, los usuarios pueden utilizar, entre otras funcionalidades, una herramienta de búsqueda, una API o un visor de mapas donde se pueden mostrar una gran variedad de datos en el mismo entorno de visualización, lo que permite relacionar variables con ubicaciones específicas.

AlphaFold Protein Structure Database

  • Publicador: DeepMind y EMBL-EBI

AlphaFold es un sistema de inteligencia artificial desarrollado por la compañía DeepMind que predice la estructura 3D de una proteína a partir de su secuencia de aminoácidos. En colaboración con el Instituto Europeo de Bioinformática del EMBL (EMBL-EBI), DeepMind ha creado esta base de datos que facilita el acceso gratuito de la comunidad científica a dichas predicciones.

La primera versión cubre el proteoma humano y los proteomas de otros organismos clave, pero la idea es seguir ampliando la base de datos para que cubra una gran proporción de todas las proteínas catalogadas (más de 100 millones). Los datos pueden descargarse en formato mmCIF o PDB, ampliamente aceptados por los programas de visualización de estructuras 3D, como PyMOL y Chimera.

Free GIS DATA

  • Publicador: Robin Wilson, experto en el área GIS.

Free GIS Data recoge el esfuerzo de Robin Wilson, freelance experto en teledetección, GIS, ciencia de los datos y Python. En ella los usuarios pueden encontrar una lista clasificada de enlaces a más de 500 sitios web que ofrecen conjuntos de datos geográficos de libre acceso, todos ellos listos para ser cargados en un Sistema de Información Geográfica. Puedes encontrar datos sobre clima, hidrología, ecología, desastres naturales, recursos minerales, gas y petróleo, transportes y comunicaciones o usos de la tierra, entre otras muchas categorías.

Aquellos usuarios que lo deseen pueden contribuir con nuevos datasets, enviándolos por email a robin@rtwilson.com.

GBIF (Global Biodiversity Information Facility)

  • Publicador: GBIF

GBIF es una iniciativa intergubernamental formada por países y organizaciones internacionales, que colaboran en el avance del acceso libre y abierto a los datos sobre biodiversidad. A través de sus nodos, los países participantes proporcionan datos sobre registros de especies en base a normas comunes y herramientas de código abierto. En España, el nodo nacional es GBIF-ES, patrocinado por el Ministerio Español de Ciencia e Innovación y gestionado por el Consejo Superior de Investigaciones Científicas (CSIC).

Los datos que ofrece proceden de muchas fuentes, desde los especímenes que se encuentran en los museos y que fueron recogidos en los siglos XVIII y XIX hasta las fotos geoetiquetadas realizadas con teléfonos inteligentes y compartidas por naturalistas aficionados. Actualmente cuenta con más de 1.800 millones de registro y 63.000 datasets de gran utilidad para investigadores que estén realizando estudios ligados al ámbito de la biodiversidad y público en general. También puedes acceder a su API aquí.

EDI Data Portal

  • Publicador: Environmental Data Initiative (EDI)

La Environmental Data Initiative (EDI) promueve la conservación y reutilización de datos medioambientales, dando soporte a investigadores para que archiven y publiquen los datos de investigaciones financiadas con fondos públicos. Todo ello siguiendo los principios FAIR y utilizando el estándar Ecological Metadata Language (EML).

El portal de datos EDI contiene los paquetes de datos medioambientales y ecológicos aportados, a los que se puede acceder mediante un buscador o una API. Los usuarios deben ponerse en contacto con el proveedor de los datos antes de utilizarlos en cualquier investigación. Estos datos deben citarse adecuadamente cuando se utilicen en una publicación. Para ello se proporciona un identificador de objeto digital (DOI, en inglés).  

PANGAEA

  • Publicador: World Data Center PANGEA

El sistema de información PANGAEA funciona como una biblioteca de acceso abierto destinada a archivar, publicar y distribuir datos georreferenciados procedentes de investigaciones sobre el sistema terrestre.

Cualquier usuario puede dar de alta datos ligados a las ciencias naturales. PANGAEA cuenta con un equipo de editores que se encargan de comprobar la integridad y coherencia de los datos y metadatos. Actualmente incluye más de 400.000 conjuntos de datos pertenecientes a más de 650 proyectos. Los formatos en los que están disponibles son variados: puedes encontrar desde archivos de texto/ASCII o delimitados por tabulaciones, hasta objetos binarios (por ejemplo, datos sísmicos y modelos, entre otros) u otros formatos que siguen las normas ISO (como imágenes o películas).

re3data

  • Publicador: DataCite

Re3data es un registro mundial de repositorios de datos de investigación que abarca bases de datos de diferentes disciplinas académicas disponibles de forma gratuita. Incluye desde datos relacionados con las ciencias naturales, la medicina o la ingeniería, hasta aquellos ligados con áreas de humanidades.

Actualmente ofrece descripciones detalladas de más de 2.600 repositorios. Estas descripciones se basan en el esquema de metadatos de re3data y se puede acceder a ellas a través de la API de re3data. En este repositorio de Github puedes encontrar ejemplos para utilizar la API de re3data. Dichos ejemplos se implementan en R utilizando Jupyter Notebooks.

IRIS

  • Publicador: Incorporated Research Institutions for Seismology (IRIS)

IRIS es un consorcio de más de 100 universidades estadounidenses dedicado a la explotación de instalaciones científicas para la adquisición, gestión y distribución de datos sismológicos. A través de esta web cualquier ciudadano puede acceder a diversos recursos y datos relacionados con los terremotos que tienen lugar en todo el mundo.

Recoge datos de series temporales, incluyendo grabaciones de sensores de una variedad de mediciones. Entre los metadatos disponibles está la ubicación de la estación de la que se han obtenido los datos y su instrumentación. Además, permite el acceso a datos sísmicos históricos, incluidos los sismogramas escaneados y otra información procedente de fuentes pre-digitales.

Los datos están disponibles en formato SEED (el estándar internacional para el intercambio de datos sismológicos digitales), ASCII o SAC (Seismic Analysis Code).

 

¿Conoces más repositorios internacionales con datos relacionados con las ciencias naturales y el medio ambiente? Déjanos un comentario o mándanos un email a dinamizacion@datos.gob.es.