Google como reutilizador de datos abiertos

Fecha de la noticia: 10-08-2021

Google como reutilizador de datos abiertos

La apuesta del gigante tecnológico Google con los datos abiertos ha quedado patente en distintas iniciativas llevadas a cabo en los últimos años. Por un lado, pusieron en marcha el buscador Google Dataset Search, que facilita la localización de datos abiertos publicados en cientos de repositorios de instituciones internacionales y gobiernos, entre los que se encuentra datos.gob.es. Por otro, lanzaron su propia iniciativa de apertura de datos, donde se ofrecen conjuntos de datos estandarizados y legibles por máquinas con el objetivo de ser utilizados por sistemas de machine learning. Esta última iniciativa se enmarca dentro de Google Research, el portfolio de proyectos de investigación e innovación de Google: desde la predicción de la propagación del COVID-19 hasta el diseño de algoritmos, pasando por el aprendizaje de la traducción automática de un mayor número de idiomas, entre otros. En estos y otros proyectos, Google no solo ha apostado por la publicación de datasets, si no que la propia compañía también actúa como reutilizador de datos públicos. En este post vamos a algunos ejemplos de soluciones y proyectos de Google que integran en su operativa datos abiertos.

Google Earth

A través de un globo terráqueo virtual basado en imágenes satelitales, Google Earth permite visualizar múltiples cartografías. Los usuarios pueden explorar territorios en 3D y añadir marcadores o dibujar líneas y áreas, entre otras herramientas.

Una de sus últimas actualizaciones ha sido la incorporación de la función Timelapse, la cual ha supuesto la integración de 24 millones de fotos satelitales captadas durante en los últimos 37 años (concretamente, entre 1984 y 2020). De esta forma se pueden observar los cambios en las distintas regiones del planeta. Entre otras informaciones, la solución muestra los cambios forestales, el crecimiento urbano o el calentamiento de nuestro planeta, lo que permite tomar consciencia de la crisis climática que vivimos para poder actuar en consecuencia. Se trata por tanto de una solución fundamental para la educación ambiental, con un gran potencial de uso en las clases.

Los datos integrados provienen del programa Landsat del Servicio Geológico de los Estados Unidos, y del programa Copernicus y los satélites Sentinel de la Unión Europea. En concreto, se contaba con 20 petabytes de imágenes satelitales que se han puesto a disposición de los usuarios en un único mosaico de vídeo de gran tamaño y resolución, para lo cual han sido necesarios más de 2 millones de horas de procesamiento.  Cabe destacar que tanto los datos de Copernicus como de Landsat están abiertos a la reutilización de cualquier particular u empresa que desee poner en marcha sus propios servicios y productos.

Traductor de Google

Otra de las herramientas más conocidas del gigante tecnológico es su traductor, que se pudo en marcha en 2006. Diez años más tarde se actualizó con el sistema de traducción automática neural de Google (GNMT), que utiliza técnicas más modernas de machine learning para su entrenamiento.Google no hace públicos los datos exactos que utiliza para el entrenamiento del sistema, aunque en su informe Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation sí destacan que han realizado pruebas de referencia con dos corpus disponibles públicamente: WMT'14 English-to-French y WMT´14 English-German.

Aunque se ha avanzado mucho, el sistema todavía no se iguala al nivel de calidad que se obtiene con una traducción realizada por un ser humano experto en el campo, sobre todo en el caso de los idiomas más minoritarios, por lo que se siguen realizando ajustes y avances. Otra área donde se debe también seguir trabajando en los sesgos de los datos que utilizan para entrenar el sistema y que puede desencadenar en estereotipos. Por ejemplo, se ha detectado que el traductor introduce sesgos al utilizar el masculino y femenino en la traducción de frases de idiomas neutros, sin género, como el inglés o húngaro. En estos casos, se utiliza por defecto el femenino para tareas relacionadas con los cuidados y la belleza, y el masculino para opciones profesionales mejor valoradas. El gigante tecnológico ha indicado que ya está trabajando en la resolución de esta problemática.

Otros ejemplos de Google Research

Dentro del ya mencionado Google Research se llevan distintos proyectos, algunos de ellos muy ligados a la reutilización. Por ejemplo, en el contexto de pandemia actual, pusieron en marcha los informes de movilidad con información anónima sobre tendencias de desplazamiento –los cuales se pueden descargar en formato csv. Estos informes permiten comprender el impacto de las políticas de restricción de movimientos, así como realizar previsiones económicas. Los datos han sido aprovechados también por sus propios equipos de científicos de datos para realizar predicciones de la propagación del COVID-19 utilizando redes neuronales gráficas en lugar de modelos tradicionales basados en series temporales.

También han desarrollado proyectos en el campo de la predicción meteorológica, para desarrollar estimaciones en áreas cada vez más concretas (ya no se trata solo de saber si lloverá en mi ciudad, si no si habrá precipitaciones en mi área). Para ello se han utilizado recursos de NOAA (National Oceanic and Atmospheric Administration) y una nueva técnica llamada HydroNets, basada en una red de redes neuronales para modelar los sistemas fluviales reales del mundo.

Puedes ver más información sobre los últimos avances en Google Research en este artículo.

Todos estos ejemplos ponen de manifiesto que los datos abiertos no son solo fuente para la creación de soluciones innovadoras de emprendedores y pequeñas empresas, sino que también grandes compañías aprovechan su potencial para desarrollar servicios y productos que entran a formar parte del porfolio de la empresa.


Contenido elaborado por el equipo de datos.gob.es.