Google apuesta por los datos abiertos
Fecha de la noticia: 30-10-2019

El gigante tecnológico Google ha vuelto a manifestar recientemente su interés por el open source y el open data. Bajo el dogma de que los datos abiertos “no son solo buenos para nosotros y nuestra industria, sino que también benefician al mundo en general”, aseguran apostar por compartir datos, servicios y software con la ciudadanía.
Esta política, ha llevado a Google a abrir conjuntos de datos y hacerlos accesibles a través de APIs o mediante herramientas que facilitan su uso por parte de personas y organizaciones.
Apertura de datos
Actualmente Google ha puesto a disposición de los usuarios más de 60 conjuntos de datos estandarizados y legibles por máquinas –pensados para poder ser utilizados por sistemas de machine learning-. Estos conjuntos de datos están acompañados de materiales de apoyo dirigidos a desarrolladores e investigadores que estén interesados en trabajar con colecciones de imágenes, corpus de vídeos anotados, datos con alta granularidad, etc. Un ejemplo: las herramientas Facets, que ayudan a analizar la composición de un conjunto de datos y evaluar cuáles son las mejores formas de usarlo.
Desde Google también están trabajando para mejorar la calidad y crear conjuntos de datos más representativos a través de interfaces como la aplicación Crowdsourcing, que se beneficia del trabajo de la comunidad de usuarios. Con esta aplicación las personas que lo deseen pueden verificar etiquetas, realizar y validar traducciones o ayudar a mejorar los sistemas de análisis de sentimientos.
Localización y análisis de datos abiertos
Pero abrir los datos no es suficiente, estos también tienen que ser fáciles de encontrar. En este sentido, Google ofrece Google Dataset Search, un buscador que facilita la localización de datos abiertos en cientos repositorios asociados a instituciones internacionales, como el Banco Mundial o el portal de datos europeo, así como en catálogos oficiales asociados a gobiernos en todo el mundo. Eso sí, es necesario que los datos estén descritos de tal manera que los motores de búsqueda pueden localizarlos.
Con el objetivo de ayudar a analizar y extraer valor de estos datos, los usuarios tienen a su disposición Data Commons, un grafo de conocimiento de las fuentes de datos que permite a investigadores y estudiantes tratar varios conjuntos de datos a la vez, independientemente de la fuente y el formato, como si todos estuvieran en una única base de datos local.
Como complementos añadidos y necesarios, Google también participa en la dinamización de comunidades de científicos de datos (Kaggle), ofrece cursos de formación en la materia, lanza retos dirigidos a dinamizar a la comunidad en el su uso de datos para la resolución de las cuestiones previamente planteadas, y ponen en marcha continuamente campañas dirigidas a que la disponibilidad de este nuevo recurso sea cada vez más abundante.
La apuesta de Google por la apertura de datos hace necesaria también una estrategia que tenga en cuenta aspectos clave como la confidencialidad y privacidad. Desde Google, afirman tener distintos mecanismos para garantizar estas cuestiones, como Federated Learning, una técnica para entrenar modelos globales de Machine Learning sin que los datos abandonen el dispositivo de una persona.