Quizás, uno de los usos más cotidianos de la inteligencia artificial que podemos experimentar en nuestro día a día sea mediante la interacción con sistemas de visión artificial e identificación de objetos. Desde el desbloqueo de nuestro smartphone, hasta la búsqueda por imágenes en Internet. Todos estas funcionalidades son posibles gracias a modelos de inteligencia artificial en el campo de la detección y clasificación de imágenes. En este post recopilamos algunos de los repositorios abiertos de imágenes más importantes, gracias a los cuales, hemos podido entrenar los modelos actuales de reconocimiento de imágenes.
Introducción
Volvamos por un momento a finales de 2017, principios del 2018. La posibilidad de desbloquear nuestros smartphones con algún tipo de lector de huella dactilar se ha extendido. Con mayor o menor acierto, la mayor parte de los fabricantes habían conseguido incluir el lector biométrico en sus terminales. El tiempo de desbloqueo, la facilidad de uso y la seguridad extra aportada eran excepcionales frente a los clásicos sistemas de contraseñas, patrones, etc. Como viene ocurriendo desde el año 2008, el líder indiscutible en innovación digital en terminales móviles - Apple - volvía a revolucionar el mercado incorporando un novedoso sistema de desbloqueo en el iPhone X mediante la imágen de nuestra cara. El denominado sistema FaceID escanea nuestra cara para desbloquear el terminal en décimas de segundo sin tener que utilizar las manos. La probabilidad de suplantación de identidad con este sistema era de 1 a 1.000.000; 20 veces más seguro que su predecesor el TouchID.
Valga esta pequeña historia sobre una funcionalidad cotidiana, para introducir un tema importante en el campo de la inteligencia artificial, y en particular del campo del procesamiento de imágenes por ordenador: los repositorios de imágenes de entrenamiento de modelos de IA. Hemos hablado mucho en este espacio sobre este campo de la inteligencia artificial. Pocos meses después del lanzamiento del FaceID, publicamos un post sobre IA, en el que mencionamos la clasificación de imágenes a nivel casi-humano como uno de los logros más importantes de la IA en los últimos años. Esto no sería posible sin la disponibilidad de bancos abiertos de imágenes anotadas[1] con los que poder entrenar modelos de reconocimiento y clasificación de imágenes. En este post listamos algunos de los repositorios de imágenes (de libre acceso) más importantes para el entrenamiento de modelos.
Lógicamente, no es lo mismo reconocer la matrícula de un vehículo a la entrada de un parking que identificar una enfermedad pulmonar en una imagen de rayos-x. Los bancos de imágenes anotadas son tan variados como las potenciales aplicaciones de IA que éstas habilitan.
Probablemente los 2 repositorios más conocidos de imágenes son MNIST e ImageNET.
- MNIST, es un conjunto de 70.000 imágenes en blanco y negro de números manuscritos normalizados en tamaño, listas para entrenar algoritmos de reconocimiento de números. El artículo original del profesor LeCun es del año 1998.
- ImageNET es una base de datos enorme de conceptos (palabras o conjuntos de palabras). Cada concepto con significado propio se denomina synset. Cada synset está representado por cientos o miles de imágenes. En la propia web de ImageNET se cita el proyecto como una herramienta indispensable para el reciente avance del Deep Learning y la visión por ordenador.
The project has been instrumental in advancing computer vision and deep learning research. The data is available for free to researchers for non-commercial use
El subconjunto más utilizado de ImageNet es el conjunto de datos de clasificación y localización de imágenes ImageNet Large Scale Visual Recognition Challenge ILSVRC. Este subconjunto de imágenes se utilizó desde 2010 hasta 2017 para las competiciones de detección de objetos y clasificación de imágenes a nivel mundial. Este conjunto de datos abarca 1000 clases de objetos y contiene más de un millón de imágenes de entrenamiento, 50.000 imágenes de validación y 100.000 imágenes de prueba. Este subconjunto está disponible en Kaggle.
Además de estos dos clásicos repositorios que ya forman parte de la historia del procesado de imágenes por inteligencia artificial, disponemos de algunos repositorios temáticos más actuales y variados. Estos son algunos ejemplos:
- Los tan molestos CAPTCHAs y reCAPTCHAs que encontramos en multitud de sitios web para verificar quienes estamos intentando acceder somos humanos son un buen ejemplo de inteligencia artificial aplicado al campo de la seguridad. Por supuesto, los CAPTCHAs también necesitan su propio repositorio para comprobar cuán efectivos son para evitar accesos no deseados. Te recomendamos leer este interesante artículo sobre la historia de estos compañeros de navegación por la web.
- Como hemos visto varias veces en el pasado, una de las aplicaciones más prometedoras de la IA en el campo de la imágenes es la de asistir a los médicos en el diagnóstico de enfermedades a partir de una prueba de imágen médica (rayos-x, tomografía computerizada, etc.) Para convertir esto en una realidad, no son pocos los esfuerzos en recopilar, anotar y poner a disposición de la comunidad investigadora repositorios de imágenes médicas anonimizadas y de calidad para entrenar modelos de detección de objetos, formas y patrones que puedan revelar una posible enfermedad. El 30% de todos los cánceres que padecen las mujeres en el mundo corresponde con el cáncer de mama. De ahí la importancia de contar con bancos de imágenes que faciliten el entrenamiento de modelos específicos.
- El diagnóstico de enfermedades basadas en la sangre a menudo implica la identificación y caracterización de muestras de sangre de pacientes. Los métodos automatizados (mediante imagen médica) para detectar y clasificar los subtipos de células sanguíneas tienen importantes aplicaciones médicas.
- Hace 3 años el Covid19 irrumpió en nuestras vidas poniendo a las sociedades desarrolladas patas arriba con esta pandemia de alcance mundial y consecuencias terribles en términos de pérdidas humanas y económicas. La comunidad científica al completo se volcó en dar solución en tiempo record para atajar las consecuencias del nuevo coronavirus. Fueron muchos los esfuerzos en la mejora del diagnóstico de la enfermedad. Algunas técnicas apostaron por el análisis de imagen asistidas por IA. Al mismo tiempo, las autoridades sanitarias incorporaron un elemento nuevo en nuestra rutina diaria - las mascarillas-. Todavía hoy en algunas situaciones la mascarilla sigue siendo de obligado uso, y durante estos 3 años hemos tenido que vigilar su adecuado uso en casi todo tipo de lugares. Tanto es así que en estos meses han proliferado los bancos de imágenes específicos para entrenar modelos de IA y visión artificial que detecten el uso de mascarillas de forma autónoma.
- Para ampliar información sobre repositorios abiertos relacionados con la salud y el bienestar, te dejamos este post que publicamos hace unos meses.
Además de estos curiosos ejemplos que hemos citado en este post, te animamos a explorar la sección de conjuntos de datos de Kaggle que incluyen imágenes como datos. Tan solo tienes 10.000 conjuntos para recorrer ;)
[1] Los repositorios de imágenes anotadas contienen, además de los ficheros de imágen (jpeg, tiff, etc.), unos ficheros descriptivos con los metadatos que identifican a cada imágen. Normalmente, estos ficheros (csv, JSON o XML) incluyen un identificador único para cada imágen además de unos campos que proporcionan información sobre el contenido de la imágen. Por ejemplo, el nombre del objeto que aparece en la imágen.
Contenido elaborado por Alejandro Alija,experto en Transformación Digital e Innovación.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
Durante los últimos tiempos, los datos abiertos se han convertido en un elemento de gran valor a la hora de mejorar la calidad de vida y ofrecer mayores beneficios a la ciudadanía en diferentes sectores. Uno de ellos es el turismo, y es que el número de administraciones públicas que están abriendo sus datos en este campo es cada vez mayor.
Una de las principales razones la encontramos en el gran beneficio económico que aporta este sector para un país como España, que acoge a millones de turistas cada año. Por ello, no es de extrañar que ayuntamientos y administraciones muestren cada vez más interés en difundir los servicios que ofrecen con el fin de atraer al mayor número de visitantes posible.
Los datos relacionados con el sector turístico son altamente dinámicos y por ello son muchas las organizaciones que apuestan por ofrecerlos a través de APIs, que facilitan el acceso de una manera mucho más eficiente.
La apertura de datos en el sector turístico es una práctica que fomenta la creación de servicios y tecnologías capaces de ofrecer soluciones a problemas actuales a partir de la reutilización de datos en abierto. Es el caso de algunas aplicaciones como Casual Learn, que utiliza información del Portal de Datos Abiertos de Castilla y León para que sus usuarios aprendan historia del arte mientras recorren los monumentos de la comunidad. O también de Mapas de España, un visualizador gratuito del IGN dirigido a ciudadanos que quieran realizar actividades en la naturaleza, al que pueden acceder desde su teléfono móvil sin necesidad de conectarse a internet.
Si estas interesado en acceder a este tipo de datos, a continuación, recogemos 10 ejemplos de repositorios relacionados con el turismo a nivel internacional, divididos en tres categorías: turismo, ocio y cultura y meteorología.
Turismo
DATA Tourisme
- Publicador: Gobierno de Francia
Es la plataforma abierta nacional de datos turísticos de Francia, creada para facilitar el acceso a los datos de información pública turística a través de una plataforma nacional de datos abiertos. Destaca su sección dedicada a la producción y reutilización de datos. Tanto si los usuarios desean registrar como descargar datos, necesitarán crear una cuenta de usuario para poder acceder a la plataforma.
Los datos ofertados están divididos en cuatro categorías principales: Fiestas y eventos, lugares, productos e itinerarios. La plataforma DATAtourisme permite descargar datos en varios formatos de serialización (o sintaxis): XML, CSV, Json, SQL, RDF-XML, NT, Turtle, Json estructurado, Json compactado y HDT. Todos los datos que contiene este portal se ofrecen a través de esta API.
Tourism Information & Service Hub (TIH)
- Publicador: Gobierno de Singapur
El Centro de información y servicios turísticos (TIH) es una plataforma de recursos digitales que permite a empresas y desarrolladores acceder a información relevante sobre las ofertas turísticas y los servicios de software de viajes de Singapur.
Sin duda, lo más destacado de este portal es que cuenta con una API para facilitar el acceso a su oferta de datos. Las API de datos permiten a los desarrolladores acceder a conjuntos de datos relacionados con el turismo de Singapur a través de una clave API.
Alojamiento, atracciones, excursiones, centros comerciales y tiendas o número de visitantes son solo algunos ejemplos del tipo de datos que se pueden encontrar en este portal.
My Switzerland
- Publicador: Gobierno de Suiza
Esta plataforma ofrece conjuntos de datos relacionados con el turismo en Suiza que se proporcionan a través de una API. Se trata de una API pública que presenta información turística traducida en 16 idiomas y su principal fuente de contenido es el portal de My Switzerland.
Actualmente esta API proporciona datos acerca de destinos turísticos, atracciones y ofertas de interés, aunque esta lista se ampliará en un futuro próximo con más tipos de datos en función de las necesidades de los socios y reutilizadores.
Places API
- Publicador: Google
Esta API desarrollada por Google permite buscar información sobre más de 200 millones de lugares a través de una gran variedad de categorías, incluidos establecimientos, puntos de interés destacados o ubicaciones geográficas.
A través de esta API, los desarrolladores pueden acceder a una gran variedad de datos de Google para proporcionar a sus usuarios una experiencia ajustada a su ubicación en tiempo real, al mostrar los nombres e información de lugares, en vez de un conjunto de coordenadas.
Ocio y cultura
Museo de Historia Natural de Reino Unido
- Publicador: Museo de Historia Natural de Reino Unido
A través de este portal es posible consultar y descargar datos acerca de las investigaciones y colecciones del museo. Actualmente cuenta con un número aproximado de 200 conjuntos de datos sobre diversas temáticas como entomología, zoología, botánica, o paleontología, entre otros.
Todos los datasets están disponibles a través de una API para facilitar su descarga a los usuarios que deseen utilizar los datos en su propio software o aplicaciones.
European Group on Museum Statistics (EGMUS)
- Publicador: European Groupon Museum Statistics (EGMUS)
El Grupo Europeo de Estadísticas de Museos (EGMUS) es una organización fundada en 2002 en la que se encuentran representados 30 países europeos. El principal objetivo de EGMUS es la recopilación y publicación de datos estadísticos relativos a los museos europeos participantes.
La información disponible de las estadísticas y encuestas de los museos nacionales se recopila, actualiza y almacena en la tabla de la lista abreviada de indicadores clave de los museos (ALOKMI por sus siglas en inglés). ALOKMI es el primer paso hacia la armonización de las estadísticas museísticas en Europa.
Las tablas de datos que ofrece EGMUS están disponibles para su descarga en formato CSV.
IMAGES D’ART
- Publicador: Réunion des musées nationaux - Grand Palais
Images d'Art (Imágenes de arte) es una plataforma que ofrece una extensa base de datos de cientos de miles de obras de aproximadamente 30.000 artistas. Esta base de datos de imágenes contiene obras de museos franceses que han sido digitalizadas y documentadas por la agencia de fotografía RMN-GP.
En este portal podemos filtrar la información en torno a algunos parámetros como museos, períodos históricos, autores, técnica, palabras clave o búsqueda avanzada.
Europeana
- Publicador: Europeana
Europeana es un portal que proporciona a los entusiastas del patrimonio cultural, profesionales, profesores e investigadores acceso digital al material del patrimonio cultural europeo. Esta plataforma cuenta con información sobre más de 3.700 instituciones diferentes. Una red de socios agregadores recopila los datos, los verifica minuciosamente y los enriquece con información como la ubicación geográfica o los vincula a otros materiales o conjuntos de datos a través de personas, lugares o temas asociados.
Europeana ofrece datos sobre obras de arte, libros, música y vídeos, periódicos, arqueología, moda, ciencia o deportes, entre otros muchos. Para facilitar el acceso a esta información, este portal cuenta con diferentes APIs.
Biblioteca Digital Mundial
- Publicador: Biblioteca Digital Mundial (WDL)
La Biblioteca Digital Mundial fue un proyecto creado en 2009 por la Biblioteca del Congreso de los Estados Unidos, con el apoyo de la UNESCO y contribuciones de bibliotecas, archivos, museos, instituciones educativas y organizaciones internacionales de todo el mundo.
La WDL contiene materiales de enorme interés, fundamentales para entender las culturas de todo el mundo. Los datos que ofrece están disponibles de manera gratuita y en una gran variedad de idiomas. Además, ofrece un menú que permite filtrar los datos por formato, fecha, localización, temática o idioma, entre otros.
Meteorología
Open Meteo
- Publicador: Open Meteo
Open-Meteo ofrece una API de datos climáticos para pronosticar el tiempo de manera gratuita a nivel global. Esta API está especialmente dirigida a desarrolladores de código abierto y uso no comercial, para acceder a ella no se requiere ninguna clave y la actualización de su información se produce cada 3 horas.
Datos relativos a la temperatura, viento, presión, humedad o precipitaciones son solo algunas de las variables meteorológicas que los usuarios tienen disponibles a través de esta API.
Esta ha sido tan solo una pequeña selección de repositorios de datos relacionados con el sector turístico que podrían ser de tu interés. ¿Conoces alguno más de relevancia relacionado con este campo? Déjanos un comentario o envíanos un correo electrónico a dinamizacion@datos.gob.es
Los datos de investigación son muy valiosos, y su acceso permanente es uno de los mayores retos para todos agentes involucrados en el mundo científico: personal investigador, organismos de financiación, editores e instituciones académicas. La conservación a largo plazo de los datos y la cultura del acceso abierto son fuente de nuevas oportunidades para la comunidad científica. Son cada vez más las universidades y centros de investigación que ofrecen repositorios con los datos de sus investigaciones, permitiendo el acceso permanente a los mismos. Así, debido a los requisitos de cada disciplina académica, los repositorios existentes son muy variados.
El personal investigador se enfrenta día a día a este universo de múltiples repositorios, herramientas, formatos… en los que consultar los datos deseados sin una guía o pauta supone muchos recursos de tiempo y esfuerzo. Re3data.org es un registro internacional de repositorios de datos de investigación (Registry of Research Data Repositories) donde se recopilan metadatos de los repositorios especializados en almacenar datos procedentes de investigación. Gracias a este trabajo de compilación, el personal investigador, las organizaciones financiadoras, bibliotecas y editores pueden buscar y visualizar los principales repositorios de datos de investigación, siendo posible realizar búsquedas y vistas facetadas por disciplina, materia, país, contenidos, formatos, licencias, idioma, etc.
El registro re3data.org nació como un proyecto conjunto de varias organizaciones alemanas, financiado por la Fundación Alemana de Investigación (DFG). El lanzamiento oficial se produjo en mayo del 2013 y posteriormente se integró el catálogo DataBib para evitar la duplicación y confusión por la existencia de dos registros similares paralelos. El proyecto de unificación estuvo auspiciado por DataCite, una organización internacional sin ánimo de lucro cuyo objetivo es mejorar la calidad de las citas de datos. Además, re3data.org colabora con otros proyectos de Ciencia Abierta como BioSharing u OpenAIRE.
Múltiples editores, instituciones de investigación y organizaciones financiadoras hacen referencia al registro re3data.org en sus políticas editoriales o directrices, como la herramienta idónea para la identificación de repositorios de datos. Uno de los ejemplos más destacables es la Comisión Europea (junto con Nature y Springer), ya que la menciona en el documento “Directrices para las reglas sobre acceso abierto de publicaciones científicas y acceso abierto de los datos de investigación en el programa Horizon 2020” (Guidelines to the Rules on Open Access to Scientific Publications and Open Access to Research Data in Horizon 2020).
Actualmente, los metadatos de los repositorios que se almacenan son aquellos que se encuentran enumerados en la versión 3 del “Esquema de metadatos para la descripción de repositorios de datos de investigación” (Metadata Schema for the Description of Research Data Repositories).
El registro identifica y enumera cerca de 2.000 repositorios de datos de investigación, lo que hace al re3data.org el más grande y completo de los registros de repositorios de datos disponibles en la web. Su crecimiento ha sido constante desde su lanzamiento, cubriendo una amplia gama de disciplinas.
En lo referente a España, y a fecha de 1 de diciembre de 2017, se catalogan 23 repositorios de datos de investigación en los que participa España.
La promoción de la ciencia abierta, la cultura del intercambio, la reutilización de información y el acceso abierto se encuentra en los cimientos del proyecto re3data.org. Y sobre esos cimientos sólidos la herramienta sigue y sigue aumentando los metadatos recopilados, y por ende la visibilidad de los datos de investigación. Seguir trabajando en incrementar esta visibilidad y potenciar la ciencia abierta no sólo es fundamental para garantizar el trabajo investigador basado en los hitos anteriores, sino que permite expandir exponencialmente los horizontes de la labor científica.
Más allá de los datos de administraciones públicas, bibliotecas, museos y fundaciones culturales, el atractivo de los datos abiertos no conoce fronteras. Te invitamos a descubrirlo en este post.
Normalmente se asocia el concepto de datos abiertos con aquellos repositorios gestionados por las administraciones públicas, fundaciones y organizaciones culturales como Bibliotecas y museos. Pero los datos abiertos abarcan mucho más y, si nos empleamos a fondo en la búsqueda, podemos encontrar auténticas joyas esperando ser exploradas. Muchas veces se trata de repositorios de temas muy específicos, de gran utilidad para los profesionales que desarrollan su actividad laboral en ese campo. Otras se trata de repositorios generales con conjuntos de datos poco habituales.
Veamos algunos ejemplos.
Datos abiertos y ciencia
Para ilustrar los repositorios de datos específicos, vamos a centrarnos en dos ejemplos del ámbito científico:
1) Portal de datos abiertos de la Agencia Espacial Europea. En este sitio web podemos encontrar gran cantidad de imágenes y datos procedentes de las diferentes misiones espaciales de la Agencia Espacial Europea (por su acrónimo en inglés, ESA). Por ejemplo, la mayoría de imágenes de satélite del programa Copernicus - el programa de observación de la Tierra más ambicioso hasta la fecha - proporcionan información precisa, oportuna y de fácil acceso para mejorar la gestión del medio ambiente, comprender y mitigar los efectos del cambio climático y garantizar la seguridad civil.
Monte Fuji en Japón. Ejemplo de imágen abierta bajo licencia CC BY-SA 3.0 IGO procedente del repositorio open data de la ESA, en particular del programa Copérnico de observación terrestre.
La ESA, no solamente pone a disposición imágenes y videos procedentes de los satélites, sino una gran cantidad de datos de observación que pueden ser procesados para generar nuestras propias imágenes o análisis. Como ejemplo, los datos generados por la misión Gaia - la misión más ambiciosa para trazar un mapa tridimensional de nuestra Galaxia - están disponibles para descarga directa en este enlace. Navegando por los enlaces que dependen del repositorio principal podemos acceder a ficheros en formato .csv de varios decenas de MB de tamaño listos para su análisis.
2) Portal de datos abiertos del CERN. El CERN es el laboratorio europeo para la investigación nuclear. El lugar donde nació lo que hoy conocemos como La Web (World Wide Web), concentra buena parte del mejor talento científico de Europa y genera varias decenas de petabytes de datos al año. De esta forma, el CERN también cuenta con su propio sitio web dedicado a los datos abiertos. El sitio de datos abiertos del CERN es una web muy amigable para el usuario no experto que nos propone diferentes formas de acercarnos a los datos que allí se guardan. Existen diferentes caminos para explorar el sitio dependiendo de si seguimos la ruta Learn, Visualise o Analyse. Este sitio web es un auténtico vergel de datos si no fuera porque es necesario tener nociones básicas (o no tan básicas) de física de partículas, para explotar todo su potencial.
Adicionalmente al sitio raíz, el CERN pone a disposición de los usuarios (avanzados) un sitio de Github para que, aquellos desarrolladores que quieran trabajar con los datos abiertos, dispongan de un entorno más indicado para la explotación de los datos de forma programática. Los sitios de Github u otros repositorios de código abiertos potencian el desarrollo de comunidades colaborativas de usuarios en torno a los datos abiertos.
Datos muy, pero que muy, diversos
Pero además de estos repositorios específicos, también existen repositorios de temática general donde encontrar conjuntos de datos poco habituales. Ya hemos hablado en anteriores ocasiones del sitio web Kaggle. Kaggle es una plataforma web abierta orientada a científicos de datos en la que se plantean desafíos (algunos de ellos remunerados con cuantiosos premios en metálico). En esta ocasión nos acercamos a Kaggle solamente para explorar su extenso catálogo de datos (en su mayoría publicados bajo licencia Creative Commons en alguna de sus variantes).
Por citar algunos ejemplos variados, buscando en las primeras entradas de su catálogo nos encontramos con conjuntos de datos sobre la altura de las olas en la costa australiana o por ejemplo, un conjunto de datos que incluye una lista de 10.000 zapatos de mujer con sus precios publicado bajo licencia CC BY-NC-SA 4.0. No podía faltar en esta lista uno de los conjuntos de datos más populares y usados en la actualidad. Cada trimestre, Stackoverflow, la comunidad online más grande para programadores, publica una extracción de su base de datos con los post, votaciones, etiquetas y comentarios que han pasado por su plataforma. El análisis de este conjunto de datos (publicado bajo CC BY-SA 3.0) de más de 100 GB de volumen es, probablemente, la manera más precisa de medir las tendencias del mercado en cuanto a popularidad y uso de los lenguajes de programación que existe.
En definitiva, además de los conjuntos de datos existentes sobre movilidad, medio ambiente, localización de servicios básicos en las ciudades o colecciones culturales, existen repositorios de datos abiertos, mucho más específicos, para aquellos usuarios intrépidos que se atreven a investigar en busca de los datos menos comunes. Desde luego, el futuro de los datos abiertos no tiene fronteras.
Contenido elaborado por Alejandro Alija,experto en Transformación Digital e Innovación.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.