Repositorios abiertos de imágenes para entrenamiento de modelos de Inteligencia Artificial

Fecha de la noticia: 18-10-2022

mujer seleccionando imagenes

Quizás, uno de los usos más cotidianos de la inteligencia artificial que podemos experimentar en nuestro día a día sea mediante la interacción con sistemas de visión artificial e identificación de objetos. Desde el desbloqueo de nuestro smartphone, hasta la búsqueda por imágenes en Internet. Todos estas funcionalidades son posibles gracias a modelos de inteligencia artificial en el campo de la detección y clasificación de imágenes. En este post recopilamos algunos de los repositorios abiertos de imágenes más importantes, gracias a los cuales, hemos podido entrenar los modelos actuales de reconocimiento de imágenes.

Introducción

Volvamos por un momento a finales de 2017, principios del 2018. La posibilidad de desbloquear nuestros smartphones con algún tipo de lector de huella dactilar se ha extendido. Con mayor o menor acierto, la mayor parte de los fabricantes habían conseguido incluir el lector biométrico en sus terminales. El tiempo de desbloqueo, la facilidad de uso y la seguridad extra aportada eran excepcionales frente a los clásicos sistemas de contraseñas, patrones, etc. Como viene ocurriendo desde el año 2008, el líder indiscutible en innovación digital en terminales móviles - Apple - volvía a revolucionar el mercado incorporando un novedoso sistema de desbloqueo en el iPhone X mediante la imágen de nuestra cara. El denominado sistema FaceID escanea nuestra cara para desbloquear el terminal en décimas de segundo sin tener que utilizar las manos. La probabilidad de suplantación de identidad con este sistema era de 1 a 1.000.000; 20 veces más seguro que su predecesor el TouchID.

Valga esta pequeña historia sobre una funcionalidad cotidiana, para introducir un tema importante en el campo de la inteligencia artificial, y en particular del campo del procesamiento de imágenes por ordenador: los repositorios de imágenes de entrenamiento de modelos de IA. Hemos hablado mucho en este espacio sobre este campo de la inteligencia artificial. Pocos meses después del lanzamiento del FaceID, publicamos un post sobre IA, en el que mencionamos la clasificación de imágenes a nivel casi-humano como uno de los logros más importantes de la IA en los últimos años. Esto no sería posible sin la disponibilidad de bancos abiertos de imágenes anotadas[1] con los que poder entrenar modelos de reconocimiento y clasificación de imágenes. En este post listamos algunos de los repositorios de imágenes (de libre acceso) más importantes para el entrenamiento de modelos.

Lógicamente, no es lo mismo reconocer la matrícula de un vehículo a la entrada de un parking que identificar una enfermedad pulmonar en una imagen de rayos-x. Los bancos de imágenes anotadas son tan variados como las potenciales aplicaciones de IA que éstas habilitan.

Probablemente los 2 repositorios más conocidos de imágenes son MNIST e ImageNET.

  • MNIST, es un conjunto de 70.000 imágenes en blanco y negro de números manuscritos normalizados en tamaño, listas para entrenar algoritmos de reconocimiento de números. El artículo original del profesor LeCun es del año 1998.
  • ImageNET es una base de datos enorme de conceptos (palabras o conjuntos de palabras). Cada concepto con significado propio se denomina synset. Cada synset está representado por cientos o miles de imágenes. En la propia web de ImageNET se cita el proyecto como una herramienta indispensable para el reciente avance del Deep Learning y la visión por ordenador.

The project has been instrumental in advancing computer vision and deep learning research. The data is available for free to researchers for non-commercial use

El subconjunto más utilizado de ImageNet es el conjunto de datos de clasificación y localización de imágenes ImageNet Large Scale Visual Recognition Challenge ILSVRC. Este subconjunto de imágenes se utilizó desde 2010 hasta 2017 para las competiciones de detección de objetos y clasificación de imágenes a nivel mundial. Este conjunto de datos abarca 1000 clases de objetos y contiene más de un millón de imágenes de entrenamiento, 50.000 imágenes de validación y 100.000 imágenes de prueba. Este subconjunto está disponible en Kaggle.

Además de estos dos clásicos repositorios que ya forman parte de la historia del procesado de imágenes por inteligencia artificial, disponemos de algunos repositorios temáticos más actuales y variados. Estos son algunos ejemplos:

  • Los tan molestos CAPTCHAs y reCAPTCHAs que encontramos en multitud de sitios web para verificar quienes estamos intentando acceder somos humanos son un buen ejemplo de inteligencia artificial aplicado al campo de la seguridad. Por supuesto, los CAPTCHAs también necesitan su propio repositorio para comprobar cuán efectivos son para evitar accesos no deseados. Te recomendamos leer este interesante artículo sobre la historia de estos compañeros de navegación por la web.
  • Como hemos visto varias veces en el pasado, una de las aplicaciones más prometedoras de la IA en el campo de la imágenes es la de asistir a los médicos en el diagnóstico de enfermedades a partir de una prueba de imágen médica (rayos-x, tomografía computerizada, etc.) Para convertir esto en una realidad, no son pocos los esfuerzos en recopilar, anotar y poner a disposición de la comunidad investigadora repositorios de imágenes médicas anonimizadas y de calidad para entrenar modelos de detección de objetos, formas y patrones que puedan revelar una posible enfermedad. El 30% de todos los cánceres que padecen las mujeres en el mundo corresponde con el cáncer de mama. De ahí la importancia de contar con bancos de imágenes que faciliten el entrenamiento de modelos específicos.
  • El diagnóstico de enfermedades basadas en la sangre a menudo implica la identificación y caracterización de muestras de sangre de pacientes. Los métodos automatizados (mediante imagen médica) para detectar y clasificar los subtipos de células sanguíneas tienen importantes aplicaciones médicas.
  • Hace 3 años el Covid19 irrumpió en nuestras vidas poniendo a las sociedades desarrolladas patas arriba con esta pandemia de alcance mundial y consecuencias terribles en términos de pérdidas humanas y económicas. La comunidad científica al completo se volcó en dar solución en tiempo record para atajar las consecuencias del nuevo coronavirus. Fueron muchos los esfuerzos en la mejora del diagnóstico de la enfermedad. Algunas técnicas apostaron por el análisis de imagen asistidas por IA.  Al mismo tiempo, las autoridades sanitarias incorporaron un elemento nuevo en nuestra rutina diaria - las mascarillas-. Todavía hoy en algunas situaciones la mascarilla sigue siendo de obligado uso, y durante estos 3 años hemos tenido que vigilar su adecuado uso en casi todo tipo de lugares. Tanto es así que en estos meses han proliferado los bancos de imágenes específicos para entrenar modelos de IA y visión artificial que detecten el uso de mascarillas de forma autónoma.
  • Para ampliar información sobre repositorios abiertos relacionados con la salud y el bienestar, te dejamos este post que publicamos hace unos meses.

Además de estos curiosos ejemplos que hemos citado en este post, te animamos a explorar la sección de conjuntos de datos de Kaggle que incluyen imágenes como datos. Tan solo tienes 10.000 conjuntos para recorrer ;)

 

[1] Los repositorios de imágenes anotadas contienen, además de los ficheros de imágen (jpeg, tiff, etc.), unos ficheros descriptivos con los metadatos que identifican a cada imágen. Normalmente, estos ficheros (csv, JSON o XML) incluyen un identificador único para cada imágen además de unos campos que proporcionan información sobre el contenido de la imágen. Por ejemplo, el nombre del objeto que aparece en la imágen.


Contenido elaborado por Alejandro Alija,experto en Transformación Digital e Innovación.

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.