Data publicació 20/05/2026
Imagen de archivo
Descripció

Durante años, el debate sobre la reutilización de datos se ha centrado principalmente en los procesos de publicación, es decir, en cómo exponer más y mejores conjuntos de datos desde las entidades proveedoras. En cambio, ha quedado con frecuencia en un segundo plano el apoyo a quienes deben localizarlos, comprenderlos, combinarlos y convertirlos en productos o servicios de valor añadido.

Con la irrupción de la inteligencia artificial (IA), esta mirada empezó a cambiar. La cuestión ya no era solo cuántos datos existen, sino cómo transformar datos dispersos, heterogéneos y sujetos a reglas distintas en materia prima útil para innovar (usando, entre otras, técnicas de analítica avanzada e IA). En ese contexto, la Unión Europea ha empezado a perfilar los data labs como una pieza clave de su Estrategia para una Unión de Datos: una iniciativa orientada a aumentar la disponibilidad de datos de calidad para la IA, simplificar las reglas aplicables y conectar mejor las fuentes de datos existentes (espacios de datos, portales de datos abiertos, portales estadísticos, etc.) con los ecosistemas de innovación.

Data labs, el nuevo concepto que aglutina servicios para la reutilización de datos

¿Y qué son exactamente los data labs? La Unión Europea los describe como centros operativos especializados que darán a empresas e investigadores acceso a conjuntos de datos diversos y ofrecerán servicios relacionados con la aplicación de técnicas de IA sobre esos datos.

Esto supone un cambio de enfoque relevante porque el foco, además de ayudar al proveedor para que publique los datos, está en acompañar al consumidor para que pueda encontrar, preparar y reutilizar los datos con mayor facilidad. En este sentido, uno de los aportes más interesantes de los data labs es que desplazan el foco desde la simple acumulación de datos hacia su calidad, preparación y reutilización efectiva.

En los proyectos de ciencia de datos e IA, desde hace años se repite una versión de la regla de Pareto que establece que alrededor del 80% del tiempo se dedica a localizar, limpiar, integrar, documentar y preparar los datos, mientras que solo el 20% restante se reserva para analizarlos o entrenar modelos. No es una ley matemática, pero sí una realidad que estudios recientes siguen situando en ese mismo orden de magnitud.

Y, precisamente, ahí es donde los data labs pueden marcar la diferencia, dándole la vuelta a estos porcentajes, ya que ayudan a descubrir fuentes relevantes, mejorar metadatos, armonizar formatos, resolver problemas de acceso y avanzar en tareas de curación que convierten el dato bruto en un activo realmente utilizable. En otras palabras, no se trata solo de tener más datos, sino de tener mejores datos.

Alcance y valor añadido de los data labs

La UE sitúa a los data labs en un contexto muy concreto: aumentar el acceso a datos de calidad para IA, simplificar el marco regulatorio y reforzar la posición europea en la economía global del dato. Visto desde la perspectiva de la reutilización, esto se traduce en tres necesidades muy reconocibles: encontrar y acceder al dato adecuado, operar con seguridad jurídica y confianza, y preparar los datos con la calidad suficiente para que generen impacto. Específicamente, el alcance de los data labs abarca seis ámbitos:

  1. Infraestructura y herramientas técnicas: aportan entornos seguros y herramientas para gestionar datos (desde anonimización hasta generación de datos sintéticos).
  2. Data pooling: ponen en común datos heterogéneos de diversas fuentes, combinándolos conforme a las reglas aplicables.
  3. Curación y etiquetado: ayudan a enriquecer conjuntos de datos para que sean más representativos y útiles para la IA.
  4. Guía regulatoria y formación: proporcionan orientación práctica sobre cómo cumplir la normativa europea aplicable a los datos y la IA.
  5. Conexión entre espacios de datos y ecosistemas de IA: actúan como puente entre los espacios europeos de datos y quienes desarrollan soluciones de IA.
  6. Facilitación del acceso a datos: ayudan a localizar conjuntos de datos relevantes y a superar barreras técnicas, legales o administrativas para utilizarlos.

Infografía titulada “Alcance de los Data Labs”. Presenta seis funciones principales de los laboratorios de datos en bloques de colores pastel con iconos ilustrativos.  Ofrecen infraestructura y herramientas técnicas para gestionar datos. Ponen en común datos heterogéneos de diversas fuentes en procesos de data pooling. Ayudan a curar y etiquetar conjuntos de datos para la inteligencia artificial. Proporcionan una guía regulatoria y de formación. Conectan espacios de datos y ecosistemas de IA. Facilitan el acceso a datos. En la parte inferior aparece el logotipo de datos.gob.es y la referencia “Fuente: elaboración propia - datos.gob.es”.

Figura 1. Alcance de los datalabs. Fuente: elaboración propia - datos.gob.es

Por todo ello, el valor de los data labs no está en “dar acceso” a los datos (de hecho, esto ya lo hacen los espacios de datos o los portales de datos abiertos), sino en hacer operativo el dato. Los data labs podrán ofrecer servicios como limpieza y enriquecimiento de conjuntos de datos, normalización, anonimización, generación de datos sintéticos y servicios de data pooling compatibles con la normativa de competencia. Por lo tanto, ofrecen menos fricción para pasar del dato bruto al dato listo para entrenar, probar o desplegar soluciones de IA.

Relación de data labs con datos abiertos y con espacios de datos

En el marco europeo, los datos abiertos siguen siendo la capa más accesible del ecosistema, especialmente cuando proceden del sector público. Destaca el concepto de datos de alto valor (high-value datasets o HVD) porque la propia normativa europea subraya que estos conjuntos son fuentes clave para el desarrollo de la IA. De hecho, la Estrategia para una Unión de Datos prevé ampliar durante 2026 la lista de datos de alto valor a ámbitos como los datos legales, judiciales y administrativos, así como, hacer disponibles 30 millones de objetos culturales digitalizados para entrenamiento de IA a través de Europeana. Por ello, los data labs añaden una capa adicional a los portales de datos abiertos, encargada de la búsqueda y combinación de datos (entre conjuntos de datos abiertos de diferentes fuentes, pero también entre conjuntos de datos abiertos y datos procedentes de otras fuentes), así como de su preparación.

Los data labs no sustituyen a las iniciativas de datos abiertos ni a las de espacios de datos, sino que las complementan.

Por otra parte, la UE define explícitamente que los data labs deben actuar como el puente entre los espacios de datos y el ecosistema de IA. Podría decirse, de manera simplificada, que los espacios de datos ponen orden en la disponibilidad del dato mientras que los data labs convierten esa disponibilidad en un recurso utilizable para innovar mediante el uso de IA. Es decir, los espacios de datos disponen de infraestructura y una gobernanza adecuada para compartir y reutilizar datos y los data labs convierten esa disponibilidad de datos en uso efectivo, ayudando a localizar, reunir, organizar, curar, etiquetar y preparar esos datos para casos de uso de IA y analítica avanzada.

Uniendo ambos escenarios (datos abiertos y espacios de datos), los data labs podrían servir para detectar qué nuevos conjuntos de datos del sector público merecería abrir o reforzar a partir de los conjuntos de datos disponibles en un espacio de datos.

Data labs y factorías de IA: el binomio perfecto

Las factorías de IA se conciben como ecosistemas que reúnen capacidad de cómputo, datos y talento para desarrollar modelos de IA y aplicaciones avanzadas. Los data labs se desplegarán precisamente en ese entorno, como una especie de capa de servicios de datos para esas factorías. La complementariedad es clara: una factoría de IA sin datos de calidad corre el riesgo de quedarse en capacidad de cómputo infrautilizada, mientras que un data lab sin acceso a infraestructuras de IA tiene más difícil cerrar el ciclo desde el dato hasta el modelo.

¿Qué no es un data lab?

Conviene aclarar, además, una posible confusión en cuanto al término data lab. No estamos hablando aquí de las “salas seguras” o entornos controlados para acceso a datos protegidos con fines de investigación, como ES_Datalab, que incluye datos del INE o del Banco de España. Esos entornos están pensados para el acceso controlado a microdatos y otra información sensible con fines de investigación, preservando confidencialidad y privacidad.

Los data labs europeos tienen un alcance distinto y más amplio, ya que son un instrumento para conectar datos públicos y privados (incluyendo espacios de datos) e innovación en IA mediante servicios de acceso, preparación, curación y apoyo regulatorio. Pueden incorporar técnicas de protección, pero no equivalen a una sala segura.

En conclusión, la apuesta europea de los data labs consiste en pasar de hablar solo de publicación de datos a hablar de activación del dato para la innovación a partir de su reutilización. Esto es muy útil para diferentes perfiles:

  • Para los perfiles técnicos, los data labs prometen más datos preparados y mejor documentados.
  • Para las empresas del sector infomediario, abren oportunidades en servicios de descubrimiento, calidad, metadatos, etiquetado, integración o cumplimiento de normativa.
  • Para la administración pública, pueden convertirse en un mecanismo muy útil para orientar qué publicar en abierto, con qué calidad y para qué usos.
  • Para la comunidad investigadora, ofrecen la posibilidad de acercar mejor el acceso al dato, la gobernanza y la infraestructura de computación.

Por lo tanto, los data labs no compiten con los datos abiertos ni con los espacios de datos, sencillamente ayudan a que ambos generen más valor en la práctica.

Jose Norberto Mazón, Catedrático de Lenguajes y Sistemas Informáticos de la Universidad de Alicante​. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.