Blog

La inteligencia artificial (IA) de código abierto es una oportunidad para democratizar la innovación y evitar la concentración de poder en la industria tecnológica. Sin embargo, su desarrollo depende en gran medida de la disponibilidad de conjuntos de datos de alta calidad y de la implementación de marcos sólidos de gobernanza de datos. Un informe reciente de Open Future y la Open Source Initiative (OSI) analiza los desafíos y oportunidades en esta intersección, proponiendo soluciones para una gobernanza de datos equitativa y responsable. Puedes leer aquí el informe completo.

En este post, analizaremos las ideas más relevantes del documento, así como los consejos que ofrece para garantizar una correcta y efectiva gobernanza de datos en la inteligencia artificial open source y aprovechar todas sus ventajas.

Los retos de la gobernanza de datos en la IA

A pesar de la gran cantidad de datos disponibles en la web, su acceso y uso para entrenar modelos de IA plantean importantes desafíos éticos, legales y técnicos. Por ejemplo:

  1. Equilibrio entre apertura y derechos: en línea con el Reglamento de Gobernanza de Datos (DGA), se debe garantizar un acceso amplio a los datos sin comprometer derechos de propiedad intelectual, privacidad y equidad.
  2. Falta de transparencia y estándares de apertura: es importante que los modelos etiquetados como “abiertos” cumplan con criterios claros de transparencia en el uso de datos.
  3. Sesgos estructurales: muchos conjuntos de datos reflejan sesgos lingüísticos, geográficos y socioeconómicos que pueden perpetuar desigualdades en los sistemas de IA.
  4. Sostenibilidad ambiental: el uso intensivo de recursos para entrenar modelos de IA plantea desafíos de sostenibilidad que deben abordarse con prácticas más eficientes.
  5. Involucrar a más actores: actualmente, los desarrolladores y las grandes corporaciones dominan la conversación sobre IA, dejando fuera a comunidades afectadas y organizaciones públicas.

Una vez identificados los retos, el informe propone una estrategia para alcanzar el objetivo principal: una gobernanza de datos adecuada en los modelos de IA de código abiertos. Este enfoque está basado en dos pilares fundamentales.

Hacia un nuevo paradigma de gobernanza de datos

En la actualidad, el acceso y la gestión de los datos para entrenar modelos de IA están marcados por una creciente desigualdad. Mientras algunas grandes corporaciones tienen acceso exclusivo a vastos repositorios de datos, muchas iniciativas de código abierto y comunidades marginadas carecen de los recursos para acceder a datos representativos y de calidad. Para abordar este desequilibrio es necesario un nuevo enfoque en la gestión y uso de los datos en la IA de código abierto. El informe destaca dos cambios fundamentales en la manera en que se concibe la gobernanza de datos:

Por un lado, adoptar un enfoque de data commons que no es más que un modelo de acceso que garantiza el equilibrio entre la apertura de datos y la protección de derechos. Para ello, sería importante utilizar licencias innovadoras que permitan compartir datos sin explotación indebida. También es relevante crear estructuras de gobernanza que regulen el acceso y uso de datos. Y, por último, implementar mecanismos de compensación para comunidades cuyos datos son utilizados en inteligencia artificial.

Por otro lado, es necesario trascender la visión centrada en desarrolladores de IA e incluir a más actores en la gobernanza de datos, como:

  • Propietarios de los datos y comunidades que generan contenido.
  • Instituciones públicas que pueden promover estándares de apertura.
  • Organizaciones de la sociedad civil que velen por la equidad y el acceso responsable a los datos.

Al adoptar estos cambios, la comunidad de IA podrá establecer un sistema más inclusivo, en el que los beneficios del acceso a datos se distribuyan de manera equitativa y respetuosa con los derechos de todas las partes interesadas. Según el informe, la implementación de estos modelos no solo aumentará la cantidad de datos disponibles para la IA de código abierto, sino que también fomentará la creación de herramientas más justas y sostenibles para la sociedad en su conjunto.

Consejos y estrategia

Para hacer efectiva una gobernanza de datos robusta en la IA de código abierto, el informe propone seis áreas de acción prioritarias:

  1. Preparación y trazabilidad de datos: mejorar la calidad y documentación de los conjuntos de datos.
  2. Mecanismos de licenciamiento y consentimiento: permitir a los creadores de datos definir su uso de manera clara.
  3. Custodia de datos: fortalecer la figura de intermediarios que gestionen datos de forma ética.
  4. Sostenibilidad ambiental: reducir el impacto del entrenamiento de IA con prácticas eficientes.
  5. Compensación y reciprocidad: garantizar que los beneficios de la IA lleguen a quienes contribuyen con datos.
  6. Intervenciones de política pública: promover regulaciones que incentiven la transparencia y el acceso equitativo a datos.

 ¿Cómo conseguir una correcta gobernanza de datos en IA de código abiertos?   1. Mejorar la calidad y trazabilidad de los datos  2. Permitir licenciamiento y consentimiento claro  3. Fortalecer la custodia de datos de los intermediarios  4. Reducir el impacto ambiental del entrenamiento de IA  5. Garantizar una correcta compensación de los beneficios de la IA  6. Promover políticas públicas que incentiven la transparencia y el acceso equitativo a los datos   Fuente: "Data Governance in Open Source AI". Open Source Initiative y Open Future. Disponible aquí : https://opensource.org/blog/reimagining-data-for-open-source-ai-a-call-to-action

La inteligencia artificial de código abierto puede impulsar la innovación y la equidad, pero para lograrlo es necesario un enfoque de gobernanza de datos más inclusivo y sostenible. Adoptar modelos de datos comunes y ampliar el ecosistema de actores permitirá construir sistemas de IA más justos, representativos y responsables con el bien común.

El informe que publican Open Future y Open Source Initiative hace una llamada a la acción a desarrolladores, legisladores y sociedad civil para establecer normas compartidas y soluciones que equilibren la apertura de datos con la protección de derechos. Con una gobernanza de datos sólida, la IA de código abierto podrá cumplir su promesa de servir al interés público.

calendar icon
Blog

La Infraestructura de Pruebas para el Análisis de Datos (BDTI, por sus siglas en inglés, Big Data Test Infrastructure) es una herramienta financiada por el Programa Digital Europeo, que permite a las administraciones públicas realizar análisis con datos abiertos y herramientas de código abierto con el fin de impulsar la innovación.

Esta herramienta, alojada en la nube y de uso gratuito, se creó en 2019 para acelerar la transformación digital y social. Con este planteamiento y siguiendo también la Directiva Europea de Datos Abiertos, la Comisión Europea llegó a la conclusión de que, para lograr un impulso digital y económico, debía aprovecharse el poder de los datos de las administraciones públicas; es decir, aumentar su disponibilidad, calidad y usabilidad. Es así como nace BDTI, con el propósito de fomentar la reutilización de esta información proporcionando un entorno de prueba de análisis gratuito que permite a las administraciones públicas crear prototipos de soluciones en la nube antes de implementarlas en el entorno de producción de sus propias instalaciones.

¿Qué herramientas ofrece BDTI?

Big Data Test Infrastructure ofrece a las administraciones públicas europeas un conjunto de herramientas estándar de código abierto para el almacenamiento, procesamiento y análisis de sus datos. La plataforma consta de máquinas virtuales, clústeres de análisis e instalaciones de almacenamiento y de red. Las herramientas que ofrece son:

  • Bases de datos: para almacenar datos y realizar consultas sobre los datos almacenados. El BDTI incluye actualmente una base de datos relacional (PostgreSQL), una base de datos orientada a documentos (MongoDB) y una base de datos gráfica (Virtuoso).
  • Lago de datos: para almacenar grandes cantidades de datos estructurados y sin estructurar (MinIO). Los datos en bruto no estructurados se pueden procesar con configuraciones desplegadas de otros bloques de construcción (componentes BDTI) y almacenarse en un formato más estructurado dentro de la solución de lago de datos.
  • Entornos de desarrollo: proporcionan las capacidades informáticas y las herramientas necesarias para realizar actividades estándar de análisis de datos sobre datos que provienen de fuentes externas, como lagos de datos y bases de datos.
    • JupyterLab, un entorno de desarrollo interactivo y online para crear cuadernos Jupyter, código y datos.
    • Rstudio, un entorno de desarrollo integrado para R, un lenguaje de programación para computación estadística y gráficos.
    • KNIME, una plataforma de análisis, informes e integración de datos de código abierto que cuenta con componentes para el aprendizaje automático y la minería de datos, que se puede utilizar para todo el ciclo de vida de la ciencia de datos.
    • H2O.ai, una plataforma de aprendizaje automático (machine learning o ML) e inteligencia artificial (IA) de código abierto diseñada para simplificar y acelerar la creación, el funcionamiento y la innovación con ML e IA en cualquier entorno.
  • Procesamiento avanzado: también se pueden crear clústeres y herramientas para procesar grandes volúmenes de datos y realizar operaciones de búsqueda en tiempo real (Apache Spark, Elasticsearch y Kibana
  • Visualización: BDTI también ofrece aplicaciones para visualizar datos como Apache Superset, capaz de manejar datos a escala de petabytes o Metabase.
  • Orquestación: para la automatización de los procesos basados en datos durante todo su ciclo de vida, desde la preparación de datos hasta la toma de decisiones basadas en ellos y la realización de acciones basadas en esas decisiones, se ofrece:
    • Apache Airflow, una plataforma de gestión de flujos de trabajo de código abierto que permite programar y ejecutar fácilmente canalizaciones de datos complejas.

A través de estas herramientas que se encuentran en entorno nube, los trabajadores públicos de países de los países de la UE pueden crear sus propios proyectos piloto para demostrar el valor que los datos pueden aportar a la innovación. Una vez finalizado el proyecto, los usuarios tienen la posibilidad descargar el código fuente y los datos para continuar el trabajo por sí mismos, utilizando entornos de su elección. Además, la sociedad civil, la academia y el sector privado pueden participar en estos proyectos piloto, siempre y cuando haya una entidad pública involucrada en el caso de uso.

Casos de éxito

Estos recursos han posibilitado la creación de proyectos diversos en diferentes países de la UE. En la web de BDTI, se recogen algunos ejemplos de casos de uso. Por ejemplo, Eurostat llevó a cabo un proyecto piloto en el que se utilizaron datos abiertos de anuncios de empleo en internet para mapear la situación de los mercados laborales europeos. Otros casos de éxito fue la optimización de la contratación pública por parte de la Agencia Noruega de Digitalización, los esfuerzos de intercambio de datos por parte de la European Blood Alliance y el trabajo para facilitar la comprensión del impacto de COVID-19. sobre la ciudad de Florencia .

En España, BDTI hizo posible un proyecto de minería de datos en la Conselleria de Sanitat de la Comunidad Valenciana. Gracias a BDTI se pudieron extraer conocimientos de la enorme cantidad de artículos clínicos científicos; una tarea que apoyó a clínicos y gestores en sus prácticas clínicas y en su trabajo diario.

RESUMEN DE LOS CASOS DE ÉXITO DE BDTI   Conselleria de Sanitat de la Generalitat Valenciana: Minado de texto   Extraer conocimientos de la enorme cantidad de artículos clínicos científicos, apoyando a clínicos y gestores en sus prácticas clínicas y su trabajo diario.   Agencia Digital Noruega (Digdir): Optimización   Optimizar la contratación pública en Noruega, recopilando y analizando grandes conjuntos de datos sobre transacciones en este ámbito.   European Blood Alliance: Compartición de datos   Un entorno virtual listo para usar en el que los datos recopilados a través de un sitio web personalizado se ingieren y anonimizan, para luego ser analizados con herramientas avanzadas de visualización y análisis de datos.   Ciudad de Florencia: Datos de movilidad   Análisis predictivo, descriptivo y de series temporales de múltiples conjuntos de datos recogidos antes, durante y después de la pandemia de Covid-19, como sensores WiFi públicos, datos compartidos y georreferenciados de movimientos de personas.   Eurostat, European Centre for Development of Vocational Training National Statistical Institutes: Información sobre el mercado laboral   Utilización de datos de anuncios de empleo en línea para proporcionar información puntual sobre los mercados laborales de la UE, aplicación de Inteligencia Artificial, Procesamiento del Lenguaje Natural y Aprendizaje Automático para limpiar el texto y extraer los datos pertinentes.

Cursos, boletín y otros recursos

 Además de publicar casos de uso, la web Big Data Test Infrastructure ofrece un curso online y gratuito para aprender a sacar el máximo partido a BDTI. Este curso se centra en un caso de uso altamente práctico: analizar la financiación de proyectos verdes e iniciativas en regiones contaminadas de la UE, utilizando datos abiertos de data.europa.eu y otras fuentes abiertas.

Por otro lado, recientemente se ha lanzado una newsletter de envío mensual sobre las últimas noticias de BDTI, buenas prácticas y oportunidades de análisis de datos para el sector público.

En definitiva, la reutilización de los datos del sector público (RISP) es una prioridad para la Comisión Europea y BDTI (Big Data Test Infrastructure) una de las herramientas que contribuyen a su desarrollo. Si trabajas en la administración pública y te interesa utilizar BDTI regístrate aquí.

calendar icon
Evento

El próximo 1 de junio, la capital española albergará la cuarta edición de la Feria y Congreso sobre FLOSS (software y código libre) y Open Economy. El objetivo del Open Expo es reunir anualmente a las principales empresas e instituciones, desarrolladores, hackers, expertos, proveedores y usuarios para conocer soluciones tecnológicas y tendencias sobre código abierto, software libre, open data e innovación.

Desde su origen en 2012, cada una de las ferias organizadas ha buscado fomentar el uso y desarrollo del software libre y abierto para, así, impulsar la filosofía colaborativa y democratizar el acceso a las tecnologías de la información. Para esto, han tenido lugar varios eventos dedicados a temáticas específicas como el comercio electrónico, la inteligencia de negocio, los gestores de contenidos o el elearning, entre otras.

En esta ocasión, el Open Expo está enfocado a abordar los últimos desafíos relativos al código abierto y la transformación digital. Una oportunidad para descubrir cómo este tipo de tecnología permite modernizar el tejido empresarial y ayudar a las compañías en su camino hacia la innovación y la transformación digital de las operaciones corporativas.

A este respecto, la organización del evento ha abierto una convocatoria para encontrar ponentes que participen en el congreso compartiendo sus casos de éxito y experiencias en el ámbito de las tecnologías abiertas, mostrando cómo el open source y el software libre han ayudado a mejorar las actividades de sus empresas o bien presentando sus proyectos de código abierto.

Para participar es necesario enviar la candidatura antes del 2 de marzo a través de la página oficial del eventoun jurado analizará las ideas y seleccionará, antes del 20 del mismo mes, aquellas propuestas más relevantes en el campo a tratar.

De forma paralela, entre las actividades organizadas este año, a parte de la sala de expositores donde las principales compañías de la industria muestran sus servicios y productos, también se celebrará el foro de inversión, Open StartUp Connector, donde una decena de start-ups presentarán a posibles inversores sus proyectos TIC basados en código/datos abiertos, o bien desarrollados a través de herramientas y/o software libre.

A su vez, también están programadas actividades de networking con expertos para debatir acerca de soluciones relacionadas con la ciberseguridad, big data y el Internet de las Cosas y, a su vez, tendrá lugar los premio Open Awards España 2017 que galardonan a las mejores soluciones con tecnología open source a nivel nacional.

 

 

calendar icon