documentación | datos.gob.es

Documentación de datos: Datasheets for datasets

Blog

16.500 millones de euros. Esos son los ingresos que se estima generarán la inteligencia artificial (IA) y los datos en la industria española para 2025, según se avanzó el pasado febrero en el foro de IndesIA, la asociación para la aplicación de la inteligencia artificial en la industria. La IA ya forma parte de nuestro día a día: ya sea haciendo más sencillo nuestro trabajo al realizar tareas rutinarias y repetitivas, o bien complementando las capacidades humanas en diversos ámbitos a través de modelos de aprendizaje automático que facilitan, por ejemplo, el reconocimiento de imágenes, la traducción automática o la predicción de diagnósticos médicos. Todas ellas, actividades que nos ayudan a mejorar la eficiencia de negocios y servicios, impulsando una toma de decisiones más certera.

Pero para que los modelos de aprendizaje automático (también conocidos por el término en inglés machine learning) funcionen correctamente, se necesitan datos de calidad y bien documentados. Todo modelo de aprendizaje automático se entrena y evalúa con datos. Las características de estos conjuntos de datos condicionan el comportamiento del modelo. Por ejemplo, si los datos de entrenamiento reflejan sesgos sociales no deseados es probable que estos también se incorporen en el modelo, lo cual puede tener graves consecuencias cuando se utiliza en ámbitos de gran importancia, como la justicia penal, la contratación de personas o el préstamo de créditos. Además, si no conocemos el contexto de los datos, puede que nuestro modelo no funcione correctamente, ya que en su proceso de construcción no se han tenido en cuenta las características intrínsecas de los datos sobre los cuales se sustenta.

Por estas y otras razones, el Foro Económico Mundial sugiere que todas las entidades deben documentar la procedencia, la creación y el uso de los conjuntos de datos de aprendizaje automático con el fin de evitar resultados erróneos o discriminatorios.

¿Qué son Datasheets for datasets?

Un mecanismo para documentar esta información son las conocidas como Datasheets for datasets. Este marco de trabajo propone que todo conjunto de datos debe ser acompañado de una “ficha de datos”, llamada datasheet, que consiste de un cuestionario que guía en la documentación de los datos y la reflexión a lo largo del ciclo de vida de los datos. Algunas de las ventajas que supone son:

Mejora la colaboración, la transparencia y la responsabilidad dentro de la comunidad de aprendizaje automático.
Mitiga los sesgos sociales no deseados en los modelos.
Ayuda a los investigadores y desarrolladores a seleccionar los conjuntos de datos más apropiados para alcanzar sus objetivos específicos.
Facilita una mayor reproducibilidad de los resultados.

Los datasheets variarán dependiendo de factores tales como el área de conocimiento, la infraestructura organizacional existente o los flujos de trabajo.

Para ayudar en la creación de las datasheet, se ha diseñado un cuestionario con una serie de preguntas, acordes a las etapas del ciclo de vida de los datos:

Motivación. Recoge las razones que han llevado a la creación de los conjuntos de datos. También se pregunta sobre quién creó o financió dichos datasets.

Composición. Ofrece a los usuarios la información necesaria sobre la adecuación del conjunto de datos a sus objetivos. Incluye, entre otras preguntas, qué unidades de observación representan el conjunto de datos (documentos, fotos, personas, países), qué tipo de información ofrece cada unidad o si hay errores, fuentes de ruido o redundancias en él. Reflexiona acerca de los datos que se refieren a personas para evitar posibles sesgos sociales o violaciones a la privacidad.

Proceso de recolección. Su objetivo es ayudar a los investigadores y usuarios a pensar en cómo crear conjuntos de datos alternativos con similares características. Aquí se detalla, por ejemplo, cómo se adquirieron los datos, quién participó en el proceso de recopilación o cómo fue el proceso de revisión ética. Trata especialmente los aspectos éticos del procesamiento de datos protegidos por la RGPD.

Preprocesamiento, limpieza o etiquetado. Gracias a estas preguntas, los usuarios de datos podrán determinar si estos han sido procesados de formas compatibles con los usos que les pretenden dar. Indaga sobre si se realizó algún preprocesamiento, limpieza o etiquetado de los datos, o si está disponible el software que se utilizó para preprocesarlos, limpiarlos y etiquetarlos.

Usos. Esta sección proporciona información sobre aquellas tareas para las cuales los datos pueden o no pueden ser usados. Para ello, se debe responder a preguntas como: ¿El conjunto de datos ya ha sido usado para alguna tarea? ¿Para qué otras tareas pueden ser utilizados? ¿La composición del conjunto de datos o la forma en que se recopiló, preprocesó, limpió y etiquetó puede afectar a otros usos futuros?

Distribución. Recoge cómo se difundirá el conjunto de datos. Las preguntas se centran en si los datos se distribuirán a terceros y, en caso afirmativo, cómo, cuándo, cuáles son las restricciones de uso y bajo qué licencias.

Mantenimiento. El cuestionario finaliza con preguntas dirigidas a planificar el mantenimiento de los datos y comunicar el plan a los usuarios de los datos. Por ejemplo, se responde a si se actualizará el conjunto de datos o quién dará soporte.

Se recomienda que todas las preguntas sean tenidas en cuenta antes de la recolección de los datos, para que sus creadores puedan ser conscientes de los posibles problemas. Para ilustrar cómo se podría responder a cada una de ellas en la práctica, los creadores del modelo han elaborado un apéndice con un ejemplo para un conjunto de datos determinado.

¿Es efectivo Datasheets for datasets?

El marco para documentar los datos Datasheets for datasets ha recibido inicialmente buenas críticas, pero su implementación continúa acarreando diversos retos, sobre todo cuando se trabaja con datos dinámicos.

Para conocer si el marco resuelve de forma efectiva las necesidades de documentación de los creadores y los usuarios de los datos, en junio del 2022, Microsoft USA y la Universidad de Michigan llevaron a cabo un estudio sobre su implementación. Para ello realizaron una serie de entrevistas y un seguimiento de la aplicación del cuestionario por parte de varios profesionales del aprendizaje automático.

En resumen, los participantes expresaron la necesidad de que los marcos de documentación sean adaptables a los diferentes contextos, se integren en las herramientas existentes y en los flujos de trabajo, y que sean tan automatizados como sea posible, debido en parte a la extensión de las preguntas. No obstante, también resaltaron sus ventajas, como, por ejemplo, que reduce el riesgo de pérdida de información, promueve la colaboración entre todos los que participan en el ciclo de vida de los datos, facilita el descubrimiento de los datos o impulsa el pensamiento crítico, entre otras.

En definitiva, nos encontramos ante un buen punto de partida, pero que deberá evolucionar, sobre todo para adaptarse a las necesidades de los datos dinámicos y a los flujos de documentación aplicados en diferentes contextos.

Contenido elaborado por el equipo de datos.gob.es.

06/10/2022

Papelea

Aplicación

Papelea es una plataforma web que ayuda a los usuarios en sus trámites con los diferentes organismos públicos a escala nacional y al mismo tiempo brinda un listado de expertos en trámites clasificados por provincia y funciones que desempeñan: administradores, gestores, , abogados, auditores o notarios.

Dentro de la Administraciones, la página web se ofrece un catálogo de documentos y trámites, todos ellos clasificados por Ayuntamientos (actualmente disponibles los consistorios de cinco ciudades), Comunidades Autónomas y Administración del Estado, categoría que cuenta con datos de cuatro ministerios estatales.

Papelea detalla, para cada unos de los organismos disponibles, la información más relevante para el usuario: descripción, plazo, formularios a cumplimentar, procedimiento electrónico, fecha de actualización y datos de contacto. De esta manera, se localiza toda la documentación y datos necesarios para la realización de trámites del sector público en un solo punto de acceso, agilizando la búsqueda y el proceso de tramitación.

07/10/2016

Reutilización de documentos gráficos e históricos en la Universidad de Jaén

Evento

La Universidad de Jaén celebra este miércoles, 12 de diciembre, una conferencia sobre “La reutilización de la documentación histórica fotográfica y cinematográfica del Ministerio de Agricultura para el conocimiento de la sociedad rural española”.

El acto, organizado en colaboración con el Ministerio de Agricultura, Alimentación y Medio Ambiente, se celebrará a partir de las 19:00 horas en la Sala de Grados-Edificio Zabaleta D1 (Campus "Las Lagunillas") de esa institución académica. La ponencia correrá a cargo de Juan Manuel García Bartolomé, jefe de Área de la División de Estudios y Publicaciones del mencionado departamento público.

Esta actividad se complementa con la presentación oficial de la exposición “Senderos de la Memoria. Una mirada a la España rural: 1948-1968”, que hasta el próximo 18 de diciembre exhibe una parte selecta del valioso fondo documental fotográfico y cinematográfico histórico del Ministerio de Agricultura.

18/10/2017

II Jornada sobre reutilización de la información del sector público (15-16 de febrero)

Evento

Los grupos de investigación PUBLIDOC-UCM y ACRÓPOLIS, pertenecientes a la Universidad Complutense de Madrid y a la Universidad Carlos III de Madrid, respectivamente, organizan los próximos días 15 y 16 de febrero la “II Jornada sobre Reutilización de la Información del Sector Público: acceso y uso de la información”.

El objetivo de dicho foro, diseñado como espacio de encuentro y discusión científica entre organismos públicos, empresas y ciudadanos, es crear una red de colaboración en materia de gestión e investigación de los datos que custodian las administraciones, agencias y organismos oficiales de nuestro país.

En concreto, el encuentro pretende avanzar hacia un mayor conocimiento del sector infomediario, sus beneficios, ámbito normativo, aplicaciones, barreras de acceso y uso, impacto socioeconómico, interacción en Internet e integración con otras actividades.

El programa de las sesiones, que se celebrarán de forma alternativa en una y otra institución académica, está compuesto por expertos destacados en la gestión y reutilización de la información del sector público, tanto de España como de fuera de nuestro país.

Proyecto Aporta, iniciativa bajo la cual se gestiona el portal datos.gob.es, participará en estas jornadas el día 15 de febrero, centrando su intervención en el marco normativo creado por el Real Decreto 1495/2011.

Esta participación forma parte de las tareas de difusión del nuevo marco legal y las oportunidades sociales y económicas ligadas a la apertura y reutilización de la información del sector público.

Dicho esfuerzo se concreta, por ejemplo, en la jornada sobre Open Government Data y RISP celebrada en Granada el pasado 12 de enero, en el marco del Día W3C en España; y de la sesión sobre Periodismo de Datos organizada ese mismo día en Madrid en el espacio de Media Lab Prado.

18/10/2017