Propuestas como Datasheets for datasets están dando es una paso más para crear aplicaciones de IA (inteligencia artificial) más seguras. Y uso el término "seguras", dado que estudios recientes (A. Paullada 2021) muestran como los datos pueden ser la fuente de problemas en estas aplicaciones (sesgos en reconocimiento facial, perdida de precisión al actuar sobre determinados grupos sociales, problemas entre estilos de lenguaje, etc.).
Esto provoca que una administración pública que pretenda desplegar una de estas aplicaciones, debería (y deberá viendo los borradores de la UE y EE. UU. en la materia) poder demostrar una serie de requisitos sobre los datos que ha empleado para entrenar sus apps de IA. Utilizando texto natural (como hace Datasheets), imagino que el proceso de demostración sería una serie de trabajadores públicos analizando Datasheets y sacando conclusiones.
Sin embargo, utilizando un formato estructurado (sobre el mismo Datasheets), puede facilitar la tarea, dado que sería fácilmente computables por ordenadores, "obligaría" a expresar conceptos de la misma forma, e incluso a partir de una descripción válida se podrían generar test que asegurarán que los datos cumplen, y siguen cumpliendo (caso de datasets incrementales) una serie de requisitos para ser usados para entrenar IA en la administración pública.
Desde el grupo de investigación de SOM Research, hemos propuesto una aproximación a este idea de formato estructurado (Domain-specific language) inspirada en Datasheets for datasets. Por si interesa: https://ingenieriadesoftware.es/describeml-describir-datasets-ml/
Propuestas como Datasheets for datasets están dando es una paso más para crear aplicaciones de IA (inteligencia artificial) más seguras. Y uso el término "seguras", dado que estudios recientes (A. Paullada 2021) muestran como los datos pueden ser la fuente de problemas en estas aplicaciones (sesgos en reconocimiento facial, perdida de precisión al actuar sobre determinados grupos sociales, problemas entre estilos de lenguaje, etc.).
Esto provoca que una administración pública que pretenda desplegar una de estas aplicaciones, debería (y deberá viendo los borradores de la UE y EE. UU. en la materia) poder demostrar una serie de requisitos sobre los datos que ha empleado para entrenar sus apps de IA. Utilizando texto natural (como hace Datasheets), imagino que el proceso de demostración sería una serie de trabajadores públicos analizando Datasheets y sacando conclusiones.
Sin embargo, utilizando un formato estructurado (sobre el mismo Datasheets), puede facilitar la tarea, dado que sería fácilmente computables por ordenadores, "obligaría" a expresar conceptos de la misma forma, e incluso a partir de una descripción válida se podrían generar test que asegurarán que los datos cumplen, y siguen cumpliendo (caso de datasets incrementales) una serie de requisitos para ser usados para entrenar IA en la administración pública.
Desde el grupo de investigación de SOM Research, hemos propuesto una aproximación a este idea de formato estructurado (Domain-specific language) inspirada en Datasheets for datasets. Por si interesa: https://ingenieriadesoftware.es/describeml-describir-datasets-ml/