Publicado el informe “Estudio sobre datos reutilizables como recursos lingüísticos”

Fecha de la noticia: 08-10-2019

Plan TL

Las Tecnologías del Lenguaje son una rama de la Inteligencia Artificial, que permite, entre otras cosas, explotar automáticamente la gran cantidad de información textual y oral a la que tenemos acceso hoy en día. Para impulsar su desarrollo, la Secretaría de Estado para el Avance Digital (SEAD) está llevando a cabo el  Plan de Impulso de las Tecnologías del Lenguaje (Plan TL), focalizado en el Procesamiento del Lenguaje Natural (PLN), la Traducción Automática (TA) y los Sistemas Conversacionales (SSCC) en España, especialmente en lengua española y lenguas cooficiales.

Una de las actividades encuadradas dentro del plan TL ha sido la realización del informe “Estudio sobre datos reutilizables como recursos lingüísticos”, realizado por Antonio Moreno Sandoval (Director del Laboratorio de Lingüística Informática, Universidad Autónoma de Madrid), Doroteo Torre Toledano (investigador en Inteligencia Artificial aplicado al procesamiento del Habla y profesor en la Universidad Autónoma de Madrid) y Ana Valverde (profesora asociada en la Universidad de Castilla-La Mancha), financiado por la SEAD y Red.es. El objetivo del informe es doble:

  1. Por un lado, realizar un censado de recursos de las diferentes administraciones públicas que puedan ser convertidos en recursos lingüísticos (RL)
  2. Por otro, proponer un plan de acción para abordar su conversión en RL.

Cuando hablamos de Recurso lingüístico (RL), nos referimos a cualquier fichero electrónico que haya sido procesado para servir de fuente, entrenamiento o evaluación de un sistema de tecnologías del lenguaje. Es decir, para que los datos abiertos se conviertan en un recurso lingüístico es necesario recopilarlos y adaptarlos a formatos que sean susceptibles de ser utilizados por las aplicaciones de Tecnología Lingüística.

¿Cuál es el estado de madurez de los recursos analizados?

El informe analiza los recursos y conjuntos de datos públicos que podrían convertirse en recursos lingüísticos. De los 101 recursos analizados, se seleccionaron 24 conjuntos de recursos para su análisis detallado y evaluación en base a criterios de interés (calidad, cantidad y disponibilidad de los datos), plurilingüismo, propiedad intelectual, variedad temática, grado de madurez y tipología.

Los conjuntos seleccionados abordan una serie de áreas temáticas definidas como prioritarias en el estudio: Inteligencia competitiva, Sanidad, Justicia o Cultura – también hay una sección “Otros”-; y abarcan cuestiones tan diversas como las grabaciones de vídeo de RTVE a la carta, la relación de municipios del INE o el banco de datos de enfermedades raras y medicamentos de OrphaData.

El grado de madurez de cada uno de ellos se ha calculado en base a aspectos técnicos y legales. Este análisis ha determinado que la mayoría de los conjuntos analizados presentan una madurez baja o media. Esto se debe a que los requisitos para ser considerado un recurso maduro son muy estrictos: es necesario que los datos se encuentren ya procesados y en formatos que puedan ser usados directamente por los investigadores de PLN.

No obstante, el estado actual de los datos abiertos que pueden convertirse en RL es muy prometedor, ya que existen colecciones muy amplias de documentos digitalizados con el potencial suficiente para convertirse en RL.

¿Cuál es la situación de España en comparación con otras iniciativas internacionales?

Para comprender mejor el estado de madurez de España en esta materia era necesario comparar las iniciativas de impulso de RL y TL con otros países de ámbito hispano-americano, europeo, y con grandes potencias como Estados Unidos o Canadá. El informe también destaca el portal de la European Language Resource Coordination, que proporciona una lista de recursos existentes en Europa de carácter abierto.

Tras el análisis, se concluyó que a nivel europeo, Francia y Reino Unido son los referentes. Si bien, la Comisión Europea ha advertido del retraso con respecto al inglés y a las compañías americanas, que han capitalizado el uso de los Big Data lingüísticos, permitiendo que las grandes multinacionales tecnológicas como Google, Microsoft, Amazon o IBM ofrezcan servicios lingüísticos en muy diferentes dominios y lenguas.

España se encuentra bien situada, aunque cabe destacar que su estado de madurez es mayor en datos abiertos que en RL abiertos. Es decir, encontramos numerosos datos abiertos, de diferente tipología y envergadura, y bajo distintos formatos reutilizables, pero no tantos recursos lingüísticos listos para su uso en TL como en otros países.

Recomendaciones para el desarrollo de un plan de acción

En definitiva, la comunidad investigadora en PLN en España necesita RL de calidad y en cantidad suficiente para desarrollar aplicaciones competitivas en el mercado internacional. Por ello, es necesario que la conversión a RL siga estándares técnicos internacionales para garantizar la interoperabilidad entre datos y procesadores, como son la segmentación del texto en unidades o utilizar un código estándar de lengua.

El informe también incluye una especificación sobre formatos recomendados por tipo de recurso y herramientas de utilidad para preparar los datos como RL, como segmentadores, tokenizadores, anonimizadores, anotadores y reconocedores de entidades, entre otros.

Tipo de recurso Formato recomendado  
Corpus textuales Anotación en XML o TXT en codificación UTF-8 JSON, CSV; no es conveniente PDF
Corpus de audios WAV 16 bits, 16 KHz. (voz) o 44.1 KHz (música, audio) FLAC; MP3 (de alta calidad); otros formatos convertibles (con posible pérdida de calidad)
Corpus de vídeos MPEG-4 (MP4) de alta calidad H.264; cualquier otro formato de alta calidad convertible
Corpus memorias de traducción TMX CSV
Entidades nombradas y recursos léxicos Anotación en XML o TXT en codificación UTF-8 JSON, CSV, RDF

 

Así mismo, se aportan una serie de recomendaciones de actuación para preparar los datos como RL. Estas recomendaciones son las siguientes:

  1. Garantizar la disponibilidad y el acceso universal a los datos abiertos para RL en todas las lenguas del Estado a través de un portal común y único.
  2. Impulsar la conversión de los millones de páginas digitalizadas en PDF o imagen en texto plano.
  3. Mejorar la visibilidad de los conjuntos de datos en cuanto a su disponibilidad y madurez.
  4. Facilitar la descarga masiva de grandes ficheros en formatos apropiados (texto plano, XML, CSV, JSON, RDF).
  5. Creación de recursos anotados de utilidad general y de disponibilidad abierta.
  6. Facilitar herramientas de conversión de datos abiertos a RL.
  7. Proporcionar la transcripción de ficheros multimedia.
  8. Estimular la adopción de licencias de libre uso y acceso a los datos.
  9. Estimular la reutilización de los datos mediante la organización de competiciones tecnológicas basadas en los mismos.
  10. Facilitar el acceso a capacidad de cómputo y almacenamiento para grandes volúmenes de datos.
  11. Impulsar la publicación de conjuntos de datos anonimizados, esencial en los documentos médicos o legales.
  12. En los recursos de traducción, identificar las lenguas fuente y meta, así como el alineamiento de las “unidades de traducción”

Puedes leer el estudio completo aquí.