Datos abiertos y tecnologías de procesamiento del lenguaje natural

Fecha de la noticia: 27-09-2016

Hoy se envían en el mundo más de seis mil tweets por segundo, existen más de nueve mil millones de páginas web y la Unión Europea traduce al año un volumen de textos similar a mil quinientos quijotes.

El desarrollo de Internet y, en general de las tecnologías de la información y las comunicaciones (TIC), genera un volumen abrumador de información textual en soporte electrónico que crece vertiginosamente. Este volumen de textos electrónicos ya no es abordable humanamente, pero la necesidad de aprovecharlos es imperiosa. Por eso, la explotación automática de esta fuente de información valiosa es urgente y necesaria.

Para ello disponemos de las Tecnologías del Lenguaje, que incluyen tanto las tecnologías del procesamiento del lenguaje natural (PLN) como de traducción automática, las cuales buscan allanar el camino hacia la comprensión automática del lenguaje humano. Esto conlleva grandes desafíos. Los sistemas informáticos procesan fácilmente datos, es decir, información que tiene una estructura y un significado único y explícito (información estructurada). Pueden manejar fácilmente tablas con millones de datos numéricos, por ejemplo. Pero el lenguaje humano es mucho más complejo y sutil, está repleto de matices y peculiaridades, sus significados pueden variar según el contexto y hacer referencia a información no explícita, contener ironía, etc. Esta disciplina puede aplicarse a un rango diverso de áreas, desde la traducción asistida por ordenador a la recuperación de información relevante o la minería de opinión; lo que la convierte en germen de un sector industrial emergente,  innovador y con grandes oportunidades de crecimiento.

Las organizaciones acumulan enormes cantidades de información textual en formato electrónico, cuya transformación en formatos reutilizables y publicación bajo licencias abiertas pueden convertirla en combustible para la industria de las tecnologías del lenguaje.

Hay que reparar en que el valor de estos textos tiene dos vertientes:

  • Por un lado está su valor directo como materia prima informativa para generar información relevante mediante tecnologías del lenguaje.
  • Pero, no menos importante, también tienen una enorme utilidad para crear y entrenar la propia tecnología del lenguaje (un buen ejemplo son las memorias de traducción de la Dirección General de Traducción de la Comisión Europea, que son el conjunto de datos más bajado del portal de datos abiertos de la UE).

Para poner el foco en los potenciales beneficios de la confluencia de Datos Abiertos y Tecnologías del Lenguaje, y abordar los retos sociales, económicos, legales y técnicos que plantea, se realizarán dos eventos en el contexto de la Conferencia Internacional de Datos Abiertos IODC 2016, que tendrá lugar en Madrid en octubre de este año.

El primero es un taller que tendrá lugar el próximo 5 de octubre, donde se analizarán los retos y potenciales beneficios de la confluencia de datos abiertos y tecnologías de procesamiento del lenguaje natural.

Este taller, que forma parte del programa de actividades previas a la Conferencia Internacional de Datos Abiertos, reunirá a un grupo de reconocidos expertos en diferentes aspectos de esta poliédrica materia, que tendrán tiempo para compartir y discutir entre ellos, y con la audiencia, sus diferentes pero reveladoras visiones y experiencias, en un esfuerzo colectivo por enriquecer nuestro conocimiento sobre la confluencia de Datos Abiertos y Tecnologías del Lenguaje.

Este taller se articula en tres secciones dedicadas a RetosExperiencias y Políticas Públicas, rematadas por una coda, Próximos Pasos,  donde los expertos recapitularán sus recomendaciones para el futuro.

En la sección de políticas públicas relacionadas se describirán iniciativas como el Plan de Impulso de la Tecnologías del Lenguaje en España y CEF.AT en la Unión Europea. Esta última es un claro ejemplo de cómo la confluencia de las tecnologías de procesamiento natural del lenguaje y la reutilización de datos abiertos tiene un impacto positivo al facilitar crear una plataforma de traducción automática que permitirá que los servicios públicos digitales en la UE sean plurilingües, además del intercambio de información entre las administraciones públicas de los diferentes países.

Sumado a este taller, el día 6 de octubre se dedicará una sesión a esta misma temática dirigida a todos los miembros de la comunidad de datos abiertos para forjar una red de stakeholders interesados en la confluencia de Datos Abiertos y Tecnologías del Lenguaje.

Para mayor información, los datos de sendos eventos están disponibles en la página web oficial de la Conferencia Internacional de Datos Abiertos o en el portal online de la Agenda Digital para España.