AGROVOC: Tesauro para la clasificación de conocimiento agrícola

Fecha del post: 13-09-2017

AGROVOC, datos enlazados, open data

Una de las grandes preocupaciones de los organismos internacionales es dispersión en la categorización e indexación del conocimiento creado en cada una de las partes que los componen (tales como agencias, unidades, departamentos, sedes o programas). Esto se debe a que, por ejemplo, cuando una persona de un departamento quiera buscar contenido sobre una temática concreta en todos los repositorios de conocimiento de cada una de las partes de la organización, normalmente tiene que realizar una búsqueda en cada repositorio. Para ello utiliza las palabras clave definidas para cada repositorio (que pueden ser diferentes), en vez utilizar las mismas, o incluso, realizar solo una única búsqueda (en caso de existir un sistema de búsqueda donde todos los repositorios estuvieran integrados). Para solventar esta preocupación y facilitar así el intercambio de información entre cada una de sus partes, es habitual la creación de vocabularios controlados para la clasificación de los contenidos generados.

La Organización de las Naciones Unidas para la Alimentación y la Agricultura (FAO) estaba en esta situación, y por ello a principios de los años 80 creó AGROVOC.

AGROVOC es un tesauro que organiza conceptos relacionados con los ámbitos de interés de la FAO, como son la agricultura (principalmente), la alimentación, la nutrición, la pesca, las ciencias forestales o el medio ambiente.

Este tesauro (y por ende, vocabulario controlado) que está compuesto actualmente (agosto 2017) por más de 33.000 conceptos, ha seguido un proceso evolutivo, pasando de estar en 3 idiomas a 23 (siendo el español uno de los tres primeros), de estar disponible solo en papel impreso a estar disponible como un esquema conceptual SKOS-XL.

Además, AGROVOC está disponible como un conjunto de datos enlazados (LOD) alineado con otros 16 sistemas multilingües de organización del conocimiento relacionados con la agricultura (como DBPedia, EUROVOC, el tesauro de la biblioteca nacional de agricultura (NAL) de los Estados Unidos de América, el tesauro del Centro Internacional para la agricultura y la biotecnología (CABI)).

De hecho, múltiples organizaciones están trabajando en proyectos, como Global Agricultural Concept Scheme (GACS), donde se explora la posibilidad de crear un tesauro conceptos y terminología en el área de la agricultura, reutilizando los tesauros de AGROVOC, CABI y NAL.

La gestión de AGROVOC se divide en varias partes, por un lado la FAO es la encargada de su publicación y revisión final, mientras que por otro lado, una comunidad de organizaciones y expertos externos de diferentes áreas de conocimiento se encargan de su edición (proponiendo nuevos conceptos, ampliando la terminología de los conceptos ya existentes en otros idiomas, revisando y conservando la terminología ya creada...). Para realizar este trabajo de edición, la comunidad utiliza VocBench, una herramienta de gestión de vocabularios de código abierto .

Sin duda, una de las características clave que ha facilitado la extensión del uso de AGROVOC en la comunidad es que su acceso y utilización es gratuita, distribuyendose bajo licencia Creative Commons 3.0 Atribución (CC-BY).

AGROVOC es comúnmente utilizado por personal investigador, bibliotecarios y gestores de conocimiento para para la indización, recuperación y organización de datos en sistemas de información sobre agricultura y los otros ámbitos de interés de la FAO anteriormente mencionados. Como ejemplos de dogfooding (cuando una organización utiliza su propio producto para probarlo y promocionarlo) está el uso de AGROVOC en AGRIS, la base de datos de información bibliográfica relativa a ciencia y tecnología agrícola, o FAOLEX, una base de datos de legislación y políticas nacionales sobre alimentación, agricultura y gestión de recursos naturales, ambas gestionadas por la FAO.

Las maneras de acceder, consultar y reutilizar AGROVOC son variadas

  • Se pueden consultar conceptos o navegar por la jerarquía

  • Se puede descargar como un conjunto de datos RDF en dos versiones:  Agrovoc Core (incluye todos los conceptos en todos los idiomas, pero sin enlaces a vocabularios externos) y Agrovoc LOD (que sí incluye los enlaces a vocabularios externos)

  • Se pueden consumir los servicios web disponibles

  • Se puede indagar mediante consultas SPARQL, utilizando para ello un SPARQL endpoint público

Los datos relacionados con la agricultura que se están generando, están creciendo exponencialmente, ya sea por la captación de datos medioambientales a través de sensores, por los datos económicos sobre precios, por datos sobre producción de las cosechas, por datos sobre enfermedades y plagas, por la recopilación de normativas legales, etc... Todo este conocimiento, si es cuidadosamente catalogado, podrá ser fuente de futuros estudios y descubrimientos, tanto en el ámbito público como en el privado. En este marco, AGROVOC (y quizás en un futuro GACS) supone una valiosa herramienta para que los datos se clasifiquen homogéneamente, facilitando la interoperabilidad y reutilización de los mismos, tanto dentro de una misma organización como fuera de ella.