Taxonomías y tesauros: herramientas documentales de organización

Fecha de la noticia: 06-10-2017

datos abiertos, ontología, tesauros,

Para organizar (clasificar, describir, indexar) el conocimiento, existen varias herramientas documentales de organización. Un extracto de ellas, ordenadas de las más simple (el menos formalizado y con menos reglas) a la más compleja (más formalizado y con más reglas) el siguiente:

  1. Vocabularios controlados
  2. Taxonomías
  3. Tesauros
  4. Ontologías.

Un vocabulario controlado es una simple lista de términos que tienen asignado un significado concreto y que se disponen a priori y que se usan para describir el conocimiento.

Por ejemplo, las provincias del territorio español - (Asturias, Illes Balears, Valladolid) con las que puede etiquetar cualquier documento y que está descritas en el Anexo V del Documento BOE-A-2013-2380 sobre “Norma Técnica de Interoperabilidad de Reutilización de recursos de la información”.

Una taxonomía es un vocabulario controlado, donde los términos se organizan de manera jerárquica (con una estructura de árbol), desde los términos más generales a los más específicos, incluyendo los relacionados.

Un ejemplo sería la taxonomía de sectores primarios y los temas relacionados de cada uno (por ejemplo, sector primario “Medio ambiente” que incluye los temas “Meteorología”, “Geografía”, “Conservación fauna y flora”). Los sectores primarios definidos sirven para describir un conjunto de datos en el catálogo de datos de datos.gob.es. Esta taxonomía está definida en el Anexo IV del Documento BOE-A-2013-2380 sobre “Norma Técnica de Interoperabilidad de Reutilización de recursos de la información”. 

Un tesauro es una taxonomía con algunas relaciones “extra”:

  • Relaciones de sinonimia o preferencia: entre el término preferido (TP/USE) o descriptor y el término no preferido (TNP/UF).
  • Relaciones jerárquicas de tipo todo-parte o clase-subclase: es decir, entre los términos más amplios (TA/BT) y los términos más específicos (TE/NT)
  • Relaciones asociativas: entre términos relacionados (TR/RT) de forma pragmática, es decir, no de forma jerárquica ni de sinonimia

AGROVOC es un tesauro que organiza conceptos relacionados con los ámbitos de interés de la FAO, como son la agricultura (principalmente), la alimentación, la nutrición, la pesca, las ciencias forestales o el medio ambiente. Por ejemplo, el concepto “Explotaciones piscícolas” está dentro de un concepto más amplio “Explotaciones agrarias” (cuyo sinónimo es “granja”, que además tiene otras relaciones.

Una ontología, siguiente escalón de organización del conocimiento, es la definición formal de tipos, propiedades, y relaciones entre conceptos de un dominio de discusión concreto. Y entendemos como definición formal, aquella que codifica el conocimiento basándose en lógica formal, como una colección de asertos (pudiendo así ser procesado por una máquina que estaría en disposición de realizar inferencia de nuevo conocimiento).

Un ejemplo de ontología sería FOAF (Friend Of A Friend, literalmente "Amigo de un Amigo"), que sirve para describir a las personas, sus actividades y sus relaciones con otras personas y objetos (“Ana conoce a Águeda”, “El correo de Ana es <ana@example.org>” …)

No hay una regla de oro para seleccionar la herramienta a utilizar, sino que para cada caso habrá que elegir aquella cuyo nivel de complejidad sea el más adecuado, siempre intentando elegir las opciones más sencillas, siguiendo el principio KISS (Keep it Simple, Stupid!) que nos dice que la simplicidad debe ser un objetivo clave del diseño, y evitar cualquier complejidad innecesaria. Conviene recordar que el primer paso, antes de crear una nueva herramienta documental de organización, es realizar una búsqueda, por si ya existiera alguna disponible para el cometido planteado y que pueda ser reutilizada.