Documentación

El dato es un pilar clave de la transformación digital. Los datos confiables y de calidad son la base de todo, desde las principales decisiones estratégicas hasta el proceso operativo de rutina, son fundamentales en el desarrollo de los espacios de datos, así como la base de soluciones disruptivas ligadas a ámbitos tales como la inteligencia artificial o el Big Data.

En este sentido, la correcta gestión y gobierno de los datos se ha convertido en una actividad estratégica para todo tipo de organizaciones, públicas y privadas.

La normalización del gobierno del dato se basa en 4 principios:

  • Gobernanza
  • Gestión
  • Calidad
  • Seguridad y privacidad de datos

Aquellas organizaciones que quieran implementar un marco de gobierno sólido basado en estos pilares tienen a su disposición una serie de normas técnicas que proveen de principios guiadores para garantizar que los datos de una organización son correctamente gestionados y gobernados, tanto internamente como por contrataciones externas.

Con el objetivo de intentar aclarar las dudas en esta materia, la Asociación Española de Normalización (UNE), ha publicado varios materiales de apoyo.

El primero es un artículo sobre las distintas normas técnicas a considerar a la hora de desarrollar un gobierno del dato efectivo. Las normas recogidas en dicho artículo, junto a alguna adicional, se resumen en la siguiente infografía:

infografía en imagen jpg

(Puedes descargar la versión accesible en word aquí)

Además, la UNE también ha publicado el informe “Estándares para la economía del dato”, que se puede descargar al final de este artículo. El informe comienza con una introducción donde se profundiza en el contexto legislativo europeo que está impulsando la Economía del dato y el reconocimiento que en él se hace de la normalización técnica como una herramienta clave a la hora de alcanzar los objetivos fijados. A continuación, se analizan de manera más detallada las normas técnicas incluidas en la infografía anterior.

calendar icon
Blog

Los datos han ocupado un lugar fundamental en los últimos años en nuestra sociedad. Las nuevas tecnologías han permitido una globalización basada en el dato en la que todo lo que ocurre en el mundo está interconectado. Mediante sencillas técnicas es posible extraer de ellos un valor que resultaba inimaginable hace tan sólo algunos años. Sin embargo, para poder hacer un uso correcto de los datos, es necesario disponer de una buena documentación, a través de un diccionario de datos. 

¿Qué es un diccionario de datos? 

Es frecuente que cuando hablamos de diccionario de datos su significado se confunda con el de glosario de negocio o con el de vocabulario de datos, sin embargo, son conceptos distintos.

Mientras que un glosario de negocio, o vocabulario de datos, trata de dar significado funcional a los indicadores o conceptos que se manejan de forma que se garantice que se hable el mismo lenguaje, abstrayéndose del mundo técnico, tal y como se explica en este artículo, un diccionario de datos trata de documentar los metadatos más ligados a su almacenamiento en la base de datos. Es decir, incluye aspectos técnicos como el tipo de dato, formato, longitud, posibles valores que puede tomar e, incluso, transformaciones sufridas, sin olvidar la definición de cada campo. La documentación de estas transformaciones nos proporcionará automáticamente el linaje del dato, entendido como la trazabilidad a lo largo de su ciclo de vida. Estos metadatos ayudan a los usuarios a entender los datos desde el punto de vista técnico para poder explotarlos adecuadamente. Por este motivo, cada base de datos debería contar con su diccionario de datos asociado. 

Para la cumplimentación de los metadatos solicitados en un diccionario de datos, existen guías y plantillas prediseñadas como el siguiente ejemplo proporcionado por el Departamento de Agricultura de los EEUU.

Ejemplo de modelo de diccionario de datos. Se trata de una tabla con los campos: Spreadsheetab, Element or value display name, Description, Data type, Character lenght, Acceptable values, Required? y Accepts null value?

Además, para poder estandarizar su contenido, es frecuente el uso de taxonomías y vocabularios controlados para codificar los valores de acuerdo a listados de códigos.

Por último, un catálogo de datos, actúa como directorio para localizar la información y ponerla a disposición de los usuarios, proporcionando a todos los usuarios un único punto de referencia para el acceso a los mismos. Esto es posible gracias a los puentes trazados entre los términos funcionales y técnicos, a través del linaje.

Aplicabilidad en datos abiertos

Cuando hablamos de datos abiertos, los diccionarios de datos adquieren mayor importancia si cabe, ya que, al ponerse a disposición de terceros, su alcance de usabilidad es mucho mayor.

Cada conjunto de datos debería publicarse junto a su diccionario de datos que describa el contenido de cada columna. Por eso, cuando se publique un conjunto de datos abiertos, se debería publicar también una URL al documento que contenga su diccionario de datos, independientemente de su formato. En los casos que se requiera más de un Diccionario de Datos, debido a la variedad de las fuentes origen, deberá añadirse tantos como sean necesarios, generalmente uno por base de datos o tabla.

No obstante, desgraciadamente, es fácil encontrar conjuntos de datos extraídos directamente desde sistemas de información sin una adecuada preparación y sin un diccionario de datos asociado facilitado por los publicadores. Esto puede deberse a diversos factores, como el desconocimiento de este tipo de herramienta que facilita la documentación, el no saber con certeza cómo crear un diccionario, o simplemente, dar por hecho que el usuario conoce el contenido de los campos.

Sin embargo, las consecuencias de publicar datos sin documentarlos correctamente pueden provocar que el usuario vea datos referidos a siglas o nombres técnicos ilegibles, imposibilitando su tratamiento o, incluso, un uso inadecuado de los mismos debido a la ambigüedad y a la malinterpretación de los contenidos.

Para facilitar la creación de este tipo de documentación existen estándares y recomendaciones técnicas de algunos organismos. Por ejemplo, el World Wide Web Consortium (W3C), organismo que desarrolla los estándares que aseguren el crecimiento de la world wide web en el largo plazo, ha emitido un modelo en el que recomienda cómo publicar datos tabulares como CSV y metadatos en la web.

Interpretar los datos que se publican

Un ejemplo de una buena publicación de datos lo encontramos en este conjunto de datos publicado por el Instituto Nacional de Estadística (INE) y disponible en datos.gob.es, donde se indica “el número de personas entre 18 y 64 años de edad según idiomas maternos y no maternos más frecuentes que pueden usar, por características de los progenitores”. Para su interpretación, el INE aporta todos los detalles necesarios para su entendimiento en una URL, como las unidades de medida, las fuentes, periodo de validez, alcance y la metodología que sigue para la confección de estas encuestas. Además, proporciona nombres funcionales auto explicativos a cada columna para asegurar el entendimiento de su significado por parte de cualquier usuario ajeno al INE. Todo ello, permite al usuario conocer con certeza la información que descarga para su consumo, evitando malentendidos. Esta información se comparte en el apartado de “recursos relacionados”, pensado para este propósito. Se trata de un metadato que describe la propiedad dct:references.

Aunque este ejemplo pueda parecernos lógico, no es raro encontrar casos en el lado opuesto. A modo ilustrativo, se muestra un ejemplo ficticio de conjunto de datos de la siguiente forma:

Tabla donde no se entiende qué significan los datos, ya que términos como TPCHE, YFAB, NUMC, AVCNS y PWR.

En este caso, un usuario que desconozca la base de datos, no sabrá interpretar correctamente el significado de los campos “TPCHE”, “YFAB”, “NUMC” … Sin embargo, si esta tabla viene asociada con un diccionario de datos, podremos relacionar el metadato con el conjunto, tal y como se muestra en la siguiente imagen:

Tabla que explica que significan los términos anteriores. Por ejemplo, en el caso de “TPCHE”, se identifica los iguiente: Columna 1: TPCHE; Título: marca; Descripción:Este campo contiene información sobre la marca y modelo de cada vehículo; Tipo de datos:string.“YFAB”, “NUMC” …

En este caso, se ha optado por la publicación del diccionario de datos mediante un documento de texto que describe los campos, aunque existen multitud de formas de publicar los diccionarios. Puede realizarse siguiendo recomendaciones y estándares, como la antes mencionada por el W3C, mediante archivos de texto, como en este caso, o incluso, mediante plantillas de Excel customizadas por el propio publicador. No existe una forma mejor que otra por regla general, sino que debe adaptarse a la naturaleza y complejidad del conjunto de datos con el objetivo de asegurar su comprensión, planificando el nivel de detalle necesario en función del objetivo final, la audiencia receptora de los datos y las necesidades de los consumidores, tal y como se explica en este post.

Los datos abiertos nacen con el objetivo de facilitar la reutilización de la información para todo el mundo, pero para que dicho acceso sea realmente útil, no puede limitarse únicamente a la publicación de conjuntos de datos en bruto, sino que deben estar claramente documentados para un correcto tratamiento. La elaboración de diccionarios de datos que incluyan los detalles técnicos de los conjuntos de datos que se publican, es fundamental para la correcta reutilización de los mismos y la extracción de valor a partir de ellos.


Contenido elaborado por Juan Mañes, experto en Data Governance.

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Blog

En el entorno actual, las organizaciones tratan de mejorar la explotación de sus datos mediante el uso de nuevas tecnologías, dotando al negocio de un valor adicional y convirtiendo al dato en el principal activo estratégico de las mismas.

Sin embargo, únicamente podremos extraer el valor real de los datos si estos son confiables y para ello, surge la función del Gobierno del Dato, enfocada en la gestión eficiente de los activos de información. Los datos abiertos no pueden ser ajenos a estas prácticas debido a sus características, principalmente de disponibilidad y acceso.

Para dar respuesta a la pregunta de cómo debemos gobernar los datos, existen diversas metodologías internacionales, como DCAM, MAMD, DGPO o DAMA. En este post, nos basaremos en las guías ofrecidas por este último.

¿Qué es DAMA?

DAMA, por sus siglas en inglés Data Management Association, es una asociación internacional para profesionales de la gestión de datos. Cuenta con un capítulo en España, DAMA España, desde marzo de 2019.

Su principal misión consiste en promover y facilitar el desarrollo de la cultura de gestión de los datos, convirtiéndose en la referencia para las organizaciones y profesionales en la gestión de la información, aportando recursos, formación y conocimiento sobre la materia.

La asociación se compone de profesionales de la gestión de datos en diferentes sectores.

El Gobierno del dato según el marco de referencia de DAMA

“Un dato ubicado en un contexto da lugar a información. Si le añadimos inteligencia obtenemos conocimiento que, combinado con una buena estrategia, genera poder”

Aunque sólo es una frase, sintetiza a la perfección la estrategia, la búsqueda de poder a partir de los datos. Para ello, es necesario realizar un ejercicio de autoridad, control y toma de decisiones compartida (planificación, vigilancia y aplicación) sobre la gestión de los activos de datos o, lo que es lo mismo, aplicar Gobierno del Dato.

DAMA nos presenta lo que entiende que son las mejores prácticas para garantizar el control sobre la información, independientemente del negocio de aplicación, y para ello, posiciona al Gobierno del Dato como principal actividad alrededor de la cual se gestionan el resto de actividades, como puedan ser arquitectura, interoperabilidad, calidad o metadatado, como muestra la siguiente figura:

Gráfico que muestra el Gobierno del dato en el centro y alrededor el resto de actividades: Modelado y Diseño de Datos, Almacenamiento y Operación de Datos, Seguridad de Datos, Integración e Interoperabilidad de Datos, Gestión de Documentos y Contenido, Datos Maestros y de Referencia, Data Warehousing & Business Intelligence, Metadatos, Calidad de Datos y Arquitectura de Datos.

La aplicación del Gobierno del Dato en datos abiertos

Partiendo de la rueda expuesta en el apartado anterior, el gobierno, control, calidad, gestión y conocimiento de los datos son la clave del éxito y, para ello, se debe cumplir con los siguientes principios:

Accesibilidad: Los datos deben de ser accesibles para su uso; Seguridad: Los datos deben ser seguros, previniendo pérdidas o daños derivados de su uso indebido; Consistencia: Los datos deben definirse de acuerdo a los propósitos para los que se crean; Auditabilidad: Los datos deben gestionarse a través de roles que garanticen su correcto uso y mantenimiento; Exactitud: Los datos deben ser exactos y cumplir con los requisitos de calidad prestablecidos para cada uno de ellos en función de su naturaleza o criticidad.

Para lograr que los datos cumplan con estos principios, será necesario establecer una estrategia de gobernanza de los mismos, mediante la implantación de una Oficina del Dato capaz de definir las políticas y procedimientos que dictaminen las pautas para su gestión. Deberán incluir la definición de los roles y sus responsabilidades, el modelo de relación de todos ellos y la forma en la que se velará por el cumplimiento de las mismas, así como otras iniciativas relacionadas con los datos.

Además de la gobernanza del dato, algunas de las características recomendadas a la hora de gestionar datos abiertos, son las siguientes:

  • Una arquitectura capaz de asegurar la disponibilidad de la información en el portal. En este sentido, CKAN se ha convertido en una de la arquitectura de referencia para la apertura de datos. CKAN es una plataforma de código abierto, gratuito y libre, desarrollada por la Open Knowledge Foundation, que sirve para publicar y catalogar colecciones de datos. En este enlace tienes una guía para conocer más sobre cómo publicar datos abiertos con CKAN.
  • La interoperabilidad de los catálogos de datos. Cualquier usuario que lo desee, podrá hacer uso de la información mediante descarga directa de los datos que considere. Por ello, se pone de manifiesto la necesidad de una integración sencilla de la información, independientemente de qué portal de datos abiertos se haya obtenido. Se deben utilizar estándares reconocidos para fomentar la interoperabilidad de los catálogos de datos y metadatos en toda Europa, como el vocabulario para catálogos de datos (DCAT) definido por el W3C y su perfil de aplicación DCAT-AP. En España, tenemos la Norma Técnica de Interoperabilidad (NTI), basada en dicho vocabulario. Puedes profundizar más en este el informe.
  • El metadatado, entendido como los datos de los datos, es uno de los pilares fundamentales a la hora de categorizar y etiquetar la información, lo que posteriormente se reflejará en una navegación ágil y sencilla en el portal para cualquier usuario. Algunos de los metadatos que debemos incluir son el título, el formato o la periodicidad de actualización, tal y como nos muestra la mencionada NTI.
  • Al tratarse de información ofrecida por las administraciones públicas para su reutilización, no es necesario cumplir con estrictas medidas de privacidad para su explotación, ya que previamente han sido anonimizados. Por el contrario, deben existir actividades que garanticen la seguridad de los datos. Por ejemplo, se podrán evitar usos indebidos o fraudulentos mediante una monitorización de los accesos y el seguimiento de la actividad de los usuarios.
  • Además, la información disponible en el portal cumplirá con los criterios de calidad tanto técnica como funcional requerida por los usuarios, garantizada mediante la aplicación de indicadores de calidad.
  • Por último, aunque no es una de las características del marco de referencia como tal, DAMA nos habla de forma transversal a todas ellas sobre la ética del dato, entendida como la responsabilidad social respecto al tratamiento de los datos. Existe determinada información sensible cuyo uso indebido podría tener impacto en las personas.

La evolución del Gobierno del Dato

Debido a la crisis financiera del año 2008, se puso el foco en la gestión de la información en las entidades financieras: qué información se tiene, cómo se explota… Por ello, actualmente, es uno de los sectores más regulados, lo que le convierte también en uno de los más avanzados con respecto a la aplicabilidad de estas prácticas.

Sin embargo, el auge de las nuevas tecnologías asociadas al procesamiento de los datos, comenzaron a cambiar la concepción de estas actividades de gestión. Ya no se veían tanto como un mero control de la información, sino que considerar los datos como activos estratégicos suponía grandes avances en el negocio.

Gracias a esta nueva concepción, organizaciones privadas de todo tipo se han interesado por esta materia e, incluso, en algunos organismos públicos, no es extraño ver como se comienza a profesionalizar el gobierno del dato mediante iniciativas focalizadas en ofrecer al ciudadano una atención más personalizada y eficaz a partir del dato. Por ejemplo, la ciudad de Edmonton utiliza esta metodología y por ello ha sido reconocida.

En este webinar puedes ver más información sobre la gestión del dato en el marco de referencia de DAMA. También puedes ver el video de su evento anual donde se explican diversos casos de uso o seguir su blog.

El camino hacia la cultura del dato

Nos encontramos inmersos en un mundo digital globalizado en constante evolución y los datos no son ajenos a ello. Constantemente están surgiendo nuevas iniciativas de datos ante las que se hace necesario un gobierno del dato eficiente capaz de dar respuesta a estos cambios.

Por ello, el camino hacia una cultura del dato es una realidad que todas las organizaciones y organismos públicos deben tomar en el corto plazo. El uso de una metodología de gobierno del dato, como el de DAMA, sin duda, será un gran apoyo durante todo el trayecto.


Contenido elaborado por David Puig, Graduado en Información y Documentación y responsable del grupo de trabajo de Datos Maestros y de Referencia en DAMA ESPAÑA, y Juan Mañes, experto en Data Governance.

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon