Blog

Continuamos en esta segunda entrega de la serie de artículos con la aplicación de las especificaciones UNE. Antes de nada, recordemos que las Especificaciones UNE 0077, UNE 0078 y UNE 0079 introducen las buenas prácticas en el gobierno del dato, gestión del dato y gestión de calidad del dato con una aproximación a procesos (véase Fig.1).

Fig. 1. Procesos contenidos en las especificaciones UNE 0077, UNE 0078 y UNE 0079

Anteriormente, hemos analizado la especificación UNE 0077:2023 sobre los procesos del gobierno del dato. En esta ocasión, nos centraremos en la UNE 0079 dedicada a la gestión de la calidad del dato para ilustrar su aplicación en el contexto de datos abiertos. En este sentido, es importante considerar que la calidad de los datos abiertos va más allá de las conocidas características FAIR. Los principios FAIR (por sus siglas en inglés: Findable, Accesible, Interoperable y Reusable) son aspectos específicos de diseño relacionados con la naturaleza de los datos abiertos que, aun cumpliéndose, no garantizan que los datos puedan ser usados para una tarea específica si no tienen el nivel de calidad adecuado.

Para evaluar la calidad de los datos se necesitan criterios objetivos expresados en términos de características o dimensiones de los mismos. Esto permite formular los requisitos de calidad de datos de los distintos usuarios. Se recogen clasificaciones de estos requisitos en publicaciones más genéricas como “Normas Técnicas para alcanzar la Calidad del Dato” (véase Fig.2. con una identificación de estas características de calidad del dato según ISO/IEC 25012) o bien en otras más específicas, como el caso que nos ocupa de los datos abiertos, tales como la Reunión de Sebastopol, o la Carta Internacional de Datos abiertos.

Fig. 2. Características de calidad de datos según ISO/IEC 25012 (de Normas Técnicas para alcanzar la Calidad del Dato)

Es posible que en diferentes foros se den nombre distintos o muy similares a las mismas características, lo que puede provocar malentendidos, o que lleguen a producirse debates entre los partidarios o detractores de un nombre en concreto. Al margen de los nombres, lo más importante es la interpretación de las definiciones de cada característica o dimensión, y sobre todo la definición de cómo medir esa dimensión o característica y entender el significado de las mediciones para poder actuar sobre los datos en caso de que se necesite.

En este segundo artículo se va a describir cómo el personal a cargo del proyecto de datos abiertos del Ayuntamiento de Vistabella ha abordado algunas de las recomendaciones que se especifican en el Manual práctico para mejorar la calidad de los datos abiertos como parte de su estrategia de potenciar la publicación de datos abiertos en los correspondientes portales del Ayuntamiento. Tal y como se señalaba en el artículo sobre la Aplicación de la especificación UNE 0077:2023, este ayuntamiento quiere potenciar la publicación de datos abiertos de transportes públicos urbanos y sobre la organización de eventos culturales del municipio.

En dicho artículo también se señalaba que, uno de los proyectos que forma parte del programa de gobierno de datos para implementar la estrategia, es el de “Planificación, control y mejora de la calidad de los datos abiertos”. Este proyecto vertebra el contenido de este artículo, una vez que los responsables de datos abiertos del Ayuntamiento han comprendido que la calidad de los datos publicados es casi tan importante como la cantidad.

La aplicación de la Especificación UNE 0079 se va a realizar en dos partes de este proyecto:

  1. Control de la calidad de los datos que se recogen desde las distintas concejalías y agentes asociadas, para lo que se aplicará el proceso de control y monitorización de calidad del dato.
  2. Producción y publicación de datos con niveles adecuados de calidad, para lo que se usará el proceso de planificación de calidad del dato.

Los otros dos procesos restantes de UNE 0079 (aseguramiento de calidad del dato y mejora de calidad del dato) se quedan fuera de este artículo por simplicidad.

Aplicación del proceso de Control y Monitorización de calidad del dato.

Como se comentó en el artículo anterior, la ejecución exitosa de los procesos de negocio se manifiesta porque se han conseguido los resultados de procesos específicos de cada uno de ellos (véase Tabla 1 con los resultados de proceso para el proceso “control y monitorización de calidad del dato). Así, el primer resultado de proceso (RP.01) consiste en identificar los datos cuya calidad debe ser controlada y monitorizada: estos son aquellos datos en bruto que se reciben de las distintas concejalías y empresas públicas de transportes urbanos para crear los correspondientes conjuntos de datos que se pretenden publicar en el portal de datos abiertos.

Tabla 1. Resultados de proceso del Proceso de Control y Monitorización de calidad del dato;

Nota: RP es el acrónimo de Resultado de Proceso

Los resultados de la realización satisfactoria de este proceso son:

  • [RP.01] Se identifican los datos cuya calidad debe ser controlada y monitorizada.
  • [RP.02] A partir de las necesidades y reglas de negocio, así como de las expectativas de los implicados, se establecen y priorizan los requisitos específicos de calidad del dato para cada uno de los datos considerados como críticos evaluando el riesgo para el negocio de no satisfacer estos requisitos de calidad del dato.
  • [RP.03] Se definen, implementan y se ponen en funcionamiento los mecanismos necesarios para la monitorización y control de la calidad del dato.
  • [RP.04] Se describen, clasifican y, cuando sea viable, se corrigen las no conformidades de datos y se guardan registros de los cambios realizados.
  • [RP.05] Se generan informes tanto de la resolución como de la no resolución de las no conformidades abordadas en la monitorización y el control de la calidad del dato.
  • [RP.06] Se proponen refinamientos para las políticas, reglas, especificaciones, y procedimientos de captura y/o adquisición de datos y los procedimientos de procesamiento o análisis de datos para evitar problemas sistemáticos de calidad del dato.

 

Uno de los problemas más frecuentes con los que se encuentran los gestores de los proyectos de datos abiertos del Ayuntamiento de Vistabella con respecto a los datos de transporte es que para construir los conjuntos de datos que van a ser publicados, los datos en bruto recibidos están muy fragmentados, y no hay un plazo de entrega establecido, siendo éste además imprevisible. Esto provoca que la construcción de dichos conjuntos de datos esté amenazada por una serie de factores que hace que los resultados producidos sean en muchas ocasiones difícilmente aprovechables. Por ello, y como parte del segundo resultado de proceso (RP.02), se ha decidido estudiar el patrón de envíos de los datos en bruto por parte de los agentes colaboradores, así como los niveles de calidad mínimos necesarios para construir conjuntos de datos. Se llegó a la conclusión, consultando el Manual práctico para mejorar la calidad de los datos abiertos de datos.gob.es, de que las características de calidad afectadas eran la consistencia, la completitud, la credibilidad, la disponibilidad y la actualidad de esos datos. Conscientes de esta necesidad, y tomando como punto de partida los resultados de estas conclusiones, se desarrollaron como tercer resultado de proceso (RP.03) mecanismos de medición para esas características de calidad del dato sobre los datos en brutos recibidos desde cada uno de los agentes que se consideran que deben contribuir a elaborar los conjuntos de datos de transporte que el Ayuntamiento quiere publicar.

Además, como parte del cuarto resultado de proceso (RP.04), se establecen y aplican mecanismos para corregir aquellos valores de los datos que no satisfacen los umbrales mínimos de calidad necesarios para considerar que los datos en bruto pueden ser incorporados al proceso de creación de datos de transporte a ser publicados, dejando registros de los cambios proporcionados (como manifestación del quinto resultado de proceso RP.05).

El estudio de estos registros de cambios se utilizará para proponer cambios en la forma en la que los agentes colaboradores del ayuntamiento interactúan con el Ayuntamiento (como manifestación del sexto resultado de proceso RP.06).

Aplicación del proceso de planificación de calidad del dato

Al haberse invertido una cantidad importante de dinero público en la construcción del conjunto de datos, la principal preocupación de los responsables de datos abiertos del Ayuntamiento de Vistabella es asegurar que los conjuntos de datos publicados tengan niveles de calidad suficientes para asegurar que pueden ser usados y reusados. Tal y como se recoge en el proceso de construcción de los conjuntos de datos, es necesario planificar la calidad del conjunto de datos (en algunos entornos a esto lo llaman data quality by design). Conocedores de esta necesidad, desde el Ayuntamiento entienden las ventajas de ejecutar el proceso de planificación de calidad del dato, y de conseguir los correspondientes resultados de procesos (véase Tabla 2, con los resultados de proceso del proceso “Planificación de calidad del dato”).

Tabla 2. Resultados de proceso del Proceso de Planificación de calidad del dato

Nota: RP es el acrónimo de Resultado de Proceso

Los resultados de la realización satisfactoria de este proceso son:

  1. [RP.01] Se identifican, priorizan, aprueban y validan requisitos de calidad del dato derivados de los objetivos de calidad del dato que forman parte de la estrategia del dato.
  2. [RP.02] Se identifican y desarrollan los artefactos necesarios para satisfacer los requisitos de calidad del dato, y se elaboran planes para la implementación de dichos artefactos.
  3. [RP.03] Se evalúa el desempeño de los planes para la implementación de la calidad del dato.
  4. [RP.04] Se generan informes con los problemas de calidad del dato no cubiertos por la planificación de calidad del dato.

 

Para eso, los responsables de la oficina del dato combinan las actividades propias de este proceso con el proceso de producción y publicación de los conjuntos de datos. En este sentido, resulta de gran utilidad el Manual práctico para mejorar la calidad de los datos abiertos que identifica algunos problemas típicos en la publicación de datos abiertos (véase Fig.2) y proporciona recomendaciones para evitar que dichos problemas sucedan. Además, en el manual se identifican las características de calidad afectadas, lo que facilita su incorporación al diseño de los conjuntos de datos. Es muy importante tener en cuenta que algunas de estas recomendaciones afectan directamente a los propios datos (características inherentes de los datos en términos de ISO/IEC 25012), mientras que otras afectan al entorno de los datos (características dependientes del sistema en términos de ISO/IEC 25012). Para una mejor referencia de las características de calidad de datos, véase Fig.2.

Exploremos algunos ejemplos.

Fig. 3. Fallos frecuentes de calidad en los datos abiertos. Fuente: Manual práctico para mejorar la calidad de los datos abiertos

Uno de los problemas que los responsables de la Oficina del Dato del Ayuntamiento de Vistabella están más interesados en evitar es la publicación de datos incompletos o limitados (que afectan a las características de completitud, disponibilidad, actualidad, credibilidad y precisión) y la publicación de datos obsoletos y sin actualizar (que afecta a las características de disponibilidad, completitud y actualidad). El mismo manual nos está ayudando a completar el primer resultado de proceso (RP.01), ya que nos ha permitido identificar los requisitos de calidad del dato, expresado en esta ocasión en términos de las características de calidad mencionadas anteriormente. Además, teniendo en cuenta los problemas típicos relacionados con el uso de datos de transportes por distintos agentes consumidores de datos, las dos características que los responsables del servicio de publicación de datos abiertos del Ayuntamiento quieren priorizar son las de completitud y actualidad.

En este sentido, y como forma de abordar el segundo resultado de proceso RP.02, se pueden explorar las recomendaciones que hace el Manual práctico para mejorar la calidad de los datos abiertos. Este manual propone desarrollar un plan de publicación de datos en el que se incorporarán, por un lado, un inventario y catálogo de los datos que formarán parte del proceso de producción del conjunto de datos de transporte de los datos a publicar (para asegurar la completitud) y, por otro lado, se generará un plan de publicaciones que incluirá tanto los momentos de recogida de los datos desde los agentes colaboradores del ayuntamiento, como los momentos en que se deben publicar los datos de transportes resultantes de la integración de los diferentes conjuntos de datos (como forma de asegurar la actualidad).

Tanto los catálogos como los planes de publicación serán implementados y puestos en práctica como parte de los proyectos (se sustentarán en los procesos de gestión de datos que se abordarán en el tercer y último artículo de esta serie) y se establecerán mecanismos para monitorizar el desempeño de estas acciones (como parte del tercer resultado de proceso RP.03).

Por último, y como manifestación del RP.04, se abordarán qué problemas no se han cubierto adecuadamente con las acciones previstas, de modo que se puedan iterar nuevamente sobre el diseño del proceso de producción de los conjuntos de datos y desarrollar los mecanismos necesarios que eviten la aparición de problemas derivados de niveles inadecuados de calidad de datos que malogren su uso en diferentes aplicaciones.

Y con este pequeño extracto sobre cómo los responsables del Ayuntamiento de Vistabella aplican la especificación UNE 0079 en combinación con el Manual práctico para mejorar la calidad de los datos abiertos para abordar los problemas potenciales de calidad de datos llegamos al final de este segundo artículo.

En el tercer artículo de la serie se abordará cómo usar la especificación 0078, correspondiente a la gestión de los datos para implementar los proyectos derivados de la estrategia del dato.

El contenido de esta guía puede visualizarse de forma libre y gratuita desde el portal de AENOR a través del enlace que figura a continuación accediendo al apartado de compra y marcando “lectura” en el desplegable en el que aparece preseleccionado “pdf”El acceso a esta familia de especificaciones UNE del dato está patrocinado por la Secretaría de Estado de Digitalización e Inteligencia Artificial, Dirección General del Dato. Aunque la visualización requiere registro previo, se aplica un descuento del 100% sobre el total del precio que se aplica en el momento de finalizar la compra. Tras finalizar la compra se podrá acceder a la norma o normas seleccionadas desde el área de cliente en el apartado mis productos.

 

Contenido elaborado por Dr. Ismael Caballero, Profesor titular en UCLM y Dr. Fernando Gualo PhD en Ciencia computacional y Chief Executive Officer and Data Quality and Data Governance Consultant 

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de sus autores.

calendar icon
Blog

Este artículo constituye la tercera y última entrega de la serie de artículos dedicados dedicado a la aplicación de las especificaciones UNE de Gobierno, Gestión y Gestión de la calidad del dato a la publicación de datos abiertos. Recordemos que lo estamos realizando, aplicándolo al caso ficticio del Ayuntamiento de Vistabella y su objetivo de avanzar en la publicación en abierto de información de transporte público y eventos culturales.

La principal motivación de este artículo es explicar cómo se aplica la especificación UNE 0078 de gestión de datos (véase Fig.1.) al caso específico de datos abiertos.

 

Fig. 1. Procesos contenidos en las especificaciones UNE 0077, UNE 0078 y UNE 0079

Antes de comenzar es importante resaltar la diferencia que las especificaciones introducen entre los conceptos de gestión de datos y gobierno de datos. Así, el Gobierno del Dato tiene un carácter más estratégico mientras que la Gestión del Dato tiene un carácter más orientado a materializar los objetivos marcados en la estrategia. De alguna forma el Gobierno del dato es la Gestión de la Gestión del dato.

También, y dada su relevancia e interés para este artículo se han tenido en cuenta las Orientaciones para la formulación del Plan de medidas de impulso de la apertura y reutilización de datos abiertos y su  Plantilla para un Plan de medidas de impulso de la apertura y reutilización de datos abiertos. Considerando lo especificado en dichos documentos, se realizará un análisis de las indicaciones específicas de gestión de datos y sus responsabilidades, y se buscará su correspondencia con ciertos procesos de gestión de datos presentes en la especificación UNE 0078.  Finalmente, y a modo de ejemplo, se explicará en detalle cómo aplicar el proceso “Compartición, Intermediación e Integración del Dato (CIIDat)” para abordar las distintas responsabilidades presentes en dicho proceso.

Mapeo entre las responsabilidades descritas en el Plan de Medidas de Impulso y los procesos de la especificación UNE 0078.

En el documento de Plan de Medidas de Impulso de la apertura y reutilización de datos abiertos se establece que existen tres tipos de roles involucrados: un comité responsable del impulso de la iniciativa – que tendría responsabilidades más relacionadas con el gobierno del dato –, un equipo de gestores de datos en áreas orgánicas (visión más táctica) y un equipo de gestores de sistemas de información (visión más operativa) – que tendrían estos dos últimos una visión más de gestión de datos. Es interesante la separación entre los roles de gobierno del dato propiamente dicho y los roles de gestión del dato, centrándonos en estos dos últimos al ser de interés del artículo.

En el documento Orientaciones para la formulación del Plan de medidas de impulso de la apertura y reutilización de datos abiertos se establecen las responsabilidades para estos roles. Dichas responsabilidades se podrán ejercer de una manera más efectiva, rigurosa y sistemática, si están soportadas por procesos bien definidos. Dado que son roles y responsabilidad de gestión de datos, dichas responsabilidades se han mapeado (véase Tabla 1) a una combinación de los procesos presentes en la especificación UNE 0078, aunque en algún caso, también se hace referencia a algún proceso de UNE 0079.

Rol Responsabilidad Proceso UNE 0078
Equipos gestores en áreas orgánicas Participar en el diagnóstico, viabilidad y planificación de la apertura de los conjuntos de datos

Gestión del ciclo de vida (CVidDat)

CIIDat

Conocer funcionalmente los orígenes de datos (aplicaciones o sistemas de información) CIIDat
Conocer los procedimientos y actividades básicas que impliquen el tratamiento de los datos CVidDat
Asegurar la calidad de los datos, fijar los metadatos y orientar sobre el modelo de compartición, contemplando los aspectos legales que resulten pertinentes.

Aseguramiento DQ (UNE 0079)

CIIDat

Publicar, modificar, actualizar o dar de baja conjunto de datos en el catálogo del organismo y en portales federados como datos.gob.es

Gestión de arquitectura del dato (ArqDat)

CVidDat CIIDat

Analizar las consecuencias derivadas de contratos suscritos con proveedores externos que puedan afectar a los datos procedentes de servicios externalizados susceptibles de ser reutilizados. CIIDat
Equipos gestores de sistemas de información Crear y mantener un apartado de datos abiertos en el espacio web del organismo

ArqDat

CIIDat

Facilitar el acceso y extracción de datos de los sistemas de información CIIDat
Preparar datos para su publicación o actualización: depurar datos, adecuar formatos, organizar conjuntos de datos

CVidDat

CIIDat

Garantizar la disponibilidad y consumo de datos para su reutilización directa por medio de APIs

CIIDat

Gestión de Infraestructura Tecnológica (InfrTec)

ArqDat

Colaborar en la publicación, modificación, actualización o baja de los conjuntos de datos en el apartado de datos abiertos en espacio web del organismo. CIIDat
Asesorar a los gestores de datos en las áreas orgánicas sobre el detalle de la infraestructura tecnológica que soporte el almacenamiento, tratamiento y publicación de datos.

CVidDat

InfrTec

Participar en el diagnóstico, viabilidad y planificación de la apertura de los conjuntos de datos.  CIIDat

Tabla 1. Procesos de Gestión de Datos mapeados según las responsabilidaes.

Como puede verse, uno de los procesos más usados es el de Compartición, Intermediación e Integración del Dato (CIIDat) por lo que se incidirá en su desarrollo. Es interesante tener en cuenta que el artículo propone combinar dos recursos: la definición del proceso en la especificación UNE 0078, que da la estructura, y lo indicado en el documento
Plantilla para un Plan de medidas de impulso de la apertura y reutilización de datos abiertos” que daría soporte al contenido.     

Compartición, Intermediación e Integración de Datos (CIIDat)

El proceso CCIDat consta de las siguientes tareas:

T.1. Describir y documentar los procesos de adquisición y/o entrega del dato.

El objetivo de esta tarea es documentar los orígenes de los datos y los datos que van a ser publicados, especificando qué atributos deben tener, y tomando decisiones sobre cómo deben publicarse los datos.

En este caso, serán las concejalías de Movilidad y de Cultura, Turismo y Deporte los que se encarguen de producir los datos que se pretenden publicar en abierto. Así, que se pueden rellenar por cada concejalía la plantilla propuesta en el Punto 2.1. del documento Plantilla para un Plan de medidas de impulso de la apertura y reutilización de datos abiertos. Así, por ejemplo, la información propia del Ayuntamiento sería la reflejada en la Tabla 2: 

               Y para cada una de las concejalías se cumplimentaría lo reflejado en las tablas 3 y 4

Nombre del organismo Ayuntamiento de Vistabella
Identificador DIR-3 VB00000001
Creador de datos Director de datos
Fecha de inicio 20/06/2023
Sitio web de datos abiertos https://opendata.aytovistabella.es  

                    Tabla 2. Identificación del Ayuntamiento de Vistabella

Y para cada una de las concejalías se cumplimentaría lo reflejado en las tablas 3 y 4

 

Área / Departamento publicador Concejalía de Movilidad
Punto de contacto Dirección General de Infraestructuras de Movilidad
Creador de datos Jefe de Servicio de Analítica de Datos
Editor de datos Secretario Técnico del Servicio de Analítica de Datos
Fecha de incorporación 21/06/2023

                    Tabla 3.  Identificación de la Concejalía de Movilidad

Área / Departamento publicador Concejalía de Cultura, Turismo y Deporte
Punto de contacto Dirección General de Programas y Actividades Culturales
Creador de datos Jefe de Servicio de Informática
Editor de datos Secretario Técnico del Servicio de Informática
Fecha de incorporación 22/06/2023

                    Tabla 4.  Identificación de la Concejalía de Cultura, Turismo y Deporte

La publicación de los datos obedece a dos planes desarrollados como parte de la estrategia del dato de potenciar la publicación de datos abiertos en los correspondientes portales de datos abiertos y fomentar su reutilización para ofrecer a sus vecinos datos de calidad de manera transparente y responsable. A modo de ejemplo se describe el plan presentado en la Tabla 5 para los datos de transporte.

Nombre del plan Apertura de Datos de Movilidad
Editor del plan Dirección General de Infraestructuras de Movilidad
Periodo de Vigencia 1 año
Fecha creación plan 05/05/2023
Fecha última versión del plan 17/06/2023

                    Tabla 5.  Plan de Apertura de Datos de Movilidad

Para cada concejalía se tendrá un conjunto de datos que se pretenden publicar. Para describir los orígenes y descripción de estos datos se puede usar la plantilla correspondiente, representada en la Tabla 6. Esto constituye en sí un repositorio de metadatos.

Área Responsable Sistema de Información Misión Principal Factibilidad Apertura Técnica Potenciales Conjunto de Datos Medidas Necesarias Comentarios
Movilidad BUS Mejora puntualidad buses Factible Horarios de Buses Urbanos Anonimizar datos conductores y autobuses Publicación demandada en Formatos CSV
Movilidad Metro Mejora servicio nocturno metro Factible Horario de Metros Geoposicionar datos de metros Publicación en CSV, TXT.

                    Tabla 6.  Activos de información seleccionados para ser publicados

Una vez identificado los datos a publicar, el proceso prescribe que puede ser necesario establecer contratos de adquisición con las fuentes de datos, estableciendo cláusulas específicas con las fuentes de datos que cubran aspectos relacionados con el nivel de servicio tales como requisitos operacionales (p.ej. formatos de adquisición de datos), requisitos de calidad de datos, etc. Para ello, empleando la plantilla presente en el documento, a modo de ejemplo, para los datos de “horario de autobuses urbanos” se reflejaría la información presente en la tabla 7.

Área Responsable Nombre Dataset Dataset de alto valor Fecha de Apertura Prevista Formatos Previstos Frecuencia de actualización Comentarios
Movilidad Trazas de ruta de Buses Línea 9 No Todos los martes CSV, TXT, XLS Semanal Cubren las frecuencias de autobuses del Campus Norte de la Universidad. Los datasets serán recopilados de la Empresa Municipal de Transportes
Movilidad Trazas de Horario Buses Línea 3 No Todos los miércoles CSV, TXT Semanal Cubren las frecuencias de autobuses del Centro Comercial “La Mirada”. Los datasets serán recopilados de la Empresa Municipal de Transportes

                    Tabla 7.  Activos de información seleccionados para ser publicados

El interés que tienen los conjuntos de datos mostrados en la Tabla 7 está condicionado por la prestación de servicios de ordenación de movilidad que debe hacerse para garantizar la prestación de otros servicios públicos y privados. Por ejemplo, se quieren publicar las trazas de ruta de los autobuses de la Línea 9, que cubre el Campus Norte de la Universidad, en el que hay mayor cantidad de alumnos, porque se desea estimar la

frecuencia de viajeros (mayoritariamente alumnos, profesores y personal de servicio de la Universidad) para no interferir en los servicios públicos de recogida de basura, y para poder dar respuesta a los propietarios de puestos ambulantes de comida que quieren conocer la frecuencia de viajeros en distintas paradas a distintas horas para elegir donde ponerse.

Por otro lado, este es el momento en el que tiene que describirse cómo y dónde se publicarán los datos. De acuerdo con el plan de apertura, los datos abiertos se publicarán en el portal de datos abierto del ayuntamiento https://opendata.aytovistabella.es. Los formatos de cada publicación serán los establecidos para cada conjunto de datos. Por ejemplo, las trazas de los autobuses se publicarán en formato CSV, TXT y XLS (véase Tabla 7).

T.2. Describir y documentar los procesos de transformación y de integración del dato

Una vez descritos los datos que se van a abrir y que deben ser publicados, el siguiente paso que debe cubrirse es la descripción del proceso de transformación de los datos y las acciones específicas que deben hacerse para poder publicarse en abierto. Siguiendo con el ejemplo del horario de los autobuses, los datos en origen tienen información del conductor, la matrícula del autobús, de la geoposición de las paradas, del número de viajes que se han validado (cuántas personas han subido al autobús) y del momento exacto en el que se producen las paradas y se reanuda la marcha. Para poder publicar los datos, se deben eliminar de los datos cualquier identificación del conductor y del autobús.  Como los conjuntos de datos se publican semanalmente todos los martes (véase tabla 7), se decidió que la fecha de preparación de los datasets serían los lunes y sería necesario preparar los conjuntos de datos para que se integren los datos de cada día de la semana, desde los lunes hasta los domingos. Además, se generarán distintas versiones de los conjuntos de datos integrados semanalmente, una versión por cada formato en el que se tengan que publicar los datos. Obsérvese que en esta tarea se describe o diseña cómo debe realizarse el proceso de transformación e integración del dato, pero la ejecución propiamente dicha se realiza en la tarea T5.

T3. Adaptar la infraestructura tecnológica de compartición e integración del dato

La infraestructura tecnológica tiene que adaptarse para poder dar cabida a la implementación y puesta en producción del fichero ETL que extrae los datos de cada fuente de datos (en el caso de los autobuses, el sistema de información BUS según la tabla 6), y para almacenar las diferentes versiones de los conjuntos de datos, tanto una versión intermedia, como las versiones en los distintos formatos.

Además, se debe preparar la plataforma https://opendata.aytovistabella.es para que se puedan ir añadiendo los conjuntos de datos correspondientes a cada semana en los tres formatos previstos.

T.4. Diseñar y ejecutar un plan de adquisición y/o entrega del dato

El proceso CIIDat en este punto prescribe diseñar y ejecutar la extracción de los conjuntos de datos y diseñar y ejecutar la publicación de los datos.  En el caso del ejemplo de los autobuses de la Línea 9, esto se realizará de acuerdo con lo establecido en la tarea T2. Por cuestiones de auditoría, se recomienda guardar trazas de ejecución de los planes de adquisición y entrega de los datos, para poder verificar, si se hubieran firmado, que se han cumplido los acuerdos de nivel de servicio tanto con los proveedores de datos (la empresa municipal de transporte), como con los destinatarios de datos (el portal https://opendata.aytovistabella.es).

En el ejemplo que nos ocupa, merece la pena indicar que esta tarea se debería ejecutar dos veces: una para la extracción de los datos desde la empresa municipal de transporte, y la segunda cuando se vayan a publicar los datos una vez transformado (objetivo de la tarea T5).

T5. Diseñar y ejecutar un plan de integración del dato

En esta tarea el objetivo es proceder a la transformación e integración del dato de acuerdo a las indicaciones establecidas durante la tarea T2.-

Conclusiones

En este artículo se ha mostrado cómo se puede usar el proceso de Compartición, Intermediación e Integración de Datos (CIIDat) para la publicación en abierto de determinados datos, combinándose con las plantillas incluidas en el documento Plantilla para un Plan de medidas de impulso de la apertura y reutilización de datos abiertos.

Queremos hacer hincapié en que la ejecución de este proceso, tal como se muestra en la Tabla 1, podría requerir la ejecución de otros procesos de gestión de datos y/o de gestión de calidad del dato, por ejemplo, el proceso de Gestión del Ciclo de Vida.

El contenido de esta guía puede visualizarse de forma libre y gratuita desde el portal de AENOR a través del enlace que figura a continuación accediendo al apartado de compra y marcando “lectura” en el desplegable en el que aparece preseleccionado “pdf”El acceso a esta familia de especificaciones UNE del dato está patrocinado por la Secretaría de Estado de Digitalización e Inteligencia Artificial, Dirección General del Dato. Aunque la visualización requiere registro previo, se aplica un descuento del 100% sobre el total del precio que se aplica en el momento de finalizar la compra. Tras finalizar la compra se podrá acceder a la norma o normas seleccionadas desde el área de cliente en el apartado mis productos.

https://tienda.aenor.com/norma-une-especificacion-une-0078-2023-n0071117

Contenido elaborado por Dr. Ismael Caballero, Profesor titular en UCLM y Dr. Fernando Gualo PhD en Ciencia computacional y Chief Executive Officer and Data Quality and Data Governance Consultant 

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de sus autores.

 

calendar icon
Blog

Transformar los datos en conocimiento se ha convertido en uno de los objetivos principales a los que se enfrentan tanto las organizaciones públicas como privadas en la actualidad. Pero, para poder lograrlo, es necesario partir de la premisa de que los datos tratados están gobernados y son de calidad.

En este sentido, la Asociación Española de Normalización (UNE) ha publicado recientemente un artículo e informe donde se recogen distintas normas técnicas que buscan garantizar que la correcta gestión y gobernanza de los datos de una organización. En este post se recogen ambos materiales, incluyendo una infografía-resumen de las normas destacadas.

En los artículos de referencia señalados se mencionan norman técnicas relativas a gobernanza, gestión, calidad, seguridad y privacidad de datos. En esta ocasión queremos hacer un zoom sobre aquellas centradas en la calidad de los datos.

Estándares de referencia de gestión de la calidad

Tal y como dijo Lord Kelvin, físico y matemático británico del siglo XIX, “lo que no se mide, no se puede mejorar y lo que no se mejora, se degrada siempre”.  Pero para medir la calidad del dato y poder mejorarla se necesitan estándares que nos ayuden a homogeneizar primero dicha calidad*.  A ello nos pueden ayudar las normas técnicas detalladas a continuación: 

Norma ISO 8000

La normativa ISO (International Organization for Standardization), dispone de la norma ISO 8000 como el estándar internacional para la calidad de los datos de transacción, los datos de producto y los datos maestros empresariales. Esta norma se estructura en 4 partes: conceptos generales de la calidad de los datos (ISO 8000-1, ISO 8000-2 e ISO 8000-8), procesos de gestión de la calidad de los datos (ISO 8000-6x), aspectos relacionados con el intercambio de datos maestros entre organizaciones (partes 100 a 150) y aplicación de la calidad de los datos de producto (ISO 8000-311).

Dentro de la familia de las ISO 8000-6X, centrada en los procesos de gestión de la calidad de los datos para crear, almacenar y transferir los datos que dan soporte a los procesos de negocio de manera oportuna y rentable, encontramos:

  • La ISO 8000-60 proporciona una visión general de los procesos de gestión de calidad de los datos sometidos a un ciclo de mejora continua.
  • La ISO 8000-61 establece un modelo de referencia de procesos de gestión de calidad de los datos. La principal característica es que, para alcanzar la mejora continua, el proceso de implementación debe ser ejecutado continuamente siguiendo el ciclo Plan-Do-Check-Act. Además, se incluyen procesos de implementación relacionados con el aprovisionamiento de los recursos y el procesamiento de datos. Tal y como se muestra en la siguiente imagen, las cuatro etapas del ciclo de implementación deben disponer de datos de entrada, información de control y soporte para una mejora continua, así como contar con los recursos necesarios para el desempeño de las actividades.

Etapas del ciclo de implementación de gestión de calidad de los datos. Implementación: Planificación de calidad de datos, información y tecnología, aseguramiento de calidad de datos, mejora de calidad de datos. Relacionado con los datos: Información y tecnología, recursos y formación, aprovisionamiento de recursos. Fuente: ISO8000-61

  • Por su parte, la ISO 8000-62, la última de la familia de las ISO 8000-6X, se enfoca en la evaluación de madurez de procesos organizacionales. En ella se especifica un marco de trabajo para evaluar la madurez de la gestión de la calidad de datos de la organización, basado en su capacidad de ejecutar las actividades relacionadas con los procesos de gestión de la calidad de datos identificados en la ISO 8000-61. En función de la capacidad del proceso evaluado, se asigna uno de los niveles definidos.

Norma ISO 25012

Otra de las normas ISO que trata sobre la calidad de los datos es la familia de las ISO 25000, que tiene por objetivo la creación de un marco de trabajo común para evaluar la cvalidad del producto de software. En concreto, la norma ISO 25012 define un un modelo general de calidad de datos aplicable a datos almacenados de forma estructurada en un sistema de información.

Además, en el contexto de datos abiertos se considera una referencia de acuerdo al conjunto de buenas prácticas para la evaluación de la calidad de los datos abiertos desarrollado por la red paneuropea Share-PSI, concebida para servir de orientación a todas las organizaciones públicas a la hora de compartir información.

En este caso, la calidad del producto de datos se entiende como el grado en que estos satisfacen los requisitos definidos previamente en el modelo de calidad de datos mediante las siguientes 15 características.

Requisitos de calidad del producto de datos. Calidad de datos inherente. Exactitud, completitud, consistencia, credibilidad, actualidad, accesibilidad, conformidad, confidencialidad, eficiencia, precisión, trazabilidad, comprensibilidad, disponibilidad, portabilidad, recuperabilidad. Calidad de datos dependientes del sistema. Fuente: ISO 25000

Estas características o dimensiones de calidad, se clasifican principalmente en dos categorías.

La calidad de datos inherente se relaciona con el potencial intrínseco de los datos de satisfacer las necesidades definidas cuando se utilizan en condiciones concretas. Se trata de:

  • Exactitud: grado en el que los datos representan el verdadero valor del atributo deseado en un contexto específico, como pueda ser la cercanía de los datos a un conjunto de valores definidos en un determinado dominio.
  • Completitud: grado en el que los datos asociados tienen valor para todos los atributos definidos.
  • Consistencia: grado de coherencia con otros datos existentes, eliminando contradicciones.
  • Credibilidad: grado en que los datos tienen atributos que se consideran ciertos y creíbles en su contexto, incluyendo la veracidad de los orígenes de datos.
  • Actualidad: grado de vigencia de los datos para su contexto de uso.

Por otro lado, la calidad de datos dependiente del sistema se relaciona con el grado alcanzado a través de un sistema informático bajo condiciones concretas. Se trata de:

  • Disponibilidad: grado en que los datos tienen atributos que permiten ser obtenidos por usuarios autorizados.
  • Portabilidad: capacidad de los datos de ser instalados, reemplazados o eliminados de un sistema a otro, preservando el nivel de calidad.
  • Recuperabilidad: grado en que los datos tienen atributos que permiten mantener y preservar la calidad incluso en caso de fallos.

Adicionalmente, hay características o dimensiones que pueden englobarse tanto dentro de calidad de datos inherente como dependiente del sistema. Estas son:

  • Accesibilidad: posibilidad de acceso a los datos en un contexto concreto por unos roles determinados.
  • Conformidad: grado en que los datos contienen atributos en base a estándares, normativas o referencias establecidas.
  • Confidencialidad: mide el grado de aseguramiento de los datos en base a su naturaleza para poder acceder a ellos solo por los roles configurados.
  • Eficiencia: posibilidades que ofrecen los datos para ser procesados con niveles de rendimiento esperados en situaciones concretas.
  • Precisión: exactitud de los datos en base a un contexto de uso específico.
  • Trazabilidad: capacidad de auditar el ciclo de vida completo del dato.
  • Comprensibilidad: capacidad de los datos de ser interpretados por cualquier usuario, incluyendo la utilización de símbolos y lenguajes determinados para un contexto específico.

Además de las normas ISO, existen otros marcos de referencia que establecen pautas comunes para la medición de la calidad. DAMA Internacional, por ejemplo, tras analizar las similitudes de todos los modelos, establece 8 dimensiones de calidad básicas comunes a cualquier estándar: exactitud, completitud, consistencia, integridad, razonabilidad, oportunidad, unicidad, validez.

La necesidad de mejora continua

La homogeneización de la calidad de los datos de acuerdo a estándares de referencia como los descritos, permiten asentar las bases para una mejora continua de la información. A partir de la aplicación de estas normas, y teniendo en cuenta las dimensiones detalladas, es posible definir indicadores de calidad. Una vez se implementen y ejecuten, arrojarán unos resultados que tendrán que ser revisados por los diferentes propietarios de los datos, estableciendo umbrales de tolerancia e identificando así incidencias de calidad en todos aquellos indicadores que no superen el umbral definido.

Para ello, se tendrán en cuenta diferentes parámetros como la naturaleza del dato o su impacto en el negocio, ya que no se puede tratar de igual forma un campo descriptivo que una clave primaria, por ejemplo.

A partir de ahí, es frecuente poner en marcha un circuito de resolución de incidencias capaz de detectar la causa raíz que genera una deficiencia de calidad en un dato para extraerla y garantizar la mejora continua.

Gracias a ello, se obtienen innumerables beneficios, como minimizar riesgos, ahorro de tiempo y recursos, toma ágil de decisiones, adaptación a nuevos requerimientos o mejora reputacional.

 

Cabe destacar que las normas técnicas abordadas en este post permiten homogeneizar la calidad. Para tareas de medición de la calidad de los datos per se, deberíamos acudir a otras normas como la ISO 25024:2015.

 


Contenido elaborado por Juan Mañes, experto en Data Governance.

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Documentación

El dato es un pilar clave de la transformación digital. Los datos confiables y de calidad son la base de todo, desde las principales decisiones estratégicas hasta el proceso operativo de rutina, son fundamentales en el desarrollo de los espacios de datos, así como la base de soluciones disruptivas ligadas a ámbitos tales como la inteligencia artificial o el Big Data.

En este sentido, la correcta gestión y gobierno de los datos se ha convertido en una actividad estratégica para todo tipo de organizaciones, públicas y privadas.

La normalización del gobierno del dato se basa en 4 principios:

  • Gobernanza
  • Gestión
  • Calidad
  • Seguridad y privacidad de datos

Aquellas organizaciones que quieran implementar un marco de gobierno sólido basado en estos pilares tienen a su disposición una serie de normas técnicas que proveen de principios guiadores para garantizar que los datos de una organización son correctamente gestionados y gobernados, tanto internamente como por contrataciones externas.

Con el objetivo de intentar aclarar las dudas en esta materia, la Asociación Española de Normalización (UNE), ha publicado varios materiales de apoyo.

El primero es un artículo sobre las distintas normas técnicas a considerar a la hora de desarrollar un gobierno del dato efectivo. Las normas recogidas en dicho artículo, junto a alguna adicional, se resumen en la siguiente infografía:

infografía en imagen jpg

(Puedes descargar la versión accesible en word aquí)

Además, la UNE también ha publicado el informe “Estándares para la economía del dato”, que se puede descargar al final de este artículo. El informe comienza con una introducción donde se profundiza en el contexto legislativo europeo que está impulsando la Economía del dato y el reconocimiento que en él se hace de la normalización técnica como una herramienta clave a la hora de alcanzar los objetivos fijados. A continuación, se analizan de manera más detallada las normas técnicas incluidas en la infografía anterior.

calendar icon