Aplicación de las Especificación UNE 0078: 2023 a los datos abiertos

Fecha de la noticia: 06-09-2023

UNE

Este artículo constituye la tercera y última entrega de la serie de artículos dedicados dedicado a la aplicación de las especificaciones UNE de Gobierno, Gestión y Gestión de la calidad del dato a la publicación de datos abiertos. Recordemos que lo estamos realizando, aplicándolo al caso ficticio del Ayuntamiento de Vistabella y su objetivo de avanzar en la publicación en abierto de información de transporte público y eventos culturales.

La principal motivación de este artículo es explicar cómo se aplica la especificación UNE 0078 de gestión de datos (véase Fig.1.) al caso específico de datos abiertos.

 

Fig. 1. Procesos contenidos en las especificaciones UNE 0077, UNE 0078 y UNE 0079

Antes de comenzar es importante resaltar la diferencia que las especificaciones introducen entre los conceptos de gestión de datos y gobierno de datos. Así, el Gobierno del Dato tiene un carácter más estratégico mientras que la Gestión del Dato tiene un carácter más orientado a materializar los objetivos marcados en la estrategia. De alguna forma el Gobierno del dato es la Gestión de la Gestión del dato.

También, y dada su relevancia e interés para este artículo se han tenido en cuenta las Orientaciones para la formulación del Plan de medidas de impulso de la apertura y reutilización de datos abiertos y su  Plantilla para un Plan de medidas de impulso de la apertura y reutilización de datos abiertos. Considerando lo especificado en dichos documentos, se realizará un análisis de las indicaciones específicas de gestión de datos y sus responsabilidades, y se buscará su correspondencia con ciertos procesos de gestión de datos presentes en la especificación UNE 0078.  Finalmente, y a modo de ejemplo, se explicará en detalle cómo aplicar el proceso “Compartición, Intermediación e Integración del Dato (CIIDat)” para abordar las distintas responsabilidades presentes en dicho proceso.

Mapeo entre las responsabilidades descritas en el Plan de Medidas de Impulso y los procesos de la especificación UNE 0078.

En el documento de Plan de Medidas de Impulso de la apertura y reutilización de datos abiertos se establece que existen tres tipos de roles involucrados: un comité responsable del impulso de la iniciativa – que tendría responsabilidades más relacionadas con el gobierno del dato –, un equipo de gestores de datos en áreas orgánicas (visión más táctica) y un equipo de gestores de sistemas de información (visión más operativa) – que tendrían estos dos últimos una visión más de gestión de datos. Es interesante la separación entre los roles de gobierno del dato propiamente dicho y los roles de gestión del dato, centrándonos en estos dos últimos al ser de interés del artículo.

En el documento Orientaciones para la formulación del Plan de medidas de impulso de la apertura y reutilización de datos abiertos se establecen las responsabilidades para estos roles. Dichas responsabilidades se podrán ejercer de una manera más efectiva, rigurosa y sistemática, si están soportadas por procesos bien definidos. Dado que son roles y responsabilidad de gestión de datos, dichas responsabilidades se han mapeado (véase Tabla 1) a una combinación de los procesos presentes en la especificación UNE 0078, aunque en algún caso, también se hace referencia a algún proceso de UNE 0079.

Rol

Responsabilidad

Proceso UNE 0078

Equipos gestores en áreas orgánicas

Participar en el diagnóstico, viabilidad y planificación de la apertura de los conjuntos de datos

Gestión del ciclo de vida (CVidDat)

CIIDat

Conocer funcionalmente los orígenes de datos (aplicaciones o sistemas de información)

CIIDat

Conocer los procedimientos y actividades básicas que impliquen el tratamiento de los datos

CVidDat

Asegurar la calidad de los datos, fijar los metadatos y orientar sobre el modelo de compartición, contemplando los aspectos legales que resulten pertinentes.

Aseguramiento DQ (UNE 0079)

CIIDat

Publicar, modificar, actualizar o dar de baja conjunto de datos en el catálogo del organismo y en portales federados como datos.gob.es

Gestión de arquitectura del dato (ArqDat)

CVidDat CIIDat

Analizar las consecuencias derivadas de contratos suscritos con proveedores externos que puedan afectar a los datos procedentes de servicios externalizados susceptibles de ser reutilizados.

CIIDat

Equipos gestores de sistemas de información

Crear y mantener un apartado de datos abiertos en el espacio web del organismo

ArqDat

CIIDat

Facilitar el acceso y extracción de datos de los sistemas de información

CIIDat

Preparar datos para su publicación o actualización: depurar datos, adecuar formatos, organizar conjuntos de datos

CVidDat

CIIDat

Garantizar la disponibilidad y consumo de datos para su reutilización directa por medio de APIs

CIIDat

Gestión de Infraestructura Tecnológica (InfrTec)

ArqDat

Colaborar en la publicación, modificación, actualización o baja de los conjuntos de datos en el apartado de datos abiertos en espacio web del organismo.

CIIDat

Asesorar a los gestores de datos en las áreas orgánicas sobre el detalle de la infraestructura tecnológica que soporte el almacenamiento, tratamiento y publicación de datos.

CVidDat

InfrTec

Participar en el diagnóstico, viabilidad y planificación de la apertura de los conjuntos de datos. 

CIIDat

Tabla 1. Procesos de Gestión de Datos mapeados según las responsabilidaes.

Como puede verse, uno de los procesos más usados es el de Compartición, Intermediación e Integración del Dato (CIIDat) por lo que se incidirá en su desarrollo. Es interesante tener en cuenta que el artículo propone combinar dos recursos: la definición del proceso en la especificación UNE 0078, que da la estructura, y lo indicado en el documento
Plantilla para un Plan de medidas de impulso de la apertura y reutilización de datos abiertos” que daría soporte al contenido.     

Compartición, Intermediación e Integración de Datos (CIIDat)

El proceso CCIDat consta de las siguientes tareas:

T.1. Describir y documentar los procesos de adquisición y/o entrega del dato.

El objetivo de esta tarea es documentar los orígenes de los datos y los datos que van a ser publicados, especificando qué atributos deben tener, y tomando decisiones sobre cómo deben publicarse los datos.

En este caso, serán las concejalías de Movilidad y de Cultura, Turismo y Deporte los que se encarguen de producir los datos que se pretenden publicar en abierto. Así, que se pueden rellenar por cada concejalía la plantilla propuesta en el Punto 2.1. del documento Plantilla para un Plan de medidas de impulso de la apertura y reutilización de datos abiertos. Así, por ejemplo, la información propia del Ayuntamiento sería la reflejada en la Tabla 2: 

               Y para cada una de las concejalías se cumplimentaría lo reflejado en las tablas 3 y 4

Nombre del organismo

Ayuntamiento de Vistabella

Identificador DIR-3

VB00000001

Creador de datos

Director de datos

Fecha de inicio

20/06/2023

Sitio web de datos abiertos

https://opendata.aytovistabella.es  

                    Tabla 2. Identificación del Ayuntamiento de Vistabella

Y para cada una de las concejalías se cumplimentaría lo reflejado en las tablas 3 y 4

 

Área / Departamento publicador

Concejalía de Movilidad

Punto de contacto

Dirección General de Infraestructuras de Movilidad

Creador de datos

Jefe de Servicio de Analítica de Datos

Editor de datos

Secretario Técnico del Servicio de Analítica de Datos

Fecha de incorporación

21/06/2023

                    Tabla 3.  Identificación de la Concejalía de Movilidad

Área / Departamento publicador

Concejalía de Cultura, Turismo y Deporte

Punto de contacto

Dirección General de Programas y Actividades Culturales

Creador de datos

Jefe de Servicio de Informática

Editor de datos

Secretario Técnico del Servicio de Informática

Fecha de incorporación

22/06/2023

                    Tabla 4.  Identificación de la Concejalía de Cultura, Turismo y Deporte

La publicación de los datos obedece a dos planes desarrollados como parte de la estrategia del dato de potenciar la publicación de datos abiertos en los correspondientes portales de datos abiertos y fomentar su reutilización para ofrecer a sus vecinos datos de calidad de manera transparente y responsable. A modo de ejemplo se describe el plan presentado en la Tabla 5 para los datos de transporte.

Nombre del plan

Apertura de Datos de Movilidad

Editor del plan

Dirección General de Infraestructuras de Movilidad

Periodo de Vigencia

1 año

Fecha creación plan

05/05/2023

Fecha última versión del plan

17/06/2023

                    Tabla 5.  Plan de Apertura de Datos de Movilidad

Para cada concejalía se tendrá un conjunto de datos que se pretenden publicar. Para describir los orígenes y descripción de estos datos se puede usar la plantilla correspondiente, representada en la Tabla 6. Esto constituye en sí un repositorio de metadatos.

Área Responsable

Sistema de Información

Misión Principal

Factibilidad Apertura Técnica

Potenciales Conjunto de Datos

Medidas Necesarias

Comentarios

Movilidad

BUS

Mejora puntualidad buses

Factible

Horarios de Buses Urbanos

Anonimizar datos conductores y autobuses

Publicación demandada en Formatos CSV

Movilidad

Metro

Mejora servicio nocturno metro

Factible

Horario de Metros

Geoposicionar datos de metros

Publicación en CSV, TXT.

                    Tabla 6.  Activos de información seleccionados para ser publicados

Una vez identificado los datos a publicar, el proceso prescribe que puede ser necesario establecer contratos de adquisición con las fuentes de datos, estableciendo cláusulas específicas con las fuentes de datos que cubran aspectos relacionados con el nivel de servicio tales como requisitos operacionales (p.ej. formatos de adquisición de datos), requisitos de calidad de datos, etc. Para ello, empleando la plantilla presente en el documento, a modo de ejemplo, para los datos de “horario de autobuses urbanos” se reflejaría la información presente en la tabla 7.

Área Responsable

Nombre Dataset

Dataset de alto valor

Fecha de Apertura Prevista

Formatos Previstos

Frecuencia de actualización

Comentarios

Movilidad

Trazas de ruta de Buses Línea 9

No

Todos los martes

CSV, TXT, XLS

Semanal

Cubren las frecuencias de autobuses del Campus Norte de la Universidad. Los datasets serán recopilados de la Empresa Municipal de Transportes

Movilidad

Trazas de Horario Buses Línea 3

No

Todos los miércoles

CSV, TXT

Semanal

Cubren las frecuencias de autobuses del Centro Comercial “La Mirada”. Los datasets serán recopilados de la Empresa Municipal de Transportes

                    Tabla 7.  Activos de información seleccionados para ser publicados

El interés que tienen los conjuntos de datos mostrados en la Tabla 7 está condicionado por la prestación de servicios de ordenación de movilidad que debe hacerse para garantizar la prestación de otros servicios públicos y privados. Por ejemplo, se quieren publicar las trazas de ruta de los autobuses de la Línea 9, que cubre el Campus Norte de la Universidad, en el que hay mayor cantidad de alumnos, porque se desea estimar la

frecuencia de viajeros (mayoritariamente alumnos, profesores y personal de servicio de la Universidad) para no interferir en los servicios públicos de recogida de basura, y para poder dar respuesta a los propietarios de puestos ambulantes de comida que quieren conocer la frecuencia de viajeros en distintas paradas a distintas horas para elegir donde ponerse.

Por otro lado, este es el momento en el que tiene que describirse cómo y dónde se publicarán los datos. De acuerdo con el plan de apertura, los datos abiertos se publicarán en el portal de datos abierto del ayuntamiento https://opendata.aytovistabella.es. Los formatos de cada publicación serán los establecidos para cada conjunto de datos. Por ejemplo, las trazas de los autobuses se publicarán en formato CSV, TXT y XLS (véase Tabla 7).

T.2. Describir y documentar los procesos de transformación y de integración del dato

Una vez descritos los datos que se van a abrir y que deben ser publicados, el siguiente paso que debe cubrirse es la descripción del proceso de transformación de los datos y las acciones específicas que deben hacerse para poder publicarse en abierto. Siguiendo con el ejemplo del horario de los autobuses, los datos en origen tienen información del conductor, la matrícula del autobús, de la geoposición de las paradas, del número de viajes que se han validado (cuántas personas han subido al autobús) y del momento exacto en el que se producen las paradas y se reanuda la marcha. Para poder publicar los datos, se deben eliminar de los datos cualquier identificación del conductor y del autobús.  Como los conjuntos de datos se publican semanalmente todos los martes (véase tabla 7), se decidió que la fecha de preparación de los datasets serían los lunes y sería necesario preparar los conjuntos de datos para que se integren los datos de cada día de la semana, desde los lunes hasta los domingos. Además, se generarán distintas versiones de los conjuntos de datos integrados semanalmente, una versión por cada formato en el que se tengan que publicar los datos. Obsérvese que en esta tarea se describe o diseña cómo debe realizarse el proceso de transformación e integración del dato, pero la ejecución propiamente dicha se realiza en la tarea T5.

T3. Adaptar la infraestructura tecnológica de compartición e integración del dato

La infraestructura tecnológica tiene que adaptarse para poder dar cabida a la implementación y puesta en producción del fichero ETL que extrae los datos de cada fuente de datos (en el caso de los autobuses, el sistema de información BUS según la tabla 6), y para almacenar las diferentes versiones de los conjuntos de datos, tanto una versión intermedia, como las versiones en los distintos formatos.

Además, se debe preparar la plataforma https://opendata.aytovistabella.es para que se puedan ir añadiendo los conjuntos de datos correspondientes a cada semana en los tres formatos previstos.

T.4. Diseñar y ejecutar un plan de adquisición y/o entrega del dato

El proceso CIIDat en este punto prescribe diseñar y ejecutar la extracción de los conjuntos de datos y diseñar y ejecutar la publicación de los datos.  En el caso del ejemplo de los autobuses de la Línea 9, esto se realizará de acuerdo con lo establecido en la tarea T2. Por cuestiones de auditoría, se recomienda guardar trazas de ejecución de los planes de adquisición y entrega de los datos, para poder verificar, si se hubieran firmado, que se han cumplido los acuerdos de nivel de servicio tanto con los proveedores de datos (la empresa municipal de transporte), como con los destinatarios de datos (el portal https://opendata.aytovistabella.es).

En el ejemplo que nos ocupa, merece la pena indicar que esta tarea se debería ejecutar dos veces: una para la extracción de los datos desde la empresa municipal de transporte, y la segunda cuando se vayan a publicar los datos una vez transformado (objetivo de la tarea T5).

T5. Diseñar y ejecutar un plan de integración del dato

En esta tarea el objetivo es proceder a la transformación e integración del dato de acuerdo a las indicaciones establecidas durante la tarea T2.-

Conclusiones

En este artículo se ha mostrado cómo se puede usar el proceso de Compartición, Intermediación e Integración de Datos (CIIDat) para la publicación en abierto de determinados datos, combinándose con las plantillas incluidas en el documento Plantilla para un Plan de medidas de impulso de la apertura y reutilización de datos abiertos.

Queremos hacer hincapié en que la ejecución de este proceso, tal como se muestra en la Tabla 1, podría requerir la ejecución de otros procesos de gestión de datos y/o de gestión de calidad del dato, por ejemplo, el proceso de Gestión del Ciclo de Vida.

Finalmente recordar que el contenido de ésta, y del resto de especificaciones puede descargarse de forma libre y gratuita desde el portal de AENOR a través de los enlaces que figuran a continuación. La descarga exige registro previo. El descuento del 100% sobre el total del precio se aplica en el momento de finalizar la compra.

https://tienda.aenor.com/norma-une-especificacion-une-0078-2023-n0071117

Contenido elaborado por Dr. Ismael Caballero, Profesor titular en UCLM y Dr. Fernando Gualo PhD en Ciencia computacional y Chief Executive Officer and Data Quality and Data Governance Consultant 

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de sus autores.