Aplicación de las Especificación UNE 0078: 2023 a los datos abiertos
Fecha de la noticia: 06-09-2023
Este artículo constituye la tercera y última entrega de la serie de artículos dedicados dedicado a la aplicación de las especificaciones UNE de Gobierno, Gestión y Gestión de la calidad del dato a la publicación de datos abiertos. Recordemos que lo estamos realizando, aplicándolo al caso ficticio del Ayuntamiento de Vistabella y su objetivo de avanzar en la publicación en abierto de información de transporte público y eventos culturales.
La principal motivación de este artículo es explicar cómo se aplica la especificación UNE 0078 de gestión de datos (véase Fig.1.) al caso específico de datos abiertos.
Fig. 1. Procesos contenidos en las especificaciones UNE 0077, UNE 0078 y UNE 0079
Antes de comenzar es importante resaltar la diferencia que las especificaciones introducen entre los conceptos de gestión de datos y gobierno de datos. Así, el Gobierno del Dato tiene un carácter más estratégico mientras que la Gestión del Dato tiene un carácter más orientado a materializar los objetivos marcados en la estrategia. De alguna forma el Gobierno del dato es la Gestión de la Gestión del dato.
También, y dada su relevancia e interés para este artículo se han tenido en cuenta las Orientaciones para la formulación del Plan de medidas de impulso de la apertura y reutilización de datos abiertos y su Plantilla para un Plan de medidas de impulso de la apertura y reutilización de datos abiertos. Considerando lo especificado en dichos documentos, se realizará un análisis de las indicaciones específicas de gestión de datos y sus responsabilidades, y se buscará su correspondencia con ciertos procesos de gestión de datos presentes en la especificación UNE 0078. Finalmente, y a modo de ejemplo, se explicará en detalle cómo aplicar el proceso “Compartición, Intermediación e Integración del Dato (CIIDat)” para abordar las distintas responsabilidades presentes en dicho proceso.
Mapeo entre las responsabilidades descritas en el Plan de Medidas de Impulso y los procesos de la especificación UNE 0078.
En el documento de Plan de Medidas de Impulso de la apertura y reutilización de datos abiertos se establece que existen tres tipos de roles involucrados: un comité responsable del impulso de la iniciativa – que tendría responsabilidades más relacionadas con el gobierno del dato –, un equipo de gestores de datos en áreas orgánicas (visión más táctica) y un equipo de gestores de sistemas de información (visión más operativa) – que tendrían estos dos últimos una visión más de gestión de datos. Es interesante la separación entre los roles de gobierno del dato propiamente dicho y los roles de gestión del dato, centrándonos en estos dos últimos al ser de interés del artículo.
En el documento Orientaciones para la formulación del Plan de medidas de impulso de la apertura y reutilización de datos abiertos se establecen las responsabilidades para estos roles. Dichas responsabilidades se podrán ejercer de una manera más efectiva, rigurosa y sistemática, si están soportadas por procesos bien definidos. Dado que son roles y responsabilidad de gestión de datos, dichas responsabilidades se han mapeado (véase Tabla 1) a una combinación de los procesos presentes en la especificación UNE 0078, aunque en algún caso, también se hace referencia a algún proceso de UNE 0079.
Rol |
Responsabilidad |
Proceso UNE 0078 |
Equipos gestores en áreas orgánicas |
Participar en el diagnóstico, viabilidad y planificación de la apertura de los conjuntos de datos |
Gestión del ciclo de vida (CVidDat) CIIDat |
Conocer funcionalmente los orígenes de datos (aplicaciones o sistemas de información) |
CIIDat |
|
Conocer los procedimientos y actividades básicas que impliquen el tratamiento de los datos |
CVidDat |
|
Asegurar la calidad de los datos, fijar los metadatos y orientar sobre el modelo de compartición, contemplando los aspectos legales que resulten pertinentes. |
Aseguramiento DQ (UNE 0079) CIIDat |
|
Publicar, modificar, actualizar o dar de baja conjunto de datos en el catálogo del organismo y en portales federados como datos.gob.es |
Gestión de arquitectura del dato (ArqDat) CVidDat CIIDat |
|
Analizar las consecuencias derivadas de contratos suscritos con proveedores externos que puedan afectar a los datos procedentes de servicios externalizados susceptibles de ser reutilizados. |
CIIDat |
|
Equipos gestores de sistemas de información |
Crear y mantener un apartado de datos abiertos en el espacio web del organismo |
ArqDat CIIDat |
Facilitar el acceso y extracción de datos de los sistemas de información |
CIIDat |
|
Preparar datos para su publicación o actualización: depurar datos, adecuar formatos, organizar conjuntos de datos |
CVidDat CIIDat |
|
Garantizar la disponibilidad y consumo de datos para su reutilización directa por medio de APIs |
CIIDat Gestión de Infraestructura Tecnológica (InfrTec) ArqDat |
|
Colaborar en la publicación, modificación, actualización o baja de los conjuntos de datos en el apartado de datos abiertos en espacio web del organismo. |
CIIDat |
|
Asesorar a los gestores de datos en las áreas orgánicas sobre el detalle de la infraestructura tecnológica que soporte el almacenamiento, tratamiento y publicación de datos. |
CVidDat InfrTec |
|
Participar en el diagnóstico, viabilidad y planificación de la apertura de los conjuntos de datos. |
CIIDat |
Tabla 1. Procesos de Gestión de Datos mapeados según las responsabilidaes.
Como puede verse, uno de los procesos más usados es el de Compartición, Intermediación e Integración del Dato (CIIDat) por lo que se incidirá en su desarrollo. Es interesante tener en cuenta que el artículo propone combinar dos recursos: la definición del proceso en la especificación UNE 0078, que da la estructura, y lo indicado en el documento
“Plantilla para un Plan de medidas de impulso de la apertura y reutilización de datos abiertos” que daría soporte al contenido.
Compartición, Intermediación e Integración de Datos (CIIDat)
El proceso CCIDat consta de las siguientes tareas:
T.1. Describir y documentar los procesos de adquisición y/o entrega del dato.
El objetivo de esta tarea es documentar los orígenes de los datos y los datos que van a ser publicados, especificando qué atributos deben tener, y tomando decisiones sobre cómo deben publicarse los datos.
En este caso, serán las concejalías de Movilidad y de Cultura, Turismo y Deporte los que se encarguen de producir los datos que se pretenden publicar en abierto. Así, que se pueden rellenar por cada concejalía la plantilla propuesta en el Punto 2.1. del documento Plantilla para un Plan de medidas de impulso de la apertura y reutilización de datos abiertos. Así, por ejemplo, la información propia del Ayuntamiento sería la reflejada en la Tabla 2:
Y para cada una de las concejalías se cumplimentaría lo reflejado en las tablas 3 y 4
Nombre del organismo |
Ayuntamiento de Vistabella |
Identificador DIR-3 |
VB00000001 |
Creador de datos |
Director de datos |
Fecha de inicio |
20/06/2023 |
Sitio web de datos abiertos |
Tabla 2. Identificación del Ayuntamiento de Vistabella
Y para cada una de las concejalías se cumplimentaría lo reflejado en las tablas 3 y 4
Área / Departamento publicador |
Concejalía de Movilidad |
Punto de contacto |
Dirección General de Infraestructuras de Movilidad |
Creador de datos |
Jefe de Servicio de Analítica de Datos |
Editor de datos |
Secretario Técnico del Servicio de Analítica de Datos |
Fecha de incorporación |
21/06/2023 |
Tabla 3. Identificación de la Concejalía de Movilidad
Área / Departamento publicador |
Concejalía de Cultura, Turismo y Deporte |
Punto de contacto |
Dirección General de Programas y Actividades Culturales |
Creador de datos |
Jefe de Servicio de Informática |
Editor de datos |
Secretario Técnico del Servicio de Informática |
Fecha de incorporación |
22/06/2023 |
Tabla 4. Identificación de la Concejalía de Cultura, Turismo y Deporte
La publicación de los datos obedece a dos planes desarrollados como parte de la estrategia del dato de potenciar la publicación de datos abiertos en los correspondientes portales de datos abiertos y fomentar su reutilización para ofrecer a sus vecinos datos de calidad de manera transparente y responsable. A modo de ejemplo se describe el plan presentado en la Tabla 5 para los datos de transporte.
Nombre del plan |
Apertura de Datos de Movilidad |
Editor del plan |
Dirección General de Infraestructuras de Movilidad |
Periodo de Vigencia |
1 año |
Fecha creación plan |
05/05/2023 |
Fecha última versión del plan |
17/06/2023 |
Tabla 5. Plan de Apertura de Datos de Movilidad
Para cada concejalía se tendrá un conjunto de datos que se pretenden publicar. Para describir los orígenes y descripción de estos datos se puede usar la plantilla correspondiente, representada en la Tabla 6. Esto constituye en sí un repositorio de metadatos.
Área Responsable |
Sistema de Información |
Misión Principal |
Factibilidad Apertura Técnica |
Potenciales Conjunto de Datos |
Medidas Necesarias |
Comentarios |
Movilidad |
BUS |
Mejora puntualidad buses |
Factible |
Horarios de Buses Urbanos |
Anonimizar datos conductores y autobuses |
Publicación demandada en Formatos CSV |
Movilidad |
Metro |
Mejora servicio nocturno metro |
Factible |
Horario de Metros |
Geoposicionar datos de metros |
Publicación en CSV, TXT. |
Tabla 6. Activos de información seleccionados para ser publicados
Una vez identificado los datos a publicar, el proceso prescribe que puede ser necesario establecer contratos de adquisición con las fuentes de datos, estableciendo cláusulas específicas con las fuentes de datos que cubran aspectos relacionados con el nivel de servicio tales como requisitos operacionales (p.ej. formatos de adquisición de datos), requisitos de calidad de datos, etc. Para ello, empleando la plantilla presente en el documento, a modo de ejemplo, para los datos de “horario de autobuses urbanos” se reflejaría la información presente en la tabla 7.
Área Responsable |
Nombre Dataset |
Dataset de alto valor |
Fecha de Apertura Prevista |
Formatos Previstos |
Frecuencia de actualización |
Comentarios |
Movilidad |
Trazas de ruta de Buses Línea 9 |
No |
Todos los martes |
CSV, TXT, XLS |
Semanal |
Cubren las frecuencias de autobuses del Campus Norte de la Universidad. Los datasets serán recopilados de la Empresa Municipal de Transportes |
Movilidad |
Trazas de Horario Buses Línea 3 |
No |
Todos los miércoles |
CSV, TXT |
Semanal |
Cubren las frecuencias de autobuses del Centro Comercial “La Mirada”. Los datasets serán recopilados de la Empresa Municipal de Transportes |
Tabla 7. Activos de información seleccionados para ser publicados
El interés que tienen los conjuntos de datos mostrados en la Tabla 7 está condicionado por la prestación de servicios de ordenación de movilidad que debe hacerse para garantizar la prestación de otros servicios públicos y privados. Por ejemplo, se quieren publicar las trazas de ruta de los autobuses de la Línea 9, que cubre el Campus Norte de la Universidad, en el que hay mayor cantidad de alumnos, porque se desea estimar la
frecuencia de viajeros (mayoritariamente alumnos, profesores y personal de servicio de la Universidad) para no interferir en los servicios públicos de recogida de basura, y para poder dar respuesta a los propietarios de puestos ambulantes de comida que quieren conocer la frecuencia de viajeros en distintas paradas a distintas horas para elegir donde ponerse.
Por otro lado, este es el momento en el que tiene que describirse cómo y dónde se publicarán los datos. De acuerdo con el plan de apertura, los datos abiertos se publicarán en el portal de datos abierto del ayuntamiento https://opendata.aytovistabella.es. Los formatos de cada publicación serán los establecidos para cada conjunto de datos. Por ejemplo, las trazas de los autobuses se publicarán en formato CSV, TXT y XLS (véase Tabla 7).
T.2. Describir y documentar los procesos de transformación y de integración del dato
Una vez descritos los datos que se van a abrir y que deben ser publicados, el siguiente paso que debe cubrirse es la descripción del proceso de transformación de los datos y las acciones específicas que deben hacerse para poder publicarse en abierto. Siguiendo con el ejemplo del horario de los autobuses, los datos en origen tienen información del conductor, la matrícula del autobús, de la geoposición de las paradas, del número de viajes que se han validado (cuántas personas han subido al autobús) y del momento exacto en el que se producen las paradas y se reanuda la marcha. Para poder publicar los datos, se deben eliminar de los datos cualquier identificación del conductor y del autobús. Como los conjuntos de datos se publican semanalmente todos los martes (véase tabla 7), se decidió que la fecha de preparación de los datasets serían los lunes y sería necesario preparar los conjuntos de datos para que se integren los datos de cada día de la semana, desde los lunes hasta los domingos. Además, se generarán distintas versiones de los conjuntos de datos integrados semanalmente, una versión por cada formato en el que se tengan que publicar los datos. Obsérvese que en esta tarea se describe o diseña cómo debe realizarse el proceso de transformación e integración del dato, pero la ejecución propiamente dicha se realiza en la tarea T5.
T3. Adaptar la infraestructura tecnológica de compartición e integración del dato
La infraestructura tecnológica tiene que adaptarse para poder dar cabida a la implementación y puesta en producción del fichero ETL que extrae los datos de cada fuente de datos (en el caso de los autobuses, el sistema de información BUS según la tabla 6), y para almacenar las diferentes versiones de los conjuntos de datos, tanto una versión intermedia, como las versiones en los distintos formatos.
Además, se debe preparar la plataforma https://opendata.aytovistabella.es para que se puedan ir añadiendo los conjuntos de datos correspondientes a cada semana en los tres formatos previstos.
T.4. Diseñar y ejecutar un plan de adquisición y/o entrega del dato
El proceso CIIDat en este punto prescribe diseñar y ejecutar la extracción de los conjuntos de datos y diseñar y ejecutar la publicación de los datos. En el caso del ejemplo de los autobuses de la Línea 9, esto se realizará de acuerdo con lo establecido en la tarea T2. Por cuestiones de auditoría, se recomienda guardar trazas de ejecución de los planes de adquisición y entrega de los datos, para poder verificar, si se hubieran firmado, que se han cumplido los acuerdos de nivel de servicio tanto con los proveedores de datos (la empresa municipal de transporte), como con los destinatarios de datos (el portal https://opendata.aytovistabella.es).
En el ejemplo que nos ocupa, merece la pena indicar que esta tarea se debería ejecutar dos veces: una para la extracción de los datos desde la empresa municipal de transporte, y la segunda cuando se vayan a publicar los datos una vez transformado (objetivo de la tarea T5).
T5. Diseñar y ejecutar un plan de integración del dato
En esta tarea el objetivo es proceder a la transformación e integración del dato de acuerdo a las indicaciones establecidas durante la tarea T2.-
Conclusiones
En este artículo se ha mostrado cómo se puede usar el proceso de Compartición, Intermediación e Integración de Datos (CIIDat) para la publicación en abierto de determinados datos, combinándose con las plantillas incluidas en el documento Plantilla para un Plan de medidas de impulso de la apertura y reutilización de datos abiertos.
Queremos hacer hincapié en que la ejecución de este proceso, tal como se muestra en la Tabla 1, podría requerir la ejecución de otros procesos de gestión de datos y/o de gestión de calidad del dato, por ejemplo, el proceso de Gestión del Ciclo de Vida.
Finalmente recordar que el contenido de ésta, y del resto de especificaciones puede descargarse de forma libre y gratuita desde el portal de AENOR a través de los enlaces que figuran a continuación. La descarga exige registro previo. El descuento del 100% sobre el total del precio se aplica en el momento de finalizar la compra.
https://tienda.aenor.com/norma-une-especificacion-une-0078-2023-n0071117
Contenido elaborado por Dr. Ismael Caballero, Profesor titular en UCLM y Dr. Fernando Gualo PhD en Ciencia computacional y Chief Executive Officer and Data Quality and Data Governance Consultant
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de sus autores.