Blog

El año 2023 ha sido sin duda el año de la Inteligencia artificial. Esto ha situado a los datos, y por tanto a los datos abiertos, de nuevo en un primer plano, ya que se trata de la materia prima que alimenta esta tecnología, clave para la creación de valor en nuestra economía cada vez más digital.

Quizá por ello 2023 nos ha dejado también un buen número de novedades en lo que se refiere al impulso de la apertura de datos, muchas de las cuales podrían traducirse en la creación de un importante valor económico y social a través de la reutilización. Una de estas novedades se sustancia en la obligación por parte de los organismos del sector público de abrir en el primer semestre de 2024 una serie de conjuntos de alto valor, ya especificados en un reglamento que se publicó en los últimos días de 2022 para concretar lo establecido en la reforma de la directiva de datos abiertos de 2019. En concreto, se trata de seis categorías temáticas de alto valor: geoespacial, observación terrestre y ambientales, meteorología, estadística, sociedades y propiedad de sociedades y movilidad.

Con el fin de cumplir con esta obligación y con el resto de las que se establecen en la Directiva 2019/1024, en 2023 se ha modificado en España la Ley 37/2007 sobre la reutilización de la información del sector público. En esta modificación se enfatiza el deber de impulsar la apertura de datos de alto valor publicados con licencia de atribución de datos abiertos (CC BY 4.0 o equivalente), en formato legible por máquinas y acompañados de metadatos que describan las características de los conjuntos de datos.

El Sistema Estadístico Europeo y el Plan Estadístico Nacional 2021-2024

De las seis categorías temáticas, la número cuatro, Estadística, está dedicada a conjuntos de datos estadísticos, caracterizada por su amplia definición y especificación. Se apoya en el Sistema Estadístico Europeo que garantiza que las estadísticas europeas elaboradas en todos los Estados miembros sean fiables, siguiendo unos criterios y definiciones comunes y tratando los datos de la manera adecuada para que sean siempre comparables entre los distintos países de la UE. En concreto, el reglamento define 21 conjuntos estadísticos como datos de alto valor (en realidad, incluye 22, pero una de ellas es redundante ya que se desglosa en tres componentes: población, fertilidad y mortalidad).

El Instituto Nacional de Estadística forma parte del Sistema Estadístico Europeo y se encarga de la producción de las estadísticas nacionales armonizadas que Eurostat después recopila, analiza y elabora para ofrecer cifras comparables, de forma que se puedan definir, acometer y analizar las políticas comunitarias.

En España, el Plan Estadístico Nacional es el principal instrumento que ordena la actividad estadística de la Administración General del Estado, columna vertebral de las estadísticas para fines estatales. Actualmente estamos entrando en el último año de vigencia del periodo 2021-2024, etapa para la que se publicó el plan actual a finales de 2020.

El Plan Estadístico Nacional 2021-2024 incluye nuevas líneas estratégicas como la utilización de nuevas fuentes de información, entre las que se encuentra, por ejemplo, el Big Data y las bases de datos masivas. También promueve nuevos modelos de producción, como las estadísticas experimentales, e incorpora una especial atención en la inclusión de perspectivas de género, discapacidad, edad y nacionalidad, así como mejoras en la información sobre el mercado inmobiliario, especialmente en lo relativo a alquileres.

Los conjuntos estadísticos de datos de alto valor

En estas líneas estratégicas, el plan no recoge aún ninguna mención a los conjuntos de datos de alto valor. Sin embargo, como el plan se desarrolla y ejecuta mediante programas anuales específicos que detallan las operaciones estadísticas que se realizan, sus objetivos, los organismos involucrados, y los créditos presupuestarios necesarios para su financiación, es posible hacernos una idea de cuáles de estas operaciones estadísticas están alineadas con los 21 conjuntos estadísticos del reglamento de conjuntos de datos estadísticos de alto valor.

La siguiente tabla muestra las posibles equivalencias:

Conjuntos de datos estadísticos de alto valor Equivalencia en el Inventario de Operaciones Estadísticas (IOE)
Producción industrial Ficha 30050 del IOE, Índices de Producción Industrial.
Desgloses del índice de precios industriales por actividad Ficha 30051 del IOE, Índices de Precios Industriales.
Volumen de ventas por actividad Parcialmente contemplado en la ficha 32092 del IOE, Estadística de Ventas, Empleo y Salarios en las Grandes Empresas y PYMES y en la ficha 32096, Ventas Interiores Diarias.
Estadísticas de la UE sobre comercio internacional de bienes: exportaciones e importaciones ‍No parece tener una correspondencia clara en el plan, ya que las operaciones estadísticas previstas sobre comercio internacional están centradas en los servicios, mientras que el intercambio de bienes se trabaja en cuanto a los intercambios entre Estados Miembros de la UE. Sin embargo, una parte de los datos especificados podrían encontrarse en la ficha 30029 del IOE, Contabilidad Nacional Anual de España: Principales Agregados, aunque quizá con un nivel mayor de agregación al requerido.
Flujos turísticos en Europa ‍Muchas similitudes con lo definido en la ficha 16028 del IOE, Estadística de Movimientos Turísticos en Fronteras (FRONTUR) y la ficha 16023, Encuesta de Turismo de Residentes (ETR/FAMILITUR)
Índice de precios de consumo armonizados Ficha 30180 del IOE, Índice de Precios de Consumo Armonizado (IPCA).
Cuentas nacionales — principales agregados del PIB Ficha 30029 del IOE, Contabilidad Nacional Anual de España: Principales Agregados.
Cuentas nacionales: principales indicadores sobre las empresas
Cuentas nacionales: principales indicadores sobre los hogares
Gastos e ingresos públicos Tiene su reflejo en las tres fichas del IOE sobre la liquidación de presupuestos de los diferentes niveles de la administración pública: la ficha 31125, Estadística de Liquidación de los Presupuestos del Estado y de sus Organismos Públicos, Empresas y Fundaciones, la ficha 31030  Liquidación de Presupuestos de las Comunidades Autónomas (MHAC) y la ficha 31026 Liquidación de Presupuestos de las Entidades Locales (MHAC).
Deuda bruta consolidada de las Administraciones Públicas
Cuentas y estadísticas medioambientales Tiene su reflejo en las ocho fichas (de la 30084 a la 30095) del inventario de operaciones estadísticas que se ocupan de las Cuentas medioambientales. Ver listado aquí.
Población Ficha 30264 del IOE, Indicadores Demográficos Básicos.
Fertilidad
Mortalidad Ficha 30271 del IOE, Tablas de Mortalidad.
‍Gasto sanitario corriente Ficha 54012 del IOE, Cuentas Satélites del Gasto Sanitario Público.
Pobreza Encuesta de Condiciones de Vida (ECV).
Desigualdad
Empleo Existen bastantes operaciones estadísticas que estudian el mercado laboral, de las que destaca la ficha ‍30308 del IOE, Encuesta de Población Activa (EPA).
Desempleo
Mano de obra potencial Ficha 30308 del IOE, Encuesta de Población Activa (EPA) que además contiene a la ficha 30309 del IOE, Encuesta Comunitaria de Fuerza de Trabajo (ECFT).

En definitiva, parece que la mayor parte de las variables clave que el reglamento europeo ha previsto para los conjuntos estadísticos de alto valor están ya produciéndose de acuerdo con el plan estadístico nacional vigente. El plan estadístico nacional, que sucederá al actualmente vigente, comenzará en 2025 y a buen seguro se publicará a lo largo de este 2024. Este año veremos en Europa un intenso trabajo para cumplir con las obligaciones del reglamento, ya que, además, la Comisión Europea ha publicado recientemente el informe "Identification of data themes for the extensions of public sector High-Value Datasets" donde se incluyen siete nuevas categorías que se estudia considerar como datos de alto valor y que previsiblemente acabarán siendo incluidas en el reglamento.


Contenido elaborado por Jose Luis Marín, Senior Consultant in Data, Strategy, Innovation & Digitalization. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Blog

Los datos son una fuente de conocimiento de gran valor para la sociedad. El compromiso público para lograr su apertura, la colaboración público-privada en materia de datos y el desarrollo de aplicaciones con datos abiertos son acciones que forman parte de la economía del dato, aquella que persigue el uso innovador, ético y práctico de los datos para mejorar el desarrollo social y económico.

Tan relevante es lograr un acceso y uso público de los datos como transmitir correctamente esa información tan valiosa. Para elegir cuál es el mejor gráfico para cada tipo de datos es necesario identificar el tipo de variables y la relación que existe entre ellas.

A la hora de comparar datos, debemos revisar que las variables sean de la misma naturaleza, es decir, variables cuantitativas o cualitativas, estar en la misma unidad de medida y que su contenido sea comparable.

Presentamos a continuación diferentes visualizaciones, sus normas de uso y las situaciones más adecuadas para emplear cada tipo. Abordamos una serie de ejemplos, desde los más sencillos como gráficos de barras hasta gráficos menos conocidos como las tablas de calor o las comparaciones acumuladas. 

Gráficos de barras

Visualización que representa datos mediante dos ejes: uno que recoge datos cualitativos o de tiempo y otro que muestra los valores cuantitativos. También se utiliza para analizar tendencias porque uno de los ejes puede mostrar datos temporales. Si se le da la vuelta a los ejes se obtiene un gráfico de columnas.

Buenas prácticas:

  • Mostrar las etiquetas de valor de los ejes y reservar las etiquetas como ventanas emergentes para los datos secundarios.
  • Utilizarlo para representar menos de 10 puntos de valores. Cuando se quiera visualizar más puntos de valores será más adecuado emplear un gráfico de línea.
  • Diferenciar claramente los datos reales de las estimaciones.
  • Combinar con un gráfico de líneas para mostrar tendencias o la media.
  • Colocar aquella con descripciones más largas en el eje vertical, cuando ninguna variable sea temporal.

Fuente: El Orden Mundial https://elordenmundial.com/mapas-y-graficos/comercio-fertilizantes-mundo/

Gráficos de barras agrupadas

Tipo de gráfico de barras en el que cada categoría de datos se divide a su vez en dos o más subcategorías. Por lo tanto, el escenario comparativo abarca más factores.

Buenas prácticas

  • Limitar el número de categorías para no mostrar demasiada información en el gráfico.
  • Introducir un máximo de tres o cuatro subcategorías dentro de cada categoría. En el caso de que se necesite mostrar más agrupaciones, se puede valorar el uso de las barras apiladas o un conjunto de gráficas.
  • Elegir colores que contrasten entre sí para diferenciar las barras de cada subcategoría.

Fuente: RTVE https://www.rtve.es/noticias/20230126/pobreza-energetica-espana/2417050.shtml

Gráficos de comparaciones acumuladas

Muestran la composición de una categoría de forma acumulada. Además de ofrecer una comparación entre variables, estos gráficos pueden evidenciar la segmentación de cada categoría. Pueden ser de barras apiladas o áreas acumuladas.

Buenas prácticas

  • Evitar utilizar gráficos de barras apiladas a la hora de comparar segmentos de cada categoría entre sí. En ese caso, mejor utilizar gráficos múltiples.
  • Limitar el número de subcategorías de las barras apiladas o segmentos de las áreas.
  • Aplicar contraste de color entre las categorías y cumplir con los principios de accesibilidad.

 

Fuente: Newtral https://www.newtral.es/medallas-espana-eurobasket/20220917/

Pirámide de población

Combinación de dos gráficos de barras horizontales que comparten un eje vertical que representa el valor inicial y muestra dos valores que crecen a ambos lados de forma simétrica.

Buenas prácticas

  • Definir un criterio de orden común como puede ser la edad.
  • Representar los datos en números absolutos o porcentajes para tener en cuenta que la suma de los dos valores que se están comparando representa el total.

Fuente: El Español https://www.elespanol.com/quincemil/articulos/actualidad/asi-es-la-alarmante-piramide-de-poblacion-de-galicia-en-2021

Gráfico de radar

Visualización circular formada por ejes polares que sirven para representar medidas con categorías que forman parte de un mismo tema. De cada categoría salen unos ejes radiales que confluyen en el punto central del gráfico.

Buenas prácticas:

  • Mantener los datos numéricos dentro de un mismo rango de valores para evitar mostrar un gráfico deformado.
  • Limitar el número de categorías con series de datos. Un número adecuado podría estar entre cuatro y siete categorías.
  • Agrupar en un sector del círculo del radar las categorías que tengan relación entre sí o que compartan jerarquía común.

Fuente: Guía de visualización de datos para Entidades Locales https://redtransparenciayparticipacion.es/download/guia-de-visualizacion-de-datos-para-entidades-locales/

Tabla de calor

Representación gráfica en formato tabla que permite evaluar dos dimensiones distintas que aparecen diferenciadas con grados de tonalidad de color o códigos de semáforo.

Buenas prácticas

  • Indicar el valor en cada celda porque el color solo es un atributo orientativo. En los gráficos interactivos, los valores se pueden identificar con una etiqueta emergente.
  • Incluir en el gráfico un esquema o leyenda para explicar el significado de la escalera de color.
  • Utilizar colores accesibles para todas las personas y con una semántica reconocible como degradados, frío-calor o semafóricos.
  • Limitar o reducir la información representada en medida de lo posible.

Fuente: eldiario.es https://www.eldiario.es/sociedad/clave-saturacion-primaria-ratios-mitad-medicos-asignados-1-500-pacientes_1_9879407.html

Gráfico de burbujas

Variedad del diagrama de dispersión que, a mayores, mediante el tamaño de la burbuja, representa una dimensión adicional. En este tipo de gráfico, es posible asignar diferentes colores para asociar grupos o separar categorías. Además de poder emplearlo para comparar variables, el gráfico de burbujas sirve para analizar distribuciones de frecuencias. Es habitual encontrar este tipo de visualizaciones en infografías, cuando no es tan relevante conocer el dato exacto como sí resaltar las diferencias de intensidad de valores.

Buenas prácticas

  • Evitar la superposición de burbujas para que la información sea clara.
  • Mostrar las etiquetas de valores siempre que sea posible y el número de burbujas lo permita.

Fuente: Civio https://civio.es/el-boe-nuestro-de-cada-dia/2022/07/07/decretos-ley-desde-1996/

Nube de palabras

Recurso gráfico que muestra palabras en mayor o menor tamaño en función de su frecuencia en un conjunto de datos. Para desarrollar este tipo de visualizaciones, se utiliza procesamiento de lenguaje natural (PLN) que es el campo de estudio de inteligencia artificial que utilizar el aprendizaje automático para interpretar textos y datos.

Buenas prácticas

  • Se recomienda usar este recurso en infografías donde no sea relevante mostrar la cifra exacta sino una aproximación visual.
  • Procurar que la longitud de las palabras sea similar para evitar que afecte a la percepción.
  • Facilitar su lectura mostrando las palabras en horizontal.
  • Presentar las palabras en un único color para mantener una representación neutra.

Esta visualización gráfica del que publicamos un artículo paso a paso, es una nube de palabras clave de varios textos de datos.gob.es.

 

Hasta aquí, hemos explicado los tipos de gráficos de comparaciones más comunes destacando ejemplos en medios de comunicación y fuentes de referencia. Sin embrago, podemos encontrar más modelos de visualizaciones para comparar datos en la Guía de Visualización de datos para entidades locales que ha servido de referencia para elaborar este post y otros que publicaremos próximamente. Este artículo forma parte de una serie de post sobre cómo elaborar diferentes tipos de visualizaciones según la relación de los datos y el objetivo de cada ejercicio.

Tal y como repite el mantra popular, “una imagen vale más que mil palabras” podría adaptarse a que “un gráfico vale más que mil números”. La visualización de datos sirve para hacer comprensible una información que, a priori, podría ser compleja.

 

calendar icon
Entrevista

El Instituto Canario de Estadística (ISTAC) es el órgano central del sistema estadístico autonómico y centro oficial de investigación del Gobierno de Canarias. Se encarga de proporcionar información estadística de interés relativa a la comunidad autónoma, atendiendo a las singularidades del territorio. Además, coordina la actividad estadística pública, facilitando su promoción y gestión.

Alberto González Yanes, Jefe de Servicio de Estadísticas Económicas del ISTAC ha hablado con datos.gob.es para contarnos cómo trabajan y cuál es el impacto de los datos que atesoran.  

Entrevista completa:

1. Los datos estadísticos están considerados datos de alto valor por la UE. Además, la propia ONU ha resaltado la importancia de contar con iniciativas que generen datos enfocados en las realidades locales. ¿Por qué considera que son tan valiosos este tipo de datos? ¿Cuál es su potencial impacto?

Respecto a la importancia de los datos estadísticos, hemos de tener en cuenta una cuestión no muy conocida: generan deberes y derechos de la ciudadanía, pero también de los Estados. Por ejemplo, ahora mismo lo estamos viendo con el IPC, que conlleva el deber de pagar más de alquiler y, a su vez, el derecho a obtener un salario mayor.

Además, son instrumentos de los que se dotan los Estados para poder conocer la realidad de forma objetiva e independiente. Es importante resaltar este rol de la estadística pública frente a cualquier papel diferente de otros datos públicos, que no tienen el mismo valor desde el punto de vista que nos ocupa. No en vano, la estadística pública aparece en todo el bloque constitucional, desde la propia carta magna (con artículo propio), hasta los diferentes Estatutos de Autonomía. Nuestra legislación constituye órganos independientes para la elaboración de los datos estadísticos y lo hace mediante un modelo que podríamos considerar federal, en el que existen, al menos, dieciocho sistemas, uno con fines estatales y diecisiete para fines autonómicos y locales.

La descentralización es un elemento importantísimo porque permite el apoyo a la toma de decisiones basadas en datos en cada territorio, mientras que la producción estatal solamente llega, en el mejor de los casos, a una escala provincial. Si queremos una sociedad que genere derechos y deberes en los ámbitos autonómico, provincial, insular, municipal, incluso submunicipal, es imprescindible sustentarlos en datos locales fiables.

Con respecto a su impacto, tenemos un ejemplo actual y muy significativo. Desde el ISTAC, acabamos de publicar la Estadística de Población Activa Registrada (EPA-Reg), que produce datos de población activa a escala submunicipal. Ello supone un salto cualitativo respecto a la EPA, que solamente alcanza un nivel provincial o, como mucho, insular para algunos indicadores exigidos por Eurostat y elaborados por el Instituto bajo acuerdo con el INE.

La descentralización es un elemento importantísimo porque permite el apoyo a la toma de decisiones basadas en datos en cada territorio.

En EPA-Reg construimos indicadores aproximados a los conceptos que ofrece la Organización Internacional del Trabajo a la hora de medir la población y su relación con la actividad económica. De este modo, se facilita información de cada barrio y de cada pueblo del Archipiélago. Y, sin duda, los Agentes de Desarrollo Local, las Concejalías de Empleo y el propio Servicio Canario de Empleo necesitan esos datos para tomar decisiones y realizar una mejor intervención a pequeña escala.

2. El ISTAC genera gran cantidad de datos estadísticos desde hace más de 30 años. ¿Cómo fue el proceso de incorporar la filosofía del open data a su actividad diaria? ¿Qué retos se encontraron y cómo los solventaron?

La apertura de datos tiene dos elementos clave: por una parte, la puesta a disposición pública de datos y, por otro lado, el modo de presentarlos en un formato abierto, fácilmente reutilizable por terceros.

Respecto al primer aspecto, la apertura de datos está en los genes de la estadística pública a escala internacional. Toda la legislación estadística contempla la obligatoriedad de publicar datos: el Reglamento Europeo de Estadística, la Ley 12/89 de la Función Estadística Pública o la Ley 1/91 de Estadística Pública de la Comunidad Autónoma de Canarias, en lo que compete al ISTAC. Pero difundir los datos es mucho más que una obligación, es la razón de ser de la estadística. Además, ha de hacerse de forma igualitaria, planificada en el tiempo, con un calendario conocido previamente para garantizar a la ciudadanía transparencia y confianza, así como la seguridad de poder usar esos resultados para la toma de decisiones.

Otro asunto distinto es el de los formatos en los que se venían publicando esos datos, que muchas veces eran cerrados: PDF, Excel y otros muchos. Es cierto que las oficinas estadísticas estamos acostumbradas a trabajar con una ingente cantidad de datos y eso implica, necesariamente, el metadocumentarlos para intentar gestionarlos adecuadamente. Pero una buena gestión no implica que toda esa información tenga que estar en abierto.

Queremos facilitar la información que tenemos, así que la normalización semántica nace desde el principio, todos los conjuntos de datos están bien estructurados para que puedan ser reutilizables.

Hay que tener en cuenta que los primeros reutilizadores de los datos que publicamos éramos y seguimos siendo nosotros mismos. Muchas veces, los departamentos del gobierno, el propio ISTAC, sufríamos por los cambios de formato o, por ejemplo, por tener que rescatar información de un pdf no editable, algo insostenible. Así que, en la práctica e, incluso, desde una perspectiva egocéntrica, se nos hizo evidente la necesidad de tener formatos abiertos para una mejor gestión de datos.

Y, mientras estábamos en ese proceso, subió a la palestra internacional la apertura de datos, el open data, lo que casaba muy bien con el momento en el que estaba el ISTAC, por lo que se decidió avanzar por ese camino. De igual modo que nosotros necesitábamos tener buenos formatos y una óptima organización de toda la información, debíamos ofrecer las mismas ventajas a los usuarios finales, a la ciudadanía. Por tanto, desde un principio, en la redefinición de toda la estrategia de difusión del Instituto, se planteó esa necesidad que enlazaba estupendamente con toda la cultura open data.

Y así, alrededor de 2008, planteamos todo un sistema de gestión de datos públicos que permitiese una buena gestión de metadatos, lo que nos ha llevado, por ejemplo, a tener 85 metadatos por cada dataset, de los que solamente una parte se difunden externamente. Del mismo modo, en aquella etapa comenzamos a metadocumentar estructuralmente los conjuntos de datos, con una primera aproximación semántica (clasificaciones, códigos, conceptos, etc). Esa fue la génesis y, con el tiempo, a través de diferentes proyectos hemos logrado que la cultura de la apertura de datos esté incorporada desde el diseño, desde que el producto estadístico se está pensando hasta que se difunde. Queremos facilitar la información que tenemos, así que la normalización semántica nace desde el principio, todos los conjuntos de datos están bien estructurados para que puedan ser reutilizables y se está pensando siempre en cómo va a ser la difusión para facilitar, no solamente la accesibilidad, sino también la usabilidad por terceras partes.Los principales retos, inicialmente (2005 - 2006), fueron los internos y los tecnológicos. No teníamos una cultura organizacional de gestión de datos ni de metadocumentación estandarizada. Tampoco había en el mercado suficientes estándares ni aplicaciones que nos permitieran abordar el problema. Así que lo que hicimos, a través de diversos proyectos, varios de ellos con financiación europea, fue montar toda una infraestructura de datos con diferentes tecnologías. Durante esa fase, nos dotamos de estándares internos, acogiéndonos a los internacionales como el SDMX (Statistical Data and Metadata eXchange) o DCAT-AP, entre otros.  Con todo, fuimos cocinando y construyendo el caminito que teníamos que transitar, lo que nos ha llevado a tener actualmente un sistema de gestión de datos muy potente.

3. ¿Cómo es el proceso de gobernanza de sus datos abiertos? ¿Con qué tipo de perfiles cuentan en el equipo?

Somos algo así como una fábrica de datos, que recorre todo su ciclo de vida: captura, procesamiento, es decir, depuración, limpieza, imputación, integración, georreferenciación, generación de información a escala de microdatos, anonimización, generación de datos de todo tipo (no solamente datos agregados en cubos, sino también en cuadro de mandos, en tableros, en información geográfica…). Por tanto, cubrimos todo el espectro de negocio dentro de la gobernanza de datos que, como decía antes, desde el principio hasta el final está atravesada por la cultura de la apertura de datos. Sabemos que lo que estamos produciendo es para ponerlo a disposición de la ciudadanía. Así que tenemos muchos tipos de perfiles dentro de la organización:

  • Encuestadores/as, cuya labor, la de todo el personal que está en el trabajo de campo, es muy importante aunque no siempre lo resaltemos.
  • Perfiles tradicionales de técnicos estadísticos.
  • Los que se han ido incorporando en los últimos tiempos, vinculados a la arquitectura de datos, ingeniería de datos, ciencia de datos y especialistas en sistemas de información geográfica.
  • Y, recientemente, estamos incorporando profesionales vinculados a la comunicación de datos porque tenemos una ingente producción y difusión de datos, pero queremos avanzar en un aspecto fundamental, que es la divulgación. La ciudadanía tiene el derecho, no solamente de acceder, sino también de comprender la información que producimos, por lo que hace falta una importante labor en ese sentido.

4. Desde el ISTAC están haciendo una apuesta potente por facilitar el acceso automatizado a los datos mediante APIs. ¿Qué impacto está teniendo esta estrategia en términos de reutilización de los datos? ¿Considera que el acceso vía API en combinación con la descarga de archivos de datos es el camino a seguir por publicadores de datos estadísticos o una de las dos alternativas es la preferente para el tipo de usuario que consume esta categoría de datos?

Con respecto al uso de API, desde el principio, desde que comenzamos a plantear nuestra estructura tecnológica de datos, allá por el 2008, incluso antes de que estuviesen contempladas en la actual Directiva de Reutilización, decidimos que toda nuestra información estuviera sostenida sobre un ecosistema de API. Y así es, tenemos unas ocho API públicas, con diferentes métodos, y vamos a seguir ampliándolas. Creemos tanto en este tipo de estrategia que nuestras propias aplicaciones son usuarias de nuestras API. Eso quiere decir que no ponemos API paralelas a los sistemas para que sean consumidas por el público, sino que nuestros sistemas son también consumidores de esas API. Eso es un elemento importante, porque al ser tú el primer reutilizador de tus API, te permite descubrir las limitaciones y los problemas de todo tipo que pueden aparecer a la hora de difundir los datos a través de ellas.

Con respecto al impacto, detectamos que no es suficiente poner a disposición de la ciudadanía API. Muchas veces una parte de las personas que acceden trabajan sobre cierto tipo de aplicaciones de analítica de datos como Tableau, PowerBI, QGIS, QLIK u otras comerciales o no comerciales. Así que nos planteamos, una vez que ya habíamos puesto a disposición las API, incluir conectores para todo ese tipo de aplicaciones que facilitasen la traslación de los datos a esos sistemas de analítica de datos.

El impacto de dicha instrumentación ha sido bastante potente porque ha facilitado, a las administraciones y a empresas privadas, la fácil reutilización de la información publicada vía API. Así, podemos encontrar muchísimos cuadros de mando por toda la geografía canaria que están utilizando esos conectores, especialmente vinculados al ámbito turístico. En cuanto a entidades locales, por ejemplo, el Observatorio Socioeconómico del Ayuntamiento de Santa Cruz de Tenerife tiene un tablero en Tableau que se actualiza con nuestras API, con todos los indicadores municipales. Igualmente, hay diferentes experiencias en el sector privado. Creemos que el ecosistema de API más conectores, ese tándem, está teniendo un impacto importante para democratizar el acceso a los datos del ISTAC por parte de terceros, principalmente para el propio sector público.

Una vez que ya habíamos puesto a disposición las API, nos planteamos incluir conectores para todo ese tipo de aplicaciones que facilitasen la traslación de los datos a esos sistemas de analítica de datos.

En general, no entramos en el dilema de si es mejor la descarga de ficheros que el uso de API. Para el ISTAC, la propia descarga es un método de la API, ya que se puede consultar en caliente cualquier dataset o solicitar su descarga. La cuestión no es tanto el método sino la lógica de necesidad. Por ejemplo, cuando tenemos los ficheros de microdatos de una encuesta, ¿tiene sentido servirlo por API? Está servido, pero lo lógico no es consumirlo por esa vía sino como descarga, para subirlo después a los entornos en los que vayan a hacerse los análisis de estos microdatos. Al respecto, tenemos en nuestra hoja de ruta incorporar sistemas bulk, sistemas masivos de descarga automática de todos los dataset vinculados a una determinada solicitud.

5. Además de la API, en su plataforma de datos abiertos cuentan con diversos tipos de herramientas de consulta que facilitan el acceso y uso de los datos. ¿Qué puede contarnos sobre ellas?   

Como comentamos anteriormente, nuestro objetivo final es difundir datos. Pero esta misión no concluye cuando incluimos en un catálogo de datos todos los dataset con los que contemos, sino cuando facilitamos a la ciudadanía un primer acercamiento de consulta sencilla a esos resultados. En este sentido, tenemos diferentes visualizadores que lo posibilitan. Disponemos de un visualizador general que permite explorar cualquier tipo de dataset y visualizadores más específicos: el de los indicadores de ODS, el del Sistema de Información Electoral, el Atlas Estadístico de Canarias o las Fichas de Datos Municipales. Para nosotros era y sigue siendo importante contar con un conjunto de instrumentos generalistas o especializados para la población que no es usuaria habitual de sistemas de analítica de datos. Se trata de herramientas sencillas, pero algo más que simples visualizadores de tablas, con las que puedan acceder a un dataset y consultar los más importantes descubrimientos que surgen de ese conjunto de datos.

6. ¿Realizan algún tipo de monitorización del uso de los datos? ¿Tienen identificado algún caso de uso concreto?

En la planificación de la nueva web del ISTAC hay toda una estrategia de monitorización de uso de datos, al menos, en tres niveles:

  • La del uso de nuestras API que, actualmente, no están monitorizadas. Este sería el primer elemento porque, como ya señalamos, todo lo que va a consumirse será mediante API.
  • La analítica web tradicional, de consulta de cada una de las páginas.
  • La interacción ciudadana con nuestras aplicaciones para poder hacer análisis de usabilidad en caliente, de tal manera que podamos distinguir cómo utiliza la ciudadanía el sistema del ISTAC, y a partir de ahí, tomar decisiones de mejora en ese ámbito o implantar un sistema de recomendaciones.

7. ¿Cuáles son los planes de futuro del ISTAC en materia de datos abiertos y reutilización?

Respecto a los planes de futuro en esta materia tenemos varias líneas de trabajo. Una primera, muy importante para nosotros es la cooperación con el ecosistema de datos del Gobierno de Canarias. De este modo se está configurando un modelo de gobernanza de datos, que es de carácter federado y cooperativo, en la que participamos cuatro Departamentos del Gobierno de Canarias: la Dirección General de Modernización y Calidad de los Servicios, la Dirección General de Telecomunicaciones y Nuevas Tecnologías, la Dirección General de Transparencia y Participación Ciudadana, y el ISTAC.

En materia de datos abiertos es fundamental la coparticipación con las Direcciones Generales de Transparencia y de Telecomunicaciones. Ello nos ha llevado a hacer un acompañamiento en la normalización semántica de datos para la apertura del portal de Canarias. Pero el proceso va a más, estamos iniciando la asistencia y la puesta en producción a escala interna de todo el ecosistema de API de normalización semántica, para que los conjuntos de datos que se gestionan dentro del Gobierno de Canarias usen la misma, en cumplimiento del Esquema Nacional de Interoperabilidad, que en su artículo 10 establece que las clasificaciones y los conceptos que se utilicen por parte de los proyectos administrativos tengan como referencia los conceptos y clasificaciones aportados por el sistema estadístico. Para nosotros es importante porque conlleva trabajar ya, desde el origen, una buena gestión de la calidad semántica de los datos para su posterior apertura. Es un plan de futuro potente para intentar tener una mejor calidad de datos.

Estamos trabajando intensamente en la mejora de la web, en generar una nueva dirigida a facilitar el entendimiento de la información estadística por la ciudadanía.

También estamos trabajando en otros elementos reseñables: por una parte, vamos a poner en el Catálogo de Datos Abiertos todas las clasificaciones y conceptos que utilizamos, en formato reutilizable, para que cualquier persona pueda beneficiarse de esa posibilidad. Y, por otro lado, vamos a abrir nuevas API, entre ellas una muy importante que es la que utilizamos para la georreferenciación estadística, de tal modo que cualquier información podrá ser georreferenciada por terceros con la calidad que tiene el ISTAC.

A su vez, estamos trabajando intensamente en la mejora de la web, en generar una nueva dirigida a facilitar el entendimiento de la información estadística por la ciudadanía, más allá de difundir un catálogo de datos como hemos hecho hasta ahora. Así, por ejemplo, incluiremos problemas o debates que estén planteándose a escala pública y los correspondientes descubrimientos basados en datos que podamos aportar. Por poner un caso, ahora mismo está debatiéndose si en Canarias tenemos o no superpoblación. Ahí la estadística pública tiene mucho que decir, pero hay que plantearlo de tal manera que sea fácilmente entendible. Para ello, estamos realizando una importante inversión, tanto en la tecnología de la web, como en la base para la comunicación clara de la información estadística.

calendar icon
Noticia

El Instituto Cántabro de Estadística (ICANE) ha sido una de las últimas incorporaciones al Catálogo Nacional de Datos Abiertos. A partir de ahora los usuarios de datos.gob.es pueden acceder a información estadística de la Comunidad Autónoma en formatos reutilizables desde nuestro portal.

ICANE, una apuesta por los datos estadísticos abiertos y enlazados

El  ICANE es el organismo público de Cantabria encargado de la producción y difusión de estadísticas relacionadas con la sociedad y la economía en la región. En su web, encontramos cifras de población, cuentas económicas o datos relacionados con la educación y la sanidad. Estos datos se muestran a través de tablas y gráfica, fáciles de comprender, pero no siempre de reutilizar.

Por ello, el ICANE también ha puesto en marcha un espacio de datos abiertos, donde se ofrece la información estadística en formatos y estructuras que favorecen su reutilización. Se trata de un portal de datos enlazados, que ofrece datos a través de URIs desreferenciables en la Web. Los conceptos se enlazan con otros repositorios como Eurostat, DBpedia o Geonames. De esta forma los usuarios cuentan con una mayor información relacionada y de contexto, lo que facilita la creación de nuevo conocimiento.

Los usuarios pueden acceder a los datos publicados tanto manualmente, utilizando un buscador o filtrando por etiquetas, como de manera automatizada a partir del listado de conjuntos de datos, producido en CKAN, a través de su API, o mediante un navegador RDF. El ICANE también cuenta con un Endpoint SPARQL.

Indicadores y estadísticas al alcance de todos los reutilizadores

Actualmente el catálogo del ICANE dispone de más de 350 conjuntos de datos, divididos en distintas categorías. Destacan los datos ligados a la economía (216) y con un componente regional (211). Algunos ejemplos de datasets ofrecidos en abierto son la Encuesta anual de estructura salarial,  la Encuesta de Condiciones de Vida (ECV) o los Indicadores ambientales.

Tanto los datos como los metadatos se proporcionan en seis formatos distintos (HTML, JSON, RDF, XLS, PC-AXIS y SDMX), orientados tanto al procesamiento automatizado por parte de máquinas como a la lectura directa por parte de las personas.

Las condiciones de reutilización están fijadas en el Aviso Legal del Instituto Cántabro de Estadística. Algunas de las condiciones para su uso son citar la fuente de los documentos objeto de la reutilización o no alterar ni suprimir los metadatos sobre la fecha de actualización y las condiciones de reutilización, entre otros.

La presencia de ICANE en datos.gob.es y otros catálogos para aumentar su visibilidad

En junio de este año, el ICANE ha comenzado su federación con datos.gob.es, de tal forma que sus conjuntos de datos ahora son accesibles desde el Catálogo Nacional de Datos Abiertos. Con este movimiento, no solo mejora la visibilidad de sus datasets a nivel nacional, sino también internacional, ya que datos.gob.es federa de manera automática con el Portal Europeo de Datos. De esta forma, las iniciativas se dan de alta en nuestro portal ven cómo sus conjuntos de datos también quedan accesibles desde el portal europeo, sin necesidad de realizar ninguna gestión adicional.

Para garantizar la calidad de sus datos, el ICANE lleva a cabo un proceso de publicación en dos etapas: la información se almacena en un banco de datos de pruebas para ser cotejada contra fuentes oficiales antes de publicarse en producción. La importación de los datasets desde el Banco de Datos Web y la API de Metadatos del ICANE, hacia el Portal de Datos Abiertos es un proceso completamente automatizado y monitorizado diariamente.

Además de en datos.gob.es, el ICANE también ha dado de alta su banco de datos como un conjunto de datos en The Data Hub, el catálogo abierto promovido por Datopian y The Open Knowledge International.

¿Por qué es importante la publicación de datos estadísticos locales?

El valor de los datos abiertos estadísticos ha sido puesto de manifiesto por multitud de organismos. Desde la Unión Europea, que los resalta como conjuntos de datos de alto valor en su Directiva sobre la apertura de los datos y la reutilización de la información del sector público, hasta la ONU, que impulsa su apertura a través de un grupo de trabajo específico, promovido por su  Comisión de Estadística. Los datos estadísticos nos permiten conocer mejor nuestro entorno y poder tomar decisiones informadas.

En nuestro país, el principal organismo que proporciona información estadística es el Instituto Nacional de Estadística (INE), que cuenta con más de 8.000 datasets en nuestro catálogo. Al igual que el ICANE, el INE también cuenta con un espacio de datos abiertos en su web donde comparte el Inventario de Operaciones Estadísticas, Información estadística elaborada por ellos mismos y publicada en INEbase, Microdatos anonimizados de encuestas y el Callejero de censo electoral.

Pero igual de importante que la información estadística nacional es la local. Como bien relató la ONU en uno de sus informes, este tipo de datos puede proporcionar una información más segmentada sobre zonas geográficas concretas, algo de gran valor a la hora de conocer diferencias entre regiones y poder formular políticas locales y nacionales más justas.

En este sentido, son fundamentales organismos autonómicos estadísticos, como el ICANE o el Instituto Canario de Estadística (Istac), que también federa con datos.gob.es una gran cantidad de datos de utilidad. Esperamos que en el futuro más organismos locales se animen a seguir el paso de estas instituciones y proporcionar datos de interés para toda la sociedad.

calendar icon
Noticia

Los datos estadísticos locales nos ayudan a comprender mejor nuestro entorno e identificar variaciones entre regiones. Esto es fundamental para poder formular políticas locales ajustadas a las necesidades concretas de la población local, algo que ha resaltado incluso la ONU en uno de sus informes. En este sentido, en el catálogo de datos.gob.es puedes encontrar información estadística sobre distintas localidades y regiones, como por ejemplo el censo de población y vivienda, los registros administrativos o hasta indicadores económicos.

Recientemente el Consejo de Europa ha adoptado una nueva normativa sobre los datos abiertos y la reutilización de la información del sector público. En esta nueva Directiva se introduce el concepto de conjuntos de datos de alto valor, que deberán facilitarse gratuitamente a través de una interfaz de programación de aplicaciones (API). El texto define seis categorías principales de conjuntos de datos de alto valor, e incluye a los datos estadísticos dentro de esta categoría.

Una de las últimas incorporaciones a nuestro catálogo es la del Instituto Canario de Estadística (Istac). El Istac es el órgano central del sistema estadístico autonómico y centro oficial de investigación del Gobierno de Canarias. Entre sus funciones está proporcionar información estadística de interés relativa a la comunidad autónoma, atendiendo a la fragmentación del territorio y a sus singularidades. Además, coordina la actividad estadística pública, facilitando su promoción y gestión.

El Instituto forma parte de la iniciativa datos.canarias.es, nuevo Portal de Datos Abiertos de Canarias que se posiciona como único punto de acceso a los datos abiertos de las islas en colaboración con el resto de las administraciones públicas autonómicas. A finales de enero, datos.canarias.es se federó con datos.gob.es, incorporando 7.460 nuevos conjuntos de datos, del Istac y otros organismos del archipiélago. Gracias a los datos del Istac ahora puedes acceder desde nuestro catálogo a información local de las islas, comarcas, municipios y entidades submunicipales que integran la Comunidad Autónoma de Canarias.

Los datos federados se categorizan según las recomendaciones de la Guía de aplicación de la Norma Técnica de Interoperabilidad de Reutilización de recursos de información y abordan un amplio abanico de temas relacionados con el territorio, el medioambiente, la demografía, la economía, las condiciones de vida o el sector público:

El compromiso del Istac con los datos abiertos

El Decreto por el que se aprueba el Plan Estadístico de Canarias 2018-2022 (PEC-22), establece que durante su ejecución se impulsará la reutilización de los datos estadísticos de conformidad con la Ley sobre reutilización de la información del sector público. A su vez indica que la Infraestructura de Datos y Metadatos Estadísticos (eDatos) será el soporte para la difusión abierta e interoperable de los datos publicados por las actividades estadísticas del PEC-22, constituyéndose como el canal único para la difusión descentralizada de las estadísticas en las Web corporativas del Gobierno de Canarias.

Para cumplir con las orientaciones señaladas, desde el Istac se ha puesto a disposición de la ciudadanía el portal de datos abiertos de la estadística pública en Canarias que, bajo los principios de la estadística pública y la reutilización de datos, distribuye los datos generados de manera gratuita, en formatos abiertos y con licencias que permiten su reutilización para fines comerciales y no comerciales.

El portal integra datos y metadatos basados en activos semánticos normalizados, información geográfica y servicios para promover su uso; y dispone de interfaces programables de aplicaciones (API) que facilitan el acceso y descarga a la información por parte de terceros. Además de estas API, también proporciona una serie de herramientas de consulta que permiten tanto descargar los datos (por ejemplo una Extensión para QGIS o un Paquete R), como llevártelos a otra web o aplicación, como Widgets, Tableau Public o Google Public Data Explorer.

La web también cuenta con un visor de indicadores estadísticos. El usuario puede seleccionar la información que quiere visualizar entre un gran número de categorías, por ejemplo, los nacimientos y defunciones, o la población activa. También podrá elegir el espacio geográfico (el conjunto de la comunidad o alguna isla o municipio concreto), el tipo de dato (variación anual, interperiódica, etc.) y el rango temporal. Con esa información, la herramienta generará el gráfico con los datos del Istac.

Todas estas herramientas ponen de manifiesto el interés del Istac y el Gobierno de Canaria no solo por facilitar el acceso a sus datos, sino también por impulsar su reutilización por parte de desarrolladores que quieran crear productos de valor añadido. Con su integración en datos.canarias.es, se impulsa la visibilidad de los datos estadísticos locales de Canarias, a la vez que se homogeniza el acceso a los datos de interés de toda la Comunidad Autónoma.

calendar icon
Noticia

Los datos estadísticos están considerados datos de alto valor, debido a sus amplios beneficios para la sociedad, el medio ambiente y la economía. Los datos estadísticos nos proporcionan información sobre indicadores demográficos y económicos (por ejemplo, datos sobre el PIB, el nivel educativo o la edad de la población), una información imprescindible a la hora de tomar decisiones y formular políticas y estrategias.

Tal es su importancia para el conjunto de la sociedad que la Comisión de Estadística de la ONU creó en 2018 un Grupo de Trabajo sobre Datos Abiertos, centrado en proporcionar apoyo para la aplicación de los principios de datos abiertos a la información estadística, de forma que se facilite su acceso universal y gratuito. Este grupo de trabajo está formado por representantes de distintos países, organismos internacionales y asociaciones, como el Banco Mundial, el Open Data Watch, el Instituto Internacional de Estadística o representantes de la propia ONU a través de agencias como la FAO.

A primeros de marzo, este grupo elaboró un informe con el fin de orientar a las oficinas nacionales de estadística sobre las prácticas en materia de datos abiertos en la producción de estadísticas oficiales. Este documento se divide en dos aparatados: 

  • Un documento de antecedentes sobre la aplicación de los datos abiertos en las oficinas nacionales de estadística 
  • Un documento de antecedentes sobre las estadísticas de nivel local en forma de datos abiertos 

Veamos que dice cada uno de ellos.

La aplicación de los datos abiertos en las oficinas nacionales de estadística

El informe ofrece directrices en los siguientes ámbitos: 

  • Datos abiertos por defecto: El documento se centra en los aspectos jurídicos de los datos abiertos por defecto, haciendo hincapié en la necesidad de contar con estándares de licencias abiertas. Según el “Open Data Inventory”, en el periodo 2018-2019 solo 14 de 180 países analizados publicaron todos sus datos con una licencia abierta. Existen muchos tipos de licencias reconocidas a nivel internacional. Las más habituales son las Creative Commons y Open Data Commons, aunque muchos países tienden a personalizarlas. El informe recomienda aprobar una licencia abierta internacional en su forma original o preparar una licencia personalizada, pero que se ajuste a las directrices formuladas por Open Definition. Además de licencias abiertas, es necesario que los países también cuenten con un marco jurídico con leyes sobre el acceso a la información y la rendición de cuentas. 
  •  Diseños centrados en el usuario: El informe resalta la necesidad de involucrar a los usuarios en el desarrollo de plataformas y la difusión de datos para garantizar que se responde a sus necesidades. Algunos de los mecanismos que se pueden utilizar son la realización de encuestas, entrevistas o grupos focales. También es necesario medir el uso de los datos a través de análisis de sitios web para poder tomar medidas que incrementen su utilización. Dado que todos los países necesitan crear estrategias de participación de usuarios, sería recomendable fomentar el intercambio de plantillas y directrices o la impartición de talleres conjuntos.  
  • Plataformas nacionales de presentación de informes: Las plataformas de datos deben basarse en cuatro principios: claridad, idoneidad, sostenibilidad e interoperabilidad. Para que estos principios se cumplan es necesario impulsar la coordinación y cooperación dentro del sistema estadístico nacional, y que la oficina nacional de estadística asuma el liderazgo.  
  • Correlación del Modelo Genérico de Procesos Institucionales Estadísticos con las directrices de interoperabilidad: Para facilitar que las distintas oficinas intercambien enfoques innovadores relativos a la recopilación y difusión de estadísticas es bueno contar con un marco de buenas prácticas y una terminología normalizados. El Modelo Genérico de Procesos Institucionales Estadísticos describe el conjunto de acciones necesarias para producir estadísticas oficiales, garantizando la mejora constante. Estas etapas son: a) especificar las necesidades; b) diseñar; c) construir; d) recopilar; e) tratar; f) analizar; g) difundir; y h) evaluar. A fin de incorporar la interoperabilidad en el Modelo, se deberían incorporar las prácticas de interoperabilidad más pertinentes en las diferentes fases de diseño.  
  • Desarrollo de una cultura de datos abiertos: La adopción de principios de datos abiertos en el día a día de las instituciones estadísticas puede suponer un cambio de mentalidad. A veces hay que “convencer” sobre la necesidad de abrir este tipo de información. Por ello es fundamental llevar a cabo acciones de comunicación interna y externa, analizar las capacidades existentes y realizar tareas de formación acorde, y establecer responsabilidades.

Las estadísticas de nivel local en forma de datos abiertos 

Además de contar con oficinas nacionales de estadística, es recomendable poner en marcha iniciativas locales, que puedan proporcionar información sobre espacio geográficos concretos como barrios, zonas rurales o distritos censales y electorales. Esta información puede mostrar disparidad entre regiones y ayudar a la formulación de políticas locales. También resulta útil para que la sociedad civil, los sectores privado y las ONGs puedan tomar mejores decisiones. 

Para que se puedan establecer comparaciones, el informe recomienda que estos datos se produzcan y difundan siguiendo las mismas directrices en todo el país. Además, insta a que las oficinas nacionales investiguen qué contenido estadístico interesa más a los usuarios y proporcionen una serie de recomendaciones, que abarquen desde los mecanismos de divulgación hasta las herramientas de visualización más útiles. La puesta en práctica podría llevarse a cabo con un enfoque gradual, donde se fomente la interacción entre los distintos actores implicados.  

En el informe también se hace referencia al documento de antecedentes presentado en el 50º período de sesiones de la Comisión de Estadística, que incluye orientaciones para entender las prácticas en materia de datos abiertos en las estadísticas oficiales. Un documento que merece la pena revisar a la hora de poner en marcha una iniciativa de este tipo.  

En definitiva, estamos ante un tipo de datos de gran importancia, que deben ser compartidos con la sociedad a través de un ecosistema de publicadores y respetando siempre el equilibrio entre apertura y privacidad.

calendar icon