Documentación

La digitalización en el sector público en España también llegó al ámbito judicial. La primera regulación para establecer un marco legal en este sentido fue la reforma que tuvo lugar a través de la Ley 18/2011, de 5 de julio (LUTICAJ). Desde entonces, se han producido avances en la modernización tecnológica de la Administración de Justicia. El año pasado, el Consejo de Ministros aprobó un nuevo paquete legislativo para abordar de manera definitiva la transformación digital del servicio público de justicia, el Proyecto de Ley sobre Eficiencia Digital.

Este proyecto incorpora diversas medidas específicamente dirigidas a impulsar la gestión basada en datos, en coherencia con el planteamiento general que se ha formulado a través del denominado Manifiesto del Dato de Justicia.

Una vez decidida la apuesta por la gestión basada en datos, ésta debe afrontarse teniendo en cuenta las exigencias e implicaciones del Gobierno Abierto, de manera que no sólo se refuercen las posibilidades de mejora en la gestión interna de la actividad judicial sino, asimismo, las posibilidades de reutilización de la información que se genera como consecuencia del desarrollo de dicho servicio público (RISP).

Los datos abiertos: premisa para la transformación digital de justicia

Para afrontar el desafío de la transformación digital de la justicia, la apertura de los datos es una exigencia fundamental. En esta línea, los datos abiertos requieren de unas condiciones que permitan su integración de manera automatizada en el ámbito judicial. En primer lugar, se debe llevar a cabo una mejora de las condiciones de accesibilidad de los conjuntos de datos que deben estar en formato interoperable y reutilizable. De hecho, existe una necesidad de impulsar un modelo institucional basado la interoperabilidad y el establecimiento de condiciones homogéneas que, desde la normalización adaptada a las singularidades del ámbito judicial, faciliten su integración de manera automatizada.

Con el objetivo de profundizar en la sinergia entre datos abiertos y justicia, el informe elaborado por el experto Julián Valero identifica las claves de la transformación digital en el ámbito judicial, así como una serie de fuentes de datos abiertos de valor en el sector.  

Si quieres saber más sobre el contenido de este informe, puedes ver la entrevista a su autor.

 

A continuación, puedes descargar el informe completo, el resumen ejecutivo y una presentación-resumen.

 

calendar icon
Blog

La combinación e integración de los datos abiertos con la inteligencia artificial (IA) es un área de trabajo que cuenta con el potencial de lograr avances significativos en múltiples campos y conseguir mejoras en varios aspectos de nuestras vidas. El área de sinergia que más frecuentemente se menciona suele ser la utilización de los datos abiertos como datos de entrada para el entrenamiento de los algoritmos utilizados por la IA, ya que estos sistemas necesitan devorar grandes cantidades de datos para alimentar su funcionamiento. Esto convierte a los datos abiertos en un elemento ya de por sí esencial para el desarrollo de la IA, pero su utilización como datos de entrada conlleva además otras múltiples ventajas como una mayor igualdad de acceso a la tecnología o una mejora de la transparencia sobre el funcionamiento de los algoritmos.

Así pues, hoy en día podemos encontrar datos abiertos alimentando algoritmos para la aplicación de la IA en áreas tan variadas como la prevención de crímenes, el desarrollo del transporte público, la igualdad de género, la protección del medioambiente, la mejora de la sanidad o la búsqueda de ciudades más amigables y habitables. Todos ellos son ya objetivos más fácilmente alcanzables gracias a la adecuada combinación de ambas tendencias tecnológicas.

Sin embargo, como veremos a continuación, puestos a imaginar el futuro conjunto de los datos abiertos y la IA, el uso combinado de ambos conceptos puede dar lugar también a muchas otras mejoras en la forma en que trabajamos actualmente con los datos abiertos y a lo largo de todo el ciclo de vida de los mismos. Repasamos, paso a paso, cómo la inteligencia artificial puede enriquecer un proyecto con datos abiertos.

Utilizar la IA para descubrir fuentes y preparar conjuntos de datos

La inteligencia artificial puede ayudar ya desde los primeros pasos de nuestros proyectos de datos mediante el apoyo en la fase de descubrimiento e integración de diversas fuentes de datos, facilitando a las organizaciones encontrar y usar datos abiertos de relevancia para sus aplicaciones. Además, las tendencias futuras pueden incluir el desarrollo de estándares comunes de datos, marcos de metadatos y APIs para facilitar la integración de los datos abiertos con tecnologías de IA, lo que ampliaría aún más las posibilidades de automatizar la combinación de datos de diversas fuentes.

Además de la automatización en la búsqueda guiada de fuentes de datos, los procesos automáticos de la inteligencia artificial pueden ser de utilidad, al menos en parte, en el proceso de limpieza y preparación de los datos. De esta forma se puede mejorar la calidad de los datos abiertos al identificar y corregir los errores, rellenar los vacíos existentes en los datos y mejorar así su completitud. Esto contribuiría a liberar a los científicos y analistas de datos de ciertas tareas básicas y repetitivas para que puedan centrarse en otras tareas más estratégicas, como desarrollar nuevas ideas y hacer predicciones.

Técnicas innovadoras para el análisis de datos con IA

Una de las características de los modelos de IA es su facilidad para detectar patrones y conocimiento en grandes cantidades de datos. Técnicas de IA como el aprendizaje automático, el procesamiento del lenguaje natural y la visión por computador se pueden usar fácilmente para extraer nuevas perspectivas, patrones y conocimiento de los datos abiertos. Por otro lado, a medida que el desarrollo tecnológico continúa avanzando, podremos ver el desarrollo de técnicas de IA aún más sofisticadas y especialmente adaptadas para el análisis de datos abiertos, permitiendo a las organizaciones extraer todavía más valor de los mismos.

Paralelamente, las tecnologías de IA pueden ayudarnos a ir un paso más allá en el análisis de los datos facilitando y asistiendo en el análisis de datos colaborativo. Mediante este proceso, las múltiples partes interesadas pueden trabajar juntas en problemas complejos y darles respuesta a través de los datos abiertos. Esto daría lugar también a una mayor colaboración entre investigadores, formuladores de políticas públicas y comunidades de la sociedad civil a la hora de sacar el mayor provecho de los datos abiertos para abordar los desafíos sociales. Además, este tipo de análisis colaborativo también contribuiría a mejorar la transparencia y la inclusividad en los procesos de toma de decisiones.

La sinergia de la IA y los datos abiertos

En definitiva, la IA también se puede utilizar para automatizar muchas de las tareas involucradas en la presentación de los datos, como por ejemplo crear visualizaciones interactivas proporcionando simplemente instrucciones en lenguaje natural o una descripción de la visualización deseada.

Por otro lado, los datos abiertos permiten desarrollar aplicaciones que, combinadas con la inteligencia artificial, pueden resultar soluciones innovadoras. El desarrollo de nuevas aplicaciones impulsadas por los datos abiertos y la inteligencia artificial puede contribuir en diversos sectores como la atención sanitaria, finanzas, transporte o educación entre otros. Por ejemplo, se están utilizando chatbots para proporcionar servicio al cliente, algoritmos para tomar decisiones de inversión o coches autónomos, todos ellos impulsados por la IA. Lo que conseguiríamos además si estos servicios utilizaran los datos abiertos como fuente principal de datos sería una mayor calidad y veracidad, gracias a un mejor entrenamiento de los modelos de IA. Además, cuanta mayor sea la disponibilidad de los datos abiertos, mayor será también el número de personas que tendrán estas aplicaciones a su alcance.

Finalmente, la IA se puede utilizar también para analizar grandes volúmenes de datos abiertos e identificar nuevos patrones y tendencias que serían difíciles de detectar únicamente a través de la intuición humana. Esta información puede utilizarse luego para tomar mejores decisiones, como por ejemplo qué políticas llevar a cabo en un área determinada para poder obtener los cambios deseados.

Estas son solo algunas de las posibles tendencias futuras en la intersección de los datos abiertos y la inteligencia artificial, un futuro lleno de oportunidades pero al mismo tiempo no exento de riesgos. A medida que la IA continúa desarrollándose, podemos esperar ver aplicaciones aún más innovadoras y transformadoras de esta tecnología. Para ello será también necesaria una colaboración más cercana entre investigadores de inteligencia artificial y la comunidad de los datos abiertos a la hora de abrir nuevos conjuntos de datos y desarrollar nuevas herramientas para explotarlos. Esta colaboración es esencial para poder darle forma al futuro conjunto de los datos abiertos y la IA y garantizar que los beneficios de la IA estén disponibles para todos de forma justa y equitativa.

Contenido elaborado por Carlos Iglesias, Open data Researcher y consultor, World Wide Web Foundation.

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Blog

Los datos abiertos son una fuente de conocimiento muy valiosa para nuestra sociedad. Gracias a ellos, se pueden crear aplicaciones que contribuyen al desarrollo social y soluciones que ayudan a configurar el futuro digital de Europa y alcanzar los Objetivos de Desarrollo Sostenible (ODS).

El portal de datos abiertos europeo (data.europe.eu) organiza eventos en línea para poner en valor aquellos proyectos que se han llevado a cabo con fuentes de datos abiertos y han ayudado a hacer frente a alguno de los retos a los que nos enfrentamos como sociedad: desde la lucha contra el cambio climático, el impulso de la economía, la consolidación de la democracia europea o la transformación digital.

En lo que llevamos de año, en 2023 se han celebrado cuatro seminarios para analizar el impacto positivo que tienen los datos abiertos en cada una de las temáticas mencionadas. Todo el material que se presentó en los eventos está publicado en el portal europeo y las grabaciones están disponibles en su canal de Youtube, al alcance de cualquier usuario interesado.

En este post, realizamos un primer repaso de los casos de uso presentados en materia de impulso a la economía y a la democracia, así como los conjuntos de datos abiertos que se emplearon para su desarrollo.

Soluciones que impulsan la economía y el estilo de vida europeo

En un mundo en constante evolución, donde los desafíos económicos y las aspiraciones de un estilo de vida próspero convergen, la Unión Europea ha demostrado una capacidad inigualable para forjar soluciones innovadoras que no solo impulsan su propia economía, sino que también elevan el estándar de vida de sus ciudadanos. En este contexto, los datos abiertos han jugado un papel fundamental en el desarrollo de aplicaciones que han dado respuesta a desafíos actuales y han sentado las bases para un futuro próspero y prometedor. Dos de estos proyectos se presentaron en el segundo webinar de la serie “Stories of use cases”, un evento sobre “Datos abiertos para fomentar la economía y el estilo de vida europeo”: UNA WOMEN y YouthPOP.

El primero de ellos se centra en solucionar uno de los retos más relevantes que debemos superar para lograr una sociedad justa: la desigualdad de género. La eliminación de la brecha de género es un problema social y económico muy complejo. Según estimaciones del Foro Económico Mundial, se necesitarán 132 años para lograr la paridad de género total en Europa. La aplicación UNA Women nace con el propósito de reducir esa cifra, asesorando a las mujeres jóvenes para que puedan tomar mejores decisiones a la hora de elegir su futuro en cuanto a educación y primeros pasos en sus carreras profesionales. En este caso de uso, la empresa ITER IDEA ha utilizado más de 6 millones de líneas de datos procesados de distintas fuentes, como data.europa.eu, Eurostat, Censis, Istat (Instituto nacional de estadística de Italia) o NUMBEO.

El segundo caso de uso presentado también va dirigido a la población joven. Se trata de la aplicación YouthPOP (Youth Públic Open Procurement), una herramienta que anima a los jóvenes a participar en procesos de contratación pública. Para el desarrollo de esta app se han utilizado datos de data.europa.eu, Eurostat y ESCO, entre otros. Youth POP tiene entre sus objetivos mejorar el empleo juvenil y contribuir al correcto funcionamiento de la democracia en Europa.

Datos abiertos para impulsar y consolidar la democracia europea

En esta línea, el uso de los datos abiertos también contribuye a fortalecer y consolidar la democracia europea. Los datos abiertos desempeñan un papel fundamental en nuestras democracias a través de las siguientes vías:

  • Proporcionando a los ciudadanos información confiable.
  • Fomentando la transparencia en los gobiernos e instituciones públicas.
  • Combatiendo la desinformación y las noticias falsas.

El tema del tercer webinar organizado por datos.europa.eu sobre casos de uso es “Datos abiertos y un nuevo impulso a la democracia europea”, evento en el que se presentaron dos soluciones innovadoras: EU Integrity Watch y EU Institute For Freedom of Information.

En primer lugar, EU Integrity Watch es una plataforma que proporciona herramientas en línea para que los ciudadanos, periodistas y la sociedad civil monitoricen la integridad de las decisiones tomadas por los políticos en la Unión Europea. Esta web ofrece visualizaciones para comprender la información y pone a disposición los datos recopilados y analizados. Los datos analizados se utilizan en divulgaciones científicas, investigaciones periodísticas y otros ámbitos, lo que contribuye a un gobierno más abierto y transparente. Esta herramienta procesa y ofrece datos de Transparency register.

La segunda iniciativa presentada en el webinar sobre democracia con datos abiertos es el EU Institute For Freedom of Information (IDFI), una organización no gubernamental georgiana que se centra en actividades de vigilancia y supervisión de las acciones del gobierno, revelando infracciones y manteniendo informada a la ciudadanía.

Las principales actividades del IDFI incluyen solicitar información pública a los organismos pertinentes, elaborar clasificaciones de organismos públicos, monitorizar los sitios web de dichos organismos y abogar por la mejora del acceso a la información pública, los estándares legislativos y las prácticas relacionadas. Este proyecto obtiene, analiza y presenta conjuntos de datos abiertos procedentes de instituciones públicas nacionales.

En definitiva, los datos abiertos hacen posible el desarrollo de aplicaciones para reducir la brecha laboral de género, impulsar el empleo juvenil o vigilar las acciones de gobierno. Estos son solo algunos ejemplos del valor que pueden ofrecer los datos abiertos a la sociedad.

Conoce más sobre estas aplicaciones en sus seminarios -> Grabaciones aquí

calendar icon
Noticia

Los datos abiertos suponen el nivel más alto de intercambio de datos, ya que están disponibles de manera gratuita y son accesibles para todos. Procesados de manera adecuada y garantizando un pleno respeto a la protección de datos personales, pueden ayudar a los ciudadanos, empresas y sector público a tomar mejores decisiones.

Los datos abiertos, junto con el resto de datos, juegan un papel clave la creación de espacios de datos, tal y como refiere la Estrategia Europea de Datos. Como recoge el documento, la puesta en marcha de espacios de datos comunes e interoperables en sectores estratégicos se constituye con el objetivo de “superar los obstáculos técnicos y jurídicos a la puesta en común de datos entre organizaciones, combinando las herramientas e infraestructuras necesarias y abordando cuestiones de confianza”, por ejemplo, mediante normas comunes desarrolladas para el espacio”.

Teniendo en cuenta su relevancia, la Academia del Portal de Datos Europeo ha organizado una serie de seminarios web sobre espacios de datos. El primero de ellos se celebró el pasado 12 de mayo en formato online y se puede ver aquí. En él, se mencionaron las novedades y progresos que se están llevando a cabo respecto a los data spaces, avances que en España se vienen realizando desde la Oficina del Dato.

Resumimos a continuación los principales aspectos abordados en este primer seminario, en el que participaron Daniele Rizzi, Principal administrator and policy officer y Johan Bodenkamp, Policy and project officer en la Dirección General de Redes de Comunicación, Contenido y Tecnologías de la Comisión Europea, con la moderación de Giulia Carsaniga, Research and Policy Lead Consultant en Capgemini.

Los espacios de datos y la estrategia digital de la UE

En la primera parte del seminario, que se celebró de manera online, se destacó cómo la transformación digital es una de las grandes prioridades de la Unión Europea. De hecho, Europa cuenta con una estrategia específica para avanzar en este aspecto, es decir, lograr ‘Una Europa adaptada a la era digital’, y es una de las seis prioridades 2019-24 de la Comisión Europea.

La estrategia digital de la Unión Europea tiene como objetivo hacer que la trasformación digital beneficie a las personas y las empresas, contexto en el que se enmarca la Estrategia Europea de Datos de febrero de 2020, que recoge una serie de medidas para el impulso de un mercado europeo del dato, a semejanza del Mercado Común Europeo, germen de la actual UE.

La creación de este mercado europeo del dato requiere del establecimiento de una serie de acciones y estándares con un enfoque basado en los datos, la tecnología y la infraestructura. A ello, contribuye además el esfuerzo colectivo, en el que se encuadran programas públicos como DIGITAL Europe o privados como Gaia-X.

Un año después de la aprobación de la Estrategia Europea del Dato, el Consejo Europeo reconocía, en marzo de 2021, “la necesidad de acelerar la creación de espacio de datos comunes y asegurar el acceso e interoperabilidad de los datos” e invitaba a la Comisión a “presentar el progreso realizado y las medidas restantes necesarias para establecer los espacios de datos sectoriales anunciados en la Estrategia Europea de Datos de febrero de 2020”. Posteriormente, en febrero de 2022 la Comisión Europea publicó un documento de trabajo sobre el mercado europeo del dato.

Tras contextualizar en el marco europeo el desarrollo del concepto de espacios de datos, los ponentes del webinar pasaron a explicar aquellas piezas fundamentales que formarán parte de los espacios de datos, algunas de ellas ya están operativas y otras se encuentran en desarrollo. En el seminario se dio una visión general de cómo se espera que sea el espacio de datos europeo, y se destacaron las siguientes partes:

En primer lugar, se habló sobre los datasets de alto valor del sector público. En enero de este año la Comisión Europea publicó el listado de conjuntos de datos de alto valor entendido como aquellos que aportan valor añadido e importantes beneficios para la sociedad. Existe una amplia variedad de datos de alto valor englobados en diferentes áreas (salud, agricultura, movilidad, energía, etc.) que las partes interesadas ponen a disposición con diferentes grados de apertura. Tal y como se explicó en el webinar, la idea es comenzar a crear espacios de datos de alto valor comunes en áreas más homogéneas, aunque el objetivo final es que en ese mercado europeo se compartan datos entre todas ellas, ya que la mayoría de las aplicaciones requerirán datos de diferentes ámbitos.

Para apoyar la creación de esos espacios de datos, la primera iniciativa que se ha puesto en marcha en Europa es la creación del Data Spaces Support Centre. Este centro explora las necesidades de las iniciativas de los espacios de datos, define requisitos comunes, establece las mejores prácticas para acelerar la formación de espacios de datos soberanos como un elemento crucial de la transformación digital en todas las áreas y se encarga de garantizar su interoperabilidad mediante el cumplimiento de unos estándares comunes.

Para que todo esto se pueda desarrollar, es necesario contar con una infraestructura técnica para los espacios de datos, que se encarga de facilitar servicios cloud y edge-cloud, soluciones de middleware inteligente (Simpl), mercado digital, computación de alto rendimiento, plataforma de inteligencia artificial bajo demanda e instalaciones de prueba y experimentación de IA.

Diferencias y similitudes entre los espacios de datos y los datalakes

Tras repasar la visión general de los espacios de datos en Europa, en el seminario se abordaron sus principales características. De esta forma, se presentó un espacio de datos como una infraestructura de TI segura y respetuosa con la privacidad para agrupar, acceder, procesar, usar y compartir datos. Además, se definió como un mecanismo de gobernanza de datos que comprende un conjunto de reglas de naturaleza administrativa y contractual que determinan los derechos de acceso, procesamiento, uso y compartición de datos de manera confiable, transparente y en cumplimiento de la legislación vigente.

Una de las características que se destacaron en el webinar sobre este tipo de infraestructura es que en ella los titulares de los datos tienen el control sobre quién puede acceder a qué datos, con qué propósito y bajo qué condiciones pueden ser utilizados, Además, hay una gran cantidad de datos disponibles de forma voluntaria que pueden ser reutilizados de forma gratuita o a cambio de una remuneración, dependiendo de la decisión de los titulares de los datos.

Finalmente, se subrayó el hecho de que los espacios de datos cuentan con la participación de un número abierto de organizaciones/individuos, respetando las normas de competencia y garantizando un acceso no discriminatorio para todos los participantes.

Otro de los conceptos que se abordó en el seminario fue el de datalake, para compararlo con el de un espacio de datos. Así, se definieron los lagos de datos como repositorios que permiten almacenar datos estructurados y no estructurados a cualquier escala. En un datalake, según explicaron en el seminario, es posible almacenar datos tal y como están, sin necesidad de estructurarlos previamente y ejecutar diferentes tipos de análisis, desde paneles de control y visualizaciones hasta realizar procesamiento de big data, análisis en tiempo real y aprendizaje automático para tomar decisiones más acertadas. El acceso al datalake implica la posibilidad de acceder a todos los datos contenidos que se albergan en él, no necesariamente de manera ordenada.

Por otra parte, un espacio de datos, en palabras de los ponentes, se puede definir como un ecosistema de datos federado basado en políticas y reglas compartidas. Los usuarios de dichos espacios de datos tienen la capacidad de acceder a los datos de manera segura, transparente, confiable, fácil y unificada. En un espacio de datos los titulares de los datos tienen el control sobre el acceso y uso de sus datos. Desde una perspectiva técnica, se puede ver un espacio de datos como un concepto de integración de datos que no requiere esquemas de bases de datos comunes ni integración física de datos, sino que se basa en almacenes de datos distribuidos e integrados según sea necesario.

Haciendo un símil con la acción de conseguir peces, en el datalake el usuario tiene que pescarlos por sí mismo, y un espacio de datos sería como ir a un mercado de peces.

Próximos pasos: Marco de gobernanza y actores europeos

Una vez presentada la diferencia entre dataspaces y datalakes, en el webinar se abordó el cambio de paradigma de intercambio de datos que está sucediendo en la actualidad. Hasta ahora, se empleaba un intercambio bilateral de datos basado en acuerdos contractuales, sin embargo, va tomando fuerza un nuevo modelo de infraestructuras de intercambio de datos con alojamiento centralizado de datos y/o mercados de datos que permiten reducir los costes de transacción cuando los datos no se mantienen en un repositorio central.

El siguiente paso en la evolución de los espacios de datos sería, según los ponentes, la creación de enlaces entre los participantes, en un modelo en el que los datos se federasen y se almacenasen de manera distribuida con herramientas que permitan la búsqueda, el acceso y el análisis en múltiples industrias, empresas y entidades.

Para que este proceso ocurra, tal y como los ponentes explicaron, es necesario el apoyo y trabajo coordinado de diferentes actores. Por un lado, sería fundamental establecer unas normas comunes que faciliten el intercambio de datos y acercar a los diferentes actores implicados a una política común de datos en la UE. Igualmente es indispensable ofrecer soluciones técnicas y apoyo financiero.

En esta línea, en el webinar se destacó un importante hito: la puesta en marcha del European Data Innovation Board (EDIB) que apoyará a la Comisión en la publicación de directrices para facilitar el desarrollo de los espacios comunes europeos de datos y la identificación de las normas y los requisitos de interoperabilidad necesarios para el intercambio de datos.

Como se indicó anteriormente, la puesta en marcha del espacio de datos precisa de arquitectura técnica, por lo que en el webinar se destacaron dos soluciones técnicas gratuitas:

  • Los Building Blocks: Soluciones digitales abiertas y reutilizables basadas en estándares que permiten funcionalidades básicas, como la autenticación confiable y el intercambio seguro de datos.
  • Simpl: El middleware inteligente que permitirá federaciones basadas en la nube y nube en el borde. Apoyará las principales iniciativas de datos financiadas por la Comisión Europea, como los espacios de datos europeos comunes.

El papel clave del Data Spaces Support Centre

Al final del seminario se presentó con más detalle la iniciativa Data Spaces Support Centre (DSCC). Este centro, creado en octubre de 2022, da apoyo a las diferentes iniciativas en la creación de espacios de datos y está previsto que finalice su actividad en marzo de 2026. Está formado por doce socios y cuenta además con dieciséis socios colaboradores, entre los que se encuentran importantes asociaciones y empresas con experiencia en el ámbito del intercambio de datos.

El DSCC tiene como misión principal la creación de una red de socios y una comunidad, a la que proporciona las herramientas para la creación de los espacios de datos. Se centra de manera especial en la interoperabilidad y pretende generar sinergias a nivel europeo para el desarrollo de espacios de datos.

En el webinar se hizo un repaso de las colaboraciones y las iniciativas en las que participa el Data spaces support centre y se destacó que en su web está disponible el kit de inicio, un punto de partida para la construcción de los espacios de datos.

En la recta final del seminario, para dar una visión general de los espacios de datos, se detallaron cuáles son los actores relevantes del espacio común de datos europeo:

  • Data Spaces Support Centre (DSSC): Encargado de coordinar las acciones relevantes en los espacios de datos.
  • Data Space Coordination and Support Actions (CSAs): Se centra en los espacios de datos sectoriales.
  • European Data Innovation Board: A partir de septiembre de 2023, se ocupará de fijar las directrices para lograr la interoperabilidad en los espacios de datos.

Si quieres saber más sobre el concepto de los espacios de datos y su relevancia en la actualidad, puedes ver el seminario completo en el siguiente vídeo:

Los materiales formativos están disponibles en https://data.europa.eu/en/academy:

 

 

 

calendar icon
Blog

La irrupción de la inteligencia artificial (IA) y, en particular ChatGPT, se ha convertido en uno de los principales temas de debate en los últimos meses. Esta herramienta ha eclipsado incluso otras tecnologías emergentes que habían adquirido un protagonismo en los más diversos ámbitos (jurídicos, económicos, sociales o culturales).  Caso, por ejemplo,  la web 3.0, el metaverso, la identidad digital descentralizada o los NFT y, en particular, las criptomonedas.

Resulta incuestionable la relación directa que existe entre este tipo de tecnología y la necesidad de disponer de datos suficientes y adecuados, siendo precisamente esta última dimensión cualitativa la que justifica que los datos abiertos estén llamados a desempeñar un papel de especial importancia. Aunque, al menos de momento, no es posible saber cuántos datos abiertos proporcionados por las entidades del sector público utiliza ChatGPT para entrenar su modelo, no hay duda de que los datos abiertos son una fuente especialmente significativa a la hora de mejorar su funcionamiento.

La regulación sobre el uso de los datos por la IA

Desde el punto de vista jurídico, la IA está despertando un especial interés por lo que se refiere a las garantías que deben respetarse a la hora de su aplicación práctica. Así, se están impulsando diversas iniciativas que pretenden regular específicamente las condiciones para proceder a su utilización, entre las que destaca la propuesta que está tramitando la Unión Europea, donde los datos son objeto de especial atención.

Ya en el ámbito estatal, hace unos meses se aprobó la Ley 15/2022, de 12 de julio, integral para la igualdad de trato y la no discriminación. Esta normativa exige a las Administraciones Públicas que favorezcan la implantación de mecanismos que contemplen garantías relativas a la minimización de sesgos, transparencia y rendición de cuentas, en concreto por lo que respecta a los datos utilizados para el entrenamiento de los algoritmos que se empleen para la toma de decisiones.

Por parte de las comunidades autónomas existe un creciente interés a la hora de regular el uso de los datos por parte de los sistemas de IA, reforzándose en algún caso las garantías relativas a la transparencia. También, a nivel municipal se están promoviendo protocolos para la implantación de la IA en los servicios municipales en los que las garantías aplicables a los datos, en particular desde la perspectiva de su calidad, se conciben como una exigencia prioritaria.

La posible colisión con otros derechos y bienes jurídicos: la protección de datos de carácter personal

Más allá de las iniciativas regulatorias, el uso de los datos en este contexto ha sido objeto de una especial atención por lo que se refiere a las condiciones jurídicas en que resulta admisible. Así, puede darse el caso de que los datos que se utilicen estén protegidos por derechos de terceros que impidan —o al menos dificulten— su tratamiento, tal y como sucede con la propiedad intelectual o, singularmente, la protección de datos de carácter personal. Esta inquietud constituye una de las principales motivaciones de la Unión Europea a la hora de promover el Reglamento de Gobernanza de Datos, regulación donde se plantean soluciones técnicas y organizativas que intentan compatibilizar la reutilización de la información con el respeto de tales bienes jurídicos.

Precisamente, la posible colisión con el derecho a la protección de datos de carácter personal ha motivado las principales medidas que se han adoptado en Europa respecto del uso de ChatGPT. En este sentido, el Garante per la Protezione dei Dati Personali ha acordado cautelarmente la limitación del tratamiento de datos de ciudadanos italianos, la Agencia Española de Protección de Datos ha iniciado de oficio actuaciones de inspección frente a OpenAI como responsable del tratamiento y, con una proyección supranacional, el Supervisor Europeo de Protección de Datos (EDPB) ha creado un grupo de trabajo específico.

La incidencia de la regulación sobre datos abiertos y reutilización

La regulación española sobre datos abiertos y reutilización de la información del sector público establece algunas previsiones que han de tenerse en cuenta por los sistemas de IA. Así, con carácter general, la reutilización será admisible si los datos se hubieren publicado sin sujeción a condiciones o, en el caso de que se fijen, cuando se ajuste a las establecidas a través de licencias u otros instrumentos jurídicos; si bien, cuando se definan, las condiciones han de ser objetivas, proporcionadas, no discriminatorias y estar justificadas por un objetivo de interés público.

Por lo que se refiere a las condiciones de reutilización de la información proporcionada por las entidades del sector público, su tratamiento sólo se permitirá si no se altera el contenido ni se desnaturaliza su sentido, debiéndose citar la fuente de la que se hubieren obtenido los datos y la fecha de su actualización más reciente.

Por otra parte, los conjuntos de datos de alto valor adquieren un especial interés para estos sistemas de IA caracterizados por la intensa reutilización de contenidos de terceros dado el carácter masivo de los tratamientos de datos que llevan a cabo y la inmediatez de las peticiones de información que formulan quienes las utilizan. En concreto, las condiciones establecidas legalmente para la puesta a disposición de estos conjuntos de datos de alto valor por parte de las entidades públicas determinan que existan muy pocas limitaciones y, asimismo, que se facilite enormemente su reutilización al tratarse de datos que han de estar disponibles de manera gratuita, ser susceptibles de tratamiento automatizado, suministrarse a través de API y proporcionarse en forma de descarga masiva, siempre que proceda.

En definitiva, teniendo en cuenta las particularidades de esta tecnología y, por tanto, las circunstancias tan singulares en las que tratan los datos, parece oportuno que las licencias y, en general, las condiciones en las que las entidades públicas permiten su reutilización sean revisadas y, en su caso, actualizadas para hacer frente a los retos jurídicos que se están empezando a plantear.


Contenido elaborado por Julián Valero, catedrático de la Universidad de Murcia y Coordinador del Grupo de Investigación “Innovación, Derecho y Tecnología” (iDerTec).

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Aplicación

Gardena-Transparencia es una Plataforma de Transparencia y Buen Gobierno que aglutina toda la información pública relevante:

- Registro Mercantil: Permite realizar una búsqueda filtrada de toda la información del Boletín Oficial del Registro Mercantil (BORME) y fichas completas de todas las empresas registradas y de sus empresarios.

-Contratación Pública: En este apartado, el usuario puede acceder a todas las licitaciones y contratos menores de la Administración Pública, tanto a nivel estatal como local. La aplicación emplea analítica avanzada de datos e inteligencia artificial para identificar desviaciones.

-Altos Cargos: Todo el histórico de cargos políticos de la democracia y más de una década de altos cargos. Se trata de un conjunto de datos de Personas con Responsabilidad Pública (PRPs) muy completo. El apartado recoge también un ranking de retribuciones: salarios de alcaldes y presidentes/as autonómicos.

En la home de la plataforma se puede apreciar un resumen de los datos más destacados como puede ser el presupuesto general licitado el último mes, la evolución de las licitaciones adjudicadas o las empresas con más adjudicaciones de licitaciones en el mes.

La aplicación ha sido desarrolla de forma voluntaria y procuran mantener una periodicidad diaria en la carga de licitaciones y contratos menores. Para ello, se han implementado algoritmos de inteligencia artificial para la mejora de la calidad de la información.

calendar icon
Blog

La Estrategia Europea de Datos contempla, entre otras medidas, la puesta en marcha de una serie de espacios de datos sectoriales, en ámbitos estratégicos y de especial interés público, con el objetivo de facilitar la “disponibilidad de grandes repositorios de datos en tales sectores, junto a las herramientas e infraestructuras técnicas necesarias para utilizar e intercambiar datos, así como unos mecanismos de gobernanza adecuados”.

En concreto, según el documento de trabajo sobre los espacios de datos de la Comisión Europea, estos se impulsan con el objetivo de “superar los obstáculos jurídicos y técnicos a la puesta en común de datos, combinando las herramientas e infraestructuras necesarias y abordando las cuestiones de confianza mediante normas comunes”.

Tal y como reconoce dicho documento, estos espacios no solo requieren de la puesta en marcha de infraestructuras adecuadas, sino también del diseño de marcos de gobernanza propicios, perspectiva esta última que suscita importantes desafíos desde el punto de vista jurídico. Aunque no existe una definición de espacios de datos establecida normativamente, según el citado documento, en el ámbito de la Unión Europea se les considera como ecosistemas donde los datos del sector público, las empresas y los particulares, así como las instituciones de investigación y otros tipos de organizaciones, se encuentran disponibles y se intercambian de forma fiable y segura.

Más allá de las iniciativas que se están impulsando a nivel europeo y, en concreto, de su configuración institucional y jurídica, la creación de espacios de datos también se está promoviendo a nivel estatal en España, en particular por parte de la Oficina del Dato, órgano administrativo directamente dependiente de la Secretaría de Estado de Digitalización e Inteligencia Artificial. A este respecto, la Oficina tiene asignadas entre sus principales funciones “la creación de espacios de compartición de datos entre empresas, ciudadanos y Administraciones Públicas de manera segura y con gobernanza (sandboxes, data spaces nacionales y europeos, ecosistemas de datos para uso sectorial tanto público como privado, etc.)”, así como “el desarrollo de mecanismos de acceso seguros a estas plataformas de datos, para la toma de decisiones públicas basadas en datos o para uso empresarial”.

Estos espacios están llamados a jugar un papel esencial en el contexto del Plan de Recuperación, Transformación y Resiliencia, en particular en el ámbito industrial, uno de cuyos principales objetivos consiste en facilitar la modernización y la productividad del ecosistema español de industria-servicios, mediante la digitalización de la cadena de valor y, en concreto, a través del impulso de la innovación empresarial basada el uso intensivo de datos. Entre los principales ámbitos donde está prevista la creación de estos espacios, identificados en la Agenda Digital 2025 y el referido Plan, se encuentran importantes sectores como el agroalimentario, la movilidad sostenible, la salud, el comercio o el turismo. En particular, su implantación se llevará a cabo “mediante el desarrollo de casos de uso, demostradores y pilotos, y de ecosistemas sectoriales público-privados de innovación en torno a dichos espacios de datos”.

La configuración de los espacios de datos

Dada la inexistencia de una regulación específica sobre los espacios de datos, su concreta configuración dependerá tanto de las singularidades del sector al que se refiera como de los objetivos que se pretendan con su constitución. No obstante, podemos partir de una caracterización general que nos sirva para delimitar sus principales implicaciones desde la perspectiva jurídica.

  • Así, en primer lugar, cada participante ha de conservar el control sobre los datos aportados al espacio común, lo que en principio implica la libertad para decidir libremente no solo sobre su incorporación sino, incluso, acerca de su retirada, con las matizaciones que se puedan derivar de la existencia de obligaciones normativas al respecto, tal como puede suceder con las entidades públicas.
  • Por otro lado, es esencial asegurar unas condiciones de neutralidad tecnológica, de manera que no exista vinculación a una concreta herramienta o solución. Esta premisa permite que el espacio se pueda trasladar a otros entornos y utilizar otras infraestructuras libremente. A este respecto, adquiere una especial trascendencia que los diversos espacios se construyan desde parámetros que permitan su interoperabilidad, de manera que, llegado el caso, pudieran interconectarse y, de ser precisa, se facilite la migración de datos entre infraestructuras diversas.
  • Asimismo, se han de garantizar unas condiciones adecuadas de acceso a los datos y para su uso posterior. En concreto, esta exigencia plantea importantes consecuencias desde la perspectiva de las reglas sobre libre competencia, de manera que, de una parte, no se generen situaciones indebidas de prevalencia y/o concentración en un concreto mercado y, de otra, se eviten aquellos supuestos de reutilización de los datos que resulten ilícitos o, en su caso, contrarios a los principios y objetivos que se hubiesen previamente establecido al constituir el correspondiente espacio.
  • Especialmente importante resulta el diseño de un modelo de gobernanza que establezca de manera precisa las condiciones para la participación de los diversos actores implicados, en particular sus derechos y obligaciones, a quién corresponderá adoptar las decisiones relativas al diseño del espacio y su posterior ejecución práctica, contemplando asimismo los mecanismos para la resolución de potenciales conflictos que puedan surgir más allá de la incuestionable vía judicial que, en principio, siempre estaría disponible.

Implicaciones jurídicas de los espacios de datos

Desde la aprobación de la Directiva (UE) 2019/1024, relativa a los datos abiertos y la reutilización de la información del sector público, se han sucedido importantes novedades regulatorias que afectan a los espacios de datos, entre las que destaca el Reglamento (UE) 2022/868 relativo a la gobernanza europea de datos, donde se contempla un régimen específico para los servicios de intermediación y el altruismo en la cesión de los datos.

Así, recientemente, se ha publicado el Reglamento de Ejecución (UE) 2023/138, por el que se establecen los conjuntos de datos de alto valor que las entidades del sector público han de poner a disposición en condiciones técnicas y jurídicas que faciliten su reutilización. Asimismo, se están tramitando otras iniciativas de alcance general que están llamadas a tener un impacto directo importante sobre los espacios de datos, entre las que destaca la propuesta de normas armonizadas para un acceso justo a los datos y su utilización (Ley de Datos).

Más allá de este marco normativo transversal es necesario distinguir aquellos espacios que dispongan de una regulación específica de los que, por el contrario, carezcan de la misma, ya que en este último caso la determinación de las reglas jurídicas aplicables habrá de realizarse utilizando otros instrumentos jurídicos no normativos, esto es, principalmente a través del acuerdo —ya tenga la forma de contrato, convenio, etc.— entre los sujetos que participen en la creación del espacio y decidan su configuración inicial.

Asimismo, resulta determinante si en el espacio está implicada una entidad del sector público, ya que, de ser así, podría incorporarse al mismo en igualdad de condiciones con el resto de sujetos privados o, en su caso, adoptar una función de dirección, control o supervisión que sería incompatible con su participación bajo la primera modalidad en la medida que dicha posición podría suponer una interferencia en el normal funcionamiento del espacio. De ser el caso, debería plantearse una separación funcional y organizativa adecuada, de manera que fuesen distintas entidades las encargadas de llevar a cabo ambas tareas, esto es, aportar datos al espacio y utilizarlos y, de otra parte, gestionar su funcionamiento.

Por el contrario, podría darse el caso de que exista un marco normativo propio para el correspondiente espacio, tal y como se está planteando a nivel europeo en ámbito de los datos de salud. En este supuesto, es la propia normativa sectorial la que establecería las condiciones de participación en el espacio que, incluso, podría ser obligatoria; las premisas técnicas, organizativas, jurídicas y económicas aplicables, tanto por lo que se refiere a los sujetos que aporten los datos como, asimismo, a los que pretendan reutilizarlos; los supuestos o, en su caso, las condiciones en que la reutilización de la información no sería admisible; o, entre otros extremos, las garantías institucionales a tener en cuenta y, sobre todo, las estructuras organizativas encargadas de hacer cumplir las previsiones normativas que regulen el correspondiente espacio.

En definitiva, los espacios sectoriales constituyen un modelo que va más allá del mero intercambio de datos entre varios sujetos y que, asimismo, supera —aunque puede incluirla, según los casos— la reutilización de la información del sector público. En concreto, se trata de ecosistemas en los que, con carácter general, las entidades privadas están llamadas a jugar un destacado protagonismo, lo que no supone necesariamente que el sector público quede excluido de participar activamente. Ahora bien, este tipo de iniciativas están impregnadas de una destacable complejidad no sólo por la configuración en sí del espacio sectorial sino, sobre todo, por el ambicioso planteamiento que supone la futura integración de varios espacios, ya sea en el ámbito estatal o, incluso en mayor medida, el europeo, lo que refuerza la importancia de iniciativas como Gaia-X.

A falta de un marco normativo específico para los espacios de datos, resulta imprescindible establecer las condiciones adecuadas para que el diseño y puesta en práctica de estos espacios se realice con las mayores garantías jurídicas teniendo en cuenta el objetivo final que se persigue: facilitar la creación de servicios digitales de valor añadido desde la innovación tecnológica.


Contenido elaborado por Julián Valero, catedrático de la Universidad de Murcia y Coordinador del Grupo de Investigación “Innovación, Derecho y Tecnología” (iDerTec). Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Blog

El sector público en España tendrá el deber de garantizar la apertura de sus datos desde el diseño y por defecto, así como su reutilización. Así lo recoge la modificación de la Ley 37/2007 sobre la reutilización de la información del sector público en aplicación de la Directiva Europea 2019/1024.

Esta nueva redacción de la norma busca ampliar el ámbito de aplicación de la Ley para acercar las garantías y obligaciones jurídicas al contexto tecnológico, social y económico actual. En este escenario, la normativa vigente tiene en cuenta que una mayor disponibilidad de los datos del sector público puede contribuir al desarrollo de tecnologías tan punteras como la inteligencia artificial y todas sus aplicaciones.

Además, esta iniciativa está alineada con la Estrategia de datos de la Unión Europea dirigida a la creación de un mercado único de datos en el que la información fluya libremente entre los estados y el sector privado en un intercambio que beneficie ambas partes.

De los datos de alto valor a la unidad responsable de información: obligaciones de la Ley 37/2007

En la siguiente infografía, destacamos las principales obligaciones que recoge el texto consolidado de la ley. Se enfatiza en deberes como impulsar la apertura de datos de alto valor (HVDS, por sus siglas en inglés, High Value Datasets), es decir, conjuntos de datos con un gran potencial para generar beneficios sociales, medioambientales y económicos. Tal y como dicta la Ley, los HVDS deberán publicarse con licencia de atribución de datos abiertos (CC BY 4.0 o equivalente), en formato legible por máquinas y acompañados de metadatos que describan las características de los conjuntos de datos. Todo ello será de acceso público y gratuito con el objetivo de incentivar el desarrollo tecnológico, económico y social, especialmente de las PYMEs.

Además de la publicación de los datos de alto valor, todas las administraciones públicas tendrán la obligación de disponer de catálogos propios de datos que interoperarán con el Catálogo Nacional siguiendo la NTI-RISP, con el objetivo de contribuir a su enriquecimiento. Como ocurre con los HVDS, el acceso a los conjuntos de datos de las AA. PP. deberá ser gratuito salvo excepciones en las que se podrían aplicar costes marginales resultado del tratamiento de los datos.

Para garantizar la gobernabilidad del dato, la ley establece la necesidad de designar una unidad responsable de información para cada entidad que coordine la apertura y reutilización de los datos, y que se encargue de responder a las solicitudes y demandas ciudadanas.

En definitiva, la Ley 37/2007, ha sido modificada con el objetivo de ofrecer garantías jurídicas a las exigencias de competitividad e innovación que suscitan tecnologías como la inteligencia artificial o el internet de las cosas, así como a realidades como los espacios de datos donde los datos abiertos se presentan como una pieza clave.

Haz clic en la infografía para verla a tamaño real:

Versión accesible en word

calendar icon
Documentación

1. Introducción

Las visualizaciones son representaciones gráficas de datos que permiten comunicar de manera sencilla y efectiva la información ligada a los mismos. Las posibilidades de visualización son muy amplias, desde representaciones básicas, como puede ser un gráfico de líneas, barras o sectores, hasta visualizaciones configuradas sobre cuadros de mando o dashboards interactivos. Las visualizaciones juegan un papel fundamental en la extracción de conclusiones utilizando el lenguaje visual, permitiendo además detectar patrones, tendencias, datos anómalos o proyectar predicciones, entre otras muchas funciones.  

En esta sección de “Visualizaciones paso a paso” estamos presentando periódicamente ejercicios prácticos de visualizaciones de datos abiertos disponibles en  datos.gob.es u otros catálogos similares. En ellos se abordan y describen de manera sencilla las etapas necesarias para obtener los datos, realizar las transformaciones y análisis que resulten pertinentes para, finalmente, la creación de visualizaciones interactivas de las que podemos extraer información resumida en unas conclusiones finales. En cada uno de estos ejercicios prácticos se utilizan sencillos desarrollos de código convenientemente documentados, así como herramientas de uso gratuito. Todo el material generado está disponible para su reutilización en el repositorio del laboratorio de datos de Github perteneciente a datos.gob.es.

En este ejercicio práctico, hemos realizado un sencillo desarrollo de código que está convenientemente documentado apoyandonos en herramientas de uso gratuito. 

Accede al repositorio del laboratorio de datos en Github.

Ejecuta el código de pre-procesamiento de datos sobre Google Colab.

2. Objetivo

El objetivo principal de este post es mostrar cómo realizar una visualización interactiva partiendo de datos abiertos. Para este ejercicio práctico hemos utilizado un dataset proporcionado por el Ministerio de Justicia que contiene información sobre los resultados toxicológicos realizados en accidentes de tráfico, que cruzaremos con los datos que publica la Jefatura Central de Tráfico que contienen el detalle sobre el parque de vehículos matriculados en España.  

A partir de este cruce de datos analizaremos y podremos observar las ratios de resultados toxicológicos positivos en relación con el parque de vehículos matriculados. 

Cabe destacar que el Ministerio de Justicia pone a disposición de los ciudadanos diversos cuadros de mando donde visualizar los datos sobre los resultados toxicológicos realizados en accidentes de tráfico. La diferencia radica en que este ejercicio práctico hace hincapié en la parte didáctica, mostraremos cómo procesar los datos y cómo diseñar y construir las visualizaciones.

3. Recursos

3.1. Conjuntos de datos

Para este caso práctico se ha utilizado un conjunto de datos proporcionado por el Ministerio de Justicia, el cual contiene información sobre los resultados toxicológicos realizados en accidentes de tráfico. Este conjunto de datos se encuentra en el siguiente repositorio de Github: 

También se han utilizado los conjuntos de datos del parque de vehículos matriculados en España. Estos conjuntos de datos son publicados por parte de la Jefatura Central de Tráfico, organismo dependiente del Ministerio del Interior. Se encuentran disponibles en la siguiente página del catálogo de datos de datos.gob.es: 

3.2. Herramientas

Para la realización de las tareas de preprocesado de los datos se ha utilizado el lenguaje de programación Python escrito sobre un Notebook de Jupyter alojado en el servicio en la nube de Google Colab.

Google Colab o también llamado Google Colaboratory, es un servicio gratuito en la nube de Google Research que permite programar, ejecutar y compartir código escrito en Python o R desde tu navegador, por lo que no requiere la instalación de ninguna herramienta o configuración.

Para la creación de la visualización interactiva se ha usado la herramienta Google Data Studio.

Google Data Studio es una herramienta online que permite realizar gráficos, mapas o tablas que pueden incrustarse en sitios web o exportarse como archivos. Esta herramienta es sencilla de usar y permite múltiples opciones de personalización.

Si quieres conocer más sobre herramientas que puedan ayudarte en el tratamiento y la visualización de datos, puedes recurrir al informe \"Herramientas de procesado y visualización de datos\".

4. Tratamiento o preparación de los datos

Antes de lanzarnos a construir una visualización efectiva, debemos realizar un tratamiento previo de los datos, prestando especial atención a la obtención de los mismos y validando su contenido, asegurando que se encuentran en el formato adecuado y consistente para su procesamiento y que no contienen errores.  

Los procesos que te describimos a continuación los encontrarás comentados en el Notebook que también podrás ejecutar desde Google Colab. Link al notebook de Google Colab 

Como primer paso del proceso es necesario realizar un análisis exploratorio de los datos (EDA) con el fin de interpretar adecuadamente los datos de partida, detectar anomalías, datos ausentes o errores que pudieran afectar a la calidad de los procesos posteriores y resultados. Un tratamiento previo de los datos es esencial para garantizar que los análisis o visualizaciones creados posteriormente a partir de ellos son confiables y consistentes. Si quieres conocer más sobre este proceso puedes recurrir a la Guía Práctica de Introducción al Análisis Exploratorio de Datos.  

El siguiente paso es la generación de las tablas de datos preprocesados que usaremos para generar las visualizaciones. Para ello ajustaremos las variables, realizaremos el cruce de datos entre ambos conjuntos y filtraremos o agruparemos según sea conveniente. 

Los pasos que se siguen en este preprocesamiento de los datos son los siguientes: 

  1. Importación de librerías
  2. Carga de archivos de datos a utilizar
  3. Detención y tratamiento de datos ausentes (NAs)
  4. Modificación y ajuste de las variables
  5. Generación de tablas con datos preprocesados para las visualizaciones
  6. Almacenamiento de las tablas con los datos preprocesados 

Podrás reproducir este análisis, ya que el código fuente está disponible en nuestra cuenta de GitHub. La forma de proporcionar el código es a través de un documento realizado sobre un Jupyter Notebook que una vez cargado en el entorno de desarrollo podrás ejecutar o modificar de manera sencilla. Debido al carácter divulgativo de este post y para favorecer el entendimiento de los lectores no especializados, el código no pretende ser el más eficiente, sino facilitar su comprensión por lo que posiblemente se te ocurrirán muchas formas de optimizar el código propuesto para lograr fines similares. ¡Te animamos a que lo hagas! 

 

5. Generación de las visualizaciones

Una vez hemos realizado el preprocesamiento de los datos, vamos con las visualizaciones. Para la realización de estas visualizaciones interactivas se ha usado la herramienta Google Data Studio. Al ser una herramienta online, no es necesario tener instalado un software para interactuar o generar cualquier visualización, pero sí es necesario que las tablas de datos que le proporcionemos estén estructuradas adecuadamente, para ello hemos realizado los pasos anteriores para la preparación de los datos. 

El punto de partida es el planteamiento de una serie de preguntas que la visualización nos ayudará a resolver. Proponemos las siguientes: 

  • ¿Cómo está distribuido el parque de vehículos en España por comunidades autónomas? 

  • ¿Qué tipo de vehículo está implicado en mayor y en menor medida en accidentes de tráfico con resultados toxicológicos positivos?  

  • ¿Dónde se producen más hallazgos toxicológicos en víctimas mortales de accidentes de tráfico? 

¡Vamos a buscar las respuestas viendo los datos! 

 

5.1. Parque de vehículos matriculados por CCAA y por típo de vehículo

Esta representación visual se ha realizado teniendo en cuenta el número de vehículos matriculados en las distintas comunidades autónomas, desglosando el total por tipo de vehículo. Los datos, correspondientes a la media de los registros mes a mes de los años 2020 y 2021, están almacenados en la tabla “parque_vehiculos.csv” generada en el preprocesamiento de los datos de partida. 

Mediante un mapa coroplético podemos visualizar qué CCAAs son las que poseen un mayor parque de vehículos. El mapa se complementa con un gráfico de anillo que aporta información de los porcentajes sobre el total por cada CCAA.

Según se definen en la “Guía de visualización de datos de la Generalitat Catalana”  los mapas coropléticos o de coropletas muestran los valores de una variable sobre un mapa pintando las áreas de cada región afectada de un color determinado. Son utilizados cuando se quieren encontrar patrones geográficos en los datos que están categorizados por zonas o regiones.

Los gráficos de anillo, englobados en los gráficos de sectores, utilizan una representación circular que muestra cómo se distribuyen proporcionalmente los datos. 

Una vez obtenida la visualización, mediante la pestaña desplegable, aparece la opción de filtrar por tipo de vehículo. 

 

 

Ver la visualización en pantalla completa

5.2. Ratio resultados toxicológicos positivos para los distintos tipos de vehículos

Esta representación visual se ha realizado teniendo en cuanta las ratios de los resultados toxicológicos positivos por número de vehículos a nivel nacional. Contabilizamos como resultado positivo cada vez que un sujeto da positivo en el análisis de cada una de las sustancias, es decir, un mismo sujeto puede contabilizar varias veces en el caso de que sus resultados sean positivos para varias sustancias. Para ello se ha generado durante el preprocesamiento de datos la tabla  resultados_vehiculos.csv 

Mediante un gráfico de barras apiladas, podemos evaluar los ratios de los resultados toxicológicos positivos por número de vehículos para las distintas sustancias y los distintos tipos de vehículos.

Según se definen en la “Guía de visualización de datos de la Generalitat Catalana”  los gráficos de barras se utilizan cuando se quiere comparar el valor total de la suma de los segmentos que forman cada una de las barras. Al mismo tiempo, ofrecen información sobre cómo son de grandes estos segmentos. 

Cuando las barras apiladas suman un 100%, es decir, que cada barra segmenteada ocupa la altura de la representación, el gráfico se puede considerar un gráfico que permite representar partes de un total.

La tabla aportan la misma información de una forma complementaria. 

Una vez obtenida la visualización, mediante la pestaña desplegable, aparece la opción de filtrar por tipo de sustancia. 

Ver la visualización en pantalla completa

 

5.3. Ratio resultados toxicológicos positivos para las CCAAs

Esta representación visual se ha realizado teniendo en cuenta las ratios de los resultados toxicológicos positivos por el parque de vehículos de cada CCAA. Contabilizamos como resultado positivo cada vez que un sujeto da positivo en el análisis de cada una de las sustancias, es decir, un mismo sujeto puede contabilizar varias veces en el caso de que sus resultados sean positivos para varias sustancias. Para ello se ha generado durante el preprocesamiento de datos la tabla “resultados_ccaa.csv”.

Hay que remarcar que no tiene por qué coincidir la CCAA de matriculación del vehículo con la CCAA donde se ha registrado el accidente, no obstante, ya que este es un ejercicio didáctico y se presupone que en la mayoría de los casos coinciden, se ha decido partir de la base de que ambos coinciden. 

Mediante un mapa coroplético podemos visualizar que CCAAs son las que poseen las mayores ratios. A la información aportada en la primera visualización sobre este tipo de gráficos, hay que añadir lo siguiente.

Según se define en la “Guía de visualización de datos para Entidades Locales” uno de los requisitos de los mapas coropléticos o de coropletas es utilizar una medida o dato numérico, un dato categórico para el territorio y un dato geográfico de polígono.  

 La tabla y el gráfico de barras aportan la misma información de una forma complementaria.  

Una vez obtenida la visualización, mediante la pestaña despegable, aparece la opción de filtrar por tipo de sustancia.

Ver la visualización en pantalla completa

 

6. Conclusiones del estudio

La visualización de datos es uno de los mecanismos más potentes para explotar y analizar el significado implícito de los datos, independientemente del tipo de dato y el grado de conocimiento tecnológico del usuario. Las visualizaciones nos permiten construir significado sobre los datos y la creación de narrativas basadas en la representación gráfica. En el conjunto de representaciones gráficas de datos que acabamos de implementar se puede observar lo siguiente: 

  • El parque de vehículos de las Comunidades Autónomas de Andalucía, Cataluña y Madrid corresponde a cerca del 50% del total del país. 

  • Las ratios de resultados toxicológicos positivos más altas se presentan en las motocicletas, siendo del orden de tres veces superior a la siguiente ratio, los turismos, para la mayoría de las sustancias. 

  • Las ratios de resultados toxicológicos positivos más bajas se presentan en los camiones. 

  • Los vehículos de dos ruedas (motocicletas y ciclomotores) presentan ratios en \"cannabis\" superiores a los obtenidos en \"cocaina\", mientras que los vehículos de cuatro ruedas (turismos, furgonetas y camiones) presentan ratios en \"cocaina\" superiores a los obtenidos en \"cannabis\".

  • La comunidad autónoma donde mayor es la ratio para el total de sustancias es La Rioja. 

Cabe destacar que en las visualizaciones tienes la opción de filtrar por tipo de vehículo y tipo de sustancia. Te animamos a lo que lo hagas para sacar conclusiones más específicas sobre la información concreta en la que estés más interesado. 

Esperemos que esta visualización paso a paso te haya resultado útil para el aprendizaje de algunas técnicas muy habituales en el tratamiento y representación de datos abiertos. Volveremos para mostraros nuevas reutilizaciones. ¡Hasta pronto! 

 

 

calendar icon
Blog

A lo largo del pasado año, la sección académica de data.europa.eu amplió su oferta formativa sobre datos abiertos publicando nuevas conferencias, cursos y talleres. Así, data.europa.academy compartió un total de 15 webinars relacionados con los datos abiertos, los espacios de datos y otras temáticas y cuestiones técnicas que giran en torno a la economía del dato.

Siguiendo la filosofía de formación online presente en este ámbito de expertise, los profesionales y usuarios interesados en los datos abiertos han podido asistir a las conferencias desde cualquier lugar de la UE, ya que tan solo se requería rellenar un formulario de inscripción vía web.

Entre los webinars del recién concluido 2022 encontramos workshops y seminarios sobre la calidad de los datos abiertos y los metadatos, la perspectiva legal y técnica de la apertura de los datos abiertos, el potencial de los datos abiertos en tiempo real o las oportunidades que estos ofrecen a los ciudadanos a la hora de desarrollar soluciones y servicios.

De esta forma, el abanico de contenidos es muy amplio desde el punto de vista de la temática y el nivel de accesibilidad técnica, lo que facilita el filtrado de los webinars en función de los intereses. Además, como buena parte de las formaciones proceden de informes previamente publicados por el portal de datos europeos, estas cuentan con una documentación de apoyo muy útil a la hora de completar los conocimientos adquiridos.

Con el objetivo de recoger de manera ordenada esta valiosa fuente de conocimiento, a continuación, podrás acceder a las 15 conferencias publicadas a lo largo del pasado año, así como a sus respectivas presentaciones de apoyo.

Calidad de datos y metadatos

  • Descripción: Este webinar hace hincapié en explicar por qué los datos y metadatos de alta calidad son la base para obtener resultados beneficiosos en el ámbito productivo, así como para fomentar la toma de decisiones con conocimiento de causa.
  • Enlace al visionado: https://www.youtube.com/watch?v=PcyJX8xbyik

Mejores prácticas de datos abiertos: el caso de Estonia, Eslovenia y Ucrania

  • Descripción: A través de esta conferencia, desde el portal europeo tratan de explicar la importancia y el impacto que puede llegar a tener la reutilización de datos abiertos. Para ello, recurren a la exposición de buenas prácticas y casos de uso de varios portales europeos basados en este tipo de datos.
  • Enlace al visionado: https://www.youtube.com/watch?v=mTVayKTUC-s

Datos en tiempo real

Descripción: Este curso se detiene a explicar qué son los datos en tiempo real y cuáles son los estándares y tecnologías más utilizadas con este tipo de datos.

Enlace al visionado: https://www.youtube.com/watch?v=yl4ZotQQfuk

Demanda y reutilización de datos en el sector público

  • Descripción: Este seminario web ofrece una introducción a la reutilización de datos por parte de las instituciones públicas, a la par que pone el foco en la importancia de atender y medir la demanda de datos por parte de este grupo específico de usuarios.
  • Enlace al visionado: https://www.youtube.com/watch?v=uTd7Ti0aQNA&t=752s

Oportunidades y retos de los datos generados por los ciudadanos

  • Descripción: Este seminario explora cómo los datos generados por los ciudadanos están actualmente disponibles en portales de datos abiertos de diferentes niveles de las administraciones públicas en Europa.
  • Enlace al visionado: https://www.youtube.com/watch?v=4FHaerYTFmc&t=1801s

El papel de data.europa.eu en el contexto de los espacios de datos de la UE

  • Descripción: Este webinar permite a los proveedores de datos comprender cómo pueden hacer un mejor uso de las diferentes infraestructuras y, así, proporcionar más visibilidad a los activos de datos abiertos evaluando el papel de data.europa.eu en contextos de los espacios comunes europeos de datos.
  • Enlace al visionado: https://www.youtube.com/watch?v=DjhGkGMoKso

El anuario regional de Eurostat se digitaliza

  • Descripción: Se trata de una conferencia dedicada a la evolución del anuario regional de Eurostat, el cual ha pasado de ser una publicación impresa a convertirse en una publicación digital que funciona como una moderna herramienta interactiva.
  • Enlace al visionado: https://www.youtube.com/watch?v=q0mgg4IbXUY

Data.europa.eu - El portal oficial de datos europeos (webinar para proveedores de datos)

  • Descripción: Se trata de un seminario que ofrece información general sobre data.europa.eu, un portal que funciona como puerta de acceso a la información del sector público en diferentes portales de datos abiertos de instituciones, agencias y organismos de la UE y organizaciones nacionales e internacionales de todo el mundo. La formación ofrece una visión general de los servicios prestados a través del portal.
  • Enlace al visionado: https://www.youtube.com/watch?v=4s9Yol8GsSc

Medición del impacto de los datos abiertos en Europa

  • Descripción: El objetivo de esta conferencia es trasladar una visión general sobre cuáles son los métodos destinados a evaluar el impacto de los datos abiertos. Tras una breve introducción, los ponentes invitados pertenecientes a los equipos nacionales de datos abiertos de Polonia y Francia presentaron ejemplos reales que evidencian cómo miden el impacto de los datos abiertos en dichos países.
  • Enlace al visionado: https://www.youtube.com/watch?v=Cp7-qSNLR1U

Visualización de datos

Historias del Observatorio de Casos de Uso - Volumen I

  • Descripción: Este webinar forma parte de una serie de tres sesiones dedicadas al proyecto de investigación "Observatorio de Casos de Uso" y sus publicaciones. En la primera parte de esta formación, se ofrece una visión general del proyecto, su metodología y las conclusiones de la publicación en 2022. Durante la segunda parte del webinar, cuatro de los responsables de los treinta casos de reutilización participantes en la investigación toman la palabra para presentar sus soluciones de datos abiertos.
  • Enlace al visionado: https://www.youtube.com/watch?v=-FT0OxfgF0M

Tendencias de los datos geoespaciales

  • Descripción: Este seminario se centra en las tendencias emergentes en la comunidad geoespacial y en cómo estas junto a las normas y las nuevas ideas pueden ser relevantes para data.europa.eu.
  • Enlace al visionado: https://www.youtube.com/watch?v=Hyt1MNm9l00

Federación de datos geoespaciales en data.europa.eu

  • Descripción: Esta formación tiene como finalidad presentar los datos geoespaciales que pueden encontrarse en data.europa.eu, así como explicar el proceso de federación de este tipo de datos. Los ponentes examinaron de cerca un conjunto de datos geoespaciales en data.europa.eu y exploraron el recorrido de sus metadatos desde el geocatálogo de origen hasta el portal.
  • Enlace al visionado: https://www.youtube.com/watch?v=7UPneA4QOoo

Entender los datos abiertos desde la perspectiva de la apertura legal (webinar para proveedores de datos)

  • Descripción: Se trata de un webinar que pretende explicar y debatir qué implica la apertura desde una perspectiva jurídica y cómo puede lograrse de forma óptima. El objetivo no es proporcionar una formación jurídica puramente teórica, sino identificar las mejores prácticas y los recursos que los proveedores de datos pueden utilizar para lograr la apertura y darse cuenta de cuándo esta no se puede lograr.
  • Enlace al visionado: https://www.youtube.com/watch?v=53QdDf4LJN0&t=1s

Entender la apertura técnica de los datos abiertos (webinar para proveedores de datos)

  • Descripción: El objetivo de esta formación es guiar a los proveedores de datos a través del principio de apertura técnica y el proceso de gestión de datos para pasar de formatos de datos cerrados a abiertos. Un formato abierto es aquel en el que las especificaciones del programa están a disposición de cualquiera, de forma gratuita y sin limitaciones de reutilización impuestas por los derechos de propiedad intelectual.
  • Enlace al visionado: https://www.youtube.com/watch?v=cQMwMXd4n9I&t=17s

De cara al nuevo año que ya está en marcha, el objetivo de data.europa.eu es continuar ampliando los recursos formativos de su sección académica con la programación de seminarios como Datos y el Derecho de la competencia u otro vinculado a la reciente publicación del informe Open Data Maturity 2022.

Si quieres obtener más información sobre los futuros seminarios sigue al portal europeo de los datos abiertos en el siguiente enlace y permanece atento a las novedades en este aspecto emitidas desde datos.gob.es.

 
 
calendar icon