Cuando pensamos en datos abiertos nuestra primera intuición suele estar dirigida hacia los datos generados por los organismos del sector público en el ejercicio de sus funciones y que son puestos a disposición de los ciudadanos y empresas para su reutilización, esto es, en datos abiertos del sector público o datos públicos abiertos. Y es normal, porque la información del sector público representa una fuente extraordinaria de datos y el uso inteligente de estos datos, incluido su tratamiento a través de aplicaciones de inteligencia artificial, tiene un gran potencial transformador en todos los sectores de la economía, tal como reconoce la directiva europea relativa a los datos abiertos y la reutilización de la información del sector público
Una de las novedades más interesantes que introdujo la directiva fue la definición inicial aunque ampliable de 6 categorías temáticas de conjuntos de datos de alto valor, cuya reutilización está asociada a considerables beneficios para la sociedad, el medio ambiente y la economía. Estas seis áreas, Geoespacial, Observación de la Tierra y medio ambiente, Meteorología, Estadística, Sociedades y propiedad de sociedades y Movilidad, son las que en 2019 se consideraron con un mayor potencial para la creación de servicios de valor añadido y aplicaciones basadas en tales conjuntos de datos. Sin embargo, desde la óptica de un 2021 en el que va a cumplirse prácticamente un año de crisis sanitaria global, parece claro que en esta lista se echan de menos dos áreas clave con un gran potencial impacto para la sociedad como son la salud y la educación.
De hecho, encontramos que por una parte los centros educativos están exentos explícitamente de algunas obligaciones en la directiva y por otra que los datos del sector salud apenas si son mencionados. La directiva, por tanto, no aporta un desarrollo de estas dos áreas que las circunstancias sobrevenidas con la pandemia de covid-19 han puesto en la primera línea de las prioridades de la sociedad.
La disponibilidad de los datos de salud y educación
A pesar de que los sistemas de salud, tanto públicos como privados, generan y custodian en las historias clínicas de las personas una enorme cantidad de datos de gran valor, la disponibilidad de estos datos es muy escasa debido a la muy elevada complejidad de su tratamiento de forma segura. Normalmente los conjuntos de datos relativos a la salud solo están a disposición de la entidad que los genera, a pesar del gran valor que su liberación podría tener para el avance de la investigación científica.
Algo equivalente podría decirse de los datos que se generan en la interacción de los estudiantes con las plataformas educativas, que en general tampoco están disponibles como datos abiertos. Al igual que en el sector salud estos conjuntos de datos habitualmente solo están a disposición de sus propietarios, para quienes constituyen un valioso activo para la mejora de las plataformas, lo cual solo es una pequeña parte de su valor potencial para la sociedad.
La directiva establece que los datos de alto valor deberían publicarse en formatos abiertos que puede utilizar, reutilizar y compartir libremente cualquier persona con cualquier fin. Además, con el objetivo de garantizar su máxima repercusión y facilitar la reutilización, los conjuntos de datos de alto valor deberían ponerse a disposición para su reutilización con muy pocas restricciones legales y sin coste alguno.
Los datos de salud son altamente sensibles para la privacidad de las personas, por lo que siempre es necesario tener presente el delicado compromiso entre el respeto a la privacidad y la necesidad de apoyar el avance en la investigación científica. Probablemente la consideración de los datos de salud y educación como datos abiertos de alto valor debiera mantener algunas restricciones particulares por la naturaleza y sensibilidad propia de estos datos y potenciar figuras como la donación de datos con fines de investigación por parte de los pacientes o el intercambio con el mismo fin entre investigadores. En este sentido la regulación sobre protección de datos de 2018 introdujo la posibilidad de reutilizar datos con fines de investigación siempre que se adopten las oportunas medidas de seudonimización y el resto de garantías previstas legalmente.
La importancia de la colaboración público-privada
La educación y la salud son dos áreas en los que el sector privado o la colaboración del sector público y privado está realizando interesantes avances para convertir parte del potencial de los datos abiertos en beneficios para la sociedad. La publicación de datos abiertos no es patrimonio exclusivo del sector público y existe una larga tradición de colaboración entre la iniciativa privada y el sector público, en gran medida canalizado a través de las universidades. Veamos algunos ejemplos:
- Existen un buen número de iniciativas como la pionera The UCI Machine Learning Repository fundada en 1987 como un repositorio de conjuntos de datos que utiliza la comunidad de inteligencia artificial para el análisis empírico de algoritmos de aprendizaje automático. Este repositorio ha sido citado en más de 1000 ocasiones, el número más alto de citas obtenido en el dominio de las ciencias de la computación. En este y otros repositorios gestionados también por universidades o fundaciones con donaciones de empresas privadas podemos encontrar también conjuntos de datos abiertos liberados por empresas o en los que éstas han colaborado activamente para su creación o desarrollo.
- También las grandes empresas tecnológicas, sin duda inspiradas por estas iniciativas, mantienen buscadores o repositorios de datos abiertos como el buscador de conjuntos de datos de Google, el registro de datos abiertos de AWS, o los conjuntos de datos de Microsoft Azure, donde los conjuntos de datos relacionados con la salud o la educación son cada vez más habituales.
- En cuanto a datos que pueden contribuir a mejorar educación por ejemplo, The Open University publica OULAD (OpenUniversity Learning Analytics Dataset), un conjunto de datos abiertos de analítica del aprendizaje que contiene datos sobre cursos, estudiantes y sus interacciones con el entorno de aprendizaje virtual para siete cursos. Sin embargo, existen muy pocos conjuntos de datos homologables cuya utilización de forma conjunta en proyectos sin duda permitirían desarrollar mayores avances en áreas como la detección del riesgo de abandono por parte de los estudiantes.
- En lo que se refiere al sector salud, merece la pena destacar el caso de la plataforma española HealthData 29, desarrollada por Fundación 29, que tiene como objetivo crear la infraestructura necesaria para que sea posible publicar de forma segura conjuntos de datos abiertos de salud para que estén disponibles para la comunidad con fines de investigación. Como parte de esta infraestructura Fundacion 29 ha publicado el Health Data Playbook que es una guía para la creación dentro del marco técnico y legal vigente de un repositorio público de datos procedentes de los sistemas de salud, de manera que puedan ser utilizados en la investigación médica. En la elaboración de esta guía han colaborado Microsoft como socio tecnológico y Garrigues como socio jurídico y está destinada a las organizaciones que investigan en salud.
Por el momento la plataforma sólo tiene disponible el conjunto de datos Covid Data Save Lives (COVIDDSL) publicado por el Grupo Hospitalario Universitario HM Hospitales, compuesto por datos clínicos de las interacciones registradas en el proceso de tratamiento del covid-19. Sin embargo, se trata de un excelente ejemplo del potencial que podemos estar desaprovechando en el mundo entero por no haber recogido y publicado de forma sistematizada y a escala global una mayor y mejor cantidad de datos de los pacientes diagnosticados de covid-19. La creación de modelos predictivos de la evolución de la enfermedad en los pacientes, el desarrollo de modelos epidemiológicos sobre la propagación del virus o la extracción de conocimiento sobre el comportamiento del virus para el desarrollo de vacunas son sólo algunos de los casos de uso que se verían beneficiados por una mayor disponibilidad de estos datos.
La educación y la salud son dos de las grandes preocupaciones de todas las sociedades desarrolladas del mundo porque están estrechamente relacionadas con el bienestar de sus ciudadanos. Pero quizá nunca hemos sido tan conscientes de ello como en el último año y esto representa una extraordinaria oportunidad para impulsar iniciativas que contribuyan a liberar una mayor cantidad de datos abiertos de salud y educación. Ya sea como datos de alto valor o con cualquier otra figura estos conjuntos de datos son clave para que podamos reaccionar mejor ante futuras situaciones de crisis sanitaria pero también para ayudarnos a superar las secuelas de la actual.
Contenido elaborado por Jose Luis Marín, Senior Consultant in Data, Strategy, Innovation & Digitalization.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
La nueva Directiva sobre la apertura de los datos y la reutilización de la información del sector público, que se adoptó el pasado mes de junio, vendrá a sustituir y mejorar la antigua Directiva 2003/98/CE relativa a la reutilización de la información del sector público. Entre los cambios más significativos dentro de esta nueva Directiva está el objetivo de especificar una lista de conjuntos de datos de alto valor de entre los que se encuentran en poder de los organismos del sector público.
La realización de una lista como esta supone un hito muy importante porque, por primera vez en 15 años de Directiva, tendremos una guía explícita y común sobre cuáles son los conjuntos mínimos de datos que deberán siempre estar disponibles, así como las condiciones para su reutilización en toda la Unión Europea – que incluirán su reutilización de forma gratuita, a través de interfaces de programación de aplicaciones (APIs), en un formato legible por las máquinas y, cuando proceda, incluyendo la opción de descarga masiva.
Las preguntas que todos nos hacemos inmediatamente son ¿cuáles son esos datos de alto valor a los que se refieren? ¿Y cuáles son los criterios específicos que deberíamos aplicar a la hora de identificar esos datos de alto valor?
La Directiva define los datos de alto valor como “documentos cuya reutilización está asociada a considerables beneficios para la sociedad, el medio ambiente y la economía, en particular debido a su idoneidad para la creación de servicios de valor añadido, aplicaciones y puestos de trabajo nuevos, dignos y de calidad, y al número de beneficiarios potenciales de los servicios de valor añadido y aplicaciones basados en tales conjuntos de datos” Esta definición nos ofrece varias pistas sobre la manera en la que se prevé que se identifiquen esos conjuntos de datos de alto valor a través de una serie de indicadores que incluirían:
-
Su potencial para generar beneficios sociales o medioambientales significativos.
-
Su potencial para generar beneficios económicos y nuevos ingresos.
-
Su potencial para generar servicios innovadores.
-
Su potencial en cuanto a número de usuarios beneficiados, con atención particular a las PYMEs.
-
Su capacidad para ser combinados con otros conjuntos de datos
Por otro lado, la Comisión abrió un proceso de consulta hace ya algunos años que ha servido para evaluar la opinión pública sobre la prioridad de los datos a publicar. Son también varios los estudios y entidades de referencia en los que la Comisión se ha inspirado y que han venido publicando sus propias recomendaciones en cuanto a cuáles serían los conjuntos de datos de alto valor estratégico, como por ejemplo:
-
Los resultados del estudio MEPSIR sobre la explotación de los recursos de información de la Unión Europea.
-
El anexo técnico del G8 Open Data Charter.
-
Las materias que generan negocio por parte del sector infomediario en España, según el análisis del sector realizado por el ONTSI.
-
Los criterios establecidos por el programa ISA de soluciones de interoperabilidad de la Comisión Europea.
-
La norma UNE 178301:2015 sobre Datos Abiertos en Ciudades Inteligentes.
-
Los datos analizados por el Open Data Barometer y el Global Open Data Index.
-
Los conjuntos de datos a publicar propuestos por la Federación de Municipios y Provincias - FEMP.
Además, la propia Directiva nos ofrece una vez más otra pista adicional en su anexo sobre cuáles podrían ser esos conjuntos de datos finalmente seleccionados por su alto valor, a través de una serie de temáticas prioritarias que en buena medida coinciden con las propuestas realizadas por los organismos anteriormente mencionados: datos geoespaciales, observación de la tierra y medioambientales, meteorológicos, estadísticos, registros empresariales o datos sobre el transporte.

Cabe igualmente recordar que los datos relacionados con algunos de las temáticas mencionadas están también regulados por legislación sectorial específica – como por ejemplo la Directiva 2007/2/CE sobre datos espaciales (INSPIRE), la Directiva 2003/4/CE sobre información medioambiental y la Directiva 2010/40/UE sobre datos de transporte – y por lo tanto dicha legislación deberá también ser tenida en cuenta a la hora de definir el ámbito de aplicación final.
No obstante, tal y como aclara la nueva Directiva, ni la lista temática es cerrada ni los conjuntos de datos específicos están todavía definidos. Y es que la Comisión Europea ha encargado recientemente un nuevo estudio de impacto precisamente con el objetivo de definir en detalle y fundamentar cuáles deberían ser finalmente esos conjuntos de datos denominados como “de alto valor”. Sin embargo, existen también voces críticas que claman por la necesidad de una mejor definición de los criterios de análisis a la hora de decidir cuáles serán finalmente esos datos, y también por implicar al conjunto de la sociedad en el proceso. Por fortuna, tanto los críticos como la Comisión coinciden en que la solución pasa por ampliar el debate y establecer una serie de consultas públicas y con expertos – tal y como viene recogido ya en la Directiva y en el estudio de impacto previsto – como es el caso del debate que tendrá lugar en la próxima edición del Encuentro Aporta el 18 de diciembre en Madrid y cuyo lema es precisamente “Impulsando los datos de alto valor”.
Por tanto, deberemos todavía esperar algún tiempo hasta que se completen todos los estudios y consultas previstos para poder conocer finalmente en detalle cuáles serán esos datos de alto valor de obligada publicación en la Unión Europea, aunque con toda seguridad será con margen suficiente antes de finalizar el plazo de transposición de la Directiva en Julio de 2021.
Contenido elaborado por Carlos Iglesias, Open data Researcher y consultor, World Wide Web Foundation.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
Ya está en marcha la 9ª edición del Encuentro Aporta. La cita será el 18 de diciembre en Madrid, en jornada de mañana (de 9:00 a 14:30), y estará centrada en los datos de alto valor.
Los datos de alto valor públicos - y también privados- representan una fuente extraordinaria de información a considerar debido a su gran impacto para la ciudadanía. Cuando hablamos de datos de alto valor hacemos referencia a aquellos delimitados por la Directiva (UE) 2019/1024, de 20 de junio de 2019, relacionados con los ámbitos geoespacial, ambiental, meteorológico, estadístico, de las sociedades mercantiles y de la movilidad. Este tipo de datos son un elemento clave para dinamizar servicios innovadores y generar beneficios socioeconómicos y medioambientales para toda la población.
La relevancia e interés de la comunidad por los datos de alto valor ha llevado a considerarlos el eje principal de la nueva edición del Encuentro Aporta. Bajo el lema “impulsando los datos de alto valor” se abordarán los retos y oportunidades a los que tendremos que hacer frente para poder aprovechar todo el valor de este tipo de datos.
La jornada se estructurará en 3 mesas coloquio, cada una de ellas centrada en distintos actores ligados al ecosistema de datos: los publicadores de datos de alto valor, las aceleradoras que tratan de impulsar su reutilización, y las empresas que generan servicios y productos de alto valor en base a su reutilización.
-
Mesa 1: Hacia la disponibilidad de datos de alto valor. La primera mesa estará formada por representantes de las administraciones públicas generadoras de datos de alto valor. El objetivo es analizar qué conjuntos de datos están ya disponibles y sus potenciales aplicaciones, así como cuáles se deberían abrir para responder a la demanda de los usuarios y en qué condiciones: formatos legibles de manera automatizada, descargables a través de interfaces de programación de aplicaciones (API) y de manera masiva, con la granularidad y formatos necesarios, y en base a las licencias adecuadas.
-
Mesa 2: Acelerando el uso de datos de alto valor. La mesa dos será un punto de encuentro de proyectos dirigidos a impulsar el ecosistema europeo de emprendimiento basado en datos. Para ello, se ha invitado a representantes de aceleradoras de negocios e iniciativas cuyo común denominador es contribuir a superar las barreras a las deben hacer frente las pymes y las start-ups especializadas en datos, de cara a alcanzar el éxito en el mercado.
-
Mesa 3. Nuevos paradigmas tecnológicos y la importancia de los datos para su desarrollo. La última mesa contará con agentes del sector reutilizador que debatirán sobre las oportunidades que brinda la disponibilidad de datos de alto valor y los retos a los que es preciso hacer frente para incentivar su uso.
Puedes ver la agenda completa en este enlace. El evento es gratuito, pero debido a que el aforo es limitado es necesario inscribirse.
Puedes seguir las novedades del evento en redes sociales, con el hashtag #Aporta2019 y en datos.gob.es.
