La inteligencia artificial (IA) ha revolucionado diversos aspectos de la sociedad y nuestro entorno. Con avances tecnológicos cada vez más rápidos, la IA está transformando la forma en que se realizan las tareas diarias en diferentes sectores de la economía.
Por ello, el empleo es uno de estos sectores en los que más impacto genera. Entre las principales novedades, esta tecnología está introduciendo nuevos perfiles profesionales y modificando o transformando puestos de trabajo ya existentes. Ante este panorama, se plantean interrogantes sobre el futuro del empleo y cómo afectará a los trabajadores en el mercado laboral.
¿Cuáles son las principales cifras de la IA en el empleo?
El Fondo Monetario Internacional lo ha señalado recientemente: la Inteligencia Artificial afectará a un 40% de los puestos de trabajo en todo el mundo, tanto remplazando unos como complementando y creando otros nuevos.
La irrupción de la IA en el mundo laboral ha facilitado que algunas tareas que antes requerían de la intervención humana, ahora se realicen de forma más automática. Además, como advierte este mismo organismo internacional, frente a otros procesos de automatización vividos en décadas pasadas, la era de la IA viene también a transformar puestos de trabajo de alta preparación o cualificación (high skilled job).
Asimismo, este documento expone que el impacto de la IA en el trabajo será diferente según el nivel de desarrollo del país. Así, será mayor en el caso de economías avanzadas, donde se prevé que hasta 6 de cada 10 empleos se vean condicionados por esta tecnología. En el caso de economías emergentes, llegará hasta un 40% y, en países de bajos ingresos, se reflejará en un 26% de los empleos. Por su parte, la Organización Internacional del Trabajo (OIT), también advierte en su informe ‘Generative AI and Jobs: A global analysis of potential effects on job quantity and quality’ que los efectos de la llegada de la IA a los puestos administrativos afectarán en particular a las mujeres, debido a la alta tasa de empleo femenino en este sector laboral.
En el caso español, según cifras del pasado año, no sólo se observa la influencia de la IA en los puestos de trabajo, sino que aflora la dificultad de conseguir personas con formación especializada. Según el informe sobre el talento en inteligencia artificial elaborado por Indesia, el pasado año un 20% de las ofertas de empleo relacionadas con datos e Inteligencia Artificial no se cubrió por falta de profesionales con especialización.
Proyecciones a futuro
Aunque aún no existen cifras fidedignas que permitan ver cómo serán los próximos años, algunos organismos, como la OCDE, afirman que aún estamos en un estadio inicial del desarrollo de la IA en el mercado laboral, pero a las puertas de un avance a gran escala. Según su informe ‘Employment Outlook 2023’, “la adopción de la IA por parte de las empresas sigue siendo relativamente baja”, aunque advierte de que “los rápidos avances, incluidos los de la IA generativa (por ejemplo, ChatGPT), la caída de los costes y la creciente disponibilidad de trabajadores con conocimientos de IA sugieren que los países de la OCDE pueden estar al borde de una revolución de la IA”. Cabe destacar que la IA generativa es uno de los campos donde tienen un gran impacto los datos abiertos.
¿Y qué ocurrirá en España? Quizá todavía es pronto para apuntar cifras muy precisas, pero el informe elaborado el pasado año por Indesia ya advirtió de que la industria española demandará más de 90.000 profesionales del área de data e IA hasta 2025. Este mismo documento apunta además los desafíos que deberán acometer las compañías españolas, ya que la globalización y la intensificación del trabajo en remoto lleva a que las empresas nacionales estén compitiendo con compañías internacionales que ofrecen también empleo 100% a distancia, “con mejores condiciones salariales, proyectos más atractivos e innovadores y planes de carrera más retadores”, señala el informe.
¿Qué empleos está modificando la IA?
A pesar de que uno de los mayores temores de la llegada de esta tecnología al mundo laboral es la destrucción del empleo, las últimas cifras publicadas por la Organización Internacional del Trabajo (OIT), apuntan a un escenario bastante más halagüeño. En concreto, este organismo prevé que la IA complementará puestos de trabajo en lugar de destruirlos.
No hay excesiva unanimidad con respecto a cuáles serán los sectores más afectados. En su informe ‘The impact of AI on the workplace: Main findings from the OECD AI surveys of employers and workers’, la OCDE señala que industria manufacturera y la financiera son dos de las áreas más afectadas por la irrupción de la Inteligencia Artificial.
Por otro lado, Randstad ha publicado recientemente un informe sobre la evolución de los últimos dos años con una visión a futuro hasta 2033. El documento apunta que los sectores más afectados serán los empleos ligados al comercio, la hostelería y el transporte. Entre aquellos empleos que permanecerán sin apenas afección, se encuentran la agricultura, ganadería y pesca, las actividades asociativas, las industrias extractivas o la construcción. Y, por último, un tercer grupo, en el que se encuentran los sectores laborales en los que habrá creación de perfiles nuevos. En este caso, se encuentran las empresas de programación y consultoría, las científicas y técnicas, las telecomunicaciones y los medios de comunicación y las publicaciones.
Más allá de los desarrolladores de software, entre los nuevos puestos de trabajo que está trayendo la inteligencia artificial, encontraremos alguno que van desde expertos en procesamiento del lenguaje natural o ingenieros de AI Prompt (expertos en hacer las preguntas necesarias para conseguir que aplicaciones de IA generativa ofrezcan un resultado específico) hasta auditores de algoritmos o incluso artistas.
En definitiva, aunque todavía es pronto para señalar qué tipo de empleos exactos son los más influenciados, las organizaciones apuntan un dato: a mayor probabilidad de automatización de los procesos ligados al puesto de trabajo, existe una mayor afección de la IA a la hora de transformar o modificar ese perfil laboral.
Los retos de la IA en el mercado laboral
Uno de los organismos que más ha estudiado cuáles son los retos y repercusiones de la IA en el empleo es la OIT. En el plano de las necesidades, la OIT señala la necesidad de diseñar políticas que apoyen una transición ordenada, justa y consultiva. Para ello, apunta que la voz de los trabajadores, la capacitación y una protección social adecuada serán claves para gestionar la transición. “De lo contrario, se corre el riesgo de que sólo unos pocos países y participantes en el mercado bien preparados se beneficien de la nueva tecnología”, advierte el organismo.
Por su parte, la OCDE señala una serie de recomendaciones para que los gobiernos puedan acomodar esta nueva realidad laboral, entre las que se encuentra la necesidad de:
-
Establecer políticas concretas que garanticen la aplicación de principios clave para un uso fiable de la IA. A través de la puesta en marcha de estos mecanismos, la OCDE considera que se aprovechan los beneficios que la IA puede aportar al lugar de trabajo y, al mismo tiempo, se hace frente a los posibles riesgos para los derechos fundamentales y en favor del bienestar de los trabajadores.
-
Crear nuevas cualificaciones, mientras que otras cambiarán o quedarán obsoletas. Para ello, apunta a la formación, necesaria “tanto para los trabajadores poco cualificados como para los de más edad, pero también para los más cualificados”. Por ello, “los gobiernos deberían animar al empresariado a ofrecer más formación, integrar las competencias en IA en la educación y apoyar la diversidad en la mano de obra de la IA”.
En resumen, aunque las cifras todavía no permiten observar el panorama al completo, varios organismos internacionales sí coinciden en que la revolución de la IA está por llegar. También, apuntan la necesidad de acomodarse a este nuevo escenario a través de la formación interna en las empresas para poder hacer frente a las necesidades que plantea la tecnología. Por último, en materia gubernamental, organismos como la OIT señalan que es necesario asegurar que la transición en la revolución tecnológica sea justa y dentro de unos márgenes de usos fiables de la Inteligencia Artificial.
Los datos geográficos nos permiten conocer el mundo que nos rodea. Desde la localización de rutas óptimas para viajar hasta el monitoreo de ecosistemas naturales, pasando por la planificación y el desarrollo urbano o la gestión de emergencias, los datos geográficos presentan un gran potencial para impulsar el desarrollo y la eficiencia en múltiples áreas económicas y sociales. Por todo ello, se consideran conjuntos de datos de alto valor por la Comisión Europea, y cuentan con unas obligaciones específicas para que su publicación sea accesible e interoperable.
Para conocer cuál es el impacto real de esta tipología de datos, se han realizado diversos informes y estudios. A continuación, se recogen varios de ellos, que inciden en el reto de medir el impacto de la información geográfica.
Los datos geoespaciales en el Ministerio de Transportes y Movilidad Sostenible. Impacto de la información coproducida por IGN y CNIG (2024)
- Puedes leer el informe entero aquí.
Este informe, elaborado por ASEDIE y el CNIG, pretende obtener conclusiones acerca del uso y la percepción de los servicios coproducidos por el Instituto Geográfico Nacional (IGN) y el Centro Nacional de información Geográfica (CNIG) con el fin de conocer el beneficio que aportan a la actividad diaria de las empresas que los utilizan y a la sociedad. Para ello se ha realizado una encuesta dirigida a las empresas usuarias de datos geoespaciales, gracias a la cual se ha podido elaborar una clasificación de las empresas reutilizadoras de datos geográficos.
De las 170 empresas consideradas, el 70,0% están constituidas por autónomos y microempresas (menos de 10 empleados). Estas empresas se ubican principalmente en la Comunidad de Madrid (25,6%), Cataluña (16,3%), Andalucía (14%), Comunidad Valenciana (11,6%) y Castilla y León (11,6%). El 53,3% asegura reutilizar datos de las Infraestructuras de Datos Espaciales (IDE) y el 51% datos abiertos del INE, entre otros. Los productos más utilizados son las ortofotos e imágenes de satélite (74%), seguido de los Mapas vectoriales y las bases cartográficas y topográficas (63%), y del LiDAR (58%).
Con respecto a su impacto económico, el informe estima un impacto medio del 35,7% en las ventas de las empresas encuestadas. En concreto, la información geográfica abierta del IGN y CNIG suponen un impacto del 12,4% de las ventas.
El informe también incluye el análisis de casos de uso recopilados, así como entrevistas en profundidad a empresas del sector como ejemplo de buenas prácticas y, por otra parte, actualiza la información procedente del informe anual de Asedie sobre la Economía del dato en su ámbito infomediario de 2023 respecto a los datos económicos del subsector geográfico.
Beneficios económicos del nodo central de la IDE por CNIG y Universidad de Leuven (2021)
-
Puedes leer el informe entero aquí.
Este documento desarrolla y prueba una metodología para estimar los beneficios económicos generados por la IDEE, Infraestructura de Datos Espaciales de España (IDEE), que establece la publicación y accesibilidad de los datos espaciales a través servicios web geográficos gratuitos de visualización y de descarga producidos por las organizaciones cartográficas, medioambientales, catastrales, de observación del territorio a nivel nacional, regional y local desde el 2004, de acuerdo con normas, estándares y recomendaciones que garantizan su interoperabilidad.
El estudio debía responder a la pregunta qué pasaría si la IDEE desaparecería. Para el estudio solo se consideró el nodo central de la IDEE, entendiendo como tal los servicios y datos geográficos coproducidos entre los socios del Sistema Cartográfico Nacional, y centrándose en servicio web de mapas (WMS) y teselas de mapas (WMTS). Los nodos de los ministerios, comunidades autónomas y entidades locales no fueron parte de su alcance.
Para realizar el cálculo se utilizaron dos vías de investigación:
-
Comparación con los costes de usar Google Maps. La aplicación de los diferentes escenarios condujo a un beneficio/valor de los 6 WMTS y 13 WMS de mínimo 355.646 y máximo 891.144 euros.
-
Comparación con las tasas que otros países aplican por el uso de sus datos y servicios. A pesar de las dificultades de calcular la tasa por solicitud, debido a la existencia de diferentes enfoques en cada país, el valor total de la IDEE se estimó entre 34.000 y 14 millones de euros.
Para que otros organismos puedan adaptar el estudio a sus particularidades, se ha creado un fichero Excel, a modo de calculadora, con la siguiente plantilla de cálculo.
Este informe se une a otros realizados por la IDEE, como estos documentos para estimar el coste medio de la generación de metadatos o la implementación de servicios de visualización y descarga de conjuntos de datos conformes a Inspire, ambos realizado en 2019.
Informe de rendimiento de ICEARAGON y ARAGEA por el Gobierno de Aragón (2024)
-
Puedes leer el informe entero aquí.
Los gobiernos regionales también tienen interés en conocer el impacto de sus servicios de información geográfica. Es el caso del Gobierno de Aragón, que recientemente presentó un informe sobre el rendimiento de la Infraestructura de Conocimiento Espacial de Aragón (ICEARAGON) y la Red de Geodesia Activa de Aragón (AREAGA).
En total, se estima que estos servicios han supuesto un ahorro de casi dos millones de euros a todos los aragoneses en 2023. De acuerdo con el informe, ICEARAGÓN recibió casi 5 millones de visitas en 2023, lo cual supuso un incremento del 58,6% respecto a 2022. Estos usuarios realizaron 1,7 millones de descargas. La mayoría de la información descargada (47,8%) se refiera a capas medioambientales. También han supuesto un gran éxito la información relativa a los límites administrativos (13,8%) y los mapas de Aragón (13,4%). Respecto al perfil del usuario, el 71% es del campo de la topografía y el 27% pertenece al sector agrícola.
Estos informes sirven de base a los trabajos que realiza la Comisión Europea de manera periódica, donde recopila los avances en los distintos ámbitos de aplicación de INSPIRE. Fruto de este trabajo se generan informes anuales relativos a cada país que incluyen un apartado sobre los costes y beneficios.
Todo este trabajo de medición y estimación de beneficios pone de manifiesto el valor económico de proporcionar datos y servicios geográficos a la sociedad. Gracias a ello se pueden crear nuevos productos y servicios que impulsan la economía de todo el país y proporcionan beneficios a todos sus ciudadanos.
La Asociación Multisectorial de la Información (ASEDIE) ha publicado la duodécima edición de su “Informe sobre el Sector Infomediario”, en el que hace un repaso a las iniciativas de impulso de la economía del dato en el país. Además, esta edición conmemora los 25 años de trayectoria de la asociación en el sector.
En el 12º Informe sobre la Economía del Dato en el ámbito infomediario, ASEDIE ofrece cifras exactas sobre el sector en España para continuar su labor anual de poner en valor y transmitir su tamaño e importancia. La presentación de esta edición tuvo lugar en el salón de actos de Madrid International Lab el pasado 20 de marzo.
A continuación, se resumen las principales conclusiones del estudio.
Más de 23.000 personas trabajan en el sector infomediario en España
En el documento, ASEDIE mide la salud del sector de las 756 empresas reutilizadoras de datos públicos que se han identificado como activas. Estas compañías emplean a casi 23.300 personas en España, lo que se traduce en un aumento del 3,6% en comparación con las cifras del informe anterior. Las empresas reutilizadoras analizadas en el informe aprovechan la información tanto pública como privada para crear productos de valor añadido dirigidos a otras empresas y a la sociedad en general.
Además, el estudio señala “el crecimiento continuo del sector infomediario, con la incorporación de nuevos actores año tras año, mejorando los intercambios de información inherentes al sector y aumentando la confianza de los usuarios”. Como reflejo de esta tendencia positiva, el sector ha generado una facturación global de 2,331 millones de euros, que supone un aumento del 2,4% respecto al anterior ejercicio.
Para identificar estos resultados, ASEDIE lleva a cabo una metodología de análisis también descrita en su informe que pasa por subdividir los sectores que participan. Entre las empresas analizadas, la mayoría pertenece al sector de Información Geográfica (22%), Estudios de Mercado (19%), Económico Financiero (19%) e Informática de Infomediación (17%). En total, estos tres sectores aglutinan al 76% de las empresas del sector.
De todas las empresas analizadas el 63% fueron creadas hace más de 10 años, aunque en el último año se han creado 51 empresas. Y la mitad de las empresas infomediarias facturan más de 473.000 euros, según datos del informe. Un segundo grupo de dos subsectores (Consultoría Técnica y Editoriales) aportan un 14% más, dejando al resto de subsectores (Cultura, Directoriales, Meteorológicas y Turismo), con una representación del 9%.
Resultados de la encuesta realizada a CC.AA. y sector académico
Otro contenido revelador que incluye el 12º Informe de ASEDIE es un resumen de los primeros pasos realizados del recién creado TOP 10 ASEDIE, así como el análisis de una encuesta realizada a dos grupos principales: los responsables de las 17 CC.AA. en temas relacionados con la transparencia y datos abiertos y al sector académico.
El TOP ASEDIE es una iniciativa de colaboración público-privada, apoyada por las 17 Comunidades Autónomas, que busca impulsar la apertura de determinados conjuntos de datos y que se ha venido realizando de manera periódica. La iniciativa surgió en 2019 con el llamado TOP 3, que impulsó la apertura de las bases de datos de Asociaciones, Cooperativas y Fundaciones. Dos años después se lanzó un segundo Top 3 ASEDIE Certificados de Eficiencia Energética, Registros SAT y Polígonos Industriales), que ahora es un TOP 10 con cuatro nuevas bases de datos: agentes económicos, centros de enseñanza, centros de salud y ERES-ERTES.
En la encuesta, también se extrajeron una serie de conclusiones como:
- El 75% de los encuestados indica que está satisfecho con la capacidad tecnológica que tienen respecto a la apertura de datos.
-
El 63% de los encuestados no son conscientes del impacto socioeconómico que ocasiona la apertura de sus bases de datos.
-
El 50% de los encuestados no conoce el perfil de sus usuarios y clientes. No obstante, el 75% cuenta con sistemas para medir el acceso, descarga y visitas a los conjuntos de datos que publica.
-
El 89% de las instituciones académica afirma que los datos públicos les permite desarrollar soluciones útiles.
Casos de éxito: empresas infomediarias ejemplares
Además de ofrecer resultados sobre el estado del sector infomediario en España y las conclusiones de las encuestas realizadas a las CC.AA. y al ámbito académico, el informe pone en valor algunos casos de uso que destaca como exitosos en la tarea de obtener valor a partir de la reutilización de datos. A continuación, resumimos algunos de ellos:
-
Conector API con Salesforce y Microsoft Dynamics: una solución que permite integrar de manera automática los datos de 7,6 millones de empresas y autónomos de España y Portugal, en Salesforce y Microsoft Dynamics, los dos principales CRM del mercado.
-
GEOCODE Fraude de CTI Soluciones: una solución de validación de datos y gestión de alertas para la detección de operaciones irregulares.
-
Geomarketing Worldwide de inAtlas: una herramienta basada en tecnologías avanzadas de Analítica de Localización y Visualización de Geodatos, para buscar clientes y lugares óptimos donde expandir los negocios.
En resumen, a través de su informe, ASEDIE revela la creciente importancia de la economía del dato y refleja claramente la transición de España hacia una sociedad más informada y transparente, evidenciando el papel fundamental que juega el sector infomediario. Observamos la necesidad de superar los desafíos existentes a través de una mayor colaboración entre todos los actores involucrados, para asegurar un futuro donde los datos se manejen de manera más abierta, accesible, efectiva y segura.
1. Introducción
Las visualizaciones son representaciones gráficas de datos que permiten comunicar, de manera sencilla y efectiva, la información ligada a los mismos. Las posibilidades de visualización son muy amplias, desde representaciones básicas como los gráficos de líneas, de barras o métricas relevantes, hasta visualizaciones configuradas sobre cuadros de mando interactivos.
En esta sección de “Visualizaciones paso a paso” estamos presentando periódicamente ejercicios prácticos haciendo uso de datos abiertos disponibles en datos.gob.es u otros catálogos similares. En ellos se abordan y describen de manera sencilla las etapas necesarias para obtener los datos, realizar las transformaciones y los análisis pertinentes para, finalmente obtener unas conclusiones a modo de resumen de dicha información.
En cada ejercicio práctico se utilizan desarrollos de código documentados y herramientas de uso gratuito. Todo el material generado está disponible para su reutilización en el repositorio de GitHub de datos.gob.es.
En este ejercicio concreto, exploraremos la actual situación de la penetración de los vehículos eléctricos en España y las perspectivas de futuro de esta tecnología disruptiva en el transporte.
Accede al repositorio del laboratorio de datos en Github.
Ejecuta el código de pre-procesamiento de datos sobre Google Colab.
En este vídeo, el autor te explica que vas a encontrar tanto en el Github como en Google Colab.
2. Contexto: ¿Por qué es importante el vehículo eléctrico?
La transición hacia una movilidad más sostenible se ha convertido en una prioridad global, situando al vehículo eléctrico (VE) en el centro de numerosas discusiones sobre el futuro del transporte. En España, esta tendencia hacia la electrificación del parque automovilístico no solo responde a un creciente interés por parte de los consumidores en tecnologías más limpias y eficientes, sino también a un marco regulatorio y de incentivos diseñado para acelerar la adopción de estos vehículos. Con una creciente oferta de modelos eléctricos disponibles en el mercado, los vehículos eléctricos representan una pieza clave en la estrategia del país para reducir las emisiones de gases de efecto invernadero, mejorar la calidad del aire en las ciudades y fomentar la innovación tecnológica en el sector automotriz.
Sin embargo, la penetración de los vehículos eléctricos en el mercado español enfrenta una serie de desafíos, desde la infraestructura de carga hasta la percepción y el conocimiento del consumidor sobre estos vehículos. La expansión de la red de carga, junto con las políticas de apoyo y los incentivos fiscales, son fundamentales para superar las barreras existentes y estimular la demanda. A medida que España avanza hacia sus objetivos de sostenibilidad y transición energética, el análisis de la evolución del mercado de vehículos eléctricos se convierte en una herramienta esencial para entender el progreso realizado y los obstáculos que aún deben superarse.
3. Objetivo
Este ejercicio se centra en mostrar al lector técnicas para el tratamiento, visualización y análisis avanzado de datos abiertos mediante Python. Adoptaremos para ello el enfoque “aprender haciendo”, de tal forma que el lector pueda comprender la utilización de estas herramientas en el contexto de la resolución de un reto real y de actualidad como es el estudio de la penetración del VE en España. Este enfoque práctico no solo mejora la comprensión de las herramientas de ciencia de datos, sino que también prepara a los lectores para aplicar estos conocimientos en la resolución de problemas reales, ofreciendo una experiencia de aprendizaje rica y directamente aplicable a sus propios proyectos.
Las preguntas a las que trataremos de dar respuesta a través de nuestro análisis son:
- ¿Qué marcas de vehículos lideraron el mercado en 2023?
- ¿Qué modelos de vehículos fueron los más vendidos en el 2023?
- ¿Qué cuota de mercado absorbieron los vehículos eléctricos en el 2023?
- ¿Qué modelos de vehículos eléctricos fueron los más vendidos en el 2023?
- ¿Cómo han evolucionado las matriculaciones de vehículos a lo largo del tiempo?
- ¿Observamos algún tipo de tendencia respecto a la matriculación de vehículos eléctricos?
- ¿Cómo esperamos que evolucionen las matriculaciones de vehículos eléctricos el próximo año?
- ¿Cuál es la reducción de emisiones de CO2 que podemos esperar gracias a las matriculaciones obtenidas durante el próximo año?
4. Recursos
Para completar el desarrollo de este ejercicio requeriremos el uso de dos categorías de recursos: Herramientas Analíticas y Conjuntos de Datos.
4.1. Conjunto de datos
Para completar este ejercicio utilizaremos un conjunto de datos provisto por la Dirección General de Tráfico (DGT) a través de su portal estadístico, también disponible desde el catálogo Nacional de Datos Abiertos (datos.gob.es). El portal estadístico de la DGT es una plataforma en línea destinada a ofrecer acceso público a una amplia gama de datos y estadísticas relacionadas con el tráfico y la seguridad vial. Este portal incluye información sobre accidentes de tráfico, infracciones, matriculaciones de vehículos, permisos de conducción y otros datos relevantes que pueden ser útiles para investigadores, profesionales del sector y el público en general.
En nuestro caso, utilizaremos su conjunto de datos de matriculaciones de vehículos en España disponibles vía:
- Catálogo de Datos Abiertos del Gobierno de España.
- Portal estadístico de la DGT.
Aunque durante el desarrollo del ejercicio mostraremos al lector los mecanismos necesarios para su descarga y procesamiento, incluimos en el repositorio de GitHub asociado los datos preprocesados*, de tal forma que el lector pueda proceder directamente al análisis de los mismos en el caso de que lo desee.
*Los datos utilizados en este ejercicio fueron descargados el 04 de marzo de 2024. La licencia aplicable a este conjunto de datos puede encontrarse en https://datos.gob.es/avisolegal.
4.2. Herramientas analíticas
- Lenguaje de programación: Python – es un lenguaje de programación ampliamente utilizado en análisis de datos debido a su versatilidad y a la amplia gama de bibliotecas disponibles. Estas herramientas permiten a los usuarios limpiar, analizar y visualizar grandes conjuntos de datos de manera eficiente, lo que hace de Python una elección popular entre los científicos de datos y analistas.
- Plataforma: Jupyter Notebooks – es una aplicación web que permite crear y compartir documentos que contienen código vivo, ecuaciones, visualizaciones y texto narrativo. Se utiliza ampliamente para la ciencia de datos, análisis de datos, aprendizaje automático y educación interactiva en programación.
- Principales librerías y módulos:
- Manipulación de datos: Pandas – es una librería de código abierto que proporciona estructuras de datos de alto rendimiento y fáciles de usar, así como herramientas de análisis de datos.
- Visualización de datos:
- Matplotlib: es una librería para crear visualizaciones estáticas, animadas e interactivas en Python.
- Seaborn: es una librería basada en Matplotlib. Proporciona una interfaz de alto nivel para dibujar gráficos estadísticos atractivos e informativos.
- Estadística y algoritmia:
- Statsmodels: es una librería que proporciona clases y funciones para la estimación de muchos modelos estadísticos diferentes, así como para realizar pruebas y exploración de datos estadísticos.
- Pmdarima: es una librería especializada en la modelización automática de series temporales, facilitando la identificación, el ajuste y la validación de modelos para pronósticos complejos.
5. Desarrollo del ejercicio
Es aconsejable ir ejecutando el Notebook con el código a la vez que se realiza la lectura del post, ya que ambos recursos didácticos son complementarios en las futuras explicaciones
El ejercicio propuesto se divide en cuatro fases principales.
5.1 Configuración inicial
Este apartado podrás encontrarlo en el punto 1 del Notebook.
En este breve primer apartado, configuraremos nuestro Jupyter Notebook y nuestro entorno de trabajo para poder trabajar con el conjunto de datos seleccionado. Importaremos las librerías Python necesarias y crearemos algunos directorios donde almacenaremos los datos descargados.
5.2 Preparación de datos
Este apartado podrás encontrarlo en el punto 2 del Notebook.
Todo análisis de datos requiere una fase de acceso y tratamiento de los mismos hasta obtener los datos adecuados en el formato deseado. En esta fase, descargaremos los datos del portal estadístico y los transformaremos al formato Apache Parquet antes de proceder a su análisis.
Aquellos usuarios que quieran profundizar en esta tarea, tienen a su disposición la Guía Práctica de Introducción al Análisis Exploratorio de Datos.
5.3 Análisis de datos
Este apartado podrás encontrarlo en el punto 3 del Notebook.
5.3.1 Análisis descriptivo
En esta tercera fase, comenzaremos nuestro análisis de datos. Para ello, responderemos las primeras preguntas apoyándonos en herramientas de visualización de datos que además nos permitirán familiarizarnos con los mismos. Mostramos a continuación algunos ejemplos del análisis:
- Top 10 Vehículos matriculados en el 2023: En esta visualización representamos los diez modelos de vehículos con mayor número de matriculaciones durante el año 2023, indicando además el tipo de combustión de estos. Las principales conclusiones son:
- Los únicos vehículos de fabricación europea que aparecen en el Top 10 son el Arona y el Ibiza de la marca española SEAT. El resto son asiáticos.
- Nueve de los diez vehículos están propulsados por Gasolina.
- El único vehículo del Top 10 con un tipo de propulsión diferente es el DACIA Sandero GLP (Gas Licuado de Petróleo).
Figura 1. Gráfica "Top 10 Vehículos matriculados en el 2023"
- Cuota de mercado por tipo de propulsión: En esta visualización representamos el porcentaje de vehículos matriculado por cada tipo de propulsión (vehículos de gasolina, diésel, eléctricos u otros). Vemos cómo la inmensa mayoría del mercado (>70%) la absorbieron vehículos de gasolina, siendo los diésel la segunda opción, y como los vehículos eléctricos alcanzaron el 5.5%.
Figura 2. Gráfica "Cuota de mercado por tipo de propulsión".
- Evolución histórica de las matriculaciones: Esta visualización representa la evolución de las matriculaciones de vehículos en el tiempo. En ella se muestra el número de matriculaciones mensual entre enero de 2015 y diciembre de 2023 distinguiendo entre los tipos de propulsión de los vehículos matriculados.Podemos observar varios aspectos interesantes en este gráfico:
- Apreciamos un comportamiento estacional anual, es decir, observamos patrones o variaciones que se repiten a intervalos regulares de tiempo. Vemos cómo recurrentemente en junio/julio aparecen altos niveles de matriculación mientras que en agosto/septiembre decrecen drásticamente. Esto es muy relevante, pues el análisis de series temporales con factor estacional tiene ciertas particularidades.
- Es muy notable también la enorme caída de matriculaciones producida durante los primeros meses del COVID.
- Vemos también como los niveles de matriculación post-covid son inferiores a los previos.
- Por último, podemos observar cómo entre los años 2015 y 2023 la matriculación de vehículos eléctricos va creciendo paulatinamente.
Figura 3. Gráfica "Matriculaciones de vehículos por tipo de propulsión".
- Tendencia en la matriculación de vehículos eléctricos: Analizamos ahora por separado la evolución de vehículos eléctricos y no eléctricos utilizando mapas de calor como herramienta visual. Podemos observar comportamientos muy diferenciados entre ambos gráficos. Observamos cómo el vehículo eléctrico presenta una tendencia de incremento de matriculaciones año a año y, a pesar de suponer el COVID un parón en la matriculación de vehículos, los años posteriores han mantenido la tendencia creciente.
Figura 4. Gráfica "Tendencia en la matriculación de vehículos convencionales vs eléctricos".
5.3.2. Analítica predictiva
Para dar respuesta a la última de las preguntas de forma objetiva, utilizaremos modelos predictivos que nos permitan realizar estimaciones respecto a la evolución del vehículo eléctrico en España. Como podemos observar, el modelo construido nos propone una continuación del crecimiento en las matriculaciones esperadas a lo largo del año serán de 70.000, alcanzando valores cercanos a las 8.000 matriculaciones solo en el mes de diciembre del 2024.
Figura 5. Gráfica "Predicción de matriculaciones de vehículos electricos".
5. Conclusiones del ejercicio
Como conclusión del ejercicio, podremos observar gracias a las técnicas de análisis empleadas como el vehículo eléctrico está penetrando cada vez a mayor velocidad en el parque móvil español aunque aún se encuentre a una distancia grande de otras alternativas como el Diésel o la Gasolina, por ahora liderado por el fabricante Tesla. Veremos en los próximos años si el ritmo crece al nivel necesario para alcanzar los objetivos de sostenibilidad fijados y si Tesla sigue siendo líder a pesar de la fuerte entrada de competidores asiáticos.
6. ¿Quieres realizar el ejercicio?
Si quieres conocer más sobre el Vehículo Eléctrico y poner a prueba tus capacidades analíticas, accede a este repositorio de código donde podrás desarrollar este ejercicio paso a paso.
Además, recuerda que tienes a tu disposición más ejercicios en el apartado sección de “Visualizaciones paso a paso”.
Contenido elaborado por Juan Benavente, ingeniero superior industrial y experto en Tecnologías ligadas a la economía del dato.Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
El año 2023 ha sido sin duda el año de la Inteligencia artificial. Esto ha situado a los datos, y por tanto a los datos abiertos, de nuevo en un primer plano, ya que se trata de la materia prima que alimenta esta tecnología, clave para la creación de valor en nuestra economía cada vez más digital.
Quizá por ello 2023 nos ha dejado también un buen número de novedades en lo que se refiere al impulso de la apertura de datos, muchas de las cuales podrían traducirse en la creación de un importante valor económico y social a través de la reutilización. Una de estas novedades se sustancia en la obligación por parte de los organismos del sector público de abrir en el primer semestre de 2024 una serie de conjuntos de alto valor, ya especificados en un reglamento que se publicó en los últimos días de 2022 para concretar lo establecido en la reforma de la directiva de datos abiertos de 2019. En concreto, se trata de seis categorías temáticas de alto valor: geoespacial, observación terrestre y ambientales, meteorología, estadística, sociedades y propiedad de sociedades y movilidad.
Con el fin de cumplir con esta obligación y con el resto de las que se establecen en la Directiva 2019/1024, en 2023 se ha modificado en España la Ley 37/2007 sobre la reutilización de la información del sector público. En esta modificación se enfatiza el deber de impulsar la apertura de datos de alto valor publicados con licencia de atribución de datos abiertos (CC BY 4.0 o equivalente), en formato legible por máquinas y acompañados de metadatos que describan las características de los conjuntos de datos.
El Sistema Estadístico Europeo y el Plan Estadístico Nacional 2021-2024
De las seis categorías temáticas, la número cuatro, Estadística, está dedicada a conjuntos de datos estadísticos, caracterizada por su amplia definición y especificación. Se apoya en el Sistema Estadístico Europeo que garantiza que las estadísticas europeas elaboradas en todos los Estados miembros sean fiables, siguiendo unos criterios y definiciones comunes y tratando los datos de la manera adecuada para que sean siempre comparables entre los distintos países de la UE. En concreto, el reglamento define 21 conjuntos estadísticos como datos de alto valor (en realidad, incluye 22, pero una de ellas es redundante ya que se desglosa en tres componentes: población, fertilidad y mortalidad).
El Instituto Nacional de Estadística forma parte del Sistema Estadístico Europeo y se encarga de la producción de las estadísticas nacionales armonizadas que Eurostat después recopila, analiza y elabora para ofrecer cifras comparables, de forma que se puedan definir, acometer y analizar las políticas comunitarias.
En España, el Plan Estadístico Nacional es el principal instrumento que ordena la actividad estadística de la Administración General del Estado, columna vertebral de las estadísticas para fines estatales. Actualmente estamos entrando en el último año de vigencia del periodo 2021-2024, etapa para la que se publicó el plan actual a finales de 2020.
El Plan Estadístico Nacional 2021-2024 incluye nuevas líneas estratégicas como la utilización de nuevas fuentes de información, entre las que se encuentra, por ejemplo, el Big Data y las bases de datos masivas. También promueve nuevos modelos de producción, como las estadísticas experimentales, e incorpora una especial atención en la inclusión de perspectivas de género, discapacidad, edad y nacionalidad, así como mejoras en la información sobre el mercado inmobiliario, especialmente en lo relativo a alquileres.
Los conjuntos estadísticos de datos de alto valor
En estas líneas estratégicas, el plan no recoge aún ninguna mención a los conjuntos de datos de alto valor. Sin embargo, como el plan se desarrolla y ejecuta mediante programas anuales específicos que detallan las operaciones estadísticas que se realizan, sus objetivos, los organismos involucrados, y los créditos presupuestarios necesarios para su financiación, es posible hacernos una idea de cuáles de estas operaciones estadísticas están alineadas con los 21 conjuntos estadísticos del reglamento de conjuntos de datos estadísticos de alto valor.
La siguiente tabla muestra las posibles equivalencias:
Conjuntos de datos estadísticos de alto valor | Equivalencia en el Inventario de Operaciones Estadísticas (IOE) |
---|---|
Producción industrial | Ficha 30050 del IOE, Índices de Producción Industrial. |
Desgloses del índice de precios industriales por actividad | Ficha 30051 del IOE, Índices de Precios Industriales. |
Volumen de ventas por actividad | Parcialmente contemplado en la ficha 32092 del IOE, Estadística de Ventas, Empleo y Salarios en las Grandes Empresas y PYMES y en la ficha 32096, Ventas Interiores Diarias. |
Estadísticas de la UE sobre comercio internacional de bienes: exportaciones e importaciones | No parece tener una correspondencia clara en el plan, ya que las operaciones estadísticas previstas sobre comercio internacional están centradas en los servicios, mientras que el intercambio de bienes se trabaja en cuanto a los intercambios entre Estados Miembros de la UE. Sin embargo, una parte de los datos especificados podrían encontrarse en la ficha 30029 del IOE, Contabilidad Nacional Anual de España: Principales Agregados, aunque quizá con un nivel mayor de agregación al requerido. |
Flujos turísticos en Europa | Muchas similitudes con lo definido en la ficha 16028 del IOE, Estadística de Movimientos Turísticos en Fronteras (FRONTUR) y la ficha 16023, Encuesta de Turismo de Residentes (ETR/FAMILITUR) |
Índice de precios de consumo armonizados | Ficha 30180 del IOE, Índice de Precios de Consumo Armonizado (IPCA). |
Cuentas nacionales — principales agregados del PIB | Ficha 30029 del IOE, Contabilidad Nacional Anual de España: Principales Agregados. |
Cuentas nacionales: principales indicadores sobre las empresas | |
Cuentas nacionales: principales indicadores sobre los hogares | |
Gastos e ingresos públicos | Tiene su reflejo en las tres fichas del IOE sobre la liquidación de presupuestos de los diferentes niveles de la administración pública: la ficha 31125, Estadística de Liquidación de los Presupuestos del Estado y de sus Organismos Públicos, Empresas y Fundaciones, la ficha 31030 Liquidación de Presupuestos de las Comunidades Autónomas (MHAC) y la ficha 31026 Liquidación de Presupuestos de las Entidades Locales (MHAC). |
Deuda bruta consolidada de las Administraciones Públicas | |
Cuentas y estadísticas medioambientales | Tiene su reflejo en las ocho fichas (de la 30084 a la 30095) del inventario de operaciones estadísticas que se ocupan de las Cuentas medioambientales. Ver listado aquí. |
Población | Ficha 30264 del IOE, Indicadores Demográficos Básicos. |
Fertilidad | |
Mortalidad | Ficha 30271 del IOE, Tablas de Mortalidad. |
Gasto sanitario corriente | Ficha 54012 del IOE, Cuentas Satélites del Gasto Sanitario Público. |
Pobreza | Encuesta de Condiciones de Vida (ECV). |
Desigualdad | |
Empleo | Existen bastantes operaciones estadísticas que estudian el mercado laboral, de las que destaca la ficha 30308 del IOE, Encuesta de Población Activa (EPA). |
Desempleo | |
Mano de obra potencial | Ficha 30308 del IOE, Encuesta de Población Activa (EPA) que además contiene a la ficha 30309 del IOE, Encuesta Comunitaria de Fuerza de Trabajo (ECFT). |
En definitiva, parece que la mayor parte de las variables clave que el reglamento europeo ha previsto para los conjuntos estadísticos de alto valor están ya produciéndose de acuerdo con el plan estadístico nacional vigente. El plan estadístico nacional, que sucederá al actualmente vigente, comenzará en 2025 y a buen seguro se publicará a lo largo de este 2024. Este año veremos en Europa un intenso trabajo para cumplir con las obligaciones del reglamento, ya que, además, la Comisión Europea ha publicado recientemente el informe "Identification of data themes for the extensions of public sector High-Value Datasets" donde se incluyen siete nuevas categorías que se estudia considerar como datos de alto valor y que previsiblemente acabarán siendo incluidas en el reglamento.
Contenido elaborado por Jose Luis Marín, Senior Consultant in Data, Strategy, Innovation & Digitalization. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
Los datos abiertos ofrecen información de interés sobre el estado y evolución de diferentes sectores, entre ellos, el empleo. Los datos de empleo suelen incluir estadísticas sobre la población activa e información sobre los empleados, así como datos económicos, demográficos o relacionados con prestaciones, entrevistas, salarios, vacantes, etc.
Gracias a esta información podemos tener una visión clara de la salud económica de un país y del bienestar de sus ciudadanos, fomentando la toma de decisiones informadas. Además, también pueden servir de base para la creación de soluciones innovadoras que ayuden en diversas tareas.
En este artículo repasaremos algunas fuentes de las que obtener datos abiertos de calidad de empleo, así como ejemplos de uso para mostrar los potenciales beneficios de su reutilización.
¿Dónde localizar datos de empleo?
En datos.gob.es hay disponible una gran cantidad de conjuntos de datos sobre empleo, destacando como publicador a nivel nacional el Instituto Nacional de Estadística (INE). Gracias a los datos del INE podemos conocer los ocupados por sector de actividad, tipos de estudios o jornada, así como los motivos para tener jornada parcial. Los datos proporcionados por esta entidad también nos permiten conocer la situación laboral de las personas con discapacidad o por sexo.
Otras fuentes de datos donde localizar información de interés es el Servicio Público de Empleo Estatal (sepe.es), donde podemos encontrar datos estadísticos sobre demandantes de empleo, puestos de trabajo y colocaciones, desde mayo de 2005 hasta la actualidad. A ello hay que sumar los organismos autonómicos, muchos de los cuales han puesto en marcha su propio portal de datos abiertos de empleo. Es el caso de la Junta de Andalucía.
Si estamos interesados en realizar una comparación entre países, también podemos acudir a los datos de la OCDE, Eurostat o el Banco Mundial.
Todos estos datos pueden ser de gran interés para:
- Los responsables políticos, para comprender mejor la dinámica del mercado laboral y reaccionar ante ella.
- Los empleadores, para optimizar sus actividades de contratación.
- Los demandantes de empleo, para tomar mejores decisiones profesionales.
- Los centros de educación y formación, para adaptar los planes de estudios a las necesidades del mercado laboral.
Casos de uso de datos abiertos en el sector empleo
Tan relevante es contar con fuentes de datos abiertos de empleo como saber interpretar la información que ofrecen sobre el sector. Es aquí donde entran los reutilizadores que aprovechan esta materia prima para crear productos de datos que permitan dar respuesta a distintas necesidades. Veamos algunos ejemplos:
- Toma de decisiones e implantación de políticas activas. Las políticas activas de empleo son herramientas que los gobiernos utilizan para intervenir directamente en el mercado laboral, a través de capacitación, orientación, incentivos a la contratación, etc. Para ello, necesitan conocer las tendencias y necesidades del mercado. Esto ha llevado a numerosos organismos públicos a poner en marcha observatorios, como el del SEPE o el Principado de Asturias. También encontramos observatorios específicos por áreas como el de Igualdad y Empleo. A nivel europeo, destaca la propuesta de Eurostat: establecer requisitos para crear un sistema paneuropeo de elaboración de estadísticas oficiales y análisis políticos específicos usando para ello datos abiertos relativos a ofertas de empleo online. Este proyecto se ha llevado a cabo utilizando la plataforma BDTI. Pero este campo no está limitado al sector público, sino que otros actores también pueden presentar sus propuestas. Es el caso de Iseak, entidad sin ánimo de lucro que impulsa un centro de investigación y transferencia en economía. Entre otras cuestiones, en Iseak buscan dar respuesta a preguntas como ¿provoca la subida del salario mínimo una destrucción del empleo? o ¿por qué existe una brecha de género en el mercado?
- Rendición de cuentas. Toda esta información no es solo útil para los organismos públicos, sino también para la ciudadanía, a la hora de valorar si las políticas de empleo de sus gobernantes están funcionando. Por ello, muchos gobiernos ponen estos datos a disposición de los ciudadanos a través de visualizaciones sencillas de comprender, como Castilla y León. Asimismo, en este campo tiene un papel protagonista el periodismo de datos, con piezas que acercan la información al gran público como estos ejemplos, relativos a los salarios o el nivel de desempleo por zonas. Si quieres saber cómo realizar este tipo de visualizaciones, te los explicamos en este ejercicio paso a paso que caracteriza la demanda de empleo y contratación registrada en España.
- Impulso de oportunidades laborales. Para acercar los datos de interés a los ciudadanos que se encuentran en búsqueda activa o de nuevas oportunidades laborales, existen herramientas, como esta app de convocatorias de empleo público o de ayudas, basadas en datos abiertos. También hay ayuntamientos que crean soluciones para impulsar el empleo y la economía en su localidad como la APP Paterna Empléate. Estas apps suponen una forma de consumo de datos mucho más sencilla y amigable que los tradicionales portales de búsqueda de empleo. Un paso más allá ha ido la Diputación de Barcelona. Con su Buscador de Información y Documentación Oficial (CIDO).Esta herramienta utiliza IA aplicada a los datos abiertos para, entre otras finalidades, ofrecer servicios personalizados para individuos, empresas y sectores rurales, así como acceso a convocatorias de empleo. La información que ofrece procede tanto de tablones de anuncios, como del Perfil del contratante y diversas páginas webs municipales.
- Desarrollo de soluciones avanzadas. Los datos de empleo también se pueden utilizar para potenciar una amplia variedad de casos de uso de aprendizaje automático. Un ejemplo es esta plataforma estadunidense para el análisis financiero que proporciona datos e información a inversores y empresas. Para ello utiliza datos de tasas de desempleo de EE.UU, combinado con otros como códigos postales, datos demográficos o datos meteorológicos.
En definitiva, gracias a este tipo de datos nos solo podemos conocer más sobre la situación laboral de nuestro entorno, sino también alimentar soluciones que ayuden a impulsar la economía o que faciliten el acceso a oportunidades laborales. Se trata, por tanto, de una categoría de datos cuya publicación deben impulsar organismos públicos de todos los niveles.
El concepto de datos de alto valor (High-Value datasets) fue introducido por el Parlamento Europeo y el Consejo de la Unión Europea hace 4 años, en la Directiva (UE) 2019/1024. En ella se definían como una serie de conjuntos de datos con un gran potencial para generar “beneficios para la sociedad, el medio ambiente y la economía”. Por ello, los estados miembro debían impulsar su apertura de manera gratuita, en formatos legibles por máquinas, a través de APIs, en forma de descarga masiva y descritos de forma exhaustiva mediante metadatos.
De manera inicial, la directiva proponía en su anexo seis categorías temáticas a considerar como de alto valor: datos geoespaciales, observación de la tierra y medioambientales, meteorológicos, estadísticos, registros empresariales y datos sobre redes de transporte. Estas categorías fueron detalladas posteriormente en un reglamento de ejecución publicado en diciembre de 2022. Además, para facilitar su apertura, en junio de 2023 se editó un documento con pautas sobre cómo usar DCAT-AP para su publicación.
Nuevas categorías de datos a considerar de alto valor
Estas categorías iniciales siempre estuvieron abiertas a su ampliación. En este sentido, la Comisión Europea acaba de publicar el informe “Identification of data themes for the extensions of public sector High-Value Datasets” donde se incluyen siete nuevas categorías que se estudia considerar como datos de alto valor
-
Pérdida climática: Hace referencia a los datos relacionados con los enfoques y acciones necesarios para evitar, minimizar y abordar los daños asociados al cambio climático. Ejemplos de conjuntos de datos de esta categoría son las pérdidas económicas y no económicas derivadas de los fenómenos meteorológicos extremos o los cambios de evolución lenta, como el aumento del nivel del mar o la desertificación. También incluye datos relacionados con los sistemas de alerta temprana ante desastres naturales, la repercusión de las medidas de mitigación o datos de investigación sobre la atribución de fenómenos extremos al cambio climático.
-
Energía: Esta categoría incluye estadísticas completas sobre la producción, transporte, comercio y consumo final de fuentes de energía primarias y secundarias, tanto renovables como no renovables. Algunos ejemplos de conjuntos de datos a considerar son los indicadores de precios y consumo o la información sobre seguridad energética.
-
Finanzas: Se trata de información sobre la situación de las empresas privadas y las administraciones públicas, que puede utilizarse para evaluar el rendimiento empresarial o la sostenibilidad económica, así como para definir estrategias de gasto e inversión. Incluye conjuntos de datos sobre registros de empresas, estados financieros, fusiones y adquisiciones, así como informes financieros anuales.
-
Gobierno y administración pública: Esta temática incluye aquellos datos que los servicios y empresas públicas recopilan para informar y mejorar la acción de gobierno y la administración de una unidad territorial específica, ya sea un estado, una región o un municipio. Incluye datos relativos al gobierno (por ejemplo, actas de reuniones), los ciudadanos (censos o registro en los servicios públicos) y las infraestructuras gubernamentales. Estos datos se reutilizan posteriormente para fundamentar la elaboración de políticas, prestar servicios públicos, optimizar los recursos y la asignación presupuestaria, así como proporcionar información procesable y transparente a ciudadanos y empresas.
-
Salud: Este concepto identifica los conjuntos de datos que cubren el bienestar físico, y mental de la población, haciendo referencia tanto a aspectos objetivos como subjetivos de la salud de las personas. También incluye indicadores clave sobre el funcionamiento de los sistemas de asistencia sanitaria y la seguridad en el trabajo. Algunos ejemplos son los datos relativos a la Covid-19, la equidad sanitaria o el listado de servicios prestados por los centros sanitarios.
-
Justicia y asuntos jurídicos: Identifica conjuntos de datos que permiten reforzar la capacidad de respuesta, la rendición de cuentas y la interoperabilidad de los sistemas judiciales de la UE, cubriendo ámbitos como la aplicación de la justicia, el sistema jurídico o la seguridad pública, es decir, aquella que garantiza la protección de los ciudadanos. Los conjuntos de datos sobre justicia y asuntos jurídicos incluyen documentación de jurisprudencia nacional o internacional, decisiones de tribunales y fiscales generales, así como actos jurídicos y su contenido.
-
Datos lingüísticos: Hace referencia a expresiones escritas u orales que están en la base de la inteligencia artificial, el procesamiento del lenguaje natural y el desarrollo de servicios relacionados. La Comisión ofrece una definición bastante amplia de esta categoría de datos, todos ellos agrupados bajo la denominación de "datos lingüísticos multimodales". Pueden incluir repositorios de colecciones de textos, corpus de lenguas habladas, recursos de audio, o grabaciones de vídeo.
Para realizar esta selección, los autores del informe llevaron a cabo una investigación documental, así como consultas a administraciones públicas, expertos en datos y empresas privadas mediante una serie de talleres y encuestas. Además de esta evaluación, el equipo del estudio cartografió y analizó el ecosistema normativo en torno a cada categoría, así como las iniciativas políticas relacionadas con su armonización y puesta en común, especialmente en relación con la creación de Espacios Comunes Europeos de Datos.
Potencial para las PYMEs y las plataformas digitales
Además de definir estas categorías, el estudio también ofrece una estimación de alto nivel sobre el impacto de las nuevas categorías en las pequeñas y medianas empresas, así como en las grandes plataformas digitales. Una de las conclusiones del estudio es que la relación coste-beneficio de la apertura de datos es similar en todos los nuevos temas, destacando especialmente aquellos relativos a las categorías "Finanzas" y "Gobierno y administración pública".
Basándose en los conjuntos de datos disponibles públicamente, también se realizó una estimación del grado de madurez actual de los datos pertenecientes a las nuevas categorías, según su cobertura territorial y su grado de apertura (teniendo en cuenta si estaban abiertos en formatos leíbles por máquinas, con metadatos adecuados, etc.). Para maximizar la relación coste-beneficio global, el estudio sugiere seleccionar para cada categoría temática una aproximación distinta: en base a su nivel de madurez, se recomienda indicar un mayor o menor número de criterios obligatorios para su publicación, asegurándose así el evitar solapamientos entre los nuevos temas y con los datos de alto valor ya existentes.
Puedes leer el estudio completo en este enlace.
La confianza, como factor clave para liberar el potencial de los datos en la economía digital, es un elemento cada vez más central en todas las regulaciones sobre datos. El Reglamento General de Protección de Datos, en 2016 ya reconocía que si las personas físicas tienen un mayor control de sus propios datos personales se producirá una mejora de la confianza que contribuirá al impacto positivo en el desarrollo de la economía digital. La propuesta de Ley europea de Datos de la Comisión Europea de 2022 pone incluso un mayor énfasis desde los propios objetivos y afirma que “la escasa confianza impide sacar pleno provecho del potencial de la innovación basada en los datos”.
Entre las conclusiones de la Encuesta Mundial sobre Regulación de Datos, que publicó el Banco Mundial en 2021, se destaca la necesidad de reforzar los marcos normativos en el mundo para generar una mayor confianza de los ciudadanos. Esto contribuiría a una mayor eficacia de las iniciativas gubernamentales que utilizan datos y que tienen, en muchos casos, el objetivo de generar valor para la sociedad. Como ejemplo cita el efecto limitado que tuvieron las aplicaciones de rastreo de contactos en todo el mundo durante la pandemia por COVID-19, en gran medida debido a la falta de confianza de la ciudadanía en el potencial uso de los datos aportados.
Si realmente consideramos que la confianza en los datos es tan decisiva para crear valor para la sociedad y la economía, debemos prestar mucha atención, tanto a los mecanismos de los que disponemos para mejorar esa confiabilidad, como a las estrategias para construir y mantener esa confianza, más allá de los propios marcos normativos.
Calidad y transparencia
La confianza en los datos comienza con la calidad y la transparencia. Cuando los usuarios comprenden cómo se recopilan, procesan y mantienen los datos, es más probable que confíen en ellos para utilizarlos, e incluso estén más dispuestos a contribuir con sus propios datos.
Un mecanismo fundamental para garantizar la calidad y la transparencia es la implementación de estándares rigurosos, como las especificaciones UNE de Gobierno del dato UNE 0077:2023, Gestión del dato UNE 0078:2023, y Gestión de la calidad del dato UNE 0079:2023 en cada etapa del ciclo de vida de los datos. Por una parte, se consigue reforzar la calidad mediante el despliegue de prácticas robustas de validación y verificación que garantizan la precisión y la integridad de los datos, y por otra, se mejora la transparencia con, por ejemplo, metadatos descriptivos que proporcionen información detallada sobre los datos, incluyendo su origen, metodología de recopilación y cualquier transformación a la que hayan sido sometidos.
Espacios Europeos de Datos
Los Espacios Europeos de Datos[5] son una ambiciosa iniciativa de la Unión Europea destinada a fomentar la confianza y facilitar el intercambio y la utilización de datos entre países y sectores en un entorno seguro y regulado. La idea central detrás de los Espacios Europeos de Datos es la de crear entornos en los que la disponibilidad, la accesibilidad y la interoperabilidad de los datos se maximicen, mientras que los riesgos asociados con el manejo de datos se minimicen. Inicialmente la Estrategia Europea de datos previó 10 espacios de datos en áreas estratégicas como la salud, la energía o la administración pública. Desde entonces este número ha crecido y se han lanzado otros espacios de datos en importantes áreas como los medios de comunicación y el patrimonio cultural, o en sectores estratégicos para España como el turismo.
Para apostar por el liderazgo en espacios de datos en sectores estratégicos para España, el gobierno impulsa el Hub español de Gaia-X, integrado por empresas de todos los tamaños, y dirigido a desplegar un ecosistema sólido en el ámbito de la compartición de datos industriales
Mejora de la ciberseguridad
El creciente número de incidentes de ciberseguridad que llegan a las cabeceras de los medios de comunicación, algunos de los cuales han llegado a paralizar empresas privadas y organismos públicos, ha convertido la ciberseguridad en una preocupación primordial para los usuarios y las organizaciones en la era digital.
Una robusta ciberseguridad implica que las organizaciones desplieguen tecnologías avanzadas y prácticas adecuadas para proteger los sistemas y los datos de accesos no autorizados y manipulaciones malintencionadas a través de medidas como firewalls, encriptación, autenticación de dos factores, y monitorización y detección de amenazas en tiempo real. Sin embargo, la mejora de la educación y la conciencia sobre ciberseguridad de los usuarios también son vitales para ayudarles a reconocer y evitar amenazas potenciales.
Identidad digital europea
La Identidad Digital Europea se está desarrollando en el marco de la Unión Europea con el objetivo de proporcionar a los ciudadanos y empresas una forma segura y unificada de acceder a servicios, públicos y privados, en línea o fuera de línea, en toda la UE. La idea es que, con una identidad digital europea, las personas podrían identificarse o confirmar datos en servicios como la banca, la educación o la salud, entre otros, de manera segura y sin fricciones, proporcionando un alto nivel de seguridad y protección de la privacidad.
De este modo, se profundiza en el marco de confianza creado por el Reglamento eIDAS sobre identificación electrónica y servicios de confianza para las transacciones electrónicas en el mercado interior, que ya contribuye notablemente a aumentar la confianza de los consumidores phishing o mejorando la confianza en el origen de los documentos.
Construir una cultura de confianza y responsabilidad en el manejo de datos y en las infraestructuras digitales, está en el foco de las acciones de los gobiernos de la UE, incluyendo a España. En este contexto, la intersección entre la calidad y la transparencia de los datos, una ciberseguridad robusta que reduzca la ciberdelincuencia, los Espacios Europeos de Datos, y la identidad digital europea destacan como mecanismos fundamentales para cultivar esta confianza y proponen una ruta hacia una mayor innovación que en última instancia genere valor social y económico a través de los datos.
Contenido elaborado por Jose Luis Marín, Senior Consultant in Data, Strategy, Innovation & Digitalization. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
La Asociación Multisectorial de la Información (ASEDIE) ha publicado la undécima edición de su Informe sobre el Sector Infomediario, en el que hace un repaso a la salud de las empresas que generan aplicaciones, productos y/o servicios a partir de información del sector público, teniendo en cuenta que es el poseedor de los datos más valiosos.
Muchos de los conjuntos de datos que permiten al sector infomediario desarrollar soluciones están incluidos en las listas de conjuntos de datos de alto valor (HVDS, por sus siglas en inglés) que la Unión Europea ha publicado recientemente. Una iniciativa que reconoce el potencial de la información pública y se suma al propósito de impulsar la economía del dato en línea con la propuesta de Ley de Datos del Parlamento Europeo.
ASEDIE agrupa a empresas de diferentes sectores que impulsan la economía del dato, que se nutren fundamentalmente de los datos que proporciona el sector público. Entre sus objetivos se encuentra impulsar el sector y contribuir a concienciar a la sociedad de sus beneficios e impacto. No en vano, se estima que la economía del dato genere 270.000 millones de euros de PIB adicional para los Estados miembros de la UE en 2028.
La presentación de esta edición del informe, bajo el título ‘Economía del Dato en el ámbito infomediario’ tuvo lugar el pasado 22 de marzo en la sala Enredadera de Red.es. En la edición del informe presentada este año han sido identificadas 710 empresas activas, con una facturación de más de 2.278 millones de euros. Hay que destacar que el primer informe en 2013 contó con 444 empresas. Por tanto, el sector ha crecido un 60% en una década.
Principales conclusiones del informe
- El sector infomediario ha crecido un 12,1%, un dato por encima del crecimiento del PIB nacional que fue de un 7,6%. Estos datos se extraen del análisis de las 472 empresas (un 66% de la muestra) que presentaron sus cuentas en los ejercicios anteriores.
- El número de empleados es de 22.663. Los trabajadores se encuentran muy concentrados en pocas empresas: el 62% de ellas tiene menos de 10 trabajadores. El subsector que aglutina un mayor número de profesionales es el de Información geográfica, con un 30% del total. Junto con los subsectores Económico financiero, Consultoría técnica y Estudios de mercado, agrupan al 75% de los empleados.
- El empleo en las empresas del Sector Infomediario crece un 1,7%, frente a la caída de 1,1% en el año anterior. Todos los subsectores han crecido, excepto Turismo y Cultura que se mantienen, y Consultoría técnica y Estudios de mercado, que decrecen.
- La facturación media por empleado supera los 100.00 euros, incrementándose un 6,6% respecto al ejercicio previo. Por otra parte, el gasto medio por empleado fue de 45.000 euros.
- El importe de la cifra de negocio agregada es de 2.279.613.288 euros. Los subsectores de Información geográfica y Económico Financiero aglutinan el 46% de las ventas.
- El capital suscrito agregado es de 250.115.989 euros. Los tres subsectores más capitalizados son Estudios de mercado, Económico Financiero e Información geográfica, que aglutinan el 66% de la capitalización.
- El resultado neto supera los 180 millones de euros, 70 millones más que el año pasado. El subsector Económico financiero reúne un 66% del total de beneficios.
- Los subsectores de Información geográfica, Estudios de mercado, Económico financiero e Informática de Infomediación aglutinan al 76% de las empresas infomediarias, contabilizando un total de 540 empresas de las 710 activas.
- La Comunidad de Madrid es la que acoge a un mayor número de empresas del sector, con un 39%, seguida de Cataluña (13%), Andalucía (11%) y Comunidad Valenciana (9%).
Tal y como recoge el informe, la llegada de nuevas empresas impulsa el desarrollo de un sector que factura ya cerca de 2.300 millones de euros al año, y que crece a un ritmo superior al de otros indicadores macroeconómicos del país. De estos datos se desprende no solo que el Sector Infomediario goza de buena salud, sino también su capacidad de resiliencia y potencial de crecimiento.
Avances del Estudio del impacto de los datos abiertos en España
El informe recoge también los resultados de una encuesta realizada a los diferentes actores que conforman el ecosistema de los datos, en colaboración con la Facultad de Ciencias de la Información de la Universidad Complutense de Madrid. Esta encuesta se presenta como el primer ejercicio de un estudio más ambicioso que pretende conocer el impacto de los datos abiertos en España e identificar las principales barreras en su acceso y puesta a disposición. Para ello, se ha enviado un cuestionario a miembros del sector público, sector privado y sector académico. Entre las principales conclusiones de este primer sondeo, podemos destacar:
- Como principales barreras a la hora de publicar información, el 65% de los encuestados del sector público menciona la falta de recursos humanos, el 39% la falta de liderazgo político y el 38% la poca calidad de los datos.
- El mayor obstáculo en el acceso a los datos públicos para su reutilización es para los encuestados del sector público que la información proporcionada en los datos no es homogénea (41,9%). Los encuestados del sector académico señalan la falta de calidad de los datos (43%) y desde el sector privado se cree que la principal barrera es la falta de actualización (49%).
- En cuanto a la frecuencia de utilización de los datos públicos, el 63% de los participantes asegura usar los datos todos los días o al menos una vez a la semana.
- El 61% de los encuestados utiliza los datos publicados en el portal datos.gob.
- Los encuestados creen de forma mayoritaria que el impacto de la apertura de los datos en el sector privado es positivo. Así, el 77% de los encuestados del sector privado indica que acceder a los datos públicos es económicamente viable y el 89% de ellos manifiesta que los datos públicos les permiten desarrollar soluciones útiles.
- El 95% de los encuestados reclama un compendio de las normativas que afectan al acceso, publicación y reutilización de los datos del sector público.
- El 27% de los encuestados del sector público afirma no conocer las seis categorías de datos de alto valor establecidas en el Reglamento de ejecución (EU) 20137138 de la Comisión.
Vemos así que la mayoría de los encuestados son conscientes del potencial del sector y del impacto de los datos del sector público, aunque indican que es necesario salvar algunos obstáculos para su reutilización y creen que un compendio de las diferentes normativas existentes facilitaría su puesta en práctica y ayudaría al desarrollo del sector.
Top 3 ASEDIE
Como en ediciones anteriores, el informe incluye la situación del Top 3 ASEDIE, una iniciativa que pretende que todas las Comunidades Autónomas abran de manera completa tres conjuntos de datos, siguiendo unos criterios unificados que faciliten su reutilización, y que se incluye en el IV plan de Gobierno Abierto. En 2019, se propuso la apertura de las bases de datos de Cooperativas, Asociaciones y Fundaciones y actualmente ya hay 16 Comunidades Autónomas en las que se puede acceder de manera completa. Además, en ocho de ellas es posible acceder al NIF con identificador único, algo que permite mejorar la transparencia y que la información sea más veraz.
Teniendo en cuenta los buenos resultados de la primera propuesta, en 2020 se lanzó una nueva petición de apertura de datos, el Segundo Top 3 ASEDIE, en este caso de Certificados de Eficiencia Energética, Registros SAT (Sociedades Agrarias de Transformación) y Polígonos Industriales, cuya evolución ha sido también muy positiva. En el siguiente mapa se puede ver la situación de apertura de estas tres nuevas bases de datos en 2023.
La iniciativa del Top 3 ASEDIE ha sido un éxito y se ha convertido en una referencia en el sector, impulsando la apertura de bases de datos de una manera conjunta y demostrando que es posible armonizar fuentes de datos públicas para ponerlas al servicio de la sociedad.
Los siguientes pasos en este sentido serán hacer un seguimiento de las bases de datos ya abiertas y realizar una difusión a todos los niveles, incluyendo la identificación de buenas prácticas de la Administración y la selección de ejemplos para incentivar la colaboración público-privada en datos abiertos. Además, se identificará un nuevo top 3 para avanzar en la apertura de nuevas bases de datos, y se lanzará una nueva iniciativa que alcance a los organismos de la Administración General del Estado, con la identificación de un nuevo Top 3 AGE.
Casos de éxito
El informe incluye también una serie de casos de éxito de productos y servicios desarrollados con datos del sector público, como API Market de Iberinform que facilita el acceso y la integración de 52 conjuntos de datos de empresas y autónomos en los sistemas de gestión de las empresas. Otro caso exitoso es el de Geocode, una solución centrada en procesos de estandarización, validación, corrección, codificación y geolocalización de direcciones postales en España y Portugal.
Geomarketing permite aumentar la velocidad de cálculo de datos geoespaciales e Infoempresa.com ha mejorado sus informes de actividad de las empresas españolas, haciéndolos más visuales, completos e intuitivos. Por último, Pyramid Data posibilita el acceso a los Certificados de Eficiencia Energética (CEE) de una cartera inmuebles determinada.
Como ejemplos de buenas prácticas en el sector público, el informe de ASEDIE destaca los datos estadísticos abiertos como motor de la Economía del Dato del Instituto Canario de Estadística (ISTAC) y la tecnología para la apertura de datos del Portal de Datos Abiertos de la Junta de Andalucía.
Como novedad, se ha incorporado la categoría de ejemplos de buenas prácticas en el sector académico, que reconoce el trabajo realizado por el Código Geoespacial y el Informe sobre el estado de los datos abiertos en España III, de la Universidad Rey Juan Carlos y Fundación FIWARE.
El 11º Informe ASEDIE sobre la Economía del Dato en el ámbito infomediario se puede descargar en la web de Asedie en español. También están disponibles las presentaciones de los indicadores económicos y el Top 3 y del Ecosistema de Datos.
En resumen, el informe recoge la buena salud de la industria que confirma su recuperación tras la pandemia, su capacidad de resiliencia y el potencial de crecimiento y, además, se observan los buenos resultados de la colaboración público-privada y su impacto en la economía del dato.
Actualizado: 21/03/2024
En enero de 2023, la Comisión Europea publicó un listado de conjuntos de datos de alto valor que los organismos del sector público deberían poner a disposición de la ciudadanía en un plazo máximo de 16 meses. El principal objetivo de establecer la lista de conjuntos de datos de alto valor es garantizar que los datos públicos de mayor potencial socioeconómico se pongan a disposición para su reutilización con una restricción jurídica y técnica mínima, y sin coste alguno. Dentro de estos conjuntos de datos del sector público, algunos como los meteorológicos o los relativos a la calidad del aire, resultan especialmente interesantes para desarrolladores y creadores de servicios como aplicaciones o páginas webs, que reportan valor añadido e importantes beneficios para la sociedad, el medioambiente o la economía.
La publicación del Reglamento se acompañó de unas preguntas frecuentes para ayudar a los organismos públicos a entender el beneficio de los HVDS (High Value Datasets) en la sociedad y la economía, así como para explicar algunos aspectos sobre la obligatoriedad y las ayudas para la publicación.
En línea con esta propuesta, la Vicepresidenta Ejecutiva para una Europa adaptada a la era digital, Margrethe Vestager, declaró lo siguiente en la nota de prensa lanzada por la Comisión Europea:
“Poner a disposición del público conjuntos de datos de gran valor beneficiará tanto a la economía como a la sociedad, por ejemplo, ayudando a combatir el cambio climático, reduciendo la contaminación atmosférica urbana y mejorando las infraestructuras de transporte. Se trata de un paso práctico hacia el éxito de la Década Digital y la construcción de un futuro digital más próspero”.
De forma paralela, Thierry Breton, Comisario de Mercado Interior, quiso añadir también las siguientes palabras a colación del anuncio del listado de los datos de alto valor: “Los datos son una piedra angular de nuestra competitividad industrial en la UE. Con la nueva lista de conjuntos de datos de alto valor estamos desbloqueando una gran cantidad de datos públicos en beneficio de todos. Las nuevas empresas y las pymes podrán utilizar estos para desarrollar nuevos productos y soluciones innovadoras que mejoren la vida de los ciudadanos de la UE y de todo el mundo”.
Seis categorías para aglutinar los nuevos conjuntos de datos de alto valor
De este modo, el reglamento se crea al amparo de la Directiva Europea de Datos Abiertos, que define seis categorías para diferenciar los nuevos conjuntos de datos de alto valor solicitados:
- Geoespaciales
- De observación de la Tierra y medioambiente
- Meteorológicos
- Estadísticos
- De empresas
- De movilidad
No obstante, tal y como recoge la nota de prensa de la Comisión Europea, esta gama temática podría ampliarse posteriormente en función de la evolución de la tecnología y el mercado. Así, los conjuntos de datos estarán disponibles en formato legible por máquina, a través de una interfaz de programación de aplicaciones (API) y, si fuera relevante, también con opción de descarga masiva.
Además, la reutilización de conjuntos de datos como los de movilidad o geolocalización de edificios puede ampliar las oportunidades de negocio disponibles para sectores como la logística o el transporte. De forma paralela, los datos de observación meteorológica, de radar, de calidad del aire o de contaminación del suelo también pueden apoyar la investigación y la innovación digital, así como la elaboración de políticas en la lucha contra el cambio climático.
En definitiva, una mayor disponibilidad de datos y, en especial de alto valor, tiene la capacidad de impulsar el espíritu empresarial ya que estos conjuntos de datos pueden ser un recurso importante para que las pymes desarrollen nuevos productos y servicios digitales, lo que a su vez también puede atraer nuevos inversores.
Descubre más en esta infografía: