Documentación

1. Introducción

Las visualizaciones son representaciones gráficas de datos que permiten comunicar de manera sencilla y efectiva la información ligada a los mismos. Las posibilidades de visualización son muy amplias, desde representaciones básicas, como puede ser un gráfico de líneas, barras o sectores, hasta visualizaciones configuradas sobre cuadros de mando o dashboards interactivos. Las visualizaciones juegan un papel fundamental en la extracción de conclusiones a partir de información visual, permitiendo además detectar patrones, tendencias, datos anómalos o proyectar predicciones, entre otras muchas funciones. 

Antes de lanzarnos a construir una visualización efectiva, debemos realizar un tratamiento previo de los datos, prestando especial atención a la obtención de los mismos y validando su contenido, asegurando que se encuentran en el formato adecuado y consistente para su procesamiento y no contienen errores. Un tratamiento previo de los datos es primordial para realizar cualquier tarea relacionada con el análisis de datos y la realización de visualizaciones efectivas.

En la sección “Visualizaciones paso a paso” estamos presentando periódicamente ejercicios prácticos de visualizaciones de datos abiertos que están disponibles en el catálogo datos.gob.es u otros catálogos similares. En ellos abordamos y describimos de manera sencilla las etapas necesarias para obtener los datos, realizar las transformaciones y análisis que resulten pertinentes para, finalmente, crear visualizaciones interactivas, de las que podemos extraer información que finalmente se resume en unas conclusiones finales.

En este ejercicio práctico, hemos realizado un sencillo desarrollo de código que está convenientemente documentado apoyandonos en herramientas de uso gratuito. Todo el material generado está disponible para su reutilización en el repositorio Laboratorio de datos de GitHub. 

Accede al repositorio del laboratorio de datos en Github.

Ejecuta el código de pre-procesamiento de datos sobre Google Colab.

2. Objetivo

El objetivo principal de este post es aprender a realizar una visualización interactiva partiendo de datos abiertos. Para este ejercicio práctico hemos escogido conjuntos de datos que contienen información relevante sobre el alumnado de la universidad española a lo largo de los últimos años. A partir de estos datos observaremos las características que presenta el alumnado de la universidad española y cuáles son los estudios más demandados. 

3. Recursos

3.1. Conjuntos de datos

Para este caso práctico se han seleccionado conjuntos de datos publicados por el Ministerio de Universidades, que recoge series temporales de datos con diferentes desagregaciones que facilitan el análisis de las características que presenta el alumnado de la universidad española. Estos datos se encuentran disponibles en el catálogo de datos.gob.es y en el propio catálogo de datos del Ministerio de Universidades. Concretamente los datasets que usaremos son:

  • Matriculados por tipo de modalidad de la universidad, zona de nacionalidad y ámbito de estudio, y Matriculados por tipo y modalidad de la universidad, sexo, grupo de edad y ámbito de estudio para estudiantes de doctorado por comunidad autónoma desde el curso 2015-2016 hasta 2020-2021.
  • Matriculados por tipo de modalidad de la universidad, zona de nacionalidad y ámbito de estudio, y Matriculados por tipo y modalidad de la universidad, sexo, grupo de edad y ámbito de estudio para estudiantes de máster por comunidad autónoma desde el curso 2015-2016 hasta 2020-2021.
  • Matriculados por tipo de modalidad de la universidad, zona de nacionalidad y ámbito de estudio y Matriculados por tipo y modalidad de la universidad, sexo, grupo de edad y ámbito de estudio para estudiantes de grado por comunidad autónoma desde el curso 2015-2016 hasta 2020-2021.
  • Matriculaciones por cada una de las titulaciones impartidas por las universidades españolas que se encuentra publicado en la sección de Estadísticas de la página oficial del Ministerio de Universidades. El contenido de esta dataset abarca desde el curso 2015-2016 al 2020-2021, aunque para este último curso los datos con provisionales. 

3.2. Herramientas

Para la realización del preprocesamiento de los datos se ha utilizado el lenguaje de programación R desde el servicio cloud de Google Colab, que permite la ejecución de Notebooks de Jupyter.

Google Colab o también llamado Google Colaboratory, es un servicio gratuito en la nube de Google Research que permite programar, ejecutar y compartir código escrito en Python o R desde tu navegador, por lo que no requiere la instalación de ninguna herramienta o configuración.

Para la creación de la visualización interactiva se ha usado la herramienta Datawrapper.

Datawrapper es una herramienta online que permite realizar gráficos, mapas o tablas que pueden incrustarse en línea o exportarse como PNG, PDF o SVG. Esta herramienta es muy sencilla de usar y permite múltiples opciones de personalización.

Si quieres conocer más sobre herramientas que puedan ayudarte en el tratamiento y la visualización de datos, puedes recurrir al informe \"Herramientas de procesado y visualización de datos\".

4. Preprocesamiento de datos

Como primer paso del proceso es necesario realizar un análisis exploratorio de los datos (EDA) con el fin de interpretar adecuadamente los datos de partida, detectar anomalías, datos ausentes o errores que pudieran afectar a la calidad de los procesos posteriores y resultados, además de realizar las tareas de transformación y preparación de las variables necesarias. Un tratamiento previo de los datos es esencial para garantizar que los análisis o visualizaciones creados posteriormente a partir de ellos son confiables y consistentes. Si quieres conocer más sobre este proceso puedes recurrir a la Guía Práctica de Introducción al Análisis Exploratorio de Datos.

Los pasos que se siguen en esta fase de preprocesamiento son los siguientes: 

  1. Instalación y carga de librerías
  2. Carga de archivos de datos de origen
  3. Creación de tablas de trabajo
  4. Ajuste del nombre de algunas variables
  5. Agrupación de varias variables en una única con diferentes factores
  6. Transformación de variables
  7. Detección y tratamiento de datos ausentes (NAs)
  8. Creación de nuevas variables calculadas
  9. Resumen de las tablas transformadas
  10. Preparación de datos para su representación visual
  11. Almacenamiento de archivos con las tablas de datos preprocesados

Podrás reproducir este análisis, ya que el código fuente está disponible en este repositorio de GitHub. La forma de proporcionar el código es a través de un documento realizado sobre un Jupyter Notebook que una vez cargado en el entorno de desarrollo podrás ejecutar o modificar de manera sencilla. Debido al carácter divulgativo de este post y con el fin de favorecer el aprendizaje de lectores no especializados, el código no pretende ser el más eficiente, sino facilitar su comprensión por lo que posiblemente se te ocurrirán muchas formas de optimizar el código propuesto para lograr fines similares. ¡Te animamos a que lo hagas! 

Puedes seguir los pasos y ejecutar el código fuente sobre este notebook en Google Colab.  

5. Visualización de datos 

Una vez realizado el preprocesamiento de los datos, vamos con la visualización. Para la realización de esta visualización interactiva usamos la herramienta Datawrapper en su versión gratuita. Se trata de una herramienta muy sencilla con especial aplicación en el periodismo de datos que te animamos a utilizar. Al ser una herramienta online, no es necesario tener instalado un software para interactuar o generar cualquier visualización, pero sí es necesario que la tabla de datos que le proporcionemos este estructurada adecuadamente.  

Para abordar el proceso de diseño del conjunto de representaciones visuales de los datos, el primer paso es plantearnos las preguntas que queremos resolver. Proponemos la siguientes:

  • ¿Cómo se está distribuyendo el número de hombres y mujeres entre los alumnos matriculados de grado, máster y doctorado a lo largo de los últimos cursos?

Si nos centramos en el último curso 2020-2021:

  • ¿Cuáles son las ramas de enseñanza más demandadas en las universidades españolas? ¿Y las titulaciones?
  • ¿Cuáles son las universidades con mayor número de matriculaciones y dónde se ubican?
  • ¿En qué rangos de edad se encuentra el alumnado universitario de grado?
  • ¿Cuál es la nacionalidad de los estudiantes de grado de las universidades españolas?

¡Vamos a buscar las respuestas viendo los datos!

5.1. Distribución de las matriculaciones en las universidades españolas desde el curso 2015-2016 hasta 2020-2021, desagregado por sexo y nivel académico

Esta representación visual la hemos realizado teniendo en cuenta las matriculaciones de grado, master y Doctorado. Una vez que hemos subido la tabla de datos a Datawrapper (conjunto de datos \"Matriculaciones_NivelAcademico\"), hemos seleccionado el tipo de gráfico a realizar, en este caso un diagrama de barras apiladas (stacked bars) para poder reflejar por cada curso y sexo, las personas matriculadas en cada nivel académico. De esta forma podemos ver, además, el global de estudiantes matriculados por curso. A continuación, hemos seleccionado el tipo de variable a representar (Matriculaciones) y las variables de desagregación (Sexo y Curso). Una vez obtenido el gráfico, podemos modificar de forma muy sencilla la apariencia, modificando los colores, la descripción y la información que muestra cada eje, entre otras características. 

Para responder a las siguientes preguntas, nos centraremos en el alumnado de grado y en el curso 2020-2021, no obstante, las siguientes representaciones visuales pueden ser replicadas para el alumnado de máster y doctorado, y para los diferentes cursos.

5.2. Mapa de las universidades españolas georreferenciadas, donde se muestra el número de matriculados que presentan cada una de ellas

Para la realización del mapa hemos utilizado un listado de las universidades españolas georreferenciadas publicado por el Portal de Datos Abiertos de Esri España. Una vez descargados los datos de las distintas áreas geográficas en formato GeoJSON, los transformamos en Excel, para poder realizar una unión entre el datasets de las universidades georreferenciadas y el dataset que presenta el número de matriculados por cada universidad que previamente hemos preprocesado. Para ello hemos utilizado la función BUSCARV() de Excel que nos permitirá localizar determinados elementos en un rango de celdas de una tabla. 

Antes de subir el conjunto de datos a Datawrapper, debemos seleccionar la capa que muestra el mapa de España dividido en provincias que nos proporciona la propia herramienta. Concretamente, hemos seleccionado la opción \"Spain>>Provinces(2018)\". Seguidamente procedemos a incorporar el conjunto de datos \"Universidades\", antes generado, (este conjunto de datos se adjunta en la carpeta de conjuntos de datos de GitHub para esta visualización paso a paso), indicando que columnas contienen los valores de las variables Latitud y Longitud. 

A partir de este punto, Datawrapper ha generado un mapa en el que se muestran las ubicaciones de cada una de las universidades. Ahora podemos modificar el mapa según nuestras preferencias y ajustes. En este caso, haremos que el tamaño de los puntos y el color dependa del número de matriculaciones que presente cada universidad. Además, para que estos datos se muestren, en la pestaña “Annotate”, en la sección “Tooltips”, debemos indicarle las variables o el texto que deseemos que aparezca. 

5.3. Ranking de matriculaciones por titulación

Para esta representación gráfica utilizamos el objeto visual de Datawrapper tabla (Table) y el conjunto de datos \"Titulaciones_totales\" para mostrar el número de matriculaciones que presenta cada una de las titulaciones impartidas durante el curso 2020-2021. Dado que el número de titulaciones es muy extenso, la herramienta nos ofrece la posibilidad de incluir un buscador que permite filtrar los resultados. 

5.4. Distribución de matriculaciones por rama de enseñanza

Para esta representación visual, hemos utilizado el conjunto de datos \"Matriculaciones_Rama_Grado\" y seleccionado gráficos de sectores (Pie Chart), donde hemos representado el número de matriculaciones según sexo en cada una de las ramas de enseñanza en las cuales se dividen las titulaciones impartidas por las universidades (Ciencias Sociales y Jurídicas, Ciencias de la Salud, Artes y Humanidades, Ingeniería y Arquitectura y Ciencias). Al igual que en el resto de gráficos, podemos modificar el color del gráfico, en este caso en función de la rama de enseñanza.  

5.5. Matriculaciones de Grado por edad y nacionalidad

Para la realización de estas dos representaciones de datos visuales utilizamos diagramas de barras (Bar Chart), donde mostramos la distribución de matriculaciones en el primero, desagregada por sexo y nacionalidad, utilizaremos el conjunto de datos \"Matriculaciones_Grado_nacionalidad\" y en el segundo, desagregada por sexo y edad, utilizando el conjunto de datos \"Matriculaciones_Grado_edad\". Al igual que los visuales anteriores, la herramienta facilita de forma sencilla la modificación de las características que presentan los gráficos.  

6. Conclusiones

La visualización de datos es uno de los mecanismos más potentes para explotar y analizar el significado implícito de los datos, independientemente del tipo de dato y el grado de conocimiento tecnológico del usuario. Las visualizaciones nos permiten construir significado sobre los datos y la creación de narrativas basadas en la representación gráfica. En el conjunto de representaciones gráficas de datos que acabamos de implamentar se puede observar lo siguiente:

  • El número de matriculaciones aumenta a lo largo de los cursos académicos independientemente del nivel académico (grado, máster o doctorado).
  • El número de mujeres matriculadas es mayor que el de hombres en grado y máster, sin embargo es menor en el caso de las matriculaciones de doctorado, excepto en el curso 2019-2020.
  • La mayor concentración de universidades la encontramos en la Comunidad de Madrid, seguido de la comunidad autónoma de Cataluña.
  • La universidad que concentra mayor número de matriculaciones durante el curso 2020-2021 es la UNED (Universidad Nacional de Educación a Distancia) con 146.208 matriculaciones, seguida de la Universidad Complutense de Madrid con 57.308 matriculaciones y la Universidad de Sevilla con 52.156.
  • La titulación más demandada el curso 2020-2021 es el Grado en Derecho con 82.552 alumnos a nivel nacional, seguido del Grado de Psicología con 75.738 alumnos y sin apenas diferencia, el Grado en Administración y Dirección de Empresas con 74.284 alumnos.
  • La rama de enseñanza con mayor concentración de alumnos es Ciencias Sociales y Jurídicas, mientras que la menos demandada es la rama de Ciencias.
  • Las nacionalidades que más representación tienen en la universidad española son de la región de la unión europea, seguido de los países de América Latina y Caribe, a expensas de la española.
  • El rango de edad entre los 18 y 21 años es el más representado en el alumnado de las universidades españolas. 

Esperemos que esta visualización paso a paso te haya resultado útil para el aprendizaje de algunas técnicas muy habituales en el tratamiento y representación de datos abiertos. Volveremos para mostraros nuevas reutilizaciones. ¡Hasta pronto!

 

calendar icon
Entrevista

Publicar datos abiertos siguiendo las buenas prácticas del linked data (datos enlazados) permite impulsar su reutilización. Datos y metadatos se describen utilizando estándares RDF que permiten representar relaciones entre entidades, propiedades y valores. De esta forma los conjuntos de datos se interconectan entre sí, independientemente del repositorio digital donde se encuentren, lo que facilita su contextualización y explotación.

Si hay un campo donde este tipo de datos son especialmente valorados es el de la investigación. Por ello no es de extrañar que cada vez más universidades empiecen a utilizar esta tecnología. Es el caso de la Universidad de Extremadura (UEX), que cuenta con un portal de investigación que recopila de forma automática la producción científica ligada a la institución. Adolfo Lozano, Director de la Oficina de transparencia y datos abiertos de la Universidad de Extremadura y colaborador en la elaboración de la “Guía práctica para la publicación de datos enlazados en RDF", nos cuenta cómo han puesto en marcha este proyecto.

Entrevista completa:

1. El portal de investigación de la Universidad de Extremadura es una iniciativa pionera en nuestro país. ¿Cómo surgió el proyecto?

El portal de investigación de la Universidad de Extremadura se ha lanzado hace aproximadamente un año, y ha tenido una magnífica acogida entre los investigadores de la UEX y de entidades externas que buscan las líneas de trabajo de nuestros investigadores.

Pero la iniciativa del portal de datos abiertos de la UEX comenzó en 2015, aplicando el conocimiento de nuestro grupo de investigación Quercus de la Universidad de Extremadura sobre representación semántica, y con la experiencia que teníamos en el portal de datos abiertos del Ayuntamiento de Cáceres. El impulso mayor lo ha tenido hace unos 3 años cuando el Vicerrectorado de Transformación Digital creó la Oficina de Transparencia y Datos abiertos de la UEX.

Desde el principio, teníamos claro que queríamos un portal con datos de calidad, con el máximo nivel de reutilización, y donde se aplicasen los estándares internacionales. Aunque supuso un considerable esfuerzo publicar todos los datasets usando esquemas ontológicos, siempre representado los datos en RDF, y enlazando los recursos como práctica habitual, podemos decir que a medio plazo los beneficios de organizar así la información nos da un gran potencial para poder extraer y manejar la información para múltiples propósitos.

Queríamos un portal con datos de calidad, con el máximo nivel de reutilización, y donde se aplicasen los estándares internacionales. [...] supuso un considerable esfuerzo publicar todos los datasets usando esquemas ontológicos, siempre representado los datos en RDF, y enlazando los recursos.

2. Uno de los primeros pasos en un proyecto de este tipo es seleccionar vocabularios que permitan conceptualizar y establecer relaciones semánticas entre los datos ¿existía un buen punto de partida o fue necesario crear un vocabulario ex-profeso para este contexto? ¿la disponibilidad de vocabularios de referencia constituye un freno para el desarrollo de la interoperabilidad de datos?

Uno de los primeros pasos para seguir esquemas ontológicos en un portal de datos abiertos es identificar los términos más adecuados para representar las clases, atributos y relaciones que van a configurar los datasets. Y además es una práctica que continúa conforme que se van incorporando nuevos conjuntos de datos.

En nuestro caso, hemos intentado reutilizar vocabularios lo más extendidos posible como foaf, schema, dublin core y también algunos específicos como vibo o bibo. Pero en muchos casos hemos tenido que definir términos propios en nuestra ontología porque no existían esos componentes. En nuestra opinión, cuando el proyecto Hércules de la CRUE-TIC esté operativo y se hayan definido los esquemas ontológicos genéricos para las universidades, va a mejorar mucho la intereoperabilidad entre nuestros datos, y sobre todo animará a otras universidades a crear sus portales de datos abiertos con estos modelos.

Uno de los primeros pasos para seguir esquemas ontológicos en un portal de datos abiertos es identificar los términos más adecuados para representar las clases, atributos y relaciones que van a configurar los datasets.

3. ¿Cómo se abordó el desarrollo de esta iniciativa, qué dificultades os encontrasteis y qué perfiles son necesarios para llevar a cabo un proyecto de este tipo?

En nuestra opinión, si se quiere hacer un portal que sea útil a medio plazo, está claro que se requiere un esfuerzo inicial para organizar la información. Quizás lo más complicado al principio es recopilar los datos que están dispersos en diferentes servicios de la Universidad en múltiples formatos, comprender en qué consisten, buscar la mejor forma de representación, y luego coordinar la forma de poder acceder a ellos de forma periódica para las actualizaciones.

En nuestro caso, hemos desarrollado scripts específicos para distintos formatos de fuentes datos, de diferentes Servicios de la UEX (como el Servicio de Informática, el Servicio de Transferencia, o desde servidores externos de publicaciones) y que los transforman en representación RDF. En este sentido, es imprescindible contar con Ingenieros Informáticos, especializados en representación semántica y con amplios conocimientos de RDF y SPARQL. Pero además, desde luego, se debe involucrar a diferentes servicios de la Universidad para coordinar este mantenimiento de la información.

4. ¿Cómo valora el impacto de la iniciativa? ¿Puede contarnos algunos casos de éxito de reutilización de los conjuntos de datos proporcionados?

Por los logs de consultas, sobre todo al portal de investigación, vemos que muchos investigadores utilizan el portal como punto de recogida de datos que usan para elaborar sus currículums. Además, sabemos que las empresas que necesitan algún desarrollo concreto, utilizan el portal para obtener el perfil de nuestros investigadores.

Pero, por otro lado es habitual que algunos usuarios (de dentro y fuera de la UEX) nos pidan consultas específicas a los datos del portal. Y curiosamente, en muchos casos, son los propios servicios de la Universidad que nos suministran los datos los que nos piden listados o gráficos específicos donde se enlacen y crucen con otros datasets del portal.

Al tener los datos enlazados, un profesor de la UEX está enlazado con la asignatura que imparte, el área de conocimiento, el departamento, el centro, pero también con su grupo de investigación, con cada una de sus publicaciones, los proyectos en los que participa, las patentes, etc. Las publicaciones están enlazadas con revistas y estas a su vez con sus índices de impacto.

Por otro lado, las asignaturas, están enlazadas con las titulaciones donde se imparten, los centros, y disponemos también de los números de matriculados por asignaturas, e índices de calidad y satisfacción de usuarios. De esta forma, se pueden realizar consultas e informes complejos manejando en conjunto toda esta información.

Como casos de uso, por ejemplo, podemos mencionar que los documentos Word de las 140 comisiones de calidad de los títulos, se generan automáticamente (incluidos gráficos de evolución anual y listados) mediante consultas al portal opendata. Esto ha permitido ahorrar decenas de horas de trabajo en conjunto a los miembros de estas comisiones.

Otro ejemplo, que hemos terminado este año, ha sido la memoria anual de investigación que se ha generado también automáticamente mediante consultas SPARQL. Estamos hablando de más de 1.500 páginas donde se expone toda la producción científica y de transferencia de la UEX, agrupada por institutos de investigación, grupos, centros y departamentos. 

Como casos de uso, por ejemplo, podemos mencionar que los documentos Word de las 140 comisiones de calidad de los títulos, se generan automáticamente (incluidos gráficos de evolución anual y listados) mediante consultas al portal opendata. Esto ha permitido ahorrar decenas de horas de trabajo en conjunto a los miembros de estas comisiones.

5. ¿Cuáles son los planes de futuro de la Universidad de Extremadura en materia de datos abiertos?

Queda mucho por hacer. Por ahora estamos abordando en primer lugar aquellos temas que hemos considerado que eran más útiles para la comunidad universitaria, como son la producción científica y de transferencia, y la información académica de la UEX. Pero en el futuro cercano queremos desarrollar conjuntos de datos y aplicaciones relacionados con temas económicos (como contratos públicos, evolución del gastos, mesas de contratación) y administrativos (como el plan de organización docente, organigrama de Servicios, composiciones de órganos de gobierno, etc) para mejorar la transparencia de la institución.

calendar icon
Entrevista

Google es una compañía con una fuerte apuesta por los datos abiertos. Ha lanzado el buscador Google Dataset Search, para localizar datos abiertos en repositorios existentes de todo el mundo, y también ofrece conjuntos de datos propios en formato abierto como parte de su iniciativa Google Research. Además, es reutilizador de datos abiertos en soluciones como Google Earth.

Entre sus áreas de trabajo está Google for Education, con soluciones diseñadas para profesores y alumnos. En datos.gob.es hemos entrevistado a Gonzalo Romero, director de Google for Education en España y miembro del jurado encargado de evaluar las propuestas recibidas en la III edición del Desafío Aporta. Gonzalo nos ha hablado sobre su experiencia, la influencia de los datos abiertos en el sector educativo y la importancia de la apertura de datos.

Entrevista completa:

1. ¿A qué retos se enfrenta el sector educativo en España y cómo pueden ayudar los datos abiertos y las tecnologías basadas en ellos a superarlos?

El año pasado debido a la pandemia, el sector de la educación se vio obligado a acelerar su proceso de digitalización para que la actividad se pudiese desarrollar con la máxima normalidad posible.

Los principales retos a los que se enfrenta el sector educativo en España son la tecnología y la digitalización puesto que este sector está menos digitalizado que la media. Se necesitan herramientas digitales seguras, sencillas y sostenibles para que el sistema educativo, desde profesores y alumnos hasta administrativos puedan operar fácilmente y sin problema alguno.

Los datos abiertos permiten localizar en cualquier momento determinada información de calidad entre miles de fuentes de manera rápida y sencilla. Estos repositorios crean un ecosistema de intercambio de datos fiable que impulsa a los editores a publicar datos para impulsar el aprendizaje de los alumnos y el desarrollo de soluciones tecnológicas.

2. ¿Qué datasets son los más demandados para poner en marcha soluciones educativas?

Cada región suele generar los suyos propios. El principal reto es cómo pueden crearse nuevos datasets en colaboración con las variables que les permitan crear modelos predictivos para anticiparse a los principales retos que enfrentan, tales como el abandono escolar, la personalización del aprendizaje o la orientación académica y profesional, entre otros.

3. ¿Cómo pueden iniciativas como los hackathons, desafíos o retos ayudar a impulsar la innovación basada en datos?  ¿Cómo ha sido su experiencia en el III Desafío Aporta?

Es fundamental apostar por proyectos e iniciativas que desarrollen soluciones innovadoras para fomentar el uso de datos.

La tecnología ofrece herramientas que ayudan a buscar sinergias entre datos públicos y privados para desarrollar soluciones tecnológicas e impulsar diferentes habilidades entre los alumnos.

4. Además de como base para soluciones tecnológicas, los datos abiertos también tienen un rol importante como recurso educativo en sí, ya que pueden proporcionar conocimiento sobre múltiples áreas. ¿En qué medida este tipo de recursos favorece el pensamiento crítico de los estudiantes?

El uso de los datos abiertos en las aulas es una forma de impulsar y fomentar las capacidades educativas de los estudiantes. Para un buen uso de estos recursos es importante buscar y filtrar la información de acuerdo a las necesidades, así como mejorar la capacidad de analizar datos y argumentación de una manera razonada. Además, permite al estudiante desenvolverse en programas y herramientas tecnológicas.

Estas habilidades son útiles para el futuro no sólo académico sino laboral de los alumnos puesto que cada vez se demandan más profesionales que cuenten con habilidades relacionadas con capacidad analítica y de gestión de datos.

5. A través de su iniciativa de Google Research se llevan a cabo múltiples proyectos, algunos de ellos ligados a la apertura y reutilización de datos abiertos. ¿Por qué es importante que las compañías privadas también abran datos?

Entendemos las dificultades que pueden tener las compañías privadas si comparten datos puesto que compartir su información puede ser una ventaja para los competidores. Sin embargo, es esencial combinar datos del sector público y privado para impulsar el crecimiento del mercado de datos abiertos y que puedan dar lugar a nuevos análisis y estudios y el desarrollo de nuevos productos y servicios.

También es importante plantear la reutilización de datos teniendo en cuenta los nuevos retos que van surgiendo en la sociedad y facilitar el desarrollo de soluciones sin tener que partir desde cero.

6. ¿Cuáles son los planes de futuro de Google en relación con los datos abiertos?

Los datos confidenciales de las empresas tienen unos altos requisitos de supervivencia, en caso de que un proveedor tenga que cancelar los servicios en la nube debido a cambios en las políticas de un país o región, y creemos que no es posible asegurar los datos con una solución patentada. Sin embargo, sí contamos con herramientas de código y estándares abiertos que dan respuesta a las múltiples preocupaciones de los clientes.

Herramientas para analizar datos como son BigQuery o BigQuery Omni, permiten a los clientes hacer que sus propios datos sean más abiertos, tanto dentro como fuera de su organización. Así se puede aprovechar el potencial de esos datos de forma segura y eficiente en costes. Ya contamos con claros casos de uso de valor creados con nuestra tecnología de data e inteligencia artificial, y avalados por el CDTI, como es el caso del modelo de prevención de abandono escolar Student Success data . Instituciones educativas referentes ya lo utilizan a día y está en fase pilotaje en algunas consejerías de educación.

El objetivo de la compañía es seguir trabajando para construir una nube abierta de la mano de nuestros socios locales y las instituciones públicas en España y en toda Europa, creando un ecosistema europeo de datos digitales seguro de la mano de la mejor tecnología.

calendar icon
Noticia

¡Cómo pasa el tiempo! Parece que fue ayer cuando, por estas fechas, escribíamos nuestra carta a Papá Noel y a los Reyes Magos pidiéndoles nuestros más sinceros deseos. Un año más, la Navidad ya está aquí para recordarnos la magia de los reencuentros con nuestros seres queridos, pero también son días perfectos para disfrutar y descansar.

Para muchos, dentro de esa felicidad navideña se encuentra la pasión por la lectura. ¿Qué mejor época para disfrutar de un buen libro que estos días de invierno bajo el cobijo del calor del hogar? Novelas, comics, ensayos... pero también guías o libros teóricos que te puedan ayudar a ampliar conocimientos ligados a tu ámbito laboral. Por ello, como cada año, hemos preguntado a nuestros pajes -los colaboradores de datos.gob.es- las mejores recomendaciones sobre libros relacionados con los datos y la tecnología para ofrecerte algunas ideas que podrás incluir en tu carta este año, si te has portado bien.

Telling your Data Story: Data Storytelling for Data Management, Scott Taylor (The Data Whisperer)

¿De qué trata? El autor de este libro nos ofrece una práctica guía para explicar y hacernos comprender el valor estratégico de la gestión de datos dentro del ámbito empresarial.

¿A quién va dirigido? Está enfocado a profesionales en activo interesados en mejorar sus habilidades tanto a la hora de gestionar y llevar a cabo el plan de datos de una empresa, como de manejar herramientas para poder explicar con claridad sus actuaciones a terceros. También se encuentra entre su púbico objetivo los científicos de datos interesados en acercar esta disciplina al sector de la empresa.

Idioma: Inglés

The art of statistics: Learning from data, David Spiegelhalter

¿De qué trata? Este libro muestra a los lectores cómo derivar conocimiento a partir de datos en bruto y conceptos matemáticos. A través de ejemplos del mundo real, el autor nos cuenta cómo los datos y la estadística pueden ayudarnos a resolver diferentes problemas, como por ejemplo determinar el pasajero más afortunado del Titanic o si un asesino en serie podría haber sido capturado antes, entre otros.

¿A quién va dirigido? Si te apasiona el mundo de la estadística y los datos curiosos, este libro es para ti. Su lectura amena y llena de ejemplos extraídos del mundo que nos rodea hace de este libro una interesante idea para incluir en tu carta a los Reyes Magos este año.

Idioma: Inglés

Big Data. Conceptos, tecnologías y aplicaciones, David Ríos Insúa y David Gómez Ullate Oteiza

¿De qué trata?: Este nuevo libro del CSIC acerca a sus lectores al big data y sus aplicaciones en política, sanidad y ciberseguridad. Sus autores, David Ríos y David Gómez-Ullate describen la tecnología y los métodos usados por la ciencia de datos, explicando su potencial en diversos ámbitos.

¿A quién va dirigido?: Toda aquella persona con interés en ampliar sus conocimientos sobre la actualidad científica y tecnológica tendrá en este libro una opción más que interesante para hacerlo. Sus explicaciones sencillas y accesibles hacen de este manual un texto ameno y amigable para todo tipo de lectores.

Idioma: Español

Data Analytics with R: A Recipe book, Ryan Garnett

¿De qué trata? ¡Como si fuera un libro de recetas! Así plantea Ryan Garnet este libro dedicado a explicar de una forma amena y muy práctica a los lectores el análisis de datos que se centran en el lenguaje R.

¿A quién va dirigido? Este libro es una opción de gran interés tanto para programadores como para aficionados al análisis de datos que quieran descubrir más sobre R. Su estructura en forma de recetas para explicar este campo hace que sea sencillo de entender. Además, puedes descargarlo gratuitamente.

Idioma: Inglés

Datanomics, Paloma Llaneza

¿De qué trata?: Este libro nos revela con datos, informes y hechos comprobados lo que las empresas de tecnología hacen, realmente, con los datos personales que cedemos y cómo le sacan rentabilidad.

¿A quién va dirigido?: Se trata de un documento de gran interés para toda la ciudadanía. El hecho de que la información que contiene venga reforzada con informes de apoyo, hace más ligera y amena la lectura.

Idioma: Español

Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us about Who We Really Are, Seth Stephens-Davidowitz

¿De qué trata? ¿Sabías que los usuarios que navegamos en Internet exponemos un total de 8 billones de gigabytes de datos cada día? El autor nos muestra en este libro cómo los datos que ofrecemos sobre nuestras búsquedas revelan nuestros miedos, deseos y comportamientos, pero también los prejuicios conscientes e inconscientes.

¿A quién va dirigido? Este libro está dirigido a todas aquellas personas que buscan ampliar su conocimiento acerca de cómo nos expresamos en la era digital. Si te gustaría dar respuestas a cuestiones como si el lugar al que vamos a la escuela puede influir en nuestro éxito futuro, este libro es para ti.

Idioma: Inglés

Al igual que en años anteriores, esta lista es tan solo una pequeña selección que hemos elaborado en función de las recomendaciones que nos han sugerido algunos de los expertos que colaboran en datos.gob.es, así como parte de los miembros que conformamos este equipo. Sin duda, el mundo está lleno de libros sobre datos y tecnología realmente interesantes.

¿Conoces alguno más que no deberíamos olvidarnos en nuestra carta a los Reyes Magos? Déjanos un comentario o envíanos un correo electrónico a dinamizacion@datos.gob.es, ¡estaremos encantados de leerte!

calendar icon
Entrevista

Los datos abiertos no son solo cosa de las Administraciones públicas, cada vez más empresas también apuestan por ellos. Es el caso de Microsoft, quien ha proporcionado acceso a datos abiertos seleccionados en Azure pensados para el entrenamiento de modelos de Machine Learning. También colabora en el desarrollo de múltiples proyectos con el fin de impulsar el open data. En España, ha colaborado en el desarrollo de la plataforma HealthData 29, destinada a la publicación de datos en abierto para impulsar la investigación médica.

Hemos entrevistado a Belén Gancedo, Directora de Educación en Microsoft Ibérica y miembro del jurado en la III edición del Desafío Aporta, centrado en el valor de los datos para el sector educativo. Nos hemos reunido con ella para que nos hable de la importancia de la educación digital y de las soluciones innovadoras basadas en datos, así como de la importancia de los datos abiertos en el sector empresarial.

 

Entrevista completa:

1. ¿Qué retos del sector educativo, a los que urge dar respuesta, ha puesto de manifiesto la pandemia en España?

La tecnología se ha convertido en elemento imprescindible en la nueva forma de aprender y enseñar. Durante los últimos meses, marcados por la pandemia, hemos visto cómo se ha pasado en muy poco tiempo a un modelo de educación híbrido -presencial y en remoto-. Hemos visto ejemplos de centros que, en tiempo récord, en menos de 2 semanas, han tenido que acelerar los planes de digitalización que ya tenían en mente.

La tecnología ha pasado de ser un salvavidas temporal, que permitió dar clases en la peor etapa de la pandemia, a convertirse en una parte totalmente integrada de la metodología de enseñanza de muchos centros educativos. Según una encuesta reciente de YouGov encargada por Microsoft, el 71% de los educadores de Primaria y Secundaria señala que la tecnología les ha ayudado a mejorar su metodología y ha mejorado su capacidad de enseñar. Asimismo, el 82% del profesorado señala que, este último año, se ha acelerado el ritmo al que la tecnología ha impulsado la innovación en la enseñanza y el aprendizaje.

Antes de esta pandemia, de alguna forma, quienes veníamos dedicándonos a la educación, éramos quienes defendíamos la necesidad de transformar digitalmente el sector y los beneficios que la tecnología introducía en él. Sin embargo, lo vivido ha servido para que todo mundo sea consciente de los beneficios de la aplicación de la tecnología en el entorno educativo. En ese sentido ha habido un enorme avance. Nosotros hemos observado un gran incremento en el uso de nuestra herramienta Teams, que ya usan más de 200 millones de estudiantes, profesores y personal del sector educativo en todo el mundo.

Los mayores retos, pues, actualmente, son conseguir no sólo aprovechar los datos y la Inteligencia Artificial para proporcionar experiencias más personalizadas y operar con mayor agilidad sino también la integración de la tecnología con la pedagogía, lo que permitirá experiencias de aprendizaje más flexibles, atractivas e inclusivas. Los estudiantes son cada vez más diversos, y también lo son sus expectativas sobre el papel de la educación universitaria en su camino hacia el empleo.

Los mayores retos, pues, actualmente, son conseguir no sólo aprovechar los datos y la Inteligencia Artificial para proporcionar experiencias más personalizadas y operar con mayor agilidad sino también la integración de la tecnología con la pedagogía, lo que permitirá experiencias de aprendizaje más flexibles, atractivas e inclusivas

2. Cada vez hay más demanda de capacidades y competencias digitales relacionadas con los datos. En este sentido, se ha lanzado el Plan Nacional de Competencias Digitales, donde se incluye la digitalización de la educación y el desarrollo de las competencias digitales para el aprendizaje. ¿Qué cambios habría que hacer en los programas educativos de cara a impulsar la adquisición de conocimientos digitales por parte de los alumnos?

Sin duda, uno de los mayores retos a los que nos enfrentamos en la actualidad es la falta de capacitación y habilidades digitales. Según un estudio llevado a cabo por Microsoft y EY, el 57% de las compañías encuestadas esperan que la IA tenga un alto o muy alto impacto en las áreas de negocios que son “totalmente desconocidas para las compañías en la actualidad”.

Hay una clara oportunidad para que España lidere en Europa en talento digital, consolidándose como uno de los países más atractivos para atraer y retener este talento. Un reciente estudio de LinkedIn anticipa que en los próximos cinco años se crearán en España dos millones de puestos de trabajo relacionados con la tecnología, no sólo en la industria tecnológica, sino también, y sobre todo, en empresas de otros sectores de actividad que buscan incorporar el talento necesario para llevar a cabo su transformación. Sin embargo, hay un déficit de profesionales con habilidades y formación en competencias digitales. De acuerdo con los datos del Digital Economy and Society Index Report que publica anualmente la Comisión Europea, España se encuentra por debajo de la media europea en la mayoría de los indicadores que hacen referencia a las competencias digitales de los profesionales españoles.

Existe, por tanto, una demanda urgente de formar talento cualificado con capacidades digitales, gestión del dato, IA, machine learning… Los perfiles relacionados con la tecnología se encuentran entre los más difíciles de encontrar y, en un futuro próximo, los relacionados con la analítica de datos, la computación en la nube y el desarrollo de aplicaciones.

Para ello, es necesaria una adecuada formación, ya no solo en la forma de enseñar, sino también en el contenido curricular. Cualquier carrera, ya no solo las del ámbito STEM, necesitaría incluir materias relacionadas con la tecnología y la IA, que será la que defina el futuro. El uso de la IA llega a cualquier ámbito, no solo al tecnológico, por lo tanto, el alumnado de cualquier tipo de carrera -Derecho, Periodismo…- por poner algunos ejemplos de carreras no STEM, necesita formación cualificada en tecnología como la IA o la ciencia de datos, puesto que lo van a tener que aplicar en su futuro profesional.

Debemos apostar por las colaboraciones público-privadas e involucrar a la industria tecnológica, las administraciones públicas, la comunidad educativa, adecuando los contenidos curriculares de la Universidad a la realidad laboral- y las entidades del tercer sector, con el objetivo de impulsar la empleabilidad y el reciclaje profesional. De esta forma, se impulsará la capacitación de los profesionales en áreas como computación cuántica, Inteligencia Artificial, o analítica de datos y podremos aspirar al liderazgo digital.

En los próximos cinco años se crearán en España dos millones de puestos de trabajo relacionados con la tecnología, no sólo en la industria tecnológica, sino también, y sobre todo, en empresas de otros sectores de actividad que buscan incorporar el talento necesario para llevar a cabo su transformación.

3. Todavía hoy encontramos disparidad entre el número de hombre y mujeres que eligen ramas profesionales relacionadas con la tecnología. ¿Qué se necesita para impulsar el papel de la mujer en el ámbito tecnológico?

Según el Observatorio Nacional de Telecomunicaciones y Sociedad de la Información -ONTSI- (julio 2020), la brecha digital de género se ha reducido progresivamente en España, pasando de 8,1 a 1 punto, aunque las mujeres mantienen una posición desfavorable en competencias digitales y usos de Internet. En competencias avanzadas, como programación, la brecha en España es de 6,8 puntos, siendo la media de la UE de 8 puntos. El porcentaje de investigadoras en el sector de servicios TIC se reduce al 23,4%. Y en cuanto al porcentaje de graduados/as en STEM, España se sitúa en la posición 12 dentro de la UE, con una diferencia entre sexos de 17 puntos.

Sin duda, queda mucho camino por recorrer. Una de las principales barreras con las que se encuentran las mujeres en el sector de la tecnología y a la hora de emprender son los estereotipos y la tradición cultural. El entorno masculinizado de las carreras técnicas y los estereotipos sobre quienes se dedican a la tecnología las convierte en carreras poco atractivas para las mujeres.

La digitalización está dinamizando la economía y favoreciendo la competitividad empresarial, así como generando un incremento en la creación de empleo especializado. Quizá lo más interesante del impacto de la digitalización en el mercado laboral es que estos nuevos puestos de trabajo no se están creando sólo en la industria tecnológica, sino también en empresas de todos los sectores, que necesitan incorporar talento especializado y con habilidades digitales

Por lo tanto, existe una demanda urgente de formar talento cualificado con capacidades digitales y este talento debe ser diverso. La mujer no puede quedar atrás. Es el momento de atajar la desigualdad de género, y alertar de esta enorme oportunidad a todos, con independencia de su género. Las carreras STEM son una opción ideal de futuro para cualquier persona, independientemente de su género.

Para favorecer la presencia femenina en el sector tecnológico, en pro de una era digital sin exclusión, en Microsoft hemos puesto en marcha diferentes iniciativas que buscan desterrar estereotipos y animar a las niñas y jóvenes a interesarse por la ciencia y la tecnología y hacerlas ver que ellas también pueden ser las protagonistas de la sociedad digital. Además de los Premios WONNOW que convocamos con CaixaBank, también participamos y colaboramos en muchas iniciativas, como los Premios Ada Byron junto a Universidad de Deusto, para ayudar a dar visibilidad al trabajo de mujeres en el ámbito STEM, para que sean referentes de las que están por venir.

La brecha digital de género se ha reducido progresivamente en España, pasando de 8,1 a 1 punto, aunque las mujeres mantienen una posición desfavorable en competencias digitales y usos de Internet. En competencias avanzadas, como programación, la brecha en España es de 6,8 puntos, siendo la media de la UE de 8 puntos

4. ¿Cómo pueden iniciativas como los hackathons, desafío o retos ayudar a impulsar la innovación basada en datos?  ¿Cómo ha sido su experiencia en el III Desafío Aporta?

Este tipo de iniciativas son clave para ese cambio tan necesario. En Microsoft estamos constantemente organizando hackathons tanto a escala global, como regional y local, para innovar en distintas áreas prioritarias para la compañía como, por ejemplo, la educación.

Pero vamos más allá. También usamos estas herramientas en clase. Una de las apuestas de Microsoft son los proyectos Hacking STEM. Se trata de proyectos en los que se mezcla el concepto “maker” de aprender haciendo con la programación y la robótica, mediante el uso de materiales cotidianos. Además, están integrados por actividades que permiten a los docentes guiar a sus alumnos para construir y crear instrumentos científicos y herramientas basadas en proyectos para visualizar datos a través de la ciencia, la tecnología, la ingeniería y las matemáticas. Nuestros proyectos -tanto de Hacking STEM como de codificación y lenguaje computacional mediante el uso de herramientas gratuitas como Make Code- pretenden llevar la programación y la robótica a cualquier asignatura de forma transversal, y por qué no, aprender programación en una clase de latín o en una de biología.

Mi experiencia en el III Desafío Aporta ha sido fantástica porque me ha permitido conocer ideas y proyectos increíbles donde se hace realidad la utilidad de la cantidad de datos disponibles y se ponen al servicio de la mejora de la educación de todos. Ha habido muchísima participación y, además, con presentaciones muy cuidadas y trabajadas. La verdad es que me gustaría aprovechar esta oportunidad para dar las gracias a todos los que han participado y también dar la enhorabuena a los ganadores.

5. Hace un año Microsoft lanzó una campaña para impulsar la apertura de datos de cara a cerrar la brecha entre los países y empresas que tienen los datos necesarios para innovar y aquellos que no. ¿En qué ha consistido el proyecto? ¿Qué avances se han logrado?

La iniciativa global de Microsoft Open Data Campaign busca contribuir a cerrar la creciente “brecha de datos” entre el pequeño número de empresas tecnológicas que más se benefician de la economía de los datos en la actualidad y otras organizaciones que se ven obstaculizadas por la falta de acceso a ellos o por no tener capacidades para utilizar los que ya tienen.

Microsoft cree que se debe hacer más para ayudar a las organizaciones a compartir y colaborar en torno a los datos, de modo que las empresas y los gobiernos puedan utilizarlos para afrontar los retos que se les presentan, pues la capacidad de compartir datos conlleva enormes beneficios. Y no solo para el entorno empresarial, sino que también juegan un rol crítico a la hora de ayudarnos a entender abordar grandes desafíos, como el cambio climático, o crisis sanitarias, como la pandemia COVID-19. Para aprovecharlos al máximo, es necesario desarrollar la capacidad de compartirlos de una forma segura confiable, y permitir que puedan ser utilizados de manera efectiva.

Dentro de la iniciativa Open Data Campaign, Microsoft ha anunciado 5 grandes principios que guiarán cómo la propia compañía aborda la forma de compartir sus datos con otros:

  • Abiertos – Trabajará para hacer que los datos relevantes sobre problemas sociales de gran envergadura se encuentren tan abiertos como sea posible.
  • Utilizables– Invertirá en crear nuevas tecnologías y herramientas, mecanismos de gobernanza y políticas para que los datos puedan ser usados por todos.
  • Impulsores – Microsoft ayudará a las organizaciones a generar valor a partir de sus datos y a desarrollar talento en IA para utilizarlos de manera efectiva.
  • Seguros– Microsoft va a emplear controles de seguridad para garantizar que la colaboración en torno a datos sea segura a nivel operacional.
  • Privados – Microsoft ayudará a las organizaciones a proteger la privacidad de los individuos en colaboraciones donde se compartan datos y que involucren información de identificación personal.

Seguimos avanzado en este sentido. El año pasado, Microsoft España, junto a Fundación 29la Cátedra sobre la Privacidad y Transformación Digital Microsoft-Universitat de València y con el asesoramiento legal del despacho de abogados J&A Garrigues han creado la Guía “Health Data que describe el marco técnico y legal para llevar a cabo la creación de un repositorio público de datos de los sistemas de Salud, y que estos puedan compartirse y utilizarse en entornos de investigación. Y LaLiga es una de las entidades que ha compartido, en junio de este año, sus datos anonimizados.  

El Dato es el principio de todo. Y una de nuestras mayores responsabilidades como empresa de tecnología es ayudar a la conservación del ecosistema a gran escala, a nivel planetario. Para ello el mayor reto es consolidar no solo todos los datos disponibles, sino los algoritmos de inteligencia artificial que permitan acceder a ello y permitan tomar decisiones, crear modelos predictivos, escenarios con información actualizada desde múltiples fuentes. Por eso, Microsoft lanzó el concepto de Planetary Computer, basado en Open Data, para poner a disposición de científicos, biólogos, startups y empresas, de forma gratuita, más de 10 Petabytes de datos -y creciendo- de múltiples fuentes (biodiversidad, electrificación, forestación, biomasa, satélite), APIs, Entornos de Desarrollo y aplicaciones (modelo predictivo, etc.) para crear un mayor impacto para el planeta. 

La iniciativa global de Microsoft Open Data Campaign busca contribuir a cerrar la creciente “brecha de datos” entre el pequeño número de empresas tecnológicas que más se benefician de la economía de los datos en la actualidad y otras organizaciones que se ven obstaculizadas por la falta de acceso a ellos o por no tener capacidades para utilizar los que ya tienen.

6. También ofrecen algunos conjuntos de datos en abierto a través de su iniciativa Azure Open Datasets. ¿Qué tipo de datos ofrecen? ¿Cómo los pueden utilizar los usuarios?

Esta iniciativa busca que las empresas mejoren la precisión de las predicciones de sus modelos de Machine Learning y reduzcan el tiempo de preparación de los datos, gracias a conjuntos de datos seleccionados de acceso público, listos para usar y a los que se puede acceder fácilmente desde los servicios de Azure.

Hay datos de todo tipo: salud y genómica, transporte, mano de obra y economía, población y seguridad, datos comunes… que se pueden utilizar de múltiples maneras. Y también es posible aportar datasets a la comunidad.

7. ¿Cuáles son los planes de futuro de Microsoft en relación con los datos abiertos?

Tras un año con la Opendata campaign, hemos tenido muchos aprendizajes y, en colaboración con nuestros partners, vamos a enfocarnos el próximo año a aspectos prácticos que hagan el proceso de la compartición de datos más sencilla. Acabamos de empezar a publicar materiales para que las organizaciones vean los aspectos prácticos de cómo empezar a compartir datos. Continuaremos identificando posibles colaboraciones para solventar retos sociales en temas de sostenibilidad, salud, equidad e inclusión. También queremos conectar a aquellos que están trabajando con datos o quieren explorar ese ámbito con las oportunidades que ofrecen las Certificaciones de Microsoft en Data e Inteligencia Artificial. Y, sobre todo, este tema requiere de un buen marco regulatorio y, para ello, es necesario que quienes definen las políticas se reúnan con la industria, la academia y la sociedad civil para desarrollar incentivos, infraestructuras y mecanismos que permitan compartir datos del sector público y privado -dentro y a través de fronteras organizacionales y nacionales,- siempre salvaguardando los derechos humanos, con el fin de hacer un uso efectivo de dichos datos en pro de la innovación.

calendar icon
Documentación

1. Introducción

La visualización de datos es una tarea vinculada al análisis de datos que tiene como objetivo representar de manera gráfica información subyacente de los mismos. Las visualizaciones juegan un papel fundamental en la función de comunicación que poseen los datos, ya que permiten extraer conclusiones de manera visual y comprensible permitiendo, además, detectar patrones, tendencias, datos anómalos o proyectar predicciones, entre otras funciones. Esto hace que su aplicación sea transversal a cualquier proceso en el que intervengan datos. Las posibilidades de visualización son muy amplias, desde representaciones básicas, como puede ser un gráfico de líneas, barras o sectores, hasta visualizaciones complejas configuradas desde dashboards interactivos. 

Antes de lanzarnos a construir una visualización efectiva, debemos realizar un tratamiento previo de los datos, prestando atención a la obtención de los mismos y validando su contenido, asegurando que no contienen errores y se encuentran en un formato adecuado y consistente para su procesamiento. Un tratamiento previo de los datos es esencial para abordar cualquier tarea de análisis de datos que tenga como resultado visualizaciones efectivas.  

Se irán presentando periódicamente una serie de ejercicios prácticos de visualización de datos abiertos disponibles en el portal datos.gob.es u otros catálogos similares. En ellos se abordarán y describirán de manera sencilla las etapas necesarias para obtener los datos, realizar las transformaciones y análisis que resulten pertinentes para la creación de visualizaciones interactivas, de las que podamos extraer la máxima información resumida en unas conclusiones finales. En cada uno de los ejercicios prácticos se utilizarán sencillos desarrollos de código que estarán convenientemente documentados, así como herramientas de uso libre y gratuito. Todo el material generado estará disponible para su reutilización en el repositorio Laboratorio de datos en Github.

Visualización

Visualización del personal docente de Castilla y León clasificados por Provincia, Localidad y Especialidad docente

2. Objetivos

El objetivo principal de este post es aprender a tratar un conjunto de datos desde su descarga hasta la creación de uno o varios gráficos interactivos. Para ello se han utilizado conjuntos de datos que contienen información relevante sobre los docentes y alumnos matriculados en los centros públicos de Castilla y León durante el año académico 2019-2020. A partir de estos datos se realizan análisis de varios indicadores que relacionan docentes, especialidades y alumnado matriculado en los centros de cada provincia o localidad de la comunidad autónoma.  

3. Recursos

3.1. Conjuntos de datos

Para este estudio se han seleccionado conjuntos de datos de la temática Educación publicados por la Junta de Castilla y León, disponibles en el portal de datos abiertos datos.gob.es. Concretamente:

3.2. Herramientas

Para la realización de este análisis (entorno de trabajo, programación y redacción del mismo) se ha utilizado el lenguaje de programación Python (versión 3.7) JupyterLab (versión 2.2), herramientas que encontrarás integradas en Anacondauna de las plataformas más populares para instalar, actualizar o administrar software para trabajar con Data Science. Todas estas herramientas son abiertas y están disponibles de forma gratuita.

 JupyterLab es una interfaz de usuario basada en web que proporciona un entorno de desarrollo interactivo donde el usuario puede trabajar con los denominados cuadernos Jupyter sobre los que podrás integrar y compartir fácilmente texto, código fuente y datos. 

Para la creación de la visualización interactiva se ha usado la herramienta de Kibana (versión 7.10).

Kibana es una aplicación de código abierto que forma parte del paquete de productos  Elastic Stack (Elasticsearch,   Logstash,   Beats Kibana) que proporciona capacidades de visualización y exploración de datos indexados sobre el motor de analítica Elasticsearch.

Si quieres conocer más sobre estas herramientas u otras que pueden ayudarte en el tratamiento y la visualización de datos, puedes ver el informe \"Herramientas de procesado y visualización de datos\", actualizado recientemente.

4. Tratamiento de datos

Como primer paso del proceso es necesario realizar un análisis exploratorio de los datos (EDA) con el fin de interpretar adecuadamente los datos de partida, detectar anomalías, datos ausentes o errores que pudieran afectar a la calidad de los procesos posteriores y resultados. Un tratamiento previo de los datos es esencial para garantizar que los análisis o visualizaciones creados posteriormente a partir de ellos son consistentes y confiables.

Debido al carácter divulgativo de este post y para favorecer el entendimiento de los lectores no especializados, el código no pretende ser el más eficiente, sino facilitar su comprensión por lo que posiblemente se te ocurrirán muchas formas de optimizar el código propuesto para lograr fines similares. ¡Te animamos a que lo hagas! Podrás reproducir este análisis, ya que el código fuente está disponible en nuestra cuenta de Github. La forma de proporcionar el código es a través de un documento realizado sobre JupyterLab que una vez cargado en el entorno de desarrollo podrás ejecutar o modificar de manera sencilla. 

4.1. Instalación y carga de librerías

Lo primero que debemos hacer es importar las librerías para el pre-procesamiento de los datos. Hay muchas librerías disponibles en Python pero una de las más populares y adecuada para trabajar con estos conjuntos de datos es Pandas.  La librería Pandas es una librería muy popular para manipular y analizar conjuntos de datos. 

 import  pandas as pd  

4.2. Carga de datasets

En primer lugar descargamos los conjuntos de datos del catálogo de datos abiertos datos.gob.es y los cargamos en nuestro entorno de desarrollo como tablas para explorarlos y realizar algunas tareas básicas de limpieza y procesado de datos. Para la carga de los datos recurriremos a la función read_csv(), donde le indicaremos la url de descarga del dataset, el delimitador (\";\" en este caso) y, para que interprete correctamente los caracteres especiales como las letras con tildes o \"ñ\" presentes en las cadenas de texto del conjunto de datos, le añadimos el parámetro \"encoding\" que ajustamos al valor \"latin-1\". 

 #Cargamos el dataset de las plantillas jurídicas de los centros públicos de Castilla y León de todos los cuerpos de profesorado, a excepción de los maestros url =  \"https://datosabiertos.jcyl.es/web/jcyl/risp/es/educacion/plantillas-centros-educativos/1284922684978.csv\"docentes = pd.read_csv(url, delimiter=\";\", header=0, encoding=\"latin-1\")docentes.head(3)#Cargamos el dataset de los alumnos matriculados en los centros educativos públicos de Castilla y León  alumnos = pd.read_csv(\"matriculaciones.csv\", delimiter=\",\", names=[\"Municipio\", \"Matriculaciones\"], encoding=\"latin-1\") alumnos.head(3)

La columna \"Municipio\" de la tabla \"alumnos\" está compuesta por el código del municipio y el nombre del mismo. Debemos dividir esta columna en dos, para que su tratamiento sea más eficiente. 

columnas_Municipios = alumnos[\"Municipio\"].str.split(\" \", n=1, expand =  TRUE)alumnos[\"Codigo_Municipio\"] = columnas_Municipios[0]alumnos[\"Nombre_Munipicio\"] = columnas_Munipicio[1]alumnos.head(3)

4.3. Creación de una nueva tabla

Una vez que tenemos ambas tablas con las variables de interés, creamos una nueva tabla resultado de su unión. La variables de unión serán: \"Localidad\" en la tabla de \"docentes\" y \"Nombre_Municipio\" en la de \"alumnos\".

docentes_alumnos = pd.merge(docentes, alumnos, left_on = \"Localidad\", right_on = \"Nombre_Municipio\")docentes_alumnos.head(3)

4.4. Exploración del conjunto de datos

Una vez que disponemos de la tabla que nos interesa, debemos dedicar un tiempo a explorar los datos e interpretar cada variable. En estos casos es de enorme utilidad disponer del diccionario de datos que siempre debe acompañar a cada dataset descargado para conocer todos sus detalles, pero en esta ocasión no disponemos de esta esencial herramienta. Observando la tabla, además de interpretar las variables que lo integran (tipos de datos, unidades, rangos de valores), podemos detectar posibles errores como variables mal tipificadas o la presencia de valores perdidos (NAs) que pueden restar capacidad de análisis.

docentes_alumnos.info()

En la salida de esta sección de código, podemos observar las principales características que presenta la tabla:   

  • Contiene un total de 4.512 registros  
  • Está compuesto de 13 variables, 5 variables numéricas (de tipo entero) y 8 variables de tipo categórico (tipo \"object\")
  • No hay ausencia de valores. 

Una vez que conocemos la estructura y contenido de la tabla, debemos rectificar errores, como es el caso de la transformación de algunas de las variables que no están tipificadas de manera adecuada, por ejemplo, la variable que alberga el código del centro (\"Código.centro\"). 

docentes_alumnos.Codigo_centro = data.Codigo_centro.astype(\"object\")docentes_alumnos.Codigo_cuerpo = data.Codigo_cuerpo.astype(\"object\")docentes_alumnos.Codigo_especialidad = data.Codigo_especialidad.astype(\"object\")

Una vez que tenemos la tabla libre de errores, obtenemos una descripción de las variables numéricas, \"Plantilla\" y \"Matriculaciones\", que nos ayudará a conocer detalles importantes. En la salida del código que presentamos a continuación observamos la media, la desviación estándar, el número máximo y mínimo, entre otros descriptores estadísticos.

docentes_alumnos.describe()

4.5. Guardar el dataset

Una vez que tenemos la tabla libre de errores y con las variables que nos interesa graficar, lo guardaremos en una carpeta de nuestra elección para usarla posteriormente en otras herramientas de análisis o visualización. Lo guardaremos en formato CSV codificada como UTF-8 (Formato de Transformación Unicode) para que los caracteres especiales sean identificados de manera correcta por cualquier herramienta que usemos posteriormente.

df = pd.DataFrame(docentes_alumnos)filname =  \"docentes_alumnos.csv\"df.to_csv(filename, index = FALSE, encoding = \"utf-8\")

5. Creación de la visualización sobre los docentes de los centro educativos públicos de Castilla y León usando la herramienta Kibana 

Para la realización de esta visualización hemos usado la herramienta Kibana en nuestro entorno local. Para realizarla es necesario tener instalado y en funcionamiento Elasticsearch y Kibana. La compañía Elastic nos pone a disposición toda la información sobre la descarga e instalación en este tutorial.

A continuación se adjuntan dos vídeo tutoriales, donde se muestra el proceso de realización de la visualización y la interacción con el dashboad generado.

En este primer vídeo, podrás ver la creación del cuadro de mando (dashboard) mediante la generación de diferentes representaciones gráficas, siguiendo los siguientes pasos: 

  1. Cargamos la tabla de datos previamente procesados en Elasticsearch y generamos un índice que nos permita interactuar con los datos desde Kibana. Este índice permite la búsqueda y gestión de datos, prácticamente en tiempo real.
  2. Generación de las siguientes representaciones gráficas:
    • Gráfico de sectores donde mostrar la plantilla docente por provincia, localidad y especialidad.
    • Métricas del número de docentes por provincia.
    • Gráfico de barras, donde mostraremos el número de matriculaciones por provincia.
    • Filtro por provincia, localidad y especialidad docente.
  3. Construcción del dashboard.

En este segundo vídeo, podrás observa la interacción con el cuadro de mando (dashboard) generado anteriormente. 

6. Conclusiones

Observando la visualización de los datos sobre el número de docentes de los centros educativos públicos de Castilla y León, en el curso académico 2019-2020, se pueden obtener, entre otras, las siguientes conclusiones: 

  • La provincia de Valladolid es la que posee el mayor número de docentes e igualmente, el mayor número de alumnos matriculados. Mientras que Soria es la provincia con menor número de docentes y menor número de alumnos matriculados.
  • Como era de esperar, las localidades que presentan mayor número de docentes son las capitales de provincia.
  • En todas las provincias, la especialidad con mayor número de alumnos es Inglés, seguida de Lengua Castellana y Literatura y Matemáticas.
  • Llama la atención, que la provincia de Zamora, aunque posee un número bajo de alumnos matriculados, está en quinta posición en el número de docentes

Esta sencilla visualización nos ha ayudado a sintetizar una gran cantidad de información y a obtener una serie de conclusiones a golpe de vista, y si fuera necesario tomar decisiones en función de los resultados obtenidos. Esperamos que os haya resultado útil este nuevo post y volveremos para mostraros nuevas reutilizaciones de datos abiertos. ¡Hasta pronto!

calendar icon
Noticia

Un síntoma que refleja la madurez de un ecosistema de datos abiertos es la posibilidad de encontrar conjuntos de datos y casos de uso relativos a diferentes sectores de actividad. Así lo considera el propio Portal de Datos Abiertos Europeo  en su índice de madurez. La clasificación de los datos y de sus usos por categorías temáticas impulsa la reutilización, ya que permite a los usuarios localizar y acceder a estos de forma más específica. Además, permite detectar necesidades en áreas concretas, identificar sectores prioritarios y estimar más fácilmente el impacto.

En España encontramos distintos repositorios temáticos, como UniversiData, en el caso de la educación superior, o TURESPAÑA, para el sector turístico. Sin embargo, el hecho de que las competencias de determinadas materias estén distribuidas por las Comunidades Autónomas o Ayuntamientos complica la localización de datos de una misma temática.

Datos.gob.es reúne los datos abiertos de todos los organismos públicos españoles que hayan llevado a cabo un proceso de federación con el portal. Por ello en nuestro catálogo puedes encontrar conjuntos de datos de distintos publicadores segmentados por 22 categorías temáticas, las consideradas por la Norma Técnica de Interoperabilidad.

Iconos de las categorías disponibles en el catálogo de datos y el número de datasets que hay de cada categoría (https://datos.gob.es/es/catalogo)

Número de conjuntos de datos por categoría a fecha de junio 2021

 

Pero además de mostrar los conjuntos de datos divididos por temática también es importante mostrar datasets destacados, casos de uso, guías y demás recursos de ayuda por sector, de tal forma que los usuarios puedan acceder más fácilmente a los contenidos relacionados con sus áreas de interés. Por ello, en datos.gob.es hemos puesto en marcha una serie de apartados web centrados en distintos sectores de actividad, con contenidos específicos para cada área.

4 sectoriales que se irán ampliando a otras áreas de interés

Actualmente en datos.gob.es puedes encontrar 4 sectoriales: Medio ambiente, Cultura y ocio, Educación y Transporte. Estos sectores se han destacado por diferentes motivos estratégicos:

  • Medio ambiente: Los datos de medio ambiente son fundamentales para conocer cómo cambia nuestro entorno y poder así luchar contra el cambio climático, la contaminación y la deforestación. La propia Comisión Europea considera los datos de medio ambiente datos de alto valor en la Directiva 2019/1024. En datos.gob.es puedes localizar datos de calidad del aire, predicción meteorológica, escasez de agua, etc. Todos ellos fundamentales para impulsar soluciones que logren un mundo más sostenible.
  • Transporte: En la Directiva 2019/1024 también se destaca la importancia de los datos de transporte. Muchas veces en tiempo real, estos datos facilitan la toma de decisiones encaminadas a la gestión eficiente del servicio y la mejora de la experiencia de los viajeros. Los datos de transporte son de los más utilizados para crear servicios y aplicaciones (por ejemplo, aquellas que informan del estado de tráfico, los horarios de los autobuses, etc.). A esta categoría pertenecen datasets como las incidencias de tráfico en tiempo real o los precios de los carburantes.
  • Educación: Con la llegada de la COVID-19, muchos alumnos tuvieron que seguir sus estudios desde sus hogares, a través de soluciones digitales que no siempre estaban preparadas. En los últimos meses, a través de iniciativas como el Desafío Aporta, se ha hecho un esfuerzo para impulsar la creación de soluciones que incorporen datos abiertos con el fin de mejorar la eficiencia del ámbito educativo, impulsar mejoras -como la personalización de la educación- y lograr un acceso más universal al conocimiento. Algunos de los datasets de educación que podemos encontrar en el catálogo son las titulaciones impartidas por las universidades españolas, o encuestas sobre el gasto de los hogares en educación.
  • Cultura y ocio: Los datos de cultura y ocio son una categoría de gran importancia a la hora de reutilizarse para desarrollar, por ejemplo, contenidos educativos y de aprendizaje. Los datos culturales pueden ayudar a generar nuevo conocimiento que nos ayude a conocer nuestro pasado, presente y futuro. Algunos ejemplos de conjuntos de datos son la ubicación de monumentos o los listados de obras de arte.

Estructura de cada sector

Cada página de sector cuenta con una estructura homogénea, que facilita la localización de contenidos disponibles igualmente en otras secciones.

Empieza con un destacado donde se aprecian algunos ejemplos de conjuntos de datos destacados pertenecientes a esta categoría, y un enlace para acceder a todos los datasets de esta temática en el catálogo.

Continua con noticias relacionadas con los datos y el sector en cuestión, que pueden abarcar desde eventos o información sobre iniciativas concretas (como Procomún en el ámbito de los datos educativos o el Pacto Verde en medio ambiente) hasta las últimas novedades a nivel estratégico y operativo.

Por último, encontramos tres secciones relacionadas con los casos de uso: innovación, empresas reutilizadoras y aplicaciones. En la primera se cuenta, a través de artículos, ejemplos de usos novedosos, muchas veces ligados a tecnologías disruptivas como la Inteligencia Artificial. En las dos últimas, hallamos fichas concretas de empresas y aplicaciones que utilizan datos abiertos de dicha categoría para generar un beneficio para la sociedad o la economía.

Sección de destacados en la home

Además de la creación de páginas sectoriales, en el último año, datos.gob.es también ha incorporado una sección de datasets destacados. El objetivo es dar una mayor visibilidad a aquellos conjuntos de datos que cumplen una serie de características: han sido los últimos en actualizarse, se encuentran en formato CSV o se puede acceder a ellos vía API o servicios web.

Captura de la home con los datasets destacados

¿Qué otros sectoriales te gustaría destacar?

En los planes de datos.gob.es está el continuar aumentado el número de sectores a destacar. Por ello, te invitamos a dejar en comentarios cualquier propuesta que consideres adecuada.

calendar icon
Blog

La iniciativa Hércules se inicia en noviembre de 2017, mediante un convenio entre la Universidad de Murcia y el Ministerio de Economía, Industria y Competitividad, con el objetivo de desarrollar un Sistema de Gestión de Investigación (SGI) basado en datos abiertos semánticos que ofrezca una visión global de los datos de investigación del Sistema Universitario Español (SUE), para mejorar la gestión, el análisis y las posibles sinergias entre universidades y el gran público.

Esta iniciativa es complementaria a UniversiDATA, donde varias universidades españolas colaboran para fomentar los datos abiertos en el sector de la educación superior mediante la publicación de conjuntos de datos a través de criterios estandarizados y comunes. En concreto se define un Núcleo Común con 42 especificaciones de datasets, de los cuales se han publicado 12 para la versión 1.0. Hércules, en cambio es una iniciativa específica del ámbito de investigación, estructurada en torno a tres pilares:

  1. Prototipo innovador de SGI
  2. Grafo unificado de conocimiento (ASIO) 1],
  3. Enriquecimiento de datos y análisis semántico (EDMA)

El objetivo final es la publicación de un grafo unificado de conocimiento donde queden integrados todos los datos de investigación que deseen hacer públicos las universidades participantes. Hércules prevé la integración de universidades a diferentes niveles, dependiendo de su disposición a reemplazar su SGI por el SGI de Hércules. En el caso de SGIs externos, el grado de accesibilidad que ofrezcan también tendrá implicación en el volumen de datos que puedan compartir a través del grafo unificado.

Organigrama general de la iniciativa Hércules

Organigrama general de la iniciativa Hércules. Representa cómo a la capa semántica de Hércules se pueden conectar universidades alineadas con Hércules y otras universidades. La Universidades alineadas con Hércules pueden ser de 3 tipos. 1. Universidades dispuestas a cambiar su SGI, que se conectarán con el SGI Hércules. 2. Universidades no dispuestas a cambiar su SGI, pero con un SGI accesible, que utilizarán conectores fuertemente acoplados. 3. Universidades no dispuestas a cambiar su SGI, con un SGI inaccesible, que utilizarán conectores débilmente acoplados. Las otras universidades no alineadas con Hércules utilizarán conectores levemente acoplados.

Dentro de la iniciativa Hércules, se integra el Proyecto ASIO (Arquitectura Semántica e Infraestructura Ontológica). El propósito de este sub-proyecto es definir una Red de Ontologías para la Gestión de la Investigación (Infraestructura Ontológica). Una ontología es una definición formal que describe con fidelidad y alta granularidad un dominio de discusión concreto. En este caso, el dominio de la investigación, que puede ser extrapolable a otras universidades españolas e internacionales (de momento el piloto se está desarrollando con la Universidad de Murcia). Es decir, se trata de crear un vocabulario de datos común.

Adicionalmente, a través del módulo de Arquitectura Semántica de Datos se ha desarrollado una plataforma eficiente para almacenar, gestionar y publicar datos de investigación del SUE, basándose en ontologías, con la capacidad de sincronizar instancias instaladas en diferentes universidades, así como la ejecución de consultas federadas distribuidas sobre aspectos clave de producción científica, líneas de investigación, búsqueda de sinergias, etc.

Como solución a este reto de innovación se han propuesto dos líneas complementarias, una centralizada (sincronización en escritura) y otra descentralizada (sincronización en consulta). En las próximas secciones se explica en detalle la arquitectura de la solución descentralizada.

Domain Driven Design

El modelo de datos sigue el enfoque Domain Driven Design, modelando entidades y vocabulario común, que pueda ser comprendido tanto por desarrolladores como expertos del dominio. Este modelo es independiente de la base de datos, del interfaz de usuario y del entorno de desarrollo, obteniendo una arquitectura de software limpia que permite adaptarse a los cambios del modelo.

Para ello se hace uso de Shape Expressions (ShEx), un lenguaje para validar y describir conjuntos de datos RDF, con sintaxis legible por humanos. A partir de estas expresiones se genera el modelo de dominio automáticamente y permite orquestar un proceso de integración continua (CI), tal y como se describe en la siguiente figura.

Proceso de integración continua mediante Domain Driven Design

Gráfico que muestra el proceso de integración continua mediante Domain Driven Design.  A partir de Shape Expressions se genera el modelo de dominio automáticamente, en formato POJO, que además permite orquestar un proceso de integración continua (CI), integrado y validando los cambios, tan pronto como sea posible.

Mediante un sistema basado en de control de versiones como elemento central, se ofrece la posibilidad de que los expertos de dominio construyan y visualicen las ontologías multilingües. Estas a su vez se apoyan en ontologías tanto del ámbito de la investigación: VIVO, EuroCRIS/CERIF o Research Object, como ontologías de propósito general para la etiquetación de metadatos: Prov-O, DCAT, etc.

Linked Data Platform

El servidor de datos enlazados es el núcleo de la arquitectura, encargándose de renderizar la información sobre todas las entidades. Para ello recoge peticiones HTTP del exterior y las redirecciona a los servicios correspondientes, aplicando negociación de contenidos, la cual ofrece la mejor representación de un recurso basado en las preferencias del navegador para los distintos tipos de medios, idiomas, caracteres y codificación.

Todos los recursos se publican siguiendo un esquema de URIs persistentes diseñado a medida. Cada entidad representada mediante una URI (investigador, proyecto, universidad, etc) dispone de una serie de acciones para consultar y actualizar sus datos, siguiendo los patrones propuestos por Linked Data Platform (LDP) y el modelo de 5 estrellas.

Este sistema garantiza además el cumplimiento con los principios FAIR (Findable, Accesible, Interoperable, Reusable) y publica automáticamente los resultados de aplicar dichas métricas sobre el repositorio de datos.

Publicación de datos abiertos

El sistema de procesamiento de datos se encarga de la conversión, integración y validación de datos de terceras partes, así como la detección de duplicados, equivalencias y relaciones entre entidades. Los datos surgen de varias fuentes, principalmente el SGI unificado de Hércules, pero también de SGIs alternativos, o de otras fuentes que ofrecen datos en formato FECYT/CVN (Curriculum Vitae Normalizado), EuroCRIS/CERIF y otros posibles.

El sistema de importación convierte todas estas fuentes a formato RDF y los registra en un repositorio de propósito específico para datos enlazados, denominado Triple Store, por su capacidad para almacenar tripletas de tipo sujeto-predicado-objeto.

Una vez importados, se organizan formando un grafo de conocimiento, fácilmente accesible, permitiendo realizar inferencias y búsquedas avanzadas potenciadas por las relaciones entre conceptos.

 

Ejemplo de grafo de conocimiento describiendo el proyecto ASIO

Ejemplo de grafo de conocimiento describiendo el proyecto ASIO

Resultados y conclusiones

El sistema final no sólo permite ofrecer un interfaz gráfico para consulta interactiva y visual de datos de investigación, sino que además permite diseñar consultas SPARQL, como la que se muestra a continuación, incluso con la posibilidad de ejecutar la consulta de forma federada sobre todos los nodos de la red Hércules, y mostrar resultados de forma dinámica en diferentes tipos de gráficos y mapas.

En este ejemplo, se muestra una consulta (con datos limitados de prueba) de todos proyectos de investigación disponibles agrupados gráficamente por año:

PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>

SELECT ?year (COUNT(?x) as ?cuenta)

WHERE {

         ?x <http://www.w3.org/1999/02/22-rdf-syntax-nes#type> <https://ldpld1test.um.es/um/es-ES/rec/Project> .

         ?x <https://ldpld1test.um.es/um/es-ES/rec/startDate> ?d BIND(SUBSTR(?d, 1, 4) as ?year) .

} GROUP BY ?year LIMIT 20

LIMIT 20

Ejemplo de consulta SPARQL con resultado gráfico

Ejemplo de la consulta SPARQL antes detallada con su resultado gráfico

En definitiva, ASIO ofrece un marco común de publicación de datos abiertos enlazados, ofrecido como código libre y fácilmente adaptable a otros dominios. Para dicha adaptación, bastaría con diseñar un modelo de dominio específico, incluyendo la ontología y los procesos de importación y validación comentados en este artículo.

Actualmente el proyecto, en sus dos variantes (centralizada y descentralizada), se encuentra en proceso de puesta en pre-producción dentro de la infraestructura de la Universidad de Murcia, y en breve será accesible públicamente.


[1 Los grafos son una forma de representación del conocimiento que permiten relacionar conceptos a través de la integración de conjuntos de datos, utilizando técnicas de web semántica. De esta forma se puede conocer mejor el contexto de los datos, lo que facilita el descubrimiento de nuevo conocimiento.


Contenido elaborado por Jose Barranquero, experto en Ciencia de datos y computación cuántica.

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

calendar icon
Entrevista

Durante 2020 el sector de la educación se ha visto expuesto a grandes cambios debido a la pandemia mundial. Los hogares se transformaron en aulas, lo que supuso un reto para todos los implicados en el ecosistema educativo. La Fundación COTEC, una organización privada sin ánimo de lucro encargada de promover la innovación para el desarrollo económico y social, siguió muy de cerca esta situación. Ya en el mes de abril, publicaron el primer informe “COVID 19 Y EDUCACIÓN I: problemas, respuestas y escenarios”, donde se analizaban los retos educativos derivados de la emergencia sanitaria y se proponían diversos escenarios de actuación. Al que le siguieron luego “Covid-19 y Educación II: escuela en casa y desigualdad” y “Covid-19 y Educación II: escuela en casa y desigualdad”. 

Hemos hablado con Ainara Zubillaga, Directora de Educación y Formación de la Fundación COTEC y coautora del informe, para analizar la situación del I+D español en general y que nos cuente cuál es la situación actual y la evolución que se espera que experimente nuestro sistema educativo en los próximos años gracias a la tecnología y los datos.

Entrevista completa

1. En marzo de 2020 los colegios cerraron prácticamente de un día para otro. ¿Qué retos sacó a relucir esta situación? 

El cierre de las escuelas visibilizó las costuras del sistema educativo. No emergieron problemas que no existieran, pero sí puso la lupa en los déficits estructurales que ya existían, igual que ha acelerado tendencias que estaban llamando a la puerta.  

El impacto del cierre de los centros educativos ha sido doble: educativo y social. Desde la perspectiva educativa ha puesto de manifiesto la sobrecarga que tiene nuestro currículum, un volumen de contenidos que no son capaces de ser abordados en condiciones normales, lo que complicó aún más el desarrollo en un escenario de educación en remoto. La digitalización ha sido el gran reto al que se han enfrentado los centros y el profesorado: desde falta de recursos (plataformas, aplicaciones, digitalización de materiales, etc.), hasta una escasa formación del profesorado que se ha visto obligado a migrar su actividad docente diaria a un formato y un canal que muchos desconocían cómo funciona y cómo aprovecharlo didácticamente.  

Y desde la perspectiva social, el cierre de escuelas ha visibilizado la brecha educativa, que se ha mostrado al gran público a través de la brecha digital. No se reduce únicamente a ella, pero sí es lo que ha permitido a todos ver los problemas de equidad y de segregación educativa más allá de las aulas. Los datos son claros: es fundamentalmente el nivel socioeconómico, la variable que incide en las tres brecha digitales -de acceso, de uso y de centro-, por encima de comparativas con otros países o entre Comunidades Autónomas. 

2. Al revisar las políticas educativas de las distintas CC.AA., ¿qué aspectos podrían ayudar a paliar las diferentes brechas detectadas y evitar además disparidades entre territorios? 

La más evidente parece toda acción vinculada con la reducción de la brecha digital, pero en su sentido más amplio, es decir, no hablamos solo de dotación de dispositivos y garantía de conectividad, sino también de competencia digital y de aprovechamiento didáctico de las tecnologías 

Y el otro gran aspecto, sin duda, son todos los programas de refuerzo y apoyo escolar. Los primeros datos que empezamos a tener sobre el impacto del cierre de escuelas en términos de pérdida de aprendizaje, muestran claramente que hay una incidencia significativamente mayor sobre los alumnos más vulnerables. Las brechas que ya existían, por tanto, se están agrandando, y es necesario invertir la tendencia.  

3. ¿En qué sentido pueden los datos abiertos impulsar mejoras en el sector educativo que ayuden a superar estos retos? 

Los datos son un elemento fundamental para la transparencia y evaluación del funcionamiento del sistema educativo y de sus políticas. Sólo la evidencia sobre el grado de impacto y funcionamiento de las políticas públicas puede ayudarnos tanto a enfocar correctamente las inversiones, como a reforzar aquello que no funcione.  

Por otro lado, los datos abiertos permiten a las diferentes Consejerías compartir información, compartir buenas prácticas, y, en definitiva, hacer más eficiente la administración pública y ponerla al servicio del ciudadano. El estudio COVID-19 Y EDUCACIÓN III: la respuesta de las Administraciones, que lanzamos desde Cotec el pasado diciembre, refleja entre sus conclusiones que es necesario un sistema de información más accesible, transparente, directo y coordinado que permita compartir, replicar y transmitir buenas prácticas dentro de la Administración educativa. 

Los datos son un elemento fundamental para la transparencia y evaluación del funcionamiento del sistema educativo y de sus políticas, que permiten compartir información y buenas prácticas para hacer más eficiente la administración pública.

4. Forma parte del jurado del Desafío Aporta 2020, que este año se ha centrado en buscar soluciones basadas en datos que ayuden a solucionar retos del sistema educativo. ¿Nos puedes contar algo de las soluciones presentadas? 

Las propuestas que se han presentado al concurso son un ejemplo de esas tendencias que se han acelerado y que comentaba anteriormente. Son claros ejemplos, en su mayoría, de soluciones orientadas a la personalización del aprendizaje, que sin duda es una de las líneas de desarrollo de la digitalización en educación, y así está recogida además en el programa Educa en  Digital del propio Ministerio de Educación 

La personalización del proceso de aprendizaje es un ejemplo claro del valor añadido que aporta la tecnología a la educación: no sólo permite ajustar qué se enseña y cómo al alumno y sus necesidades, sino que, además, libera al docente de funciones rutinarias de seguimiento, permitiéndole enfocar en una atención más personalizada, especialmente en aquellos alumnos que precisan un mayor apoyo.  

5. Acaban de poner en marcha el proyecto La escuela, lo primero, ¿qué nos puede contar de él? 

"La escuela, lo primero" es un proyecto de innovación cuyo objetivo es ofrecer a la Administración, centros educativos, personal docente, y otras instituciones, las herramientas necesarias para afrontar los desafíos a los que se enfrenta el sistema educativo, los diferentes escenarios y situaciones – presenciales y a distancia – derivados de la pandemia de la Covid-19. 

Arrancamos en julio, con la primera edición de los laboratorios de innovación docente, y hemos contado con la participación de más de 200 profesores de toda España, que han generado más de treinta propuestas, todas ellas soluciones innovadoras que incluyen juegos, guías, decálogos o recursos virtuales, válidas para ser aplicadas en cualquier centro escolar. 

Las propuestas prácticas abordan, entre otros retos, la transferencia de metodologías activas al entorno virtual, la organización de tiempos y espacios de forma flexible, el fomento del trabajo colaborativo en remoto, impulsar la autonomía del alumno, reforzar las necesidades educativas especiales o fomentar la convivencia.  

"La escuela, lo primero" es un proyecto de innovación que ofrece herramientas  para afrontar los desafíos a los que se enfrenta el sistema educativo.

6. ¿Qué otros proyectos relacionados con el ámbito educativo han puesto en marcha o tienen pensado desarrollar? 

Seguimos con nuestro trabajo de análisis y diseño de soluciones y propuestas orientadas a dar respuesta a todos los retos que han surgido por la pandemia. Los laboratorios docentes de "La escuela, lo primero" no sólo continúan, sino que se van a completar con otros de seguimiento que nos permita evaluar la implementación de las soluciones propuestas: qué ha funcionado y qué no, cómo ha evolucionado este curso tan peculiar, qué nuevos retos han surgido… y todo ello dirigido a poder definir las líneas de esa escuela que queremos construir.  

Y desde la dimensión más vinculada con las políticas públicas, estamos trabajando en la elaboración de un Plan de Digitalización, que esperemos dé orientaciones tanto a la Administración como a los centros, en este proceso que en ocasiones no está siendo enfocado de la manera más adecuada.  

7. La Fundación COTEC elabora cada año un informe sobre la situación del I+D en España. El informe de este año muestra que la I+D ha ganado peso en la estructura productiva por segundo año consecutivo, ¿Qué hacemos bien en España? ¿Qué queda por hacer? 

Si miramos el país como conjunto, los datos nos dicen que no somos un país especialmente innovador (ocupamos posiciones medias en los rankings internacionales, que no se corresponden con las posiciones que tenemos como potencia económica o científica).   

Ahora bien, si nuestro punto de vista baja de la escala país a la escala individual, de lo institucional a lo personal, la perspectiva cambia. Tanto en el sector público como en el sector privado proliferan, cada vez más, las iniciativas innovadoras, impulsadas por una fuerte creatividad y entusiasmo individual. Y a ello se une que muchas de ellas se están desarrollando en entornos y por cauces al margen de la estructura clásica del sistema de ciencia, tecnología y universidad.  Por tanto, creo que somos buenos a título individual, en proyectos que actúan de catalizadores, pero que, al carecer de un sistema debidamente definido, articulado, conectado y coordinado, perdemos fuerza en el cambio colectivo.  

Y en educación ocurre algo similar: tenemos una brecha entre una vocación innovadora de una gran parte del profesorado, reflejada en esa multitud de proyectos y experiencias piloto, y el desempeño innovador de las escuelas y el conjunto del sistema. Y eso ralentiza la transformación del sistema educativo en su conjunto. 

Tanto en el sector público como en el sector privado proliferan, cada vez más, las iniciativas innovadoras, impulsadas por una fuerte creatividad y entusiasmo individual.

8. El informe COTEC de este año también resalta que España presenta una tasa superior a la media europea en graduados STEM, pero con una brecha de género mucho más amplia ¿qué podemos hacer para revertir esta situación? 

Parece evidente que hay una brecha entre la tecnología y la mujer (y recalco la tecnología porque por ejemplo no se produce en el ámbito sanitario, que también es otra área STEM, científica, pero que sí cuenta con una presencia femenina significativa). Creo que ese distanciamiento viene generado por el discurso subyacente a la tecnología, que está enfocado en el dispositivo (el qué), no en el proceso (el para qué). Nos falta vincular de manera clara la finalidad de las tecnologías, contextualizarlas, dotarlas de un mayor sentido y enfoque social, y creo que así minimizaríamos la distancia que la población en general y las mujeres en participar tienen hacia la tecnología. Permitiría abordar al problema desde otra perspectiva: no se trata de acercar la mujer a la tecnología, sino de acercar la tecnología a la mujer. 

calendar icon
Noticia

El pasado mes de octubre, desde la Iniciativa Aporta, junto con la Secretaría de Estado de Digitalización e Inteligencia Artificial y Red.es, se lanzó la tercera edición del Desafío Aporta. Bajo el lema “El valor del dato en la educación digital” se buscaba premiar ideas y prototipos que fueran capaces de identificar nuevas oportunidades de captar, analizar y utilizar la inteligencia de los datos en el desarrollo de soluciones en el ámbito educativo.

Dentro de las propuestas presentadas en la Fase I, se pueden encontrar candidaturas de diversa índole. Han participado desde particulares, hasta equipos del ámbito académico universitario, instituciones educativas y empresas privadas, que han ideado plataformas web, aplicaciones móviles y soluciones interactivas con la analítica de datos y las técnicas de machine learning como protagonistas.

Un jurado de reconocido prestigio ha sido el encargado de evaluar las propuestas presentadas en base a una serie de criterios públicos. Las 10 soluciones seleccionadas como finalistas son:

Finalistas desafío Aporta

 

EducaWood

  • Equipo: Jimena Andrade, Guillermo Vega, Miguel Bote, Juan Ignacio Asensio, Irene Ruano, Felipe Bravo y Cristóbal Ordóñez.

¿En qué consiste?

EducaWood es un portal web socio-semántico que permite explorar la información forestal de una zona del territorio español y enriquecerla con anotaciones de árboles. El profesorado puede proponer actividades de aprendizaje medioambiental contextualizadas a su entorno. Los estudiantes realizan dichas actividades en visitas al campo mediante anotaciones de árboles (localización e identificación de especies, medidas, microhábitats, fotos, etc.) a través de sus dispositivos móviles. Además, EducaWood permite realizar visitas virtuales al campo y realizar actividades remotas con la información forestal disponible y con las anotaciones generadas por la comunidad, posibilitando así su uso por colectivos vulnerables y en escenarios Covid.

EducaWood utiliza fuentes como el Mapa Forestal Español, el Inventario Forestal Nacional o GeoNames,  las cuales han sido integradas y republicadas como datos abiertos enlazados. Las anotaciones que se generan con las actividades de los estudiantes se publicarán también como datos abiertos enlazados, contribuyendo así al beneficio comunitario.

Educación en Datos. Innovación y Derechos Humanos.

  • Equipo: María Concepción Catalán, Asociación Innovación y Derechos Humanos (ihr.world).

¿En qué consiste?

Esta propuesta plantea un portal web de educación en datos para estudiantes y docentes centrado en los Objetivos de Desarrollo Sostenible (ODS). Su principal objetivo es proponer a sus usuarios diferentes retos a resolver mediante el uso de datos, como por ejemplo ‘¿A qué se dedicaban las mujeres en España en 1920?’ o ‘¿Cuánta energía se necesita para mantener una granja de 200 cerdos?’.

Esta iniciativa utiliza datos de diversas fuentes como la ONU, el Banco Mundial,  Our World in Data, la Unión Europea y cada uno de sus países. En el caso de España utiliza datos de datos.gob.es y el INE, entre otros.

UniversiDATA-Lab

  • Equipo: Universidad Rey Juan Carlos, Universidad Complutense de Madrid, Universidad Autónoma de Madrid, Universidad Carlos III de Madrid y DIMETRICAL The Analytics Lab S.L.

¿En qué consiste?

UniversiDATA-Lab es un portal público y abierto cuya función es alojar un catálogo de análisis avanzados y automáticos de los conjuntos de datos publicados en el portal UniversiDATA, y que es fruto del trabajo colaborativo de las universidades. Surge como evolución natural de la sección "laboratorio" actual de UniversiDATA, abriendo el alcance de los análisis potenciales a todos los datasets/universidades presentes y futuros, con el fin de mejorar los aspectos analizados y estimular que las universidades sean laboratorios de ciudadanía, aportando un valor diferencial a la sociedad.

Todos los conjuntos de datos que las universidades están publicando o van a publicar en UniversiDATA son potencialmente utilizables para llevar a cabo análisis en profundidad, siempre considerando el respeto a la protección de datos personales. Las fuentes concretas de los análisis se publicarán en GitHub para favorecer la colaboración de otros usuarios para aportar mejoras.

LocalizARTE

  • Equipo: Pablo García, Adolfo Ruiz, Miguel Luis Bote, Guillermo Vega, Sergio Serrano, Eduardo Gómez, Yannis Dimitriadis, Alejandra Martínez y Juan Ignacio Asensio.

¿En qué consiste?

Esta aplicación web persigue el aprendizaje de historia del arte a través de diferentes entornos educativos. Permite al alumnado visualizar y realizar tareas geoetiquetadas sobre un mapa. El profesorado puede proponer nuevas tareas, que son agregadas al repositorio público, además de seleccionar las tareas que puedan resultar más interesantes para su alumnado y visualizar las que realicen. Por otro lado, en el futuro se desarrollará una versión móvil de LocalizARTE en la que para realizar las tareas será necesario que el usuario se encuentre próximo al lugar donde estén geoetiquetadas.

Los datos abiertos que se utilizan en la primera versión de LocalizARTE provienen de la relación de monumentos históricos de Castilla y León, DBpedia, Wikidata, Casual Learn SPARQL y OpenStreetMap.

Estudio Datos PISA y datos.gob.es

  • Equipo: Antonio Benito, Iván Robles y Beatriz Martínez.

¿En qué consiste?

Este proyecto se basa en la creación de un cuadro de mando que permite ver la información del informe PISA, realizado por la OCDE, u otras evaluaciones educativas junto con datos proporcionados por datos.gob.es de ámbito socioeconómico, demográfico, educativo o científico. El objetivo es detectar qué aspectos favorecen el incremento del rendimiento académico utilizando un modelo de machine learning, de tal forma que se pueda llevar a cabo una toma de decisiones eficaz. La idea es que los propios centros de estudio puedan adaptar sus prácticas y currículos educativos hacia las necesidades de aprendizaje del alumnado para garantizar un mayor éxito.

Esta aplicación utiliza diversos datos abiertos del INE, del Ministerio de Educación y Formación Profesional o de PISA España.

Big Data en Educación Secundaria… y lo secundario en Educación

  • Equipo: Carmen Navarro, Colegio Nazaret Oporto.

¿En qué consiste?

Esta propuesta persigue dos objetivos: por un lado, mejorar la formación del alumnado de secundaria en competencias digitales, como el control de sus perfiles digitales en internet o el uso de datos abiertos para sus trabajos y proyectos. Por otro, la utilización de los datos generados por el alumnado en una plataforma e-learning del centro tipo Moodle para determinar patrones y métricas que permitan personalizar el aprendizaje. Todo ello alineado con los ODS y la Agenda 20-30.

Para su desarrollo se utilizan datos de la OMS y del datatón “Big Data en la lucha contra la obesidad”, donde diversos alumnos y alumnas propusieron medidas para mitigar la obesidad mundial en base al estudio de datos públicos.

DataLAB: el laboratorio de datos en la Educación

  • Equipo: iteNlearning, Ernesto Ferrández Bru.

¿En qué consiste?

Los datos obtenidos con técnicas de Inteligencia Artificial empiristas como big data o machine learning ofrecen correlaciones, no causas. iteNleanring basa su tecnología en modelos científicos con evidencia, además de en datos (procedentes de fuentes como el INE o el Instituto Vasco de Estadística - Eustat). Estos datos son curados con el fin de asistir a los docentes en la toma de decisiones, una vez que DataLAB identifica las necesidades específicas de cada estudiante.

DataLAB Matemáticas es un instrumento educativo profesional que, partiendo de modelos neuropsicológicos y cognitivos, mide el nivel de neurodesarrollo de los procesos cognitivos específicos desarrollados por cada estudiante. Con ello genera un cuadro de mando educativo que, a partir de datos, nos informa de las necesidades específicas de cada persona (alta capacidad, discalculia...) con el objetivo de que puedan ser potenciadas y/o reforzadas, permitiendo una educación basada en evidencias.

El valor del podcast en la educación digital

  • Equipo: Adrián Pradilla Pórtoles y Débora Núñez Morales.

¿En qué consiste?

2020 ha sido el año en que los podcasts han despegado como nuevo formato digital para el consumo de diferentes ámbitos de información. Esta idea busca aprovechar el auge de esta herramienta para utilizarla en el ámbito educativo y que el alumnado pueda aprender de una forma más amena y diferente.

La propuesta recoge los temarios oficiales de educación secundaria o universitaria, así como de oposiciones, que se pueden obtener de fuentes de datos abiertas y webs oficiales. A través de tecnologías de procesamiento del lenguaje natural, esos temarios se asocian con audios ya existentes del profesorado sobre historia, inglés, filosofía, etc. en plataformas como iVoox o Spotify, dando como resultado un listado de podcast por curso y materia.

Entre las fuentes de datos utilizadas para esta propuesta se incluyen la Oferta Pública de Empleo de Castilla La Mancha o las competencias educativas en diferentes etapas.

Proyecto MIPs

  • Equipo: Aday Melián Carrillo, Daydream Software.

¿En qué consiste?

Un MIP (Marked Information Picture) es un nuevo soporte interactivo de información, que consiste en una serie de capas interactivas sobre imágenes estáticas que facilitan la retención de información y la identificación de elementos.

Este proyecto consiste en un servicio para la creación de MIPs de forma rápida y sencilla, dibujando manualmente regiones de interés sobre cualquier imagen importada a través de la web. Los MIPs creados serán accesible desde cualquier dispositivo y tienen múltiples aplicaciones como recurso docente, personal y profesional.

Además de la creación manual, los autores han implementado en Python un conversor de datos GeoJSON a MIP de forma automática. Como primer paso, han desarrollado un MIP de provincias españolas a partir de esta base de datos pública.

FRISCHLUFT

  • Equipo: Harut Alepoglian y Benito Cuezva, Asociación Cultural Colegio Alemán, Zaragoza.

¿En qué consiste?

El proyecto Frischluft (Aire Fresco) es una solución hardware y software para la medición de parámetros ambientales en el colegio. Con ello se pretende mejorar el confort térmico de las aulas y aumentar la protección del alumnado a través de una ventilación inteligente, a la vez que se consolida un proyecto tractor que impulse la transformación digital del colegio.

Esta propuesta utiliza fuentes de datos del Ayuntamiento de Zaragoza sobre niveles de CO2 en el entorno urbano de la ciudad y repositorios de datos internacionales para la medición de emisiones globales, que se comparan a través de técnicas estadísticas y modelos de machine learning.

Próximos pasos

Todas estas ideas han sido capaces de plasmar cómo utilizar de manera óptima la inteligencia de los datos para desarrollar soluciones reales en el sector de la educación. Ahora, los finalistas cuentan con 3 meses para desarrollar un prototipo. Los tres prototipos que obtengan la mejor valoración del jurado, según los criterios de evaluación establecidos, serán premiados con 4.000, 3.000 y 2.000 euros respectivamente.

¡Mucha suerte a todos los participantes!

calendar icon