Los datos son una fuente de conocimiento de gran valor para la sociedad. El compromiso público para lograr su apertura, la colaboración público-privada en materia de datos y el desarrollo de aplicaciones con datos abiertos son acciones que forman parte de la economía del dato, aquella que persigue el uso innovador, ético y práctico de los datos para mejorar el desarrollo social y económico.
Tan relevante es lograr un acceso y uso público de los datos como transmitir correctamente esa información tan valiosa. Para elegir cuál es el mejor gráfico para cada tipo de datos es necesario identificar el tipo de variables y la relación que existe entre ellas.
A la hora de comparar datos, debemos revisar que las variables sean de la misma naturaleza, es decir, variables cuantitativas o cualitativas, estar en la misma unidad de medida y que su contenido sea comparable.
Presentamos a continuación diferentes visualizaciones, sus normas de uso y las situaciones más adecuadas para emplear cada tipo. Abordamos una serie de ejemplos, desde los más sencillos como gráficos de barras hasta gráficos menos conocidos como las tablas de calor o las comparaciones acumuladas.
Gráficos de barras
Visualización que representa datos mediante dos ejes: uno que recoge datos cualitativos o de tiempo y otro que muestra los valores cuantitativos. También se utiliza para analizar tendencias porque uno de los ejes puede mostrar datos temporales. Si se le da la vuelta a los ejes se obtiene un gráfico de columnas.
Buenas prácticas:
- Mostrar las etiquetas de valor de los ejes y reservar las etiquetas como ventanas emergentes para los datos secundarios.
- Utilizarlo para representar menos de 10 puntos de valores. Cuando se quiera visualizar más puntos de valores será más adecuado emplear un gráfico de línea.
- Diferenciar claramente los datos reales de las estimaciones.
- Combinar con un gráfico de líneas para mostrar tendencias o la media.
- Colocar aquella con descripciones más largas en el eje vertical, cuando ninguna variable sea temporal.

Fuente: El Orden Mundial https://elordenmundial.com/mapas-y-graficos/comercio-fertilizantes-mundo/
Gráficos de barras agrupadas
Tipo de gráfico de barras en el que cada categoría de datos se divide a su vez en dos o más subcategorías. Por lo tanto, el escenario comparativo abarca más factores.
Buenas prácticas
- Limitar el número de categorías para no mostrar demasiada información en el gráfico.
- Introducir un máximo de tres o cuatro subcategorías dentro de cada categoría. En el caso de que se necesite mostrar más agrupaciones, se puede valorar el uso de las barras apiladas o un conjunto de gráficas.
- Elegir colores que contrasten entre sí para diferenciar las barras de cada subcategoría.

Fuente: RTVE https://www.rtve.es/noticias/20230126/pobreza-energetica-espana/2417050.shtml
Gráficos de comparaciones acumuladas
Muestran la composición de una categoría de forma acumulada. Además de ofrecer una comparación entre variables, estos gráficos pueden evidenciar la segmentación de cada categoría. Pueden ser de barras apiladas o áreas acumuladas.
Buenas prácticas
- Evitar utilizar gráficos de barras apiladas a la hora de comparar segmentos de cada categoría entre sí. En ese caso, mejor utilizar gráficos múltiples.
- Limitar el número de subcategorías de las barras apiladas o segmentos de las áreas.
- Aplicar contraste de color entre las categorías y cumplir con los principios de accesibilidad.

Fuente: Newtral https://www.newtral.es/medallas-espana-eurobasket/20220917/
Pirámide de población
Combinación de dos gráficos de barras horizontales que comparten un eje vertical que representa el valor inicial y muestra dos valores que crecen a ambos lados de forma simétrica.
Buenas prácticas
- Definir un criterio de orden común como puede ser la edad.
- Representar los datos en números absolutos o porcentajes para tener en cuenta que la suma de los dos valores que se están comparando representa el total.

Fuente: El Español https://www.elespanol.com/quincemil/articulos/actualidad/asi-es-la-alarmante-piramide-de-poblacion-de-galicia-en-2021
Gráfico de radar
Visualización circular formada por ejes polares que sirven para representar medidas con categorías que forman parte de un mismo tema. De cada categoría salen unos ejes radiales que confluyen en el punto central del gráfico.
Buenas prácticas:
- Mantener los datos numéricos dentro de un mismo rango de valores para evitar mostrar un gráfico deformado.
- Limitar el número de categorías con series de datos. Un número adecuado podría estar entre cuatro y siete categorías.
- Agrupar en un sector del círculo del radar las categorías que tengan relación entre sí o que compartan jerarquía común.

Fuente: Guía de visualización de datos para Entidades Locales https://redtransparenciayparticipacion.es/download/guia-de-visualizacion-de-datos-para-entidades-locales/
Tabla de calor
Representación gráfica en formato tabla que permite evaluar dos dimensiones distintas que aparecen diferenciadas con grados de tonalidad de color o códigos de semáforo.
Buenas prácticas
- Indicar el valor en cada celda porque el color solo es un atributo orientativo. En los gráficos interactivos, los valores se pueden identificar con una etiqueta emergente.
- Incluir en el gráfico un esquema o leyenda para explicar el significado de la escalera de color.
- Utilizar colores accesibles para todas las personas y con una semántica reconocible como degradados, frío-calor o semafóricos.
- Limitar o reducir la información representada en medida de lo posible.

Fuente: eldiario.es https://www.eldiario.es/sociedad/clave-saturacion-primaria-ratios-mitad-medicos-asignados-1-500-pacientes_1_9879407.html
Gráfico de burbujas
Variedad del diagrama de dispersión que, a mayores, mediante el tamaño de la burbuja, representa una dimensión adicional. En este tipo de gráfico, es posible asignar diferentes colores para asociar grupos o separar categorías. Además de poder emplearlo para comparar variables, el gráfico de burbujas sirve para analizar distribuciones de frecuencias. Es habitual encontrar este tipo de visualizaciones en infografías, cuando no es tan relevante conocer el dato exacto como sí resaltar las diferencias de intensidad de valores.
Buenas prácticas
- Evitar la superposición de burbujas para que la información sea clara.
- Mostrar las etiquetas de valores siempre que sea posible y el número de burbujas lo permita.

Fuente: Civio https://civio.es/el-boe-nuestro-de-cada-dia/2022/07/07/decretos-ley-desde-1996/
Nube de palabras
Recurso gráfico que muestra palabras en mayor o menor tamaño en función de su frecuencia en un conjunto de datos. Para desarrollar este tipo de visualizaciones, se utiliza procesamiento de lenguaje natural (PLN) que es el campo de estudio de inteligencia artificial que utilizar el aprendizaje automático para interpretar textos y datos.
Buenas prácticas
- Se recomienda usar este recurso en infografías donde no sea relevante mostrar la cifra exacta sino una aproximación visual.
- Procurar que la longitud de las palabras sea similar para evitar que afecte a la percepción.
- Facilitar su lectura mostrando las palabras en horizontal.
- Presentar las palabras en un único color para mantener una representación neutra.
Esta visualización gráfica del que publicamos un artículo paso a paso, es una nube de palabras clave de varios textos de datos.gob.es.

Hasta aquí, hemos explicado los tipos de gráficos de comparaciones más comunes destacando ejemplos en medios de comunicación y fuentes de referencia. Sin embrago, podemos encontrar más modelos de visualizaciones para comparar datos en la Guía de Visualización de datos para entidades locales que ha servido de referencia para elaborar este post y otros que publicaremos próximamente. Este artículo forma parte de una serie de post sobre cómo elaborar diferentes tipos de visualizaciones según la relación de los datos y el objetivo de cada ejercicio.
Tal y como repite el mantra popular, “una imagen vale más que mil palabras” podría adaptarse a que “un gráfico vale más que mil números”. La visualización de datos sirve para hacer comprensible una información que, a priori, podría ser compleja.
Hablar estos días de GPT-3 no es lo más original del mundo, lo sabemos. Toda la comunidad tecnológica está publicando ejemplos, realizando eventos y pronosticando el final del mundo del lenguaje y la generación de contenidos tal y cómo la conocemos actualmente. En este post, le pedimos a ChatGPT que nos eche una mano para programar un ejemplo de visualización de datos con R partiendo de un conjunto de datos abiertos disponible en datos.gob.es.
Introducción
Nuestro anterior post hablaba sobre Dall-e y la capacidad de GPT-3 para generar imágenes sintéticas partiendo de una descripción de lo que pretendemos generar en lenguaje natural. En este nuevo post, hemos realizado un ejercicio completamente práctico en el que le pedimos a la inteligencia artificial que nos ayude a realizar un sencillo programa en R que cargue un conjunto de datos abierto y genere algunas representaciones gráficas.
Hemos escogido un conjunto de datos abiertos de la plataforma datos.gob.es. En concreto, un conjunto de datos sencillos de uso de portales madrid.es. La descripción del repositorio explica que se incluye la información relativa a usuarios, sesiones y número de visitas a páginas de los siguientes portales del Ayuntamiento de Madrid: Portal Web municipal, Sede Electrónica, Portal de Transparencia, Portal de Datos Abiertos, Bibliotecas y Decide Madrid.
El fichero se puede descargar en formato .csv o .xslx y si lo pre-visualizamos tiene el siguiente aspecto:

Vale, comencemos a co-programar con ChatGPT!
Primero accedemos a la web y nos identificamos con nuestro usuario y contraseña. Es necesario estar registrado en el sitio web de openai.com para poder acceder a las capacidades de GPT-3, entre otras ChatGPT.
Iniciamos nuestra conversación:

Durante este ejercicio hemos intentado mantener una conversación de la misma forma que la tendríamos con un compañero de programación. Así que lo primero que hacemos es saludar y enunciar el problema que tenemos. Cuándo le pedimos a la IA que nos ayude a crear un pequeño programa en R que represente gráficamente unos datos, nos ofrece algunos ejemplos y ayuda con la explicación del programa:

Puesto que no tenemos datos, no podemos hacer nada práctico por el momento, así que le pedimos si nos ayuda a generar unos datos sintéticos.

Como decimos, nos comportamos con la IA como lo haríamos con una persona (tiene buena pinta).

Una vez que parece que la IA responde con facilidad a nuestras preguntas, vamos con el siguiente paso, vamos a darle nosotros los datos. Y aquí empieza la magia… Hemos abierto el fichero de datos que nos hemos bajado de datos.gob.es y hemos copiado y pegado una muestra.
| Nota: ChatGPT no tiene conexión a Internet y por lo tanto no puede acceder a datos externos, así que lo único que podemos hacer es darle un ejemplo de los datos reales con los que queremos trabajar. |


Con los datos copiados y pegados tal cual se los hemos dado, nos escribe el código en R para cargarlos manualmente en un dataframe denominado “datos”. A continuación, nos proporciona el código de ggplot2 (la librería gráfica más conocida en R) para graficar los datos junto con una explicación del funcionamiento del código.

¡Genial! Es espectacular este resultado con un lenguaje totalmente natural y nada adaptado para hablar con una máquina. Veamos que pasa a continuación:

Pero resulta que al copiar y pegar el código en un entorno de RStudio comprobamos que este falla.

Así que le decimos lo que pasa y que nos ayude a solucionarlo.

Probamos de nuevo y ¡en este caso funciona!

Sin embargo, el resultado es un poco tosco. Así que se lo decimos.

A partir de aquí (y tras varios intentos de copiar y pegar más y más filas de datos) la IA cambia ligeramente el enfoque y me proporciona instrucciones y código para cargar mi propio fichero de datos desde mi ordenador en lugar de introducir manualmente los datos en el código.

Le hacemos caso y copiamos un par de años de datos en un fichero de texto en nuestro ordenador. Fijaos, en lo que ocurre a continuación:


Probamos de nuevo:

Como veis, funciona, pero el resultado no es del todo acertado.

Y veamos lo que ocurre.

¡Por fin parece que ya nos ha entendido! Es decir, tenemos un gráfico de barras con las visitas a la web por mes, para los años 2017 (azul) y 2018 (rojo). Sin embargo, no me convencen ni el formato del título del eje ni tampoco se distingue bien la numeración del mismo eje.

Veamos el resultado ahora.

Tiene mucha mejor pinta, ¿verdad? Pero ¿qué tal si todavía le damos una vuelta de tuerca más?

Sin embargo, se ha olvidado de decirnos que debemos instalar el paquete o librería plotly en R. Así que se lo recordamos.

Veamos el resultado:

Como podéis ver, ahora tenemos los controles del gráfico interactivo, de tal modo que podemos seleccionar un año concreto de la leyenda, hacer zoom, etc.
Conclusión
Puede que seas de esos escépticos, conservadores o prudentes que piensan que las capacidades demostradas por GPT-3 hasta el momento (ChatGPT, Dall-E2, etc) son todavía muy infantiles y poco prácticas en la vida real. Todas las consideraciones a este respecto son legítimas y, muchas, probablemente bien fundamentadas.
Sin embargo, algunos hemos pasado buena parte de la vida escribiendo programas, buscando documentación y ejemplos de código que pudiéramos adaptar o en los que inspirarnos; depurando errores, etc. Para todos nosotros (programadores, analistas, científicos, etc.) poder experimentar este nivel de interlocución con una inteligencia artificial en modo beta, puesta a disposición del público de forma gratuita y siendo capaz de demostrar esta capacidad de asistencia en la co-programación, es, sin duda, un salto cualitativo y cuantitativo en la disciplina de la programación.
No sabemos qué va a pasar, pero probablemente estemos a las puertas de un gran cambio de paradigma en la ciencia de la computación, hasta el punto que, quizás, haya cambiado para siempre la forma de programar y aún no nos hayamos dado cuenta.
Contenido elaborado por Alejandro Alija, experto en Transformación Digital.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
Un gráfico estadístico es una representación visual diseñada para albergar una serie de datos cuyo objetivo es evidenciar una realidad concreta. Sin embargo, transmitir de forma divulgativa un conjunto de datos no es una tarea sencilla, si queremos captar la atención y presentar la información de manera precisa
Facilitar la comparación entre los datos, destacar las tendencias, no inducir a errores de visualización e ilustrar el mensaje que se desea transmitir requiere de un mínimo conocimiento estadístico. Por ello, en función del tipo de relación que exista entre los datos que buscamos ilustrar, debemos decantarnos por un tipo de visualización u otra. Es decir, no es lo mismo representar una clasificación numérica que el grado de correlación entre las dos variables.
Con la finalidad de escoger de manera precisa cuáles son los gráficos más adecuados en función de la información a transmitir, desglosamos los más recomendados por cada tipo de asociación entre variables numéricas. Para elaborar este contenido se ha tomado como referencia la Guía de Visualización de datos para entidades locales publicada recientemente por la RED de Entidades Locales por la Transparencia y Participación Ciudadana de la FEMP, así como esta infografía elaborada por el Financial Times.

Desviación
Sirve para subrayar las variaciones numéricas desde un punto de referencia fijo. Habitualmente, el punto de referencia es cero, pero también puede ser un objetivo o un promedio a largo plazo. Además, este tipo de gráficos resultan útiles para mostrar sentimientos (positivo, neutral o negativo). Los gráficos más frecuentes son:
- Barra Divergente: Un gráfico de barras estándar simple que permite manejar valores de magnitud tanto negativos como positivos.
- Tabla de columna: Divide un valor único en 2 componentes contrastables (p. ej., masculino/femenino).
Correlación
Útil para mostrar la relación entre dos o más variables. Conviene tener en cuenta que, a menos que les diga lo contrario, muchos lectores asumirán que las relaciones que les muestra son causales. Estos son algunos de los gráficos.
- Gráfico de dispersión: La forma estándar de mostrar la relación entre dos variables continuas, cada una de las cuales tiene su propio eje.
- Línea del tiempo: Una buena manera de mostrar la relación entre una cantidad (columnas) y un ratio (línea).
Clasificación
Es necesario clasificar variables numéricas cuando la posición de un elemento en una lista ordenada es más importante que su valor absoluto o relativo. A través de los gráficos dispuestos a continuación es posible resaltar los puntos de interés.
- Gráfico de barras: Este tipo de visualizaciones permiten mostar los rangos de valores de forma sencilla cuando se ordenan.
- Diagrama tira de puntos: Los puntos están ordenados en una tira. Esta distribución ahorra espacio para diseñar rangos en múltiples categorías.
Distribución
Este tipo de gráficos buscan resaltar una serie de valores dentro de un conjunto de datos y representar con qué frecuencia ocurren. Es decir, se utilizan para mostrar cómo se distribuyen las variables a lo largo del tiempo, lo que ayuda a identificar valores atípicos y tendencias.
La forma en sí misma de una distribución puede ser una forma interesante de resaltar la falta de uniformidad o igualdad en los datos. Las visualizaciones más recomendadas para representar, por ejemplo, una distribución por edad o sexo son las siguientes:
- Histograma: Es la forma más habitual de mostrar una distribución estadística. Para desarrollarlo se recomienda mantener un pequeño espacio entre las columnas para, así, resaltar la "forma" de los datos.
- Gráfico de cajas: Eficaz para visualizar distribuciones múltiples mostrando la mediana (centro) y el rango de los datos.
- Pirámide poblacional: Conocido por mostrar la distribución de la población por sexo. De hecho, se trata de una combinación de dos gráficos de barras horizontales compartiendo el eje vertical.
Cambios en el tiempo
A través de esta combinación de variables numéricas es posible dar énfasis a tendencias cambiantes. Estos pueden ser movimientos cortos o series extendidas que atraviesan décadas o siglos. Elegir el período de tiempo correcto a representar es clave para ofrecer un contexto al lector.
- Línea: Es la forma estándar para mostrar una serie temporal cambiante. Si los datos son muy irregulares puede ser útil emplear marcadores que ayuden a representar puntos de datos.
- Mapa de calor calendario: Sirve para mostrar patrones temporales (diario, semanal, mensual). Es necesario ser muy precisos con la cantidad de datos.
Magnitud
Útil para visibilizar comparaciones de tamaño. Estas pueden ser relativas (simplemente pudiendo ver más grande/mayor) o absolutas (requiere ver diferencias más específicas). Por lo general, muestran variables que pueden ser contadas (por ejemplo, barriles, dólares o personas), en lugar de una tasa calculada o un porcentaje.
- Columnas: Una de las maneras más comunes de comparar el tamaño de las cosas. El eje siempre debe comenzar en 0.
- Gráfico de Marimekko: Ideal para mostrar el tamaño y la proporción de los datos al mismo tiempo, y siempre y cuando, los datos no sean muy complejos.
Parte de un todo
Este tipo de combinaciones numéricas son útiles para mostrar cómo una entidad en sí misma puede dividirse en los elementos que lo conforman. Por ejemplo, es común utilizar la parte de un todo para representar la asignación de unos presupuestos o resultados electorales.
- Gráfico de tarta: Uno de los gráficos más comunes para mostrar datos parciales o completos. Conviene tener presente que no es fácil comparar de forma precisa el tamaño de los distintos segmentos.
- Diagrama de Venn: Limitado a representaciones esquemáticas que permiten mostrar interrelaciones o coincidencias.
Espacial
Se recurre a este tipo de gráficos cuando las ubicaciones precisas o los patrones geográficos en los datos son más importantes para el lector que cualquier otra cosa. Algunos de los más utilizados son:
- Mapa coroplético: Se trata del enfoque estándar para colocar datos en un mapa.
- Mapa de flujo: Es utilizado para mostrar un movimiento de cualquier tipo dentro de un mismo mapa. Por ejemplo, puede emplearse para representar movimientos migratorios.
Conocer las diferentes opciones de representación estadística existentes ayuda a crear visualizaciones de datos más precisas, lo que a su vez permite que la realidad que se busca evidenciar sea concebida de forma más clara. Así, en un contexto donde cada vez la información visual tiene más peso, es clave desarrollar las herramientas necesarias para que la información contenida en los datos llegue a la ciudadanía y contribuya a mejorar la sociedad.
La RED de Entidades Locales por la Transparencia y Participación Ciudadana de la FEMP acaba de presentar una guía centrada en la visualización de datos. El documento, que toma como referencia la Guía de visualización de datos elaboradora por el Ayuntamiento de L’Hospitalet, ha sido elaborado a partir de la búsqueda de buenas prácticas impulsada por organismos públicos y privados.
La guía incluye recomendaciones y criterios básicos para representar datos gráficamente, facilitando su comprensión. En principio, está dirigida al conjunto de las entidades adheridas a la Red de Entidades locales por la transparencia y la participación ciudadana de la FEMP. No obstante, también es de utilidad para todo aquel que desee adquirir un conocimiento general sobre la visualización de datos.
En concreto, la guía ha sido elaborada con tres objetivos en mente:
- Facilitar principios y buenas prácticas en el ámbito de la visualización de datos.
- Disponer de un modelo de visualización y comunicación de los datos de las entidades locales gracias a la estandarización del uso de diferentes recursos visuales.
- Promover los principios de calidad, sencillez, inclusión y ética en la comunicación de datos.
¿Qué incluye la guía?
Tras una breve introducción, la guía comienza con una serie de conceptos básicos y principios generales a seguir en la visualización de datos, como el principio de simplificación, de aprovechamiento del espacio o de accesibilidad y diseño exclusivo. A través de ejemplos gráficos, el lector aprende lo que se debe y no se debe hacer si queremos que nuestra visualización se entienda fácilmente.
A continuación, la guía se centra en las diferentes etapas del diseño de una visualización de datos a través de un proceso metodológico secuencial, como el que muestra la siguiente imagen:

Como muestra la imagen, antes de elabora la visualización es fundamental dedicar tiempo a establecer los objetivos que queremos alcanzar y el público al que nos dirigimos, para poder adaptar el mensaje y seleccionar la visualización más adecuada en base a aquello que queramos representar.
A la hora de representar datos, los usuarios tienen a su disposición una amplia variedad de objetos de visualización con distintas funciones y rendimiento. No todos los objetos son apropiados para todos los casos y habrá que determinar el más adecuado en cada situación concreta. En este sentido, la guía ofrece diversas recomendaciones y pautas para que el lector sea capaz de elegir el elemento adecuado en base a sus objetivos y audiencia, así como a los datos que quiere mostrar.

Los siguientes capítulos se centran en los diversos elementos disponibles (infografías, cuadros de mandos, indicadores, tablas, mapas, etc.) mostrando las distintas subcategorías que existen y las buenas prácticas a seguir en su elaboración, mostrando numerosos ejemplos que facilitan su comprensión. También se ofrecen recomendaciones sobre el uso del texto.
La guía finaliza con una selección de recursos, que permiten ampliar el conocimiento, y de herramientas de visualización de datos a considerar por todo aquel que quiera empezar a elaborar sus propias visualizaciones.
Puedes descargar la guía completa a continuación, en el aparatado de “Documentación”.
El Ayuntamiento de Madrid ha creado un portal de visualizaciones llamado "Visualiza Madrid con Datos Abiertos". A través de esta plataforma, en formato web, los usuarios pueden consultar diversas visualizaciones que se han desarrollado con datos abiertos del portal del Ayuntamiento.
Las visualizaciones se encuentran clasificadas por diversas temáticas de la Ciudad de Madrid y sus cuadros de mando interactivos están elaborados con datos disponibles para la ciudadanía en el Portal de Datos Abiertos datos.madrid.es.
Algunas de las principales temáticas sobre las que los usuarios pueden consultar visualizaciones son:
- Accidentes de tráfico
- Avisos del Ayuntamiento
- Aparcamiento en la ciudad
- Bibliotecas
- Covid-19
- Datos meteorológicos
- Energía
- Presupuestos del Ayuntamiento
- Etc.
Las librerías de programación son conjuntos de archivos de código que se utilizan para desarrollar software. Su objetivo es facilitar la programación, al proporcionar funcionalidades comunes, que ya han sido resueltas previamente por otros programadores. Como curiosidad, el término proviene de una mala traducción de la palabra inglesa library, que en realidad significa biblioteca.
Las librerías (o bibliotecas) son un componente esencial para que los desarrolladores puedan programar de forma sencilla, evitando la duplicidad de código y minimizando errores. También permiten una mayor agilidad, al reducir el tiempo de desarrollo, así como los costes.
Estas ventajas se reflejan a la hora de usar librerías para realizar visualizaciones utilizando lenguajes tan populares como Python, R y JavaScript.
Librerías para Python
Python es uno de lenguajes de programación más utilizados. Se trata de un lenguaje interpretado (fácil de leer y escribir gracias a la semejanza que presenta con el lenguaje humano), multiplataforma, gratuito y de código abierto. En este artículo previo puedes encontrar cursos para aprender más sobre él.
Dada su popularidad, no es de extrañar que encontremos en la red múltiples librerías que nos facilitarán la creación de visualizaciones con este lenguaje, como por ejemplo:
Matplotlib
- Descripción:
Matplotlib es una biblioteca completa para la generación de visualizaciones estáticas, animadas e interactivas a partir de datos contenidos en listas o arrays en el lenguaje de programación Python y su extensión matemática NumPy.
- Materiales de apoyo:
En su web se recogen ejemplos de visualizaciones con el código fuente, para inspirar a nuevos usuarios, y diversas guías dirigidas tanto a usuarios principiantes como a aquellos más avanzados. En la web también hay disponible una sección de recursos externos que redirige a libros, artículos, vídeos y tutoriales elaborados por terceros.
Seaborn
- Descripción:
Seaborn es una biblioteca de visualización de datos en Python basada en matplotlib. Proporciona una interfaz de alto nivel que permite dibujar gráficos estadísticos atractivos e informativos.
- Materiales de apoyo:
En su web hay disponibles tutoriales, con información sobre la API y los distintos tipos de funciones, así como una galería de ejemplos. También es recomendable echar un vistazo a este paper elaborado por The Journal of Open Source Software.
Bokeh
- Descripción:
Bokeh es una librería para la visualización de datos de forma interactiva en un navegador web. Entre sus funciones está desde la creación de gráficos simples hasta la elaboración de cuadros de mando interactivos.
- Materiales de apoyo:
Los usuarios pueden encontrar en su guía descripciones detalladas y ejemplos que describen las tareas más comunes. La guía incluye la definición de conceptos básicos, el trabajo con datos geográficos o cómo generar interacciones, entre otros.
La web también cuenta con una galería con ejemplos, tutoriales y un apartado de comunidad, donde plantear y resolver dudas.
Geoplotlib
- Descripción:
Geoplotlib es una librería de código abierto en python para la visualización de datos geográficos. Se trata de una sencilla API que produce visualizaciones sobre mosaicos de OpenStreetMap. Permite la creación de mapas de puntos, estimadores de densidad de datos, gráficos espaciales y archivos ”shapes”, entre muchas otras visualizaciones espaciales.
- Materiales de apoyo:
En Github tienes disponible esta guía de usuarios, donde se explica cómo cargar datos, crear mapas de colores o añadir interactividad a las capas, entre otros. También hay disponibles ejemplos de código.
Librerías para R
R también es un lenguaje interpretado para la computación estadística y la creación de representaciones gráficas (puedes aprender más sobre ello siguiendo alguno de estos cursos). Cuenta con su propio entorno de programación, R-Studio, y con un conjunto de herramientas muy flexibles y versátiles que se pueden ampliar fácilmente mediante la instalación de librerías o paquetes –usando su propia terminología-, como las que se detallan a continuación:
ggplot 2
- Descripción:
Ggplot es una de las librerías más populares y utilizadas en R para la creación de visualizaciones interactivas de datos. Su funcionamiento se basa en el paradigma descrito en The Grammar of Graphics para la creación de visualizaciones con 3 capas de elementos: datos (data frame), la lista de relaciones entre las variables (aesthetics) y los elementos geométricos que se van a representar (geoms).
- Materiales de apoyo:
En su web puedes encontrar diversos materiales, como esta cheatsheet que recoge de manera resumida las principales funcionalidades de ggplot2. Por su parte, esta guía comienza explicando las características generales del sistema utilizando como ejemplo los diagramas de dispersión para detallar, a continuación, cómo representar algunos de los gráficos más conocidos. También se incluyen diversas FAQ que pueden ser de ayuda.
Lattice
- Descripción:
Lattice es un sistema de visualización de datos inspirado en los gráficos Trellis o de trama, prestando especial atención a los datos multivariantes. La interfaz de usuario de Lattice consiste en varias funciones genéricas de "alto nivel", cada una de ellas diseñada para crear un tipo particular de gráfico por defecto.
- Materiales de apoyo:
En este manual puedes encontrar información sobre las diversas funcionalidades, aunque si quieres profundizar en ellas, en esta sección de la web puedes encontrar diversos manuales como R Graphics de Paul Murrell o Lattice de Deepayan Sarkar.
Esquisse
- Descripción:
Esquise permite explorar interactivamente los datos y crear visualizaciones detalladas con el paquete ggplot2 a través de una interfaz de arrastrar y soltar. Incluye multitud de elementos: gráficos de dispersión, de líneas, de cajas, con ejes múltiples, sparklines, dendogramas, gráficos 3D, etc.
- Materiales de apoyo:
La documentación está disponible a través de este enlace, incluyendo información sobre la instalación y las diversas funciones. También tienes información en la web de R.
Leaflet
- Descripción:
Leaflet permite la creación de mapas altamente detallados, interactivos y personalizados. Está basado en la biblioteca de JavaScript del mismo nombre.
- Materiales de apoyo:
En esta web tienes documentación sobre las diversas funcionalidades: el funcionamiento del widget, marcadores, cómo trabajar con GeoJSON & TopoJSON, cómo integrarse con Shiny, etc.
Librerías para JavaScript
JavaScript también es un lenguaje de programación interpretado, responsable de dotar de mayor interactividad y dinamismo a las páginas web. Es un lenguaje orientado a objetos, basado en prototipos y dinámico.
Algunas de las principales librerías para JavaScript son:
D3.js
- Descripción:
D3.js está dirigida a la creación de visualizaciones de datos y animaciones utilizando estándares web, como SVG, Canvas y HTML. Es una librería muy potente y de cierta complejidad.
- Materiales de apoyo:
En Github puedes encontrar una galería con ejemplos de los diversos gráficos y visualizaciones que se pueden obtener con esta librería, así como diversos tutoriales e información sobre técnicas específicas.
Chart.js
- Descripción:
Chart.js es una librería de JavaScript que utiliza canvas de HTML5 para la creación de gráficos interactivos. En concreto, admite 9 tipos de gráficos: barra, línea, área, circular, burbuja, radar, polar, dispersión y mixtos.
- Materiales de apoyo:
En su propia web tienes información sobre la instalación y configuración, y ejemplos de los distintos tipos de gráficos. También hay un apartado para desarrolladores con diversa documentación.
Otras librerias
Plotly
- Descripción:
Plotly es una biblioteca de gráficos de alto nivel, que permite la creación de más de 40 tipos de gráficos, incluidos gráficos 3D, estadísticos y mapas SVG. Es una librería Open Source, pero tiene versiones de pago.
Plotly no está ligada a un único lenguaje de programación, si no que permite la integración con R, Python y JavaScript.
- Materiales de apoyo:
Cuenta con una completa página web donde los usuarios pueden encontrar guías, casos de uso por ámbitos de aplicación, ejemplos prácticos, webinars y una sección de comunidad donde compartir conocimiento.
Cualquier usuario que lo desee puede contribuir con cualquiera de estas librerías, escribiendo código, generando nueva documentación o reportando errores, entre otros. De esta forma se enriquecen y perfeccionan, mejorando sus resultados de manera continua.
¿Conoces alguna otra librería que quieras recomendar? Déjanos un mensaje en comentarios o envíanos un correo electrónico a dinamizacion@datos.gob.es.
Contenido elaborado por el equipo de datos.gob.es.
Las capacidades relacionadas con los datos son cada vez más transversales. La analítica de datos se ha vuelto fundamental para la toma de decisiones en organizaciones de todos los tamaños y sectores. Pero para transmitir bien el resultado de los análisis a los diversos interlocutores, es necesario trabajar con gráficas, visualizaciones y narrativas que permitan apreciar de manera sencilla las conclusiones. Fruto de ello, ha crecido la demanda de perfiles capaces de trabajar con las principales herramientas de visualización de datos.
Para desarrollarse en este campo es necesario tener una base de estadística y analítica, pero también conocer las tendencias de diseño y comunicación visual. En el mercado podemos encontrar multitud de cursos que nos ayudan a formarnos en estas habilidades de manera flexible y online. A continuación, recogemos algunos ejemplos.
Cursos generales de visualización de datos
Son muchas las escuelas que ofrecen cursos para aquellos que no quieran especializarse en una herramienta concreta, sino que prefieran adquirir una visión general sobre la visualización de datos.
Big Data: Visualización de datos
- Impartido por: Universidad Autónoma de Barcelona (a través de Coursera)
- Duración: 9 horas, a lo largo de 4 semanas.
- Idioma: Español
- Precio: Gratuito
Se trata de un curso introductorio que explica los conceptos clave de la visualización de datos masivos, mostrando ejemplos en distintos contextos. Con el curso se busca que el estudiante aprenda a formular el problema y elegir las herramientas más adecuadas. Se distribuye en 4 módulos (uno por semana): contexto para la visualización de datos hoy, herramientas de análisis y visualización de datos, el proceso de creación de una visualización de datos y otros aspectos de la visualización de datos.
Fundamentos de visualización de datos
- Impartido por: Marco Russo (a través de Udemy)
- Duración: 2 horas
- Idioma: Español
- Precio: Gratuito
Esta formación está diseñada para enseñar a sus alumnos a crear visualizaciones de datos modernas y completas. Este curso comienza con unas nociones básicas sobre la aplicación de la visualización de datos y para qué sirve esta técnica. Tras una breve introducción, los alumnos podrán aprender a interactuar con los diferentes gráficos, a diferenciar entre Business Analytics y Data Analytics o a entender la correcta visualización de datos a través de ejemplos prácticos.
Periodismo de datos y visualización con herramientas gratuitas
- Impartido por: Centro Knight para el Periodismo en las Américas
- Duración: 30 horas (6 semanas)
- Idioma: Español
- Precio: Gratuito
Este curso está disponible de manera gratuita para todos aquellos que estén interesados en el periodismo de datos, la visualización y las herramientas que ofrece el mercado de manera gratuita. Gracias a esta formación, los alumnos pueden aprender a buscar y conseguir datos, a encontrar historias dentro de ellos, así como a prepararlos y a realizar visualizaciones.
Cursos específicos sobre diferentes herramientas de visualización
Aquellos que, por el contrario, prefieran formarse de manera más específica en alguna de las herramientas más populares de visualización de datos, también dispones de multitud de opciones en la red.
Fundamentos de la visualización de datos con Tableau
- Impartido por: Universidad Austral (a través de Coursera)
- Duración: 8 horas
- Idioma: Español
- Precio: Gratuito
Tableau combina una interfaz gráfica con elementos habituales de las herramientas de Bussiness Integillence. Este curso está dirigido a usuarios que no han trabajado nunca con esta herramienta o quieren profundizar en ella, sin ser necesarios conocimientos técnicos o analíticos previos. En él se explican conceptos fundamentales de visualización de datos y se aprende a utilizar las diversas herramientas que ofrece Tableau.
¡Crea y comparte reportes con Tableau Public!
- Impartido por: Adrián Javier Tagüico (a través de Udemy)
- Duración: 1,5 horas
- Idioma: Español
- Precio: De pago
Este curso muestra cómo crear reportes dinámicos e intuitivos, dashboards y stories paso a paso utilizando Tableau Public. En él se aprende cómo importar fuentes de datos (utilizando para ello datos públicos de ejemplo), cómo preparar los datos, en qué consiste su modelado y cómo crear visualizaciones, utilizando filtros (segmentación de datos, interacción de visualizaciones u diversas opciones en cada visualización). Son necesarios conocimientos previos básicos sobre los tipos de datos.
Google Data Studio – Visualización de Datos y Cuadros de Mando
- Impartido por: Start-Tech Academy (a través de Udemy)
- Duración: 4 horas de video. El curso puede ser completado en 6 horas.
- Idioma: Español
- Precio: De pago
Data Studio es una herramienta gratuita de Google para elaborar informes muy visuales con datos analíticos, permitiendo su automatización. El objetivo de este curso es que el estudiante aprenda a elaborar todo tipo de gráficos en Google Data Studio, así como profundizar en las características específicas avanzadas de la herramienta. Se trata de un curso para principiantes en el que no es necesario ningún conocimiento previo.
Data Visualization with Kibana
- Impartido por: Start-Tech Academy (a través de Udemy)
- Duración: 5,5 horas
- Idioma: Inglés
- Precio: De pago
Curso para aprender los fundamentos de Kibana, un software de código abierto que forma parte del paquete de productos Elastic Stack. Los estudiantes aprenden desde cuestiones básicas de seguridad (usuarios, roles y espacios), hasta cómo crear visualizaciones avanzadas o dashboards, utilizando el lenguaje de consulta de Kibana (KQL).
Grafana
- Impartido por: Sean Bradley (a través de Udemy)
- Duración: 6 horas
- Idioma: Inglés
- Precio: De pago
Grafana empezó siendo un componente de Kibana, pero en la actualidad se trata de herramientas completamente independientes. En este curso se aprende a explorar los paneles de gráficos, estadísticas, indicadores, barras, tablas, textos, mapas de calor y registros. Incluye desde la instalación de distintas fuentes de datos (MySQL, Zabbix, InfluxDB, etc.) y la creación de tableros dinámicos con colocación automática de visualización, hasta la instalación de un servidor SMTP y o la configuración de un canal de notificaciones por correo electrónico o Telegram.
Cursos de librerías de visualización de datos
Además de las herramientas genéricas previas, en el mercado también encontramos librerías específicas de visualización. Estas librerías son más versátiles, pero necesitan que el usuario conozca el lenguaje de programación donde se implemente la librería. Algunos ejemplos de cursos en este campo son:
Curso de visualización de datos con Python
- Impartido por: Abraham Requena (a través de Open webinars)
- Duración: 3 horas
- Idioma: Español
- Precio: Gratuito
Este curso se enfoca en dos librerías de Python: Matplotlib y Seaborn. El curso comienza con una introducción donde se habla de la importancia de la visualización y los tipos de gráficos. A continuación se aborda el trabajo con cada una de las librerías, incluyendo ejercicios.
Visualización de datos con Python
- Impartido por: Universidad Complutense de Madrid
- Duración: 40 horas (8 semanas)
- Idioma: Español
- Precio: De Pago
Se trata de un curso centrado en la elaboración de visualización utilizando Python. Tras una introducción en la que se abordan los aspectos clave a considerar para crear visualizaciones de datos efectivas, el curso se centra en el desarrollo de visualizaciones de datos en Python utilizando Matplotlib y Plotly. En el curso se utiliza en entorno Jupyter Notebook. Es necesario tener conocimientos mínimos de Python y de análisis de datos con Pandas.
Big Data: visualización de datos. Introducción a R y ggplot2
- Impartido por: Universitat Autónoma de Barcelona (a través de Coursera)
- Duración: 9 horas
- Idioma: Español
- Precio: Gratuito
Se trata del cuarto curso del programa especializado “Big Data – Introducción al uso práctico de datos masivos”. Este programa ha sido diseñado para motivar y enseñar a sus alumnos conceptos clave acerca de la visualización de datos, así como a proporcionarles criterios para formular los problemas y elegir adecuadamente la herramienta para cada visualización. Este curso se divide en cuatro módulos principales que comprenden materias como contextos, herramientas o procesos de creación para las visualizaciones de datos.
Los cursos anteriores son solo un ejemplo de la oferta disponible en el mercado. Si conoces algún otro que quieras recomendarnos, envíanos un email a dinamizacion@datos.gob.es o deja un comentario.
Lo que no se puede negar es que con este tipo de cursos reforzarás tu perfil laboral y ampliarás tus ventajas competitivas en el mercado laboral.
Nadie puede negar hoy en día el valor que esconden los datos: tendencias, áreas de mejora u oportunidades de negocio son solo algunos de los conocimientos que puede haber tras una serie de cifras. Un correcto análisis de los datos internos y externos de una organización, puede suponer una gran ventaja competitiva e impulsar una toma de decisiones más acertada.
Sin embargo, extraer ese valor no siempre es fácil. Los datos pueden ser difíciles de comprender y los análisis realizados a partir de ellos necesitan ser comunicados de una forma efectiva. En este sentido, el mecanismo habitual para mostrar datos son las visualizaciones. Pero en un mundo tan saturado de datos y conocimiento, las visualizaciones por sí solas pueden no alcanzar el resultado esperado. A menudo es necesario sumar también una buena explicación en forma de historia para impactar en el receptor.
La importancia de la narrativa
A todos nos gustan que nos cuenten historias que llamen nuestra atención. Recordamos mejor las cosas si están integradas en una narrativa. Prueba de ello es este estudio recogido en el libro Made to Stick): tras una serie de intervenciones de un minuto en las que se proporcionaban una media de 2,5 estadísticas, sólo el 5% de los oyentes era capaz de recordar una cifra individual. Sin embargo, el 63% se acordaba de la historia narrada.
Las historias consiguen involucrarnos, dotando a los datos de un contexto relacionado con nuestros intereses y preocupaciones. De esta forma los datos adquieren un mayor significado, y es más fácil que lleguen a impulsar la puesta en marcha de acciones relacionadas.
Es en este contexto donde nace el data storytelling.
¿Qué es el data storytelling?
El data storytelling consiste en comunicar la información resultante del análisis de datos a través de una historia. Para ello involucra tres ingredientes: datos, visualización y narrativa. Estos tres elementos se combinan para dar como resultado una comunicación efectiva:
-
Al combinar la narrativa y los datos nos movemos en el terreno de la explicación: gracias al contexto la audiencia comprende qué ocurre (o va a ocurrir) y por qué es importante.
-
Al combinar los elementos visuales con los datos, sucede lo que podemos llamar “iluminación” (enlighten, en inglés): los conocimientos se muestran de una forma llamativa y fácil de comprender, permitiendo observar relaciones y patrones.
-
Al combinar la narrativa y los elementos visuales, se conecta con la audiencia generando un compromiso (engagement, en inglés): gracias a fórmulas ligadas al sector del entretenimiento se consigue la atención de la audiencia.
Cuando se combina todo ello, se logra una historia basada en datos que puede influir e impulsar el cambio.

El data storytelling es la base del periodismo de datos, pero también se utiliza cada vez más dentro de las organizaciones públicas y privadas para transmitir las ideas que hay detrás de los datos tanto de manera interna como externa.
¿Qué es necesario tener en cuenta para poder contar una historia con datos?
Para transformar los datos en información de valor y contar una historia es necesario tener conocimientos de las tres áreas anteriores.
El primer paso es pensar cuál es nuestro objetivo. En base a ello determinaremos el mensaje que queremos lanzar, que debe ser claro y sencillo. Para poder comunicarlo efectivamente, es necesario conocer a la audiencia y saber cuál es su grado de conocimiento sobre la materia. De ello dependerá el enfoque, el tono, el medio y los datos que utilicemos.
También hay que conocer los fundamentos del análisis y la visualización de los datos. Existen multitud de herramientas a nuestro alcance que podemos utilizar. Es importante elegir bien el tipo de gráfico a utilizar, según lo que queremos mostrar (comparativas, tendencias, distribuciones, etc.), así como prestar una gran atención al uso del color y de las jerarquías en la información.
Para dar respuesta a estas necesidades, a veces es necesario contar con equipos multidisciplinares donde se mezclan distintos tipos de habilidades. No obstante, también están surgiendo herramientas sencillas pensadas para que las pueda utilizar cualquier persona, como veremos a continuación.
La integración del data storytelling en los portales de datos abiertos: el ejemplo de Aragon Open Data
El data storytelling también está llegando a los portales de datos abiertos como una forma de acercar los datos a la ciudadanía e impulsar su reutilización, amplificando su impacto.
El portal de datos abiertos de Aragón ha desarrollado Open Data Focus, un servicio gratuito que permite a los usuarios del portal desarrollar y compartir sus propias historias a partir de los datos abiertos de la región. Se trata de una herramienta muy intuitiva, para la que no es necesario tener conocimientos técnicos. En el portal se pueden ver algunas de las narrativas digitales elaboradas en torno a distintas temáticas de interés. En este documento puedes profundizar más sobre el contexto, objetivos, metodología y resultados del proyecto.
Aragón Open Data Focus es una experiencia innovadora y pionera en nuestro país, que acerca a la ciudanía la información del sector público. Dada la importancia de la narrativa y la visualización en la comprensión de los datos, no es de extrañar que próximamente conozcamos más historias de éxito en este sentido.
Contenido elaborado por el equipo de datos.gob.es.
R es uno de los lenguajes de programación más populares en el mundo de la ciencia de datos.
Es un lenguaje interpretado que además dispone de un entorno de programación, R-Studio y un conjunto de herramientas muy flexibles y versátiles para la computación estadística y creación de representaciones gráficas.
Una de sus ventajas es que las funciones pueden ampliarse fácilmente, mediante la instalación de librerías -denominados paquetes en el entorno de R- o la definición de funciones personalizadas. Además, está permanentemente actualizado, ya que su amplia comunidad de usuarios desarrolla constantemente nuevos paquetes, funciones y actualizaciones disponibles gratuitamente.
Por este motivo, R es uno de los lenguajes más demandados y existe un gran número de recursos para aprender más sobre ello. A continuación, te mostramos una selección basada en las recomendaciones de los expertos que colaboran con datos.gob.es y las comunidades de usuarios R-Hispano y R-Ladies, que reúnen a gran cantidad de usuarios de este lenguaje en nuestro país.
Cursos online
En la red podemos encontrar numerosos cursos online que introducen R a aquellos usuarios noveles.
Curso de R básico
- Impartido por: Universidad de Cádiz
- Duración: No disponible.
- Idioma: Español
- Gratuito.
Enfocado a estudiantes que están realizando un trabajo fin de grado o master, el curso busca proporcionar los elementos básicos para empezar a trabajar con el lenguaje de programación R en el ámbito de la estadística. Incluye conocimientos sobre estructura de datos (vectores, matrices, data frames…), gráficos, funciones y elementos de programación, entre otros.
Introducción a R
- Impartido por: Datacamp
- Duración: 4 horas.
- Idioma: Inglés.
- Gratuito
El curso comienza con conceptos básicos, empezando por cómo utilizar la consola como una calculadora y cómo asignar variables. A continuación, se aborda la creación de vectores en R, cómo trabajar con matrices, cómo comparar factores y el uso de data frames o listas.
Introducción a R
- Impartido por: Red de Universidades Anáhuac
- Duración: 4 semanas (5-8 horas por semana).
- Idioma: Español.
- Modalidad gratuita y de pago.
A través de un enfoque práctico, con este curso aprenderás a crear un ambiente de trabajo para R con R Studio, clasificar y manipular datos, así como realizar gráficas. También aporta nociones básicas de programación en R, abarcando condicionales, ciclos y funciones.
R Programming Fundamentals
- Impartido por: Stanford School of Engineering
- Duración: 6 semanas (2-3 horas por semana).
- Idioma: Inglés
- Gratuito, aunque el certificado tiene un coste de 79$.
Este curso cubre una introducción a R, desde la instalación hasta las funciones estadísticas básicas. Los estudiantes aprenden a trabajar con conjuntos de datos dinámicos y externos, así como a escribir funciones. En el curso podrás escuchar a uno de los co-creadores del lenguaje R, Robert Gentleman.
Programación R
- Impartido por: Johns Hopkins University
- Duración: 57 horas
- Idioma: Inglés, con subtítulos en español.
- De pago.
Este curso forma parte de los programas de Ciencia de Datos y Ciencia de los datos: bases utilizando R. Se puede cursar por separado o como parte de dichos programas. Con él aprenderás a comprender los conceptos fundamentales del lenguaje de programación, a utilizar las funciones de loop de R y las herramientas de depuración o a recoger información detallada con R profiler, entre otras cuestiones.
Data Visualization & Dashboarding with R
- Impartido por: Johns Hopkins University
- Duración: 4 meses (5 horas por semana)
- Idioma: Inglés.
- De pago.
La Universidad John Hopkins también ofrece este curso donde los alumnos generarán diferentes tipos de visualizaciones para explorar los datos, desde figuras sencillas como gráficos de barras y de dispersión hasta cuadros de mando interactivos. Los estudiantes integrarán estas figuras en productos de investigación reproducibles y los compartirán online.
Introducción al software estadístico R
- Impartido por: Asociación Española para la Calidad (AEC)
- Duración: Del 5 de octubre al 3 de diciembre de 2021 (50 horas)
- Idioma: Español
- De pago.
Se trata de una formación inicial práctica en el uso del software R para el tratamiento de datos y su análisis estadístico a través de las técnicas más sencillas y habituales: análisis exploratorio y relación entre variables. Entre otras cuestiones, los estudiantes adquirirán la capacidad de extraer información valiosa de los datos a través del análisis exploratorio, la regresión y el análisis de la varianza.
Introducción a la programación en R
- Impartido por: Abraham Requena
- Duración: 6 horas
- Idioma: Español
- De pago (por suscripción)
Diseñado para iniciarse en el mundo de R y aprender a programar con este lenguaje. Podrás aprender los diferentes tipos de datos y objetos que hay en R, a trabajar con ficheros y a utilizar condicionales, así como a crear funciones y gestionar errores y excepciones.
Programación y análisis de datos con R
- Impartido por: Universidad de Salamanca
- Duración: Del 25 de octubre de 2021 - 22 de abril de 2022 (80 horas lectivas)
- Idioma: Español
- De pago
Empieza desde un nivel básico, con información sobre los primeros comandos y la instalación de paquetes, para continuar con las estructuras de datos (variables, vectores, factores, etc.), funciones, estructuras de control, funciones gráficas y representaciones interactivas, ente otros temas. Incluye un trabajo de fin de curso.
- Impartido por: Harvard University
- Duración: 4 semanas (2-4 horas por semana).
- Idioma: Inglés
- De pago
Una introducción a los conceptos estadísticos básicos y a los conocimientos de programación en R necesarios para el análisis de datos en biociencia. A través de ejemplos de programación en R se establece la conexión entre los conceptos y la aplicación.
Para aquellos que quieran aprender más sobre álgebra matricial, la Universidad de Harvard también ofrece de forma online el curso Introduction to Linear Models and Matrix Algebra, donde se utiliza el lenguaje de programación R para llevar a cabo los análisis.
Curso de R gratuito
- Impartido por: Afi Escuela
- Duración: 7,5 horas
- Idioma: Español
- Gratuito
Este curso fue impartido por Rocío Parrilla, responsable de Data Science en Atresmedia, en formato presencial virtual. La sesión se grabó y está disponible a través de Youtube. Se estructura en tres clases donde se explican los elementos básicos de la programación en R, se hace una introducción al análisis de datos y se aborda la visualización con este lenguaje (visualización estática, visualización dinámica, mapas con R y materiales).
Programación R para principiantes
- Impartido por: Keepcoding
- Duración: 12 horas de contenido en video
- Idioma: Español
- Gratuito
Consta de 4 capítulos, cada uno de ellos integrado por varios vídeos de corta duración. El primero “Introducción”, aborda la instalación. El segundo, llamado “primeros pasos en R” explica ejecuciones básicas, así como vectores, matrices o data frames, entre otros. El tercero aborda el “Flujo Programa R” y el último los gráficos.
Curso online autónomo Introducción a R
- Impartido por: Universidad de Murcia
- Duración: 4 semanas (4-7 horas por semana)
- Idioma: Español
- Gratuito
Se trata de un curso práctico dirigido a jóvenes investigadores que necesitan realizar el análisis de los datos de su trabajo y buscan una metodología de que optimice su esfuerzo.
El curso forma parte de un conjunto de cursos relacionados con R que ofrece la Universidad de Murcia, sobre Métodos de análisis de datos multivariantes, Elaboración de documentos e informes técnico–científicos o Métodos de contraste de hipótesis y diseño de experimentos, entre otros.
Libros online relacionados con R
Si en vez de un curso, prefiere un manual o documentación que te pueda ayudar a mejorar tus conocimientos de una manera más amplia, también existen opciones, como las que te detallamos a continuación.
R para profesionales de Datos. Una Introducción
- Autor: Carlos Gil Bellosta
- Gratuito
El libro cubre 3 aspectos básicos muy demandados por los profesionales de los datos: la creación de visualizaciones de datos de alta calidad, la creación de dashboards para visualizar y analizar datos, y la creación de informes automáticos. Su objetivo es que el lector puede comenzar a aplicar métodos estadísticos (y de la llamada ciencia de datos) por su cuenta.
Aprendiendo R sin morir en el intento
- Autor: Javier Álvarez Liébana
- Gratuito
El objetivo de este tutorial es introducir en la programación y análisis estadístico en R a personas sin necesidad de conocimientos previos de programación. Su objetivo es entender los conceptos básicos de R y dotar al usuario de trucos sencillos y de autonomía básica para poder trabajar con datos.
Aprendizaje Estadístico
- Autor: Rubén F. Casal
- Gratuito
Se trata de un documento con los apuntes de la asignatura de Aprendizaje Estadístico del Máster en Técnicas Estadísticas. Ha sido escrito en R-Markdown empleando el paquete bookdown y está disponible en Github. El libro no trata directamente de R, si no que aborda desde una introducción al aprendizaje estadístico, hasta las redes neuronales, pasando por los arboles de decisión o los modelos lineales, entre otros.
Simulación Estadística
- Autor: Rubén F. Casal y Ricardo Cao
- Gratuito
Al igual que en el caso anterior, este libro es el manual de una asignatura, en este caso de Simulación Estadística del Máster en Técnicas Estadísticas. También ha sido escrito en R-Markdown empleando el paquete bookdown y está disponible en el repositorio Github. Tras una introducción a la simulación, el libro aborda la generación de números pseudoaleatorios en R, el análisis de resultados de simulación o la simulación de variables continuas y discretas, entre otros.
Estadística con R
- Autor: Joaquín Amat Rodrigo
- Gratuito
No es un libro directamente, sino una web donde podrás encontrar diversos recursos y trabajos que te pueden servir de ejemplo a la hora de practicar con R. Su autor es Joaquín Amat Rodrigo también responsable de Machine Learning con R.
la página oficial de R-Studio también disponen de recursos para aprender diferentes paquetes o funciones de R, utilizando diversas cheatsheet.
Masters
Además de cursos, cada vez es más habitual encontrar en universidades masters relacionados con esta materia, como por ejemplo:
Master en Estadística Aplicada con R / Máster en Machine Learning con R
- Impartido por: Máxima Formación
- Duración: 10 meses
- Idioma: Español
La Escuela Máxima Formación ofrece dos masters que comienzan en octubre de 2021 relacionados con R. El Máster en Estadística Aplicada para la Ciencia de Datos con R Software (13ª edición) está dirigido a profesionales que quieran desarrollar desarrolla competencias prácticas avanzadas para solucionar los problemas reales relacionados con el análisis, la manipulación y la representación gráfica de los datos. El Máster en Machine Learning con R Software (2ª edición) está enfocado en el trabajo con datos en tiempo real para crear modelos de análisis y algoritmos con aprendizaje supervisado, no supervisado y aprendizaje profundo.
Además, cada vez más centros de estudio ofrecen masters o programas relacionados con la ciencia de datos que recogen en su temario conocimientos sobre R, tanto generalistas como enfocados en sectores concretos. Algunos ejemplos son:
- Máster en Data Science, de la Universidad Rey Juan Carlos, que integra aspectos de ingeniería de datos (Spark, Hadoop, arquitecturas cloud, obtención y almacenamiento de datos) y analítica de datos (modelos estadísticos, minería de datos, simulación, análisis de grafos o visualización y comunicación).
- Master en Big Data, de la Universidad Nacional de Educación a Distancia (UNED), incluye un módulo de Introducción al Machine Learning con R y otro de paquetes avanzados con R.
- Máster en Big Data y Data Science Aplicado a la Economía, de la Universidad Nacional de Educación a Distancia (UNED), introduce conceptos de R como uno de los programas de software más utilizados.
- Máster Big Data - Business – Analytics, de la Universidad Complutense de Madrid, incluye un tema de Minería de datos y modelización predictiva con R.
- Master en Big Data y Data Science aplicado a la Economía y Comercio, también de la Universidad Complutense de Madrid, donde se estudia programación en R, por ejemplo, para el diseño de mapas, entre otros.
- Máster en Humanidades Digitales para un Mundo Sostenible, de la Universidad Autónoma de Madrid, donde los alumnos serán capaces de programar en Python y R para conseguir datos estadísticos a partir de textos (PLN).
- Máster en Data Science & Business Analytics, de la Universidad de Castilla-La Mancha, cuyo ojetivo es aprender y/o profundizar en la Ciencia de Datos, la Inteligencia Artificial y el Business Analytics, utilizando el software estadístico R.
- Experto en Modeling & Data Mining, de la Universidad de Castilla-La Mancha, donde al igual que en el caso anterior también se trabaja con R para transformar datos no estructurados en conocimiento.
- Máster de Big Data Finanzas, donde se habla de Programación para data science / big data o visualización de información con R.
- Programa en Big Data y Business Intelligence, de la universidad de Deusto, que capacita para realizar ciclos completos de análisis de datos (extracción, gestión, procesamiento (ETL) y visualización).
Esperamos que alguno de estos cursos responda a tus necesidades y puedas convertirte en un experto en R. Si conoces algún otro curso que quieras recomendar, déjanos un comentario o escríbenos a dinamizacion@datos.gob.es.
Los mapas ayudan a comprender el mundo en el que vivimos y por ello han sido fundamentales en el desarrollo de la humanidad. Nos permiten conocer las características de un lugar y comprender fenómenos sociales, como el comportamiento espacial de una enfermedad o la trazabilidad de flujos comerciales.
Si mostramos datos a través de un mapa, facilitamos su comprensión e interpretabilidad. Pero para poder construir este tipo de visualizaciones geoespaciales, necesitamos datos georreferenciados.
¿Qué es la georreferenciación?
La georreferenciación es un método que consiste en determinar la posición de un elemento en base a un sistema de coordenadas espacial.
Muchos de los datos abiertos que ofrecen las administraciones públicas están georreferenciados o se pueden georreferenciar, aumentando así su valor. A través de servicios online georreferenciados de visualización o descarga de datos como Infraestructuras de Datos Espaciales (IDE) o geoportales, los usuarios pueden acceder a una gran cantidad de datos de este tipo. Pero manejar este tipo de información no es sencillo.
El usuario de datos georreferenciados necesita entender conceptos clave vinculados con la visualización de información geográfica como son los sistemas de referencia de coordenadas, las proyecciones cartográficas o los diferentes modelos de representación de datos con los que se trabaja: raster - imágenes de mapa de píxeles- o vectoriales - puntos, líneas, etc. en representación de los distintos objetos-. Estos elementos se pueden combinar entre sí sobre Sistemas de Información Geográfica (SIG).
En este artículo se recogen un conjunto de herramientas útiles para abordar las tareas necesarias para desarrollar visualizaciones de datos geoespaciales, así como librerías basadas en diferentes lenguajes de programación para el tratamiento de información geográfica.
Herramientas de visualización geoespacial
Carto
Funcionalidad:
Carto es una plataforma de análisis de datos geoespaciales, orientada a desarrolladores sin experiencia previa en sistemas de información geoespacial, que facilita la creación de aplicaciones interactivas geolocalizadas.
Principales ventajas:
Su principal ventaja es que permite diseñar y desarrollar mapas en tiempo real que funcionan en plataformas web y dispositivos móviles. También permite la vinculación con servicios cartográficos como Google Maps o MapBox, de tal forma que se pueden aprovechar algunas de sus funcionalidades, como el zoom o la función de desplazamiento.
Mediante el uso de la librería PostGIS, Carto permite consultar y combinar conjuntos de datos geoespaciales, y es posible utilizar CartoCSS en las capas de datos para editar fácilmente el formato y la apariencia que presentan los mapas.
¿Quieres saber más?
- Materiales de ayuda: En su web, Carto ofrece manuales de usuario, tanto para usuarios que quieran utilizar la plataforma para realizar análisis espaciales como para aquellos que quieren desarrollar apps usando su paquete de herramientas. También ofrece tutoriales para gestionar la cuenta o configurar la seguridad, webinars periódicos con ejemplos prácticos, un blog y distintos vídeos a través de su canal de YouTube.
- Repositorio: En Github encontramos multitud de repositorios con recursos para Carto.
- Comunidad de usuarios: Los usuarios pueden entrar en contacto a través de Stackoverflow.
- Redes sociales: Puedes estar al día de las novedades de Carto si sigues su perfil en Twitter (@CARTO) o LinkedIn.
OpenLayers
Funcionalidad:
OpenLayers es la librería de JavaScript de código abierto que permite la inclusión de componentes tipo mapa en cualquier página web.
Principales ventajas:
OpenLayers permite superponer distintas capas y añadir diferentes características como puntos, líneas, polígonos e iconos sobre los que vincular una leyenda. Incorpora un set de controles básicos y una barra de herramientas de controles avanzados, lo cual permite embeber la funcionalidad necesaria haciendo uso de la API. También destaca porque renderiza elementos DOM en cualquier lugar del mapa.
¿Quieres saber más?
- Materiales de ayuda: En la web de OpenLayers hay un manual de usuario que te explica rápidamente cómo poner un mapa sencillo en una página web, o guías más avanzadas sobre los distintos componentes. También hay disponibles tutoriales que abarcan conceptos básicos, los antecedentes de OpenLayers o cómo crear una aplicación. Fuera de su web también puedes encontrar otros recursos de ayuda, algunos de los cuales se enumeran en este artículo. Si eres principiante, también te recomendamos este vídeo que explica funcionalidades básicas en solo 12 minutos.
- Comunidad de usuarios: Si quieres conocer la experiencia de otros usuarios, y plantear cualquier duda, puedes acudir a Stackoverflow.
- Redes sociales: En su canal de Twitter (@openlayers) puedes participar en encuestas o enterarte de noticias relacionadas. También disponen de un grupo de LinkedIn.
OpenStreetMap
Funcionalidad:
OpenStreetMap es un proyecto colaborativo enfocado en la creación de mapas libres y editables. Estos mapas se crean utilizando información geográfica capturada con dispositivos GPS, ortofotos y otras fuentes de dominio público.
Principales ventajas:
Los usuarios registrados de OpenStreetMap pueden subir sus trazas desde el GPS, crear y corregir datos vectoriales mediante herramientas de edición creadas por la comunidad. También destaca porque utiliza una estructura de datos topológica que se almacena en el datum WGS84 lat/lon (EPSG:4326) como sistema de referencia de coordenadas.
¿Quieres saber más?
- Materiales de ayuda: En esta wiki puedes encontrar información sobre cómo utilizar OpenStreetMap o una guía para principiantes sobre cómo empezar a contribuir. También hay disponibles video tutoriales.
- Repositorio: En Github hay distintos repositorios y recursos para seguir avanzando en la creación de mapas.
- Comunidad de usuarios: OpenStreetMap cuenta con un foro oficial de ayuda, aunque los usuarios también tienen un punto de encuentro en Stackoverflow.
- Redes sociales: Para conocer las novedades y tendencias, puedes seguir la cuenta en Twitter @openstreetmap o su perfil en LinkedIn.
Herramientas para el tratamiento de información geográfica
Aunque no se trata de herramientas de visualización geoespacial propiamente dichas, conviene destacar la existencia de librerías de diferentes lenguajes de programación diseñadas para el tratamiento de información geográfica.
Geocoder y Geopy:
Funcionalidad
Geocoder y Geopy son librerías de Python diseñadas para resolver el problema de la geocodificación. Convierten direcciones postales en coordenadas espaciales o viceversa.
Principales ventajas:
Ambas librerías incorporan la capacidad de calcular la distancia entre puntos geolocalizados.
¿Quieres saber más?
- Materiales de ayuda: Los usuarios que quieran trabajar con Geopy, tienen a su disposición este manual que incluye la instalación, el uso de distintos geocodificadores o cómo calcular distancias, entre otras cuestiones. Si prefieres, Godecoder, en esta guía encontrarás cómo instalarlo y ejemplos de uso.
- Repositorio: En Github hay repositorios con recursos tanto para Geopy como para Geocoder.
- Comunidad de usuarios: En Stackoverflow puedes encontrar grupos de usuarios de Geopy y Geocoder.
GDAL
Funcionalidad
GDAL es una librería de código abierto disponible para diferentes lenguajes de programación como son Python, Java, Ruby, VB6, Perl y R.
Principales ventajas:
Esta librería permite la traslación entre datos geoespaciales vectoriales y raster. Un buen número de herramientas que incorporan funciones de Sistema de Información Geográfica (SIG o GIS), como PostGIS, Carto o ArcGIS, integran GDAL para realizar este proceso.
¿Quieres saber más?
- Materiales de ayuda: En este manual de usuario puedes encontrar preguntas frecuentes e información sobre los programas y drivers. Puedes complementar su lectura con este tutorial.
- Repositorio: Puedes descargar todo lo necesario para su uso desde Github.
- Comunidad de usuarios: Una vez más, es en Stackoverflow donde nos encontramos distintos debates abiertos sobre esta herramienta.
- Redes sociales: En el perfil @GdalOrg se comparten noticias de interés para todos sus usuarios.
PROJ.4 y PROJ4.JS
Funcionalidad
PROJ.4 es una librería disponible para varias plataformas, como Python, Ruby, Rust, Go o Julia, entre otros. PROJ4.JS es la implementación de PROJ.4 para JavaScript.
Principales ventajas:
PROJ.4 permite la transformación de coordenadas geoespaciales de un sistema de referencia de coordenadas a otro, así como invocar desde línea de comandos para una fácil conversión de coordenadas en archivos de texto.
¿Quieres saber más?
- Materiales de ayuda: Este manual incluye información sobre proyección cartográfica, transformación geodésica o las diferencias conocidas entre versiones, entre otros aspectos.
- Repositorio: En GitHub hay un espacio para PROJ.4 y otro para PROJ4.JS.
- Comunidad de usuarios: En Stackoverflow también hay grupos de discusión de PROJ.4 y PROJ4.JS.
La siguiente tabla muestra un resumen de las herramientas mencionadas anteriormente:

El criterio elegido para seleccionar estas herramientas, ha sido su popularidad, pero nos gustaría conocer tú opinión. No dudes en dejarnos un comentario.
Estas herramientas están incluidas en el informe “Herramientas de procesado y visualización de datos”, recientemente actualizado. Puedes ver más herramientas ligadas a este ámbito en los siguientes monográficos:
Contenido elaborado por el equipo de datos.gob.es.