La importancia de la visualización gráfica de los datos

Fecha de la noticia: 22-05-2018

visualización datos

"The simple graph has brought more information to the data analyst’s mind than any other device.” — John Tukey

La visualización gráfica de datos constituye una disciplina propia dentro del universo de la ciencia de datos. Esta práctica ha marcado hitos importantes a lo largo de la história en la analítica de datos. En este post te ayudamos a descubrir y entender su importancia y repercusión de una forma amena y práctica.

Pero, empecemos la historia por el principio. En 1975, un joven de 33 años comienza a impartir un curso de estadística en la universidad de Princeton, sentando las bases de lo que sería la disciplina del visual analytics varias décadas después. Ese joven, llamado Edward Tufte, es considerado el Leonardo da Vinci de los datos. Tufte es, actualmente, profesor emérito de ciencias políticas, estadística y ciencias de la computación en la universidad de Yale. Entre 2001 y 2006, el profesor Tufte escribió una serie de 4 libros - considerados ya clásicos- sobre la visualización gráfica de datos. Algunas ideas centrales de las tesis de Tufte hacen referencia a la eliminación de los elementos inútiles y no informativos en los gráficos. Tufte, aboga por la eliminación de elementos no cuantitativos y decorativos de las visualizaciones, argumentando que éstos distraen la atención de los elementos realmente explicativos y de valor.

Desde el gráfico más sencillo hasta el más complejo (figura 1) y refinado, todos ofrecen alto valor tanto al analista, durante su proceso de ciencia de datos, como al usuario final, al cual estamos comunicando una historia basada en datos.

Figura1. La imagen muestra la diferencia entre dos visualizaciones gráficas de datos. A la izquierda, un ejemplo de la visualización de datos más sencilla que se puede realizar. Representación de puntos en coordenadas cartesianas x|y. A la derecha, un ejemplo de visualización de datos compleja en el que se representa en coordenadas polares la distribución de un contaminante (SO2). Los ejes representan las direcciones del viento N|S E|W (en grados) mientras que el radio de la distribución representa la velocidad del viento según la dirección en m/s. La escala de colores representa la concentración promedio de SO2 (en ppb) para esas direcciones y velocidades del viento. Con este tipo de visualización se pueden representar gráficamente tres variables (dirección del viento, velocidad del viento y concentración de contaminantes) en un gráfico "plano" en dos dimensiones (2D). La visualización en 2D es muy conveniente pues resulta más fácil de interpretar para el cerebro humano.

¿Por qué es tan importante la visualización gráfica de los datos?

En la ciencia de datos existen muchos tipos diferentes de datos para analizar. Una forma de clasificación de los datos atiende al nivel de estructuración lógica que éstos tienen. Por ejemplo, se entiende que los datos en formatos similares a hojas de cálculo  -aquellos datos que se estructuran en forma de filas y columnas- son datos con una estructura bien definida - o datos estructurados- Sin embargo, aquellos datos como los 140 caracteres de un feed de twitter se consideran datos sin estructura - o desestructurados-. En medio de estos dos extremos se encuentra toda una gama de grises, que va desde los ficheros delimitados por caracteres especiales (comas, puntos y comas, espacios, etc.) hasta las imágenes o los videos de Youtube. Es evidente que las imágenes y los videos solamente cobran sentido humano una vez representadas visualmente. De nada serviría (para un humano) que presentaremos una imagen como una matriz de números que representan una combinación de colores RGB (Red, Green, Blue). En el caso de los datos estructurados, su representación gráfica es necesaria en todas las etapas del proceso de análisis, desde la etapa exploratoria, hasta la presentación final de resultados. Veamos un ejemplo:

En 1963, la compañía de aerolíneas norteamericana Pam Am utilizó la representación gráfica (la serie temporal entre 1949 y 1960) del número mensual de pasajeros internacionales para pronosticar la demanda futura de aviones y realizar un pedido de compra. En el ejemplo, vemos la diferencia entre la representación matricial de los datos y su representación gráfica. La ventaja de representar gráficamente los datos salta a la vista con el ejemplo de la figura 2.

Figura 2. Diferencia entre la representación tabular de los datos y la representación gráfica o visualización.

La visualización gráfica de los datos tiene un papel fundamental en todos los estadios del análisis de datos. Existen múltiples aproximaciones sobre cómo realizar un proceso de análisis de datos de forma correcta y completa. De acuerdo con Garrett Grolemund y Hadley Wickham en su reciente libro R for Data Science, un proceso estándar en análitica de datos sería de la siguiente forma (figura 3):

Figura 3. Representación de un proceso estándar en analítica avanzada de datos.

La visualización de datos está en el núcleo del proceso. Es una herramienta básica para el analista o científico de datos que -mediante un proceso iterativo- va transformando y componiendo un modelo lógico de los datos. Apoyándose en la visualización, el analista va descubriendo los secretos enterrados en los datos. La visualización permite de forma rápida:

  • Descartar aquellos datos poco representativos o erróneos.

  • Identificar aquellas variables que dependen unas de otras y por lo tanto contienen información redundante

  • Realizar cortes a los datos para poder observarlos desde diferentes perspectivas.

  • Finalmente, comprobar que aquellos modelos, tendencias, predicciones y agrupaciones que hemos aplicado sobre los datos, nos devuelven el resultado esperado.

Herramientas para el análisis visual de datos

Tan importante es la visualización gráfica de los datos en todos los ámbitos de la ciencia, ingeniería, negocios, banca, medio ambiente, etc. que existen multitud de herramientas para diseñar, desarrollar y comunicar la visualización gráfica de los datos.

Estas herramientas cubren un amplio espectro del público objetivo, desde desarrolladores de software, hasta científicos de datos pasando por periodistas y profesionales de la comunicación.

  • Para desarrolladores de software, existen cientos de librerías y paquetes de software que contienen miles de tipos de visualizaciones. Los desarrolladores tan solo tienen que cargar estas librerías en sus respectivos frameworks de programación y parametrizar el tipo de gráfico que deseen generar. El desarrollador tan solo ha de indicar los datos de origen que desea representar, el tipo de gráfico (líneas, barras, etc.) y la parametrización de dicho gráfico (escalas, colores, etiquetas, etc.). En los últimos años, la visualización web se impone con fuerza, y las librerías más populares se basan en frameworks JavaScript (la mayoría open source). Quizás una de las más populares por su potencia sea D3.JS, aunque existen muchas más.

  • El científico de datos acostumbra a trabajar con un framework de análisis concreto que, normalmente, incluye todos los componentes, entre ellos su motor de análisis visual de los datos. Los entornos más populares, hoy en día, para la ciencia de datos son R y Python, y ambos incluyen librerías nativas para la analítica visual. Quizás la librería más popular y potente en R sea ggplot2, mientras que en Python, matplotlib y Plotly son de las más populares.

  • Para comunicadores profesionales o personal no técnico de las distintas áreas de negocio (Marketing, Recursos Humanos, Producción, etc.) que necesita tomar decisiones basadas en datos, existen herramientas - que no son únicamente herramientas de visual analytics - con funcionalidades para generar representaciones gráficas de los datos. Herramientas modernas de Business Intelligence de autoservicio como MS Excel, MS Power BI, Qlik, Tableau, etc. son estupendas herramientas para comunicar los datos sin necesidad de disponer de competencias en programación o codificación.

En definitiva, las herramientas de visualización permiten a todos estos profesionales acceder a los datos de una manera más ágil y sencilla. En un universo donde la cantidad de datos útiles a analizar no deja de crecer, cada vez son más necesarias este tipo de herramientas, que facilitan la obtención de valor procedente de los datos y, con ello, la toma decisiones relativas al presente y al futuro de nuestro negocio o actividad.

Si quieren conocer más sobre herramientas de visualización de datos, te recomendamos el informe Visualización de datos: definición, tecnología y herramientas, así como el material formativo Uso de herramientas básicas de tratamiento de datos.

 


Contenido elaborado por Alejandro Alija,experto en Transformación Digital e Innovación.

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.