Las herramientas de análisis de datos más populares

Fecha de la noticia: 21-04-2021

Herramientas de análisis de datos

El análisis de datos es un proceso que nos permite obtener conocimiento de la información subyacente de los datos con el propósito de extraer conclusiones que permitan tomar decisiones informadas. Sin la analítica de datos, empresas y organizaciones se encuentran limitadas a la hora de examinar sus resultados y determinar la dirección a seguir para tener mayores probabilidades de éxito.

Tipos de analítica

Dentro del campo de la analítica encontramos distintos procesos que tratan de dar respuesta al pasado, presente y futuro de nuestras actividades:

  • Análisis exploratorio, que somete a los datos a un tratamiento estadístico, para determinar por qué ha ocurrido un determinado evento. 
  • Análisis descriptivo, que explora los datos desde diferentes perspectivas para saber qué sucedió.
  • Análisis predictivo, que permite predecir valores futuros de las variables de interés para conocer qué sucederá. 
  • Análisis prescriptivo, que ofrece recomendaciones al testear las variables del entorno y sugerir aquellas con mayor probabilidad de generar un resultado positivo.

 En este artículo se recoge una selección de herramientas más populares de análisis de datos  que te permitirán realizar estas tareas, divididas en base a dos públicos objetivos:

  • Herramientas que no implican realizar tareas de programación, dirigidas a usuarios sin conocimientos técnicos avanzados.
  • Herramientas que presentan una mayor versatilidad, pero necesitan el manejo de lenguajes de programación, por lo que están dirigidas a usuarios con estos conocimientos.  

Es conveniente recordar que antes de realizar cualquier análisis de este tipo es necesario transformar los datos que utilicemos para que tengan la misma estructura y formato, libres de errores, algo que ya vimos en el artículo Herramientas de depuración y conversión de datos.

Herramientas de análisis de datos para no programadores 

WEKA

Funcionalidad:

WEKA es un software multiplataforma de aprendizaje automático y minería de datos. Se puede acceder a sus funcionalidades a través de una interfaz gráfica, una línea de comandos o una API de Java.  

Principales ventajas:

Una de sus principales ventajas es que contiene una gran cantidad de herramientas integradas para tareas estándar de aprendizaje automático y que permite el acceso a otras herramientas como son scikit-learn, R y Deeplearning4j.  

¿Quieres saber más?

  • Materiales de ayuda: Como apéndice al libro Data Mining: Practical Machine Learning: tools and techniques, encontramos este manual de WEKA que nos acerca a sus paneles y funcionalidades. Incluye métodos para los principales problemas de minería de datos: regresión, clasificación, clustering, reglas de asociación y selección de atributos. También tenemos a nuestra disposición en la red este manual y estos tutoriales elaborado por la Universidad de Waikato, entidad desarrolladora de la herramienta, que también ha puesto en marcha un blog sobre la materia.
  • Repositorio: El código fuente oficial de WEKA está disponible en esta URL. También puedes acceder a ella desde este repositorio Github, así como a distintos paquetes o herramientas.
  • Comunidad de usuarios:  Puedes encontrar grupos de usuarios en Stackoverflow.

KNIME

Funcionalidad:

KNIME es un software de minería de datos, que permite el análisis de datos y la realización de visualizaciones a través de una interfaz gráfica.   

Principales ventajas:

La interfaz gráfica sobre las que se modelan los flujos de análisis de datos utiliza nodos, que representan los diferentes algoritmos y flechas que muestran el flujo de los datos en el pipeline de procesamiento.  Además, permite incorporar código desarrollado en R y Python, así como la interacción con WEKA.

¿Quieres saber más?

  • Materiales de ayuda: En la propia web de KNIME puedes encontrar distintos documentos de ayuda, que te guían en su instalación, la creación de flujos de trabajo o el uso de nodos. Además, en su canal de Youtube puedes encontrar múltiples vídeos, incluyendo listas de reproducción con aspectos básicos para usuarios que se enfrentan a esta herramienta por primera vez.
  • Repositorio: En GitHub se proporcionan herramientas para configurar el SDK (Kit de desarrollo de software, en sus siglas en inglés) de KNIME, para que puedas trabajar con el código fuente de las extensiones o desarrollar propias.
  • Comunidad de usuarios: Los usuarios de KNIME tienen a su disposición grupos para resolver dudas en Gitter y Stackoverflow, así como un foro de discusión en la propia web de Knime.
  • Redes sociales: Puedes seguir la cuenta de Twitter @knime y su perfil de LinkedIn para estar al día de las novedades de KNIME y de los eventos o charlas relacionados.

ORANGE

 Funcionalidad:

Orange es un software abierto de aprendizaje automático y minería de datos, similar a Knime.  

Principales ventajas:

Orange crea los análisis y visualizaciones de datos utilizando el paradigma drag and drop (arrastrar y soltar) a partir de un catálogo de widgets que representan diferentes tareas. Además, puede ser instalado como una librería de Python.   

¿Quieres saber más?

Herramientas de análisis de datos para programadores

R (The R Project for statistical computing)

Funcionalidad:

R es un lenguaje de programación orientado a objetos e interpretado, creado inicialmente para computación estadística y creación de representaciones gráficas.  

Principales ventajas:

R es uno de los lenguajes más usados en investigación científica y eso se debe a sus múltiples ventajas:

  • Dispone de un entorno de programación, R-Studio
  • Está formado por un conjunto de funciones que pueden ampliarse fácilmente, mediante la instalación de librerías o la definición de funciones personalizadas.  
  • Está permanentemente actualizado debido a su extensa comunidad de usuarios y programadores, que desde sus inicios contribuyen al desarrollo de nuevas funciones, librerías y actualizaciones disponibles para todos los usuarios de forma libre y gratuita.  

¿Quieres saber más?

  • Materiales de ayuda: Debido a su popular, existen una gran cantidad de materiales de ayuda. Como ejemplo destacamos los libros R for Data Science y Manual de R. También puedes encontrar guías en el espacio web The R Manuals y  los webinars que desde el propio R Studio organizan.
  • Comunidad de usuarios: Existe un espacio de discusión en Stackoverflow. Además, a nivel España, encontramos dos grupos que realizan distintas actividades (hackathons,  jornadas, cursos…) para promover el uso de R: la comunidad R-Hispano y R-Ladies. Puedes saber más sobre ellos en este artículo
  • Redes sociales: R cuenta con un grupo en LinkedIn con casi 150.000 miembros.

Python  

Funcionalidad:

Python es un lenguaje de programación interpretado, dinámico, multiplataforma y multiparadigma, que soporta parcialmente programación orientada a objetos, programación estructurada, programación imperativa y programación funcional.  

Principales ventajas:

Se trata de un lenguaje de programación cuya filosofía hace hincapié en ofrecer una sintaxis de código legible, fácil de usar y fácil de aprender.  Además, permite la integración de librerías como Matplotlib, Bokeh, Numpy, Pandas o spaCy, para implementar funciones que posibilitan la realización de análisis estadísticos y gráficos interactivos complejos.  

¿Quieres saber más?

  • Materiales de ayuda: Al igual que ocurría con R, al ser u lenguaje muy popular encontramos gran cantidad de materiales y ayuda en la red como, los tutoriales The Python Tutorial y LearnPython.org, o el portal con videos Pyvideo, donde podrás encontrar diversos webinars.
  • Repositorio: En Github puedes encontrar distintos repositorios relacionados con el lenguaje de programación Python.
  • Comunidad de usuarios: Aquellos usuarios con preguntas pueden buscar la ayuda de personas en su misma situación en Stackoverflow o Gitter. En la propia web de Python también puedes encontrar un gran número de comunidades a nivel mundial.
  • Redes sociales: El perfil oficial de twitter de la Python Software Foundation es @ThePSF. También hay grupo en Linkedin.

GNU Octave

Funcionalidad:

GNU Octave es un lenguaje de programación diseñado principalmente para resolver tareas de algebra computacional.  Es la alternativa más conocida a la solución comercial MATLAB, pero de carácter libre y gratuito. Además, no dispone de una interfaz gráfica.

Principales ventajas:

GNU Octave dispone de potentes funciones matemáticas integradas (ecuaciones diferenciales, algebra lineal, cálculo con matrices) y pueden ampliarse con la incorporación de librerías, como Scientific Library, Dionysus o Bc.  También dispone de un paquete index con numerosas extensiones que enriquecen la funcionalidad de la herramienta.  

¿Quieres saber más?

  • Materiales de ayuda: En este enlace tienes los apuntes del curso de GNU Octave de la Universidad Complutense de Madrid. En la propia web de GNU Octave también puedes encontrar manuales y en su perfil de youtube, video tutoriales.
  • Repositorio: La comunidad de desarrolladores de GNU Octave tiene a su alcance distintos repositorios en Github con materiales de interés.
  • Comunidad de usuarios: En Stackoverflow y en la web de GNU Octave hay un espacio para que los usuarios compartan opiniones y experiencia.
  • Redes sociales: Puedes seguir las novedades ligadas a esta herramienta en la cuenta de Twitter @GnuOctave y este grupo de LinkedIn.

 La siguiente tabla muestra un resumen de las herramientas mencionadas anteriormente:

Herramientas de análisis de datos. Herramienta 1: Weka. Logo; Tipo de herramienta: Análisis de datos para no programadores; Extensiones/Librerías: Scikit-learn, R, Deepplearning4j, entre otras; Precio: gratuita. Herramienta 2: Knime. Logo; Tipo de herramienta: Análisis de datos para no programadores; Extensiones/Librerías: MySQL, H2O, D3.js, Plotly, entre otras; Precio: gratuita/diferentes versiones de pago. Herramienta 3: Orange. Logo; Tipo de herramienta: Análisis de datos para no programadores; Extensiones/Librería: Python, PostgreSQL, GraphViz, entre otras; Precio: gratuita. Herramienta 4: R. Logo; Tipo de herramienta: Análisis de datos para programadores; Extensiones/Librerías: H2O, Plotly, ggplot2, dplyr, entre otras; Precio: gratuita. Herramienta 5: Python. Logo; Tipo de herramienta: Análisis de datos para programadores; Extensiones/Librerías: Numpy, SciPy, Pandas, Matplotlib, entre otras; Precio: gratuita. Herramienta 6: GNU Octave. Logo; Tipo de herramienta: Análisis de datos para programadores; Extensiones/Librerías: Scientific Library, Dionysus, nurbs, geometry, entre otras; Precio: gratuita.

Esta es solo una selección de herramientas de análisis de datos, pero hay muchas más. Te invitamos a compartir en los comentarios tu experiencia con estas u otras soluciones.

Para aquellos que quieran saber más sobre estas herramientas y otras que nos pueden ayudar durante las distintas fases del procesamiento de los datos, desde datos.gob.es ponemos a vuestra disposición el informe “Herramientas de procesado y visualización de datos “recientemente actualizado. Puedes ver el informe completo aquí.


Contenido elaborado por el equipo de datos.gob.es.