Herramientas de depuración y conversión de datos

Fecha de la noticia: 08-04-2021

Illustración que representa de forma gráfica la conversión y depuración de datos

A la hora de realizar un proyecto de análisis de datos, lo habitual es trabajar con distintas fuentes, que en muchas ocasiones incluyen datasets con formatos y estructuras heterogéneas que no siempre comparten la misma calidad. Por ello, una de las primeras fases en cualquier proceso de análisis de datos es la conocida como depuración de datos o data cleaning.

¿Qué es la depuración de datos?

Cuando hablamos de depuración de datos nos referimos al conjunto de procesos necesarios para la preparación y transformación de datos procedentes de distintas fuentes para su análisis. Fruto de estos procesos se genera una estructura homogénea, libre de errores y en el formato adecuado, que será procesable en las posteriores etapas de análisis. A este conjunto de datos resultante se le conoce como vista minable de datos.

La depuración es esencial en el procesado de los datos, ya que los estandariza y los formatea antes de introducirlos en el sistema de destino, de tal forma que podamos trabajar con ellos de manera apropiada.  

Dentro de los distintos procesos que conforman la fase de depuración de datos se incluye la conversión de los mismos, que supone la transformación de los datos a un formato concreto. De esta forma pueden ser utilizados por herramientas que solo aceptan determinados formatos.

En el mercado encontramos muchas herramientas de depuración de datos que también realizan su conversión a otros formatos, aunque igualmente existen herramientas que realizan cada una de estas tareas de manera exclusiva.  A continuación, se recogen algunos ejemplos seleccionados en fase a su popularidad, aunque te invitamos a dejar en comentarios cualquier mención a otras herramientas que sean de tu interés.

Principales ejemplos de herramientas de depuración de datos

Dos de las herramientas más utilizadas en el campo de la depuración de datos son Open Refine y Talend Open Studio.

OpenRefine

Funcionalidad:

OpenRefine es una herramienta gratuita, que busca mejorar la calidad y estructura de los datos corrigiendo errores comunes como duplicidades de los datos, datos incompletos o inconsistencias. Gracias a ella los usuarios pueden organizar, limpiar, aplicar transformaciones, convertir en diferentes formatos y enriquecer los datos mediante el uso de servicios web y otras fuentes externas de datos. 

Principales ventajas:

Una de sus principales ventajas es que utiliza el lenguaje GREL (Google Refine Expression Languaje), que permite realizar tareas de depuración avanzadas aplicando un importante número de funciones utilizando expresiones regulares.  Además, permite incorporar extensiones adicionales mediante el acceso a funciones para georreferenciar información, vincular datos de la DBpedia u otras fuentes, generando datos enlazados en RDF.  

¿Quieres saber más?

  • Materiales de ayuda:  En este manual de usuario se recorren todos los aspectos de la configuración y el uso de Open Refine 3.4.1, incluidas todas las funciones y características de la interfaz y esta cuenta de Youtube distintos video-tutoriales.
  • Repositorio: En este GitHub se encuentran los recursos necesarios para que puedas operar OpenRefine desde Mac OS, Linux y Windows.
  • Comunidad de usuarios: Los usuarios de OpenRefine pueden encontrar grupos de discusión en  Google, Gitter y Stackoverflow.
  • Redes sociales: En la cuenta de Twitter de @OpenRefine puedes encontrar vídeos, guías, información sobre las últimas novedades o próximos eventos relacionados con OpenRefine.

Talend Open Studio

Funcionalidad:

Talend Open Studio es una solución de código abierto que integra un conjunto de herramientas ETL (Extraer, Transformar y Cargar) diseñadas para extraer, depurar y transformar conjuntos de datos para su posterior análisis.  Como resultado genera código estandarizado en Perl y Java que puede ser reutilizado en diferentes proyectos.  

Principales ventajas:

Esta herramienta destaca por su interfaz intuitiva basada en la programación por componentes, una técnica que consiste en concatenar procesos con diversas funcionalidades mediante flujos de entrada y salida.  

¿Quieres saber más?

  • Materiales de ayuda: En la propia web de Talend puedes encontrar distintos manuales de usuario y tutoriales para descubrir Talend Studio y su interfaz, y crear un proyecto, junto con sencillos trabajos de ejemplo.
  • Repositorio: Este GitHub contiene los archivos fuente de Talend Open Studio, los cuales archivos deben utilizarse junto con el código común contenido en tcommon-studio-se.
  • Comunidad de usuarios: En Stackoverflow existen canales donde usuarios cuentas su experiencia y plantean distintas dudas.
  • Redes sociales: Talend Open Studio cuenta con una página de LinkedIn y el perfil @Talend en Twitter, donde comparten novedades, experiencias y casos de uso, entre otros. 

Principales ejemplos de Herramientas de conversión de datos

En el caso de la conversión de datos, destacan por su popularidad Mr Data Converter, Beautify Converters y Tabula.

Mr Data Converter

Funcionalidad:

Mr Data Converter es una aplicación web que permite convertir datos que se encuentran en formato CSV o Excel a otros formatos como CSV, JSON, HTML y XML de manera sencilla.  

Principales ventajas:

Uno de sus puntos fuertes es que los datos se incorporan copiando y pegando sobre la interfaz de la aplicación, sin necesidad de subir ningún archivo. Lo mismo sucede a la hora de exportar, donde basta con copiar y pegar el código generado.  En el lado negativo de la balanza, encontramos una limitación en el tamaño máximo de los datos, que no deben superar los 300 MB.  

¿Quieres saber más?

  • Repositorio: Puedes encontrar información sobre la licencia y distintos materiales en este GitHub.

 Beautify Converters

Funcionalidad:

Beautify Converters es una aplicación web, que permite convertir datos a formatos JSON, SQL, CSV o Excel, entre otros. Pertenece a la colección de herramientas online gratuitas de Beautify Tools.

Principales ventajas:

Al igual que sucedía con Mr Data Converter, el usuario puede incorporar los datos copiando y pegando sobre la interfaz de la aplicación. También se puede realizar esta acción subiendo el archivo desde un equipo local.  A diferencia de la herramienta anterior, admite un número significativamente mayor de formatos, SQL, YAML o RSS. 

¿Quieres saber más?

  • Repositorio: En este repositorio GitHub tienes información sobre la licencia y el resto de herramientas de la colección Beautify Tools.

Tabula

Funcionalidad:

Tabula permite extraer tablas de informes PDF -excepto en aquellos que son solo imagen-, en formatos reutilizables por herramientas de análisis y visualización de datos. 

Principales ventajas:

Su principal ventaja es una interfaz muy sencilla. Únicamente será necesario subir el PDF, seleccionar las tablas que queramos extraer y finalmente seleccionar el formato deseado, Excel, CSV o JSON.

¿Quieres saber más?

  • Materiales de ayuda: La Junta de Andalucía ha desarrollado este tutorial donde cuenta cómo subir un archivo PDF a Tabula y extraer los datos tabulares en formato CSV, listos para su uso en hojas de cálculo. El proceso lo ejemplifican con el conjunto de datos Calidad sanitaria de las aguas de baño.
  • Repositorio: Puedes descargar los materiales desde este enlace o GitHub.
  • Redes sociales: La cuenta @TabulaPDF, aunque no está muy actualizada, ofrece, entre otros, información sobre corrección de errores y mantenimiento, guías y comentarios de usuarios que utilizan esta herramienta.

La siguiente tabla muestra un resumen de las herramientas mencionadas anteriormente:

Herramientas de conversión y depuración de datos. Herramienta 1: OpenRefine. Logo; Tipo de herramienta: depuración/ conversión de datos; Versiones ejecutables: navegador; Admiten extensiones: sí; Formatos de entrada/salida: JSON, XML, Excel, RDF, CSV, HTML, JSON, ODF, entre otros; Precio: gratuita. Herramienta 2: Talend Open Studio. Logo; Tipo de herramienta: depuración/ conversión de datos; Versiones ejecutables: escritorio; Admiten extensiones: sí; Formatos de entrada/salida: CSV, Excel, JSON, SQL, XML, TSV, DTD, Parquet, entre otros; Precio: gratuita/diferentes versiones de pago. Herramienta 3: Mr Data Converter. Logo; Tipo de herramienta: conversión de datos; Versiones ejecutables: navegador; Admiten extensiones: no; Formatos de entrada/salida: CSV, Excel / XML, JSON, HTML; Precio: gratuita. Herramienta 4: Beautify Converter. Logo; Tipo de herramienta: conversión de datos; Versiones ejecutables: navegador; Admiten extensiones: no; Formatos de entrada/salida: YAML, XML, SQL, JSON, HTML, Excel, CSV, RSS, entre otros; Precio: gratuita. Herramienta 5: Tabula. Logo; Tipo de herramienta: conversión de datos; Versiones ejecutables: escritorio; Admiten extensiones: no; Formatos de entrada/salida: PDF / Excel, CSV, JSON; Precio: gratuita.

La adecuación y conversión de los datos puede consumir una gran cantidad de recursos, económicos y temporales, de cualquier proyecto. Este tipo de herramientas ayudan a realizar estas actividades con agilidad y eficiencia, liberando a los científicos de datos para poder centrarse en otras actividades.

Para aquellos que quieran saber más sobre estas herramientas y otras que nos pueden ayudar durante las distintas fases del procesamiento de los datos, desde datos.gob.es ponemos a vuestra disposición el informe “Herramientas de procesado y visualización de datos “recientemente actualizado. Puedes ver el informe completo aquí.