Juan Andrés 16/08/2022 - 10:36

Hola, Alejandro:

Otra ventaja importante del formato .parquet sobre .csv es la posibilidad de realizar consultas directamente en SQL sobre el fichero, sin cargarlo antes en memoria, utilizando la librería DuckDB (que hace otras muchas cosas, por cierto).
Estas consultas, además, ganan por mucho en velocidad al procesamiento habitual con dataframes cuando hay cruces y/o agregaciones y el volumen de datos es significativo.

Para dar una idea de la mejora, lo estamos aplicando en ficheros con alrededor de 25 millones de filas sobre los que hacemos operaciones “groupby” y “merge” con dataframes y el tiempo se reduce desde algo más de un minuto por fichero a diez segundos.
Ni que decir tiene que, a cambio, hay que rehacer los scripts que ya estuvieran hechos ;-)

Saludos cordiales,

Juan Andrés

* Indica els camps obligatoris
El contingut d’aquest camp es mostrarà públicament
Introdueix un correu electrònic vàlid. Exemple: example@test.com
El contingut d’aquest camp es mostrarà públicament
Datos.gob.es vol afavorir la participació dels usuaris a través de comentaris que contribueixin a enriquir els continguts publicats al web. Els comentaris rebuts seran revisats i aprovats per l’equip gestor del portal per garantir la qualitat. Datos.gob.es es reserva el dret d’eliminar els comentaris que consideri inadequats. No es publicaran, per tant, comentaris que incloguin insults, desqualificacions o consideracions no relacionades amb el contingut en qüestió. Tampoc no es publicaran comentaris que incloguin dades personals o permetin identificar persones mortes.