Otra ventaja importante del formato .parquet sobre .csv es la posibilidad de realizar consultas directamente en SQL sobre el fichero, sin cargarlo antes en memoria, utilizando la librería DuckDB (que hace otras muchas cosas, por cierto).
Estas consultas, además, ganan por mucho en velocidad al procesamiento habitual con dataframes cuando hay cruces y/o agregaciones y el volumen de datos es significativo.
Para dar una idea de la mejora, lo estamos aplicando en ficheros con alrededor de 25 millones de filas sobre los que hacemos operaciones “groupby” y “merge” con dataframes y el tiempo se reduce desde algo más de un minuto por fichero a diez segundos.
Ni que decir tiene que, a cambio, hay que rehacer los scripts que ya estuvieran hechos ;-)
Hola, Alejandro:
Otra ventaja importante del formato .parquet sobre .csv es la posibilidad de realizar consultas directamente en SQL sobre el fichero, sin cargarlo antes en memoria, utilizando la librería DuckDB (que hace otras muchas cosas, por cierto).
Estas consultas, además, ganan por mucho en velocidad al procesamiento habitual con dataframes cuando hay cruces y/o agregaciones y el volumen de datos es significativo.
Para dar una idea de la mejora, lo estamos aplicando en ficheros con alrededor de 25 millones de filas sobre los que hacemos operaciones “groupby” y “merge” con dataframes y el tiempo se reduce desde algo más de un minuto por fichero a diez segundos.
Ni que decir tiene que, a cambio, hay que rehacer los scripts que ya estuvieran hechos ;-)
Saludos cordiales,
Juan Andrés