Apache Parquet (Armazenamento Colunar)
Apache Parquet e um formato de armazenamento colunar concebido para processamento eficiente de dados. Armazena dados por coluna em vez de por linha, permitindo compressao e desempenho de consulta excelentes para cargas de trabalho analiticas.
Tipo MIME
application/vnd.apache.parquet
Tipo
Binário
Compressão
Sem perdas
Vantagens
- + Excellent compression through columnar encoding
- + Fast analytical queries — reads only needed columns
- + Predicate pushdown skips irrelevant row groups entirely
- + Standard in Spark, DuckDB, Pandas, and cloud data lakes
Desvantagens
- − Not suited for transactional row-level updates
- − More complex to write than CSV or JSON
- − Schema evolution has some limitations
Quando usar .PARQUET
Use Parquet para pipelines de analise de dados, data lakes, consultas de data warehouse e qualquer cenario onde a leitura de subconjuntos especificos de colunas e mais comum que o scan completo de linhas.
Detalhes técnicos
O Parquet armazena dados em grupos de linhas contendo pedacos de coluna. Suporta compressao por coluna (Snappy, Gzip, Zstd, LZ4), predicado pushdown, tipos aninhados e evolucao de esquema. Os metadados sao armazenados no rodape do ficheiro.
Histórico
O Parquet foi criado pela Cloudera e pelo Twitter em 2013, inspirado no sistema Dremel da Google. Tornou-se um projeto de nivel superior da Apache e o formato padrao para data lakes e pipelines de big data.