Logo tl.boatexistence.com

May schema ba ang parquet file?

Talaan ng mga Nilalaman:

May schema ba ang parquet file?
May schema ba ang parquet file?
Anonim

Ang

Parquet file ay isang hdfs file na dapat isama ang metadata para sa file. Nagbibigay-daan ito sa paghahati ng mga column sa maramihang mga file, pati na rin ang pagkakaroon ng isang solong metadata file na sumangguni sa maraming parquet file. Kasama sa metadata ang ang schema para sa data na nakaimbak sa file.

Paano ako gagawa ng schema para sa parquet file?

Upang bumuo ng schema ng parquet sample data, gawin ang sumusunod:

  1. Mag-log in sa Haddop/Hive box.
  2. Binubuo nito ang schema sa stdout gaya ng sumusunod: -------------- [~] parquet-tools schema abc.parquet. message hive_schema { …
  3. Kopyahin ang schema na ito sa isang file na may. parquet/. par extension.

Sinusuportahan ba ng parquet ang ebolusyon ng schema?

Schema Merging

Tulad ng Protocol Buffer, Avro, at Thrift, Parquet ay sumusuporta din sa schema evolution Maaaring magsimula ang mga user sa isang simpleng schema, at unti-unting magdagdag ng higit pang mga column sa ang schema kung kinakailangan. Sa ganitong paraan, maaaring magkaroon ang mga user ng maraming Parquet file na may magkaiba ngunit magkatugmang mga schema.

May mga uri ba ng data ang mga parquet file?

Ang mga uri ng data ng parquet file ay nagmamapa sa mga uri ng data ng pagbabago na ginagamit ng Serbisyo ng Pagsasama ng Data upang ilipat ang data sa mga platform. Ang Parquet schema na iyong tinukoy para magbasa o magsulat ng Parquet file ay dapat nasa mas maliit na case.

Ano ang istraktura ng parquet file?

Ang mga parquet file ay binubuo ng mga row group, header at footer Ang bawat row group ay naglalaman ng data mula sa parehong mga column. Ang parehong mga column ay iniimbak nang magkasama sa bawat pangkat ng row: Ang istrukturang ito ay mahusay na na-optimize para sa mabilis na pagganap ng query, pati na rin sa mababang I/O (pagliit sa dami ng data na na-scan).

Inirerekumendang: