Video: Map Reduce Job with hdInsight 1 2024
Apache Hive tidak dapat dipertikaikan antara muka pertanyaan data yang paling luas di komuniti Hadoop. Pada asalnya, matlamat reka bentuk untuk Hive bukan untuk keserasian penuh SQL dan prestasi tinggi, tetapi untuk menyediakan antara muka yang mudah dan biasa untuk pemaju yang perlu mengeluarkan pertanyaan batasan terhadap Hadoop.
Pendekatan agak kecil ini tidak lagi berfungsi, sehingga permintaan tumbuh untuk sokongan SQL yang nyata dan prestasi yang baik. Hortonworks bertindak balas terhadap permintaan ini dengan mewujudkan projek Stinger, di mana ia melabur sumber pemajunya dalam meningkatkan Hive menjadi lebih cepat, skala pada tahap petabyte, dan menjadi lebih mematuhi standard SQL. Kerja ini akan dihantar dalam tiga fasa.
Dalam Fasa 1 dan 2, anda melihat beberapa pengoptimuman untuk cara memproses pertanyaan serta menambahkan sokongan untuk jenis data SQL tradisional; penambahan format ORCFile untuk memproses dan menyimpan lebih cekap; dan integrasi dengan YARN untuk prestasi yang lebih baik.
Pada Fasa 3, evolusi yang benar-benar penting berlaku, yang meremehkan Hive dari MapReduce. Khususnya, ia melibatkan pembebasan Apache Tez, yang merupakan model pemprosesan alternatif untuk Hadoop, yang direka untuk beban kerja interaktif.
Sebagai tambahan kepada projek Stinger, Hortonworks menerajui inisiatif yang bercita-cita tinggi untuk membolehkan Hive menyokong data penyuntingan di peringkat barisan dengan pematuhan penuh dengan sifat ACID untuk sistem pangkalan data: Atomicity, Consistency, Level Isolation, dan Ketahanan.