Video: Hadoop Mapreduce, Apache Hive, Tableau dengan AWS EMR 2024
Untuk membuat cerita panjang pendek, Hive menyediakan Hadoop dengan jambatan ke dunia RDBMS dan menyediakan dialek SQL yang dikenali sebagai Hive Query Language (HiveQL), yang boleh digunakan untuk melaksanakan tugas-tugas seperti SQL. Itulah berita besar, tetapi lebih banyak lagi untuk Hive daripada memenuhi mata, seperti yang mereka katakan, atau lebih banyak aplikasi teknologi baru ini daripada yang anda boleh hadir di padang lif standard.
Sebagai contoh, Hive juga menjadikan konsep yang dikenali sebagai gudang data perusahaan (EDW) augmentation, kes penggunaan utama untuk Apache Hadoop, di mana gudang data ditubuhkan sebagai RDBMS yang dibina khusus untuk analisis data dan pelaporan.
Sekarang, sesetengah pakar berpendapat bahawa Hadoop (dengan Hive, HBase, Sqoop, dan kawan-kawannya yang pelbagai) boleh menggantikan EDW. Walau bagaimanapun, Apache Hadoop adalah tambahan tambahan kepada perusahaan dan bahawa ia boleh menambah dan melengkapkan EDW yang sedia ada. Sarang, HBase, dan Sqoop membolehkan pembesaran EDW.
Dihubungkan dengan teknologi RDBMS / EDW yang rapat adalah teknologi ekstrak, transformasi, dan beban (ETL). Untuk memahami apa yang dilakukan ETL, ia membantu untuk mengetahui bahawa, dalam banyak kes penggunaan, data tidak boleh dimasukkan ke dalam pangkalan data relasi dengan segera - ia mesti diekstrak dari sumber asalnya, diubah menjadi format yang sesuai, kemudian dimuatkan ke dalam RDBMS atau EDW.
Sebagai contoh, syarikat atau organisasi boleh mengeluarkan data teks yang tidak tersusun daripada forum Internet, mengubah data menjadi format berstruktur yang bernilai dan berguna, dan kemudian memuatkan data berstruktur ke dalam EDWnya.
Anda dapat melihat bahawa Hive adalah alat ETL yang kuat di dalamnya sendiri, bersama dengan pemain utama dalam dunia ini: Apache Pig. Sekali lagi, pengguna mungkin cuba untuk menubuhkan Hive dan Babi sebagai alat baru ETL untuk pusat data. (Biarkan mereka cuba.)
Seperti perdebatan mengenai EDW berbanding Apache Hadoop, teknologi Apache Hadoop ini tidak pengganti s untuk alat ETL sedia ada tetapi sebaliknya alat ETL baru yang kuat untuk menjadi digunakan apabila sesuai.
Terakhir tetapi tidak kurang, Apache Hive memberi anda alat analitis yang kuat, semuanya dalam rangka HiveQL. Alat ini harus kelihatan dan merasa biasa dengan para profesional IT yang memahami cara menggunakan SQL.