Video: Apache Kudu (Incubating): New Hadoop Storage for Fast Analytics on Fast Data 2024
Cloudera adalah pembekal perisian dan penyedia perkhidmatan Apache Hadoop yang terkemuka di pasaran data besar. Seperti Apache Drill, teknologi Impala Cloudera bertujuan untuk meningkatkan masa respon pertanyaan interaktif untuk pengguna Hadoop. Apache Hive telah menyediakan mekanisme pertanyaan yang biasa dan kuat untuk pengguna Hadoop, tetapi masa tindak balas pertanyaan sering tidak dapat diterima kerana bergantung kepada MapReduce. Jawapan Cloudera terhadap masalah ini ialah Impala.
Cloudera telah membangunkan enjin carian MPP, yang ditulis dalam C ++, untuk menggantikan lapisan MapReduce yang dimanfaatkan oleh Apache Hive. Tidak seperti Dremel dan Bor, Cloudera memutuskan bahawa enjin C ++ MPP asli - bukan enjin Java - adalah jawapan untuk pertanyaan Hadoop yang cepat dan interaktif.
Perhatikan bahawa Impala menggunakan HiveQL sebagai antara muka pengaturcaraan, dan Enjin Eksek Query Impala terletak bersama dengan nod data HDFS, sejajar dengan pendekatan Hadoop untuk mencari data bersama dengan tugas-tugas pemprosesan. Impala juga boleh menggunakan HBase sebagai kedai data. Dalam pengertian ini, Impala adalah lanjutan kepada Apache Hadoop, menyediakan alternatif yang sangat tinggi kepada model Hive-on-top-of-MapReduce.
Cloudera dan Twitter mengetuai pembangunan format fail Hadoop baru, yang boleh digunakan dengan Impala dan tersedia sebagai sumber terbuka pada GitHub. Format fail parket menyediakan medium kolumnar yang teguh untuk menyimpan data dalam Hadoop. Ia menyokong mampatan dan pengekodan yang sangat berkesan, dan berkesan untuk menyimpan struktur data bersarang.
Anda boleh menemui teknologi Impala Cloudera, yang juga diilhami oleh ciptaan Dremel Google.