Video: How to install Cloudera QuickStart VM on VMware 2024
Banyak kajian menunjukkan bahawa kebanyakan data dalam gudang data perusahaan jarang ditanyakan.
Banyak kajian menunjukkan bahawa kebanyakan data dalam gudang data perusahaan jarang ditanyakan.
aktif data) sering digunakan, data hangat digunakan dari semasa ke semasa dan data sejuk jarang digunakan. untuk menyimpan data sejuk pada cakera yang lebih perlahan dalam kandang gudang data atau untuk membuat strategi caching yang pandai untuk menyimpan data yang panas dalam memori, antara lain.
Jika anda melihat ciri-ciri kos dan operasi Hadoop, sesungguhnya ia seolah-olah telah ditetapkan untuk menjadi pita sandaran baru. Hadoop tidak mahal kerana sistem Hadoop direka bentuk untuk menggunakan gred rendah perkakasan daripada apa yang biasanya digunakan dalam sistem gudang data. Satu lagi penjimatan kos yang signifikan ialah pelesenan perisian.
Lesen pengedaran Hadoop komersial memerlukan sebahagian kecil daripada kos lesen perisian gudang data perhubungan, yang terkenal kerana mahal. Dari perspektif operasi, Hadoop direka untuk memudahkan skala hanya dengan menambahkan nod budak tambahan ke kumpulan yang ada. Dan sebagai nod hamba ditambahkan dan set data tumbuh dalam jumlah, rangka kerja pemprosesan data Hadoop membolehkan aplikasi anda mengatasi beban kerja yang meningkat dengan lancar.
Hadoop mewakili cara mudah, fleksibel, dan murah untuk mendorong pemprosesan merentasi beribu-ribu pelayan.
Dengan seni bina yang berskala dan murah, Hadoop nampaknya menjadi pilihan yang sempurna untuk mengarkibkan data gudang … kecuali satu perkara kecil: Kebanyakan dunia IT berjalan di SQL, dan SQL sendiri tidak bermain dengan baik dengan Hadoop.
Sememangnya, pergerakan NoSQL yang lebih mesra Hadoop masih hidup dan baik, tetapi kebanyakan pengguna kuasa kini menggunakan SQL dengan cara yang biasa, alat-alat yang luar biasa yang menghasilkan pertanyaan SQL di bawah produk hud seperti Tableau, Microsoft Excel, dan IBM Cognos BI.Memang benar bahawa ekosistem Hadoop termasuk Hive, tetapi Hive menyokong hanya subset SQL, dan walaupun prestasi sedang meningkat (bersama dengan sokongan SQL), ia tidak hampir secepatnya menjawab pertanyaan yang lebih kecil seperti sistem relasi. Baru-baru ini, terdapat kemajuan besar di sekitar akses SQL ke Hadoop, yang telah membuka jalan bagi Hadoop menjadi destinasi baru untuk arkib gudang data dalam talian.
Bergantung pada vendor Hadoop, API (seperti SQL) akan menjadi tersedia supaya alat pelaporan dan analisis analisis yang lebih umum dapat mengeluarkan SQL yang lancar mengeluarkan data yang disimpan dalam Hadoop. Sebagai contoh, IBM mempunyai API SQL Big, Cloudera mempunyai Impala, dan Hive sendiri, melalui inisiatif Hortonworks Stinger, menjadi semakin mematuhi SQL.
Walaupun pelbagai sudut pandangan wujud (sesetengah bertujuan untuk meningkatkan Sarang; beberapa, untuk melanjutkan Hive dan lain-lain, untuk menyediakan alternatif), semua penyelesaian ini cuba untuk menangani dua isu: MapReduce adalah penyelesaian yang buruk untuk melaksanakan pertanyaan yang lebih kecil, dan akses SQL adalah - untuk saat ini - kunci untuk membolehkan pekerja IT menggunakan kemahiran SQL sedia ada untuk mendapatkan nilai dari data yang disimpan dalam Hadoop.