Rumah Kewangan Peribadi Hadoop sebagai Archive Queryable Data Warehouse Cold - dummies

Hadoop sebagai Archive Queryable Data Warehouse Cold - dummies

2024

Video: How to install Cloudera QuickStart VM on VMware 2024

Banyak kajian menunjukkan bahawa kebanyakan data dalam gudang data perusahaan jarang ditanyakan.

< kadang-kadang dipanggil

aktif data) sering digunakan, data hangat digunakan dari semasa ke semasa dan data sejuk jarang digunakan. untuk menyimpan data sejuk pada cakera yang lebih perlahan dalam kandang gudang data atau untuk membuat strategi caching yang pandai untuk menyimpan data yang panas dalam memori, antara lain.

Masalah dengan pendekatan ini adalah bahawa walaupun storan yang lebih perlahan digunakan, ia masih mahal untuk menyimpan data sejuk, jarang digunakan di gudang. Kos di sini berasal dari kedua-duanya perlesenan perkakasan dan perisian. Pada masa yang sama, data yang sejuk dan tidak aktif sering diarkibkan ke pita. Model pengarkiban tradisional ini rosak apabila anda ingin menanyakan semua data sejuk dengan cara yang kos efektif dan cekap - tanpa perlu meminta pita lama, dengan kata lain.

Jika anda melihat ciri-ciri kos dan operasi Hadoop, sesungguhnya ia seolah-olah telah ditetapkan untuk menjadi pita sandaran baru. Hadoop tidak mahal kerana sistem Hadoop direka bentuk untuk menggunakan gred rendah perkakasan daripada apa yang biasanya digunakan dalam sistem gudang data. Satu lagi penjimatan kos yang signifikan ialah pelesenan perisian.

Lesen pengedaran Hadoop komersial memerlukan sebahagian kecil daripada kos lesen perisian gudang data perhubungan, yang terkenal kerana mahal. Dari perspektif operasi, Hadoop direka untuk memudahkan skala hanya dengan menambahkan nod budak tambahan ke kumpulan yang ada. Dan sebagai nod hamba ditambahkan dan set data tumbuh dalam jumlah, rangka kerja pemprosesan data Hadoop membolehkan aplikasi anda mengatasi beban kerja yang meningkat dengan lancar.

Hadoop mewakili cara mudah, fleksibel, dan murah untuk mendorong pemprosesan merentasi beribu-ribu pelayan.

Dengan seni bina yang berskala dan murah, Hadoop nampaknya menjadi pilihan yang sempurna untuk mengarkibkan data gudang … kecuali satu perkara kecil: Kebanyakan dunia IT berjalan di SQL, dan SQL sendiri tidak bermain dengan baik dengan Hadoop.

Sememangnya, pergerakan NoSQL yang lebih mesra Hadoop masih hidup dan baik, tetapi kebanyakan pengguna kuasa kini menggunakan SQL dengan cara yang biasa, alat-alat yang luar biasa yang menghasilkan pertanyaan SQL di bawah produk hud seperti Tableau, Microsoft Excel, dan IBM Cognos BI.

Memang benar bahawa ekosistem Hadoop termasuk Hive, tetapi Hive menyokong hanya subset SQL, dan walaupun prestasi sedang meningkat (bersama dengan sokongan SQL), ia tidak hampir secepatnya menjawab pertanyaan yang lebih kecil seperti sistem relasi. Baru-baru ini, terdapat kemajuan besar di sekitar akses SQL ke Hadoop, yang telah membuka jalan bagi Hadoop menjadi destinasi baru untuk arkib gudang data dalam talian.

Bergantung pada vendor Hadoop, API (seperti SQL) akan menjadi tersedia supaya alat pelaporan dan analisis analisis yang lebih umum dapat mengeluarkan SQL yang lancar mengeluarkan data yang disimpan dalam Hadoop. Sebagai contoh, IBM mempunyai API SQL Big, Cloudera mempunyai Impala, dan Hive sendiri, melalui inisiatif Hortonworks Stinger, menjadi semakin mematuhi SQL.

Walaupun pelbagai sudut pandangan wujud (sesetengah bertujuan untuk meningkatkan Sarang; beberapa, untuk melanjutkan Hive dan lain-lain, untuk menyediakan alternatif), semua penyelesaian ini cuba untuk menangani dua isu: MapReduce adalah penyelesaian yang buruk untuk melaksanakan pertanyaan yang lebih kecil, dan akses SQL adalah - untuk saat ini - kunci untuk membolehkan pekerja IT menggunakan kemahiran SQL sedia ada untuk mendapatkan nilai dari data yang disimpan dalam Hadoop.