Video: GIVEAWAY DEWA EKA PRAYOGA - HARAPAN SEORANG PEMULUNG 2024
Sizing mana-mana sistem pemprosesan data adalah sama banyak sains kerana ia Dengan Hadoop, anda menganggap maklumat yang sama seperti yang anda lakukan dengan pangkalan data relasi, sebagai contoh. Paling penting, anda perlu mengetahui berapa banyak data yang anda ada, perkiraan kadar pertumbuhan yang diharapkan, dan menetapkan dasar pengekalan (berapa lama untuk memastikan data tersebut).
Jawapan kepada soalan-soalan ini berfungsi sebagai titik permulaan anda, yang bebas daripada sebarang keperluan berkaitan teknologi.
Selepas anda menentukan berapa banyak data anda perlu menyimpan, anda boleh memulakan pemfaktoran dalam pertimbangan khusus Hadoop. Katakan bahawa anda mempunyai syarikat telekom dan anda telah menetapkan bahawa anda memerlukan 750 terabytes (TB) ruang penyimpanan untuk fail log rekod panggilan (CDR). < Anda menyimpan rekod ini untuk mematuhi peraturan kerajaan, tetapi anda juga boleh menganalisisnya o lihat corak churn dan memantau kesihatan rangkaian, contohnya. Untuk menentukan berapa banyak ruang simpanan yang anda perlukan dan, sebagai hasilnya, berapa banyak rak dan nod hamba yang anda perlukan, anda menjalankan pengiraan dengan faktor-faktor berikut:
-
Faktor replikasi lalai untuk data dalam HDFS ialah 3. 500 terabyte data CDR untuk syarikat telekom dalam contoh kemudian berubah menjadi 1500 terabytes. Ruang swap:
-
Apa-apa analisis atau pemprosesan data oleh MapReduce memerlukan tambahan 25 peratus ruang untuk menyimpan set hasil interim dan akhir. (Syarikat telekomunikasi kini memerlukan 1875 terabytes ruang simpanan.)
-
Syarikat telekomunikasi menyimpan CDR dalam bentuk termampat, di mana nisbah mampatan purata dijangka menjadi 3: 1. Anda kini memerlukan 625 terabytes. Bilangan nod hamba:
-
Dengan mengandaikan bahawa setiap nod hamba mempunyai dua belas drive 3TB yang didedikasikan untuk HDFS, setiap nod hamba mempunyai 36 terabyte penyimpanan HDFS mentah yang tersedia, jadi syarikat itu memerlukan 18 nod hamba. Bilangan rak:
-
Oleh kerana setiap simpul budak menggunakan 2RU dan syarikat dalam contohnya memerlukan tiga nod induk (1RU masing-masing) dan dua suis ToR (1RU masing-masing), anda memerlukan sejumlah 41RU. Ia 1RU kurang daripada jumlah kapasiti rak standard, jadi rak tunggal cukup untuk penggunaan ini. Tanpa mengira, tidak ada ruang untuk pertumbuhan dalam kelompok ini, jadi ia berhemat untuk membeli rak kedua (dan dua lagi suis ToR) dan membahagikan nod hamba antara kedua-dua rak.
Ujian:
-
Mengekalkan kluster ujian yang merupakan perwakilan skala kecil dari cluster pengeluaran adalah amalan biasa. Ia tidak perlu besar, tetapi anda menginginkan sekurang-kurangnya lima nod data supaya anda mendapat representasi yang tepat dari tingkah laku Hadoop.Seperti mana-mana persekitaran ujian, ia harus diasingkan pada rangkaian yang berbeza dari cluster pengeluaran. Cadangan dan pemulihan bencana:
-
Seperti mana-mana sistem pengeluaran, syarikat telekomunikasi juga perlu mempertimbangkan keperluan pemulihan dan pemulihan bencana. Syarikat ini boleh pergi sejauh membuat kluster cermin untuk memastikan mereka mempunyai siap sedia panas untuk keseluruhan sistem mereka. Ini jelas merupakan pilihan yang paling mahal, tetapi sesuai untuk persekitaran di mana uptime tetap adalah kritikal. Pada akhir paling murah spektrum (di luar tidak membuat sandaran data sama sekali), syarikat telekomunikasi boleh menyimpan semua data secara teratur (termasuk data itu sendiri, aplikasi, fail konfigurasi, dan metadata) yang disimpan dalam kelompok pengeluaran mereka untuk pita. Dengan pita, data itu tidak dapat diakses dengan serta-merta, tetapi ia akan membolehkan usaha pemulihan bencana dalam kes yang gugur keseluruhan pengeluaran cluster Hadoop gagal.
Seperti komputer peribadi anda sendiri, apabila pemacu cakera keras utama mengisi ruang, sistem itu perlahan. Hadoop tidak terkecuali. Juga, cakera keras melakukan lebih baik apabila ia kurang dari 85 hingga 90 peratus penuh. Dengan maklumat ini dalam fikiran, jika prestasi adalah penting bagi anda, anda perlu menyerang faktor ruang swap dari 25 hingga 33 peratus.