Nod master dalam Hadoop Clusters - dummies

Nod induk dalam kelompok Hadoop yang diagihkan menjadi tuan rumah pelbagai perkhidmatan pengurusan storan dan pemprosesan, yang digambarkan dalam senarai ini, untuk seluruh kelompok Hadoop. Redundancy adalah kritikal dalam mengelakkan titik kegagalan tunggal, sehingga anda melihat dua suis dan tiga nod induk.

NameNode: Menguruskan penyimpanan HDFS. Untuk memastikan ketersediaan yang tinggi, anda mempunyai NamaNode yang aktif dan NamaNode siap sedia. Setiap berjalan dengan nod induk yang tersendiri.
Node pemeriksaan (atau nod sandaran): Menyediakan perkhidmatan checkpointing untuk NameNode. Ini melibatkan membaca log edit NameNode untuk perubahan pada fail dalam HDFS (fail baru, dipadam, dan dilampirkan) sejak titik pemeriksaan terakhir, dan menerapkannya pada fail induk NameNode yang memetakan fail ke blok data.

Selain itu, Backup Node menyimpan salinan ruang nama sistem fail dalam memori dan memastikan ia selari dengan keadaan NameNode. Untuk penyerahan ketersediaan yang tinggi, jangan gunakan simpang pusat simpulan atau nod sandaran - gunakan Standby NameNode sebaliknya. Selain sebagai siaga aktif untuk NameNode, Standby NameNode mengekalkan perkhidmatan pemeriksaan dan menyimpan salinan ruang nama sistem fail dalam memori.
JournalNode: Terima pengubahsuaian log edit yang menunjukkan perubahan pada fail dalam HDFS dari NameNode. Sekurang-kurangnya tiga perkhidmatan JournalNode (dan ia sentiasa nombor ganjil) mesti berjalan dalam kumpulan, dan mereka cukup ringan sehingga mereka dapat dicabut dengan perkhidmatan lain pada nod master.
Pengurus Sumber: Mengawasi penjadualan tugas aplikasi dan pengurusan sumber cluster Hadoop. Perkhidmatan ini adalah jantung YARN.
JobTracker: Untuk pelayan Hadoop 1, mengendalikan pengurusan sumber kluster dan penjadualan. Dengan YARN, JobTracker adalah usang dan tidak digunakan. Beberapa penyebaran Hadoop masih belum berhijrah ke Hadoop 2 dan YARN.
HMaster: Memantau pelayan kawasan HBase dan mengendalikan semua perubahan metadata. Untuk memastikan ketersediaan yang tinggi, pastikan anda menggunakan contoh HMaster kedua. Perkhidmatan HMaster cukup ringan untuk dilengkapkan dengan perkhidmatan lain pada nod induk. Dalam Hadoop 1, contoh-contoh perkhidmatan HMaster dijalankan pada nod induk. Dalam Hadoop 2, dengan Hoya (HBase on Benang), contoh HMaster dijalankan dalam kontena pada nod budak.
Zookeeper: Koordinat diedarkan komponen dan menyediakan mekanisme untuk menyegerakkannya. Zookeeper digunakan untuk mengesan kegagalan NameNode dan memilih NameNode baru.Ia juga digunakan dengan HBase untuk menguruskan negeri-negeri HMaster dan RegionServers.

Seperti JournalNode, anda memerlukan sekurang-kurangnya tiga contoh node Zookeeper (dan selalu nombor ganjil), dan mereka cukup ringan untuk dilengkapkan dengan perkhidmatan lain pada nod master.

Di sini, anda mempunyai tiga nod induk (dengan perkakasan yang sama), di mana perkhidmatan utama Active NameNode, Standby NameNode, dan Pengurus Sumber masing-masing mempunyai pelayan sendiri. Terdapat perkhidmatan JournalNode dan Zookeeper yang berjalan pada setiap pelayan, tetapi ini ringan dan tidak akan menjadi sumber perdebatan sumber dengan perkhidmatan NameNode dan Pengurus Sumber.

Prinsipnya sama untuk Hadoop 1, di mana anda memerlukan nod induk yang berdedikasi untuk nama NameNode, Secondary NameNode, dan JobTracker.

Jika anda bercadang untuk menggunakan HBase dengan Hoya dalam Hadoop 2, anda tidak memerlukan sebarang perkhidmatan tambahan. Untuk penyebaran Hadoop 1 menggunakan HBase, periksa angka berikut untuk penggunaan perkhidmatan pada nod master cluster Hadoop.

Terdapat dua perbezaan apabila membandingkan pelayan utama ini kepada pelayan master Hadoop 1 tanpa sokongan HBase: di sini anda memerlukan dua perkhidmatan HMaster (satu untuk menyelaraskan HBase, dan satu untuk bertindak sebagai siap sedia) dan perkhidmatan Zookeeper pada ketiga-tiga nod utama untuk mengendalikan failover.

Jika anda ingin menggunakan kumpulan Hadoop 1 anda hanya untuk HBase, anda boleh melakukannya tanpa perkhidmatan JobTracker, kerana HBase tidak bergantung pada infrastruktur Hadoop 1 MapReduce.

Apabila orang bercakap mengenai perkakasan untuk Hadoop, mereka secara amnya menekankan penggunaan komponen komoditi - yang murah. Kerana anda perlu meruntuhkan hanya beberapa nod induk (biasanya, tiga atau empat), anda tidak terkena dengan mendarabkan kos jika, contohnya, anda memutuskan untuk menggunakan pemacu cakera keras mahal.

Perlu diingat bahawa, tanpa nod induk, tiada kluster Hadoop. Nod master berfungsi sebagai fungsi kritikal misi, dan walaupun anda memerlukan redundansi, anda harus merekabentuknya dengan keterangkapan dan daya tahan yang tinggi.

Penyimpanan yang disyorkan

Untuk nod master Hadoop, tanpa mengira bilangan nod hamba atau kegunaan kluster, ciri-ciri penyimpanan adalah konsisten. Gunakan empat pemacu SAS 900GB, bersama dengan pengawal RAID HDD yang dikonfigurasikan untuk RAID 1 + 0. Pemacu SAS lebih mahal daripada pemacu SATA, dan mempunyai kapasiti storan yang lebih rendah, tetapi ia lebih cepat dan lebih dipercayai.

Menyebarkan pemacu SAS anda sebagai array RAID memastikan bahawa perkhidmatan pengurusan Hadoop mempunyai kedai yang berlebihan untuk data misi kritikal mereka. Ini memberi anda simpanan yang stabil, pantas, dan berlebihan untuk menyokong pengurusan kumpulan Hadoop anda.

Pemproses yang disyorkan

Pada masa penulisan ini, kebanyakan arsitektur rujukan mengesyorkan menggunakan papan induk dengan dua soket CPU, masing-masing dengan enam atau lapan teras. Arsitektur Intel Ivy Bridge biasanya digunakan.

Memori yang disyorkan

Keperluan memori berbeza-beza bergantung kepada skala kluster Hadoop.Memori adalah faktor kritikal bagi nod master Hadoop kerana pelayan NameNode yang aktif dan bersedia bergantung pada RAM untuk menguruskan HDFS. Oleh itu, gunakan memori mengoreksi ralat (ECC) untuk nod master Hadoop. Biasanya, nod master memerlukan antara 64GB dan 128GB RAM.

Keperluan memori NameNode adalah fungsi langsung dari bilangan blok fail yang disimpan dalam HDFS. Sebagai peraturan, NameNode menggunakan kira-kira 1GB RAM per juta blok HDFS. (Ingat bahawa fail dipecah menjadi blok individu dan direplikasi supaya anda mempunyai tiga salinan setiap blok.)

Permintaan memori Pengurus Sumber, HMaster, Zookeeper, dan pelayan JournalNode jauh lebih rendah daripada pelayan NameNode. Walau bagaimanapun, amalan yang baik untuk saiz nod tuan dalam cara yang konsisten supaya ia boleh ditukar ganti sekiranya kegagalan perkakasan.

Rangkaian yang disyorkan

Komunikasi cepat sangat penting untuk perkhidmatan pada nod master, jadi kami cadangkan menggunakan sepasang sambungan 10GbE terikat. Pasangan terikat ini memberikan redundansi, tetapi juga menggandakan keluaran kepada 20GbE. Untuk kelompok yang lebih kecil (misalnya, kurang daripada 50 nod) anda boleh lari dengan menggunakan penyambung 1 GbE.