Rumah Kewangan Peribadi Nod master dalam Hadoop Clusters - dummies

Nod master dalam Hadoop Clusters - dummies

Isi kandungan:

Video: Hadoop Rack Awareness 2024

Video: Hadoop Rack Awareness 2024
Anonim

Nod induk dalam kelompok Hadoop yang diagihkan menjadi tuan rumah pelbagai perkhidmatan pengurusan storan dan pemprosesan, yang digambarkan dalam senarai ini, untuk seluruh kelompok Hadoop. Redundancy adalah kritikal dalam mengelakkan titik kegagalan tunggal, sehingga anda melihat dua suis dan tiga nod induk.

  • NameNode: Menguruskan penyimpanan HDFS. Untuk memastikan ketersediaan yang tinggi, anda mempunyai NamaNode yang aktif dan NamaNode siap sedia. Setiap berjalan dengan nod induk yang tersendiri.

  • Node pemeriksaan (atau nod sandaran): Menyediakan perkhidmatan checkpointing untuk NameNode. Ini melibatkan membaca log edit NameNode untuk perubahan pada fail dalam HDFS (fail baru, dipadam, dan dilampirkan) sejak titik pemeriksaan terakhir, dan menerapkannya pada fail induk NameNode yang memetakan fail ke blok data.

    Selain itu, Backup Node menyimpan salinan ruang nama sistem fail dalam memori dan memastikan ia selari dengan keadaan NameNode. Untuk penyerahan ketersediaan yang tinggi, jangan gunakan simpang pusat simpulan atau nod sandaran - gunakan Standby NameNode sebaliknya. Selain sebagai siaga aktif untuk NameNode, Standby NameNode mengekalkan perkhidmatan pemeriksaan dan menyimpan salinan ruang nama sistem fail dalam memori.

  • JournalNode: Terima pengubahsuaian log edit yang menunjukkan perubahan pada fail dalam HDFS dari NameNode. Sekurang-kurangnya tiga perkhidmatan JournalNode (dan ia sentiasa nombor ganjil) mesti berjalan dalam kumpulan, dan mereka cukup ringan sehingga mereka dapat dicabut dengan perkhidmatan lain pada nod master.

  • Pengurus Sumber: Mengawasi penjadualan tugas aplikasi dan pengurusan sumber cluster Hadoop. Perkhidmatan ini adalah jantung YARN.

  • JobTracker: Untuk pelayan Hadoop 1, mengendalikan pengurusan sumber kluster dan penjadualan. Dengan YARN, JobTracker adalah usang dan tidak digunakan. Beberapa penyebaran Hadoop masih belum berhijrah ke Hadoop 2 dan YARN.

  • HMaster: Memantau pelayan kawasan HBase dan mengendalikan semua perubahan metadata. Untuk memastikan ketersediaan yang tinggi, pastikan anda menggunakan contoh HMaster kedua. Perkhidmatan HMaster cukup ringan untuk dilengkapkan dengan perkhidmatan lain pada nod induk. Dalam Hadoop 1, contoh-contoh perkhidmatan HMaster dijalankan pada nod induk. Dalam Hadoop 2, dengan Hoya (HBase on Benang), contoh HMaster dijalankan dalam kontena pada nod budak.

  • Zookeeper: Koordinat diedarkan komponen dan menyediakan mekanisme untuk menyegerakkannya. Zookeeper digunakan untuk mengesan kegagalan NameNode dan memilih NameNode baru.Ia juga digunakan dengan HBase untuk menguruskan negeri-negeri HMaster dan RegionServers.

    Seperti JournalNode, anda memerlukan sekurang-kurangnya tiga contoh node Zookeeper (dan selalu nombor ganjil), dan mereka cukup ringan untuk dilengkapkan dengan perkhidmatan lain pada nod master.

Di sini, anda mempunyai tiga nod induk (dengan perkakasan yang sama), di mana perkhidmatan utama Active NameNode, Standby NameNode, dan Pengurus Sumber masing-masing mempunyai pelayan sendiri. Terdapat perkhidmatan JournalNode dan Zookeeper yang berjalan pada setiap pelayan, tetapi ini ringan dan tidak akan menjadi sumber perdebatan sumber dengan perkhidmatan NameNode dan Pengurus Sumber.

Prinsipnya sama untuk Hadoop 1, di mana anda memerlukan nod induk yang berdedikasi untuk nama NameNode, Secondary NameNode, dan JobTracker.

Jika anda bercadang untuk menggunakan HBase dengan Hoya dalam Hadoop 2, anda tidak memerlukan sebarang perkhidmatan tambahan. Untuk penyebaran Hadoop 1 menggunakan HBase, periksa angka berikut untuk penggunaan perkhidmatan pada nod master cluster Hadoop.

Terdapat dua perbezaan apabila membandingkan pelayan utama ini kepada pelayan master Hadoop 1 tanpa sokongan HBase: di sini anda memerlukan dua perkhidmatan HMaster (satu untuk menyelaraskan HBase, dan satu untuk bertindak sebagai siap sedia) dan perkhidmatan Zookeeper pada ketiga-tiga nod utama untuk mengendalikan failover.

Jika anda ingin menggunakan kumpulan Hadoop 1 anda hanya untuk HBase, anda boleh melakukannya tanpa perkhidmatan JobTracker, kerana HBase tidak bergantung pada infrastruktur Hadoop 1 MapReduce.

Apabila orang bercakap mengenai perkakasan untuk Hadoop, mereka secara amnya menekankan penggunaan komponen komoditi - yang murah. Kerana anda perlu meruntuhkan hanya beberapa nod induk (biasanya, tiga atau empat), anda tidak terkena dengan mendarabkan kos jika, contohnya, anda memutuskan untuk menggunakan pemacu cakera keras mahal.

Perlu diingat bahawa, tanpa nod induk, tiada kluster Hadoop. Nod master berfungsi sebagai fungsi kritikal misi, dan walaupun anda memerlukan redundansi, anda harus merekabentuknya dengan keterangkapan dan daya tahan yang tinggi.

Penyimpanan yang disyorkan

Untuk nod master Hadoop, tanpa mengira bilangan nod hamba atau kegunaan kluster, ciri-ciri penyimpanan adalah konsisten. Gunakan empat pemacu SAS 900GB, bersama dengan pengawal RAID HDD yang dikonfigurasikan untuk RAID 1 + 0. Pemacu SAS lebih mahal daripada pemacu SATA, dan mempunyai kapasiti storan yang lebih rendah, tetapi ia lebih cepat dan lebih dipercayai.

Menyebarkan pemacu SAS anda sebagai array RAID memastikan bahawa perkhidmatan pengurusan Hadoop mempunyai kedai yang berlebihan untuk data misi kritikal mereka. Ini memberi anda simpanan yang stabil, pantas, dan berlebihan untuk menyokong pengurusan kumpulan Hadoop anda.

Pemproses yang disyorkan

Pada masa penulisan ini, kebanyakan arsitektur rujukan mengesyorkan menggunakan papan induk dengan dua soket CPU, masing-masing dengan enam atau lapan teras. Arsitektur Intel Ivy Bridge biasanya digunakan.

Memori yang disyorkan

Keperluan memori berbeza-beza bergantung kepada skala kluster Hadoop.Memori adalah faktor kritikal bagi nod master Hadoop kerana pelayan NameNode yang aktif dan bersedia bergantung pada RAM untuk menguruskan HDFS. Oleh itu, gunakan memori mengoreksi ralat (ECC) untuk nod master Hadoop. Biasanya, nod master memerlukan antara 64GB dan 128GB RAM.

Keperluan memori NameNode adalah fungsi langsung dari bilangan blok fail yang disimpan dalam HDFS. Sebagai peraturan, NameNode menggunakan kira-kira 1GB RAM per juta blok HDFS. (Ingat bahawa fail dipecah menjadi blok individu dan direplikasi supaya anda mempunyai tiga salinan setiap blok.)

Permintaan memori Pengurus Sumber, HMaster, Zookeeper, dan pelayan JournalNode jauh lebih rendah daripada pelayan NameNode. Walau bagaimanapun, amalan yang baik untuk saiz nod tuan dalam cara yang konsisten supaya ia boleh ditukar ganti sekiranya kegagalan perkakasan.

Rangkaian yang disyorkan

Komunikasi cepat sangat penting untuk perkhidmatan pada nod master, jadi kami cadangkan menggunakan sepasang sambungan 10GbE terikat. Pasangan terikat ini memberikan redundansi, tetapi juga menggandakan keluaran kepada 20GbE. Untuk kelompok yang lebih kecil (misalnya, kurang daripada 50 nod) anda boleh lari dengan menggunakan penyambung 1 GbE.

Nod master dalam Hadoop Clusters - dummies

Pilihan Editor

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Jika anda telah memulakan jejak sosial metrik media dan menikmati kurniaan data yang kini dapat dilihat, dihidupkan, dan digunakan, anda mungkin tertanya-tanya apa yang mungkin menyebabkan kemurungan! Mudah: kehilangan data. Katakanlah bahawa anda mempunyai masalah tapak atau entah bagaimana kehilangan akses ke tapak atau data anda. Adakah anda mempunyai sandaran anda ...

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Mana-mana kempen baru, laman web, akaun Twitter, halaman Facebook, atau item lain yang anda ingin ukur dengan metrik media sosial bermula pada sifar. Nombor ini boleh membuat anda merasa seperti anda bercakap dengan tidak sah, bercakap dengan diri anda atau anda tersembunyi dari pandangan. Perasaan ini boleh membawa kepada pengasingan secara keseluruhan ...

Meracuni Google Spider - dummies

Meracuni Google Spider - dummies

Anda sentiasa dapat mencari orang yang ingin menyimpang dari lurus dan sempit. Ya, mereka adalah orang bodoh yang terlibat dalam taktik pengoptimuman berisiko yang bertujuan untuk menggerakkan PageRank secara artifisial, memanipulasi pesanan halaman hasil carian di Google, dan mendapatkan kelebihan yang tidak adil dalam indeks. Google, dengan reputasi yang luar biasa untuk melindungi, ...

Pilihan Editor

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Di laman web anda memberikan wawasan yang penting. Anda boleh memikirkan sama ada pengunjung sedang melihat cepat, kemudian pergi, atau sama ada mereka bertahan lebih lama dan sebenarnya membaca bahan dalam talian anda dengan tujuan untuk mengambil tindakan. Jika majoriti pelawat laman web anda tidak ...

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Laman web perniagaan sangat mirip dengan merancang kedai dengan pemasaran produk dalam fikiran. Malah, laman web anda benar-benar adalah kedai - kedai maya di Internet. Rangkaian kedai runcit telah menghabiskan berjuta-juta dolar dalam penyelidikan pasaran, menonton dan mendokumentasikan bagaimana pembeli memasuki kedai, belok kanan atau kiri, dan ...

Analitik web Untuk Menipu Cheat Sheet - dummies

Analitik web Untuk Menipu Cheat Sheet - dummies

Melakukan analisis laman web tidak perlu meletihkan dan intensif masa. Anda boleh meringkaskan prestasi keseluruhan laman web anda dengan cepat - jika anda tahu apa yang perlu dicari. Alat analisis web percuma dan kos rendah boleh membantu anda mengukur kejayaan laman web anda, dan anda boleh menjana perujuk tapak dengan pelbagai cara yang tidak mungkin ...

Pilihan Editor

Cara Memaksimumkan Ruang pada Laman Web - dummies

Cara Memaksimumkan Ruang pada Laman Web - dummies

Terlalu terhad, anda boleh membuat penggunaan kreatif beberapa teknologi di luar sana untuk memaksimumkan antara muka anda. Untuk setiap teknik berikut yang diterangkan, terdapat banyak laman web yang menawarkan sampel kod, forum, dan sumber untuk membantu anda memulakan. Accordions. Antara muka akordion membolehkan ...

Cara Mendapatkan Corak CSS3 Online - dummies

Cara Mendapatkan Corak CSS3 Online - dummies

Mencipta kesan mudah untuk laman CSS3 menggunakan gradien mudah . Walau bagaimanapun, mewujudkan sesuatu yang benar-benar hebat memerlukan masa dan keupayaan artistik. Kebanyakan pemaju benar-benar tidak mempunyai masa atau kemahiran yang diperlukan untuk mencipta sesuatu yang mempesonakan menggunakan CSS3 sahaja (atau CSS3 digabungkan dengan grafik) - di sinilah pereka bermain. Ramai pereka yang membolehkan anda ...

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Terdapat banyak pelayar dan versi pelayar yang berbeza gunakan hari ini. Tidak semua daripada mereka adalah optimum untuk CSS3. Inilah tempat Modernizr dimainkan. Pemajunya menyebutnya "perpustakaan JavaScript yang mengesan ciri HTML5 dan CSS3 dalam pelayar pengguna. "Anda menggunakan Modernizr untuk melaksanakan tugas secara pilihan dan memasukkan ciri aplikasi berdasarkan ...