Rumah Kewangan Peribadi Menumpukan Hadoop Cluster - dummies

Menumpukan Hadoop Cluster - dummies

Video: GIVEAWAY DEWA EKA PRAYOGA - HARAPAN SEORANG PEMULUNG 2024

Video: GIVEAWAY DEWA EKA PRAYOGA - HARAPAN SEORANG PEMULUNG 2024
Anonim

Sizing mana-mana sistem pemprosesan data adalah sama banyak sains kerana ia Dengan Hadoop, anda menganggap maklumat yang sama seperti yang anda lakukan dengan pangkalan data relasi, sebagai contoh. Paling penting, anda perlu mengetahui berapa banyak data yang anda ada, perkiraan kadar pertumbuhan yang diharapkan, dan menetapkan dasar pengekalan (berapa lama untuk memastikan data tersebut).

Jawapan kepada soalan-soalan ini berfungsi sebagai titik permulaan anda, yang bebas daripada sebarang keperluan berkaitan teknologi.

Selepas anda menentukan berapa banyak data anda perlu menyimpan, anda boleh memulakan pemfaktoran dalam pertimbangan khusus Hadoop. Katakan bahawa anda mempunyai syarikat telekom dan anda telah menetapkan bahawa anda memerlukan 750 terabytes (TB) ruang penyimpanan untuk fail log rekod panggilan (CDR). < Anda menyimpan rekod ini untuk mematuhi peraturan kerajaan, tetapi anda juga boleh menganalisisnya o lihat corak churn dan memantau kesihatan rangkaian, contohnya. Untuk menentukan berapa banyak ruang simpanan yang anda perlukan dan, sebagai hasilnya, berapa banyak rak dan nod hamba yang anda perlukan, anda menjalankan pengiraan dengan faktor-faktor berikut:

Replikasi:
  • Faktor replikasi lalai untuk data dalam HDFS ialah 3. 500 terabyte data CDR untuk syarikat telekom dalam contoh kemudian berubah menjadi 1500 terabytes. Ruang swap:

  • Apa-apa analisis atau pemprosesan data oleh MapReduce memerlukan tambahan 25 peratus ruang untuk menyimpan set hasil interim dan akhir. (Syarikat telekomunikasi kini memerlukan 1875 terabytes ruang simpanan.)

    Mampatan:
  • Syarikat telekomunikasi menyimpan CDR dalam bentuk termampat, di mana nisbah mampatan purata dijangka menjadi 3: 1. Anda kini memerlukan 625 terabytes. Bilangan nod hamba:

  • Dengan mengandaikan bahawa setiap nod hamba mempunyai dua belas drive 3TB yang didedikasikan untuk HDFS, setiap nod hamba mempunyai 36 terabyte penyimpanan HDFS mentah yang tersedia, jadi syarikat itu memerlukan 18 nod hamba. Bilangan rak:

  • Oleh kerana setiap simpul budak menggunakan 2RU dan syarikat dalam contohnya memerlukan tiga nod induk (1RU masing-masing) dan dua suis ToR (1RU masing-masing), anda memerlukan sejumlah 41RU. Ia 1RU kurang daripada jumlah kapasiti rak standard, jadi rak tunggal cukup untuk penggunaan ini. Tanpa mengira, tidak ada ruang untuk pertumbuhan dalam kelompok ini, jadi ia berhemat untuk membeli rak kedua (dan dua lagi suis ToR) dan membahagikan nod hamba antara kedua-dua rak.

    Ujian:

  • Mengekalkan kluster ujian yang merupakan perwakilan skala kecil dari cluster pengeluaran adalah amalan biasa. Ia tidak perlu besar, tetapi anda menginginkan sekurang-kurangnya lima nod data supaya anda mendapat representasi yang tepat dari tingkah laku Hadoop.Seperti mana-mana persekitaran ujian, ia harus diasingkan pada rangkaian yang berbeza dari cluster pengeluaran. Cadangan dan pemulihan bencana:

  • Seperti mana-mana sistem pengeluaran, syarikat telekomunikasi juga perlu mempertimbangkan keperluan pemulihan dan pemulihan bencana. Syarikat ini boleh pergi sejauh membuat kluster cermin untuk memastikan mereka mempunyai siap sedia panas untuk keseluruhan sistem mereka. Ini jelas merupakan pilihan yang paling mahal, tetapi sesuai untuk persekitaran di mana uptime tetap adalah kritikal. Pada akhir paling murah spektrum (di luar tidak membuat sandaran data sama sekali), syarikat telekomunikasi boleh menyimpan semua data secara teratur (termasuk data itu sendiri, aplikasi, fail konfigurasi, dan metadata) yang disimpan dalam kelompok pengeluaran mereka untuk pita. Dengan pita, data itu tidak dapat diakses dengan serta-merta, tetapi ia akan membolehkan usaha pemulihan bencana dalam kes yang gugur keseluruhan pengeluaran cluster Hadoop gagal.

    Seperti komputer peribadi anda sendiri, apabila pemacu cakera keras utama mengisi ruang, sistem itu perlahan. Hadoop tidak terkecuali. Juga, cakera keras melakukan lebih baik apabila ia kurang dari 85 hingga 90 peratus penuh. Dengan maklumat ini dalam fikiran, jika prestasi adalah penting bagi anda, anda perlu menyerang faktor ruang swap dari 25 hingga 33 peratus.

Menumpukan Hadoop Cluster - dummies

Pilihan Editor

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Jika anda telah memulakan jejak sosial metrik media dan menikmati kurniaan data yang kini dapat dilihat, dihidupkan, dan digunakan, anda mungkin tertanya-tanya apa yang mungkin menyebabkan kemurungan! Mudah: kehilangan data. Katakanlah bahawa anda mempunyai masalah tapak atau entah bagaimana kehilangan akses ke tapak atau data anda. Adakah anda mempunyai sandaran anda ...

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Mana-mana kempen baru, laman web, akaun Twitter, halaman Facebook, atau item lain yang anda ingin ukur dengan metrik media sosial bermula pada sifar. Nombor ini boleh membuat anda merasa seperti anda bercakap dengan tidak sah, bercakap dengan diri anda atau anda tersembunyi dari pandangan. Perasaan ini boleh membawa kepada pengasingan secara keseluruhan ...

Meracuni Google Spider - dummies

Meracuni Google Spider - dummies

Anda sentiasa dapat mencari orang yang ingin menyimpang dari lurus dan sempit. Ya, mereka adalah orang bodoh yang terlibat dalam taktik pengoptimuman berisiko yang bertujuan untuk menggerakkan PageRank secara artifisial, memanipulasi pesanan halaman hasil carian di Google, dan mendapatkan kelebihan yang tidak adil dalam indeks. Google, dengan reputasi yang luar biasa untuk melindungi, ...

Pilihan Editor

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Di laman web anda memberikan wawasan yang penting. Anda boleh memikirkan sama ada pengunjung sedang melihat cepat, kemudian pergi, atau sama ada mereka bertahan lebih lama dan sebenarnya membaca bahan dalam talian anda dengan tujuan untuk mengambil tindakan. Jika majoriti pelawat laman web anda tidak ...

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Laman web perniagaan sangat mirip dengan merancang kedai dengan pemasaran produk dalam fikiran. Malah, laman web anda benar-benar adalah kedai - kedai maya di Internet. Rangkaian kedai runcit telah menghabiskan berjuta-juta dolar dalam penyelidikan pasaran, menonton dan mendokumentasikan bagaimana pembeli memasuki kedai, belok kanan atau kiri, dan ...

Analitik web Untuk Menipu Cheat Sheet - dummies

Analitik web Untuk Menipu Cheat Sheet - dummies

Melakukan analisis laman web tidak perlu meletihkan dan intensif masa. Anda boleh meringkaskan prestasi keseluruhan laman web anda dengan cepat - jika anda tahu apa yang perlu dicari. Alat analisis web percuma dan kos rendah boleh membantu anda mengukur kejayaan laman web anda, dan anda boleh menjana perujuk tapak dengan pelbagai cara yang tidak mungkin ...

Pilihan Editor

Cara Memaksimumkan Ruang pada Laman Web - dummies

Cara Memaksimumkan Ruang pada Laman Web - dummies

Terlalu terhad, anda boleh membuat penggunaan kreatif beberapa teknologi di luar sana untuk memaksimumkan antara muka anda. Untuk setiap teknik berikut yang diterangkan, terdapat banyak laman web yang menawarkan sampel kod, forum, dan sumber untuk membantu anda memulakan. Accordions. Antara muka akordion membolehkan ...

Cara Mendapatkan Corak CSS3 Online - dummies

Cara Mendapatkan Corak CSS3 Online - dummies

Mencipta kesan mudah untuk laman CSS3 menggunakan gradien mudah . Walau bagaimanapun, mewujudkan sesuatu yang benar-benar hebat memerlukan masa dan keupayaan artistik. Kebanyakan pemaju benar-benar tidak mempunyai masa atau kemahiran yang diperlukan untuk mencipta sesuatu yang mempesonakan menggunakan CSS3 sahaja (atau CSS3 digabungkan dengan grafik) - di sinilah pereka bermain. Ramai pereka yang membolehkan anda ...

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Terdapat banyak pelayar dan versi pelayar yang berbeza gunakan hari ini. Tidak semua daripada mereka adalah optimum untuk CSS3. Inilah tempat Modernizr dimainkan. Pemajunya menyebutnya "perpustakaan JavaScript yang mengesan ciri HTML5 dan CSS3 dalam pelayar pengguna. "Anda menggunakan Modernizr untuk melaksanakan tugas secara pilihan dan memasukkan ciri aplikasi berdasarkan ...