Rumah Kewangan Peribadi Tahap Shuffle Hadoop MapReduce Application Flow - dummies

Tahap Shuffle Hadoop MapReduce Application Flow - dummies

Video: DJ GAGAK - ENTAH APA YANG MERASUKIMU - SALAH APA AKU 2024

Video: DJ GAGAK - ENTAH APA YANG MERASUKIMU - SALAH APA AKU 2024
Anonim

Selepas fasa Peta dan sebelum permulaan fasa Mengurangkan adalah proses handoff yang dikenali sebagai shuffle dan semak . Di sini, data dari tugas pemetaan disediakan dan dipindahkan ke nod di mana tugas reducer akan dijalankan. Apabila tugas mapper selesai, hasilnya disusun dengan kunci, dipartisi sekiranya terdapat pengurang berganda, dan kemudian ditulis ke cakera.

Anda dapat melihat konsep ini dalam angka berikut, yang menunjukkan aliran pemprosesan DataReduce dan interaksi dengan komponen fizikal cluster Hadoop. (Satu nota cepat: Data dalam memori diwakili oleh dataran putih, dan data yang disimpan ke cakera diwakili oleh dataran kelabu.)

Untuk mempercepatkan keseluruhan proses MapReduce, data akan segera dipindahkan ke nod tugas reducer, untuk mengelakkan banjir aktiviti rangkaian apabila tugas pemetaan akhir selesai kerja. Pemindahan ini berlaku semasa tugas pemetaan dijalankan, sebagai output untuk setiap rekod - ingat - disimpan dalam memori tugas reducer menunggu. (Anda boleh mengkonfigurasi sama ada ini berlaku - atau tidak berlaku - dan juga bilangan benang yang terlibat.)

Perlu diingat bahawa walaupun tugas reducer mungkin mempunyai kebanyakan output tugas pemetaan, pemprosesan mengurangkan tugas tidak dapat dimulakan sehingga semua tugas mapper selesai.

Untuk mengelakkan senario di mana prestasi kerja MapReduce terhalang oleh satu tugas mapper yang berlarutan yang berjalan pada nod hamba yang tidak berfungsi, Rangka Kerja MapReduce menggunakan konsep yang disebut pelaksanaan spekulasi .

Sekiranya beberapa tugas mapper berjalan lebih lambat daripada apa yang dianggap munasabah, Master Aplikasi akan menimbulkan tugas duplikat (dalam Hadoop 1, JobTracker melakukan ini). Tugas yang mana pun selesai pertama - pendua atau asal - hasilnya disimpan ke cakera, dan tugas lain dibunuh. Sekiranya anda memantau pekerjaan anda dengan teliti dan tertanya-tanya mengapa terdapat lebih banyak tugas pemetaan daripada yang anda harapkan, inilah sebabnya.

Output dari tugas mapper tidak dituliskan ke HDFS, tetapi sebaliknya ke cakera lokal pada node hamba di mana tugas mapper dijalankan. Oleh itu, ia tidak direplikasi di seluruh kelompok Hadoop.

Selain memampatkan output, anda boleh meningkatkan prestasi dengan menjalankan tugas combiner. Taktik mudah ini, yang ditunjukkan di sini, melibatkan pelaksanaan penurunan output tempatan untuk tugas pemetaan individu.

Dalam majoriti kes, tiada pengaturcaraan tambahan diperlukan, kerana anda boleh memberitahu sistem untuk menggunakan fungsi reducer. Jika anda tidak menggunakan fungsi reducer anda, anda perlu memastikan bahawa output fungsi combiner adalah sama dengan fungsi reducer.

Terserah pada kerangka MapReduce sama ada fungsi combiner perlu dijalankan sekali, beberapa kali, atau tidak, jadi sangat kritikal bahawa kod combiner memastikan bahawa hasil akhir tidak terpengaruh oleh banyak larian. Menjalankan kombinen boleh menghasilkan faedah prestasi dengan mengurangkan jumlah data perantaraan yang sepatutnya perlu dipindahkan ke atas rangkaian.

Ini juga mengurangkan jumlah pemprosesan yang perlu dilakukan pengurangan. Anda menjalankan tugas tambahan di sini, jadi kemungkinan bahawa sebarang keuntungan prestasi dapat diabaikan atau mungkin menyebabkan prestasi keseluruhan yang lebih buruk. Perbatuan anda mungkin berbeza-beza, jadi cuba dengan teliti ini.

Selepas semua keputusan tugas pemetaan disalin ke nod tugas reducer, fail-fail ini digabungkan dan disusun.

Tahap Shuffle Hadoop MapReduce Application Flow - dummies

Pilihan Editor

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Jika anda telah memulakan jejak sosial metrik media dan menikmati kurniaan data yang kini dapat dilihat, dihidupkan, dan digunakan, anda mungkin tertanya-tanya apa yang mungkin menyebabkan kemurungan! Mudah: kehilangan data. Katakanlah bahawa anda mempunyai masalah tapak atau entah bagaimana kehilangan akses ke tapak atau data anda. Adakah anda mempunyai sandaran anda ...

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Mana-mana kempen baru, laman web, akaun Twitter, halaman Facebook, atau item lain yang anda ingin ukur dengan metrik media sosial bermula pada sifar. Nombor ini boleh membuat anda merasa seperti anda bercakap dengan tidak sah, bercakap dengan diri anda atau anda tersembunyi dari pandangan. Perasaan ini boleh membawa kepada pengasingan secara keseluruhan ...

Meracuni Google Spider - dummies

Meracuni Google Spider - dummies

Anda sentiasa dapat mencari orang yang ingin menyimpang dari lurus dan sempit. Ya, mereka adalah orang bodoh yang terlibat dalam taktik pengoptimuman berisiko yang bertujuan untuk menggerakkan PageRank secara artifisial, memanipulasi pesanan halaman hasil carian di Google, dan mendapatkan kelebihan yang tidak adil dalam indeks. Google, dengan reputasi yang luar biasa untuk melindungi, ...

Pilihan Editor

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Di laman web anda memberikan wawasan yang penting. Anda boleh memikirkan sama ada pengunjung sedang melihat cepat, kemudian pergi, atau sama ada mereka bertahan lebih lama dan sebenarnya membaca bahan dalam talian anda dengan tujuan untuk mengambil tindakan. Jika majoriti pelawat laman web anda tidak ...

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Laman web perniagaan sangat mirip dengan merancang kedai dengan pemasaran produk dalam fikiran. Malah, laman web anda benar-benar adalah kedai - kedai maya di Internet. Rangkaian kedai runcit telah menghabiskan berjuta-juta dolar dalam penyelidikan pasaran, menonton dan mendokumentasikan bagaimana pembeli memasuki kedai, belok kanan atau kiri, dan ...

Analitik web Untuk Menipu Cheat Sheet - dummies

Analitik web Untuk Menipu Cheat Sheet - dummies

Melakukan analisis laman web tidak perlu meletihkan dan intensif masa. Anda boleh meringkaskan prestasi keseluruhan laman web anda dengan cepat - jika anda tahu apa yang perlu dicari. Alat analisis web percuma dan kos rendah boleh membantu anda mengukur kejayaan laman web anda, dan anda boleh menjana perujuk tapak dengan pelbagai cara yang tidak mungkin ...

Pilihan Editor

Cara Memaksimumkan Ruang pada Laman Web - dummies

Cara Memaksimumkan Ruang pada Laman Web - dummies

Terlalu terhad, anda boleh membuat penggunaan kreatif beberapa teknologi di luar sana untuk memaksimumkan antara muka anda. Untuk setiap teknik berikut yang diterangkan, terdapat banyak laman web yang menawarkan sampel kod, forum, dan sumber untuk membantu anda memulakan. Accordions. Antara muka akordion membolehkan ...

Cara Mendapatkan Corak CSS3 Online - dummies

Cara Mendapatkan Corak CSS3 Online - dummies

Mencipta kesan mudah untuk laman CSS3 menggunakan gradien mudah . Walau bagaimanapun, mewujudkan sesuatu yang benar-benar hebat memerlukan masa dan keupayaan artistik. Kebanyakan pemaju benar-benar tidak mempunyai masa atau kemahiran yang diperlukan untuk mencipta sesuatu yang mempesonakan menggunakan CSS3 sahaja (atau CSS3 digabungkan dengan grafik) - di sinilah pereka bermain. Ramai pereka yang membolehkan anda ...

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Terdapat banyak pelayar dan versi pelayar yang berbeza gunakan hari ini. Tidak semua daripada mereka adalah optimum untuk CSS3. Inilah tempat Modernizr dimainkan. Pemajunya menyebutnya "perpustakaan JavaScript yang mengesan ciri HTML5 dan CSS3 dalam pelayar pengguna. "Anda menggunakan Modernizr untuk melaksanakan tugas secara pilihan dan memasukkan ciri aplikasi berdasarkan ...