Rumah Kewangan Peribadi Peta Fasa peta HadoopMemurun Aplikasi - dummies

Peta Fasa peta HadoopMemurun Aplikasi - dummies

Video: Tutorial MapInfo (Tahap Perisapan) - Pembuatan Peta 2024

Video: Tutorial MapInfo (Tahap Perisapan) - Pembuatan Peta 2024
Anonim

Aplikasi MapReduce memproses data dalam pemisah input pada dasar rekod demi rekod dan setiap rekod dipahami oleh MapReduce menjadi kunci / nilai Pasangan . Selepas pemisahan input dikira, tugas pemetaan boleh mula memprosesnya - iaitu, selepas kemudahan penjadualan Pengurus Sumber memberikan mereka sumber pemprosesan. (Dalam Hadoop 1, JobTracker memberikan tugasan mapper ke slot pemprosesan khusus.)

Tugas pemetaan itu sendiri memproses inputnya berpecah satu rekod pada satu masa - dalam angka, rekod tunggal ini diwakili oleh pasangan kunci / nilai. Dalam kes data penerbangan kami, apabila pecahan input dikira (menggunakan kaedah pemprosesan fail lalai untuk fail teks), andaian adalah bahawa setiap baris dalam fail teks adalah satu rekod tunggal.

Bagi setiap rekod, teks baris itu sendiri mewakili nilai, dan offset byte setiap baris dari permulaan perpecahan dianggap sebagai kunci.

Anda mungkin tertanya-tanya mengapa nombor baris tidak digunakan dan bukannya offset byte. Apabila anda menganggap bahawa fail teks yang sangat besar dipecah menjadi banyak blok data individu, dan diproses sebagai banyak pecahan, nombor baris adalah konsep yang berisiko.

Bilangan baris dalam setiap perpecahan berbeza-beza, oleh itu adalah mustahil untuk mengira bilangan baris sebelum yang diproses. Walau bagaimanapun, dengan offset byte, anda boleh menjadi tepat, kerana setiap blok mempunyai bilangan bait tetap.

Seperti tugas pemetaan memproses setiap rekod, ia menghasilkan pasangan kunci / nilai baru: Kunci dan nilai di sini boleh sama sekali berbeza dari pasangan input. Output tugas mapper adalah koleksi penuh semua pasangan kunci / nilai ini.

Sebelum fail output akhir untuk setiap tugas mapper ditulis, output dibahagikan berdasarkan kunci dan disusun. Pembahagian ini bermaksud bahawa semua nilai bagi setiap kunci dikumpulkan bersama.

Dalam kes aplikasi sampel yang agak asas, hanya terdapat pengurang tunggal, jadi semua output tugas mapper dituliskan kepada satu fail. Tetapi dalam kes-kes dengan banyak reducers, setiap tugas mapper boleh menghasilkan banyak fail output juga.

Pecahan fail output ini berdasarkan pada kunci partitioning. Sebagai contoh, jika terdapat hanya tiga output kekunci partition yang berbeza untuk tugas-tugas pemetaan dan anda telah mengkonfigurasi tiga pengurangan untuk kerja, akan ada tiga fail output pemetaan. Dalam contoh ini, jika tugas pemetaan tertentu memproses pemisahan masukan dan menghasilkan output dengan dua daripada tiga kunci, hanya terdapat dua fail output.

Sentiasa mampatkan fail output tugas pemetaan anda. Manfaat terbesar di sini adalah dalam prestasi prestasi, kerana penulisan fail output yang lebih kecil meminimumkan kos yang tidak dapat dielakkan untuk memindahkan output mapper ke node di mana pengurangannya berjalan.

Pemisah lalai adalah lebih daripada mencukupi dalam kebanyakan situasi, tetapi kadang-kadang anda mungkin mahu menyesuaikan bagaimana data dibahagikan sebelum diproses oleh reducers. Sebagai contoh, anda mungkin mahu data dalam keputusan anda ditetapkan disusun oleh kunci dan nilai mereka - dikenali sebagai jenis menengah .

Untuk melakukan ini, anda boleh menggantikan partition lalai dan melaksanakan sendiri. Proses ini memerlukan sedikit perhatian, bagaimanapun, kerana anda ingin memastikan bahawa jumlah rekod dalam setiap partition adalah seragam. (Jika pengurangan perlu memproses lebih banyak data daripada pengurangan yang lain, anda akan menunggu kerja MapReduce anda selesai manakala pengurang kerja yang satu lagi menyumbat melalui set data yang tidak seimbang.)

Menggunakan fail perantaraan bersaiz seragam, anda boleh memanfaatkan lebih paralelisme yang terdapat dalam pemprosesan MapReduce.

Peta Fasa peta HadoopMemurun Aplikasi - dummies

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...