Kepentingan MapReduce di Hadoop - dummies

Video: Help for hacked sites: File system damage assessment 2024

Untuk sebahagian besar sejarah Hadoop, MapReduce telah menjadi satu-satunya permainan di bandar ketika datang ke pemprosesan data. Ketersediaan MapReduce telah menjadi sebab kejayaan Hadoop dan pada masa yang sama merupakan faktor utama dalam mengehadkan penggunaan lanjut.

MapReduce membolehkan pengaturcara mahir untuk menulis aplikasi yang diedarkan tanpa perlu bimbang tentang infrastruktur pengkomputeran yang diedarkan di bawahnya. Ini adalah perjanjian yang sangat besar: Hadoop dan Rangka Kerja MapReduce mengendalikan segala macam kerumitan yang pemaju aplikasi tidak perlu mengendalikan.

Sebagai contoh, keupayaan untuk menonjol secara keterlaluan cluster dengan menambahkan nod dan failover automatik kedua-dua penyimpanan data dan subsistem pemprosesan data berlaku dengan kesan sifar pada aplikasi.

Sisi lain duit syiling di sini ialah walaupun MapReduce menyembunyikan sejumlah besar kerumitan, anda tidak boleh melupakan apa itu: antarmuka untuk pengaturcaraan selari. Ini adalah kemahiran maju - dan penghalang kepada penggunaan yang lebih luas. Tidak semestinya terdapat banyak pemrogram MapReduce, dan tidak semua orang mempunyai keahlian untuk menguasainya.

Pada hari-hari awal Hadoop (Hadoop 1 dan sebelum), anda hanya boleh menjalankan aplikasi MapReduce pada kluster anda. Di Hadoop 2, komponen YARN mengubah semua itu dengan mengambil alih pengurusan sumber dan penjadualan dari rangka MapReduce, dan menyediakan antara muka generik untuk memudahkan aplikasi dijalankan pada cluster Hadoop.

Pendek kata, ini bermakna MapReduce kini hanya satu daripada banyak kerangka aplikasi yang anda boleh gunakan untuk membangun dan menjalankan aplikasi pada Hadoop. Walaupun sudah pasti untuk menjalankan aplikasi menggunakan rangka kerja lain pada Hadoop, itu tidak bermakna kita boleh mula melupakan MapReduce.

MapReduce kini merupakan satu-satunya rangka kerja pemprosesan data siap sedia untuk Hadoop. Walaupun rangka kerja lain akhirnya akan tersedia, MapReduce mempunyai hampir satu dekad kematangan di bawah tali pinggangnya (dengan hampir 4,000 isu JIRA selesai, melibatkan beratus-ratus pemaju, jika anda menjejaki).

Tidak ada pertikaian: MapReduce adalah rangka kerja yang paling matang Hadoop untuk pemprosesan data. Di samping itu, sejumlah besar kod MapReduce kini sedang digunakan yang tidak mungkin pergi ke mana-mana tidak lama lagi. Cerita panjang pendek: MapReduce adalah bahagian penting dalam kisah Hadoop.

Projek Apache Hive dan Apache Pig sangat popular kerana mereka lebih mudah masuk ke pemprosesan data pada Hadoop. Untuk banyak masalah, terutama jenis yang boleh anda selesaikan dengan SQL, Hive and Pig adalah alat yang sangat baik.Tetapi untuk tugas yang lebih luas seperti pemprosesan statistik atau pengekstrakan teks, dan terutamanya untuk memproses data tidak berstruktur, anda perlu menggunakan MapReduce.