Video: How to Install Hadoop on Windows 2024
Sebahagian daripada Data Besar Untuk Menipu Cheat Sheet
Hadoop, kerangka kerja perisian sumber terbuka, menggunakan HDFS (Sistem Hadoop yang Diagihkan Fail) dan MapReduce untuk menganalisis data besar pada kelompok komoditi perkakasan-iaitu, dalam persekitaran pengkomputeran yang diedarkan.
Sistem File Hadoop yang Diagihkan (HDFS) telah dibangunkan untuk membolehkan syarikat lebih mudah menguruskan jumlah besar data dalam cara yang mudah dan pragmatik. Hadoop membolehkan masalah besar dihuraikan menjadi unsur yang lebih kecil supaya analisis dapat dilakukan dengan cepat dan kos efektif. HDFS adalah pendekatan yang serba boleh, berdaya tahan, berkumpulan untuk menguruskan fail dalam persekitaran data yang besar.
HDFS bukan destinasi terakhir untuk fail. Sebaliknya ia adalah "perkhidmatan" data yang menawarkan satu set keupayaan yang unik yang diperlukan apabila jumlah dan halaju data yang tinggi.
MapReduce adalah rangka kerja perisian yang membolehkan pemaju menulis program yang dapat memproses sejumlah besar data tak berstruktur selari dalam kumpulan pemproses yang diedarkan. MapReduce telah direka oleh Google sebagai satu cara untuk melaksanakan satu set fungsi dengan berkesan terhadap sejumlah besar data dalam mod batch.
Komponen "peta" mengedarkan masalah pengaturcaraan atau tugas dalam sebilangan besar sistem dan mengendalikan penempatan tugas dengan cara mengimbangi beban dan menguruskan pemulihan daripada kegagalan. Selepas pengiraan diedarkan selesai, fungsi lain yang dipanggil "mengurangkan" mengumpulkan semua elemen kembali bersama untuk memberikan hasil. Satu contoh penggunaan MapReduce adalah untuk menentukan berapa banyak halaman buku ditulis dalam setiap 50 bahasa yang berbeza.