Asal dan Reka bentuk Hadoop - patung - Kewangan Peribadi 2024

Video: Technology Stacks - Computer Science for Business Leaders 2016 2024

Jadi apa sebenarnya perkara ini dengan nama lucu - Hadoop? Di terasnya, Hadoop adalah kerangka untuk menyimpan data pada kluster besar < komoditi perkakasan - perkakasan komputer setiap hari yang mampu dimiliki dan mudah didapati - dan menjalankan aplikasi terhadap data tersebut. Cluster adalah sekumpulan komputer yang saling terhubung (dikenali sebagai nod )

Menggunakan rangkaian sumber pengiraan yang mampu dimiliki untuk memperoleh pandangan perniagaan adalah cadangan nilai utama Hadoop.

Seperti namanya, Hadoop, jangan cari apa-apa yang penting di sana, itu hanyalah nama yang diberikan oleh anak lelaki Doug Cutting kepada gajah yang disumbatnya. (Doug Cutting, tentu saja, pencipta bersama Hadoop.) Nama itu unik dan mudah diingat - ciri-ciri yang membuatnya menjadi pilihan.

Hadoop terdiri daripada dua komponen utama: rangka kerja pemprosesan diedarkan bernama MapReduce (yang kini disokong oleh komponen yang dipanggil YARN) dan sistem fail yang diedarkan yang dikenali sebagai sistem file diedarkan Hadoop, atau HDFS.

Aplikasi yang berjalan di Hadoop mendapat kerja dibahagi di antara nod (mesin) dalam cluster, dan HDFS menyimpan data yang akan diproses. Kelompok Hadoop boleh menjangkau beribu-ribu mesin, di mana HDFS menyimpan data, dan MapReduce kerja melakukan pemprosesan mereka berhampiran data, yang membuat I / O rendah kos. MapReduce sangat fleksibel, dan membolehkan pembangunan pelbagai aplikasi.

Seperti yang anda mungkin mengagumi, cluster Hadoop adalah satu bentuk kluster

jenis kluster yang digunakan terutamanya untuk tujuan pengkomputeran. Dalam kumpulan komputasi, banyak komputer ( mengira nod ) boleh berkongsi beban kerja pengiraan dan mengambil kesempatan daripada jalur lebar agregat yang sangat besar merentasi kluster. Kelompok Hadoop biasanya terdiri daripada beberapa nod induk, yang mengawal sistem penyimpanan dan pemprosesan di Hadoop, dan banyak nod hamba, yang menyimpan semua data kluster dan juga di mana data akan diproses.