Video: Big Data - "Dangerous (feat. Joywave)" [Official Music Video] 2024
Hanya mempunyai komputer yang lebih cepat tidak mencukupi untuk memastikan tahap prestasi yang tepat untuk mengendalikan data besar. Anda perlu dapat mengedarkan komponen perkhidmatan data besar anda ke serangkaian nod. Dalam pengkomputeran yang diedarkan, simpul adalah unsur yang terkandung dalam kumpulan sistem atau dalam rak.
A node biasanya termasuk CPU, memori, dan beberapa jenis cakera. Walau bagaimanapun, nod juga boleh menjadi CPU bilah dan memori yang bergantung pada simpanan berdekatan dalam rak.
Dalam persekitaran data yang besar, nod ini biasanya dikelompokkan bersama untuk menyediakan skala. Sebagai contoh, anda mungkin bermula dengan analisis data yang besar dan terus menambah lebih banyak sumber data. Untuk menampung pertumbuhan, sesebuah organisasi hanya menambahkan lebih banyak nod ke dalam kluster supaya dapat meningkatkan skala untuk menampung keperluan yang semakin meningkat.
Walau bagaimanapun, tidak cukup untuk hanya mengembangkan bilangan nod dalam kelompok. Sebaliknya, penting untuk dapat menghantar sebahagian daripada analisis data besar ke persekitaran fizikal yang berbeza. Di mana anda menghantar tugas-tugas ini dan bagaimana anda menguruskannya membuat perbezaan antara kejayaan dan kegagalan.
Dalam beberapa situasi yang rumit, anda mungkin mahu melaksanakan banyak algoritma yang berbeza selari, walaupun dalam kluster yang sama, untuk mencapai kelajuan analisis yang diperlukan. Mengapa anda menjalankan algoritma data yang berbeza selari dalam rak yang sama? Semakin dekat dengan pengagihan fungsi, semakin cepat mereka dapat melaksanakan.
Walaupun ada kemungkinan untuk mengedarkan analisis data besar merentasi rangkaian untuk mengambil kesempatan daripada kapasiti yang ada, anda mesti melakukan pengedaran jenis ini berdasarkan keperluan untuk prestasi. Dalam sesetengah keadaan, kelajuan pemprosesan mengambil kerusi belakang. Walau bagaimanapun, dalam situasi lain, mendapatkan keputusan cepat adalah keperluan. Dalam keadaan ini, anda ingin memastikan bahawa fungsi rangkaian berada berdekatan dengan satu sama lain.
Secara umum, persekitaran data yang besar harus dioptimumkan untuk jenis tugas analitik. Oleh itu, skalabilitas adalah lynchpin membuat data besar beroperasi dengan jayanya. Walaupun secara teorinya mungkin untuk mengendalikan persekitaran data yang besar dalam satu persekitaran yang besar, tidak praktikal.
Untuk memahami keperluan untuk skalabilitas dalam data besar, kita hanya perlu melihat skalabiliti awan dan memahami kedua-dua keperluan dan pendekatan. Seperti pengkomputeran awan, data besar memerlukan kemasukan rangkaian pantas dan kelompok perkakasan murah yang boleh digabungkan dalam rak untuk meningkatkan prestasi. Kelompok-kelompok ini disokong oleh automasi perisian yang membolehkan pengkomputeran dinamik dan pengimbangan beban.
Reka bentuk dan pelaksanaan PetaReduce adalah contoh terbaik bagaimana pengkomputeran diedarkan dapat membuat data besar dapat dilihat secara operasi dan terjangkau. Pada dasarnya, syarikat berada di salah satu titik perubahan yang unik dalam pengkomputeran di mana konsep teknologi berkumpul pada masa yang tepat untuk menyelesaikan masalah yang betul. Menggabungkan pengkomputeran teragih, sistem perkakasan yang lebih baik, dan penyelesaian praktikal seperti MapReduce dan Hadoop mengubah pengurusan data dengan cara yang mendalam.