Video: Cara Mengolah data di SPSS 2024
Alasan orang mencuba data mereka sebelum menjalankan analisis statistik dalam Hadoop adalah bahawa analisis semacam ini sering memerlukan sumber pengkomputeran yang signifikan. Ini bukan hanya mengenai jumlah data: terdapat lima faktor utama yang mempengaruhi skala analisis statistik:
-
Ini mudah, tetapi kita perlu menyebutnya: jumlah data yang akan anda lakukan analisis pasti pasti skala analisis.
-
Jumlah transformasi yang diperlukan pada set data sebelum memohon model statistik pastinya merupakan faktor.
-
Bilangan korelasi pasangan yang anda perlukan untuk mengira memainkan peranan.
-
Tahap kerumitan pengiraan statistik yang digunakan adalah faktor.
-
Jumlah model statistik yang digunakan untuk set data anda memainkan peranan penting.
Hadoop menawarkan jalan keluar dari dilema ini dengan menyediakan platform untuk melakukan perhitungan pemprosesan secara besar-besaran pada data dalam Hadoop.
Dengan berbuat demikian, ia dapat mengalirkan aliran data analitik; daripada memindahkan data dari repositorinya ke pelayan analisis, Hadoop menyampaikan analitik langsung ke data. Lebih khusus lagi, HDFS membolehkan anda menyimpan gunung data anda dan kemudian membawa pengiraan (dalam bentuk tugas MapReduce) kepada nod hamba.
Cabaran yang sering ditimbulkan oleh pemindahan dari sistem statistik pemprosesan simetri tradisional (SMP) kepada seni bina Hadoop adalah lokasi data. Pada platform SMP tradisional, pelbagai pemproses berkongsi akses kepada sumber memori utama tunggal.
Dalam Hadoop, HDFS mereplikasikan sekatan data merentas pelbagai nod dan mesin. Selain itu, algoritma statistik yang direka untuk memroses data dalam ingatan kini harus disesuaikan dengan dataset yang merangkumi pelbagai nod / rak dan tidak dapat diharapkan untuk dimuatkan dalam satu blok ingatan.