Video: Data Blending in Tableau | Data Blending vs Data Joining in Tableau | Tableau Training | Edureka 2024
Analisis statistik jauh daripada menjadi anak baru di blok, dan ia sudah tentu berita lama bahawa ia bergantung pada memproses sejumlah besar data untuk mendapatkan wawasan baru. Walau bagaimanapun, jumlah data yang diproses secara tradisional oleh sistem ini berada di antara 10 dan 100 (atau beratus-ratus) gigabait - bukan julat terabyte atau petabyte yang dilihat hari ini, dengan kata lain.
Dan ia sering memerlukan mesin simetri berbilang pemprosesan (SMP) mahal dengan memori sebanyak mungkin untuk memegang data yang dianalisis. Itu kerana kebanyakan algoritma yang digunakan oleh pendekatan analisis agak "mengira intensif" dan direka untuk berjalan dalam ingatan - kerana mereka memerlukan berbilang, dan sering kerap, melalui data.
Menghadapi perkakasan mahal dan komitmen yang cukup tinggi dari segi masa dan RAM, orang cuba membuat beban kerja analitik sedikit lebih masuk akal dengan menganalisis hanya satu persampelan data. Idea ini adalah untuk memastikan pegunungan data pegangan dengan selamat disimpan dalam gudang data, hanya menggerakkan pensampelan statistik yang signifikan dari data dari repositori mereka ke enjin statistik.
Walaupun pensampelan adalah idea yang bagus dalam teori, dalam praktiknya ini sering menjadi taktik yang tidak boleh dipercayai. Mencari persampelan penting secara statistik boleh mencabar untuk set data yang jarang dan / atau rumit, yang agak biasa. Ini membawa kepada sampingan yang tidak dihakimi, yang boleh memperkenalkan titik luar dan titik data anomali, dan boleh pula, bias keputusan analisis anda.