Video: Tutorial Cara Mudah dan Cepat Menentukan dan Menghitung Simpangan Baku Data Kelompok 2024
Apabila bekerja dengan statistik data yang besar, anda mengenal pasti penyebaran dataset dari pusat dengan beberapa langkah ringkasan yang berbeza: varians, standard sisihan, kuartil, pelbagai interquartile (IQR).
Perbezaan ialah sisihan kuadrat purata antara unsur-unsur dataset dan min. Untuk sampel data, varians dikira seperti ini:
di mana
-
x i adalah nilai satu elemen dalam sampel.
-
ialah min sampel.
-
n ialah saiz sampel.
Penyimpangan piawai adalah akar kuadrat bagi varians. Bagi kebanyakan aplikasi, sisihan piawai lebih mudah digunakan daripada varians sebagai ukuran penyebaran. Itu kerana varians diukur dalam unit kuasa dua , manakala sisihan piawai diukur dalam unit yang sama dengan data. Sebagai contoh, varians satu dataset yang terdiri daripada harga akan diukur dalam dolar kuasa dua, dan sisihan piawai akan diukur dalam dolar. Penyimpangan piawai adalah ukuran paling banyak digunakan dalam penyebaran dalam dataset.
Kuartil membahagikan set data kepada empat bahagian yang sama. Kuartil pertama (Q 1 ) membahagikan data ke 25 peratus terendah pemerhatian dan 75 peratus tertinggi (25 peratus daripada pemerhatian kurang daripada Q 1 <, dan 75 peratus lebih besar daripada Q 1 ). Kuartil kedua (Q 2 ) membahagikan data ke dalam 50 peratus terendah pemerhatian dan 50 peratus tertinggi. Kuartil ketiga (Q 3 ) membahagikan data ke 75 peratus terendah pemerhatian dan 25 peratus tertinggi. Julat interquartile (IQR) sama dengan perbezaan antara kuartil ketiga dan pertama:
Kuartet daripada dataset yang terbaik digambarkan dengan plot kotak
. Angka berikut menunjukkan petak kotak pengembalian harian ke ExxonMobil pada tahun 2013. Kotak kotak pengembalian harian ke stok ExxonMobil pada tahun 2013.
Kotak kotak menunjukkan beberapa statistik penting untuk pulangan ExxonMobil: > Pulangan minima ditunjukkan pada graf sebagai titik tunggal di bahagian bawah plot (petak kotak menunjukkanoutliers
sebagai titik individu). Q 1 ditunjukkan sebagai bahagian bawah kotak, Q 2 adalah garis hitam pepejal di tengah kotak, dan Q 3 kotak itu. Pulangan maksimum ditunjukkan sebagai satu titik di bahagian atas plot.