Video: Tutorial Penggunaan Kalkulator Casio Dalam Regresi Linear Sederhana - INVISIO STATISTIKA UII 2024
Kedua-dua kluster dan klasifikasi adalah berdasarkan pengiraan kesamaan atau perbezaan antara dua titik data. Jika dataset anda numerik - terdiri daripada hanya medan bilangan dan nilai-nilai - dan boleh digambarkan pada plot n -dimensional, maka terdapat pelbagai metrik geometrik yang dapat anda gunakan untuk skala multidimensi anda data.
Satu plot n-dimensi adalah carta plot berselerak multidimensi yang boleh anda gunakan untuk merancang bilangan dimensi data n .
Sesetengah metrik geometrik popular yang digunakan untuk mengira jarak antara titik data termasuk metrik jarak Euclidean, Manhattan, atau Minkowski. Metrik ini hanya fungsi geometri yang berbeza yang berguna untuk memodelkan jarak antara mata. Metrik Euclidean adalah ukuran jarak antara mata yang diplot pada satah Euclidean.
The Manhattan metric adalah ukuran jarak antara titik di mana jarak dikira sebagai jumlah nilai mutlak perbezaan antara koordinat Cartesian dua titik. Metrik jarak Minkowski adalah penyebaran metrik jarak jauh Euclidean dan Manhattan. Selalunya, metrik ini boleh digunakan-secara bertukar ganti.
Jika data anda adalah angka tetapi tidak dapat dipapar (seperti lengkung dan bukan mata), anda boleh menjana skor persamaan berdasarkan perbezaan antara data, dan bukan nilai sebenar data itu sendiri.
Terakhir, untuk data bukan angka, anda boleh menggunakan metrik seperti metrik Jarak Jaip, yang merupakan indeks yang membandingkan jumlah ciri yang mempunyai dua titik data yang sama. Sebagai contoh, untuk menggambarkan jarak Jaccard, fikirkan dua tali teks berikut: Saint Louis de Ha-ha, Quebec dan St-Louis de Ha! Ha!, QC.
Apakah ciri-ciri yang mempunyai rentetan teks ini sama? Dan apakah ciri-ciri yang berbeza di antara mereka? Metrik Jaccard menghasilkan nilai indeks berangka yang mengukur kesamaan antara rentetan teks.