Mengukur Persamaan antara Vectors for Learning Machine - dummies

Video: Belajar Fisika Dasar: Besar dan Arah Vektor (seri 015) 2024

Anda boleh dengan mudah membandingkan contoh dari data anda menggunakan pengiraan jika anda memikirkan masing-masing sebagai vektor. Maklumat berikut menerangkan cara mengukur kesamaan antara vektor untuk melaksanakan tugas seperti mengira jarak antara vektor untuk tujuan pembelajaran.

Memahami persamaan

Dalam bentuk vektor, anda boleh melihat setiap pemboleh ubah dalam contoh anda sebagai satu siri koordinat, dengan setiap satu menunjuk ke kedudukan dalam dimensi ruang yang berbeza. Sekiranya vektor mempunyai dua elemen, iaitu, ia mempunyai hanya dua pemboleh ubah, bekerja dengannya sama seperti menyemak kedudukan item pada peta dengan menggunakan nombor pertama untuk kedudukan di paksi Timur-Barat dan yang kedua di Utara- Paksi selatan.

Contoh nilai merancang sebagai mata pada carta.

Sebagai contoh, nombor di antara kurungan (1, 2) (3, 2), dan (3, 3) adalah semua contoh mata. Setiap contoh ialah senarai nilai yang disusun (dipanggil tupel) yang boleh dengan mudah ditempatkan dan dicetak pada peta menggunakan nilai pertama bagi senarai x (paksi mendatar) dan kedua untuk y (paksi menegak). Hasilnya adalah scatterplot.

Jika data anda ditetapkan, dalam bentuk matriks, mempunyai banyak ciri numerik (lajur), idealnya bilangan ciri mewakili dimensi ruang data, sedangkan baris (contoh) mewakili setiap titik, yang secara matematik adalah vektor. Apabila vektor anda mempunyai lebih daripada dua unsur, penglihatan menjadi menyusahkan kerana mewakili dimensi di atas ketiga tidak mudah (selepas semua, kita hidup dalam dunia tiga dimensi).

Walau bagaimanapun, anda boleh berusaha untuk menyampaikan lebih banyak dimensi oleh beberapa ahli, seperti menggunakan saiz, bentuk, atau warna untuk dimensi lain. Jelas sekali, itu bukan tugas yang mudah, dan kerap kali hasilnya tidak begitu intuitif. Walau bagaimanapun, anda boleh memahami idea tentang tempat di ruang data anda dengan mencetak banyak grafik secara sistematik sambil mempertimbangkan dimensi dua demi dua. Plot sebegini dipanggil matriks scatterplots.

Jangan risau tentang multidimensi. Anda memperluaskan peraturan yang anda pelajari dalam dua atau tiga dimensi ke pelbagai dimensi, jadi jika peraturan berfungsi dalam ruang bidimional, ia juga berfungsi dalam pelbagai. Oleh itu semua contoh pertama merujuk kepada contoh bidimensi.

Jarak pengkomputeran untuk pembelajaran

Algoritma boleh belajar dengan menggunakan vektor bilangan yang menggunakan pengukuran jarak. Selalunya ruang yang diwakili oleh vektor anda adalah satu metrik yang merupakan ruang yang jaraknya menghormati keadaan tertentu tertentu:

Tiada jarak negatif yang ada, dan jarak anda adalah sifar sahaja apabila titik permulaan dan titik akhir bertepatan (disebut nonnegativity).
Jarak yang sama akan berlaku dari satu titik ke yang lain dan sebaliknya (dipanggil simetri).
Jarak antara titik permulaan dan titik akhir selalu lebih besar daripada, atau lebih buruk sama seperti, jarak dari awal ke titik ketiga dan dari sana ke tahap terakhir (disebut ketaksamaan segitiga < - yang bermaksud bahawa tiada jalan pintas). Jarak yang mengukur ruang metrik ialah jarak Euclidean, jarak Manhattan, dan jarak Chebyshev. Ini adalah semua jarak yang boleh digunakan untuk vektor angka.

Jarak Euclidean

Yang paling biasa adalah jarak Euclidean, juga digambarkan sebagai norma dua vektor dua (baca perbincangan ini tentang norma l1, l2, dan linfinity). Dalam satah bidimensional, reflektif jarak Euclidean sebagai garis lurus yang menghubungkan dua titik, dan anda mengira ia sebagai punca kuasa kuadrat bagi perbezaan kuadrat antara elemen dua vektor. Dalam plot sebelumnya, jarak Euclidean antara titik (1, 2) dan (3, 3) dapat dihitung dalam R sebagai sqrt ((1-3) ^ 2 + (2-3) ^ 2), yang menghasilkan jarak kira-kira 2. 236.

jarak Manhattan

Satu lagi ukuran yang berguna adalah jarak Manhattan (juga digambarkan sebagai norma l1 dua vektor). Anda mengira jarak Manhattan dengan menjumlahkan nilai mutlak perbezaan antara unsur vektor. Jika jarak Euclidean menandakan laluan terpendek, jarak Manhattan menandakan laluan terpanjang, menyerupai arah teksi yang bergerak di bandar. Contohnya jarak Manhattan antara mata (1, 2) dan (3, 3) adalah abs (1-3) dan abs (2-3), yang menyebabkan 3.

jarak Chebyshev

Jarak Chebyshev atau metrik maksimum mengambil maksimum perbezaan mutlak antara unsur-vektor vektor. Ia adalah ukuran jarak yang dapat mewakili bagaimana seorang raja bergerak dalam permainan catur atau, dalam logistik gudang, operasi yang diperlukan oleh kren overhead untuk memindahkan peti dari satu tempat ke tempat lain.