Mencari Pengkelasan oleh k-terdekat Jiran Pembelajaran Mesin - monyet

Video: Unkind Ladies | 착하지 않은 여자들 EP.4 [SUB : KOR, ENG, CHN, MLY, VIE, IND] 2025

Tidak kira jika masalah pembelajaran mesin adalah meneka nombor atau kelas, idea di sebalik strategi pembelajaran algoritma K-terdekat (kNN) sentiasa sama. Algoritma ini mendapati pengamatan yang paling serupa dengan yang anda perlu meramal dan dari mana anda memperoleh gerak hati yang baik tentang jawapan yang mungkin dengan purata nilai jiran, atau dengan memilih kelas jawapan yang kerap di kalangan mereka.

Strategi pembelajaran dalam kNN adalah seperti menghafal. Sama seperti mengingati apa jawapannya apabila soalan itu mempunyai ciri-ciri tertentu (berdasarkan keadaan atau contoh yang lepas) daripada benar-benar mengetahui jawapannya, kerana anda memahami soalan dengan cara peraturan pengelasan tertentu. Dalam erti kata lain, kNN sering ditakrifkan sebagai algoritma malas kerana tiada pembelajaran sebenar dilakukan pada masa latihan, hanya rakaman data.

Menjadi algoritma malas menyiratkan bahawa kNN agak pantas dalam latihan tetapi sangat perlahan pada meramalkan. (Kebanyakan aktiviti carian dan pengiraan pada jiran dilakukan pada masa itu.) Ini juga menunjukkan bahawa algoritma ini cukup intensif memori kerana anda perlu menyimpan data anda yang ditetapkan dalam ingatan (yang bermaksud bahawa terdapat had untuk aplikasi yang mungkin apabila berurusan dengan data besar).

Sebaik-baiknya, kNN boleh membuat perbezaan apabila anda sedang mengurus klasifikasi dan anda mempunyai banyak label untuk menangani (contohnya, apabila ejen perisian menyiarkan teg pada rangkaian sosial atau ketika mencadangkan saran jualan). kNN boleh dengan mudah berurusan dengan beratus-ratus label, sedangkan algoritma pembelajaran lain perlu menentukan model yang berbeza untuk setiap label.

Biasanya, kNN berfungsi dengan jiran pemerhatian selepas menggunakan ukuran jarak seperti Euclidean (pilihan paling umum) atau Manhattan (berfungsi lebih baik apabila anda mempunyai banyak ciri yang berlebihan dalam data anda). Tiada peraturan mutlak yang ada mengenai ukuran jarak yang terbaik untuk digunakan. Ia sangat bergantung kepada pelaksanaan yang anda ada. Anda juga perlu menguji setiap jarak sebagai hipotesis yang berbeza dan mengesahkan dengan silang pengesahan mengenai langkah yang lebih baik dengan masalah yang anda selesaikan.