Menggunakan Cross-Validation dalam Pembelajaran Mesin - dummies

Video: [Panda Learning #2] K-Fold Cross Validation Part 1 Bahasa Indonesia 2024

Kadang-kadang, pembelajaran mesin memerlukan bahawa anda perlu menggunakan pengesahan silang. Masalah yang ketara dengan pemecahan rangkaian / ujian adalah bahawa anda sebenarnya memperkenalkan kecenderungan ke dalam ujian anda kerana anda mengurangkan saiz data latihan sampel anda. Apabila anda memecah data anda, anda sebenarnya mungkin menyimpan beberapa contoh berguna daripada latihan. Selain itu, kadangkala data anda begitu rumit sehingga ujian yang ditetapkan, walaupun kelihatannya mirip dengan set latihan, tidak begitu sama kerana gabungan nilai-nilai yang berbeza (yang tipikal dari dataset yang sangat dimensi).

Isu ini menambah ketidakstabilan keputusan persampelan apabila anda tidak mempunyai banyak contoh. Risiko membelah data anda dengan cara yang tidak baik juga menjelaskan mengapa pecahan kereta / ujian bukanlah penyelesaian yang disukai oleh pengamal pembelajaran mesin apabila anda perlu menilai dan menyesuaikan penyelesaian pembelajaran mesin.

Cross-validation berdasarkan k-folds sebenarnya jawapannya. Ia bergantung kepada pemisahan rawak, tetapi kali ini ia memisahkan data anda ke dalam bilangan k liputan (bahagian data anda) yang sama saiznya. Kemudian, setiap kali lipat diadakan sebagai ujian dan yang lain digunakan untuk latihan. Setiap lelaran menggunakan lipat yang berbeza sebagai ujian, yang menghasilkan anggaran ralat.

Malah, setelah menyelesaikan ujian pada satu kali lipat dengan yang lain yang digunakan sebagai latihan, lipat berturut-turut, berbeza dari yang sebelumnya, dilaksanakan dan prosedur diulang untuk menghasilkan perkiraan ralat lain. Proses itu berterusan sehingga semua k-lipatan digunakan sekali sebagai ujian dan anda mempunyai bilangan anggaran k yang anda boleh mengira menjadi anggaran ralat min (skor silang pengesahan) dan kesalahan standard anggaran.

Perwakilan grafik bagaimana cara kerja pengesahan silang.

Prosedur ini memberikan kelebihan berikut:

Ia berfungsi dengan baik tanpa mengira bilangan contoh, kerana dengan meningkatkan jumlah lipatan yang digunakan, anda sebenarnya meningkatkan saiz set latihan anda (lebih besar k, set latihan yang lebih besar, mengurangkan berat sebelah) dan mengurangkan saiz set ujian.
Perbezaan dalam pengedaran lipatan individu tidak begitu penting. Apabila lipatan mempunyai taburan yang berbeza berbanding yang lain, ia hanya digunakan sekali sebagai set ujian dan dicampur dengan orang lain sebagai sebahagian daripada latihan yang ditetapkan semasa ujian yang tinggal.
Anda sebenarnya menguji semua pemerhatian, jadi anda menguji hipotesis mesin anda sepenuhnya menggunakan semua data yang anda miliki.
Dengan mengambil purata keputusan, anda boleh mengharapkan prestasi ramalan. Di samping itu, sisihan piawai hasil dapat memberitahu anda berapa banyak variasi yang boleh anda harapkan dalam data sebenar-tanpa sampel. Variasi yang lebih tinggi dalam persembahan salib yang disahkan memberitahu anda tentang data yang sangat beragam yang algorithm tidak mampu menangkap dengan betul.

Menggunakan cross-validation k-fold sentiasa pilihan optimum melainkan data yang anda gunakan mempunyai beberapa jenis pesanan yang penting. Sebagai contoh, ia boleh melibatkan siri masa, seperti jualan. Dalam hal ini, anda tidak boleh menggunakan kaedah pensampelan rawak tetapi bergantung kepada pameran kereta / ujian berdasarkan urutan asal supaya pesanan dipelihara dan anda boleh menguji contoh terakhir siri yang diperintahkan.