Rumah Kewangan Peribadi Menggunakan Cross-Validation dalam Pembelajaran Mesin - dummies

Menggunakan Cross-Validation dalam Pembelajaran Mesin - dummies

Video: [Panda Learning #2] K-Fold Cross Validation Part 1 Bahasa Indonesia 2024

Video: [Panda Learning #2] K-Fold Cross Validation Part 1 Bahasa Indonesia 2024
Anonim

Kadang-kadang, pembelajaran mesin memerlukan bahawa anda perlu menggunakan pengesahan silang. Masalah yang ketara dengan pemecahan rangkaian / ujian adalah bahawa anda sebenarnya memperkenalkan kecenderungan ke dalam ujian anda kerana anda mengurangkan saiz data latihan sampel anda. Apabila anda memecah data anda, anda sebenarnya mungkin menyimpan beberapa contoh berguna daripada latihan. Selain itu, kadangkala data anda begitu rumit sehingga ujian yang ditetapkan, walaupun kelihatannya mirip dengan set latihan, tidak begitu sama kerana gabungan nilai-nilai yang berbeza (yang tipikal dari dataset yang sangat dimensi).

Isu ini menambah ketidakstabilan keputusan persampelan apabila anda tidak mempunyai banyak contoh. Risiko membelah data anda dengan cara yang tidak baik juga menjelaskan mengapa pecahan kereta / ujian bukanlah penyelesaian yang disukai oleh pengamal pembelajaran mesin apabila anda perlu menilai dan menyesuaikan penyelesaian pembelajaran mesin.

Cross-validation berdasarkan k-folds sebenarnya jawapannya. Ia bergantung kepada pemisahan rawak, tetapi kali ini ia memisahkan data anda ke dalam bilangan k liputan (bahagian data anda) yang sama saiznya. Kemudian, setiap kali lipat diadakan sebagai ujian dan yang lain digunakan untuk latihan. Setiap lelaran menggunakan lipat yang berbeza sebagai ujian, yang menghasilkan anggaran ralat.

Malah, setelah menyelesaikan ujian pada satu kali lipat dengan yang lain yang digunakan sebagai latihan, lipat berturut-turut, berbeza dari yang sebelumnya, dilaksanakan dan prosedur diulang untuk menghasilkan perkiraan ralat lain. Proses itu berterusan sehingga semua k-lipatan digunakan sekali sebagai ujian dan anda mempunyai bilangan anggaran k yang anda boleh mengira menjadi anggaran ralat min (skor silang pengesahan) dan kesalahan standard anggaran.

Perwakilan grafik bagaimana cara kerja pengesahan silang.

Prosedur ini memberikan kelebihan berikut:

  • Ia berfungsi dengan baik tanpa mengira bilangan contoh, kerana dengan meningkatkan jumlah lipatan yang digunakan, anda sebenarnya meningkatkan saiz set latihan anda (lebih besar k, set latihan yang lebih besar, mengurangkan berat sebelah) dan mengurangkan saiz set ujian.
  • Perbezaan dalam pengedaran lipatan individu tidak begitu penting. Apabila lipatan mempunyai taburan yang berbeza berbanding yang lain, ia hanya digunakan sekali sebagai set ujian dan dicampur dengan orang lain sebagai sebahagian daripada latihan yang ditetapkan semasa ujian yang tinggal.
  • Anda sebenarnya menguji semua pemerhatian, jadi anda menguji hipotesis mesin anda sepenuhnya menggunakan semua data yang anda miliki.
  • Dengan mengambil purata keputusan, anda boleh mengharapkan prestasi ramalan. Di samping itu, sisihan piawai hasil dapat memberitahu anda berapa banyak variasi yang boleh anda harapkan dalam data sebenar-tanpa sampel. Variasi yang lebih tinggi dalam persembahan salib yang disahkan memberitahu anda tentang data yang sangat beragam yang algorithm tidak mampu menangkap dengan betul.

Menggunakan cross-validation k-fold sentiasa pilihan optimum melainkan data yang anda gunakan mempunyai beberapa jenis pesanan yang penting. Sebagai contoh, ia boleh melibatkan siri masa, seperti jualan. Dalam hal ini, anda tidak boleh menggunakan kaedah pensampelan rawak tetapi bergantung kepada pameran kereta / ujian berdasarkan urutan asal supaya pesanan dipelihara dan anda boleh menguji contoh terakhir siri yang diperintahkan.

Menggunakan Cross-Validation dalam Pembelajaran Mesin - dummies

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...