Rumah Kewangan Peribadi Menggunakan Cross-Validation dalam Pembelajaran Mesin - dummies

Menggunakan Cross-Validation dalam Pembelajaran Mesin - dummies

Video: [Panda Learning #2] K-Fold Cross Validation Part 1 Bahasa Indonesia 2024

Video: [Panda Learning #2] K-Fold Cross Validation Part 1 Bahasa Indonesia 2024
Anonim

Kadang-kadang, pembelajaran mesin memerlukan bahawa anda perlu menggunakan pengesahan silang. Masalah yang ketara dengan pemecahan rangkaian / ujian adalah bahawa anda sebenarnya memperkenalkan kecenderungan ke dalam ujian anda kerana anda mengurangkan saiz data latihan sampel anda. Apabila anda memecah data anda, anda sebenarnya mungkin menyimpan beberapa contoh berguna daripada latihan. Selain itu, kadangkala data anda begitu rumit sehingga ujian yang ditetapkan, walaupun kelihatannya mirip dengan set latihan, tidak begitu sama kerana gabungan nilai-nilai yang berbeza (yang tipikal dari dataset yang sangat dimensi).

Isu ini menambah ketidakstabilan keputusan persampelan apabila anda tidak mempunyai banyak contoh. Risiko membelah data anda dengan cara yang tidak baik juga menjelaskan mengapa pecahan kereta / ujian bukanlah penyelesaian yang disukai oleh pengamal pembelajaran mesin apabila anda perlu menilai dan menyesuaikan penyelesaian pembelajaran mesin.

Cross-validation berdasarkan k-folds sebenarnya jawapannya. Ia bergantung kepada pemisahan rawak, tetapi kali ini ia memisahkan data anda ke dalam bilangan k liputan (bahagian data anda) yang sama saiznya. Kemudian, setiap kali lipat diadakan sebagai ujian dan yang lain digunakan untuk latihan. Setiap lelaran menggunakan lipat yang berbeza sebagai ujian, yang menghasilkan anggaran ralat.

Malah, setelah menyelesaikan ujian pada satu kali lipat dengan yang lain yang digunakan sebagai latihan, lipat berturut-turut, berbeza dari yang sebelumnya, dilaksanakan dan prosedur diulang untuk menghasilkan perkiraan ralat lain. Proses itu berterusan sehingga semua k-lipatan digunakan sekali sebagai ujian dan anda mempunyai bilangan anggaran k yang anda boleh mengira menjadi anggaran ralat min (skor silang pengesahan) dan kesalahan standard anggaran.

Perwakilan grafik bagaimana cara kerja pengesahan silang.

Prosedur ini memberikan kelebihan berikut:

  • Ia berfungsi dengan baik tanpa mengira bilangan contoh, kerana dengan meningkatkan jumlah lipatan yang digunakan, anda sebenarnya meningkatkan saiz set latihan anda (lebih besar k, set latihan yang lebih besar, mengurangkan berat sebelah) dan mengurangkan saiz set ujian.
  • Perbezaan dalam pengedaran lipatan individu tidak begitu penting. Apabila lipatan mempunyai taburan yang berbeza berbanding yang lain, ia hanya digunakan sekali sebagai set ujian dan dicampur dengan orang lain sebagai sebahagian daripada latihan yang ditetapkan semasa ujian yang tinggal.
  • Anda sebenarnya menguji semua pemerhatian, jadi anda menguji hipotesis mesin anda sepenuhnya menggunakan semua data yang anda miliki.
  • Dengan mengambil purata keputusan, anda boleh mengharapkan prestasi ramalan. Di samping itu, sisihan piawai hasil dapat memberitahu anda berapa banyak variasi yang boleh anda harapkan dalam data sebenar-tanpa sampel. Variasi yang lebih tinggi dalam persembahan salib yang disahkan memberitahu anda tentang data yang sangat beragam yang algorithm tidak mampu menangkap dengan betul.

Menggunakan cross-validation k-fold sentiasa pilihan optimum melainkan data yang anda gunakan mempunyai beberapa jenis pesanan yang penting. Sebagai contoh, ia boleh melibatkan siri masa, seperti jualan. Dalam hal ini, anda tidak boleh menggunakan kaedah pensampelan rawak tetapi bergantung kepada pameran kereta / ujian berdasarkan urutan asal supaya pesanan dipelihara dan anda boleh menguji contoh terakhir siri yang diperintahkan.

Menggunakan Cross-Validation dalam Pembelajaran Mesin - dummies

Pilihan Editor

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Sifat kotak, anda boleh meletakkan objek gaya di mana saja di dalam tetingkap penyemak imbas, objek kedudukan berbanding dengan objek lain pada halaman, dan gunakan peraturan gaya padding dan margin kotak secara selektif untuk mana-mana atau semua empat objek gaya sebagai kiri dan bawah atau atas, kiri, dan ...

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Kadar adalah salah satu istilah pemasaran yang paling mengelirukan dari e-mel. Ia sebenarnya mengukur bilangan interaksi tertentu dengan pelayan e-mel selepas e-mel dihantar dinyatakan sebagai peratusan jumlah tidak melantun. E-mel anda tidak dikira sebagai terbuka sehingga salah satu daripada interaksi berikut berlaku: Penerima membolehkan imej ...

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress adalah perisian bebas sumber terbuka yang dapat anda unduh, memasang, dan gunakan untuk membina komuniti sosial anda sendiri di laman web anda yang berkuasa WordPress. Untuk melakukan ini, anda memerlukan pemahaman asas tentang ciri dan terminologi BuddyPress. Mencipta komuniti sosial anda sendiri mudah dilakukan dengan BuddyPress, tetapi jika anda memerlukan bantuan, anda boleh bertanya ...

Pilihan Editor

Menikmati Magic of Mindful Movies - dummies

Menikmati Magic of Mindful Movies - dummies

Tidak ada cara yang lebih baik untuk mengembangkan pengalaman pemikiran anda melampaui batas fizikal United Kingdom dan mengembangkan wawasan anda daripada menikmati filem yang cenderung berfikiran. Filem untuk kanak-kanak: Kung Fu Panda (Mark Osborne, John Stevenson, 2008). Filem animasi moden ini sering merujuk kepada kuasa yang datang dari ...

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Kadang-kadang, hanya apa yang anda perlukan untuk pengalaman pemikiran yang mendalam. Mendengarkan CD berkualiti boleh memindahkan anda ke luar United Kingdom dan benar-benar membuka fikiran anda kepada idea-idea. CD berikut disyorkan: Meditasi Berpandu: Untuk Ketenangan, Kesedaran dan Cinta oleh Bodhipaksa. A ...

Freemason yang terkenal - orang-orang buatan

Freemason yang terkenal - orang-orang buatan

Yang hebat dan paling cemerlang di dunia atau Freemason. Kumpulan-kumpulan ini memberikan anda jauh dari senarai komprehensif - mereka hanya contoh: Bapa pengasas: Freemason yang paling terkenal di Amerika, George Washington telah dimulakan pada tahun 1752, di Fredericksburg, Virginia. Bapa pengasas lain yang juga Mason termasuk Benjamin Franklin, Marquis de ...

Pilihan Editor

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Subjek tertumpukan tajam dan latar belakang yang lembut dan kabur. Ikuti langkah-langkah ini untuk mengambil potret seperti Canon Rebel Digital anda.

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

DSLR yang dijual hari ini, kamera Canon EOS Rebel T7i / 800D menawarkan Live View, yang menyahdayakan pemidang tilik dan sebaliknya memaparkan pratonton langsung subjek anda pada monitor kamera. Senarai berikut menerangkan asas penggunaan Live View: Switch to Live View for photography: Tekan butang Live View untuk beralih dari ...