Video: 700-an Pendekar SH Terate Bela 3 Guru Dituntut 14 Tahun Penjara 2024
Di dunia yang sempurna, anda boleh melakukan ujian ke atas data yang tidak pernah dipelajari oleh algoritma mesin anda sebelum ini. Walau bagaimanapun, menunggu data segar tidak semestinya layak dari segi masa dan kos.
Sebagai ubat mudah pertama, anda boleh secara rawak memisahkan data anda ke dalam latihan dan set ujian. Perpecahan biasa adalah dari 25 hingga 30 peratus untuk ujian dan baki 75 hingga 70 peratus untuk latihan. Anda memecah data anda yang terdiri daripada respons dan ciri anda pada masa yang sama, menjaga korespondensi antara setiap tindak balas dan ciri-cirinya.
Ubat kedua berlaku apabila anda perlu menyesuaikan algoritma pembelajaran anda. Dalam kes ini, data perpecahan ujian bukan amalan yang baik kerana ia menyebabkan satu lagi jenis overfitting yang dipanggil pengintipan. Untuk mengatasi pengintipan, anda memerlukan pecahan ketiga, yang dipanggil set pengesahan. Pemisahan yang dicadangkan adalah untuk contoh anda dibahagikan kepada ketiga: 70 peratus untuk latihan, 20 peratus untuk pengesahan, dan 10 peratus untuk ujian.
Anda harus melakukan split secara rawak, iaitu tanpa mengira pesanan awal data. Jika tidak, ujian anda tidak boleh dipercayai, kerana pesanan boleh menyebabkan overestimation (apabila ada pesanan yang bermakna) atau meremehkan (apabila pengedaran berbeza terlalu banyak). Sebagai penyelesaian, anda mesti memastikan bahawa pengedaran set ujian tidak begitu berbeza dari pengedaran latihan, dan urutan berurutan berlaku dalam data perpecahan.
Sebagai contoh, periksa sama ada nombor pengenalan, apabila tersedia, berterusan dalam set anda. Kadang-kala, walaupun anda secara tegas mematuhi pensampelan rawak, anda tidak boleh selalu memperoleh pengedaran serupa di antara set, terutama apabila bilangan contoh anda kecil.
Apabila jumlah contoh n anda tinggi, seperti n> 10, 000, anda boleh dengan mudah yakin membuat kumpulan dataset secara rawak. Apabila dataset lebih kecil, membandingkan statistik asas seperti min, mod, median, dan varians merentas respon dan ciri dalam latihan dan set ujian akan membantu anda memahami sama ada set ujian tidak sesuai. Apabila anda tidak pasti perpecahan itu adalah betul, hanya mengira semula yang baru.