Mengelakkan Perangkap Bias dan Perangkap Kebocoran dalam Pembelajaran Mesin - patung

Pendekatan pengesahan untuk pembelajaran mesin adalah pemeriksaan ke atas ubat yang mungkin untuk mengira kecenderungan. Bias dalam pengambilan sampel boleh terjadi pada data anda sebelum pembelajaran mesin dimasukkan ke dalam tindakan, dan ia menyebabkan variasi yang tinggi dari anggaran berikut. Di samping itu, anda harus sedar perangkap kebocoran yang boleh berlaku apabila beberapa maklumat dari sampel sampingan dihantar ke data dalam sampel. Isu ini boleh timbul apabila anda menyediakan data atau selepas model pembelajaran mesin anda siap dan berfungsi.

Ubat yang dipanggil ensembling peramal, berfungsi dengan sempurna apabila sampel latihan anda tidak sepenuhnya diputarbelitkan dan pengedarannya adalah berbeza daripada sampel yang tidak dapat dielakkan, tetapi seperti mana semua kelas anda hadir tetapi tidak dalam bahagian yang betul (sebagai contoh). Dalam kes sedemikian, keputusan anda dipengaruhi oleh beberapa anggaran tertentu yang anda mungkin dapat menstabilkan dalam salah satu daripada beberapa cara: dengan resampling, seperti dalam bootstrapping; oleh subsampling (mengambil contoh sampel); atau dengan menggunakan sampel yang lebih kecil (yang meningkatkan berat sebelah).

Untuk memahami bagaimana kerja-kerja penyerapan dengan berkesan, gambarkan imej mata lembu. Jika sampel anda menjejaskan ramalan, beberapa ramalan akan tepat dan yang lain akan salah secara rawak. Jika anda menukar sampel anda, ramalan yang betul akan terus menjadi betul, tetapi yang salah akan bermula menjadi variasi antara nilai yang berbeza. Sesetengah nilai akan menjadi ramalan tepat yang anda cari; yang lain hanya akan berayun di sekitar yang betul.

Dengan membandingkan keputusan, anda boleh meneka bahawa apa yang sedang berulang adalah jawapan yang betul. Anda juga boleh mengambil purata jawapan dan meneka bahawa jawapan yang betul harus berada di tengah-tengah nilai-nilai. Dengan permainan bull's-eye, anda boleh memvisualisasikan gambar-gambar permainan yang berlainan: Jika masalahnya adalah varians, akhirnya anda akan meneka bahawa target berada di kawasan yang paling sering dilanda atau sekurang-kurangnya di tengah semua tembakan.

Dalam kebanyakan kes, pendekatan sedemikian terbukti betul dan meningkatkan ramalan pembelajaran mesin anda. Apabila masalah anda adalah berat sebelah dan bukan varians, dengan menggunakan ensembling benar-benar tidak menyebabkan bahaya melainkan jika anda menyusun sampel terlalu sedikit. Peraturan praktikal yang baik untuk subsampling adalah untuk mengambil sampel dari 70 hingga 90 peratus berbanding data in-sample asal. Sekiranya anda ingin membuat kerja yang bersesuaian, anda perlu melakukan perkara-perkara berikut:

Berikan banyak kali melalui data dan model anda (dari sekurang-kurangnya tiga lelaran untuk beratus-ratus kali).
Setiap kali anda melelaras, subsample (atau lain bootstrap) data dalam sampel anda.
Gunakan pembelajaran mesin untuk model pada data yang dilampirkan semula, dan ramalkan hasil daripada sampel. Simpan hasil tersebut untuk kegunaan kemudian.
Pada akhir lelaran, untuk setiap kes contoh yang anda mahu ramalkan, ambil semua ramalan dan rata-rata mereka jika anda melakukan regresi. Ambil kelas yang paling kerap jika anda melakukan klasifikasi.

Perangkap kebocoran boleh mengejutkan anda kerana mereka boleh membuktikan menjadi sumber masalah yang tidak diketahui dan tidak dapat dikesan dengan proses pembelajaran mesin anda. Masalahnya adalah mengintip, atau mengamati terlalu banyak sampel data dan menyesuaikannya dengan terlalu kerap. Secara ringkasnya, pengintipan adalah sejenis kelebihan - dan bukan hanya pada data latihan tetapi juga pada data ujian, menjadikan masalah yang terlalu sukar untuk dikesan sehingga Anda mendapatkan data segar.

Biasanya anda menyedari bahawa masalah ini sedang mengintip apabila anda sudah menggunakan algoritma pembelajaran mesin untuk perniagaan anda atau untuk perkhidmatan untuk orang ramai, membuat masalah menjadi isu yang semua orang dapat melihat.

Anda boleh mengelakkan pengintipan dalam dua cara. Pertama, apabila beroperasi pada data, berhati-hati untuk memisahkan latihan, pengesahan, dan data ujian dengan kemas. Juga, ketika memproses, tidak pernah mengambil sebarang maklumat dari pengesahan atau ujian, bahkan contoh yang paling sederhana dan tidak bersalah. Lebih buruk lagi adalah untuk menggunakan transformasi yang kompleks menggunakan semua data.

Dalam kewangan, misalnya, diketahui bahawa pengiraan min dan penyimpangan piawai (yang sebenarnya dapat memberitahu anda banyak mengenai keadaan pasaran dan risiko) dari semua data latihan dan pengujian dapat membocorkan maklumat berharga tentang model anda. Apabila kebocoran berlaku, algoritma pembelajaran mesin melakukan ramalan pada set ujian dan bukannya data luar sampel dari pasaran, yang bermaksud bahawa mereka tidak berfungsi sama sekali, sehingga menyebabkan kehilangan wang.

Periksa prestasi contoh-contoh sampingan anda. Sebenarnya, anda boleh membawa balik beberapa maklumat dari pengintipan anda pada keputusan ujian untuk membantu anda menentukan parameter tertentu lebih baik daripada yang lain, atau membawa anda memilih satu algoritma pembelajaran mesin dan bukannya satu lagi. Untuk setiap model atau parameter, gunakan pilihan berdasarkan hasil silang balas atau dari sampel pengesahan. Jangan sekali-kali jatuh untuk mengambil gambar dari data sampingan anda atau anda akan menyesal kemudian.