Rumah Kewangan Peribadi Mengelakkan Perangkap Bias dan Perangkap Kebocoran dalam Pembelajaran Mesin - patung

Mengelakkan Perangkap Bias dan Perangkap Kebocoran dalam Pembelajaran Mesin - patung

Video: Cara Mudah Mengganti Lampu Ultra Violet Atau Lampu UV Depo Air Mineral Isi Ulang 2024

Video: Cara Mudah Mengganti Lampu Ultra Violet Atau Lampu UV Depo Air Mineral Isi Ulang 2024
Anonim

Pendekatan pengesahan untuk pembelajaran mesin adalah pemeriksaan ke atas ubat yang mungkin untuk mengira kecenderungan. Bias dalam pengambilan sampel boleh terjadi pada data anda sebelum pembelajaran mesin dimasukkan ke dalam tindakan, dan ia menyebabkan variasi yang tinggi dari anggaran berikut. Di samping itu, anda harus sedar perangkap kebocoran yang boleh berlaku apabila beberapa maklumat dari sampel sampingan dihantar ke data dalam sampel. Isu ini boleh timbul apabila anda menyediakan data atau selepas model pembelajaran mesin anda siap dan berfungsi.

Ubat yang dipanggil ensembling peramal, berfungsi dengan sempurna apabila sampel latihan anda tidak sepenuhnya diputarbelitkan dan pengedarannya adalah berbeza daripada sampel yang tidak dapat dielakkan, tetapi seperti mana semua kelas anda hadir tetapi tidak dalam bahagian yang betul (sebagai contoh). Dalam kes sedemikian, keputusan anda dipengaruhi oleh beberapa anggaran tertentu yang anda mungkin dapat menstabilkan dalam salah satu daripada beberapa cara: dengan resampling, seperti dalam bootstrapping; oleh subsampling (mengambil contoh sampel); atau dengan menggunakan sampel yang lebih kecil (yang meningkatkan berat sebelah).

Untuk memahami bagaimana kerja-kerja penyerapan dengan berkesan, gambarkan imej mata lembu. Jika sampel anda menjejaskan ramalan, beberapa ramalan akan tepat dan yang lain akan salah secara rawak. Jika anda menukar sampel anda, ramalan yang betul akan terus menjadi betul, tetapi yang salah akan bermula menjadi variasi antara nilai yang berbeza. Sesetengah nilai akan menjadi ramalan tepat yang anda cari; yang lain hanya akan berayun di sekitar yang betul.

Dengan membandingkan keputusan, anda boleh meneka bahawa apa yang sedang berulang adalah jawapan yang betul. Anda juga boleh mengambil purata jawapan dan meneka bahawa jawapan yang betul harus berada di tengah-tengah nilai-nilai. Dengan permainan bull's-eye, anda boleh memvisualisasikan gambar-gambar permainan yang berlainan: Jika masalahnya adalah varians, akhirnya anda akan meneka bahawa target berada di kawasan yang paling sering dilanda atau sekurang-kurangnya di tengah semua tembakan.

Dalam kebanyakan kes, pendekatan sedemikian terbukti betul dan meningkatkan ramalan pembelajaran mesin anda. Apabila masalah anda adalah berat sebelah dan bukan varians, dengan menggunakan ensembling benar-benar tidak menyebabkan bahaya melainkan jika anda menyusun sampel terlalu sedikit. Peraturan praktikal yang baik untuk subsampling adalah untuk mengambil sampel dari 70 hingga 90 peratus berbanding data in-sample asal. Sekiranya anda ingin membuat kerja yang bersesuaian, anda perlu melakukan perkara-perkara berikut:

  • Berikan banyak kali melalui data dan model anda (dari sekurang-kurangnya tiga lelaran untuk beratus-ratus kali).
  • Setiap kali anda melelaras, subsample (atau lain bootstrap) data dalam sampel anda.
  • Gunakan pembelajaran mesin untuk model pada data yang dilampirkan semula, dan ramalkan hasil daripada sampel. Simpan hasil tersebut untuk kegunaan kemudian.
  • Pada akhir lelaran, untuk setiap kes contoh yang anda mahu ramalkan, ambil semua ramalan dan rata-rata mereka jika anda melakukan regresi. Ambil kelas yang paling kerap jika anda melakukan klasifikasi.

Perangkap kebocoran boleh mengejutkan anda kerana mereka boleh membuktikan menjadi sumber masalah yang tidak diketahui dan tidak dapat dikesan dengan proses pembelajaran mesin anda. Masalahnya adalah mengintip, atau mengamati terlalu banyak sampel data dan menyesuaikannya dengan terlalu kerap. Secara ringkasnya, pengintipan adalah sejenis kelebihan - dan bukan hanya pada data latihan tetapi juga pada data ujian, menjadikan masalah yang terlalu sukar untuk dikesan sehingga Anda mendapatkan data segar.

Biasanya anda menyedari bahawa masalah ini sedang mengintip apabila anda sudah menggunakan algoritma pembelajaran mesin untuk perniagaan anda atau untuk perkhidmatan untuk orang ramai, membuat masalah menjadi isu yang semua orang dapat melihat.

Anda boleh mengelakkan pengintipan dalam dua cara. Pertama, apabila beroperasi pada data, berhati-hati untuk memisahkan latihan, pengesahan, dan data ujian dengan kemas. Juga, ketika memproses, tidak pernah mengambil sebarang maklumat dari pengesahan atau ujian, bahkan contoh yang paling sederhana dan tidak bersalah. Lebih buruk lagi adalah untuk menggunakan transformasi yang kompleks menggunakan semua data.

Dalam kewangan, misalnya, diketahui bahawa pengiraan min dan penyimpangan piawai (yang sebenarnya dapat memberitahu anda banyak mengenai keadaan pasaran dan risiko) dari semua data latihan dan pengujian dapat membocorkan maklumat berharga tentang model anda. Apabila kebocoran berlaku, algoritma pembelajaran mesin melakukan ramalan pada set ujian dan bukannya data luar sampel dari pasaran, yang bermaksud bahawa mereka tidak berfungsi sama sekali, sehingga menyebabkan kehilangan wang.

Periksa prestasi contoh-contoh sampingan anda. Sebenarnya, anda boleh membawa balik beberapa maklumat dari pengintipan anda pada keputusan ujian untuk membantu anda menentukan parameter tertentu lebih baik daripada yang lain, atau membawa anda memilih satu algoritma pembelajaran mesin dan bukannya satu lagi. Untuk setiap model atau parameter, gunakan pilihan berdasarkan hasil silang balas atau dari sampel pengesahan. Jangan sekali-kali jatuh untuk mengambil gambar dari data sampingan anda atau anda akan menyesal kemudian.

Mengelakkan Perangkap Bias dan Perangkap Kebocoran dalam Pembelajaran Mesin - patung

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...