Rumah Kewangan Peribadi Mengelakkan Perangkap Bias dan Perangkap Kebocoran dalam Pembelajaran Mesin - patung

Mengelakkan Perangkap Bias dan Perangkap Kebocoran dalam Pembelajaran Mesin - patung

Video: Cara Mudah Mengganti Lampu Ultra Violet Atau Lampu UV Depo Air Mineral Isi Ulang 2024

Video: Cara Mudah Mengganti Lampu Ultra Violet Atau Lampu UV Depo Air Mineral Isi Ulang 2024
Anonim

Pendekatan pengesahan untuk pembelajaran mesin adalah pemeriksaan ke atas ubat yang mungkin untuk mengira kecenderungan. Bias dalam pengambilan sampel boleh terjadi pada data anda sebelum pembelajaran mesin dimasukkan ke dalam tindakan, dan ia menyebabkan variasi yang tinggi dari anggaran berikut. Di samping itu, anda harus sedar perangkap kebocoran yang boleh berlaku apabila beberapa maklumat dari sampel sampingan dihantar ke data dalam sampel. Isu ini boleh timbul apabila anda menyediakan data atau selepas model pembelajaran mesin anda siap dan berfungsi.

Ubat yang dipanggil ensembling peramal, berfungsi dengan sempurna apabila sampel latihan anda tidak sepenuhnya diputarbelitkan dan pengedarannya adalah berbeza daripada sampel yang tidak dapat dielakkan, tetapi seperti mana semua kelas anda hadir tetapi tidak dalam bahagian yang betul (sebagai contoh). Dalam kes sedemikian, keputusan anda dipengaruhi oleh beberapa anggaran tertentu yang anda mungkin dapat menstabilkan dalam salah satu daripada beberapa cara: dengan resampling, seperti dalam bootstrapping; oleh subsampling (mengambil contoh sampel); atau dengan menggunakan sampel yang lebih kecil (yang meningkatkan berat sebelah).

Untuk memahami bagaimana kerja-kerja penyerapan dengan berkesan, gambarkan imej mata lembu. Jika sampel anda menjejaskan ramalan, beberapa ramalan akan tepat dan yang lain akan salah secara rawak. Jika anda menukar sampel anda, ramalan yang betul akan terus menjadi betul, tetapi yang salah akan bermula menjadi variasi antara nilai yang berbeza. Sesetengah nilai akan menjadi ramalan tepat yang anda cari; yang lain hanya akan berayun di sekitar yang betul.

Dengan membandingkan keputusan, anda boleh meneka bahawa apa yang sedang berulang adalah jawapan yang betul. Anda juga boleh mengambil purata jawapan dan meneka bahawa jawapan yang betul harus berada di tengah-tengah nilai-nilai. Dengan permainan bull's-eye, anda boleh memvisualisasikan gambar-gambar permainan yang berlainan: Jika masalahnya adalah varians, akhirnya anda akan meneka bahawa target berada di kawasan yang paling sering dilanda atau sekurang-kurangnya di tengah semua tembakan.

Dalam kebanyakan kes, pendekatan sedemikian terbukti betul dan meningkatkan ramalan pembelajaran mesin anda. Apabila masalah anda adalah berat sebelah dan bukan varians, dengan menggunakan ensembling benar-benar tidak menyebabkan bahaya melainkan jika anda menyusun sampel terlalu sedikit. Peraturan praktikal yang baik untuk subsampling adalah untuk mengambil sampel dari 70 hingga 90 peratus berbanding data in-sample asal. Sekiranya anda ingin membuat kerja yang bersesuaian, anda perlu melakukan perkara-perkara berikut:

  • Berikan banyak kali melalui data dan model anda (dari sekurang-kurangnya tiga lelaran untuk beratus-ratus kali).
  • Setiap kali anda melelaras, subsample (atau lain bootstrap) data dalam sampel anda.
  • Gunakan pembelajaran mesin untuk model pada data yang dilampirkan semula, dan ramalkan hasil daripada sampel. Simpan hasil tersebut untuk kegunaan kemudian.
  • Pada akhir lelaran, untuk setiap kes contoh yang anda mahu ramalkan, ambil semua ramalan dan rata-rata mereka jika anda melakukan regresi. Ambil kelas yang paling kerap jika anda melakukan klasifikasi.

Perangkap kebocoran boleh mengejutkan anda kerana mereka boleh membuktikan menjadi sumber masalah yang tidak diketahui dan tidak dapat dikesan dengan proses pembelajaran mesin anda. Masalahnya adalah mengintip, atau mengamati terlalu banyak sampel data dan menyesuaikannya dengan terlalu kerap. Secara ringkasnya, pengintipan adalah sejenis kelebihan - dan bukan hanya pada data latihan tetapi juga pada data ujian, menjadikan masalah yang terlalu sukar untuk dikesan sehingga Anda mendapatkan data segar.

Biasanya anda menyedari bahawa masalah ini sedang mengintip apabila anda sudah menggunakan algoritma pembelajaran mesin untuk perniagaan anda atau untuk perkhidmatan untuk orang ramai, membuat masalah menjadi isu yang semua orang dapat melihat.

Anda boleh mengelakkan pengintipan dalam dua cara. Pertama, apabila beroperasi pada data, berhati-hati untuk memisahkan latihan, pengesahan, dan data ujian dengan kemas. Juga, ketika memproses, tidak pernah mengambil sebarang maklumat dari pengesahan atau ujian, bahkan contoh yang paling sederhana dan tidak bersalah. Lebih buruk lagi adalah untuk menggunakan transformasi yang kompleks menggunakan semua data.

Dalam kewangan, misalnya, diketahui bahawa pengiraan min dan penyimpangan piawai (yang sebenarnya dapat memberitahu anda banyak mengenai keadaan pasaran dan risiko) dari semua data latihan dan pengujian dapat membocorkan maklumat berharga tentang model anda. Apabila kebocoran berlaku, algoritma pembelajaran mesin melakukan ramalan pada set ujian dan bukannya data luar sampel dari pasaran, yang bermaksud bahawa mereka tidak berfungsi sama sekali, sehingga menyebabkan kehilangan wang.

Periksa prestasi contoh-contoh sampingan anda. Sebenarnya, anda boleh membawa balik beberapa maklumat dari pengintipan anda pada keputusan ujian untuk membantu anda menentukan parameter tertentu lebih baik daripada yang lain, atau membawa anda memilih satu algoritma pembelajaran mesin dan bukannya satu lagi. Untuk setiap model atau parameter, gunakan pilihan berdasarkan hasil silang balas atau dari sampel pengesahan. Jangan sekali-kali jatuh untuk mengambil gambar dari data sampingan anda atau anda akan menyesal kemudian.

Mengelakkan Perangkap Bias dan Perangkap Kebocoran dalam Pembelajaran Mesin - patung

Pilihan Editor

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Sifat kotak, anda boleh meletakkan objek gaya di mana saja di dalam tetingkap penyemak imbas, objek kedudukan berbanding dengan objek lain pada halaman, dan gunakan peraturan gaya padding dan margin kotak secara selektif untuk mana-mana atau semua empat objek gaya sebagai kiri dan bawah atau atas, kiri, dan ...

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Kadar adalah salah satu istilah pemasaran yang paling mengelirukan dari e-mel. Ia sebenarnya mengukur bilangan interaksi tertentu dengan pelayan e-mel selepas e-mel dihantar dinyatakan sebagai peratusan jumlah tidak melantun. E-mel anda tidak dikira sebagai terbuka sehingga salah satu daripada interaksi berikut berlaku: Penerima membolehkan imej ...

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress adalah perisian bebas sumber terbuka yang dapat anda unduh, memasang, dan gunakan untuk membina komuniti sosial anda sendiri di laman web anda yang berkuasa WordPress. Untuk melakukan ini, anda memerlukan pemahaman asas tentang ciri dan terminologi BuddyPress. Mencipta komuniti sosial anda sendiri mudah dilakukan dengan BuddyPress, tetapi jika anda memerlukan bantuan, anda boleh bertanya ...

Pilihan Editor

Menikmati Magic of Mindful Movies - dummies

Menikmati Magic of Mindful Movies - dummies

Tidak ada cara yang lebih baik untuk mengembangkan pengalaman pemikiran anda melampaui batas fizikal United Kingdom dan mengembangkan wawasan anda daripada menikmati filem yang cenderung berfikiran. Filem untuk kanak-kanak: Kung Fu Panda (Mark Osborne, John Stevenson, 2008). Filem animasi moden ini sering merujuk kepada kuasa yang datang dari ...

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Kadang-kadang, hanya apa yang anda perlukan untuk pengalaman pemikiran yang mendalam. Mendengarkan CD berkualiti boleh memindahkan anda ke luar United Kingdom dan benar-benar membuka fikiran anda kepada idea-idea. CD berikut disyorkan: Meditasi Berpandu: Untuk Ketenangan, Kesedaran dan Cinta oleh Bodhipaksa. A ...

Freemason yang terkenal - orang-orang buatan

Freemason yang terkenal - orang-orang buatan

Yang hebat dan paling cemerlang di dunia atau Freemason. Kumpulan-kumpulan ini memberikan anda jauh dari senarai komprehensif - mereka hanya contoh: Bapa pengasas: Freemason yang paling terkenal di Amerika, George Washington telah dimulakan pada tahun 1752, di Fredericksburg, Virginia. Bapa pengasas lain yang juga Mason termasuk Benjamin Franklin, Marquis de ...

Pilihan Editor

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Subjek tertumpukan tajam dan latar belakang yang lembut dan kabur. Ikuti langkah-langkah ini untuk mengambil potret seperti Canon Rebel Digital anda.

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

DSLR yang dijual hari ini, kamera Canon EOS Rebel T7i / 800D menawarkan Live View, yang menyahdayakan pemidang tilik dan sebaliknya memaparkan pratonton langsung subjek anda pada monitor kamera. Senarai berikut menerangkan asas penggunaan Live View: Switch to Live View for photography: Tekan butang Live View untuk beralih dari ...