Rumah Kewangan Peribadi Mengenalpasti Data Hilang untuk Pembelajaran Mesin - monyet

Mengenalpasti Data Hilang untuk Pembelajaran Mesin - monyet

Video: Data Analysis in R by Dustin Tran 2024

Video: Data Analysis in R by Dustin Tran 2024
Anonim

Walaupun anda mempunyai contoh yang mencukupi untuk melatih kedua-dua algoritma pembelajaran mesin yang sederhana dan kompleks, mereka mesti mempersembahkan nilai lengkap dalam ciri-ciri tanpa apa-apa data yang hilang. Memiliki contoh yang tidak lengkap menjadikan semua isyarat dalam dan antara ciri-ciri tidak dapat disambung. Nilai yang hilang juga menjadikannya sukar bagi algoritma untuk belajar semasa latihan. Anda mesti melakukan sesuatu mengenai data yang hilang.

Kebanyakannya, anda boleh mengabaikan nilai yang hilang atau membaikinya dengan meneka nilai penggantian yang mungkin. Walau bagaimanapun, terlalu banyak nilai yang hilang menyebabkan ramalan yang tidak menentu kerana maklumat yang hilang dapat menyembunyikan sebarang kemungkinan yang mungkin; akibatnya, semakin banyak nilai yang hilang dalam ciri-ciri, semakin berubah-ubah dan tidak tepat ramalannya.

Sebagai langkah pertama, hitung bilangan kes yang hilang dalam setiap pembolehubah. Apabila pemboleh ubah mempunyai banyak kes yang hilang, anda mungkin perlu menggugurkannya dari dataset latihan dan ujian. Peraturan praktikal yang baik adalah untuk menggugurkan pemboleh ubah jika lebih daripada 90 peratus daripada kesemuanya hilang.

Sesetengah algoritma pembelajaran tidak mengetahui cara menangani nilai yang hilang dan melaporkan kesilapan dalam kedua-dua fasa latihan dan ujian, sedangkan model lain memperlakukan mereka sebagai nilai sifar, menyebabkan meremehkan nilai atau kemungkinan yang diramalkan (ia seolah-olah sebahagian daripada formula tidak berfungsi dengan betul). Oleh itu, anda perlu menggantikan semua nilai yang hilang dalam matriks data anda dengan beberapa nilai yang sesuai untuk pembelajaran mesin berlaku dengan betul.

Banyak alasan ada untuk data yang hilang, tetapi titik penting adalah sama ada data hilang secara rawak atau dalam susunan tertentu. Data rawak yang hilang adalah ideal kerana anda boleh meneka nilainya menggunakan purata sederhana, median, atau algoritma pembelajaran mesin yang lain, tanpa terlalu banyak kebimbangan. Beberapa kes mengandungi berat sebelah yang kuat terhadap contoh-contoh tertentu.

Sebagai contoh, fikirkan tentang hal mengkaji pendapatan penduduk. Orang kaya (untuk sebab-sebab cukai, mungkin) cenderung menyembunyikan pendapatan sebenar mereka dengan melaporkan kepada anda bahawa mereka tidak tahu. Orang miskin, sebaliknya, mungkin mengatakan bahawa mereka tidak mahu melaporkan pendapatan mereka kerana takut akan penghakiman negatif. Sekiranya anda terlepas maklumat dari strata tertentu penduduk, membaiki data yang hilang boleh menjadi sukar dan mengelirukan kerana anda mungkin menganggap bahawa kes seperti ini adalah sama.

Sebaliknya, mereka agak berbeza. Oleh itu, anda tidak boleh menggunakan nilai purata untuk menggantikan nilai-nilai yang hilang - anda mesti menggunakan pendekatan yang rumit dan menyesuaikannya dengan teliti.Lebih-lebih lagi, mengenal pasti kes-kes yang tidak hilang data secara rawak sukar kerana ia memerlukan pemeriksaan lebih dekat tentang bagaimana nilai-nilai yang hilang dikaitkan dengan pembolehubah lain dalam dataset.

Apabila data hilang secara rawak, anda boleh membaiki nilai kosong dengan mudah kerana anda memperoleh petunjuk kepada nilai sebenar mereka dari pembolehubah lain. Apabila data tidak hilang secara rawak, anda tidak boleh mendapatkan petunjuk yang baik daripada maklumat lain yang tersedia melainkan anda memahami persatuan data dengan kes yang hilang. Oleh itu, jika anda perlu mengetahui pendapatan yang hilang dalam data anda, dan ia hilang kerana orang itu kaya, anda tidak boleh menggantikan nilai yang hilang dengan purata sederhana kerana anda akan menggantinya dengan pendapatan sederhana. Sebaliknya, anda harus menggunakan purata pendapatan orang kaya sebagai pengganti.

Apabila data tidak hilang secara rawak, hakikat bahawa nilai yang hilang adalah bermaklumat kerana ia membantu menjejaki kumpulan yang hilang. Anda boleh meninggalkan tugas mencari alasan bahawa ia tidak mempunyai algoritma pembelajaran komputer anda dengan membina ciri binari baru yang melaporkan apabila nilai pembolehubah hilang. Akibatnya, algoritma pembelajaran mesin akan memikirkan nilai terbaik untuk digunakan sebagai pengganti dengan sendirinya.

Mengenalpasti Data Hilang untuk Pembelajaran Mesin - monyet

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...