Mengenalpasti Data Hilang untuk Pembelajaran Mesin - monyet

Video: Data Analysis in R by Dustin Tran 2024

Walaupun anda mempunyai contoh yang mencukupi untuk melatih kedua-dua algoritma pembelajaran mesin yang sederhana dan kompleks, mereka mesti mempersembahkan nilai lengkap dalam ciri-ciri tanpa apa-apa data yang hilang. Memiliki contoh yang tidak lengkap menjadikan semua isyarat dalam dan antara ciri-ciri tidak dapat disambung. Nilai yang hilang juga menjadikannya sukar bagi algoritma untuk belajar semasa latihan. Anda mesti melakukan sesuatu mengenai data yang hilang.

Kebanyakannya, anda boleh mengabaikan nilai yang hilang atau membaikinya dengan meneka nilai penggantian yang mungkin. Walau bagaimanapun, terlalu banyak nilai yang hilang menyebabkan ramalan yang tidak menentu kerana maklumat yang hilang dapat menyembunyikan sebarang kemungkinan yang mungkin; akibatnya, semakin banyak nilai yang hilang dalam ciri-ciri, semakin berubah-ubah dan tidak tepat ramalannya.

Sebagai langkah pertama, hitung bilangan kes yang hilang dalam setiap pembolehubah. Apabila pemboleh ubah mempunyai banyak kes yang hilang, anda mungkin perlu menggugurkannya dari dataset latihan dan ujian. Peraturan praktikal yang baik adalah untuk menggugurkan pemboleh ubah jika lebih daripada 90 peratus daripada kesemuanya hilang.

Sesetengah algoritma pembelajaran tidak mengetahui cara menangani nilai yang hilang dan melaporkan kesilapan dalam kedua-dua fasa latihan dan ujian, sedangkan model lain memperlakukan mereka sebagai nilai sifar, menyebabkan meremehkan nilai atau kemungkinan yang diramalkan (ia seolah-olah sebahagian daripada formula tidak berfungsi dengan betul). Oleh itu, anda perlu menggantikan semua nilai yang hilang dalam matriks data anda dengan beberapa nilai yang sesuai untuk pembelajaran mesin berlaku dengan betul.

Banyak alasan ada untuk data yang hilang, tetapi titik penting adalah sama ada data hilang secara rawak atau dalam susunan tertentu. Data rawak yang hilang adalah ideal kerana anda boleh meneka nilainya menggunakan purata sederhana, median, atau algoritma pembelajaran mesin yang lain, tanpa terlalu banyak kebimbangan. Beberapa kes mengandungi berat sebelah yang kuat terhadap contoh-contoh tertentu.

Sebagai contoh, fikirkan tentang hal mengkaji pendapatan penduduk. Orang kaya (untuk sebab-sebab cukai, mungkin) cenderung menyembunyikan pendapatan sebenar mereka dengan melaporkan kepada anda bahawa mereka tidak tahu. Orang miskin, sebaliknya, mungkin mengatakan bahawa mereka tidak mahu melaporkan pendapatan mereka kerana takut akan penghakiman negatif. Sekiranya anda terlepas maklumat dari strata tertentu penduduk, membaiki data yang hilang boleh menjadi sukar dan mengelirukan kerana anda mungkin menganggap bahawa kes seperti ini adalah sama.

Sebaliknya, mereka agak berbeza. Oleh itu, anda tidak boleh menggunakan nilai purata untuk menggantikan nilai-nilai yang hilang - anda mesti menggunakan pendekatan yang rumit dan menyesuaikannya dengan teliti.Lebih-lebih lagi, mengenal pasti kes-kes yang tidak hilang data secara rawak sukar kerana ia memerlukan pemeriksaan lebih dekat tentang bagaimana nilai-nilai yang hilang dikaitkan dengan pembolehubah lain dalam dataset.

Apabila data hilang secara rawak, anda boleh membaiki nilai kosong dengan mudah kerana anda memperoleh petunjuk kepada nilai sebenar mereka dari pembolehubah lain. Apabila data tidak hilang secara rawak, anda tidak boleh mendapatkan petunjuk yang baik daripada maklumat lain yang tersedia melainkan anda memahami persatuan data dengan kes yang hilang. Oleh itu, jika anda perlu mengetahui pendapatan yang hilang dalam data anda, dan ia hilang kerana orang itu kaya, anda tidak boleh menggantikan nilai yang hilang dengan purata sederhana kerana anda akan menggantinya dengan pendapatan sederhana. Sebaliknya, anda harus menggunakan purata pendapatan orang kaya sebagai pengganti.

Apabila data tidak hilang secara rawak, hakikat bahawa nilai yang hilang adalah bermaklumat kerana ia membantu menjejaki kumpulan yang hilang. Anda boleh meninggalkan tugas mencari alasan bahawa ia tidak mempunyai algoritma pembelajaran komputer anda dengan membina ciri binari baru yang melaporkan apabila nilai pembolehubah hilang. Akibatnya, algoritma pembelajaran mesin akan memikirkan nilai terbaik untuk digunakan sebagai pengganti dengan sendirinya.