Rumah Kewangan Peribadi Hilang Nilai dalam Data Anda - dummies

Hilang Nilai dalam Data Anda - dummies

Isi kandungan:

Video: 8 Macam Error Pada Microsoft Excel dan Cara Mengatasinya 2024

Video: 8 Macam Error Pada Microsoft Excel dan Cara Mengatasinya 2024
Anonim

Salah satu masalah data yang paling kerap dan tersisih untuk ditangani ialah kehilangan data. Fail boleh menjadi tidak lengkap kerana rekod jatuh atau peranti simpanan diisi. Atau medan data tertentu mungkin tidak mengandungi data untuk beberapa rekod. Yang pertama masalah ini boleh didiagnosis dengan hanya mengesahkan tuduhan rekod untuk fail. Masalah kedua adalah lebih sukar untuk ditangani.

Untuk meletakkannya dalam istilah yang mudah, apabila anda mencari medan yang mengandungi nilai yang hilang, anda mempunyai dua pilihan:

  • Abaikannya.

  • Tetapkan sesuatu di medan.

Mengabaikan masalah

Dalam beberapa kes, anda mungkin mencari medan tunggal dengan sejumlah besar nilai yang hilang. Jika ya, perkara yang paling mudah dilakukan adalah mengabaikan bidang. Jangan masukkannya dalam analisis anda.

Satu lagi cara untuk mengabaikan masalah adalah mengabaikan rekod. Hanya padamkan rekod yang mengandungi data yang hilang. Ini mungkin masuk akal jika terdapat hanya beberapa rekod penyangak. Tetapi jika terdapat banyak medan data yang mengandungi jumlah nilai penting yang hilang, pendekatan ini mungkin mengecilkan kiraan rekod anda ke tahap yang tidak dapat diterima.

Satu lagi perkara yang perlu diperhatikan sebelum sekadar memadamkan rekod adalah sebarang tanda corak. Sebagai contoh, andaikan menganalisis satu set data yang berkaitan dengan baki kad kredit di seluruh negara. Anda mungkin mendapati sejumlah besar rekod yang menunjukkan $ 0. 00 baki (mungkin kira-kira separuh rekod). Ini bukannya merupakan indikasi kehilangan data. Walau bagaimanapun, jika semua rekod dari, katakan, California menunjukkan $ 0. 00 baki, yang menunjukkan masalah nilai yang berpotensi hilang. Dan ia bukanlah satu yang akan dipecahkan dengan berguna dengan memotong semua rekod dari negara terbesar di negara ini. Dalam kes ini, ia mungkin merupakan isu sistem dan menunjukkan bahawa fail baru harus dibuat.

Secara umum, memadam rekod adalah penyelesaian yang mudah, tetapi bukan ideal, untuk masalah kehilangan nilai. Sekiranya masalahnya agak kecil dan tidak ada corak yang ketara terhadap ketinggalan, maka mungkin baik untuk menghalang rekod yang menyerang dan teruskan. Tetapi kerap pendekatan yang lebih tinggi diperlukan.

Mengisi data yang hilang

Mengisi jumlah data yang hilang untuk membuat tebakan terdidik tentang apa yang akan berlaku dalam bidang itu. Terdapat cara yang baik dan buruk untuk melakukan ini. Satu pendekatan yang mudah (tetapi buruk) adalah untuk menggantikan nilai-nilai yang hilang dengan purata yang tidak hilang. Dalam bidang bukan berangka, anda mungkin tergoda untuk mengisi rekod yang hilang dengan nilai yang paling umum dalam rekod lain (mod).

Pendekatan ini, malangnya, masih sering digunakan dalam beberapa aplikasi perniagaan.Tetapi mereka dianggap secara meluas oleh ahli statistik sebagai idea buruk. Untuk satu perkara, keseluruhan titik melakukan analisis statistik adalah untuk mencari data yang membezakan satu hasil daripada yang lain. Dengan menggantikan semua rekod yang hilang dengan nilai yang sama, anda tidak membezakan apa-apa.

Pendekatan yang lebih tinggi adalah untuk mencari cara untuk meramalkan dengan cara yang bermakna apa nilai harus diisi pada setiap rekod yang hilang nilai. Ini melibatkan melihat rekod lengkap dan cuba mencari petunjuk tentang apa yang mungkin hilang.

Anggap anda menganalisis fail demografi untuk meramalkan kemungkinan pembeli salah satu produk anda. Dalam fail yang anda ada, antara bidang lain, maklumat mengenai status perkahwinan, bilangan anak, dan jumlah kereta. Atas sebab tertentu, bilangan medan autos hilang dalam satu pertiga rekod.

Dengan menganalisis dua bidang lain - status perkahwinan dan bilangan anak - anda boleh menemui beberapa pola. Orang tunggal cenderung mempunyai satu kereta. Orang yang berkahwin tanpa anak cenderung mempunyai dua kereta. Orang yang berkahwin dengan lebih daripada seorang kanak-kanak mungkin lebih berkemungkinan mempunyai tiga kereta. Dengan cara ini, anda boleh meneka nilai yang hilang dengan cara yang sebenarnya membezakan rekod. Lebih lanjut mengenai pendekatan ini akan datang.

Terdapat istilah am dalam statistik dan pemprosesan data yang merujuk kepada data yang dipersoalkan. Istilah bising digunakan untuk menggambarkan data yang tidak boleh dipercayai, korup, atau sebaliknya kurang daripada murni. Data yang hilang adalah satu contoh sahaja. Penerangan mengenai teknik untuk membersihkan data bising secara amnya adalah di luar skop buku ini. Malah, ini adalah bidang penyelidikan yang aktif dalam teori statistik. Hakikat bahawa semua bunyi bising tidak mudah dilihat kerana nilai-nilai yang hilang menjadikannya menyusahkan untuk ditangani.

Hilang Nilai dalam Data Anda - dummies

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...