Rumah Kewangan Peribadi Hilang Nilai dalam Data Anda - dummies

Hilang Nilai dalam Data Anda - dummies

Isi kandungan:

Video: 8 Macam Error Pada Microsoft Excel dan Cara Mengatasinya 2024

Video: 8 Macam Error Pada Microsoft Excel dan Cara Mengatasinya 2024
Anonim

Salah satu masalah data yang paling kerap dan tersisih untuk ditangani ialah kehilangan data. Fail boleh menjadi tidak lengkap kerana rekod jatuh atau peranti simpanan diisi. Atau medan data tertentu mungkin tidak mengandungi data untuk beberapa rekod. Yang pertama masalah ini boleh didiagnosis dengan hanya mengesahkan tuduhan rekod untuk fail. Masalah kedua adalah lebih sukar untuk ditangani.

Untuk meletakkannya dalam istilah yang mudah, apabila anda mencari medan yang mengandungi nilai yang hilang, anda mempunyai dua pilihan:

  • Abaikannya.

  • Tetapkan sesuatu di medan.

Mengabaikan masalah

Dalam beberapa kes, anda mungkin mencari medan tunggal dengan sejumlah besar nilai yang hilang. Jika ya, perkara yang paling mudah dilakukan adalah mengabaikan bidang. Jangan masukkannya dalam analisis anda.

Satu lagi cara untuk mengabaikan masalah adalah mengabaikan rekod. Hanya padamkan rekod yang mengandungi data yang hilang. Ini mungkin masuk akal jika terdapat hanya beberapa rekod penyangak. Tetapi jika terdapat banyak medan data yang mengandungi jumlah nilai penting yang hilang, pendekatan ini mungkin mengecilkan kiraan rekod anda ke tahap yang tidak dapat diterima.

Satu lagi perkara yang perlu diperhatikan sebelum sekadar memadamkan rekod adalah sebarang tanda corak. Sebagai contoh, andaikan menganalisis satu set data yang berkaitan dengan baki kad kredit di seluruh negara. Anda mungkin mendapati sejumlah besar rekod yang menunjukkan $ 0. 00 baki (mungkin kira-kira separuh rekod). Ini bukannya merupakan indikasi kehilangan data. Walau bagaimanapun, jika semua rekod dari, katakan, California menunjukkan $ 0. 00 baki, yang menunjukkan masalah nilai yang berpotensi hilang. Dan ia bukanlah satu yang akan dipecahkan dengan berguna dengan memotong semua rekod dari negara terbesar di negara ini. Dalam kes ini, ia mungkin merupakan isu sistem dan menunjukkan bahawa fail baru harus dibuat.

Secara umum, memadam rekod adalah penyelesaian yang mudah, tetapi bukan ideal, untuk masalah kehilangan nilai. Sekiranya masalahnya agak kecil dan tidak ada corak yang ketara terhadap ketinggalan, maka mungkin baik untuk menghalang rekod yang menyerang dan teruskan. Tetapi kerap pendekatan yang lebih tinggi diperlukan.

Mengisi data yang hilang

Mengisi jumlah data yang hilang untuk membuat tebakan terdidik tentang apa yang akan berlaku dalam bidang itu. Terdapat cara yang baik dan buruk untuk melakukan ini. Satu pendekatan yang mudah (tetapi buruk) adalah untuk menggantikan nilai-nilai yang hilang dengan purata yang tidak hilang. Dalam bidang bukan berangka, anda mungkin tergoda untuk mengisi rekod yang hilang dengan nilai yang paling umum dalam rekod lain (mod).

Pendekatan ini, malangnya, masih sering digunakan dalam beberapa aplikasi perniagaan.Tetapi mereka dianggap secara meluas oleh ahli statistik sebagai idea buruk. Untuk satu perkara, keseluruhan titik melakukan analisis statistik adalah untuk mencari data yang membezakan satu hasil daripada yang lain. Dengan menggantikan semua rekod yang hilang dengan nilai yang sama, anda tidak membezakan apa-apa.

Pendekatan yang lebih tinggi adalah untuk mencari cara untuk meramalkan dengan cara yang bermakna apa nilai harus diisi pada setiap rekod yang hilang nilai. Ini melibatkan melihat rekod lengkap dan cuba mencari petunjuk tentang apa yang mungkin hilang.

Anggap anda menganalisis fail demografi untuk meramalkan kemungkinan pembeli salah satu produk anda. Dalam fail yang anda ada, antara bidang lain, maklumat mengenai status perkahwinan, bilangan anak, dan jumlah kereta. Atas sebab tertentu, bilangan medan autos hilang dalam satu pertiga rekod.

Dengan menganalisis dua bidang lain - status perkahwinan dan bilangan anak - anda boleh menemui beberapa pola. Orang tunggal cenderung mempunyai satu kereta. Orang yang berkahwin tanpa anak cenderung mempunyai dua kereta. Orang yang berkahwin dengan lebih daripada seorang kanak-kanak mungkin lebih berkemungkinan mempunyai tiga kereta. Dengan cara ini, anda boleh meneka nilai yang hilang dengan cara yang sebenarnya membezakan rekod. Lebih lanjut mengenai pendekatan ini akan datang.

Terdapat istilah am dalam statistik dan pemprosesan data yang merujuk kepada data yang dipersoalkan. Istilah bising digunakan untuk menggambarkan data yang tidak boleh dipercayai, korup, atau sebaliknya kurang daripada murni. Data yang hilang adalah satu contoh sahaja. Penerangan mengenai teknik untuk membersihkan data bising secara amnya adalah di luar skop buku ini. Malah, ini adalah bidang penyelidikan yang aktif dalam teori statistik. Hakikat bahawa semua bunyi bising tidak mudah dilihat kerana nilai-nilai yang hilang menjadikannya menyusahkan untuk ditangani.

Hilang Nilai dalam Data Anda - dummies

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...