Rumah Kewangan Peribadi Bagaimana untuk membersihkan data untuk ramalan analisis - dummies

Bagaimana untuk membersihkan data untuk ramalan analisis - dummies

Video: Tips Cepat Mendapat Jodoh Dari Ustadz Dhanu - Siraman Qolbu (4/10) 2024

Video: Tips Cepat Mendapat Jodoh Dari Ustadz Dhanu - Siraman Qolbu (4/10) 2024
Anonim

Sebelum menjalankan analisis ramalan, anda perlu memastikan bahawa data itu bersih dari perkara luaran sebelum anda boleh menggunakannya dalam model. Ini termasuk mencari dan membetulkan mana-mana rekod yang mengandungi nilai-nilai yang salah, dan cuba mengisi sebarang nilai yang hilang. Anda juga perlu membuat keputusan untuk memasukkan rekod pendua (dua akaun pelanggan, contohnya).

Matlamat keseluruhannya adalah untuk memastikan integriti maklumat yang anda gunakan untuk membina model ramalan anda. Beri perhatian khusus kepada kesempurnaan, ketepatan, dan ketepatan masa data.

Ia berguna untuk membuat statistik deskriptif (ciri kuantitatif) untuk pelbagai bidang, seperti pengiraan min dan max, mengecek pengedaran kekerapan ) dan mengesahkan julat yang diharapkan. Menjalankan cek biasa boleh membantu anda menandakan sebarang data yang berada di luar jangkaan jangkaan untuk siasatan lanjut. Apa-apa rekod yang menunjukkan pesara dengan tarikh lahir pada tahun 1990-an boleh ditandakan dengan kaedah ini.

Juga, silang silang maklumat itu penting supaya anda memastikan data adalah tepat. Untuk analisis yang lebih mendalam tentang ciri-ciri data dan pengenalpastian hubungan antara rekod data, anda boleh menggunakan profil data (menganalisis ketersediaan data dan mengumpul statistik mengenai kualiti data), dan alat visualisasi.

Data yang hilang mungkin disebabkan oleh fakta bahawa maklumat tertentu tidak direkodkan. Dalam kes sedemikian, anda boleh cuba mengisi sebanyak yang anda boleh; lalai yang sesuai dengan mudah boleh ditambah untuk mengisi kekosongan bidang tertentu.

Sebagai contoh, untuk pesakit di wad bersalin hospital di mana bidang jantina hilang nilai, aplikasi itu hanya dapat mengisi sebagai wanita. Untuk perkara itu, bagi mana-mana lelaki yang dimasukkan ke hospital dengan rekod hilang untuk status kehamilan, rekod itu juga boleh diisi sebagai tidak berkenaan.

Kod pos yang hilang untuk alamat boleh disimpulkan dari nama jalan dan bandar yang disediakan di alamat itu.

Dalam kes-kes di mana maklumat tidak diketahui atau tidak dapat disimpulkan, maka anda perlu menggunakan nilai lain daripada ruang kosong untuk menunjukkan bahawa data hilang tanpa mempengaruhi ketepatan analisis. Satu kosong dalam data boleh bererti pelbagai perkara, kebanyakannya tidak baik atau berguna. Setiap kali anda boleh, anda harus menyatakan sifat kosong itu oleh pengisi tempat yang bermakna.

Seperti yang mungkin untuk menentukan mawar di ladang jagung sebagai rumpai, penyingkiran boleh bermakna perkara yang berbeza untuk analisis yang berbeza.Adalah perkara biasa untuk sesetengah model yang dibina semata-mata untuk menjejaki mereka yang mengatasi dan membariskan mereka.

Model pengesanan penipuan dan pemantauan aktiviti jenayah berminat untuk mengatasi masalah ini, yang dalam kes seperti itu menunjukkan sesuatu yang tidak diingini berlaku. Oleh itu, menjaga kelebihan dalam dataset dalam kes-kes seperti ini adalah disyorkan. Walau bagaimanapun, apabila outlier dianggap anomali dalam data - dan hanya akan mengabaikan analisis dan membawa kepada keputusan yang salah - keluarkannya dari data anda.

Duplikasi dalam data juga boleh berguna atau gangguan; sesetengahnya perlu, boleh menunjukkan nilai, dan boleh mencerminkan keadaan data yang tepat. Sebagai contoh, rekod pelanggan dengan berbilang akaun boleh diwakili dengan pelbagai entri yang (secara teknikalnya pula) menduplikasi dan berulang rekod yang sama.

Dengan tanda yang sama, apabila rekod pendua tidak menyumbang nilai kepada analisis dan tidak perlu, maka mengeluarkannya boleh menjadi nilai yang luar biasa. Hal ini terutama berlaku untuk dataset besar di mana menghapus rekod pendua dapat memudahkan kerumitan data dan mengurangkan waktu yang diperlukan untuk analisis.

Anda boleh mencegah data yang tidak betul dari memasuki sistem anda dengan mengamalkan beberapa prosedur tertentu:

  • Pemeriksaan kualiti Institut dan pengesahan data untuk semua data yang dikumpulkan.

  • Benarkan pelanggan anda mengesahkan dan membetulkan data peribadi mereka sendiri.

  • Berikan pelanggan anda dengan nilai yang mungkin dan dijangka untuk dipilih.

  • Rutin menjalankan pemeriksaan ke atas integriti, konsistensi, dan ketepatan data.

Bagaimana untuk membersihkan data untuk ramalan analisis - dummies

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...