Rumah Kewangan Peribadi Bagaimana untuk membersihkan data untuk ramalan analisis - dummies

Bagaimana untuk membersihkan data untuk ramalan analisis - dummies

Video: Tips Cepat Mendapat Jodoh Dari Ustadz Dhanu - Siraman Qolbu (4/10) 2024

Video: Tips Cepat Mendapat Jodoh Dari Ustadz Dhanu - Siraman Qolbu (4/10) 2024
Anonim

Sebelum menjalankan analisis ramalan, anda perlu memastikan bahawa data itu bersih dari perkara luaran sebelum anda boleh menggunakannya dalam model. Ini termasuk mencari dan membetulkan mana-mana rekod yang mengandungi nilai-nilai yang salah, dan cuba mengisi sebarang nilai yang hilang. Anda juga perlu membuat keputusan untuk memasukkan rekod pendua (dua akaun pelanggan, contohnya).

Matlamat keseluruhannya adalah untuk memastikan integriti maklumat yang anda gunakan untuk membina model ramalan anda. Beri perhatian khusus kepada kesempurnaan, ketepatan, dan ketepatan masa data.

Ia berguna untuk membuat statistik deskriptif (ciri kuantitatif) untuk pelbagai bidang, seperti pengiraan min dan max, mengecek pengedaran kekerapan ) dan mengesahkan julat yang diharapkan. Menjalankan cek biasa boleh membantu anda menandakan sebarang data yang berada di luar jangkaan jangkaan untuk siasatan lanjut. Apa-apa rekod yang menunjukkan pesara dengan tarikh lahir pada tahun 1990-an boleh ditandakan dengan kaedah ini.

Juga, silang silang maklumat itu penting supaya anda memastikan data adalah tepat. Untuk analisis yang lebih mendalam tentang ciri-ciri data dan pengenalpastian hubungan antara rekod data, anda boleh menggunakan profil data (menganalisis ketersediaan data dan mengumpul statistik mengenai kualiti data), dan alat visualisasi.

Data yang hilang mungkin disebabkan oleh fakta bahawa maklumat tertentu tidak direkodkan. Dalam kes sedemikian, anda boleh cuba mengisi sebanyak yang anda boleh; lalai yang sesuai dengan mudah boleh ditambah untuk mengisi kekosongan bidang tertentu.

Sebagai contoh, untuk pesakit di wad bersalin hospital di mana bidang jantina hilang nilai, aplikasi itu hanya dapat mengisi sebagai wanita. Untuk perkara itu, bagi mana-mana lelaki yang dimasukkan ke hospital dengan rekod hilang untuk status kehamilan, rekod itu juga boleh diisi sebagai tidak berkenaan.

Kod pos yang hilang untuk alamat boleh disimpulkan dari nama jalan dan bandar yang disediakan di alamat itu.

Dalam kes-kes di mana maklumat tidak diketahui atau tidak dapat disimpulkan, maka anda perlu menggunakan nilai lain daripada ruang kosong untuk menunjukkan bahawa data hilang tanpa mempengaruhi ketepatan analisis. Satu kosong dalam data boleh bererti pelbagai perkara, kebanyakannya tidak baik atau berguna. Setiap kali anda boleh, anda harus menyatakan sifat kosong itu oleh pengisi tempat yang bermakna.

Seperti yang mungkin untuk menentukan mawar di ladang jagung sebagai rumpai, penyingkiran boleh bermakna perkara yang berbeza untuk analisis yang berbeza.Adalah perkara biasa untuk sesetengah model yang dibina semata-mata untuk menjejaki mereka yang mengatasi dan membariskan mereka.

Model pengesanan penipuan dan pemantauan aktiviti jenayah berminat untuk mengatasi masalah ini, yang dalam kes seperti itu menunjukkan sesuatu yang tidak diingini berlaku. Oleh itu, menjaga kelebihan dalam dataset dalam kes-kes seperti ini adalah disyorkan. Walau bagaimanapun, apabila outlier dianggap anomali dalam data - dan hanya akan mengabaikan analisis dan membawa kepada keputusan yang salah - keluarkannya dari data anda.

Duplikasi dalam data juga boleh berguna atau gangguan; sesetengahnya perlu, boleh menunjukkan nilai, dan boleh mencerminkan keadaan data yang tepat. Sebagai contoh, rekod pelanggan dengan berbilang akaun boleh diwakili dengan pelbagai entri yang (secara teknikalnya pula) menduplikasi dan berulang rekod yang sama.

Dengan tanda yang sama, apabila rekod pendua tidak menyumbang nilai kepada analisis dan tidak perlu, maka mengeluarkannya boleh menjadi nilai yang luar biasa. Hal ini terutama berlaku untuk dataset besar di mana menghapus rekod pendua dapat memudahkan kerumitan data dan mengurangkan waktu yang diperlukan untuk analisis.

Anda boleh mencegah data yang tidak betul dari memasuki sistem anda dengan mengamalkan beberapa prosedur tertentu:

  • Pemeriksaan kualiti Institut dan pengesahan data untuk semua data yang dikumpulkan.

  • Benarkan pelanggan anda mengesahkan dan membetulkan data peribadi mereka sendiri.

  • Berikan pelanggan anda dengan nilai yang mungkin dan dijangka untuk dipilih.

  • Rutin menjalankan pemeriksaan ke atas integriti, konsistensi, dan ketepatan data.

Bagaimana untuk membersihkan data untuk ramalan analisis - dummies

Pilihan Editor

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Sifat kotak, anda boleh meletakkan objek gaya di mana saja di dalam tetingkap penyemak imbas, objek kedudukan berbanding dengan objek lain pada halaman, dan gunakan peraturan gaya padding dan margin kotak secara selektif untuk mana-mana atau semua empat objek gaya sebagai kiri dan bawah atau atas, kiri, dan ...

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Kadar adalah salah satu istilah pemasaran yang paling mengelirukan dari e-mel. Ia sebenarnya mengukur bilangan interaksi tertentu dengan pelayan e-mel selepas e-mel dihantar dinyatakan sebagai peratusan jumlah tidak melantun. E-mel anda tidak dikira sebagai terbuka sehingga salah satu daripada interaksi berikut berlaku: Penerima membolehkan imej ...

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress adalah perisian bebas sumber terbuka yang dapat anda unduh, memasang, dan gunakan untuk membina komuniti sosial anda sendiri di laman web anda yang berkuasa WordPress. Untuk melakukan ini, anda memerlukan pemahaman asas tentang ciri dan terminologi BuddyPress. Mencipta komuniti sosial anda sendiri mudah dilakukan dengan BuddyPress, tetapi jika anda memerlukan bantuan, anda boleh bertanya ...

Pilihan Editor

Menikmati Magic of Mindful Movies - dummies

Menikmati Magic of Mindful Movies - dummies

Tidak ada cara yang lebih baik untuk mengembangkan pengalaman pemikiran anda melampaui batas fizikal United Kingdom dan mengembangkan wawasan anda daripada menikmati filem yang cenderung berfikiran. Filem untuk kanak-kanak: Kung Fu Panda (Mark Osborne, John Stevenson, 2008). Filem animasi moden ini sering merujuk kepada kuasa yang datang dari ...

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Kadang-kadang, hanya apa yang anda perlukan untuk pengalaman pemikiran yang mendalam. Mendengarkan CD berkualiti boleh memindahkan anda ke luar United Kingdom dan benar-benar membuka fikiran anda kepada idea-idea. CD berikut disyorkan: Meditasi Berpandu: Untuk Ketenangan, Kesedaran dan Cinta oleh Bodhipaksa. A ...

Freemason yang terkenal - orang-orang buatan

Freemason yang terkenal - orang-orang buatan

Yang hebat dan paling cemerlang di dunia atau Freemason. Kumpulan-kumpulan ini memberikan anda jauh dari senarai komprehensif - mereka hanya contoh: Bapa pengasas: Freemason yang paling terkenal di Amerika, George Washington telah dimulakan pada tahun 1752, di Fredericksburg, Virginia. Bapa pengasas lain yang juga Mason termasuk Benjamin Franklin, Marquis de ...

Pilihan Editor

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Subjek tertumpukan tajam dan latar belakang yang lembut dan kabur. Ikuti langkah-langkah ini untuk mengambil potret seperti Canon Rebel Digital anda.

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

DSLR yang dijual hari ini, kamera Canon EOS Rebel T7i / 800D menawarkan Live View, yang menyahdayakan pemidang tilik dan sebaliknya memaparkan pratonton langsung subjek anda pada monitor kamera. Senarai berikut menerangkan asas penggunaan Live View: Switch to Live View for photography: Tekan butang Live View untuk beralih dari ...