Video: Tips Cepat Mendapat Jodoh Dari Ustadz Dhanu - Siraman Qolbu (4/10) 2024
Sebelum menjalankan analisis ramalan, anda perlu memastikan bahawa data itu bersih dari perkara luaran sebelum anda boleh menggunakannya dalam model. Ini termasuk mencari dan membetulkan mana-mana rekod yang mengandungi nilai-nilai yang salah, dan cuba mengisi sebarang nilai yang hilang. Anda juga perlu membuat keputusan untuk memasukkan rekod pendua (dua akaun pelanggan, contohnya).
Matlamat keseluruhannya adalah untuk memastikan integriti maklumat yang anda gunakan untuk membina model ramalan anda. Beri perhatian khusus kepada kesempurnaan, ketepatan, dan ketepatan masa data.
Ia berguna untuk membuat statistik deskriptif (ciri kuantitatif) untuk pelbagai bidang, seperti pengiraan min dan max, mengecek pengedaran kekerapan ) dan mengesahkan julat yang diharapkan. Menjalankan cek biasa boleh membantu anda menandakan sebarang data yang berada di luar jangkaan jangkaan untuk siasatan lanjut. Apa-apa rekod yang menunjukkan pesara dengan tarikh lahir pada tahun 1990-an boleh ditandakan dengan kaedah ini.
Juga, silang silang maklumat itu penting supaya anda memastikan data adalah tepat. Untuk analisis yang lebih mendalam tentang ciri-ciri data dan pengenalpastian hubungan antara rekod data, anda boleh menggunakan profil data (menganalisis ketersediaan data dan mengumpul statistik mengenai kualiti data), dan alat visualisasi.
Data yang hilang mungkin disebabkan oleh fakta bahawa maklumat tertentu tidak direkodkan. Dalam kes sedemikian, anda boleh cuba mengisi sebanyak yang anda boleh; lalai yang sesuai dengan mudah boleh ditambah untuk mengisi kekosongan bidang tertentu.
Sebagai contoh, untuk pesakit di wad bersalin hospital di mana bidang jantina hilang nilai, aplikasi itu hanya dapat mengisi sebagai wanita. Untuk perkara itu, bagi mana-mana lelaki yang dimasukkan ke hospital dengan rekod hilang untuk status kehamilan, rekod itu juga boleh diisi sebagai tidak berkenaan.
Kod pos yang hilang untuk alamat boleh disimpulkan dari nama jalan dan bandar yang disediakan di alamat itu.
Dalam kes-kes di mana maklumat tidak diketahui atau tidak dapat disimpulkan, maka anda perlu menggunakan nilai lain daripada ruang kosong untuk menunjukkan bahawa data hilang tanpa mempengaruhi ketepatan analisis. Satu kosong dalam data boleh bererti pelbagai perkara, kebanyakannya tidak baik atau berguna. Setiap kali anda boleh, anda harus menyatakan sifat kosong itu oleh pengisi tempat yang bermakna.
Seperti yang mungkin untuk menentukan mawar di ladang jagung sebagai rumpai, penyingkiran boleh bermakna perkara yang berbeza untuk analisis yang berbeza.Adalah perkara biasa untuk sesetengah model yang dibina semata-mata untuk menjejaki mereka yang mengatasi dan membariskan mereka.
Model pengesanan penipuan dan pemantauan aktiviti jenayah berminat untuk mengatasi masalah ini, yang dalam kes seperti itu menunjukkan sesuatu yang tidak diingini berlaku. Oleh itu, menjaga kelebihan dalam dataset dalam kes-kes seperti ini adalah disyorkan. Walau bagaimanapun, apabila outlier dianggap anomali dalam data - dan hanya akan mengabaikan analisis dan membawa kepada keputusan yang salah - keluarkannya dari data anda.
Duplikasi dalam data juga boleh berguna atau gangguan; sesetengahnya perlu, boleh menunjukkan nilai, dan boleh mencerminkan keadaan data yang tepat. Sebagai contoh, rekod pelanggan dengan berbilang akaun boleh diwakili dengan pelbagai entri yang (secara teknikalnya pula) menduplikasi dan berulang rekod yang sama.
Dengan tanda yang sama, apabila rekod pendua tidak menyumbang nilai kepada analisis dan tidak perlu, maka mengeluarkannya boleh menjadi nilai yang luar biasa. Hal ini terutama berlaku untuk dataset besar di mana menghapus rekod pendua dapat memudahkan kerumitan data dan mengurangkan waktu yang diperlukan untuk analisis.
Anda boleh mencegah data yang tidak betul dari memasuki sistem anda dengan mengamalkan beberapa prosedur tertentu:
-
Pemeriksaan kualiti Institut dan pengesahan data untuk semua data yang dikumpulkan.
-
Benarkan pelanggan anda mengesahkan dan membetulkan data peribadi mereka sendiri.
-
Berikan pelanggan anda dengan nilai yang mungkin dan dijangka untuk dipilih.
-
Rutin menjalankan pemeriksaan ke atas integriti, konsistensi, dan ketepatan data.