Isi kandungan:
- Periksa format data
- Sahkan jenis data
- Grafik data anda
- Sahkan ketepatan data
- Mengenal pasti outliers
- Berurusan dengan nilai yang tiada
- Semak andaian anda tentang bagaimana data diedarkan
- Sediakan dan dokumentasikan semua yang anda lakukan
Video: MCMC Bekerjasama Dengan Semua Kerajaan Negeri 2024
Pakej perisian statistik sangat kuat pada hari-hari ini, tetapi mereka tidak dapat mengatasi data berkualiti rendah. Berikut adalah senarai semak perkara yang perlu anda lakukan sebelum anda melancarkan model statistik bangunan.
Periksa format data
Analisis anda sentiasa bermula dengan fail data mentah. Fail data mentah datang dalam pelbagai bentuk dan saiz yang berbeza. Data mainframe adalah berbeza daripada data PC, data spreadsheet diformat secara berbeza daripada data web, dan sebagainya. Dan pada zaman data besar, anda pasti akan menghadapi data dari pelbagai sumber. Langkah pertama dalam menganalisis data anda ialah memastikan anda dapat membaca fail yang anda berikan.
Anda perlu melihat sama ada setiap medan mengandungi. Sebagai contoh, tidak bijak untuk mempercayai bahawa hanya kerana medan disenaraikan sebagai medan karakter, ia sebenarnya mengandungi data karakter.
Sahkan jenis data
Semua data jatuh ke dalam satu daripada empat kategori yang mempengaruhi jenis statistik yang boleh digunakan dengan sewajarnya:
-
Data nominal pada dasarnya hanya nama atau pengenal.
-
Data ordinal meletakkan rekod ke dalam perintah dari terendah hingga tertinggi.
-
Data selang mewakili nilai di mana perbezaan di antara mereka dapat dibandingkan.
-
Data nisbah adalah seperti data interval kecuali bahawa ia juga membolehkan nilai 0
Penting untuk memahami kategori mana data anda jatuh sebelum anda menyerahkannya ke dalam perisian statistik. Jika tidak, anda berisiko mengakhiri dengan rasa tidak munasabah yang sangat munasabah.
Grafik data anda
Memahami bagaimana data anda diedarkan adalah penting. Anda boleh menjalankan prosedur statistik sehingga anda berwarna biru, tetapi tidak seorang pun daripada mereka akan memberikan anda gambaran yang mendalam tentang data anda seperti grafik yang mudah.
Sahkan ketepatan data
Sekali anda merasa selesa bahawa data diformat dengan cara yang anda inginkan, anda masih perlu memastikan ia tepat dan ia masuk akal. Langkah ini menghendaki anda mempunyai pengetahuan tentang bidang subjek yang anda sedang kerjakan.
Tidak ada pendekatan cut-and-dried untuk mengesahkan ketepatan data. Idea asas adalah untuk merumuskan beberapa sifat yang anda fikir data harus mempamerkan dan menguji data untuk melihat apakah sifat tersebut dipegang. Adakah harga saham sentiasa positif? Adakah semua kod produk sepadan dengan senarai yang sah? Pada asasnya, anda cuba untuk mengetahui sama ada data benar-benar adalah apa yang anda telah diberitahu itu.
Mengenal pasti outliers
Outliers adalah titik data yang tidak terkena dengan data lain. Mereka sama ada nilai yang sangat besar atau sangat kecil berbanding dengan yang lain daripada dataset.
Outliers bermasalah kerana mereka boleh menjejaskan statistik dan prosedur statistik secara serius. Outlier tunggal boleh mempunyai kesan yang besar terhadap nilai min. Kerana maksudnya sepatutnya mewakili pusat data, dalam erti kata, satu hal yang luar biasa menjadikannya tidak berguna.
Apabila berhadapan dengan outlier, strategi yang paling biasa ialah memadamnya. Walau bagaimanapun, dalam beberapa kes, anda mungkin mahu mengambil kira mereka. Dalam kes ini, biasanya diingini untuk melakukan analisis anda dua kali - sekali dengan penyingkiran termasuk dan sekali dengan pengecualian dikecualikan. Ini membolehkan anda menilai kaedah mana yang memberikan hasil lebih berguna.
Berurusan dengan nilai yang tiada
Nilai yang hilang adalah salah satu masalah data yang paling biasa (dan menjengkelkan) yang akan anda hadapi. Impuls pertama anda mungkin untuk menjatuhkan rekod dengan nilai yang hilang dari analisis anda. Masalah dengan ini adalah bahawa nilai-nilai yang hilang sering kali bukan sekadar gangguan data sedikit rawak.
Semak andaian anda tentang bagaimana data diedarkan
Banyak prosedur statistik bergantung pada andaian bahawa data diedarkan dengan cara tertentu. Sekiranya andaian itu tidak berlaku, ketepatan ramalan anda menderita.
Asumsi yang paling biasa bagi teknik pemodelan yang dibincangkan dalam buku ini ialah data diedarkan secara normal.
Atau tidak. Dalam kes-kes di mana data tidak diedarkan kerana anda memerlukannya, semuanya tidak semestinya hilang. Terdapat pelbagai cara untuk mengubah data untuk mendapatkan pengedaran ke dalam bentuk yang anda perlukan.
Salah satu cara terbaik untuk mengesahkan ketepatan model statistik adalah untuk mengujinya terhadap data sebaik sahaja ia dibina. Salah satu cara untuk melakukannya ialah secara rawak memecahkan dataset anda menjadi dua fail. Anda mungkin memanggil Fail dan Analisis fail ini masing-masing.
Anda perlu memisahkan data secara rawak untuk menjadi berkesan. Anda tidak boleh hanya memisahkan dataset ke bahagian atas dan separuh bahagian bawah, sebagai contoh. Hampir semua fail data disusun entah bagaimana - mengikut tarikh jika tidak ada yang lain. Ini memperkenalkan corak sistematik yang akan memberi bahagian yang berlainan dari fail sifat statistik yang berbeza. Apabila anda memecah fail secara rawak, anda memberi setiap rekod peluang yang sama untuk sama ada dalam fail. Secara kiasan, anda membalik duit syiling untuk setiap rekod untuk menentukan fail mana yang masuk. Kesertian memberikan kedua-dua fail sifat statistik yang sama seperti data asal.
Sebaik sahaja anda telah memisahkan dataset, ketepikan fail Ujian. Kemudian teruskan untuk membina model ramalan anda menggunakan fail Analisis. Setelah model dibina, gunakannya pada fail Ujian dan lihat bagaimana ia berlaku.
Model pengujian dengan cara ini membantu melindungi terhadap fenomena yang dikenali sebagai over-fit . Pada dasarnya, mungkin untuk prosedur statistik untuk menghafal fail data dan bukannya mencari hubungan bermakna antara pembolehubah. Jika over-fit terjadi, model akan menguji agak kurang terhadap fail Ujian.
Sediakan dan dokumentasikan semua yang anda lakukan
Oleh kerana perisian statistik semakin mudah digunakan, itu adalah sekeping kek untuk mula menghasilkan laporan dan graf, belum lagi fail data.Anda boleh menjalankan prosedur secara literal pada sentuhan butang. Anda boleh menghasilkan beberapa graf sedozen berdasarkan transformasi data yang berbeza dalam masa beberapa minit. Itu menjadikannya mudah untuk menjejaskan apa yang telah anda lakukan, dan mengapa.
Penting untuk memastikan anda menyimpan rekod tertulis tentang apa yang anda perlukan. Grafik hendaklah dilabelkan dengan nama (dan versi) data yang digunakan untuk membuatnya. Prosedur statistik yang anda bina perlu disimpan dan didokumenkan.
Ia juga penting untuk membuat sandaran fail data anda. Semasa analisis anda, anda mungkin akan membuat beberapa versi data anda yang mencerminkan pelbagai pembetulan dan transformasi pembolehubah. Anda harus menyimpan prosedur yang membuat versi ini. Mereka juga perlu didokumenkan dengan cara yang menggambarkan apa perubahan yang telah anda buat dan mengapa.
Dokumentasi bukan tugas kegemaran sesiapa sahaja, tetapi kami bercakap dari pengalaman apabila kami sangat menggalakkan anda untuk tidak bergantung pada ingatan anda ketika datang ke projek analisis anda.
Dengan menerapkan langkah-langkah yang telah dijelaskan, anda memaksimumkan kebolehpercayaan model statistik anda. Dalam banyak kes, kerja persiapan sebenarnya lebih banyak memakan masa daripada bangunan model sebenar. Tetapi perlu. Dan anda akan berterima kasih kepada diri sendiri pada akhirnya untuk mengatasinya secara muktamad.