Rumah Kewangan Peribadi 8 Amalan terbaik dalam Penyediaan Data - patung

8 Amalan terbaik dalam Penyediaan Data - patung

Isi kandungan:

Video: MCMC Bekerjasama Dengan Semua Kerajaan Negeri 2024

Video: MCMC Bekerjasama Dengan Semua Kerajaan Negeri 2024
Anonim

Pakej perisian statistik sangat kuat pada hari-hari ini, tetapi mereka tidak dapat mengatasi data berkualiti rendah. Berikut adalah senarai semak perkara yang perlu anda lakukan sebelum anda melancarkan model statistik bangunan.

Periksa format data

Analisis anda sentiasa bermula dengan fail data mentah. Fail data mentah datang dalam pelbagai bentuk dan saiz yang berbeza. Data mainframe adalah berbeza daripada data PC, data spreadsheet diformat secara berbeza daripada data web, dan sebagainya. Dan pada zaman data besar, anda pasti akan menghadapi data dari pelbagai sumber. Langkah pertama dalam menganalisis data anda ialah memastikan anda dapat membaca fail yang anda berikan.

Anda perlu melihat sama ada setiap medan mengandungi. Sebagai contoh, tidak bijak untuk mempercayai bahawa hanya kerana medan disenaraikan sebagai medan karakter, ia sebenarnya mengandungi data karakter.

Sahkan jenis data

Semua data jatuh ke dalam satu daripada empat kategori yang mempengaruhi jenis statistik yang boleh digunakan dengan sewajarnya:

  • Data nominal pada dasarnya hanya nama atau pengenal.

  • Data ordinal meletakkan rekod ke dalam perintah dari terendah hingga tertinggi.

  • Data selang mewakili nilai di mana perbezaan di antara mereka dapat dibandingkan.

  • Data nisbah adalah seperti data interval kecuali bahawa ia juga membolehkan nilai 0

Penting untuk memahami kategori mana data anda jatuh sebelum anda menyerahkannya ke dalam perisian statistik. Jika tidak, anda berisiko mengakhiri dengan rasa tidak munasabah yang sangat munasabah.

Grafik data anda

Memahami bagaimana data anda diedarkan adalah penting. Anda boleh menjalankan prosedur statistik sehingga anda berwarna biru, tetapi tidak seorang pun daripada mereka akan memberikan anda gambaran yang mendalam tentang data anda seperti grafik yang mudah.

Sahkan ketepatan data

Sekali anda merasa selesa bahawa data diformat dengan cara yang anda inginkan, anda masih perlu memastikan ia tepat dan ia masuk akal. Langkah ini menghendaki anda mempunyai pengetahuan tentang bidang subjek yang anda sedang kerjakan.

Tidak ada pendekatan cut-and-dried untuk mengesahkan ketepatan data. Idea asas adalah untuk merumuskan beberapa sifat yang anda fikir data harus mempamerkan dan menguji data untuk melihat apakah sifat tersebut dipegang. Adakah harga saham sentiasa positif? Adakah semua kod produk sepadan dengan senarai yang sah? Pada asasnya, anda cuba untuk mengetahui sama ada data benar-benar adalah apa yang anda telah diberitahu itu.

Mengenal pasti outliers

Outliers adalah titik data yang tidak terkena dengan data lain. Mereka sama ada nilai yang sangat besar atau sangat kecil berbanding dengan yang lain daripada dataset.

Outliers bermasalah kerana mereka boleh menjejaskan statistik dan prosedur statistik secara serius. Outlier tunggal boleh mempunyai kesan yang besar terhadap nilai min. Kerana maksudnya sepatutnya mewakili pusat data, dalam erti kata, satu hal yang luar biasa menjadikannya tidak berguna.

Apabila berhadapan dengan outlier, strategi yang paling biasa ialah memadamnya. Walau bagaimanapun, dalam beberapa kes, anda mungkin mahu mengambil kira mereka. Dalam kes ini, biasanya diingini untuk melakukan analisis anda dua kali - sekali dengan penyingkiran termasuk dan sekali dengan pengecualian dikecualikan. Ini membolehkan anda menilai kaedah mana yang memberikan hasil lebih berguna.

Berurusan dengan nilai yang tiada

Nilai yang hilang adalah salah satu masalah data yang paling biasa (dan menjengkelkan) yang akan anda hadapi. Impuls pertama anda mungkin untuk menjatuhkan rekod dengan nilai yang hilang dari analisis anda. Masalah dengan ini adalah bahawa nilai-nilai yang hilang sering kali bukan sekadar gangguan data sedikit rawak.

Semak andaian anda tentang bagaimana data diedarkan

Banyak prosedur statistik bergantung pada andaian bahawa data diedarkan dengan cara tertentu. Sekiranya andaian itu tidak berlaku, ketepatan ramalan anda menderita.

Asumsi yang paling biasa bagi teknik pemodelan yang dibincangkan dalam buku ini ialah data diedarkan secara normal.

Atau tidak. Dalam kes-kes di mana data tidak diedarkan kerana anda memerlukannya, semuanya tidak semestinya hilang. Terdapat pelbagai cara untuk mengubah data untuk mendapatkan pengedaran ke dalam bentuk yang anda perlukan.

Salah satu cara terbaik untuk mengesahkan ketepatan model statistik adalah untuk mengujinya terhadap data sebaik sahaja ia dibina. Salah satu cara untuk melakukannya ialah secara rawak memecahkan dataset anda menjadi dua fail. Anda mungkin memanggil Fail dan Analisis fail ini masing-masing.

Anda perlu memisahkan data secara rawak untuk menjadi berkesan. Anda tidak boleh hanya memisahkan dataset ke bahagian atas dan separuh bahagian bawah, sebagai contoh. Hampir semua fail data disusun entah bagaimana - mengikut tarikh jika tidak ada yang lain. Ini memperkenalkan corak sistematik yang akan memberi bahagian yang berlainan dari fail sifat statistik yang berbeza. Apabila anda memecah fail secara rawak, anda memberi setiap rekod peluang yang sama untuk sama ada dalam fail. Secara kiasan, anda membalik duit syiling untuk setiap rekod untuk menentukan fail mana yang masuk. Kesertian memberikan kedua-dua fail sifat statistik yang sama seperti data asal.

Sebaik sahaja anda telah memisahkan dataset, ketepikan fail Ujian. Kemudian teruskan untuk membina model ramalan anda menggunakan fail Analisis. Setelah model dibina, gunakannya pada fail Ujian dan lihat bagaimana ia berlaku.

Model pengujian dengan cara ini membantu melindungi terhadap fenomena yang dikenali sebagai over-fit . Pada dasarnya, mungkin untuk prosedur statistik untuk menghafal fail data dan bukannya mencari hubungan bermakna antara pembolehubah. Jika over-fit terjadi, model akan menguji agak kurang terhadap fail Ujian.

Sediakan dan dokumentasikan semua yang anda lakukan

Oleh kerana perisian statistik semakin mudah digunakan, itu adalah sekeping kek untuk mula menghasilkan laporan dan graf, belum lagi fail data.Anda boleh menjalankan prosedur secara literal pada sentuhan butang. Anda boleh menghasilkan beberapa graf sedozen berdasarkan transformasi data yang berbeza dalam masa beberapa minit. Itu menjadikannya mudah untuk menjejaskan apa yang telah anda lakukan, dan mengapa.

Penting untuk memastikan anda menyimpan rekod tertulis tentang apa yang anda perlukan. Grafik hendaklah dilabelkan dengan nama (dan versi) data yang digunakan untuk membuatnya. Prosedur statistik yang anda bina perlu disimpan dan didokumenkan.

Ia juga penting untuk membuat sandaran fail data anda. Semasa analisis anda, anda mungkin akan membuat beberapa versi data anda yang mencerminkan pelbagai pembetulan dan transformasi pembolehubah. Anda harus menyimpan prosedur yang membuat versi ini. Mereka juga perlu didokumenkan dengan cara yang menggambarkan apa perubahan yang telah anda buat dan mengapa.

Dokumentasi bukan tugas kegemaran sesiapa sahaja, tetapi kami bercakap dari pengalaman apabila kami sangat menggalakkan anda untuk tidak bergantung pada ingatan anda ketika datang ke projek analisis anda.

Dengan menerapkan langkah-langkah yang telah dijelaskan, anda memaksimumkan kebolehpercayaan model statistik anda. Dalam banyak kes, kerja persiapan sebenarnya lebih banyak memakan masa daripada bangunan model sebenar. Tetapi perlu. Dan anda akan berterima kasih kepada diri sendiri pada akhirnya untuk mengatasinya secara muktamad.

8 Amalan terbaik dalam Penyediaan Data - patung

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...