Rumah Kewangan Peribadi Bagaimana Menguji Model Analisis Prediktif - makmies

Bagaimana Menguji Model Analisis Prediktif - makmies

Isi kandungan:

Video: SEBERAPA CANTIK KAMU DIMATA PARA PRIA? ikuti tes ini untuk tau hasilnya 2024

Video: SEBERAPA CANTIK KAMU DIMATA PARA PRIA? ikuti tes ini untuk tau hasilnya 2024
Anonim

Untuk dapat menguji model analisis ramalan yang anda bina, anda perlu memisahkan dataset anda menjadi dua set: kumpulan data latihan dan ujian. Set data ini harus dipilih secara rawak dan harus menjadi representasi yang baik dari populasi sebenar.

  • Data yang sama harus digunakan untuk kedua-dua dataset latihan dan ujian.

  • Biasanya kumpulan data latihan jauh lebih besar daripada dataset ujian.

  • Menggunakan dataset ujian membantu anda mengelakkan ralat seperti overfitting.

  • Model terlatih dijalankan terhadap data ujian untuk melihat sejauh mana model akan dilaksanakan.

Sesetengah saintis data memilih untuk mempunyai dataset ketiga yang mempunyai ciri-ciri yang serupa dengan yang kedua: satu dataset pengesahan . Idea ini ialah jika anda menggunakan data ujian secara aktif untuk memperbaiki model anda, anda harus menggunakan set berasingan (ketiga) untuk memeriksa ketepatan model.

Mempunyai dataset pengesahan, yang tidak digunakan sebagai sebahagian daripada proses pembangunan model anda, membantu memastikan anggaran neutral mengenai ketepatan dan keberkesanan model.

Jika anda telah membina pelbagai model menggunakan pelbagai algoritma, sampel pengesahan juga boleh membantu anda menilai model mana yang terbaik.

Pastikan anda menyemak semula kerja anda untuk membangun dan menguji model. Secara khususnya, ragu-ragu jika prestasi atau ketepatan model kelihatan terlalu baik untuk menjadi kenyataan. Kesilapan boleh berlaku di mana anda tidak mengharapkannya. Contohnya, mengira tarikh untuk data siri masa, sebagai contoh, boleh menyebabkan keputusan yang salah.

Cara menggunakan cross-validation

Cross-validation adalah teknik popular yang boleh anda gunakan untuk menilai dan mengesahkan model anda. Prinsip yang sama menggunakan dataset berasingan untuk ujian dan latihan berlaku di sini: Data latihan digunakan untuk membina model; model dijalankan terhadap set ujian untuk meramalkan data yang tidak pernah dilihat sebelumnya, yang merupakan salah satu cara untuk menilai ketepatannya.

Dalam pengesahan silang, data sejarah dipecah menjadi bilangan subset X. Setiap kali subset dipilih untuk digunakan sebagai data ujian, selebihnya subset digunakan sebagai data latihan. Kemudian, pada jangka masa yang akan datang, bekas ujian ujian menjadi salah satu set latihan dan salah satu bekas latihan menjadi ujian.

Proses ini berterusan sehingga setiap subset set nombor X tersebut telah digunakan sebagai set ujian. Sebagai contoh, bayangkan anda mempunyai dataset yang anda telah terbahagi kepada 5 set bernombor 1 hingga 5. Pada jangka masa pertama, anda menggunakan set 1 sebagai set ujian dan gunakan set 2, 3, 4 dan 5 sebagai set latihan.Kemudian, pada run kedua, anda menggunakan set 2 sebagai set ujian dan menetapkan 1, 3, 4, dan 5 sebagai latihan.

Anda meneruskan proses ini sehingga setiap subset dari 5 set telah digunakan sebagai set ujian.

Cross-validation membolehkan anda menggunakan setiap titik data dalam data sejarah anda untuk kedua-dua latihan dan ujian. Teknik ini lebih berkesan daripada sekadar memisahkan data sejarah anda menjadi dua set, menggunakan set dengan data yang paling untuk latihan, menggunakan set lain untuk ujian, dan meninggalkannya pada itu.

Apabila anda menyeberangi mengesahkan data anda, anda melindungi diri anda daripada mengambil data ujian secara rawak yang terlalu mudah untuk diramalkan - yang akan memberikan gambaran palsu bahawa model anda tepat. Atau, jika anda mengambil data ujian yang terlalu sukar untuk diramal, anda mungkin membuat kesimpulan bahawa model anda tidak berfungsi seperti yang anda harapkan.

Cross-validation digunakan secara meluas bukan sahaja untuk mengesahkan ketepatan model tetapi juga untuk membandingkan prestasi model berbilang.

Bagaimana untuk mengimbangi bias dan varians

Bias dan varians adalah dua sumber ralat yang boleh berlaku semasa anda sedang membina model analisis anda.

Bias

adalah hasil membina model yang mempermudah penyampaian hubungan antara titik data dalam data sejarah yang digunakan untuk membina model. Perbezaan

adalah hasil membina model yang secara khusus spesifik untuk data yang digunakan untuk membina model. Mencapai keseimbangan antara bias dan varians - dengan mengurangkan varians dan menafikan beberapa berat sebelah - boleh membawa kepada model ramalan yang lebih baik. Perdagangan ini biasanya membawa kepada model ramalan yang kurang kompleks.

Banyak algoritma penambangan data telah dibuat untuk mengambil kira perdagangan ini antara bias dan varians.

Bagaimana untuk menyelesaikan masalah

Apabila anda menguji model anda dan anda mendapati diri anda tidak berada di mana-mana, berikut adalah beberapa idea untuk mempertimbangkan yang mungkin membantu anda kembali ke trek:

Sentiasa menyemak semula kerja anda. Anda mungkin telah mengingati sesuatu yang anda kira adalah betul tetapi tidak. Kelemahan tersebut boleh muncul (contohnya) antara nilai-nilai pemboleh ubah ramalan dalam dataset anda, atau dalam pra-proses yang anda gunakan untuk data.

  • Jika algoritma yang anda pilih tidak menghasilkan sebarang hasil, cuba algoritma lain. Sebagai contoh, anda mencuba beberapa algoritma klasifikasi yang tersedia dan bergantung kepada data anda dan objektif perniagaan model anda, salah satu daripada mereka mungkin melakukan yang lebih baik daripada yang lain.

  • Cuba pilih pembolehubah yang berbeza atau buat pembolehubah baru yang diperoleh. Selalu mencari penjana yang mempunyai kuasa ramalan.

  • Kerap kali berunding dengan pakar domain perniagaan yang dapat membantu anda memahami data, memilih pembolehubah, dan mentafsirkan hasil model.

Bagaimana Menguji Model Analisis Prediktif - makmies

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...