Bagaimana Menguji Model Analisis Prediktif - makmies

Untuk dapat menguji model analisis ramalan yang anda bina, anda perlu memisahkan dataset anda menjadi dua set: kumpulan data latihan dan ujian. Set data ini harus dipilih secara rawak dan harus menjadi representasi yang baik dari populasi sebenar.

Data yang sama harus digunakan untuk kedua-dua dataset latihan dan ujian.
Biasanya kumpulan data latihan jauh lebih besar daripada dataset ujian.
Menggunakan dataset ujian membantu anda mengelakkan ralat seperti overfitting.
Model terlatih dijalankan terhadap data ujian untuk melihat sejauh mana model akan dilaksanakan.

Sesetengah saintis data memilih untuk mempunyai dataset ketiga yang mempunyai ciri-ciri yang serupa dengan yang kedua: satu dataset pengesahan . Idea ini ialah jika anda menggunakan data ujian secara aktif untuk memperbaiki model anda, anda harus menggunakan set berasingan (ketiga) untuk memeriksa ketepatan model.

Mempunyai dataset pengesahan, yang tidak digunakan sebagai sebahagian daripada proses pembangunan model anda, membantu memastikan anggaran neutral mengenai ketepatan dan keberkesanan model.

Jika anda telah membina pelbagai model menggunakan pelbagai algoritma, sampel pengesahan juga boleh membantu anda menilai model mana yang terbaik.

Pastikan anda menyemak semula kerja anda untuk membangun dan menguji model. Secara khususnya, ragu-ragu jika prestasi atau ketepatan model kelihatan terlalu baik untuk menjadi kenyataan. Kesilapan boleh berlaku di mana anda tidak mengharapkannya. Contohnya, mengira tarikh untuk data siri masa, sebagai contoh, boleh menyebabkan keputusan yang salah.

Cara menggunakan cross-validation

Cross-validation adalah teknik popular yang boleh anda gunakan untuk menilai dan mengesahkan model anda. Prinsip yang sama menggunakan dataset berasingan untuk ujian dan latihan berlaku di sini: Data latihan digunakan untuk membina model; model dijalankan terhadap set ujian untuk meramalkan data yang tidak pernah dilihat sebelumnya, yang merupakan salah satu cara untuk menilai ketepatannya.

Dalam pengesahan silang, data sejarah dipecah menjadi bilangan subset X. Setiap kali subset dipilih untuk digunakan sebagai data ujian, selebihnya subset digunakan sebagai data latihan. Kemudian, pada jangka masa yang akan datang, bekas ujian ujian menjadi salah satu set latihan dan salah satu bekas latihan menjadi ujian.

Proses ini berterusan sehingga setiap subset set nombor X tersebut telah digunakan sebagai set ujian. Sebagai contoh, bayangkan anda mempunyai dataset yang anda telah terbahagi kepada 5 set bernombor 1 hingga 5. Pada jangka masa pertama, anda menggunakan set 1 sebagai set ujian dan gunakan set 2, 3, 4 dan 5 sebagai set latihan.Kemudian, pada run kedua, anda menggunakan set 2 sebagai set ujian dan menetapkan 1, 3, 4, dan 5 sebagai latihan.

Anda meneruskan proses ini sehingga setiap subset dari 5 set telah digunakan sebagai set ujian.

Cross-validation membolehkan anda menggunakan setiap titik data dalam data sejarah anda untuk kedua-dua latihan dan ujian. Teknik ini lebih berkesan daripada sekadar memisahkan data sejarah anda menjadi dua set, menggunakan set dengan data yang paling untuk latihan, menggunakan set lain untuk ujian, dan meninggalkannya pada itu.

Apabila anda menyeberangi mengesahkan data anda, anda melindungi diri anda daripada mengambil data ujian secara rawak yang terlalu mudah untuk diramalkan - yang akan memberikan gambaran palsu bahawa model anda tepat. Atau, jika anda mengambil data ujian yang terlalu sukar untuk diramal, anda mungkin membuat kesimpulan bahawa model anda tidak berfungsi seperti yang anda harapkan.

Cross-validation digunakan secara meluas bukan sahaja untuk mengesahkan ketepatan model tetapi juga untuk membandingkan prestasi model berbilang.

Bagaimana untuk mengimbangi bias dan varians

Bias dan varians adalah dua sumber ralat yang boleh berlaku semasa anda sedang membina model analisis anda.

Bias

adalah hasil membina model yang mempermudah penyampaian hubungan antara titik data dalam data sejarah yang digunakan untuk membina model. Perbezaan

adalah hasil membina model yang secara khusus spesifik untuk data yang digunakan untuk membina model. Mencapai keseimbangan antara bias dan varians - dengan mengurangkan varians dan menafikan beberapa berat sebelah - boleh membawa kepada model ramalan yang lebih baik. Perdagangan ini biasanya membawa kepada model ramalan yang kurang kompleks.

Banyak algoritma penambangan data telah dibuat untuk mengambil kira perdagangan ini antara bias dan varians.

Bagaimana untuk menyelesaikan masalah

Apabila anda menguji model anda dan anda mendapati diri anda tidak berada di mana-mana, berikut adalah beberapa idea untuk mempertimbangkan yang mungkin membantu anda kembali ke trek:

Sentiasa menyemak semula kerja anda. Anda mungkin telah mengingati sesuatu yang anda kira adalah betul tetapi tidak. Kelemahan tersebut boleh muncul (contohnya) antara nilai-nilai pemboleh ubah ramalan dalam dataset anda, atau dalam pra-proses yang anda gunakan untuk data.

Jika algoritma yang anda pilih tidak menghasilkan sebarang hasil, cuba algoritma lain. Sebagai contoh, anda mencuba beberapa algoritma klasifikasi yang tersedia dan bergantung kepada data anda dan objektif perniagaan model anda, salah satu daripada mereka mungkin melakukan yang lebih baik daripada yang lain.
Cuba pilih pembolehubah yang berbeza atau buat pembolehubah baru yang diperoleh. Selalu mencari penjana yang mempunyai kuasa ramalan.
Kerap kali berunding dengan pakar domain perniagaan yang dapat membantu anda memahami data, memilih pembolehubah, dan mentafsirkan hasil model.