Rumah Kewangan Peribadi Bagaimana Menguji Model Analisis Prediktif - makmies

Bagaimana Menguji Model Analisis Prediktif - makmies

Isi kandungan:

Video: SEBERAPA CANTIK KAMU DIMATA PARA PRIA? ikuti tes ini untuk tau hasilnya 2024

Video: SEBERAPA CANTIK KAMU DIMATA PARA PRIA? ikuti tes ini untuk tau hasilnya 2024
Anonim

Untuk dapat menguji model analisis ramalan yang anda bina, anda perlu memisahkan dataset anda menjadi dua set: kumpulan data latihan dan ujian. Set data ini harus dipilih secara rawak dan harus menjadi representasi yang baik dari populasi sebenar.

  • Data yang sama harus digunakan untuk kedua-dua dataset latihan dan ujian.

  • Biasanya kumpulan data latihan jauh lebih besar daripada dataset ujian.

  • Menggunakan dataset ujian membantu anda mengelakkan ralat seperti overfitting.

  • Model terlatih dijalankan terhadap data ujian untuk melihat sejauh mana model akan dilaksanakan.

Sesetengah saintis data memilih untuk mempunyai dataset ketiga yang mempunyai ciri-ciri yang serupa dengan yang kedua: satu dataset pengesahan . Idea ini ialah jika anda menggunakan data ujian secara aktif untuk memperbaiki model anda, anda harus menggunakan set berasingan (ketiga) untuk memeriksa ketepatan model.

Mempunyai dataset pengesahan, yang tidak digunakan sebagai sebahagian daripada proses pembangunan model anda, membantu memastikan anggaran neutral mengenai ketepatan dan keberkesanan model.

Jika anda telah membina pelbagai model menggunakan pelbagai algoritma, sampel pengesahan juga boleh membantu anda menilai model mana yang terbaik.

Pastikan anda menyemak semula kerja anda untuk membangun dan menguji model. Secara khususnya, ragu-ragu jika prestasi atau ketepatan model kelihatan terlalu baik untuk menjadi kenyataan. Kesilapan boleh berlaku di mana anda tidak mengharapkannya. Contohnya, mengira tarikh untuk data siri masa, sebagai contoh, boleh menyebabkan keputusan yang salah.

Cara menggunakan cross-validation

Cross-validation adalah teknik popular yang boleh anda gunakan untuk menilai dan mengesahkan model anda. Prinsip yang sama menggunakan dataset berasingan untuk ujian dan latihan berlaku di sini: Data latihan digunakan untuk membina model; model dijalankan terhadap set ujian untuk meramalkan data yang tidak pernah dilihat sebelumnya, yang merupakan salah satu cara untuk menilai ketepatannya.

Dalam pengesahan silang, data sejarah dipecah menjadi bilangan subset X. Setiap kali subset dipilih untuk digunakan sebagai data ujian, selebihnya subset digunakan sebagai data latihan. Kemudian, pada jangka masa yang akan datang, bekas ujian ujian menjadi salah satu set latihan dan salah satu bekas latihan menjadi ujian.

Proses ini berterusan sehingga setiap subset set nombor X tersebut telah digunakan sebagai set ujian. Sebagai contoh, bayangkan anda mempunyai dataset yang anda telah terbahagi kepada 5 set bernombor 1 hingga 5. Pada jangka masa pertama, anda menggunakan set 1 sebagai set ujian dan gunakan set 2, 3, 4 dan 5 sebagai set latihan.Kemudian, pada run kedua, anda menggunakan set 2 sebagai set ujian dan menetapkan 1, 3, 4, dan 5 sebagai latihan.

Anda meneruskan proses ini sehingga setiap subset dari 5 set telah digunakan sebagai set ujian.

Cross-validation membolehkan anda menggunakan setiap titik data dalam data sejarah anda untuk kedua-dua latihan dan ujian. Teknik ini lebih berkesan daripada sekadar memisahkan data sejarah anda menjadi dua set, menggunakan set dengan data yang paling untuk latihan, menggunakan set lain untuk ujian, dan meninggalkannya pada itu.

Apabila anda menyeberangi mengesahkan data anda, anda melindungi diri anda daripada mengambil data ujian secara rawak yang terlalu mudah untuk diramalkan - yang akan memberikan gambaran palsu bahawa model anda tepat. Atau, jika anda mengambil data ujian yang terlalu sukar untuk diramal, anda mungkin membuat kesimpulan bahawa model anda tidak berfungsi seperti yang anda harapkan.

Cross-validation digunakan secara meluas bukan sahaja untuk mengesahkan ketepatan model tetapi juga untuk membandingkan prestasi model berbilang.

Bagaimana untuk mengimbangi bias dan varians

Bias dan varians adalah dua sumber ralat yang boleh berlaku semasa anda sedang membina model analisis anda.

Bias

adalah hasil membina model yang mempermudah penyampaian hubungan antara titik data dalam data sejarah yang digunakan untuk membina model. Perbezaan

adalah hasil membina model yang secara khusus spesifik untuk data yang digunakan untuk membina model. Mencapai keseimbangan antara bias dan varians - dengan mengurangkan varians dan menafikan beberapa berat sebelah - boleh membawa kepada model ramalan yang lebih baik. Perdagangan ini biasanya membawa kepada model ramalan yang kurang kompleks.

Banyak algoritma penambangan data telah dibuat untuk mengambil kira perdagangan ini antara bias dan varians.

Bagaimana untuk menyelesaikan masalah

Apabila anda menguji model anda dan anda mendapati diri anda tidak berada di mana-mana, berikut adalah beberapa idea untuk mempertimbangkan yang mungkin membantu anda kembali ke trek:

Sentiasa menyemak semula kerja anda. Anda mungkin telah mengingati sesuatu yang anda kira adalah betul tetapi tidak. Kelemahan tersebut boleh muncul (contohnya) antara nilai-nilai pemboleh ubah ramalan dalam dataset anda, atau dalam pra-proses yang anda gunakan untuk data.

  • Jika algoritma yang anda pilih tidak menghasilkan sebarang hasil, cuba algoritma lain. Sebagai contoh, anda mencuba beberapa algoritma klasifikasi yang tersedia dan bergantung kepada data anda dan objektif perniagaan model anda, salah satu daripada mereka mungkin melakukan yang lebih baik daripada yang lain.

  • Cuba pilih pembolehubah yang berbeza atau buat pembolehubah baru yang diperoleh. Selalu mencari penjana yang mempunyai kuasa ramalan.

  • Kerap kali berunding dengan pakar domain perniagaan yang dapat membantu anda memahami data, memilih pembolehubah, dan mentafsirkan hasil model.

Bagaimana Menguji Model Analisis Prediktif - makmies

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...