Cara Menggunakan Pemasangan Kurva dalam Analisis ramalan - dummies

Kurva fitting adalah proses yang digunakan dalam analisis ramalan yang tujuannya untuk membuat lengkung yang menggambarkan fungsi matematik yang paling sesuai dengan titik data sebenar (asal) dalam siri data.

Kurva sama ada melalui setiap titik data atau tinggal dalam sebahagian besar data, mengabaikan beberapa titik data dengan harapan menggambar trend dari data. Dalam kedua-dua kes, satu fungsi matematik tunggal ditugaskan ke seluruh badan data, dengan matlamat untuk memasukan semua titik data ke dalam lengkung yang menggambarkan ramalan dan ramalan bantuan.

Pemasangan kurva boleh dicapai dalam salah satu daripada tiga cara:

Dengan mencari tepat untuk setiap titik data (proses yang dipanggil penyambungan )
Dengan tinggal dalam sebahagian besar data sambil mengabaikan beberapa titik data dengan harapan menggambar trend keluar dari data
Dengan menggunakan perataan data untuk menghasilkan fungsi yang mewakili grafik terlicin

Pemasangan kurva boleh digunakan untuk mengisi mata data yang mungkin untuk menggantikan nilai yang hilang atau membantu penganalisis memvisualisasikan data.

Apabila anda sedang berusaha untuk menghasilkan model analitik ramalan, elakkan menyesuaikan model anda agar sesuai dengan sampel data anda dengan sempurna. Model sedemikian akan gagal - dengan teruk - untuk meramalkan dataset yang sama tetapi berbeza di luar sampel data. Memasang model terlalu dekat dengan sampel data tertentu adalah kesilapan klasik yang dipanggil overfitting .

Kesalahan yang berlebihan

Intinya, model overfitting adalah apa yang berlaku apabila anda mengalihkan model untuk mewakili hanya data sampel anda - yang bukan representasi data yang baik secara keseluruhan. Tanpa dataset yang lebih realistik untuk diteruskan, model itu kemudiannya akan dilayan dengan kesilapan dan risiko apabila ia berjalan - dan akibatnya kepada perniagaan anda boleh menjadi serius.

Model overfitting adalah perangkap biasa kerana orang ingin membuat model yang berfungsi - dan sebagainya dicobakan untuk memastikan pemboleh ubah dan parameter tweaking sehingga model berfungsi dengan sempurna - terlalu sedikit pada data. Untuk menyesatkan adalah manusia. Nasib baik, ia juga manusia untuk mewujudkan penyelesaian yang realistik.

Untuk mengelakkan model anda lebih banyak untuk dataset sampel anda, pastikan anda mempunyai satu data ujian yang tersedia yang berasingan daripada data sampel anda. Kemudian anda boleh mengukur prestasi model anda secara berasingan sebelum membuat model beroperasi.

Oleh itu, satu perlindungan umum terhadap overfitting adalah untuk membahagikan data anda kepada dua bahagian: data latihan dan data ujian. Prestasi model terhadap data ujian akan memberitahu anda banyak tentang sama ada model itu sudah bersedia untuk dunia sebenar.

Satu lagi amalan terbaik adalah memastikan data anda mewakili populasi domain yang lebih besar yang anda buat. Semua model terlampau tahu adalah ciri khusus kumpulan data sampel yang dilatih untuk. Jika anda melatih model hanya pada (katakan) jualan snowshoe pada musim sejuk, jangan terkejut jika gagal dengan buruk apabila ia dijalankan semula pada data dari musim lain.

Bagaimana untuk mengelakkan terlalu banyak

Perlu berulang: Terlalu banyak tweaking model yang sesuai untuk menghasilkan yang lebih pantas. Satu tweak tersebut termasuk terlalu banyak pemboleh ubah dalam analisis. Pastikan pemboleh ubah tersebut minimum. Hanya masukkan pembolehubah yang anda lihat sebagai benar-benar diperlukan - orang yang anda percaya akan membuat perbezaan yang signifikan terhadap hasilnya.

Wawasan ini hanya datang dari pengetahuan yang mendalam mengenai domain perniagaan yang anda masuki. Di sinilah kepakaran pakar domain dapat membantu mencegah anda daripada terjebak dalam perangkap yang terlalu pantas.

Berikut ialah senarai semakan amalan terbaik untuk membantu anda mengelakkan model yang lebih baik:

Memilih dataset untuk berfungsi dengan itu mewakili penduduk keseluruhannya.
Bahagikan dataset anda kepada dua bahagian: data latihan dan data ujian.
Simpan pemboleh ubah yang dianalisis kepada minimum yang sihat bagi tugas di tangan.
Dapatkan bantuan ahli pengetahuan domain.

Di pasaran saham misalnya, teknik analitik klasik back-testing - menjalankan model terhadap data sejarah untuk mencari strategi perdagangan terbaik.

Anggaplah, selepas menjalankan model barunya terhadap data yang dijana oleh pasaran lembu yang baru-baru ini, dan menaikkan jumlah pembolehubah yang digunakan dalam analisisnya, penganalisis membuat apa yang kelihatan seperti strategi perdagangan yang optimum - yang menghasilkan pulangan tertinggi < jika dia boleh kembali dan berdagang hanya pada tahun yang menghasilkan data ujian. Malangnya, dia tidak boleh. Jika dia cuba menerapkan model itu di pasaran beruang semasa, lihat di bawah: Dia akan menanggung kerugian dengan menggunakan model terlalu dioptimumkan untuk tempoh masa yang sempit dan sekumpulan syarat yang tidak sesuai dengan realiti semasa. (Begitu banyak untuk keuntungan hipotetikal.)

Model ini hanya berfungsi untuk pasaran lembu yang hilang itu kerana ia terlalu banyak, yang mengandungi konteks konteks yang menghasilkan data sampel - lengkap dengan spesifik, luar biasa, dan kekurangannya. Segala keadaan di sekeliling dataset itu mungkin tidak akan diulang di masa depan, atau dalam perwakilan sebenar seluruh penduduk - tetapi mereka semua muncul dalam model overfitted.

Jika output model terlalu tepat, pertimbangkan bahawa petunjuk untuk melihat lebih dekat. Dapatkan bantuan pakar pengetahuan domain untuk melihat sama ada hasil anda benar-benar terlalu baik untuk menjadi kenyataan, dan jalankan model itu pada lebih banyak data ujian untuk perbandingan lebih lanjut.