Video: Age of Deceit (2) - Hive Mind Reptile Eyes Hypnotism Cults World Stage - Multi - Language 2024
Satu lagi tugas dalam analisis ramalan adalah untuk mengklasifikasikan data baru dengan meramalkan apa kelas item sasaran data kepunyaan, diberi set pembolehubah bebas. Sebagai contoh, anda boleh mengklasifikasikan pelanggan mengikut jenis - katakan, sebagai pelanggan bernilai tinggi, pelanggan tetap, atau pelanggan yang bersedia untuk beralih kepada pesaing - dengan menggunakan pokok keputusan.
Untuk melihat beberapa maklumat berguna mengenai model Pengelasan R, ketik kod berikut:
Lajur Kelas memberitahu anda bahawa anda telah membuat pokok keputusan. Untuk melihat bagaimana pecahan ditentukan, anda boleh menaip nama pembolehubah di mana anda telah memberi model, dalam model kes ini, seperti ini: >> model Inferens kesesuaian pohon dengan 6 terminal nod Response: seedType Inputs: kawasan, perimeter, kekencangan, panjang, lebar, asimetri, panjang2 Bilangan pemerhatian: 147 1) kawasan <= 16. 2; kriteria = 1, statistik = 123. 423 2) kawasan <= 13. 37; kriteria = 1, statistik = 63. 549 3) panjang2 4. 914 5) * berat = 45 2) kawasan> 13. 37 6) panjang2 5. 396 8) * berat = 8 1) kawasan> 16. 2 9) length2 5. 877 11) * berat = 40
Lebih baik, anda dapat memvisualisasikan model dengan membuat plot pokok keputusan dengan kod ini:> plot (model)
Ini adalah representasi grafik dari pokok keputusan. Anda dapat melihat bahawa bentuk keseluruhan meniru pokok yang sebenar. Ia diperbuat daripada
nod(lingkaran dan segi empat tepat) dan pautan atau tepi (garis penyambung). Node yang pertama (bermula di bahagian atas) dipanggil nod akar
dan nod di bahagian bawah pokok (segi empat tepat) dipanggil nod terminal . Terdapat lima nod keputusan dan enam nod terminal.
Mula di nod akar, iaitu nod 1 (nombor ditunjukkan dalam persegi kecil di bahagian atas bulatan). Tentukan berdasarkan atribut: Adakah pemerhatian # 2 kurang daripada atau sama dengan (dilambangkan oleh <=) 16.2? jawapannya ya, jadi bergerak di sepanjang jalan ke simpul 2.
Pada simpul 2, model itu bertanya: Adakah kawasan itu ialah 13. 37? Jawapannya adalah ya, jadi bergerak sepanjang laluan ke simpul 6. Pada nod ini model bertanya: Apakah panjang2 <= 5. 396? ia adalah, dan anda berpindah ke terminal node 7 dan keputusannya adalah bahawa pemerhatian # 2 adalah jenis benih 1. Dan sebenarnya, jenis benih 1.
-
Model ini memprosesnya untuk semua pemerhatian lain untuk meramalkan mereka kelas.
-
Untuk mengetahui sama ada anda melatih model yang baik, periksa ia terhadap data latihan. Anda boleh melihat keputusan dalam jadual dengan kod berikut: >> jadual (meramalkan (model), trainSet $ seedType) 1 2 3 1 45 4 3 2 3 47 0 3 1 0 44
Hasil menunjukkan bahawa kesilapan (atau misclassification rate) adalah 11 daripada 147, atau 7. 48 peratus.
-
Dengan hasil yang dikira, langkah seterusnya adalah membaca jadual.
Ramalan yang betul adalah yang menunjukkan nombor lajur dan baris sebagai yang sama. Hasil tersebut muncul sebagai garis pepenjuru dari atas ke kiri ke kanan; contohnya [1, 1], [2, 2], [3, 3] adalah bilangan ramalan yang betul untuk kelas itu.
Oleh itu untuk jenis benih 1, model itu betul meramalkannya 45 kali, sedangkan misclassifying benih 7 kali (4 kali sebagai seed type 2, dan 3 times as type 3). Untuk jenis benih 2, model itu dengan tepat meramalkannya sebanyak 47 kali, sedangkan misclassifying itu 3 kali. Untuk jenis benih 3, model dengan betul meramalkannya sebanyak 44 kali, sementara salah mengasingkannya sekali sahaja.
-
Ini menunjukkan bahawa ini adalah model yang baik. Jadi sekarang anda menilainya dengan data ujian. Berikut ialah kod yang menggunakan data ujian untuk meramalkan dan menyimpannya dalam pemboleh ubah (testPrediction) untuk kegunaan kemudian: >> testPrediction <- predict (model, newdata = testSet)
Untuk menilai bagaimana model yang dilakukan dengan data ujian, lihat di dalam jadual dan hitung ralat, yang mana kod tersebut kelihatan seperti ini: >> jadual (testPrediction, testSet $ seedType) testPrediction 1 2 3 1 23 2 1 2 1 19 0 3 1 0 17