Cara Membuat Model Analisis Predictive dengan Regrression R - dummies

Video: 02 Regresi Linear dengan R Prediksi menggunakan Model Regresi 2025

Anda ingin membuat model analisis ramalan yang boleh anda perolehi dengan menggunakan hasil yang diketahui. Untuk melakukan itu, kami akan memecahkan dataset kami kepada dua set: satu untuk melatih model dan satu untuk menguji model. Pembahagian 70/30 antara kumpulan latihan dan ujian akan mencukupi. Dua barisan kod berikutnya akan mengira dan menyimpan saiz setiap set: >> trainSize testSize <- nrow (autos) - trainSize

Untuk mengeluarkan nilai-nilai, taipkan nama pembolehubah yang digunakan untuk menyimpan nilai dan tekan enter. Inilah output:

>> trainSize [1] 279> testSize [1] 119

Kod ini menentukan saiz dataset yang anda berikan untuk membuat dataset latihan dan ujian kami. Anda masih belum mencipta set itu. Juga, anda tidak mahu hanya memanggil 279 pemerhatian pertama latihan dan memanggil pemerhatian terakhir 119 set ujian. Itu akan membuat model yang buruk kerana dataset itu muncul yang dipesan. Khususnya, lajur model itu dipesan dari terkecil hingga paling besar.

Dari memeriksa data, anda dapat melihat bahawa sebahagian besar lebih besar, lapan silinder, pergeseran yang lebih besar, autos kuasa lebih besar menetap di bahagian atas dataset. Dari pemerhatian ini, tanpa perlu menjalankan sebarang algoritma pada data, anda sudah boleh memberitahu bahawa (secara umum untuk dataset ini) kereta lebih tua berbanding dengan kereta yang lebih baru seperti berikut:

Lebih berat

Mempunyai lapan silinder

Memiliki anjakan yang lebih besar
Mempunyai tenaga kuda yang lebih tinggi
Okay, jelas banyak orang tahu sesuatu tentang kereta, jadi tanya tentang apa yang korelasi itu tidak akan terlalu jauh selepas anda melihat data. Seseorang yang mempunyai banyak pengetahuan kereta mungkin sudah tahu ini tanpa melihat data.
Ini hanyalah satu contoh domain (kereta) yang mudah difahami oleh ramai orang. Jika ini adalah data mengenai kanser, namun kebanyakan orang tidak akan segera memahami apa arti setiap sifat.

Ini adalah di mana ahli domain dan pemodelan data sangat penting untuk proses pemodelan. Pakar domain mungkin mempunyai pengetahuan yang terbaik yang sifatnya paling penting (atau paling tidak) penting - dan bagaimana sifat-sifatnya berkait dengan satu sama lain.

Mereka boleh mencadangkan kepada pemodelan data yang pemboleh ubah untuk bereksperimen dengan. Mereka boleh memberikan berat yang lebih besar kepada atribut yang lebih penting dan / atau berat yang lebih kecil kepada atribut-atribut yang paling tidak penting (atau menghapusnya sama sekali).

Jadi anda perlu membuat dataset latihan dan dataset ujian yang benar-benar mewakili seluruh set. Salah satu cara untuk melakukannya ialah untuk mencipta set latihan dari pemilihan rawak keseluruhan dataset.Di samping itu, anda ingin membuat ujian ini dapat dihasilkan supaya anda dapat belajar dari contoh yang sama.

Oleh itu tetapkan benih untuk penjana rawak supaya kami akan mempunyai set latihan "rawak" sama. Kod berikut melakukan tugas itu: >> ditetapkan. seed (123)> training_indices <- sample (seq_len (nrow (autos)), size = trainSize)> trainSet testSet <- autos [-training_indices,]

(mpg) setiap pemerhatian. Algoritma regresi menggunakan hasil untuk melatih model dengan melihat hubungan antara pemboleh ubah ramalan (salah satu daripada tujuh atribut) dan pemboleh ubah tindak balas (mpg).

Set ujian mengandungi sisa data (iaitu bahagian yang tidak termasuk dalam set latihan). Anda perlu perhatikan bahawa set ujian juga termasuk pembolehubah tindak balas (mpg).

Apabila anda menggunakan fungsi ramalan (dari model) dengan set ujian, ia mengabaikan pembolehubah tindak balas dan hanya menggunakan pembolehubah ramalan selagi nama lajur adalah sama dengan yang terdapat dalam set latihan.

Untuk membuat model regresi linear yang menggunakan atribut mpg sebagai pembolehubah tindak balas dan semua pembolehubah lain sebagai pemboleh ubah ramalan, ketik baris kod berikut: >> model