Berjuang dengan Overfitting in Machine Learning - dummies

Memandangkan seni bina rangkaian neural, anda boleh membayangkan betapa mudahnya algoritma itu dapat belajar hampir apa-apa daripada data, terutamanya jika anda menambahkan terlalu banyak lapisan. Malah, algoritma itu begitu baik sehingga ramalannya sering dipengaruhi oleh varians anggaran tinggi yang disebut overfitting. Berlebihan menyebabkan rangkaian neural mempelajari setiap terperinci contoh latihan, yang memungkinkan untuk meniru mereka dalam fasa ramalan. Tetapi selain dari set latihan, ia tidak akan pernah meramalkan apa-apa yang berbeza.

Memahami masalah yang terlalu pantas

Apabila anda menggunakan rangkaian neural untuk masalah sebenar, anda perlu mengambil beberapa langkah amaran dengan cara yang lebih ketat daripada yang anda lakukan dengan algoritma lain. Rangkaian saraf adalah frailer dan lebih cenderung kepada kesilapan yang berkaitan berbanding penyelesaian pembelajaran mesin yang lain.

Pertama, anda telah memisahkan data anda dengan teliti ke dalam latihan, pengesahan, dan set ujian. Sebelum algoritma belajar dari data, anda mesti menilai kebaikan parameter anda: seni bina (bilangan lapisan dan nod di dalamnya); fungsi pengaktifan; parameter pembelajaran; dan bilangan lelaran. Khususnya, seni bina ini menawarkan peluang yang besar untuk mencipta model ramalan yang kuat dengan risiko yang berlebihan. Parameter pembelajaran mengawal seberapa cepat rangkaian belajar dari data, tetapi mungkin tidak mencukupi untuk menghalang data latihan yang terlalu besar.

Anda mempunyai dua penyelesaian yang mungkin untuk masalah ini:

Penyelesaian pertama adalah regularization, seperti dalam regresi linear dan logistik. Anda boleh merangkumi semua koefisien sambungan, kuasa dua atau nilai mutlak, untuk menghukum model dengan terlalu banyak pekali dengan nilai tinggi (dicapai oleh regulasi rajah L2) atau dengan nilai yang berbeza dari sifar (dicapai oleh regulasi rajah L1).
Penyelesaian kedua juga berkesan kerana ia mengendalikan apabila overfitting berlaku. Ia dipanggil awal berhenti dan berfungsi dengan memeriksa fungsi kos pada set pengesahan sebagai algoritma belajar dari set latihan.

Anda mungkin tidak menyedari apabila model anda bermula lebih pantas. Fungsi kos yang dikira menggunakan set latihan terus meningkat apabila pengoptimuman berlangsung. Bagaimanapun, sebaik sahaja anda mula merakam bunyi dari data dan berhenti belajar peraturan am, anda boleh menyemak fungsi kos pada sampel yang tidak dapat dieksekusi (contoh pengesahan). Pada satu ketika, anda akan melihat bahawa ia berhenti membaik dan mula semakin buruk, yang bermaksud bahawa model anda telah mencapai had pembelajarannya.

Membuka kotak hitam rangkaian neural

Cara terbaik untuk belajar bagaimana membina rangkaian saraf adalah membina satu. Python menawarkan pelbagai kemungkinan pelaksanaan untuk rangkaian saraf dan pembelajaran yang mendalam. Python mempunyai perpustakaan seperti Theano, yang membolehkan perhitungan yang kompleks pada tahap abstrak, dan lebih banyak pakej praktikal, seperti Lasagne, yang membolehkan anda membina rangkaian saraf, walaupun masih memerlukan beberapa abstraksi. Atas sebab ini, anda memerlukan pembalut, seperti nolearn, yang bersesuaian dengan scikit-learn, atau Keras, yang juga boleh membungkus pustaka TensorFlow yang dikeluarkan oleh Google yang berpotensi untuk menggantikan Theano sebagai perpustakaan perisian untuk pengiraan saraf.

R menyediakan perpustakaan yang kurang rumit dan lebih mudah diakses, seperti nnet, AMORE, dan neuralnet. Contoh ringkas dalam R menunjukkan cara melatih kedua-dua rangkaian klasifikasi (pada set data Iris) dan rangkaian regresi (pada set data Boston). Bermula dari klasifikasi, kod berikut memuatkan set data dan memecahnya ke dalam latihan dan set ujian:

perpustakaan (neuralnet)

sasaran <- model. matriks (~ Spesies & # x00A0; - 1, data = iris)

kolnames (target) <- c ("setosa", "versicolor", "virginica")

biji (101)

index <- sample (1: nrow (iris), 100)

train_predictors <- iris [index, 1: 4]

test_predictors <- iris [-index,

Oleh kerana rangkaian saraf bergantung kepada ketinggian gradien, anda perlu menyeragamkan atau menormalkan input. Normalisasi adalah lebih baik supaya minimum adalah sifar dan maksimum adalah satu untuk setiap ciri. Sememangnya, anda belajar bagaimana untuk menjadikan penukaran berangka menggunakan latihan yang ditetapkan untuk mengelakkan sebarang peluang menggunakan maklumat daripada ujian luar sampel.

min_vector <- apply (train_predictors, 2, min)

range_vector <- apply (train_predictors, 2, max) -

apply (train_predictors, (999) target ]

test_scaled <- cbind (skala (test_predictors,

min_vector, range_vector),

target [-index,]) < ringkasan (train_scaled)

Apabila latihan telah siap, anda boleh melatih model untuk meneka tiga pemboleh ubah biner, dengan setiap satu mewakili kelas. Output adalah nilai bagi setiap kelas yang berkadar dengan kebarangkalian menjadi kelas sebenar. Anda memilih ramalan dengan mengambil nilai tertinggi. Anda juga boleh memvisualisasikan rangkaian dengan menggunakan plot dalaman dan dengan itu melihat seni bina rangkaian neural dan berat yang ditugaskan. Set

. biji (102)

nn_iris <- neuralnet (setosa + versicolor + virginica ~

Sepal Length + Sepal Width

+ Petal Length + Petal Width, data = train_scaled, (2),

linear output = F)

plot (nn_iris)

ramalan <- hitung (nn_iris, test_scaled [1: 4])

y_predicted <- apply (predictions $ net. hasilnya, 1, yang mana max)

y_true <- apply (test_scaled [5: 7], 1, yang mana max)

confusion_matrix <- table (y_true, y_predicted)

diag (confusion_matrix)) /

jumlah (confusion_matrix)

print (confusion_matrix)

print (paste ("Ketepatan:", ketepatan))

Contoh berikut menunjukkan cara untuk meramalkan nilai rumah di Boston, menggunakan set data Boston. Prosedurnya adalah sama dengan klasifikasi sebelumnya, tetapi di sini anda mempunyai satu unit output tunggal. Kod ini juga memperlihatkan keputusan ramalan yang ditetapkan oleh ujian terhadap nilai sebenar untuk mengesahkan kesesuaian model.

no_examples <- nrow (Boston)

ciri <- kolnames (Boston)