Klasifikasi Algoritma Digunakan dalam Sains Data - dummies

Dengan algoritma klasifikasi, anda mengambil dataset yang ada dan gunakan apa yang anda ketahui mengenainya untuk menghasilkan model ramalan untuk digunakan dalam klasifikasi mata data masa depan. Sekiranya matlamat anda adalah untuk menggunakan dataset anda dan subset yang diketahui untuk membina model untuk meramalkan pengkategorian titik data masa depan, anda perlu menggunakan algoritma pengklasifikasian.

Apabila melaksanakan klasifikasi yang diselia, anda sudah pasti mengetahui subset data anda - subset ini dipanggil kategori . Klasifikasi membantu anda melihat seberapa baik data anda sesuai dengan kategori yang telah ditentukan sebelumnya supaya anda boleh membina model ramalan untuk digunakan dalam mengklasifikasikan mata data masa depan.

Angka ini menggambarkan bagaimana ia mengklasifikasikan kumpulan Pendapatan dan Pendidikan Bank Dunia mengikut kategori Benua.

Anda dapat melihatnya, dalam sesetengah kes, subset yang anda mungkin mengenal pasti dengan teknik clustering sesuai dengan kategori benua, tetapi dalam keadaan lain, mereka tidak. Misalnya, lihat negara Asia di tengah-tengah titik data Afrika. Itu Bhutan. Anda boleh menggunakan data dalam dataset ini untuk membina model yang akan meramalkan kategori benua untuk titik data masuk.

Tetapi jika anda memperkenalkan titik data untuk sebuah negara baru yang memperlihatkan statistik yang mirip dengan Bhutan, maka negara baru boleh dikategorikan sebagai sebahagian daripada benua Asia atau benua Afrika, bergantung mengenai bagaimana anda menentukan model anda.

Sekarang bayangkan keadaan di mana data asal anda tidak termasuk Bhutan, dan anda menggunakan model untuk meramalkan benua Bhutan sebagai titik data baru. Dalam senario ini, model itu salah memprediksi bahawa Bhutan adalah sebahagian daripada benua Afrika.

Ini adalah satu contoh model yang berlebihan - keadaan di mana model sangat rapat dengan dataset yang mendasarinya, serta bunyi atau ralat rawak yang wujud dalam dataset itu, bahawa model itu menunjukkan prestasi buruk sebagai peramal bagi titik data baru.

Untuk mengelakkan model yang lebih besar, bahagikan data anda ke dalam set latihan dan set ujian. Nisbah tipikal adalah untuk menetapkan 80 peratus data ke dalam set latihan dan baki 20 peratus ke dalam set ujian. Bina model anda dengan set latihan, dan kemudian gunakan set ujian untuk menilai model dengan berpura-pura bahawa titik data ujian-ujian tidak diketahui. Anda boleh menilai ketepatan model anda dengan membandingkan kategori yang diberikan kepada mata data set ujian ini oleh model ke kategori benar.

Model overenerasi juga boleh menjadi masalah. Overgeneralization adalah bertentangan dengan overfitting: Ia berlaku apabila seorang saintis data cuba untuk mengelakkan pengkelasan kerana terlalu mahal dengan membuat model yang sangat umum. Model-model yang terlalu umum akan menentukan setiap kategori dengan tahap keyakinan yang rendah.

Untuk menggambarkan model penjanaan semula, perhatikan semula kumpulan data Pendapatan dan Pendidikan Bank Dunia. Sekiranya model itu menggunakan kehadiran Bhutan untuk membantah keraguan pada setiap titik data baru di kawasan sekitarnya, maka anda akan mendapat model mewah yang memperlakukan semua titik terdekat sebagai Afrika tetapi dengan kebarangkalian yang rendah. Model ini akan menjadi pelaku ramalan yang lemah.

Metafora yang baik untuk overfitting dan overgeneralization boleh digambarkan melalui frasa yang terkenal, "Jika ia berjalan seperti itik dan ceramah seperti itik, maka itik itik. "Berlebihan akan mengubah frasa ini menjadi," Itulah itik jika, dan hanya jika, ia berjalan dan bermain dengan betul dalam cara yang saya sendiri memerhatikan bebek untuk berjalan dan mendera. Oleh kerana saya tidak pernah memerhatikan cara jalan bebola dan belulang itik di Australia, itik itik Australia tidak boleh benar-benar menjadi itik sama sekali. "

Sebaliknya, pengembalian berlebihan akan berkata," Jika ia bergerak di atas dua kaki dan memancarkan bunyi nyaring yang tinggi, itulah itik. Oleh itu, Fran Fine, watak Fran Drescher dalam 'sitcom' 90s Amerika Syarikat The Nanny mestilah itik. "

Pembelajaran mesin yang diselia - istilah mewah untuk klasifikasi - sesuai dalam situasi di mana ciri-ciri berikut adalah benar:

Anda tahu dan memahami dataset yang anda analisa.
Subset (kategori) dataset anda ditentukan lebih awal dari masa dan tidak ditentukan oleh data.
Anda ingin membina model yang menghubungkan data dalam kategori yang telah dipratentukan supaya model dapat membantu meramalkan pengkategorian titik data masa depan.

Apabila melakukan klasifikasi, pastikan perkara-perkara berikut diingat:

Ramalan model hanya sebagai baik sebagai data asas model. Dalam contoh data Bank Dunia, boleh jadi, jika faktor lain seperti harapan hidup atau penggunaan tenaga per kapita ditambahkan ke model, kekuatan ramalannya mungkin meningkat.
Ramalan model hanya sebaik pengkategorian dataset yang mendasari. Sebagai contoh, apa yang anda lakukan dengan negara seperti Rusia yang merangkumi dua benua? Adakah anda membezakan Afrika Utara dari sub-Sahara Afrika? Adakah anda benjolan Amerika Utara dengan Eropah kerana mereka cenderung berkongsi sifat yang serupa? Adakah anda menganggap Amerika Tengah menjadi sebahagian daripada Amerika Utara atau Amerika Selatan?

Terdapat bahaya yang berterusan untuk overfitting dan overgeneralization. Satu medium gembira mesti dijumpai di antara keduanya.