Rumah Kewangan Peribadi Klasifikasi Algoritma Digunakan dalam Sains Data - dummies

Klasifikasi Algoritma Digunakan dalam Sains Data - dummies

Video: #TechTalk: Python VS R, Manakah yang Lebih Baik untuk Data Science? 2024

Video: #TechTalk: Python VS R, Manakah yang Lebih Baik untuk Data Science? 2024
Anonim

Dengan algoritma klasifikasi, anda mengambil dataset yang ada dan gunakan apa yang anda ketahui mengenainya untuk menghasilkan model ramalan untuk digunakan dalam klasifikasi mata data masa depan. Sekiranya matlamat anda adalah untuk menggunakan dataset anda dan subset yang diketahui untuk membina model untuk meramalkan pengkategorian titik data masa depan, anda perlu menggunakan algoritma pengklasifikasian.

Apabila melaksanakan klasifikasi yang diselia, anda sudah pasti mengetahui subset data anda - subset ini dipanggil kategori . Klasifikasi membantu anda melihat seberapa baik data anda sesuai dengan kategori yang telah ditentukan sebelumnya supaya anda boleh membina model ramalan untuk digunakan dalam mengklasifikasikan mata data masa depan.

Angka ini menggambarkan bagaimana ia mengklasifikasikan kumpulan Pendapatan dan Pendidikan Bank Dunia mengikut kategori Benua.

Anda dapat melihatnya, dalam sesetengah kes, subset yang anda mungkin mengenal pasti dengan teknik clustering sesuai dengan kategori benua, tetapi dalam keadaan lain, mereka tidak. Misalnya, lihat negara Asia di tengah-tengah titik data Afrika. Itu Bhutan. Anda boleh menggunakan data dalam dataset ini untuk membina model yang akan meramalkan kategori benua untuk titik data masuk.

Tetapi jika anda memperkenalkan titik data untuk sebuah negara baru yang memperlihatkan statistik yang mirip dengan Bhutan, maka negara baru boleh dikategorikan sebagai sebahagian daripada benua Asia atau benua Afrika, bergantung mengenai bagaimana anda menentukan model anda.

Sekarang bayangkan keadaan di mana data asal anda tidak termasuk Bhutan, dan anda menggunakan model untuk meramalkan benua Bhutan sebagai titik data baru. Dalam senario ini, model itu salah memprediksi bahawa Bhutan adalah sebahagian daripada benua Afrika.

Ini adalah satu contoh model yang berlebihan - keadaan di mana model sangat rapat dengan dataset yang mendasarinya, serta bunyi atau ralat rawak yang wujud dalam dataset itu, bahawa model itu menunjukkan prestasi buruk sebagai peramal bagi titik data baru.

Untuk mengelakkan model yang lebih besar, bahagikan data anda ke dalam set latihan dan set ujian. Nisbah tipikal adalah untuk menetapkan 80 peratus data ke dalam set latihan dan baki 20 peratus ke dalam set ujian. Bina model anda dengan set latihan, dan kemudian gunakan set ujian untuk menilai model dengan berpura-pura bahawa titik data ujian-ujian tidak diketahui. Anda boleh menilai ketepatan model anda dengan membandingkan kategori yang diberikan kepada mata data set ujian ini oleh model ke kategori benar.

Model overenerasi juga boleh menjadi masalah. Overgeneralization adalah bertentangan dengan overfitting: Ia berlaku apabila seorang saintis data cuba untuk mengelakkan pengkelasan kerana terlalu mahal dengan membuat model yang sangat umum. Model-model yang terlalu umum akan menentukan setiap kategori dengan tahap keyakinan yang rendah.

Untuk menggambarkan model penjanaan semula, perhatikan semula kumpulan data Pendapatan dan Pendidikan Bank Dunia. Sekiranya model itu menggunakan kehadiran Bhutan untuk membantah keraguan pada setiap titik data baru di kawasan sekitarnya, maka anda akan mendapat model mewah yang memperlakukan semua titik terdekat sebagai Afrika tetapi dengan kebarangkalian yang rendah. Model ini akan menjadi pelaku ramalan yang lemah.

Metafora yang baik untuk overfitting dan overgeneralization boleh digambarkan melalui frasa yang terkenal, "Jika ia berjalan seperti itik dan ceramah seperti itik, maka itik itik. "Berlebihan akan mengubah frasa ini menjadi," Itulah itik jika, dan hanya jika, ia berjalan dan bermain dengan betul dalam cara yang saya sendiri memerhatikan bebek untuk berjalan dan mendera. Oleh kerana saya tidak pernah memerhatikan cara jalan bebola dan belulang itik di Australia, itik itik Australia tidak boleh benar-benar menjadi itik sama sekali. "

Sebaliknya, pengembalian berlebihan akan berkata," Jika ia bergerak di atas dua kaki dan memancarkan bunyi nyaring yang tinggi, itulah itik. Oleh itu, Fran Fine, watak Fran Drescher dalam 'sitcom' 90s Amerika Syarikat The Nanny mestilah itik. "

Pembelajaran mesin yang diselia - istilah mewah untuk klasifikasi - sesuai dalam situasi di mana ciri-ciri berikut adalah benar:

  • Anda tahu dan memahami dataset yang anda analisa.

  • Subset (kategori) dataset anda ditentukan lebih awal dari masa dan tidak ditentukan oleh data.

  • Anda ingin membina model yang menghubungkan data dalam kategori yang telah dipratentukan supaya model dapat membantu meramalkan pengkategorian titik data masa depan.

Apabila melakukan klasifikasi, pastikan perkara-perkara berikut diingat:

  • Ramalan model hanya sebagai baik sebagai data asas model. Dalam contoh data Bank Dunia, boleh jadi, jika faktor lain seperti harapan hidup atau penggunaan tenaga per kapita ditambahkan ke model, kekuatan ramalannya mungkin meningkat.

  • Ramalan model hanya sebaik pengkategorian dataset yang mendasari. Sebagai contoh, apa yang anda lakukan dengan negara seperti Rusia yang merangkumi dua benua? Adakah anda membezakan Afrika Utara dari sub-Sahara Afrika? Adakah anda benjolan Amerika Utara dengan Eropah kerana mereka cenderung berkongsi sifat yang serupa? Adakah anda menganggap Amerika Tengah menjadi sebahagian daripada Amerika Utara atau Amerika Selatan?

Terdapat bahaya yang berterusan untuk overfitting dan overgeneralization. Satu medium gembira mesti dijumpai di antara keduanya.

Klasifikasi Algoritma Digunakan dalam Sains Data - dummies

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...