Rumah Kewangan Peribadi Klasifikasi Algoritma Digunakan dalam Sains Data - dummies

Klasifikasi Algoritma Digunakan dalam Sains Data - dummies

Video: #TechTalk: Python VS R, Manakah yang Lebih Baik untuk Data Science? 2024

Video: #TechTalk: Python VS R, Manakah yang Lebih Baik untuk Data Science? 2024
Anonim

Dengan algoritma klasifikasi, anda mengambil dataset yang ada dan gunakan apa yang anda ketahui mengenainya untuk menghasilkan model ramalan untuk digunakan dalam klasifikasi mata data masa depan. Sekiranya matlamat anda adalah untuk menggunakan dataset anda dan subset yang diketahui untuk membina model untuk meramalkan pengkategorian titik data masa depan, anda perlu menggunakan algoritma pengklasifikasian.

Apabila melaksanakan klasifikasi yang diselia, anda sudah pasti mengetahui subset data anda - subset ini dipanggil kategori . Klasifikasi membantu anda melihat seberapa baik data anda sesuai dengan kategori yang telah ditentukan sebelumnya supaya anda boleh membina model ramalan untuk digunakan dalam mengklasifikasikan mata data masa depan.

Angka ini menggambarkan bagaimana ia mengklasifikasikan kumpulan Pendapatan dan Pendidikan Bank Dunia mengikut kategori Benua.

Anda dapat melihatnya, dalam sesetengah kes, subset yang anda mungkin mengenal pasti dengan teknik clustering sesuai dengan kategori benua, tetapi dalam keadaan lain, mereka tidak. Misalnya, lihat negara Asia di tengah-tengah titik data Afrika. Itu Bhutan. Anda boleh menggunakan data dalam dataset ini untuk membina model yang akan meramalkan kategori benua untuk titik data masuk.

Tetapi jika anda memperkenalkan titik data untuk sebuah negara baru yang memperlihatkan statistik yang mirip dengan Bhutan, maka negara baru boleh dikategorikan sebagai sebahagian daripada benua Asia atau benua Afrika, bergantung mengenai bagaimana anda menentukan model anda.

Sekarang bayangkan keadaan di mana data asal anda tidak termasuk Bhutan, dan anda menggunakan model untuk meramalkan benua Bhutan sebagai titik data baru. Dalam senario ini, model itu salah memprediksi bahawa Bhutan adalah sebahagian daripada benua Afrika.

Ini adalah satu contoh model yang berlebihan - keadaan di mana model sangat rapat dengan dataset yang mendasarinya, serta bunyi atau ralat rawak yang wujud dalam dataset itu, bahawa model itu menunjukkan prestasi buruk sebagai peramal bagi titik data baru.

Untuk mengelakkan model yang lebih besar, bahagikan data anda ke dalam set latihan dan set ujian. Nisbah tipikal adalah untuk menetapkan 80 peratus data ke dalam set latihan dan baki 20 peratus ke dalam set ujian. Bina model anda dengan set latihan, dan kemudian gunakan set ujian untuk menilai model dengan berpura-pura bahawa titik data ujian-ujian tidak diketahui. Anda boleh menilai ketepatan model anda dengan membandingkan kategori yang diberikan kepada mata data set ujian ini oleh model ke kategori benar.

Model overenerasi juga boleh menjadi masalah. Overgeneralization adalah bertentangan dengan overfitting: Ia berlaku apabila seorang saintis data cuba untuk mengelakkan pengkelasan kerana terlalu mahal dengan membuat model yang sangat umum. Model-model yang terlalu umum akan menentukan setiap kategori dengan tahap keyakinan yang rendah.

Untuk menggambarkan model penjanaan semula, perhatikan semula kumpulan data Pendapatan dan Pendidikan Bank Dunia. Sekiranya model itu menggunakan kehadiran Bhutan untuk membantah keraguan pada setiap titik data baru di kawasan sekitarnya, maka anda akan mendapat model mewah yang memperlakukan semua titik terdekat sebagai Afrika tetapi dengan kebarangkalian yang rendah. Model ini akan menjadi pelaku ramalan yang lemah.

Metafora yang baik untuk overfitting dan overgeneralization boleh digambarkan melalui frasa yang terkenal, "Jika ia berjalan seperti itik dan ceramah seperti itik, maka itik itik. "Berlebihan akan mengubah frasa ini menjadi," Itulah itik jika, dan hanya jika, ia berjalan dan bermain dengan betul dalam cara yang saya sendiri memerhatikan bebek untuk berjalan dan mendera. Oleh kerana saya tidak pernah memerhatikan cara jalan bebola dan belulang itik di Australia, itik itik Australia tidak boleh benar-benar menjadi itik sama sekali. "

Sebaliknya, pengembalian berlebihan akan berkata," Jika ia bergerak di atas dua kaki dan memancarkan bunyi nyaring yang tinggi, itulah itik. Oleh itu, Fran Fine, watak Fran Drescher dalam 'sitcom' 90s Amerika Syarikat The Nanny mestilah itik. "

Pembelajaran mesin yang diselia - istilah mewah untuk klasifikasi - sesuai dalam situasi di mana ciri-ciri berikut adalah benar:

  • Anda tahu dan memahami dataset yang anda analisa.

  • Subset (kategori) dataset anda ditentukan lebih awal dari masa dan tidak ditentukan oleh data.

  • Anda ingin membina model yang menghubungkan data dalam kategori yang telah dipratentukan supaya model dapat membantu meramalkan pengkategorian titik data masa depan.

Apabila melakukan klasifikasi, pastikan perkara-perkara berikut diingat:

  • Ramalan model hanya sebagai baik sebagai data asas model. Dalam contoh data Bank Dunia, boleh jadi, jika faktor lain seperti harapan hidup atau penggunaan tenaga per kapita ditambahkan ke model, kekuatan ramalannya mungkin meningkat.

  • Ramalan model hanya sebaik pengkategorian dataset yang mendasari. Sebagai contoh, apa yang anda lakukan dengan negara seperti Rusia yang merangkumi dua benua? Adakah anda membezakan Afrika Utara dari sub-Sahara Afrika? Adakah anda benjolan Amerika Utara dengan Eropah kerana mereka cenderung berkongsi sifat yang serupa? Adakah anda menganggap Amerika Tengah menjadi sebahagian daripada Amerika Utara atau Amerika Selatan?

Terdapat bahaya yang berterusan untuk overfitting dan overgeneralization. Satu medium gembira mesti dijumpai di antara keduanya.

Klasifikasi Algoritma Digunakan dalam Sains Data - dummies

Pilihan Editor

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Sifat kotak, anda boleh meletakkan objek gaya di mana saja di dalam tetingkap penyemak imbas, objek kedudukan berbanding dengan objek lain pada halaman, dan gunakan peraturan gaya padding dan margin kotak secara selektif untuk mana-mana atau semua empat objek gaya sebagai kiri dan bawah atau atas, kiri, dan ...

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Kadar adalah salah satu istilah pemasaran yang paling mengelirukan dari e-mel. Ia sebenarnya mengukur bilangan interaksi tertentu dengan pelayan e-mel selepas e-mel dihantar dinyatakan sebagai peratusan jumlah tidak melantun. E-mel anda tidak dikira sebagai terbuka sehingga salah satu daripada interaksi berikut berlaku: Penerima membolehkan imej ...

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress adalah perisian bebas sumber terbuka yang dapat anda unduh, memasang, dan gunakan untuk membina komuniti sosial anda sendiri di laman web anda yang berkuasa WordPress. Untuk melakukan ini, anda memerlukan pemahaman asas tentang ciri dan terminologi BuddyPress. Mencipta komuniti sosial anda sendiri mudah dilakukan dengan BuddyPress, tetapi jika anda memerlukan bantuan, anda boleh bertanya ...

Pilihan Editor

Menikmati Magic of Mindful Movies - dummies

Menikmati Magic of Mindful Movies - dummies

Tidak ada cara yang lebih baik untuk mengembangkan pengalaman pemikiran anda melampaui batas fizikal United Kingdom dan mengembangkan wawasan anda daripada menikmati filem yang cenderung berfikiran. Filem untuk kanak-kanak: Kung Fu Panda (Mark Osborne, John Stevenson, 2008). Filem animasi moden ini sering merujuk kepada kuasa yang datang dari ...

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Kadang-kadang, hanya apa yang anda perlukan untuk pengalaman pemikiran yang mendalam. Mendengarkan CD berkualiti boleh memindahkan anda ke luar United Kingdom dan benar-benar membuka fikiran anda kepada idea-idea. CD berikut disyorkan: Meditasi Berpandu: Untuk Ketenangan, Kesedaran dan Cinta oleh Bodhipaksa. A ...

Freemason yang terkenal - orang-orang buatan

Freemason yang terkenal - orang-orang buatan

Yang hebat dan paling cemerlang di dunia atau Freemason. Kumpulan-kumpulan ini memberikan anda jauh dari senarai komprehensif - mereka hanya contoh: Bapa pengasas: Freemason yang paling terkenal di Amerika, George Washington telah dimulakan pada tahun 1752, di Fredericksburg, Virginia. Bapa pengasas lain yang juga Mason termasuk Benjamin Franklin, Marquis de ...

Pilihan Editor

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Subjek tertumpukan tajam dan latar belakang yang lembut dan kabur. Ikuti langkah-langkah ini untuk mengambil potret seperti Canon Rebel Digital anda.

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

DSLR yang dijual hari ini, kamera Canon EOS Rebel T7i / 800D menawarkan Live View, yang menyahdayakan pemidang tilik dan sebaliknya memaparkan pratonton langsung subjek anda pada monitor kamera. Senarai berikut menerangkan asas penggunaan Live View: Switch to Live View for photography: Tekan butang Live View untuk beralih dari ...