Rumah Kewangan Peribadi Bagaimana Menyediakan Data untuk Analisis Prediktif - dummies

Bagaimana Menyediakan Data untuk Analisis Prediktif - dummies

Isi kandungan:

Video: MP 010 Predictive Analytic 2024

Video: MP 010 Predictive Analytic 2024
Anonim

Apabila anda belajar bahasa pengaturcaraan yang baru, sudah biasa untuk menulis program "halo dunia". Untuk pembelajaran mesin dan analisis ramalan, membuat model untuk mengklasifikasikan dataset Iris adalah program yang setara dengan "halo dunia". Ini adalah contoh yang agak mudah, tetapi sangat berkesan dalam mengajar asas pembelajaran mesin dan analisis ramalan.

Bagaimana untuk mendapatkan dataset sampel

Untuk mencipta model ramalan kami, anda perlu memuatkan sampel dataset Iris. Dataset ini tersedia secara bebas dari banyak sumber, terutama di institusi akademik yang mempunyai jabatan pembelajaran mesin. Nasib baik, orang-orang di cukup baik untuk memasukkan beberapa sampel data dan fungsi pemuatan data bersama dengan pakej mereka. Untuk tujuan contoh-contoh ini, anda hanya perlu menjalankan beberapa kod mudah untuk memuatkan data.

Cara label data anda

Berikut adalah satu pemerhatian dan ciri-cirinya dari setiap kelas kumpulan Bunga Iris.

Sepal Panjang Sepal Lebar Panjang Petal Lebar Petal Kelas Sasaran / Label
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Data Bunga Iris adalah kumpulan dataset multivariate tiga kelas bunga Iris ( Iris setosa, Iris virginica, dan Iris versicolor ) yang diperkenalkan oleh Ronald Fisher dalam artikelnya tahun 1936, "Penggunaan Pengukuran Berbilang dalam Masalah Taxonomic. "Dataset ini paling terkenal kerana penggunaannya yang luas dalam akademik untuk pembelajaran mesin dan statistik.

Dataset terdiri daripada 150 kes total, dengan 50 contoh dari masing-masing 3 kelas bunga Iris. Sampel tersebut mempunyai 4 ciri (biasanya dipanggil atribut ), yang merupakan ukuran panjang dan lebar sepal dan kelopak.

Bahagian menarik dalam dataset ini ialah ketiga-tiga kelas ini agak boleh dipisahkan secara linear. Kelas Setosa boleh dipisahkan dari dua kelas yang lain dengan melukis garis lurus pada graf di antara mereka. Kelas Virginica dan Versicolor tidak dapat dipisahkan dengan sempurna menggunakan garis lurus - walaupun ia hampir. Ini menjadikannya dataset calon yang sempurna untuk melakukan analisis klasifikasi tetapi tidak begitu baik untuk analisis kluster.

Data sampel telah dilabelkan. Lajur kanan (Label) di atas menunjukkan nama setiap kelas bunga Iris.Nama kelas dipanggil label label atau ; ia biasanya diberikan kepada pembolehubah yang dinamakan y . Ia pada dasarnya adalah hasil atau hasil daripada apa yang diramalkan.

Dalam statistik dan pemodelan, ia sering dirujuk sebagai pembolehubah bergantung . Ia bergantung pada input yang sepadan dengan panjang dan lebar sepal dan panjang kelopak dan lebar. Anda mungkin juga ingin mengetahui apa yang berbeza mengenai dataset Iris yang telah diproses terlebih dahulu, berbanding dengan dataset yang asal. Untuk mengetahui, anda perlu mendapatkan fail data asal. Anda boleh melakukan pencarian Google untuk

dataset iris dan muat turunnya atau lihatnya dari salah satu institusi akademik. Hasil yang lazimnya muncul pertama adalah repositori mesin pembelajaran Universiti University of California (UCI). Dataset Iris dalam keadaan asalnya dari repositori mesin pembelajaran UCI boleh didapati di laman web UCI.

Jika anda memuat turunnya, anda sepatutnya dapat melihatnya dengan mana-mana editor teks. Apabila melihat data dalam fail, anda akan melihat bahawa terdapat lima lajur dalam setiap baris. Empat lajur pertama adalah pengukuran (dirujuk sebagai

ciri ) dan lajur terakhir adalah label. Labelnya berbeza antara versi asli dan scikit daripada dataset Iris. Perbezaan lain ialah baris pertama fail data. Ia termasuk baris tajuk yang digunakan oleh fungsi pemuatan data scikit. Ia tidak memberi kesan kepada algoritma itu sendiri.

Menormalkan ciri ke nombor daripada menyimpannya sebagai teks memudahkan algoritma memprosesnya - dan ia lebih banyak memori. Ini amat jelas jika anda menjalankan dataset yang sangat besar dengan banyak ciri - yang sering berlaku dalam senario sebenar.

Berikut adalah contoh data dari kedua-dua fail. Semua lajur data adalah sama kecuali untuk Col5. Perhatikan bahawa scikit mempunyai nama kelas dengan label berangka; fail asal mempunyai label teks.

Sumber

Bagaimana Menyediakan Data untuk Analisis Prediktif - dummies

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...

Col1 Col2 Col3 Col4 Col5 scikit
5. 1 3. 5 1. 4 0. 2 0 asal
5. 1 3. 5 1. 4 0. 2 Iris-setosa scikit
7. 0 3. 2 4. 7 1. 4 1 asal
7. 0 3. 2 4. 7 1. 4 Iris-versicolor scikit
6. 3 3. 3 6. 0 2. 5 2 asal
6. 3 3. 3 6. 0 2. 5 Iris-virginica