Rumah Kewangan Peribadi Bagaimana Menyediakan Data untuk Analisis Prediktif - dummies

Bagaimana Menyediakan Data untuk Analisis Prediktif - dummies

Isi kandungan:

Video: MP 010 Predictive Analytic 2024

Video: MP 010 Predictive Analytic 2024
Anonim

Apabila anda belajar bahasa pengaturcaraan yang baru, sudah biasa untuk menulis program "halo dunia". Untuk pembelajaran mesin dan analisis ramalan, membuat model untuk mengklasifikasikan dataset Iris adalah program yang setara dengan "halo dunia". Ini adalah contoh yang agak mudah, tetapi sangat berkesan dalam mengajar asas pembelajaran mesin dan analisis ramalan.

Bagaimana untuk mendapatkan dataset sampel

Untuk mencipta model ramalan kami, anda perlu memuatkan sampel dataset Iris. Dataset ini tersedia secara bebas dari banyak sumber, terutama di institusi akademik yang mempunyai jabatan pembelajaran mesin. Nasib baik, orang-orang di cukup baik untuk memasukkan beberapa sampel data dan fungsi pemuatan data bersama dengan pakej mereka. Untuk tujuan contoh-contoh ini, anda hanya perlu menjalankan beberapa kod mudah untuk memuatkan data.

Cara label data anda

Berikut adalah satu pemerhatian dan ciri-cirinya dari setiap kelas kumpulan Bunga Iris.

Sepal Panjang Sepal Lebar Panjang Petal Lebar Petal Kelas Sasaran / Label
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Data Bunga Iris adalah kumpulan dataset multivariate tiga kelas bunga Iris ( Iris setosa, Iris virginica, dan Iris versicolor ) yang diperkenalkan oleh Ronald Fisher dalam artikelnya tahun 1936, "Penggunaan Pengukuran Berbilang dalam Masalah Taxonomic. "Dataset ini paling terkenal kerana penggunaannya yang luas dalam akademik untuk pembelajaran mesin dan statistik.

Dataset terdiri daripada 150 kes total, dengan 50 contoh dari masing-masing 3 kelas bunga Iris. Sampel tersebut mempunyai 4 ciri (biasanya dipanggil atribut ), yang merupakan ukuran panjang dan lebar sepal dan kelopak.

Bahagian menarik dalam dataset ini ialah ketiga-tiga kelas ini agak boleh dipisahkan secara linear. Kelas Setosa boleh dipisahkan dari dua kelas yang lain dengan melukis garis lurus pada graf di antara mereka. Kelas Virginica dan Versicolor tidak dapat dipisahkan dengan sempurna menggunakan garis lurus - walaupun ia hampir. Ini menjadikannya dataset calon yang sempurna untuk melakukan analisis klasifikasi tetapi tidak begitu baik untuk analisis kluster.

Data sampel telah dilabelkan. Lajur kanan (Label) di atas menunjukkan nama setiap kelas bunga Iris.Nama kelas dipanggil label label atau ; ia biasanya diberikan kepada pembolehubah yang dinamakan y . Ia pada dasarnya adalah hasil atau hasil daripada apa yang diramalkan.

Dalam statistik dan pemodelan, ia sering dirujuk sebagai pembolehubah bergantung . Ia bergantung pada input yang sepadan dengan panjang dan lebar sepal dan panjang kelopak dan lebar. Anda mungkin juga ingin mengetahui apa yang berbeza mengenai dataset Iris yang telah diproses terlebih dahulu, berbanding dengan dataset yang asal. Untuk mengetahui, anda perlu mendapatkan fail data asal. Anda boleh melakukan pencarian Google untuk

dataset iris dan muat turunnya atau lihatnya dari salah satu institusi akademik. Hasil yang lazimnya muncul pertama adalah repositori mesin pembelajaran Universiti University of California (UCI). Dataset Iris dalam keadaan asalnya dari repositori mesin pembelajaran UCI boleh didapati di laman web UCI.

Jika anda memuat turunnya, anda sepatutnya dapat melihatnya dengan mana-mana editor teks. Apabila melihat data dalam fail, anda akan melihat bahawa terdapat lima lajur dalam setiap baris. Empat lajur pertama adalah pengukuran (dirujuk sebagai

ciri ) dan lajur terakhir adalah label. Labelnya berbeza antara versi asli dan scikit daripada dataset Iris. Perbezaan lain ialah baris pertama fail data. Ia termasuk baris tajuk yang digunakan oleh fungsi pemuatan data scikit. Ia tidak memberi kesan kepada algoritma itu sendiri.

Menormalkan ciri ke nombor daripada menyimpannya sebagai teks memudahkan algoritma memprosesnya - dan ia lebih banyak memori. Ini amat jelas jika anda menjalankan dataset yang sangat besar dengan banyak ciri - yang sering berlaku dalam senario sebenar.

Berikut adalah contoh data dari kedua-dua fail. Semua lajur data adalah sama kecuali untuk Col5. Perhatikan bahawa scikit mempunyai nama kelas dengan label berangka; fail asal mempunyai label teks.

Sumber

Bagaimana Menyediakan Data untuk Analisis Prediktif - dummies

Pilihan Editor

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Sifat kotak, anda boleh meletakkan objek gaya di mana saja di dalam tetingkap penyemak imbas, objek kedudukan berbanding dengan objek lain pada halaman, dan gunakan peraturan gaya padding dan margin kotak secara selektif untuk mana-mana atau semua empat objek gaya sebagai kiri dan bawah atau atas, kiri, dan ...

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Kadar adalah salah satu istilah pemasaran yang paling mengelirukan dari e-mel. Ia sebenarnya mengukur bilangan interaksi tertentu dengan pelayan e-mel selepas e-mel dihantar dinyatakan sebagai peratusan jumlah tidak melantun. E-mel anda tidak dikira sebagai terbuka sehingga salah satu daripada interaksi berikut berlaku: Penerima membolehkan imej ...

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress adalah perisian bebas sumber terbuka yang dapat anda unduh, memasang, dan gunakan untuk membina komuniti sosial anda sendiri di laman web anda yang berkuasa WordPress. Untuk melakukan ini, anda memerlukan pemahaman asas tentang ciri dan terminologi BuddyPress. Mencipta komuniti sosial anda sendiri mudah dilakukan dengan BuddyPress, tetapi jika anda memerlukan bantuan, anda boleh bertanya ...

Pilihan Editor

Menikmati Magic of Mindful Movies - dummies

Menikmati Magic of Mindful Movies - dummies

Tidak ada cara yang lebih baik untuk mengembangkan pengalaman pemikiran anda melampaui batas fizikal United Kingdom dan mengembangkan wawasan anda daripada menikmati filem yang cenderung berfikiran. Filem untuk kanak-kanak: Kung Fu Panda (Mark Osborne, John Stevenson, 2008). Filem animasi moden ini sering merujuk kepada kuasa yang datang dari ...

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Kadang-kadang, hanya apa yang anda perlukan untuk pengalaman pemikiran yang mendalam. Mendengarkan CD berkualiti boleh memindahkan anda ke luar United Kingdom dan benar-benar membuka fikiran anda kepada idea-idea. CD berikut disyorkan: Meditasi Berpandu: Untuk Ketenangan, Kesedaran dan Cinta oleh Bodhipaksa. A ...

Freemason yang terkenal - orang-orang buatan

Freemason yang terkenal - orang-orang buatan

Yang hebat dan paling cemerlang di dunia atau Freemason. Kumpulan-kumpulan ini memberikan anda jauh dari senarai komprehensif - mereka hanya contoh: Bapa pengasas: Freemason yang paling terkenal di Amerika, George Washington telah dimulakan pada tahun 1752, di Fredericksburg, Virginia. Bapa pengasas lain yang juga Mason termasuk Benjamin Franklin, Marquis de ...

Pilihan Editor

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Subjek tertumpukan tajam dan latar belakang yang lembut dan kabur. Ikuti langkah-langkah ini untuk mengambil potret seperti Canon Rebel Digital anda.

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

DSLR yang dijual hari ini, kamera Canon EOS Rebel T7i / 800D menawarkan Live View, yang menyahdayakan pemidang tilik dan sebaliknya memaparkan pratonton langsung subjek anda pada monitor kamera. Senarai berikut menerangkan asas penggunaan Live View: Switch to Live View for photography: Tekan butang Live View untuk beralih dari ...

Col1 Col2 Col3 Col4 Col5 scikit
5. 1 3. 5 1. 4 0. 2 0 asal
5. 1 3. 5 1. 4 0. 2 Iris-setosa scikit
7. 0 3. 2 4. 7 1. 4 1 asal
7. 0 3. 2 4. 7 1. 4 Iris-versicolor scikit
6. 3 3. 3 6. 0 2. 5 2 asal
6. 3 3. 3 6. 0 2. 5 Iris-virginica