Isi kandungan:
Video: MP 010 Predictive Analytic 2024
Apabila anda belajar bahasa pengaturcaraan yang baru, sudah biasa untuk menulis program "halo dunia". Untuk pembelajaran mesin dan analisis ramalan, membuat model untuk mengklasifikasikan dataset Iris adalah program yang setara dengan "halo dunia". Ini adalah contoh yang agak mudah, tetapi sangat berkesan dalam mengajar asas pembelajaran mesin dan analisis ramalan.
Bagaimana untuk mendapatkan dataset sampel
Untuk mencipta model ramalan kami, anda perlu memuatkan sampel dataset Iris. Dataset ini tersedia secara bebas dari banyak sumber, terutama di institusi akademik yang mempunyai jabatan pembelajaran mesin. Nasib baik, orang-orang di cukup baik untuk memasukkan beberapa sampel data dan fungsi pemuatan data bersama dengan pakej mereka. Untuk tujuan contoh-contoh ini, anda hanya perlu menjalankan beberapa kod mudah untuk memuatkan data.
Cara label data anda
Berikut adalah satu pemerhatian dan ciri-cirinya dari setiap kelas kumpulan Bunga Iris.
Sepal Panjang | Sepal Lebar | Panjang Petal | Lebar Petal | Kelas Sasaran / Label |
---|---|---|---|---|
5. 1 | 3. 5 | 1. 4 | 0. 2 | Setosa (0) |
7. 0 | 3. 2 | 4. 7 | 1. 4 | Versicolor (1) |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Virginica (2) |
Data Bunga Iris adalah kumpulan dataset multivariate tiga kelas bunga Iris ( Iris setosa, Iris virginica, dan Iris versicolor ) yang diperkenalkan oleh Ronald Fisher dalam artikelnya tahun 1936, "Penggunaan Pengukuran Berbilang dalam Masalah Taxonomic. "Dataset ini paling terkenal kerana penggunaannya yang luas dalam akademik untuk pembelajaran mesin dan statistik.
Dataset terdiri daripada 150 kes total, dengan 50 contoh dari masing-masing 3 kelas bunga Iris. Sampel tersebut mempunyai 4 ciri (biasanya dipanggil atribut ), yang merupakan ukuran panjang dan lebar sepal dan kelopak.
Bahagian menarik dalam dataset ini ialah ketiga-tiga kelas ini agak boleh dipisahkan secara linear. Kelas Setosa boleh dipisahkan dari dua kelas yang lain dengan melukis garis lurus pada graf di antara mereka. Kelas Virginica dan Versicolor tidak dapat dipisahkan dengan sempurna menggunakan garis lurus - walaupun ia hampir. Ini menjadikannya dataset calon yang sempurna untuk melakukan analisis klasifikasi tetapi tidak begitu baik untuk analisis kluster.
Data sampel telah dilabelkan. Lajur kanan (Label) di atas menunjukkan nama setiap kelas bunga Iris.Nama kelas dipanggil label label atau ; ia biasanya diberikan kepada pembolehubah yang dinamakan y . Ia pada dasarnya adalah hasil atau hasil daripada apa yang diramalkan.
Dalam statistik dan pemodelan, ia sering dirujuk sebagai pembolehubah bergantung . Ia bergantung pada input yang sepadan dengan panjang dan lebar sepal dan panjang kelopak dan lebar. Anda mungkin juga ingin mengetahui apa yang berbeza mengenai dataset Iris yang telah diproses terlebih dahulu, berbanding dengan dataset yang asal. Untuk mengetahui, anda perlu mendapatkan fail data asal. Anda boleh melakukan pencarian Google untuk
dataset iris dan muat turunnya atau lihatnya dari salah satu institusi akademik. Hasil yang lazimnya muncul pertama adalah repositori mesin pembelajaran Universiti University of California (UCI). Dataset Iris dalam keadaan asalnya dari repositori mesin pembelajaran UCI boleh didapati di laman web UCI.
Jika anda memuat turunnya, anda sepatutnya dapat melihatnya dengan mana-mana editor teks. Apabila melihat data dalam fail, anda akan melihat bahawa terdapat lima lajur dalam setiap baris. Empat lajur pertama adalah pengukuran (dirujuk sebagai
ciri ) dan lajur terakhir adalah label. Labelnya berbeza antara versi asli dan scikit daripada dataset Iris. Perbezaan lain ialah baris pertama fail data. Ia termasuk baris tajuk yang digunakan oleh fungsi pemuatan data scikit. Ia tidak memberi kesan kepada algoritma itu sendiri.
Menormalkan ciri ke nombor daripada menyimpannya sebagai teks memudahkan algoritma memprosesnya - dan ia lebih banyak memori. Ini amat jelas jika anda menjalankan dataset yang sangat besar dengan banyak ciri - yang sering berlaku dalam senario sebenar.
Berikut adalah contoh data dari kedua-dua fail. Semua lajur data adalah sama kecuali untuk Col5. Perhatikan bahawa scikit mempunyai nama kelas dengan label berangka; fail asal mempunyai label teks.
Sumber
Col1 | Col2 | Col3 | Col4 | Col5 | scikit |
---|---|---|---|---|---|
5. 1 | 3. 5 | 1. 4 | 0. 2 | 0 | asal |
5. 1 | 3. 5 | 1. 4 | 0. 2 | Iris-setosa | scikit |
7. 0 | 3. 2 | 4. 7 | 1. 4 | 1 | asal |
7. 0 | 3. 2 | 4. 7 | 1. 4 | Iris-versicolor | scikit |
6. 3 | 3. 3 | 6. 0 | 2. 5 | 2 | asal |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Iris-virginica |