Bagaimana Menyediakan Data untuk Analisis Prediktif - dummies

Apabila anda belajar bahasa pengaturcaraan yang baru, sudah biasa untuk menulis program "halo dunia". Untuk pembelajaran mesin dan analisis ramalan, membuat model untuk mengklasifikasikan dataset Iris adalah program yang setara dengan "halo dunia". Ini adalah contoh yang agak mudah, tetapi sangat berkesan dalam mengajar asas pembelajaran mesin dan analisis ramalan.

Bagaimana untuk mendapatkan dataset sampel

Untuk mencipta model ramalan kami, anda perlu memuatkan sampel dataset Iris. Dataset ini tersedia secara bebas dari banyak sumber, terutama di institusi akademik yang mempunyai jabatan pembelajaran mesin. Nasib baik, orang-orang di cukup baik untuk memasukkan beberapa sampel data dan fungsi pemuatan data bersama dengan pakej mereka. Untuk tujuan contoh-contoh ini, anda hanya perlu menjalankan beberapa kod mudah untuk memuatkan data.

Cara label data anda

Berikut adalah satu pemerhatian dan ciri-cirinya dari setiap kelas kumpulan Bunga Iris.

Sepal Panjang	Sepal Lebar	Panjang Petal	Lebar Petal	Kelas Sasaran / Label
5. 1	3. 5	1. 4	0. 2	Setosa (0)
7. 0	3. 2	4. 7	1. 4	Versicolor (1)
6. 3	3. 3	6. 0	2. 5	Virginica (2)

Data Bunga Iris adalah kumpulan dataset multivariate tiga kelas bunga Iris ( Iris setosa, Iris virginica, dan Iris versicolor ) yang diperkenalkan oleh Ronald Fisher dalam artikelnya tahun 1936, "Penggunaan Pengukuran Berbilang dalam Masalah Taxonomic. "Dataset ini paling terkenal kerana penggunaannya yang luas dalam akademik untuk pembelajaran mesin dan statistik.

Dataset terdiri daripada 150 kes total, dengan 50 contoh dari masing-masing 3 kelas bunga Iris. Sampel tersebut mempunyai 4 ciri (biasanya dipanggil atribut ), yang merupakan ukuran panjang dan lebar sepal dan kelopak.

Bahagian menarik dalam dataset ini ialah ketiga-tiga kelas ini agak boleh dipisahkan secara linear. Kelas Setosa boleh dipisahkan dari dua kelas yang lain dengan melukis garis lurus pada graf di antara mereka. Kelas Virginica dan Versicolor tidak dapat dipisahkan dengan sempurna menggunakan garis lurus - walaupun ia hampir. Ini menjadikannya dataset calon yang sempurna untuk melakukan analisis klasifikasi tetapi tidak begitu baik untuk analisis kluster.

Data sampel telah dilabelkan. Lajur kanan (Label) di atas menunjukkan nama setiap kelas bunga Iris.Nama kelas dipanggil label label atau ; ia biasanya diberikan kepada pembolehubah yang dinamakan y . Ia pada dasarnya adalah hasil atau hasil daripada apa yang diramalkan.

Dalam statistik dan pemodelan, ia sering dirujuk sebagai pembolehubah bergantung . Ia bergantung pada input yang sepadan dengan panjang dan lebar sepal dan panjang kelopak dan lebar. Anda mungkin juga ingin mengetahui apa yang berbeza mengenai dataset Iris yang telah diproses terlebih dahulu, berbanding dengan dataset yang asal. Untuk mengetahui, anda perlu mendapatkan fail data asal. Anda boleh melakukan pencarian Google untuk

dataset iris dan muat turunnya atau lihatnya dari salah satu institusi akademik. Hasil yang lazimnya muncul pertama adalah repositori mesin pembelajaran Universiti University of California (UCI). Dataset Iris dalam keadaan asalnya dari repositori mesin pembelajaran UCI boleh didapati di laman web UCI.

Jika anda memuat turunnya, anda sepatutnya dapat melihatnya dengan mana-mana editor teks. Apabila melihat data dalam fail, anda akan melihat bahawa terdapat lima lajur dalam setiap baris. Empat lajur pertama adalah pengukuran (dirujuk sebagai

ciri ) dan lajur terakhir adalah label. Labelnya berbeza antara versi asli dan scikit daripada dataset Iris. Perbezaan lain ialah baris pertama fail data. Ia termasuk baris tajuk yang digunakan oleh fungsi pemuatan data scikit. Ia tidak memberi kesan kepada algoritma itu sendiri.

Menormalkan ciri ke nombor daripada menyimpannya sebagai teks memudahkan algoritma memprosesnya - dan ia lebih banyak memori. Ini amat jelas jika anda menjalankan dataset yang sangat besar dengan banyak ciri - yang sering berlaku dalam senario sebenar.

Berikut adalah contoh data dari kedua-dua fail. Semua lajur data adalah sama kecuali untuk Col5. Perhatikan bahawa scikit mempunyai nama kelas dengan label berangka; fail asal mempunyai label teks.

Sumber

Bagaimana Menyediakan Data untuk Analisis Prediktif - dummies

Pilihan Editor

Col1	Col2	Col3	Col4	Col5	scikit
5. 1	3. 5	1. 4	0. 2	0	asal
5. 1	3. 5	1. 4	0. 2	Iris-setosa	scikit
7. 0	3. 2	4. 7	1. 4	1	asal
7. 0	3. 2	4. 7	1. 4	Iris-versicolor	scikit
6. 3	3. 3	6. 0	2. 5	2	asal
6. 3	3. 3	6. 0	2. 5	Iris-virginica

Bagaimana Menyediakan Data untuk Analisis Prediktif - dummies

Isi kandungan:

Video: MP 010 Predictive Analytic 2025

Bagaimana untuk mendapatkan dataset sampel

Cara label data anda

Pilihan Editor

Bagaimana Menghubungkan Item Menu ke Kategori di Joomla - dummies

Cara Memasang Joomla CMS pada Server Jauh - dummies

Cara Membiarkan Pengguna Menguruskan Akaun Sendiri di Joomla - dummies

Pilihan Editor

Pengguna dan Definisi SharePoint berbeza - dummies

Dan Microblog dalam SharePoint - dummies

Mengeksport Table Akses ke Senarai Dalam Talian SharePoint - dummies

Pilihan Editor

Penyediaan aSVAB: Akar - patung

ASVAB Penyediaan: Bekerja dengan Perpuluhan - patung

ASVAB Subtest Details - dummies

Pilihan Editor

Cara Menghantar Peta Situs XML ke Google dan Bing - dummies

Cara Menggunakan Eksperimen Kandungan untuk Menguji SEO Situs Anda - makmies

Cara Menggunakan Sitemap XML untuk SEO - dummies

Cara Menggunakan Operator Carian Terperinci untuk SEO - patung

Pilihan Editor

Bagaimana dengan Kelas Java Diagram dengan UML - dummies

Memuat turun dan memasang Java Development Kit (JDK) - dummies

Muat turun dan Pasang Java Development Kit - dummies

Cara Menentukan Kaedah Java dalam Kelas (Memaparkan Akaun) - dummies

Kategori popular