Rumah Kewangan Peribadi Bagaimana Menyediakan Data untuk Analisis Prediktif - dummies

Bagaimana Menyediakan Data untuk Analisis Prediktif - dummies

Isi kandungan:

Video: MP 010 Predictive Analytic 2025

Video: MP 010 Predictive Analytic 2025
Anonim

Apabila anda belajar bahasa pengaturcaraan yang baru, sudah biasa untuk menulis program "halo dunia". Untuk pembelajaran mesin dan analisis ramalan, membuat model untuk mengklasifikasikan dataset Iris adalah program yang setara dengan "halo dunia". Ini adalah contoh yang agak mudah, tetapi sangat berkesan dalam mengajar asas pembelajaran mesin dan analisis ramalan.

Bagaimana untuk mendapatkan dataset sampel

Untuk mencipta model ramalan kami, anda perlu memuatkan sampel dataset Iris. Dataset ini tersedia secara bebas dari banyak sumber, terutama di institusi akademik yang mempunyai jabatan pembelajaran mesin. Nasib baik, orang-orang di cukup baik untuk memasukkan beberapa sampel data dan fungsi pemuatan data bersama dengan pakej mereka. Untuk tujuan contoh-contoh ini, anda hanya perlu menjalankan beberapa kod mudah untuk memuatkan data.

Cara label data anda

Berikut adalah satu pemerhatian dan ciri-cirinya dari setiap kelas kumpulan Bunga Iris.

Sepal Panjang Sepal Lebar Panjang Petal Lebar Petal Kelas Sasaran / Label
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Data Bunga Iris adalah kumpulan dataset multivariate tiga kelas bunga Iris ( Iris setosa, Iris virginica, dan Iris versicolor ) yang diperkenalkan oleh Ronald Fisher dalam artikelnya tahun 1936, "Penggunaan Pengukuran Berbilang dalam Masalah Taxonomic. "Dataset ini paling terkenal kerana penggunaannya yang luas dalam akademik untuk pembelajaran mesin dan statistik.

Dataset terdiri daripada 150 kes total, dengan 50 contoh dari masing-masing 3 kelas bunga Iris. Sampel tersebut mempunyai 4 ciri (biasanya dipanggil atribut ), yang merupakan ukuran panjang dan lebar sepal dan kelopak.

Bahagian menarik dalam dataset ini ialah ketiga-tiga kelas ini agak boleh dipisahkan secara linear. Kelas Setosa boleh dipisahkan dari dua kelas yang lain dengan melukis garis lurus pada graf di antara mereka. Kelas Virginica dan Versicolor tidak dapat dipisahkan dengan sempurna menggunakan garis lurus - walaupun ia hampir. Ini menjadikannya dataset calon yang sempurna untuk melakukan analisis klasifikasi tetapi tidak begitu baik untuk analisis kluster.

Data sampel telah dilabelkan. Lajur kanan (Label) di atas menunjukkan nama setiap kelas bunga Iris.Nama kelas dipanggil label label atau ; ia biasanya diberikan kepada pembolehubah yang dinamakan y . Ia pada dasarnya adalah hasil atau hasil daripada apa yang diramalkan.

Dalam statistik dan pemodelan, ia sering dirujuk sebagai pembolehubah bergantung . Ia bergantung pada input yang sepadan dengan panjang dan lebar sepal dan panjang kelopak dan lebar. Anda mungkin juga ingin mengetahui apa yang berbeza mengenai dataset Iris yang telah diproses terlebih dahulu, berbanding dengan dataset yang asal. Untuk mengetahui, anda perlu mendapatkan fail data asal. Anda boleh melakukan pencarian Google untuk

dataset iris dan muat turunnya atau lihatnya dari salah satu institusi akademik. Hasil yang lazimnya muncul pertama adalah repositori mesin pembelajaran Universiti University of California (UCI). Dataset Iris dalam keadaan asalnya dari repositori mesin pembelajaran UCI boleh didapati di laman web UCI.

Jika anda memuat turunnya, anda sepatutnya dapat melihatnya dengan mana-mana editor teks. Apabila melihat data dalam fail, anda akan melihat bahawa terdapat lima lajur dalam setiap baris. Empat lajur pertama adalah pengukuran (dirujuk sebagai

ciri ) dan lajur terakhir adalah label. Labelnya berbeza antara versi asli dan scikit daripada dataset Iris. Perbezaan lain ialah baris pertama fail data. Ia termasuk baris tajuk yang digunakan oleh fungsi pemuatan data scikit. Ia tidak memberi kesan kepada algoritma itu sendiri.

Menormalkan ciri ke nombor daripada menyimpannya sebagai teks memudahkan algoritma memprosesnya - dan ia lebih banyak memori. Ini amat jelas jika anda menjalankan dataset yang sangat besar dengan banyak ciri - yang sering berlaku dalam senario sebenar.

Berikut adalah contoh data dari kedua-dua fail. Semua lajur data adalah sama kecuali untuk Col5. Perhatikan bahawa scikit mempunyai nama kelas dengan label berangka; fail asal mempunyai label teks.

Sumber

Bagaimana Menyediakan Data untuk Analisis Prediktif - dummies

Pilihan Editor

Bagaimana Menghubungkan Item Menu ke Kategori di Joomla - dummies

Bagaimana Menghubungkan Item Menu ke Kategori di Joomla - dummies

Untuk artikel yang dikategorikan dalam Joomla untuk dilihat oleh pengguna laman web anda, anda perlu memautkan item menu Joomla anda ke kategori Joomla yang mengandungi artikel yang ingin anda siarkan. Dengan menyambungkan kategori ke item menu, semua artikel dalam kategori boleh didapati melalui item menu yang berkaitan. Untuk membuat ...

Cara Memasang Joomla CMS pada Server Jauh - dummies

Cara Memasang Joomla CMS pada Server Jauh - dummies

Sebaik sahaja anda telah memuatkan fail Joomla yang tidak diturunkan di pelayan jauh dan sediakan MySQL untuk Joomla, anda sudah bersedia untuk memasang Sistem Pengurusan Kandungan Joomla (CMS). Navigasi ke tapak anda di pelayan tuan rumah. Anda melihat halaman pemasangan Joomla pertama. Pilih bahasa. Klik Seterusnya. Semua item dalam pane bahagian atas ...

Cara Membiarkan Pengguna Menguruskan Akaun Sendiri di Joomla - dummies

Cara Membiarkan Pengguna Menguruskan Akaun Sendiri di Joomla - dummies

Walaupun anda boleh mengurus pengguna dari hujung belakang, Joomla menyediakan kemudahan yang baik yang membolehkan pengguna menguruskan diri mereka juga. Anda boleh membuat halaman di mana pengguna boleh mendaftar, log masuk, menetapkan semula kata laluan mereka, diingatkan kata laluan mereka, dan sebagainya. Buat laman pengurusan pengguna Untuk membuat halaman yang membolehkan pengguna mengurus sendiri, anda ...

Pilihan Editor

Pengguna dan Definisi SharePoint berbeza - dummies

Pengguna dan Definisi SharePoint berbeza - dummies

SharePoint mempunyai banyak jenis pengguna yang berbeza, dan bergantung di mana peranan anda sesuai , anda mungkin mempunyai pengalaman yang sangat berbeza dari pengguna SharePoint yang lain. Sebagai contoh, anda mungkin ditugaskan untuk membuat dan mentadbir laman web SharePoint untuk pasukan anda. Dalam kes ini, anda mungkin melihat ke hadapan fungsi yang luas SharePoint ...

Dan Microblog dalam SharePoint - dummies

Dan Microblog dalam SharePoint - dummies

Microblogging dibuat terkenal oleh Twitter. SharePoint 2013 membawa mikroblogging ke dunia korporat. Menggunakan Twitter, anda menghantar mesej ringkas kepada dunia. Anda boleh mengikuti orang lain dan menarik pengikut anda sendiri. Anda menyebut orang lain menggunakan simbol @ yang diikuti dengan nama mereka dan boleh menanda topik menggunakan # ...

Mengeksport Table Akses ke Senarai Dalam Talian SharePoint - dummies

Mengeksport Table Akses ke Senarai Dalam Talian SharePoint - dummies

Jika anda mempunyai meja dalam Akses yang ada pangkalan data yang anda ingin sediakan untuk ahli pasukan anda yang tidak mempunyai aplikasi MS Access 2010, cara terbaik untuk melakukan ini adalah untuk mengeksport jadual tersebut ke dalam senarai SharePoint. Ikuti langkah-langkah berikut: Dari pangkalan data anda, klik kanan pada jadual di ...

Pilihan Editor

Penyediaan aSVAB: Akar - patung

Penyediaan aSVAB: Akar - patung

Menjadi akrab dengan akar untuk ASVAB. Akar adalah kebalikan dari kuasa atau eksponen. Terdapat pelbagai jenis akar tak terhingga. Anda mempunyai akar kuadrat, yang bermaksud "membuang" asas kepada kuasa kedua; akar kubus, yang bermaksud "membuang" asas yang dinaikkan kepada kuasa ketiga; akar yang keempat, untuk ...

ASVAB Penyediaan: Bekerja dengan Perpuluhan - patung

ASVAB Penyediaan: Bekerja dengan Perpuluhan - patung

Anda perlu tahu bagaimana untuk bekerja dengan perpuluhan untuk ASBAB . Perpuluhan adalah kaedah menulis nombor pecahan tanpa menggunakan pengangka dan penyebut. Anda boleh menulis pecahan 7/10 sebagai perpuluhan 0. 7; anda menyebutnya "tujuh persepuluh" atau "titik nol tujuh. "Tempoh atau titik perpuluhan menunjukkan bahawa nombor itu ...

ASVAB Subtest Details - dummies

ASVAB Subtest Details - dummies

Tergantung di mana dan untuk tujuan apa yang anda ambil ujian, anda mungkin menghadapi beberapa versi ASVAB. Versi terkomputer dari ASVAB (CAT-ASVAB) mengandungi sembilan subtest masa yang berasingan. Pada CAT-ASVAB, Maklumat Auto dan Maklumat Kedai dipisahkan kepada dua ujian berbeza, sedangkan mereka digabungkan pada versi kertas. Lihatlah ...

Col1 Col2 Col3 Col4 Col5 scikit
5. 1 3. 5 1. 4 0. 2 0 asal
5. 1 3. 5 1. 4 0. 2 Iris-setosa scikit
7. 0 3. 2 4. 7 1. 4 1 asal
7. 0 3. 2 4. 7 1. 4 Iris-versicolor scikit
6. 3 3. 3 6. 0 2. 5 2 asal
6. 3 3. 3 6. 0 2. 5 Iris-virginica