Rumah Kewangan Peribadi Kepentingan Pengklumpuan dan Klasifikasi dalam Sains Data - dummies

Kepentingan Pengklumpuan dan Klasifikasi dalam Sains Data - dummies

Video: Computational Linguistics, by Lucas Freitas 2024

Video: Computational Linguistics, by Lucas Freitas 2024
Anonim

Tujuan klustering dan klasifikasi algoritma adalah untuk memahami dan mengekstrak nilai dari set besar data berstruktur dan tidak berstruktur. Jika anda bekerja dengan jumlah besar data yang tidak tersusun, hanya masuk akal untuk cuba memisahkan data ke dalam beberapa jenis kumpulan logik sebelum cuba menganalisisnya.

Pengklumpuran dan pengklasifikasian membolehkan anda melihat pandangan anda secara beramai-ramai, dan kemudian membentuk beberapa struktur logik berdasarkan apa yang anda dapati di sana sebelum masuk ke dalam analisis kacang-dan-baut.

Dalam bentuk yang paling sederhana, kelompok adalah kumpulan titik data yang berkongsi atribut yang serupa, dan algoritma klustering adalah kaedah yang mengelompokkan data ini ke dalam pelbagai kelompok berdasarkan persamaan mereka. Anda akan melihat algoritma kluster yang digunakan untuk klasifikasi penyakit dalam sains perubatan, tetapi anda juga akan melihatnya digunakan untuk klasifikasi pelanggan dalam penyelidikan pemasaran dan penilaian risiko kesihatan alam sekitar dalam kejuruteraan alam sekitar.

Terdapat kaedah kluster yang berlainan, bergantung kepada cara anda mahu dibahagikan. Kedua-dua jenis algoritma kluster utama ialah

  • Hierarki: Algoritma membuat set berasingan kumpulan tersarang, masing-masing dalam tahap hirarki mereka sendiri.

  • Partitional: Algoritma membuat hanya satu set kluster.

Anda boleh menggunakan algoritma kluster hierarki hanya jika anda sudah mengetahui jarak pemisahan antara titik data dalam kumpulan data anda. Algoritma tetangga k-terdekat yang diterangkan dalam bab ini tergolong dalam kelas algoritma kluster hierarki.

Anda mungkin pernah mendengar klasifikasi dan menganggap bahawa klasifikasi adalah perkara yang sama seperti clustering. Ramai orang melakukan, tetapi ini tidak berlaku. Dalam klasifikasi, sebelum anda mula, anda sudah mengetahui bilangan kelas yang mana data anda dikumpulkan dan anda sudah tahu kelas apa yang anda mahu setiap titik data ditugaskan. Dalam klasifikasi, data dalam dataset yang dipelajari dari dilabelkan.

Apabila anda menggunakan algoritma kluster, di sisi lain, anda tidak mempunyai konsep yang telah ditetapkan untuk berapa banyak kelompok yang sesuai untuk data anda, dan anda bergantung kepada algoritma kluster untuk menyusun dan mengumpulkan data dengan cara yang paling sesuai. Dengan teknik kluster, anda belajar dari data tanpa label.

Untuk lebih jelas ilustrasi sifat klasifikasi, lihatlah Twitter dan sistem hash taggingnya.Katakanlah anda telah mendapat minuman kegemaran anda di seluruh dunia: karamel latte dari Starbucks. Anda sangat senang minum minuman yang anda memutuskan untuk tweet mengenainya dengan foto dan frasa "Ini adalah latte terbaik PERNAH! #StarbucksRocks. "Sudah tentu, anda menyertakan" #StarbucksRocks "dalam tweet anda supaya tweet masuk ke aliran #StarbucksRocks dan dikelaskan bersama-sama dengan semua tweet lain yang telah dilabelkan sebagai #StarbucksRocks. Penggunaan label hashtag anda dalam tweet anda memberitahu Twitter bagaimana mengklasifikasikan data anda ke kumpulan yang dikenali dan boleh diakses, atau cluster .

Kepentingan Pengklumpuan dan Klasifikasi dalam Sains Data - dummies

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...