Kepentingan Pengklumpuan dan Klasifikasi dalam Sains Data - dummies

Video: Computational Linguistics, by Lucas Freitas 2024

Tujuan klustering dan klasifikasi algoritma adalah untuk memahami dan mengekstrak nilai dari set besar data berstruktur dan tidak berstruktur. Jika anda bekerja dengan jumlah besar data yang tidak tersusun, hanya masuk akal untuk cuba memisahkan data ke dalam beberapa jenis kumpulan logik sebelum cuba menganalisisnya.

Pengklumpuran dan pengklasifikasian membolehkan anda melihat pandangan anda secara beramai-ramai, dan kemudian membentuk beberapa struktur logik berdasarkan apa yang anda dapati di sana sebelum masuk ke dalam analisis kacang-dan-baut.

Dalam bentuk yang paling sederhana, kelompok adalah kumpulan titik data yang berkongsi atribut yang serupa, dan algoritma klustering adalah kaedah yang mengelompokkan data ini ke dalam pelbagai kelompok berdasarkan persamaan mereka. Anda akan melihat algoritma kluster yang digunakan untuk klasifikasi penyakit dalam sains perubatan, tetapi anda juga akan melihatnya digunakan untuk klasifikasi pelanggan dalam penyelidikan pemasaran dan penilaian risiko kesihatan alam sekitar dalam kejuruteraan alam sekitar.

Terdapat kaedah kluster yang berlainan, bergantung kepada cara anda mahu dibahagikan. Kedua-dua jenis algoritma kluster utama ialah

Hierarki: Algoritma membuat set berasingan kumpulan tersarang, masing-masing dalam tahap hirarki mereka sendiri.
Partitional: Algoritma membuat hanya satu set kluster.

Anda boleh menggunakan algoritma kluster hierarki hanya jika anda sudah mengetahui jarak pemisahan antara titik data dalam kumpulan data anda. Algoritma tetangga k-terdekat yang diterangkan dalam bab ini tergolong dalam kelas algoritma kluster hierarki.

Anda mungkin pernah mendengar klasifikasi dan menganggap bahawa klasifikasi adalah perkara yang sama seperti clustering. Ramai orang melakukan, tetapi ini tidak berlaku. Dalam klasifikasi, sebelum anda mula, anda sudah mengetahui bilangan kelas yang mana data anda dikumpulkan dan anda sudah tahu kelas apa yang anda mahu setiap titik data ditugaskan. Dalam klasifikasi, data dalam dataset yang dipelajari dari dilabelkan.

Apabila anda menggunakan algoritma kluster, di sisi lain, anda tidak mempunyai konsep yang telah ditetapkan untuk berapa banyak kelompok yang sesuai untuk data anda, dan anda bergantung kepada algoritma kluster untuk menyusun dan mengumpulkan data dengan cara yang paling sesuai. Dengan teknik kluster, anda belajar dari data tanpa label.

Untuk lebih jelas ilustrasi sifat klasifikasi, lihatlah Twitter dan sistem hash taggingnya.Katakanlah anda telah mendapat minuman kegemaran anda di seluruh dunia: karamel latte dari Starbucks. Anda sangat senang minum minuman yang anda memutuskan untuk tweet mengenainya dengan foto dan frasa "Ini adalah latte terbaik PERNAH! #StarbucksRocks. "Sudah tentu, anda menyertakan" #StarbucksRocks "dalam tweet anda supaya tweet masuk ke aliran #StarbucksRocks dan dikelaskan bersama-sama dengan semua tweet lain yang telah dilabelkan sebagai #StarbucksRocks. Penggunaan label hashtag anda dalam tweet anda memberitahu Twitter bagaimana mengklasifikasikan data anda ke kumpulan yang dikenali dan boleh diakses, atau cluster .