K-Means dan Model Clustering DBSCAN untuk Analisis Prediktif - dummies

Video: Graph Clustering Algorithms (September 28, 2017) 2024

Pembelajaran tanpa pengawasan mempunyai banyak cabaran untuk analisis ramalan - termasuk tidak mengetahui apa yang diharapkan apabila anda menjalankan algoritma. Setiap algoritma akan menghasilkan hasil yang berbeza; anda tidak akan pasti sama ada satu keputusan adalah lebih baik daripada yang lain - atau sama ada hasilnya adalah apa-apa nilai.

Apabila anda tahu hasilnya, anda boleh tweak algoritma untuk menghasilkan hasil yang diinginkan. Dalam dataset dunia sebenar, anda tidak akan mempunyai kemewahan ini. Anda perlu bergantung kepada beberapa pengetahuan terdahulu tentang data - atau intuisi - untuk menentukan parameter inisialisasi dan algoritma yang digunakan semasa membuat model anda.

Walau bagaimanapun, dalam tugas pembelajaran tanpa pengawasan yang sebenar, pengetahuan terdahulu tidak tersedia dan hasil yang diinginkan sukar dicari. Memilih bilangan kluster yang betul adalah masalah utama. Sekiranya anda tersandung pada bilangan kluster yang betul, data anda akan memberi gambaran yang anda boleh membuat ramalan yang sangat tepat. Di sisi lain, meneka bilangan kluster yang salah boleh menghasilkan hasil yang rendah.

Algoritma K-berarti adalah pilihan yang baik untuk dataset yang mempunyai sejumlah kecil kluster dengan saiz berkadar dan data yang boleh dipisah secara linear - dan anda boleh meningkatkannya menggunakan algoritma pada dataset yang sangat besar.

Fikirkan data secara linear yang boleh dipisahkan sebagai sekumpulan mata dalam graf yang boleh dipisahkan dengan menggunakan garis lurus. Sekiranya data tidak boleh dipisahkan secara linear, maka versi K-means yang lebih canggih perlu digunakan - yang akan menjadi pengkomputeran yang lebih mahal dan mungkin tidak sesuai untuk dataset yang sangat besar. Dalam pelaksanaan standardnya, kerumitan untuk mengira pusat kluster dan jarak adalah rendah.

K-means digunakan secara meluas untuk menyelesaikan masalah data besar kerana ia mudah digunakan, berkesan, dan sangat berskala. Tidak hairanlah kebanyakan vendor komersil menggunakan algoritma K-berarti sebagai komponen utama bagi pakej analisis ramalan mereka.

Pelaksanaan dalam DBSCAN (Clustering Spatial Based Density Based Applications with Noise) dalam scikit-learn tidak memerlukan parameter inisialisasi yang ditetapkan oleh pengguna untuk membuat contoh. Anda boleh menindih parameter lalai semasa permulaan jika anda mahu. Malangnya, jika anda menggunakan parameter lalai, algoritma tidak dapat menyediakan padanan dekat dengan hasil yang diinginkan.

DBSCAN lebih sesuai untuk dataset yang mempunyai saiz cluster yang tidak seimbang, dan datanya boleh dipisahkan dalam cara yang tidak linear.Seperti K-means, DBSCAN adalah berskala, tetapi menggunakannya dalam dataset yang sangat besar memerlukan lebih banyak memori dan kuasa pengkomputeran.