Rumah Kewangan Peribadi Cara Menggunakan K-means Algorithm Cluster dalam Analisis Predictive - dummies

Cara Menggunakan K-means Algorithm Cluster dalam Analisis Predictive - dummies

Video: Keynote (TensorFlow Dev Summit 2018) 2024

Video: Keynote (TensorFlow Dev Summit 2018) 2024
Anonim

K adalah input kepada algoritma untuk analisis ramalan; ia merujuk kepada bilangan kumpulan yang algoritma mesti diambil dari dataset, dinyatakan secara algebra sebagai k . Algoritma K-berarti membahagikan set data yang diberikan ke kluster k . Algoritma ini melakukan operasi berikut:

  1. Pilih k item rawak dari dataset dan labelkannya sebagai wakil kluster.

  2. Bersekutu setiap item yang tinggal di dalam dataset dengan wakil cluster terdekat, menggunakan jarak Euclidean yang dikira oleh fungsi kesamaan.

  3. Kira semula wakil kelompok baru.

  4. Ulangi Langkah 2 dan 3 sehingga kluster tidak berubah.

Perwakilan kumpulan adalah matematik bermakna (purata) semua item yang tergolong dalam kelompok yang sama. Perwakilan ini juga dikenali sebagai cluster centroid . Sebagai contoh, pertimbangkan tiga perkara dari dataset buah di mana

Jenis 1 sepadan dengan pisang.

Jenis 2 sepadan dengan epal.

Warna 2 sepadan dengan kuning.

Warna 3 sepadan dengan hijau.

Dengan mengandaikan bahawa item-item ini ditugaskan ke kluster yang sama, centroid tiga item ini dikira.

Item Ciri # 1 Jenis Ciri # 2 Warna Ciri # 3 Berat (Auns)
1 1 2 5. 33
2 2 3 9. 33
3 1 2 2. 1

Berikut adalah perhitungan wakil kluster tiga perkara yang tergolong dalam kelompok yang sama. Perwakilan kluster adalah vektor tiga sifat. Atributnya adalah purata sifat-sifat item dalam kluster yang dipersoalkan.

Item Ciri # 1 Jenis Ciri # 2 Warna Ciri # 3 Berat (Auns)
1 1 2 5. 33
2 2 3 9. 33
3 1 2 2. 1
Perwakilan Cluster (Centroid Vector) (1 + 2 + 1) / 3 = 1. 33 (2 + 3 + 2) / 3 = 2. 33 (5. 33 + 9. 33 +32. 1) / 3 = 3

Dataset yang ditunjukkan seterusnya terdiri daripada tujuh penarafan dua produk pelanggan, A dan B. Kedudukan mewakili bilangan mata antara 0 dan 10) yang setiap pelanggan telah diberikan kepada produk - lebih banyak mata diberikan, semakin tinggi produk itu disenaraikan.

Menggunakan algoritma K-berarti dan mengandaikan bahawa k sama dengan 2, dataset akan dibahagikan kepada dua kumpulan. Selebihnya tatacara seperti ini:

  1. Pilih dua item rawak dari dataset dan labelkannya sebagai wakil kluster.

    Berikut menunjukkan langkah awal memilih centroid rawak dari mana proses clustering K-bermula.Centroid permulaan dipilih secara rawak dari data yang akan anda analisa. Dalam kes ini, anda sedang mencari dua kluster, jadi dua item data dipilih secara rawak: Pelanggan 1 dan 5.

    Pada mulanya, proses kluster membina dua kluster di sekitar kedua-dua wakil kluster awal (dipilih secara rawak). Kemudian wakil kelompok dikira semula; pengiraan adalah berdasarkan item dalam setiap cluster.

    2 2 2
    3 4 3 < 6
    8 4 7
    10 5 10
    14 6 9
    10 7 7
    9 Periksa setiap item (pelanggan) yang lain dan serahkannya kepada wakil kluster yang paling hampir sama. Gunakan jarak
    Euclidean untuk mengira berapa item yang serupa dengan sekumpulan item: Kesamaan Item I ke Cluster X = sqrt {{{left ({{f_1} - {x_1 }} kanan)} ^ 2} + {{left ({{f_2} - {x_2}} kanan)} ^ 2} + cdots + {{left ({ }
  2. Nilai {f_1},; {f_2},; ldots,; {f_n} adalah nilai berangka ciri yang menggambarkan item yang dipersoalkan. Nilai {x_1},; {x_2},; ldots,; {x_n} adalah ciri (nilai min) wakil kluster (centroid), dengan asumsi bahawa setiap item mempunyai ciri

    n . Sebagai contoh, pertimbangkan item yang disebut Customer 2 (3, 4): Penarafan pelanggan untuk Produk A adalah 3 dan penarafan untuk Produk B ialah 4. Ciri wakil kelompok adalah (2, 2). Kesamaan Pelanggan 2 hingga Kluster 1 dikira seperti berikut: Kesamaan Item 2 hingga Kluster 1 = sqrt {{{left ({3 - 2} kanan)} ^ 2} + {{left ({4 - 2 } 2. 2 23

    Berikut adalah proses yang sama seperti Cluster 2:

    Similarity of Item 2 hingga Cluster 2 = sqrt {{{left ({3 - 10} right) } ^ 2} + {{left ({4 - 14} right)} ^ 2}} = 12. 20 Membandingkan hasil ini, anda memperuntukkan Item 2 (yaitu, Pelanggan 2) Perkara 2 lebih serupa dengan Cluster 1. Guna analisis kesamaan yang sama kepada setiap item lain dalam dataset.

    Setiap kali ahli baru menyertai kumpulan, anda mesti mengira semula wakil kluster.

    Ini menggambarkan hasil lelaran pertama algoritma K-mean. Perhatikan bahawa

    k

    sama dengan 2, jadi anda mencari dua kluster, yang membahagikan satu set pelanggan menjadi dua kumpulan yang bermakna. Setiap pelanggan dianalisis secara berasingan dan ditugaskan ke salah satu kluster berdasarkan kesamaan pelanggan kepada setiap wakil cluster semasa.

    Galakkan dataset sekali lagi, melalui setiap elemen; mengira keserupaan antara setiap unsur dan wakil cluster semasa.

  3. Perhatikan bahawa Pelanggan 3 telah berpindah dari Kluster 1 ke Kluster 2. Ini kerana jarak Pelanggan 3 ke wakil kluster Cluster 2 lebih dekat daripada kepada wakil cluster Cluster 1.

    Representasi Kluster (Centroid Vector) < Cluster 1

    ID Pelanggan # 1 (2, 2) Cluster 2 ID Pelanggan # 5 (10, 14)

  4. Iteration # 1

    Cluster Pelanggan 1 < 2

    Pelanggan yang akan diperiksa
    ID Pelanggan milik Kluster 1 Perwakilan Kluster
    ID Pelanggan milik Kluster 1 Perwakilan Kluster
    1 (2, 2) > 5 (10, 14)
    2 1, 2 (2.4, 3) 5 (10, 14)
    3 1, 2, 3 14) 4
    1, 2, 3 (3.6, 4. 6) 4, 5 (8.4, 12) 6
    1, 2, 3 (3 6, 4. 6) 4, 5, 6 (8.6, 11.4) 7
    1, 2, 3 > (3.6, 4. 6) 4, 5, 6, 7 (8, 2, 10. 8) Berikut adalah lelaran kedua algoritma K-berarti pada data pelanggan. Setiap pelanggan sedang dianalisis semula. Pelanggan 2 ditugaskan ke Kluster 1 kerana Pelanggan 2 lebih dekat dengan wakil Cluster 1 daripada Kluster 2. Senario yang sama berlaku kepada Pelanggan 4. Perhatikan bahawa wakil kelompok sedang dikira semula setiap kali seorang anggota baru ditugaskan ke kelompok. Iteration # 2
    Cluster Pelanggan 1 Cluster Pelanggan 2 Pelanggan untuk diperiksa ID Pelanggan milik Cluster 1 Perwakilan Cluster
    ID Pelanggan milik Cluster 2 > Perwakilan Cluster 1 1 (3. 6, 4. 6) 5

2

Cara Menggunakan K-means Algorithm Cluster dalam Analisis Predictive - dummies

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...

1, 2 < 5 (8,2,10 8) 3
1, 2 (5, 2, 3) 5, 3 (7, 8, 10. 2) 4
1, 2 (5.2, 3) 4, 5. 3 (7: 8, 10 2) 6
1, 2 (5.2, 3) 4, 5, 6. 3 1, 2 (5, 2, 3)
3, 4, 5, 6, 7 (7: 8, 10 2)