Rumah Kewangan Peribadi Kepentingan Pengklumpuan dan Klasifikasi dalam Sains Data - dummies

Kepentingan Pengklumpuan dan Klasifikasi dalam Sains Data - dummies

Video: Computational Linguistics, by Lucas Freitas 2024

Video: Computational Linguistics, by Lucas Freitas 2024
Anonim

Tujuan klustering dan klasifikasi algoritma adalah untuk memahami dan mengekstrak nilai dari set besar data berstruktur dan tidak berstruktur. Jika anda bekerja dengan jumlah besar data yang tidak tersusun, hanya masuk akal untuk cuba memisahkan data ke dalam beberapa jenis kumpulan logik sebelum cuba menganalisisnya.

Pengklumpuran dan pengklasifikasian membolehkan anda melihat pandangan anda secara beramai-ramai, dan kemudian membentuk beberapa struktur logik berdasarkan apa yang anda dapati di sana sebelum masuk ke dalam analisis kacang-dan-baut.

Dalam bentuk yang paling sederhana, kelompok adalah kumpulan titik data yang berkongsi atribut yang serupa, dan algoritma klustering adalah kaedah yang mengelompokkan data ini ke dalam pelbagai kelompok berdasarkan persamaan mereka. Anda akan melihat algoritma kluster yang digunakan untuk klasifikasi penyakit dalam sains perubatan, tetapi anda juga akan melihatnya digunakan untuk klasifikasi pelanggan dalam penyelidikan pemasaran dan penilaian risiko kesihatan alam sekitar dalam kejuruteraan alam sekitar.

Terdapat kaedah kluster yang berlainan, bergantung kepada cara anda mahu dibahagikan. Kedua-dua jenis algoritma kluster utama ialah

  • Hierarki: Algoritma membuat set berasingan kumpulan tersarang, masing-masing dalam tahap hirarki mereka sendiri.

  • Partitional: Algoritma membuat hanya satu set kluster.

Anda boleh menggunakan algoritma kluster hierarki hanya jika anda sudah mengetahui jarak pemisahan antara titik data dalam kumpulan data anda. Algoritma tetangga k-terdekat yang diterangkan dalam bab ini tergolong dalam kelas algoritma kluster hierarki.

Anda mungkin pernah mendengar klasifikasi dan menganggap bahawa klasifikasi adalah perkara yang sama seperti clustering. Ramai orang melakukan, tetapi ini tidak berlaku. Dalam klasifikasi, sebelum anda mula, anda sudah mengetahui bilangan kelas yang mana data anda dikumpulkan dan anda sudah tahu kelas apa yang anda mahu setiap titik data ditugaskan. Dalam klasifikasi, data dalam dataset yang dipelajari dari dilabelkan.

Apabila anda menggunakan algoritma kluster, di sisi lain, anda tidak mempunyai konsep yang telah ditetapkan untuk berapa banyak kelompok yang sesuai untuk data anda, dan anda bergantung kepada algoritma kluster untuk menyusun dan mengumpulkan data dengan cara yang paling sesuai. Dengan teknik kluster, anda belajar dari data tanpa label.

Untuk lebih jelas ilustrasi sifat klasifikasi, lihatlah Twitter dan sistem hash taggingnya.Katakanlah anda telah mendapat minuman kegemaran anda di seluruh dunia: karamel latte dari Starbucks. Anda sangat senang minum minuman yang anda memutuskan untuk tweet mengenainya dengan foto dan frasa "Ini adalah latte terbaik PERNAH! #StarbucksRocks. "Sudah tentu, anda menyertakan" #StarbucksRocks "dalam tweet anda supaya tweet masuk ke aliran #StarbucksRocks dan dikelaskan bersama-sama dengan semua tweet lain yang telah dilabelkan sebagai #StarbucksRocks. Penggunaan label hashtag anda dalam tweet anda memberitahu Twitter bagaimana mengklasifikasikan data anda ke kumpulan yang dikenali dan boleh diakses, atau cluster .

Kepentingan Pengklumpuan dan Klasifikasi dalam Sains Data - dummies

Pilihan Editor

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Sifat kotak, anda boleh meletakkan objek gaya di mana saja di dalam tetingkap penyemak imbas, objek kedudukan berbanding dengan objek lain pada halaman, dan gunakan peraturan gaya padding dan margin kotak secara selektif untuk mana-mana atau semua empat objek gaya sebagai kiri dan bawah atau atas, kiri, dan ...

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Kadar adalah salah satu istilah pemasaran yang paling mengelirukan dari e-mel. Ia sebenarnya mengukur bilangan interaksi tertentu dengan pelayan e-mel selepas e-mel dihantar dinyatakan sebagai peratusan jumlah tidak melantun. E-mel anda tidak dikira sebagai terbuka sehingga salah satu daripada interaksi berikut berlaku: Penerima membolehkan imej ...

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress adalah perisian bebas sumber terbuka yang dapat anda unduh, memasang, dan gunakan untuk membina komuniti sosial anda sendiri di laman web anda yang berkuasa WordPress. Untuk melakukan ini, anda memerlukan pemahaman asas tentang ciri dan terminologi BuddyPress. Mencipta komuniti sosial anda sendiri mudah dilakukan dengan BuddyPress, tetapi jika anda memerlukan bantuan, anda boleh bertanya ...

Pilihan Editor

Menikmati Magic of Mindful Movies - dummies

Menikmati Magic of Mindful Movies - dummies

Tidak ada cara yang lebih baik untuk mengembangkan pengalaman pemikiran anda melampaui batas fizikal United Kingdom dan mengembangkan wawasan anda daripada menikmati filem yang cenderung berfikiran. Filem untuk kanak-kanak: Kung Fu Panda (Mark Osborne, John Stevenson, 2008). Filem animasi moden ini sering merujuk kepada kuasa yang datang dari ...

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Kadang-kadang, hanya apa yang anda perlukan untuk pengalaman pemikiran yang mendalam. Mendengarkan CD berkualiti boleh memindahkan anda ke luar United Kingdom dan benar-benar membuka fikiran anda kepada idea-idea. CD berikut disyorkan: Meditasi Berpandu: Untuk Ketenangan, Kesedaran dan Cinta oleh Bodhipaksa. A ...

Freemason yang terkenal - orang-orang buatan

Freemason yang terkenal - orang-orang buatan

Yang hebat dan paling cemerlang di dunia atau Freemason. Kumpulan-kumpulan ini memberikan anda jauh dari senarai komprehensif - mereka hanya contoh: Bapa pengasas: Freemason yang paling terkenal di Amerika, George Washington telah dimulakan pada tahun 1752, di Fredericksburg, Virginia. Bapa pengasas lain yang juga Mason termasuk Benjamin Franklin, Marquis de ...

Pilihan Editor

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Subjek tertumpukan tajam dan latar belakang yang lembut dan kabur. Ikuti langkah-langkah ini untuk mengambil potret seperti Canon Rebel Digital anda.

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

DSLR yang dijual hari ini, kamera Canon EOS Rebel T7i / 800D menawarkan Live View, yang menyahdayakan pemidang tilik dan sebaliknya memaparkan pratonton langsung subjek anda pada monitor kamera. Senarai berikut menerangkan asas penggunaan Live View: Switch to Live View for photography: Tekan butang Live View untuk beralih dari ...