Isi kandungan:
Video: Age of Deceit (2) - Hive Mind Reptile Eyes Hypnotism Cults World Stage - Multi - Language 2024
Sebelum anda boleh mengeluarkan kumpulan data data yang serupa dari dataset anda untuk projek analisis ramalan anda, anda mungkin perlu mewakili data anda dalam jadual format yang dikenali sebagai matriks . Ini adalah langkah pra-proses yang datang sebelum clustering data.
Bagaimana untuk mencipta matriks analisis ramalan istilah dalam dokumen
Anggapkan dataset yang akan anda analisa terkandung dalam satu set dokumen Microsoft Word. Perkara pertama yang perlu anda lakukan ialah menukar set dokumen menjadi matriks data. Beberapa alat komersial dan sumber terbuka dapat mengendalikan tugas itu, menghasilkan matriks, di mana setiap baris sesuai dengan dokumen dalam dataset. Contoh alat ini termasuk pakej perlombongan teks RapidMiner, dan R.
A dokumen adalah, pada dasarnya, satu set perkataan. Istilah istilah adalah satu set satu atau beberapa perkataan.
Setiap istilah yang mengandungi dokumen disebut sama sekali atau beberapa kali dalam dokumen yang sama. Bilangan kali sebutan disebut dalam dokumen boleh diwakili oleh frekuensi istilah (TF), nilai berangka.
Kami membina matriks istilah dalam dokumen seperti berikut:
-
Syarat yang terdapat dalam semua dokumen disenaraikan di baris utama.
-
Tajuk dokumen disenaraikan di lajur paling kiri
-
Angka-angka yang muncul di dalam sel matriks sesuai dengan kekerapan setiap istilah. Sebagai contoh, Dokumen A diwakili sebagai set nombor (5, 16, 0, 19, 0, 0.) di mana 5 sepadan dengan bilangan kali istilah
analytics ramalan diulang, 16 sepadan dengan bilangan kali sains komputer diulang, dan sebagainya. Ini adalah cara paling mudah untuk menukar satu set dokumen ke matriks.
Sains Komputer | Pembelajaran | Clustering | 2013 | Antropologi | ||
---|---|---|---|---|---|---|
0 | 0 | Dokumen B | 8 | 6 | 2 | 3 |
0 | 0 < 3 | 3 | 9 | Dokumen D | 1 | 9 |
13 | 4 | 6 | 7 > Dokumen E | 2 | 16 | 16 |
0 | 2 | 13 | Dokumen F | 13 | 0 | 19 |
16 > 4 | 2 | Asas pemilihan istilah analisis ramalan | Salah satu cabaran dalam clustering dokumen teks ialah menentukan cara memilih istilah terbaik untuk mewakili semua dokumen dalam koleksi. Seberapa penting istilah dalam koleksi dokumen boleh dikira dengan cara yang berbeza. | Jika, sebagai contoh, anda mengira bilangan kali suatu istilah diulang dalam dokumen dan bandingkan jumlah itu dengan seberapa sering ia berulang dalam keseluruhan koleksi, anda dapat memahami kepentingan istilah berbanding dengan istilah lain. | Mengasingkan kepentingan relatif istilah pada kekerapannya dalam koleksi sering dikenali sebagai | weighting |
. Berat yang anda tetapkan boleh berdasarkan dua prinsip: | Syarat yang muncul beberapa kali dalam dokumen disukai atas istilah yang muncul sekali sahaja. | Syarat yang digunakan dalam dokumen yang sedikit sahaja disukai atas terma yang disebut dalam semua dokumen. | Jika (contohnya) istilah | abad | disebutkan dalam semua dokumen dalam dataset anda, maka anda mungkin tidak menganggapnya cukup berat untuk mempunyai lajur sendiri dalam matriks. | Begitu juga, jika anda berurusan dengan dataset pengguna rangkaian sosial dalam talian, anda boleh dengan mudah menukar dataset tersebut menjadi matriks. ID atau nama pengguna akan menduduki baris; lajur akan menyenaraikan ciri yang paling menggambarkan pengguna tersebut. |