Isi kandungan:
Video: Data Analysis in R by Dustin Tran 2024
Secara umum, penyelesaian analitik teks untuk data besar menggunakan gabungan teknik Pemprosesan Statistik dan Bahasa Asli (NLP) untuk mengekstrak maklumat daripada data tidak berstruktur. NLP adalah bidang yang luas dan rumit yang telah berkembang sejak 20 tahun yang lalu.
Matlamat utama NLP adalah untuk mendapatkan makna dari teks. Pemprosesan Bahasa Semula secara amnya menggunakan konsep linguistik seperti struktur tatabahasa dan bahagian ucapan. Sering kali, idea di sebalik jenis analisis ini adalah untuk menentukan siapa yang melakukan apa yang, kapan, di mana, bagaimana dan mengapa.
NLP melakukan analisis pada teks pada tahap yang berbeza:
-
Analisis leksikal / morfologi mengkaji ciri-ciri setiap kata - termasuk awalan, sufiks, akar, kata kerja, kata sifat, dan sebagainya) - maklumat yang akan menyumbang kepada pemahaman apa maksud perkataan dalam konteks teks yang disediakan. Analisis leksikal bergantung kepada kamus, kamus, atau mana-mana senarai perkataan yang memberikan maklumat tentang kata-kata tersebut.
-
Analisis sintaktik menggunakan struktur tatabahasa untuk membedah teks dan meletakkan kata-kata individu ke dalam konteks. Di sini anda meluaskan pandangan anda dari satu perkataan ke frasa atau kalimat penuh. Langkah ini mungkin menggambarkan hubungan antara kata-kata (tatabahasa) atau mencari urutan kata-kata yang membentuk ayat yang betul atau untuk urutan nombor yang mewakili tarikh atau nilai wang.
-
Analisis semantik menentukan kemungkinan kemungkinan ayat. Ini boleh termasuk memerhati susunan perkataan dan struktur kalimat dan kata-kata disambiguasi dengan menghubungkan sintaks yang terdapat dalam frasa, ayat, dan perenggan.
-
Analisis tahap diskursus cuba menentukan makna teks di luar tahap ayat.
Memahami maklumat yang diekstrak dari data besar
Teknik tertentu, digabungkan dengan teknik statistik atau linguistik lain untuk mengotomatisasi penandaan dan penanda dokumen teks, boleh mengekstrak maklumat berikut:
-
Syarat: Lain nama untuk kata kunci.
-
Entiti: Sering dipanggil entiti yang dinamakan , ini adalah contoh abstraksi tertentu. Contoh adalah nama orang, nama syarikat, lokasi geografi, maklumat hubungan, tarikh, masa, mata wang, tajuk dan jawatan, dan sebagainya. Sebagai contoh, perisian analitik teks boleh mengekstrak entiti Jane Doe sebagai orang yang dirujuk dalam teks yang dianalisis. Entiti 3 Mac 2007 boleh diekstrak sebagai tarikh, dan sebagainya.
-
Fakta: Juga dipanggil hubungan , fakta menunjukkan siapa / mana / di mana hubungan antara dua entiti. John Smith adalah CEO Syarikat Y dan Aspirin mengurangkan demam adalah contoh fakta.
-
Peristiwa: Sementara beberapa pakar menggunakan istilah fakta , hubungan , dan acara secara bergantian, yang lain membezakan antara peristiwa dan fakta, menyatakan bahawa peristiwa biasanya mengandungi dimensi masa dan sering menyebabkan fakta berubah. Contohnya termasuk perubahan dalam pengurusan dalam syarikat atau status proses penjualan.
-
Konsep: Ini adalah kata-kata dan frasa yang menunjukkan idea atau topik tertentu yang pengguna prihatin. Sebagai contoh, konsep pelanggan yang tidak berpuas hati mungkin termasuk perkataan marah, kecewa, dan keliru dan frasa dan pembaziran wang - antara lain. Oleh itu konsep pelanggan yang tidak berpuas hati boleh diekstrak tanpa perkataan tidak berpuas hati atau pelanggan yang terdapat di dalam teks.
-
Sentimen: Analisis sentimen digunakan untuk mengenal pasti sudut pandang atau emosi dalam teks yang mendasari. Sesetengah teknik melakukan ini dengan mengklasifikasikan teks sebagai contoh, subjektif (pendapat) atau objektif (fakta), menggunakan teknik mesin pembelajaran atau NLP. Analisis sentimen telah menjadi sangat popular dalam aplikasi "suara pelanggan".
Taksonomi data besar
Taxonomies sering kritikal untuk teks analisis. A taksonomi adalah satu kaedah untuk menganjurkan maklumat ke dalam hubungan hierarki. Ia kadang-kadang dirujuk sebagai cara menganjurkan kategori. Kerana taksonomi mentakrifkan hubungan antara terma penggunaan syarikat, ia memudahkan untuk mencari dan kemudian menganalisis teks.
Sebagai contoh, pembekal perkhidmatan telekomunikasi menawarkan perkhidmatan berwayar dan tanpa wayar. Di dalam perkhidmatan wayarles, syarikat itu boleh menyokong telefon bimbit dan akses Internet. Syarikat itu kemudian boleh mempunyai dua atau lebih cara mengkategorikan perkhidmatan telefon selular, seperti rancangan dan jenis telefon. Taksonomi boleh sampai ke bahagian-bahagian telefon itu sendiri.
Taxonomies juga boleh menggunakan sinonim dan ekspresi alternatif, mengakui bahawa telefon bimbit, telefon bimbit, dan telefon bimbit adalah sama. Taksonomi ini boleh menjadi agak rumit dan boleh mengambil masa yang lama untuk berkembang.