Rumah Kewangan Peribadi Dan Teknik Pengekstrakan untuk Big Data - dummies

Dan Teknik Pengekstrakan untuk Big Data - dummies

Isi kandungan:

Video: Data Analysis in R by Dustin Tran 2024

Video: Data Analysis in R by Dustin Tran 2024
Anonim

Secara umum, penyelesaian analitik teks untuk data besar menggunakan gabungan teknik Pemprosesan Statistik dan Bahasa Asli (NLP) untuk mengekstrak maklumat daripada data tidak berstruktur. NLP adalah bidang yang luas dan rumit yang telah berkembang sejak 20 tahun yang lalu.

Matlamat utama NLP adalah untuk mendapatkan makna dari teks. Pemprosesan Bahasa Semula secara amnya menggunakan konsep linguistik seperti struktur tatabahasa dan bahagian ucapan. Sering kali, idea di sebalik jenis analisis ini adalah untuk menentukan siapa yang melakukan apa yang, kapan, di mana, bagaimana dan mengapa.

NLP melakukan analisis pada teks pada tahap yang berbeza:

  • Analisis leksikal / morfologi mengkaji ciri-ciri setiap kata - termasuk awalan, sufiks, akar, kata kerja, kata sifat, dan sebagainya) - maklumat yang akan menyumbang kepada pemahaman apa maksud perkataan dalam konteks teks yang disediakan. Analisis leksikal bergantung kepada kamus, kamus, atau mana-mana senarai perkataan yang memberikan maklumat tentang kata-kata tersebut.

  • Analisis sintaktik menggunakan struktur tatabahasa untuk membedah teks dan meletakkan kata-kata individu ke dalam konteks. Di sini anda meluaskan pandangan anda dari satu perkataan ke frasa atau kalimat penuh. Langkah ini mungkin menggambarkan hubungan antara kata-kata (tatabahasa) atau mencari urutan kata-kata yang membentuk ayat yang betul atau untuk urutan nombor yang mewakili tarikh atau nilai wang.

  • Analisis semantik menentukan kemungkinan kemungkinan ayat. Ini boleh termasuk memerhati susunan perkataan dan struktur kalimat dan kata-kata disambiguasi dengan menghubungkan sintaks yang terdapat dalam frasa, ayat, dan perenggan.

  • Analisis tahap diskursus cuba menentukan makna teks di luar tahap ayat.

Memahami maklumat yang diekstrak dari data besar

Teknik tertentu, digabungkan dengan teknik statistik atau linguistik lain untuk mengotomatisasi penandaan dan penanda dokumen teks, boleh mengekstrak maklumat berikut:

  • Syarat: Lain nama untuk kata kunci.

  • Entiti: Sering dipanggil entiti yang dinamakan , ini adalah contoh abstraksi tertentu. Contoh adalah nama orang, nama syarikat, lokasi geografi, maklumat hubungan, tarikh, masa, mata wang, tajuk dan jawatan, dan sebagainya. Sebagai contoh, perisian analitik teks boleh mengekstrak entiti Jane Doe sebagai orang yang dirujuk dalam teks yang dianalisis. Entiti 3 Mac 2007 boleh diekstrak sebagai tarikh, dan sebagainya.

  • Fakta: Juga dipanggil hubungan , fakta menunjukkan siapa / mana / di mana hubungan antara dua entiti. John Smith adalah CEO Syarikat Y dan Aspirin mengurangkan demam adalah contoh fakta.

  • Peristiwa: Sementara beberapa pakar menggunakan istilah fakta , hubungan , dan acara secara bergantian, yang lain membezakan antara peristiwa dan fakta, menyatakan bahawa peristiwa biasanya mengandungi dimensi masa dan sering menyebabkan fakta berubah. Contohnya termasuk perubahan dalam pengurusan dalam syarikat atau status proses penjualan.

  • Konsep: Ini adalah kata-kata dan frasa yang menunjukkan idea atau topik tertentu yang pengguna prihatin. Sebagai contoh, konsep pelanggan yang tidak berpuas hati mungkin termasuk perkataan marah, kecewa, dan keliru dan frasa dan pembaziran wang - antara lain. Oleh itu konsep pelanggan yang tidak berpuas hati boleh diekstrak tanpa perkataan tidak berpuas hati atau pelanggan yang terdapat di dalam teks.

  • Sentimen: Analisis sentimen digunakan untuk mengenal pasti sudut pandang atau emosi dalam teks yang mendasari. Sesetengah teknik melakukan ini dengan mengklasifikasikan teks sebagai contoh, subjektif (pendapat) atau objektif (fakta), menggunakan teknik mesin pembelajaran atau NLP. Analisis sentimen telah menjadi sangat popular dalam aplikasi "suara pelanggan".

Taksonomi data besar

Taxonomies sering kritikal untuk teks analisis. A taksonomi adalah satu kaedah untuk menganjurkan maklumat ke dalam hubungan hierarki. Ia kadang-kadang dirujuk sebagai cara menganjurkan kategori. Kerana taksonomi mentakrifkan hubungan antara terma penggunaan syarikat, ia memudahkan untuk mencari dan kemudian menganalisis teks.

Sebagai contoh, pembekal perkhidmatan telekomunikasi menawarkan perkhidmatan berwayar dan tanpa wayar. Di dalam perkhidmatan wayarles, syarikat itu boleh menyokong telefon bimbit dan akses Internet. Syarikat itu kemudian boleh mempunyai dua atau lebih cara mengkategorikan perkhidmatan telefon selular, seperti rancangan dan jenis telefon. Taksonomi boleh sampai ke bahagian-bahagian telefon itu sendiri.

Taxonomies juga boleh menggunakan sinonim dan ekspresi alternatif, mengakui bahawa telefon bimbit, telefon bimbit, dan telefon bimbit adalah sama. Taksonomi ini boleh menjadi agak rumit dan boleh mengambil masa yang lama untuk berkembang.

Dan Teknik Pengekstrakan untuk Big Data - dummies

Pilihan Editor

Cara Mengeksport karya seni dari Fireworks - dummies

Cara Mengeksport karya seni dari Fireworks - dummies

Setelah anda mengoptimumkan imej itu, sudah waktunya untuk mengeksport dari Fireworks. Mengekspot imej adalah agak mudah; pilih Fail → Eksport dan kemudian nyatakan folder di mana untuk menyimpan imej. Apabila anda mengeksport dokumen seperti menu navigasi dengan beberapa kepingan, anda mengeksport dokumen itu sebagai imej dan HTML seperti berikut: Pilih Fail → Eksport. The ...

Cara Cari Warna untuk Skema Warna Laman Web Anda - dummies

Cara Cari Warna untuk Skema Warna Laman Web Anda - dummies

Peraturan yang paling asas Skim warna untuk laman web adalah bahawa anda perlu bekerja dengan beberapa warna yang terkurung. Jika tidak, laman web anda hanya akan membentangkan warna cacian warna. (Ya, pendekatan gila-gilaan juga merupakan bentuk skema warna, tetapi sebagai peraturan umum tidak begitu berkesan.) Bagaimana ...

Pilihan Editor

Memilih Penutupan Daripada Potret Khas - patung

Memilih Penutupan Daripada Potret Khas - patung

Potret di mana imej anda dipangkas dengan ketat supaya subjek itu mengambil sebahagian besar atau semua bingkai - adalah alat licik dalam beg jurufat jurulatih. Walau bagaimanapun, orang umumnya tidak suka mempunyai kamera terlalu dekat dengan mereka, kerana ketakutan bahawa imej itu ...

Menangkap Highlights and Drips dalam Fotografi Makanan Anda - dummies

Menangkap Highlights and Drips dalam Fotografi Makanan Anda - dummies

Sedikit dari fotografi bukan makanan. Fotografi komersil tradisional cenderung untuk menjauhkan diri dari kekejangan sorotan spekular dan kelemahan drip dan ketidaksempurnaan. Sorotan specular kadang-kadang hanya smidge yang terlalu cerah dan mengganggu dalam foto, tetapi kemuncaknya berkilat ...

Pilih Lensa Makro Kanan untuk Subjek Anda - patung

Pilih Lensa Makro Kanan untuk Subjek Anda - patung

Komponen utama untuk dipertimbangkan ketika mencari makro Kanta yang sesuai dengan gaya fotografi rapat anda adalah subjek yang akan anda ambil gambar dengan lensa. Sekiranya anda menembak mata secara tidak langsung, anda boleh meletakkan kanta anda dengan sangat dekat dengannya. Subjek lain mungkin memerlukan anda menyimpan jarak yang selamat, yang bermaksud ...

Pilihan Editor

Bagaimana Mengubah Transparansi Layer Jenis di Photoshop CS6 - dummies

Bagaimana Mengubah Transparansi Layer Jenis di Photoshop CS6 - dummies

Anda boleh menukar transparansi lapisan jenis, seperti yang anda boleh dengan lapisan lain dalam Adobe Photoshop Creative Suite 6, mengurangkan kelegapan (ketelusan) jenis supaya ia membolehkan lapisan mendasar untuk menunjukkan. Lapisan adalah seperti susunan lapisan digital yang mana setiap unsur imej anda ...

Bagaimana Tukar Resolusi Imej dalam Adobe Photoshop CS6 - dummies

Bagaimana Tukar Resolusi Imej dalam Adobe Photoshop CS6 - dummies

Menggunakan kotak dialog Ukuran Imej hanya satu cara yang anda boleh mengawal resolusi dalam Adobe Photoshop CS6. Walaupun anda boleh meningkatkan resolusi, berbuat demikian dengan berhati-hati dan mengelakkannya, jika anda boleh. Pengecualian kepada peraturan ini adalah apabila anda mempunyai imej yang besar dalam saiz dimensi tetapi rendah ...

Cara Mengukir Huruf menjadi Imej Tekstur Batu di Photoshop CS6

Cara Mengukir Huruf menjadi Imej Tekstur Batu di Photoshop CS6

Dalam Adobe Photoshop CS6, anda boleh menggunakan alat jenis untuk membuat pilihan yang dibentuk seperti huruf dan kemudian menggunakan imej itu sendiri sebagai tekstur (seperti batu) untuk jenisnya. Pemilihan jenis boleh memotong mana-mana bahagian gambar untuk menggunakan apa-apa cara yang anda mahukan. Ikuti langkah-langkah ini untuk mengukir huruf ke dalam tekstur batu ...