Rumah Kewangan Peribadi Asas Data Terstruktur dan Tidak Terstruktur dalam Analisis Prediktif - dummies

Asas Data Terstruktur dan Tidak Terstruktur dalam Analisis Prediktif - dummies

Video: Manajemen Perkantoran Modern 2024

Video: Manajemen Perkantoran Modern 2024
Anonim

Data yang terkandung dalam pangkalan data, dokumen, e-mel, dan fail data lain untuk analisis ramalan boleh dikategorikan sama ada data berstruktur atau tidak berstruktur. Data berstruktur teratur dengan baik, mengikut susunan yang konsisten, agak mudah untuk mencari dan menanyakan, dan boleh diakses dan difahami dengan mudah oleh seseorang atau program komputer.

Contoh klasik data berstruktur adalah spreadsheet Excel dengan lajur berlabel. Data berstruktur sedemikian konsisten; tajuk lajur - biasanya penerangan ringkas dan tepat mengenai kandungan dalam setiap lajur - memberitahu anda apa kandungan yang diharapkan.

Data berstruktur biasanya disimpan dalam skema yang jelas seperti pangkalan data. Ia biasanya tabular, dengan lajur dan baris yang jelas menentukan atributnya. Data

tidak terstruktur , sebaliknya, cenderung menjadi bentuk bebas, tidak berbentuk tabular, tersebar, dan tidak mudah diperoleh semula; data sedemikian memerlukan campur tangan yang sengaja untuk memahaminya. Pelbagai e-mel, dokumen, halaman web, dan fail (sama ada teks, audio, dan / atau video) di lokasi bertaburan adalah contoh data tidak berstruktur.

Sukar untuk mengkategorikan kandungan data tidak berstruktur. Ia cenderung untuk menjadi sebahagian besar teks, ia biasanya dibuat dalam gaya hodgepodge gaya bentuk bebas, dan mencari apa-apa atribut yang anda boleh gunakan untuk menerangkan atau mengelompokkannya bukan tugas kecil.

Kandungan data yang tidak tersusun adalah sukar untuk berfungsi dengan baik atau secara pemprograman. Program komputer tidak boleh menganalisis atau menghasilkan laporan mengenai data tersebut, hanya kerana ia tidak mempunyai struktur, tidak mempunyai ciri dominan yang mendasar, dan item data individu tidak mempunyai alasan yang sama.

Secara umum, terdapat peratusan yang lebih tinggi daripada data tak berstruktur daripada data berstruktur di dunia. Data yang tidak berstruktur memerlukan lebih banyak kerja untuk menjadikannya berguna, jadi ia mendapat lebih banyak perhatian - dengan itu cenderung untuk mengambil lebih banyak masa.

Jangan memandang rendah betapa pentingnya data berstruktur dan kuasa yang dibawa ke analisis anda. Ia jauh lebih cekap untuk menganalisis data berstruktur daripada menganalisis data yang tidak berstruktur. Data yang tidak berstruktur juga boleh menjadi mahal untuk memproses analisa kerana anda sedang membangunkan projek analisis ramalan. Pemilihan data yang berkaitan, pembersihan, dan perubahan seterusnya boleh panjang dan membosankan.

Hasil data yang baru dianjurkan dari langkah-langkah pra-proses yang diperlukan kemudian boleh digunakan dalam model analisis ramalan. Bagaimanapun transformasi borong data tidak tersusun, mungkin perlu menunggu sehingga anda mempunyai model analitik ramalan dan berjalan.

Analisis perlombongan dan teks data adalah dua pendekatan untuk menstrukturkan dokumen teks, menghubungkan kandungan mereka, mengelompokkan dan meringkaskan data mereka, dan meneliti pola dalam data tersebut. Kedua-dua disiplin ini menyediakan kerangka algoritma dan teknik yang kaya untuk melombong teks yang tersebar di segenap dokumen.

Perlu diingat bahawa platform enjin carian menyediakan alat sedia ada untuk mengindeks data dan menjadikannya mudah dicari.

Mari bandingkan data berstruktur dan tidak berstruktur.

Ciri Berstruktur Tidak berstruktur
Persatuan Dianjurkan Tersebar dan tersebar
Rupa Secara formal akses dan pertanyaan
Keras untuk mengakses dan pertanyaan Ketersediaan Percentagewise lebih rendah
Percentagewise lebih tinggi Analisis Cekap untuk menganalisis
Pembuatan tambahan diperlukan Data tidak berstruktur tidak sepenuhnya kekurangan struktur - anda hanya perlu menangkapnya. Malah teks dalam fail digital masih mempunyai beberapa struktur yang berkaitan dengannya, sering muncul dalam metadata - sebagai contoh, tajuk dokumen, tarikh fail diubah suai terakhir, dan nama pengarang mereka. Perkara yang sama berlaku untuk e-mel: Kandungan mungkin tidak tersusun, tetapi data berstruktur dikaitkan dengan mereka - sebagai contoh, tarikh dan masa mereka dihantar, nama pengirim dan penerima mereka, sama ada mereka mengandungi lampiran.

Garis pemisah antara kedua-dua jenis data tidak selalu jelas. Secara umum, anda sentiasa dapat mencari beberapa sifat data tak berstruktur yang boleh dianggap sebagai data berstruktur. Sama ada struktur itu mencerminkan kandungan data itu - atau berguna dalam analisis data - tidak jelas.

Untuk perkara itu, data berstruktur boleh menyimpan data yang tidak tersusun di dalamnya. Dalam bentuk web, sebagai contoh, pengguna mungkin diminta untuk memberikan maklum balas mengenai produk dengan memilih jawapan daripada pelbagai pilihan - tetapi juga dipaparkan dengan kotak komen di mana mereka boleh memberi maklum balas tambahan.

Jawapan daripada pelbagai pilihan berstruktur; medan komen tidak berstruktur kerana bentuknya bebas. Kes-kes seperti ini difahami sebagai gabungan data berstruktur dan tidak berstruktur. Kebanyakan data adalah gabungan kedua-duanya.

Untuk projek analisis ramalan yang berjaya, data terstruktur dan tidak berstruktur anda mesti digabungkan dalam format logik yang boleh dianalisis.

Asas Data Terstruktur dan Tidak Terstruktur dalam Analisis Prediktif - dummies

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...