Video: Manajemen Perkantoran Modern 2024
Data yang terkandung dalam pangkalan data, dokumen, e-mel, dan fail data lain untuk analisis ramalan boleh dikategorikan sama ada data berstruktur atau tidak berstruktur. Data berstruktur teratur dengan baik, mengikut susunan yang konsisten, agak mudah untuk mencari dan menanyakan, dan boleh diakses dan difahami dengan mudah oleh seseorang atau program komputer.
Contoh klasik data berstruktur adalah spreadsheet Excel dengan lajur berlabel. Data berstruktur sedemikian konsisten; tajuk lajur - biasanya penerangan ringkas dan tepat mengenai kandungan dalam setiap lajur - memberitahu anda apa kandungan yang diharapkan.
Data berstruktur biasanya disimpan dalam skema yang jelas seperti pangkalan data. Ia biasanya tabular, dengan lajur dan baris yang jelas menentukan atributnya. Data
tidak terstruktur , sebaliknya, cenderung menjadi bentuk bebas, tidak berbentuk tabular, tersebar, dan tidak mudah diperoleh semula; data sedemikian memerlukan campur tangan yang sengaja untuk memahaminya. Pelbagai e-mel, dokumen, halaman web, dan fail (sama ada teks, audio, dan / atau video) di lokasi bertaburan adalah contoh data tidak berstruktur.
Sukar untuk mengkategorikan kandungan data tidak berstruktur. Ia cenderung untuk menjadi sebahagian besar teks, ia biasanya dibuat dalam gaya hodgepodge gaya bentuk bebas, dan mencari apa-apa atribut yang anda boleh gunakan untuk menerangkan atau mengelompokkannya bukan tugas kecil.
Kandungan data yang tidak tersusun adalah sukar untuk berfungsi dengan baik atau secara pemprograman. Program komputer tidak boleh menganalisis atau menghasilkan laporan mengenai data tersebut, hanya kerana ia tidak mempunyai struktur, tidak mempunyai ciri dominan yang mendasar, dan item data individu tidak mempunyai alasan yang sama.
Secara umum, terdapat peratusan yang lebih tinggi daripada data tak berstruktur daripada data berstruktur di dunia. Data yang tidak berstruktur memerlukan lebih banyak kerja untuk menjadikannya berguna, jadi ia mendapat lebih banyak perhatian - dengan itu cenderung untuk mengambil lebih banyak masa.
Jangan memandang rendah betapa pentingnya data berstruktur dan kuasa yang dibawa ke analisis anda. Ia jauh lebih cekap untuk menganalisis data berstruktur daripada menganalisis data yang tidak berstruktur. Data yang tidak berstruktur juga boleh menjadi mahal untuk memproses analisa kerana anda sedang membangunkan projek analisis ramalan. Pemilihan data yang berkaitan, pembersihan, dan perubahan seterusnya boleh panjang dan membosankan.
Hasil data yang baru dianjurkan dari langkah-langkah pra-proses yang diperlukan kemudian boleh digunakan dalam model analisis ramalan. Bagaimanapun transformasi borong data tidak tersusun, mungkin perlu menunggu sehingga anda mempunyai model analitik ramalan dan berjalan.
Analisis perlombongan dan teks data adalah dua pendekatan untuk menstrukturkan dokumen teks, menghubungkan kandungan mereka, mengelompokkan dan meringkaskan data mereka, dan meneliti pola dalam data tersebut. Kedua-dua disiplin ini menyediakan kerangka algoritma dan teknik yang kaya untuk melombong teks yang tersebar di segenap dokumen.
Perlu diingat bahawa platform enjin carian menyediakan alat sedia ada untuk mengindeks data dan menjadikannya mudah dicari.
Mari bandingkan data berstruktur dan tidak berstruktur.
Ciri | Berstruktur | Tidak berstruktur |
---|---|---|
Persatuan | Dianjurkan | Tersebar dan tersebar |
Rupa | Secara formal | akses dan pertanyaan |
Keras untuk mengakses dan pertanyaan | Ketersediaan | Percentagewise lebih rendah |
Percentagewise lebih tinggi | Analisis | Cekap untuk menganalisis |
Pembuatan tambahan diperlukan | Data tidak berstruktur tidak sepenuhnya kekurangan struktur - anda hanya perlu menangkapnya. Malah teks dalam fail digital masih mempunyai beberapa struktur yang berkaitan dengannya, sering muncul dalam metadata - sebagai contoh, tajuk dokumen, tarikh fail diubah suai terakhir, dan nama pengarang mereka. | Perkara yang sama berlaku untuk e-mel: Kandungan mungkin tidak tersusun, tetapi data berstruktur dikaitkan dengan mereka - sebagai contoh, tarikh dan masa mereka dihantar, nama pengirim dan penerima mereka, sama ada mereka mengandungi lampiran. |
Garis pemisah antara kedua-dua jenis data tidak selalu jelas. Secara umum, anda sentiasa dapat mencari beberapa sifat data tak berstruktur yang boleh dianggap sebagai data berstruktur. Sama ada struktur itu mencerminkan kandungan data itu - atau berguna dalam analisis data - tidak jelas.
Untuk perkara itu, data berstruktur boleh menyimpan data yang tidak tersusun di dalamnya. Dalam bentuk web, sebagai contoh, pengguna mungkin diminta untuk memberikan maklum balas mengenai produk dengan memilih jawapan daripada pelbagai pilihan - tetapi juga dipaparkan dengan kotak komen di mana mereka boleh memberi maklum balas tambahan.
Jawapan daripada pelbagai pilihan berstruktur; medan komen tidak berstruktur kerana bentuknya bebas. Kes-kes seperti ini difahami sebagai gabungan data berstruktur dan tidak berstruktur. Kebanyakan data adalah gabungan kedua-duanya.
Untuk projek analisis ramalan yang berjaya, data terstruktur dan tidak berstruktur anda mesti digabungkan dalam format logik yang boleh dianalisis.