Video: The Third Industrial Revolution: A Radical New Sharing Economy 2024
Seperti banyak aspek dari sistem perniagaan mana pun, data adalah penciptaan manusia - jadi ia sesuai untuk mempunyai beberapa kebarangkalian apabila anda terlebih dahulu dapatkannya. Berikut adalah gambaran mengenai beberapa batasan yang mungkin anda hadapi:
-
Data mungkin tidak lengkap. Nilai yang hilang, walaupun kekurangan bahagian atau sebahagian besar data, boleh mengehadkan kebolehgunaannya.
Sebagai contoh, data anda mungkin hanya meliputi satu atau dua keadaan set yang lebih besar yang anda cuba modelkan - seperti apabila model yang dibina untuk menganalisis prestasi pasaran saham hanya mempunyai data yang tersedia dari 5 tahun yang lalu, yang memakan kedua-duanya data dan model ke arah andaian pasaran lembu.
Ketika pasaran mengalami pembetulan yang membawa kepada pasaran beruang, model gagal menyesuaikan diri - hanya kerana ia tidak terlatih dan diuji dengan data yang mewakili pasaran beruang.
Pastikan anda melihat tempoh masa yang memberi gambaran lengkap tentang turun naik semula data anda; data anda tidak boleh dihadkan oleh bermusim .
-
Jika anda menggunakan data daripada tinjauan, ingat bahawa orang tidak selalu memberikan maklumat yang tepat. Tidak semua orang akan menjawab dengan jujur tentang (nyatakan) berapa kali mereka berolahraga - atau berapa banyak minuman beralkohol yang mereka makan - seminggu. Orang mungkin tidak jujur seperti kesedaran diri sendiri, tetapi data masih condong.
-
Data yang dikumpul dari sumber yang berbeza boleh berbeza dalam kualiti dan format. Data yang dikumpul dari pelbagai sumber seperti tinjauan, e-mel, borang kemasukan data, dan laman web syarikat akan mempunyai atribut dan struktur yang berbeza. Data dari pelbagai sumber mungkin tidak mempunyai banyak keserasian di antara bidang data. Data sedemikian memerlukan pra-proses utama sebelum ia siap-siap. Sidebar yang disertakan memberikan contoh.
Data yang dikumpulkan dari pelbagai sumber mungkin mempunyai perbezaan dalam pemformatan, rekod pendua dan ketidakkonsistenan merentas medan data yang digabungkan. Berharap untuk menghabiskan masa yang lama membersihkan data tersebut - dan lebih lama lagi mengesahkan kebolehpercayaannya.
Untuk menentukan batasan data anda, pastikan:
-
Sahkan semua pembolehubah yang akan anda gunakan dalam model anda.
-
Menilai skop data, terutamanya dari masa ke masa, jadi model anda boleh mengelakkan perangkap bermusim.
-
Semak nilai yang hilang, mengenal pasti mereka, dan menilai impak mereka terhadap analisis keseluruhan.
-
Berhati-hati untuk nilai yang melampau (outlier) dan tentukan sama ada untuk memasukkannya dalam analisis.
-
Sahkan bahawa kumpulan data latihan dan ujian cukup besar.
-
Pastikan jenis data (bilangan bulat, nilai perpuluhan, atau aksara, dan sebagainya) adalah betul dan tetapkan batas atas dan bawah kemungkinan nilai.
-
Beri perhatian lebih kepada integrasi data apabila data anda berasal dari pelbagai sumber.
Pastikan anda memahami sumber data anda dan impaknya terhadap kualiti keseluruhan data anda.
-
Pilih dataset yang berkaitan yang mewakili seluruh penduduk.
-
Pilih parameter yang sesuai untuk analisis anda.
Walaupun selepas semua penjagaan dan perhatian ini, jangan terkejut sekiranya data anda masih memerlukan proses sebelum anda boleh menganalisis dengan tepat. Preprocessing sering mengambil masa yang lama dan usaha yang signifikan kerana ia perlu menangani beberapa isu yang berkaitan dengan data asal - isu-isu ini termasuk:
-
Apa-apa nilai yang hilang dari data.
-
Sebarang ketidakkonsistenan dan / atau kesilapan yang ada dalam data.
-
Sebarang pendua atau penglihatan dalam data.
-
Mana-mana normalisasi atau transformasi data lain.
-
Sebarang data yang diperolehi diperlukan untuk analisis.