Isi kandungan:
- Petugas: Mengumpulkan data
- Petugas: Menggambarkan data
- Petugas: Meneroka data
- Petugas: Mengesahkan kualiti data
Video: OBE Pusat Ko-kurikulum UUM - Fasa 2 : Setup Teaching Plan 2024
Pada fasa kedua proses proses Proses Perindustrian Standard (CRISP-DM), anda memperoleh data dan mengesahkan bahawa ia sesuai untuk keperluan anda. Anda mungkin mengenal pasti isu yang menyebabkan anda kembali ke pemahaman perniagaan dan menyemak semula pelan anda. Anda juga mungkin mendapati kelemahan dalam pemahaman perniagaan anda, satu lagi sebab untuk memikirkan semula matlamat dan rancangan.
Tahap pemahaman data termasuk empat tugas . Ini adalah
-
Data perhimpunan
-
Menggambarkan data
-
Meneroka data
-
Mengesahkan kualiti data
Petugas: Mengumpulkan data
. Setiap langkah pelan bergantung kepada data yang betul. Lebih baik pastikan anda benar-benar mempunyai data itu!
Hanya satu penyerahan wujud untuk tugas ini: laporan pengumpulan data awal. Dalam laporan anda, anda perlu mengesahkan bahawa anda telah memperoleh data atau sekurang-kurangnya mendapat akses ke data, menguji proses akses data, dan mengesahkan bahawa data itu wujud. Anda juga perlu memuatkan data ke dalam apa-apa alat yang akan anda gunakan untuk perlombongan data untuk mengesahkan bahawa alat itu serasi dengan data.
Anda boleh melakukan banyak kerja untuk mengumpulkan data yang anda perlukan sebelum anda boleh menulis laporan ini. Pertama, anda akan membuat pelan anda, seperti berikut:
-
Keperluan data garisan: Buat senarai jenis data yang diperlukan untuk menangani sasaran perlombongan data. Kembangkan senarai dengan butiran seperti julat masa dan format data yang diperlukan.
-
Sahkan ketersediaan data: Sahkan bahawa data yang diperlukan ada dan anda boleh menggunakannya. Jika beberapa data yang anda mahukan tidak tersedia, tentukan bagaimana anda akan menangani isu itu. Pertimbangkan alternatif seperti
-
Substituting dengan sumber data alternatif
-
Mengurangkan skop projek
-
Mengumpul data baru
-
-
Tentukan kriteria pemilihan: Kenal pasti sumber data tertentu (pangkalan data, dokumen, dan sebagainya.) Anda akan menggunakannya. Dalam sumber tersebut, tentukan jadual, medan, dan julat kes yang berkaitan dengan projek ini.
Setelah anda melangkah langkah ini, anda mesti mendapatkan data. Pada peringkat ini, import data ke dalam platform perlombongan data yang anda akan gunakan untuk projek itu untuk mengesahkan bahawa ia mungkin untuk melakukannya dan anda memahami proses tersebut. Dalam perjalanan percubaan ini, anda mungkin menemukan keterbatasan perangkat lunak (atau perkakasan) yang tidak anda harapkan, seperti
-
Batas pada jumlah kasus atau medan, atau jumlah memori yang mungkin Anda gunakan
-
Tidak dapat membaca format data sumber anda
-
Kesukaran menangani ketidaksempurnaan dalam data (contohnya, anda mungkin menghadapi produk yang tidak akan mengimport atau menganalisis data tidak lengkap)
Akhirnya, meringkaskan proses perhimpunan dalam laporan.Laporan itu harus menerangkan keperluan anda, dan terangkan secara terperinci apa data yang telah anda kumpulkan dan dari sumber apa. Di sini anda mengesahkan bahawa anda sebenarnya telah memperoleh data dan ia serasi dengan platform perlombongan data anda. Sekiranya anda mengalami kesukaran, anda akan menerangkan apa yang mereka dan bagaimana anda telah mengalaminya (menggunakan sumber alternatif, menyemak semula rancangan, mengubah format).
Penghantaran untuk tugas ini hanyalah laporan ringkas, tetapi kerja yang perlu anda lakukan sebelum anda menulis laporan itu tidak akan mudah! Akses data boleh menjadi salah satu bahagian yang paling mencabar dan mengecewakan dari proses penambangan data, yang penuh dengan cabaran teknikal dan perniagaan.
Petugas: Menggambarkan data
Sekarang bahawa anda mempunyai data, menyediakan gambaran umum tentang apa yang anda miliki.
Pemberian untuk tugas ini adalah laporan penerangan data. Di dalamnya, anda menerangkan sumber dan format data, bilangan kes, nombor dan perihalan medan, dan maklumat umum lain yang mungkin penting. Anda juga membuat penilaian ringkas tentang kesesuaian data untuk tujuan penambangan data anda. Sebagai contoh, sahkan bahawa data termasuk bidang yang anda harapkan dan perlu berada di sana dan kes-kes yang mencukupi untuk dianalisis.
Petugas: Meneroka data
Dalam tugas ini, anda memeriksa data dengan lebih teliti. Untuk setiap pembolehubah, anda melihat julat nilai dan pengedarannya. Anda akan menggunakan manipulasi data mudah dan teknik statistik asas untuk pemeriksaan selanjutnya ke dalam data. Penjelajahan data menyokong beberapa tujuan:
-
Dapatkan akrab dengan data.
-
Tanda tempat masalah kualiti data.
-
Tetapkan tahap untuk langkah penyediaan data.
Pemberian untuk tugas ini adalah laporan penjelajahan data. Ini adalah tempat untuk mendokumentasikan sebarang hipotesis atau penemuan awal yang telah anda usahakan semasa penerokaan data. Laporan ini harus merangkumi penerangan yang lebih terperinci mengenai data daripada laporan penerangan data, termasuk pengedaran, ringkasan, dan sebarang tanda-tanda masalah kualiti data.
Petugas: Mengesahkan kualiti data
Anda mempunyai data dan anda telah memeriksanya, dan kini anda perlu menentukan sama ada ia cukup baik untuk menyokong matlamat anda. Anda sering akan mempunyai masalah kualiti untuk menangani tetapi masih boleh bergerak ke hadapan, tetapi kadang-kadang kualiti data sangat miskin sehingga ia tidak dapat menyokong rancangan anda dan anda perlu mencari alternatif. Beberapa masalah data yang paling teruk termasuk
-
Data yang anda perlukan tidak wujud. (Adakah ia tidak wujud, atau telah dibuang? Bolehkah data ini dikumpulkan dan disimpan untuk kegunaan masa depan?)
-
Ia wujud, tetapi anda tidak boleh memilikinya. (Bolehkah sekatan ini dapat diatasi?)
-
Anda mendapati masalah kualiti data yang teruk (banyak nilai hilang atau salah yang tidak dapat diperbetulkan).
Pemberian untuk tugas ini adalah laporan kualiti data. Ini merangkumi data yang anda ada, isu-isu kualiti kecil dan utama yang anda telah dapati, dan kemungkinan penyelesaian untuk masalah atau alternatif yang berkualiti (seperti menggunakan sumber data alternatif).Sekiranya anda menghadapi sebarang masalah kualiti data yang benar-benar serius dan tidak dapat mengenal pasti penyelesaian yang mencukupi, anda mungkin perlu mencadangkan matlamat atau rancangan semula.