Isi kandungan:
- Petugas: Memilih data
- Petugas: Data pembersihan
- Petugas: Membina data
- Petugas: Mengintegrasikan data
- Petugas: Memformat data
Video: Simulasi proses - Menggunakan HYSYS simulasi separator 3 fasa 2024
Penambang data meluangkan sebahagian besar masa mereka pada fasa ketiga Model Proses Proses Perambangan Data (CRISP-DM) Cross-Industry: penyediaan data. Kebanyakan data yang digunakan untuk perlombongan data pada asalnya dikumpulkan dan dipelihara untuk tujuan lain dan memerlukan beberapa perbaikan sebelum ia siap digunakan untuk pemodelan.
Fasa penyediaan data termasuk lima tugas . Ini adalah
-
Memilih data
-
Data pembersihan
-
Membina data
-
Mengintegrasikan data
-
Memformat data
Panduan langkah demi langkah CRISP-DM tidak menyatakan secara jelas kumpulan data sebagai hasil untuk setiap tugas penyediaan data, tetapi data-data tersebut telah wujud dengan lebih baik dan diarkibkan dengan betul dan didokumenkan. Dataset tidak sepadan dengan satu sama lain dengan tugas, tetapi maklumat mengenai data yang digunakan harus dimasukkan dalam setiap laporan yang dapat disampaikan.
Petugas: Memilih data
Sekarang anda akan memutuskan bahagian mana data yang anda ada sebenarnya akan digunakan untuk perlombongan data.
Pemberian untuk tugas ini adalah rasional untuk dimasukkan dan dikecualikan. Di dalamnya, anda akan menerangkan apa data yang akan, dan tidak akan, digunakan untuk kerja perlombongan data selanjutnya.
Anda akan menjelaskan sebab untuk memasukkan atau mengecualikan setiap bahagian data yang anda ada, berdasarkan kaitan dengan matlamat anda, kualiti data, dan isu teknikal - seperti had kepada bilangan medan atau baris yang alat anda boleh mengendalikan, atau kesesuaian format data untuk keperluan anda.
Petugas: Data pembersihan
Data yang anda pilih untuk digunakan tidak semestinya bersih (tanpa ralat). Anda akan membuat perubahan, mungkin menjejaki sumber untuk membuat pembetulan data tertentu, tidak termasuk beberapa kes atau sel individu (item data), atau menggantikan beberapa item data dengan nilai lalai atau penggantian yang dipilih oleh teknik pemodelan yang lebih canggih. Anda boleh memilih untuk menggunakan hanya subset data untuk semua atau beberapa kerja perlombongan data anda.
Yang dapat disampaikan untuk tugas ini adalah laporan pembersihan data, yang dokumen, dalam perincian yang luar biasa, setiap keputusan dan tindakan yang digunakan untuk membersihkan data anda. Laporan ini harus merangkumi dan merujuk kepada setiap masalah kualiti data yang dikenal pasti dalam tugas kualiti data yang sah di fasa pemahaman data proses tersebut. Anda melaporkan juga harus menangani kesan yang berpotensi terhadap keputusan pilihan yang telah anda buat semasa pembersihan data.
Petugas: Membina data
Anda mungkin perlu memperoleh beberapa medan baru (contohnya, gunakan tarikh penghantaran dan tarikh pelanggan membuat pesanan untuk mengira berapa lama pelanggan menunggu untuk menerima pesanan), data agregat, atau mencipta bentuk data baru.
Deliverables untuk tugas ini termasuk dua laporan:
-
Atribut asal: Sebuah laporan yang menerangkan bidang-bidang baru (tiang) yang anda buat, bagaimana anda melakukannya, dan mengapa.
-
Rekod yang dihasilkan: Laporan yang menerangkan tentang perkara baru (baris) yang telah anda buat, bagaimana anda melakukannya, dan mengapa.
Walaupun penggabungan data dan format data tugas dicatatkan terakhir dalam fasa proses ini, mereka tidak selalu datang terakhir, dan mereka mungkin tidak muncul sekali sahaja. Anda mungkin perlu melakukan penggabungan atau pemformatan awal dalam fasa penyediaan data.
Petugas: Mengintegrasikan data
Data anda mungkin kini terdapat dalam beberapa dataset yang berbeza. Anda perlu menggabungkan beberapa atau semua kumpulan data yang berbeza untuk bersiap sedia untuk fasa pemodelan.
Pemberian untuk tugas ini adalah data yang digabungkan. (Dan tidak akan menyakitkan untuk mendokumentasikan bagaimana gabungan itu dilakukan.)
Petugas: Memformat data
Data sering datang kepada anda dalam format selain daripada yang paling mudah untuk pemodelan. (Perubahan format biasanya didorong oleh reka bentuk alatan anda.) Jadi ubah format tersebut sekarang.
Pemberian untuk tugas ini adalah data yang telah diformat. (Dan sedikit laporan yang menggambarkan perubahan yang telah dibuat akan menjadi perkara yang bijak untuk disertakan.)
Anda harus menamatkan fasa penyediaan data proses penambangan data dengan dataset yang siap untuk pemodelan dan laporan menyeluruh yang menerangkan dataset.