Rumah Kewangan Peribadi Fasa 3 Model Proses CRISP-DM: Penyediaan Data - pendatang

Fasa 3 Model Proses CRISP-DM: Penyediaan Data - pendatang

Isi kandungan:

Video: Simulasi proses - Menggunakan HYSYS simulasi separator 3 fasa 2024

Video: Simulasi proses - Menggunakan HYSYS simulasi separator 3 fasa 2024
Anonim

Penambang data meluangkan sebahagian besar masa mereka pada fasa ketiga Model Proses Proses Perambangan Data (CRISP-DM) Cross-Industry: penyediaan data. Kebanyakan data yang digunakan untuk perlombongan data pada asalnya dikumpulkan dan dipelihara untuk tujuan lain dan memerlukan beberapa perbaikan sebelum ia siap digunakan untuk pemodelan.

Fasa penyediaan data termasuk lima tugas . Ini adalah

  • Memilih data

  • Data pembersihan

  • Membina data

  • Mengintegrasikan data

  • Memformat data

Panduan langkah demi langkah CRISP-DM tidak menyatakan secara jelas kumpulan data sebagai hasil untuk setiap tugas penyediaan data, tetapi data-data tersebut telah wujud dengan lebih baik dan diarkibkan dengan betul dan didokumenkan. Dataset tidak sepadan dengan satu sama lain dengan tugas, tetapi maklumat mengenai data yang digunakan harus dimasukkan dalam setiap laporan yang dapat disampaikan.

Petugas: Memilih data

Sekarang anda akan memutuskan bahagian mana data yang anda ada sebenarnya akan digunakan untuk perlombongan data.

Pemberian untuk tugas ini adalah rasional untuk dimasukkan dan dikecualikan. Di dalamnya, anda akan menerangkan apa data yang akan, dan tidak akan, digunakan untuk kerja perlombongan data selanjutnya.

Anda akan menjelaskan sebab untuk memasukkan atau mengecualikan setiap bahagian data yang anda ada, berdasarkan kaitan dengan matlamat anda, kualiti data, dan isu teknikal - seperti had kepada bilangan medan atau baris yang alat anda boleh mengendalikan, atau kesesuaian format data untuk keperluan anda.

Petugas: Data pembersihan

Data yang anda pilih untuk digunakan tidak semestinya bersih (tanpa ralat). Anda akan membuat perubahan, mungkin menjejaki sumber untuk membuat pembetulan data tertentu, tidak termasuk beberapa kes atau sel individu (item data), atau menggantikan beberapa item data dengan nilai lalai atau penggantian yang dipilih oleh teknik pemodelan yang lebih canggih. Anda boleh memilih untuk menggunakan hanya subset data untuk semua atau beberapa kerja perlombongan data anda.

Yang dapat disampaikan untuk tugas ini adalah laporan pembersihan data, yang dokumen, dalam perincian yang luar biasa, setiap keputusan dan tindakan yang digunakan untuk membersihkan data anda. Laporan ini harus merangkumi dan merujuk kepada setiap masalah kualiti data yang dikenal pasti dalam tugas kualiti data yang sah di fasa pemahaman data proses tersebut. Anda melaporkan juga harus menangani kesan yang berpotensi terhadap keputusan pilihan yang telah anda buat semasa pembersihan data.

Petugas: Membina data

Anda mungkin perlu memperoleh beberapa medan baru (contohnya, gunakan tarikh penghantaran dan tarikh pelanggan membuat pesanan untuk mengira berapa lama pelanggan menunggu untuk menerima pesanan), data agregat, atau mencipta bentuk data baru.

Deliverables untuk tugas ini termasuk dua laporan:

  • Atribut asal: Sebuah laporan yang menerangkan bidang-bidang baru (tiang) yang anda buat, bagaimana anda melakukannya, dan mengapa.

  • Rekod yang dihasilkan: Laporan yang menerangkan tentang perkara baru (baris) yang telah anda buat, bagaimana anda melakukannya, dan mengapa.

Walaupun penggabungan data dan format data tugas dicatatkan terakhir dalam fasa proses ini, mereka tidak selalu datang terakhir, dan mereka mungkin tidak muncul sekali sahaja. Anda mungkin perlu melakukan penggabungan atau pemformatan awal dalam fasa penyediaan data.

Petugas: Mengintegrasikan data

Data anda mungkin kini terdapat dalam beberapa dataset yang berbeza. Anda perlu menggabungkan beberapa atau semua kumpulan data yang berbeza untuk bersiap sedia untuk fasa pemodelan.

Pemberian untuk tugas ini adalah data yang digabungkan. (Dan tidak akan menyakitkan untuk mendokumentasikan bagaimana gabungan itu dilakukan.)

Petugas: Memformat data

Data sering datang kepada anda dalam format selain daripada yang paling mudah untuk pemodelan. (Perubahan format biasanya didorong oleh reka bentuk alatan anda.) Jadi ubah format tersebut sekarang.

Pemberian untuk tugas ini adalah data yang telah diformat. (Dan sedikit laporan yang menggambarkan perubahan yang telah dibuat akan menjadi perkara yang bijak untuk disertakan.)

Anda harus menamatkan fasa penyediaan data proses penambangan data dengan dataset yang siap untuk pemodelan dan laporan menyeluruh yang menerangkan dataset.

Fasa 3 Model Proses CRISP-DM: Penyediaan Data - pendatang

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...