Rumah Kewangan Peribadi Fasa 3 Model Proses CRISP-DM: Penyediaan Data - pendatang

Fasa 3 Model Proses CRISP-DM: Penyediaan Data - pendatang

Isi kandungan:

Video: Simulasi proses - Menggunakan HYSYS simulasi separator 3 fasa 2024

Video: Simulasi proses - Menggunakan HYSYS simulasi separator 3 fasa 2024
Anonim

Penambang data meluangkan sebahagian besar masa mereka pada fasa ketiga Model Proses Proses Perambangan Data (CRISP-DM) Cross-Industry: penyediaan data. Kebanyakan data yang digunakan untuk perlombongan data pada asalnya dikumpulkan dan dipelihara untuk tujuan lain dan memerlukan beberapa perbaikan sebelum ia siap digunakan untuk pemodelan.

Fasa penyediaan data termasuk lima tugas . Ini adalah

  • Memilih data

  • Data pembersihan

  • Membina data

  • Mengintegrasikan data

  • Memformat data

Panduan langkah demi langkah CRISP-DM tidak menyatakan secara jelas kumpulan data sebagai hasil untuk setiap tugas penyediaan data, tetapi data-data tersebut telah wujud dengan lebih baik dan diarkibkan dengan betul dan didokumenkan. Dataset tidak sepadan dengan satu sama lain dengan tugas, tetapi maklumat mengenai data yang digunakan harus dimasukkan dalam setiap laporan yang dapat disampaikan.

Petugas: Memilih data

Sekarang anda akan memutuskan bahagian mana data yang anda ada sebenarnya akan digunakan untuk perlombongan data.

Pemberian untuk tugas ini adalah rasional untuk dimasukkan dan dikecualikan. Di dalamnya, anda akan menerangkan apa data yang akan, dan tidak akan, digunakan untuk kerja perlombongan data selanjutnya.

Anda akan menjelaskan sebab untuk memasukkan atau mengecualikan setiap bahagian data yang anda ada, berdasarkan kaitan dengan matlamat anda, kualiti data, dan isu teknikal - seperti had kepada bilangan medan atau baris yang alat anda boleh mengendalikan, atau kesesuaian format data untuk keperluan anda.

Petugas: Data pembersihan

Data yang anda pilih untuk digunakan tidak semestinya bersih (tanpa ralat). Anda akan membuat perubahan, mungkin menjejaki sumber untuk membuat pembetulan data tertentu, tidak termasuk beberapa kes atau sel individu (item data), atau menggantikan beberapa item data dengan nilai lalai atau penggantian yang dipilih oleh teknik pemodelan yang lebih canggih. Anda boleh memilih untuk menggunakan hanya subset data untuk semua atau beberapa kerja perlombongan data anda.

Yang dapat disampaikan untuk tugas ini adalah laporan pembersihan data, yang dokumen, dalam perincian yang luar biasa, setiap keputusan dan tindakan yang digunakan untuk membersihkan data anda. Laporan ini harus merangkumi dan merujuk kepada setiap masalah kualiti data yang dikenal pasti dalam tugas kualiti data yang sah di fasa pemahaman data proses tersebut. Anda melaporkan juga harus menangani kesan yang berpotensi terhadap keputusan pilihan yang telah anda buat semasa pembersihan data.

Petugas: Membina data

Anda mungkin perlu memperoleh beberapa medan baru (contohnya, gunakan tarikh penghantaran dan tarikh pelanggan membuat pesanan untuk mengira berapa lama pelanggan menunggu untuk menerima pesanan), data agregat, atau mencipta bentuk data baru.

Deliverables untuk tugas ini termasuk dua laporan:

  • Atribut asal: Sebuah laporan yang menerangkan bidang-bidang baru (tiang) yang anda buat, bagaimana anda melakukannya, dan mengapa.

  • Rekod yang dihasilkan: Laporan yang menerangkan tentang perkara baru (baris) yang telah anda buat, bagaimana anda melakukannya, dan mengapa.

Walaupun penggabungan data dan format data tugas dicatatkan terakhir dalam fasa proses ini, mereka tidak selalu datang terakhir, dan mereka mungkin tidak muncul sekali sahaja. Anda mungkin perlu melakukan penggabungan atau pemformatan awal dalam fasa penyediaan data.

Petugas: Mengintegrasikan data

Data anda mungkin kini terdapat dalam beberapa dataset yang berbeza. Anda perlu menggabungkan beberapa atau semua kumpulan data yang berbeza untuk bersiap sedia untuk fasa pemodelan.

Pemberian untuk tugas ini adalah data yang digabungkan. (Dan tidak akan menyakitkan untuk mendokumentasikan bagaimana gabungan itu dilakukan.)

Petugas: Memformat data

Data sering datang kepada anda dalam format selain daripada yang paling mudah untuk pemodelan. (Perubahan format biasanya didorong oleh reka bentuk alatan anda.) Jadi ubah format tersebut sekarang.

Pemberian untuk tugas ini adalah data yang telah diformat. (Dan sedikit laporan yang menggambarkan perubahan yang telah dibuat akan menjadi perkara yang bijak untuk disertakan.)

Anda harus menamatkan fasa penyediaan data proses penambangan data dengan dataset yang siap untuk pemodelan dan laporan menyeluruh yang menerangkan dataset.

Fasa 3 Model Proses CRISP-DM: Penyediaan Data - pendatang

Pilihan Editor

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Jika anda telah memulakan jejak sosial metrik media dan menikmati kurniaan data yang kini dapat dilihat, dihidupkan, dan digunakan, anda mungkin tertanya-tanya apa yang mungkin menyebabkan kemurungan! Mudah: kehilangan data. Katakanlah bahawa anda mempunyai masalah tapak atau entah bagaimana kehilangan akses ke tapak atau data anda. Adakah anda mempunyai sandaran anda ...

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Mana-mana kempen baru, laman web, akaun Twitter, halaman Facebook, atau item lain yang anda ingin ukur dengan metrik media sosial bermula pada sifar. Nombor ini boleh membuat anda merasa seperti anda bercakap dengan tidak sah, bercakap dengan diri anda atau anda tersembunyi dari pandangan. Perasaan ini boleh membawa kepada pengasingan secara keseluruhan ...

Meracuni Google Spider - dummies

Meracuni Google Spider - dummies

Anda sentiasa dapat mencari orang yang ingin menyimpang dari lurus dan sempit. Ya, mereka adalah orang bodoh yang terlibat dalam taktik pengoptimuman berisiko yang bertujuan untuk menggerakkan PageRank secara artifisial, memanipulasi pesanan halaman hasil carian di Google, dan mendapatkan kelebihan yang tidak adil dalam indeks. Google, dengan reputasi yang luar biasa untuk melindungi, ...

Pilihan Editor

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Di laman web anda memberikan wawasan yang penting. Anda boleh memikirkan sama ada pengunjung sedang melihat cepat, kemudian pergi, atau sama ada mereka bertahan lebih lama dan sebenarnya membaca bahan dalam talian anda dengan tujuan untuk mengambil tindakan. Jika majoriti pelawat laman web anda tidak ...

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Laman web perniagaan sangat mirip dengan merancang kedai dengan pemasaran produk dalam fikiran. Malah, laman web anda benar-benar adalah kedai - kedai maya di Internet. Rangkaian kedai runcit telah menghabiskan berjuta-juta dolar dalam penyelidikan pasaran, menonton dan mendokumentasikan bagaimana pembeli memasuki kedai, belok kanan atau kiri, dan ...

Analitik web Untuk Menipu Cheat Sheet - dummies

Analitik web Untuk Menipu Cheat Sheet - dummies

Melakukan analisis laman web tidak perlu meletihkan dan intensif masa. Anda boleh meringkaskan prestasi keseluruhan laman web anda dengan cepat - jika anda tahu apa yang perlu dicari. Alat analisis web percuma dan kos rendah boleh membantu anda mengukur kejayaan laman web anda, dan anda boleh menjana perujuk tapak dengan pelbagai cara yang tidak mungkin ...

Pilihan Editor

Cara Memaksimumkan Ruang pada Laman Web - dummies

Cara Memaksimumkan Ruang pada Laman Web - dummies

Terlalu terhad, anda boleh membuat penggunaan kreatif beberapa teknologi di luar sana untuk memaksimumkan antara muka anda. Untuk setiap teknik berikut yang diterangkan, terdapat banyak laman web yang menawarkan sampel kod, forum, dan sumber untuk membantu anda memulakan. Accordions. Antara muka akordion membolehkan ...

Cara Mendapatkan Corak CSS3 Online - dummies

Cara Mendapatkan Corak CSS3 Online - dummies

Mencipta kesan mudah untuk laman CSS3 menggunakan gradien mudah . Walau bagaimanapun, mewujudkan sesuatu yang benar-benar hebat memerlukan masa dan keupayaan artistik. Kebanyakan pemaju benar-benar tidak mempunyai masa atau kemahiran yang diperlukan untuk mencipta sesuatu yang mempesonakan menggunakan CSS3 sahaja (atau CSS3 digabungkan dengan grafik) - di sinilah pereka bermain. Ramai pereka yang membolehkan anda ...

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Terdapat banyak pelayar dan versi pelayar yang berbeza gunakan hari ini. Tidak semua daripada mereka adalah optimum untuk CSS3. Inilah tempat Modernizr dimainkan. Pemajunya menyebutnya "perpustakaan JavaScript yang mengesan ciri HTML5 dan CSS3 dalam pelayar pengguna. "Anda menggunakan Modernizr untuk melaksanakan tugas secara pilihan dan memasukkan ciri aplikasi berdasarkan ...