Isi kandungan:
- Petugas: Memilih teknik pemodelan
- Ujian dalam tugas ini ialah ujian yang akan anda gunakan untuk menentukan sejauh mana model anda berfungsi. Ia mungkin semudah membelah data anda ke dalam kumpulan kes untuk latihan model dan kumpulan lain untuk ujian model.
- Pemodelan adalah apa yang ramai orang bayangkan sebagai keseluruhan tugas pelombong data, tetapi itu hanya satu tugas berpuluh-puluh! Walau bagaimanapun, pemodelan untuk menangani matlamat perniagaan tertentu adalah hati profesi perlombongan data.
- Sekarang anda akan mengkaji model yang telah anda buat, dari segi teknikal dan juga dari sudut perniagaan (selalunya dengan input daripada pakar perniagaan pada pasukan projek anda).
Video: Diagram Fasa & Proses Pembuatan Baja 2024
Pemodelan adalah sebahagian daripada proses proses Proses Perambangan Data Peralihan Data (CRISP-DM) yang kebanyakan data pelombong seperti yang terbaik. Data anda sudah dalam keadaan baik, dan sekarang anda boleh mencari corak yang berguna dalam data anda.
Fasa pemodelan merangkumi empat tugas. Ini adalah
-
Memilih teknik pemodelan
-
Rekabentuk merancang
-
Model bangunan
-
Menilai model
Petugas: Memilih teknik pemodelan
Dunia perlombongan data yang indah menawarkan teknik pemodelan yang baik, tetapi tidak semuanya sesuai dengan keperluan anda. Kecilkan senarai berdasarkan jenis pembolehubah yang terlibat, pemilihan teknik yang terdapat di alat anda, dan pertimbangan perniagaan apa pun yang penting bagi anda. Sebagai contoh, banyak organisasi memihak kepada kaedah dengan output yang mudah difahami, jadi keputusan pokok atau regresi logistik mungkin diterima, tetapi rangkaian saraf mungkin tidak akan diterima.
Teknik pemodelan:
-
Tentukan teknik yang akan anda gunakan. Andaian pemodelan:
-
Banyak teknik pemodelan didasarkan pada andaian tertentu. Sebagai contoh, jenis model mungkin bertujuan untuk digunakan dengan data yang mempunyai jenis pengedaran tertentu. Dokumentasikan andaian ini dalam laporan ini. Ahli statistik adalah bermaklumat, ketat, dan rewel tentang andaian. Itu tidak semestinya benar tentang penambang data, dan itu bukan keperluan untuk menjadi penambang data. Sekiranya anda mempunyai pengetahuan statistik mendalam dan memahami andaian di sebalik model yang anda pilih, anda boleh menjadi ketat dan ragu tentang andaian.
Petugas: Ujian merancang
Ujian dalam tugas ini ialah ujian yang akan anda gunakan untuk menentukan sejauh mana model anda berfungsi. Ia mungkin semudah membelah data anda ke dalam kumpulan kes untuk latihan model dan kumpulan lain untuk ujian model.
Data latihan digunakan untuk menyesuaikan bentuk matematik kepada model data, dan data ujian digunakan semasa proses latihan model untuk mengelakkan
overfitting: membuat model yang sempurna untuk satu dataset, tetapi tidak ada yang lain. Anda juga boleh menggunakan data holdout, yang tidak digunakan semasa proses latihan model, untuk ujian tambahan. Yang boleh dihantar untuk tugas ini ialah reka bentuk ujian anda. Ia tidak perlu terperinci, tetapi anda sekurang-kurangnya harus berhati-hati bahawa data latihan dan ujian anda adalah sama dan anda mengelakkan memperkenalkan apa-apa kecenderungan ke dalam data.
Petugas: Model bangunan
Pemodelan adalah apa yang ramai orang bayangkan sebagai keseluruhan tugas pelombong data, tetapi itu hanya satu tugas berpuluh-puluh! Walau bagaimanapun, pemodelan untuk menangani matlamat perniagaan tertentu adalah hati profesi perlombongan data.
Deliverables untuk tugas ini termasuk tiga perkara:
Pengaturan parameter:
-
Apabila model bangunan, kebanyakan alat memberikan anda pilihan menyesuaikan berbagai tetapan, dan pengaturan ini mempunyai pengaruh pada struktur model akhir. Dokumenkan tetapan ini dalam laporan. Huraian model:
-
Huraikan model anda. Nyatakan jenis model (seperti regresi linear atau rangkaian saraf) dan pembolehubah yang digunakan. Terangkan bagaimana model ditafsirkan. Dokumentasikan sebarang masalah yang dihadapi dalam proses pemodelan. Model:
-
Penghantaran ini adalah model sendiri. Sesetengah jenis model boleh dengan mudah ditakrifkan dengan persamaan yang mudah; yang lain terlalu rumit dan mesti dihantar dalam format yang lebih canggih. Petugas: Menilai model (s)
Sekarang anda akan mengkaji model yang telah anda buat, dari segi teknikal dan juga dari sudut perniagaan (selalunya dengan input daripada pakar perniagaan pada pasukan projek anda).
Deliverables untuk tugas ini termasuk dua laporan:
Penilaian model:
-
Meringkaskan maklumat yang dibangunkan dalam tinjauan model anda. Sekiranya anda telah membuat beberapa model, anda boleh meletakkannya berdasarkan penilaian anda terhadap nilai mereka untuk aplikasi tertentu. Tetapan parameter yang disemak semula:
-
Anda boleh memilih untuk menetapkan tetapan halus yang digunakan untuk membina model dan menjalankan satu lagi pemodelan dan cuba memperbaiki hasil anda. Perlombongan data, seperti bawang, Dobos torte, atau batu sedimen, mempunyai banyak lapisan. Apabila anda baru memulakan perlombongan data, anda boleh mulakan dengan meninggalkan tetapan parameter pada nilai lalai mereka (sebenarnya, anda mungkin tidak dapat melihat pilihan kecuali anda berusaha mencarinya).
Seperti yang anda selesaikan dalam kerjaya penambangan data baru anda, masuk akal untuk anda mengetahui tentang parameter model dan mengetahui bagaimana anda boleh menggunakannya. Pilihan anda akan berbeza dengan jenis model dan alat khusus yang anda gunakan.