Rumah Kewangan Peribadi Fasa 4 Model Proses CRISP-DM: Modeling - dummies

Fasa 4 Model Proses CRISP-DM: Modeling - dummies

Isi kandungan:

Video: Diagram Fasa & Proses Pembuatan Baja 2024

Video: Diagram Fasa & Proses Pembuatan Baja 2024
Anonim

Pemodelan adalah sebahagian daripada proses proses Proses Perambangan Data Peralihan Data (CRISP-DM) yang kebanyakan data pelombong seperti yang terbaik. Data anda sudah dalam keadaan baik, dan sekarang anda boleh mencari corak yang berguna dalam data anda.

Fasa pemodelan merangkumi empat tugas. Ini adalah

  • Memilih teknik pemodelan

  • Rekabentuk merancang

  • Model bangunan

  • Menilai model

Petugas: Memilih teknik pemodelan

Dunia perlombongan data yang indah menawarkan teknik pemodelan yang baik, tetapi tidak semuanya sesuai dengan keperluan anda. Kecilkan senarai berdasarkan jenis pembolehubah yang terlibat, pemilihan teknik yang terdapat di alat anda, dan pertimbangan perniagaan apa pun yang penting bagi anda. Sebagai contoh, banyak organisasi memihak kepada kaedah dengan output yang mudah difahami, jadi keputusan pokok atau regresi logistik mungkin diterima, tetapi rangkaian saraf mungkin tidak akan diterima.

Deliverables untuk tugas ini termasuk dua laporan:

Teknik pemodelan:

  • Tentukan teknik yang akan anda gunakan. Andaian pemodelan:

  • Banyak teknik pemodelan didasarkan pada andaian tertentu. Sebagai contoh, jenis model mungkin bertujuan untuk digunakan dengan data yang mempunyai jenis pengedaran tertentu. Dokumentasikan andaian ini dalam laporan ini. Ahli statistik adalah bermaklumat, ketat, dan rewel tentang andaian. Itu tidak semestinya benar tentang penambang data, dan itu bukan keperluan untuk menjadi penambang data. Sekiranya anda mempunyai pengetahuan statistik mendalam dan memahami andaian di sebalik model yang anda pilih, anda boleh menjadi ketat dan ragu tentang andaian.

Tetapi banyak penambang data, terutama pelombong data pemula, jangan meremehkan lebih banyak andaian. Alternatif adalah ujian - banyak dan banyak ujian - model anda.

Petugas: Ujian merancang

Ujian dalam tugas ini ialah ujian yang akan anda gunakan untuk menentukan sejauh mana model anda berfungsi. Ia mungkin semudah membelah data anda ke dalam kumpulan kes untuk latihan model dan kumpulan lain untuk ujian model.

Data latihan digunakan untuk menyesuaikan bentuk matematik kepada model data, dan data ujian digunakan semasa proses latihan model untuk mengelakkan

overfitting: membuat model yang sempurna untuk satu dataset, tetapi tidak ada yang lain. Anda juga boleh menggunakan data holdout, yang tidak digunakan semasa proses latihan model, untuk ujian tambahan. Yang boleh dihantar untuk tugas ini ialah reka bentuk ujian anda. Ia tidak perlu terperinci, tetapi anda sekurang-kurangnya harus berhati-hati bahawa data latihan dan ujian anda adalah sama dan anda mengelakkan memperkenalkan apa-apa kecenderungan ke dalam data.

Petugas: Model bangunan

Pemodelan adalah apa yang ramai orang bayangkan sebagai keseluruhan tugas pelombong data, tetapi itu hanya satu tugas berpuluh-puluh! Walau bagaimanapun, pemodelan untuk menangani matlamat perniagaan tertentu adalah hati profesi perlombongan data.

Deliverables untuk tugas ini termasuk tiga perkara:

Pengaturan parameter:

  • Apabila model bangunan, kebanyakan alat memberikan anda pilihan menyesuaikan berbagai tetapan, dan pengaturan ini mempunyai pengaruh pada struktur model akhir. Dokumenkan tetapan ini dalam laporan. Huraian model:

  • Huraikan model anda. Nyatakan jenis model (seperti regresi linear atau rangkaian saraf) dan pembolehubah yang digunakan. Terangkan bagaimana model ditafsirkan. Dokumentasikan sebarang masalah yang dihadapi dalam proses pemodelan. Model:

  • Penghantaran ini adalah model sendiri. Sesetengah jenis model boleh dengan mudah ditakrifkan dengan persamaan yang mudah; yang lain terlalu rumit dan mesti dihantar dalam format yang lebih canggih. Petugas: Menilai model (s)

Sekarang anda akan mengkaji model yang telah anda buat, dari segi teknikal dan juga dari sudut perniagaan (selalunya dengan input daripada pakar perniagaan pada pasukan projek anda).

Deliverables untuk tugas ini termasuk dua laporan:

Penilaian model:

  • Meringkaskan maklumat yang dibangunkan dalam tinjauan model anda. Sekiranya anda telah membuat beberapa model, anda boleh meletakkannya berdasarkan penilaian anda terhadap nilai mereka untuk aplikasi tertentu. Tetapan parameter yang disemak semula:

  • Anda boleh memilih untuk menetapkan tetapan halus yang digunakan untuk membina model dan menjalankan satu lagi pemodelan dan cuba memperbaiki hasil anda. Perlombongan data, seperti bawang, Dobos torte, atau batu sedimen, mempunyai banyak lapisan. Apabila anda baru memulakan perlombongan data, anda boleh mulakan dengan meninggalkan tetapan parameter pada nilai lalai mereka (sebenarnya, anda mungkin tidak dapat melihat pilihan kecuali anda berusaha mencarinya).

Seperti yang anda selesaikan dalam kerjaya penambangan data baru anda, masuk akal untuk anda mengetahui tentang parameter model dan mengetahui bagaimana anda boleh menggunakannya. Pilihan anda akan berbeza dengan jenis model dan alat khusus yang anda gunakan.

Fasa 4 Model Proses CRISP-DM: Modeling - dummies

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...