Rumah Kewangan Peribadi Fasa 2 Model Proses CRISP-DM: Memahami Data - dummies

Fasa 2 Model Proses CRISP-DM: Memahami Data - dummies

Isi kandungan:

Video: OBE Pusat Ko-kurikulum UUM - Fasa 2 : Setup Teaching Plan 2024

Video: OBE Pusat Ko-kurikulum UUM - Fasa 2 : Setup Teaching Plan 2024
Anonim

Pada fasa kedua proses proses Proses Perindustrian Standard (CRISP-DM), anda memperoleh data dan mengesahkan bahawa ia sesuai untuk keperluan anda. Anda mungkin mengenal pasti isu yang menyebabkan anda kembali ke pemahaman perniagaan dan menyemak semula pelan anda. Anda juga mungkin mendapati kelemahan dalam pemahaman perniagaan anda, satu lagi sebab untuk memikirkan semula matlamat dan rancangan.

Tahap pemahaman data termasuk empat tugas . Ini adalah

  • Data perhimpunan

  • Menggambarkan data

  • Meneroka data

  • Mengesahkan kualiti data

Petugas: Mengumpulkan data

. Setiap langkah pelan bergantung kepada data yang betul. Lebih baik pastikan anda benar-benar mempunyai data itu!

Hanya satu penyerahan wujud untuk tugas ini: laporan pengumpulan data awal. Dalam laporan anda, anda perlu mengesahkan bahawa anda telah memperoleh data atau sekurang-kurangnya mendapat akses ke data, menguji proses akses data, dan mengesahkan bahawa data itu wujud. Anda juga perlu memuatkan data ke dalam apa-apa alat yang akan anda gunakan untuk perlombongan data untuk mengesahkan bahawa alat itu serasi dengan data.

Anda boleh melakukan banyak kerja untuk mengumpulkan data yang anda perlukan sebelum anda boleh menulis laporan ini. Pertama, anda akan membuat pelan anda, seperti berikut:

  • Keperluan data garisan: Buat senarai jenis data yang diperlukan untuk menangani sasaran perlombongan data. Kembangkan senarai dengan butiran seperti julat masa dan format data yang diperlukan.

  • Sahkan ketersediaan data: Sahkan bahawa data yang diperlukan ada dan anda boleh menggunakannya. Jika beberapa data yang anda mahukan tidak tersedia, tentukan bagaimana anda akan menangani isu itu. Pertimbangkan alternatif seperti

    • Substituting dengan sumber data alternatif

    • Mengurangkan skop projek

    • Mengumpul data baru

  • Tentukan kriteria pemilihan: Kenal pasti sumber data tertentu (pangkalan data, dokumen, dan sebagainya.) Anda akan menggunakannya. Dalam sumber tersebut, tentukan jadual, medan, dan julat kes yang berkaitan dengan projek ini.

Setelah anda melangkah langkah ini, anda mesti mendapatkan data. Pada peringkat ini, import data ke dalam platform perlombongan data yang anda akan gunakan untuk projek itu untuk mengesahkan bahawa ia mungkin untuk melakukannya dan anda memahami proses tersebut. Dalam perjalanan percubaan ini, anda mungkin menemukan keterbatasan perangkat lunak (atau perkakasan) yang tidak anda harapkan, seperti

  • Batas pada jumlah kasus atau medan, atau jumlah memori yang mungkin Anda gunakan

  • Tidak dapat membaca format data sumber anda

  • Kesukaran menangani ketidaksempurnaan dalam data (contohnya, anda mungkin menghadapi produk yang tidak akan mengimport atau menganalisis data tidak lengkap)

Akhirnya, meringkaskan proses perhimpunan dalam laporan.Laporan itu harus menerangkan keperluan anda, dan terangkan secara terperinci apa data yang telah anda kumpulkan dan dari sumber apa. Di sini anda mengesahkan bahawa anda sebenarnya telah memperoleh data dan ia serasi dengan platform perlombongan data anda. Sekiranya anda mengalami kesukaran, anda akan menerangkan apa yang mereka dan bagaimana anda telah mengalaminya (menggunakan sumber alternatif, menyemak semula rancangan, mengubah format).

Penghantaran untuk tugas ini hanyalah laporan ringkas, tetapi kerja yang perlu anda lakukan sebelum anda menulis laporan itu tidak akan mudah! Akses data boleh menjadi salah satu bahagian yang paling mencabar dan mengecewakan dari proses penambangan data, yang penuh dengan cabaran teknikal dan perniagaan.

Petugas: Menggambarkan data

Sekarang bahawa anda mempunyai data, menyediakan gambaran umum tentang apa yang anda miliki.

Pemberian untuk tugas ini adalah laporan penerangan data. Di dalamnya, anda menerangkan sumber dan format data, bilangan kes, nombor dan perihalan medan, dan maklumat umum lain yang mungkin penting. Anda juga membuat penilaian ringkas tentang kesesuaian data untuk tujuan penambangan data anda. Sebagai contoh, sahkan bahawa data termasuk bidang yang anda harapkan dan perlu berada di sana dan kes-kes yang mencukupi untuk dianalisis.

Petugas: Meneroka data

Dalam tugas ini, anda memeriksa data dengan lebih teliti. Untuk setiap pembolehubah, anda melihat julat nilai dan pengedarannya. Anda akan menggunakan manipulasi data mudah dan teknik statistik asas untuk pemeriksaan selanjutnya ke dalam data. Penjelajahan data menyokong beberapa tujuan:

  • Dapatkan akrab dengan data.

  • Tanda tempat masalah kualiti data.

  • Tetapkan tahap untuk langkah penyediaan data.

Pemberian untuk tugas ini adalah laporan penjelajahan data. Ini adalah tempat untuk mendokumentasikan sebarang hipotesis atau penemuan awal yang telah anda usahakan semasa penerokaan data. Laporan ini harus merangkumi penerangan yang lebih terperinci mengenai data daripada laporan penerangan data, termasuk pengedaran, ringkasan, dan sebarang tanda-tanda masalah kualiti data.

Petugas: Mengesahkan kualiti data

Anda mempunyai data dan anda telah memeriksanya, dan kini anda perlu menentukan sama ada ia cukup baik untuk menyokong matlamat anda. Anda sering akan mempunyai masalah kualiti untuk menangani tetapi masih boleh bergerak ke hadapan, tetapi kadang-kadang kualiti data sangat miskin sehingga ia tidak dapat menyokong rancangan anda dan anda perlu mencari alternatif. Beberapa masalah data yang paling teruk termasuk

  • Data yang anda perlukan tidak wujud. (Adakah ia tidak wujud, atau telah dibuang? Bolehkah data ini dikumpulkan dan disimpan untuk kegunaan masa depan?)

  • Ia wujud, tetapi anda tidak boleh memilikinya. (Bolehkah sekatan ini dapat diatasi?)

  • Anda mendapati masalah kualiti data yang teruk (banyak nilai hilang atau salah yang tidak dapat diperbetulkan).

Pemberian untuk tugas ini adalah laporan kualiti data. Ini merangkumi data yang anda ada, isu-isu kualiti kecil dan utama yang anda telah dapati, dan kemungkinan penyelesaian untuk masalah atau alternatif yang berkualiti (seperti menggunakan sumber data alternatif).Sekiranya anda menghadapi sebarang masalah kualiti data yang benar-benar serius dan tidak dapat mengenal pasti penyelesaian yang mencukupi, anda mungkin perlu mencadangkan matlamat atau rancangan semula.

Fasa 2 Model Proses CRISP-DM: Memahami Data - dummies

Pilihan Editor

Kabbalah For Dummies Cheat Sheet - dummies

Kabbalah For Dummies Cheat Sheet - dummies

Pemahaman Kabbalah bermula dengan mempelajari inti asas, atau sefirot, berfungsi sebagai pusat kepada kaum tradisionalis Kabbalah. Temui beberapa berkah dan doa bersama yang boleh anda berikan setiap hari dan hari suci utama di Kaballah.

Disarankan Terjemahan Bahasa Inggeris tentang Taurat - patung

Disarankan Terjemahan Bahasa Inggeris tentang Taurat - patung

Kehidupan orang Yahudi adalah perendaman ke dalam Taurat (Lima Buku Musa) dan kesusasteraan yang telah diilhami oleh Taurat. Bahasa asal Taurat adalah bahasa Ibrani, dan kerana kebanyakan orang hari ini tidak membaca Ibrani banyak terjemahan bahasa Inggeris dari Taurat yang tersedia, seperti terjemahan yang ketara: The Living Torah oleh Rabbi Aryeh Kaplan: Ini ...

, Menurut Taurat - tmm

, Menurut Taurat - tmm

Tidaklah mengejutkan, unit keluarga; Lagipun, orang-orang Yahudi pada keseluruhannya dianggap sebagai keluarga, seperti yang dinyatakan oleh ungkapan "Bani Israel. "Walaupun beberapa juta orang berdiri di Gunung Sinai untuk menerima Taurat, seluruh kumpulan tahu sendiri ...

Pilihan Editor

GED Contoh soalan: Soalan Sains / Biologi - dummies

GED Contoh soalan: Soalan Sains / Biologi - dummies

Dan soalan-soalan yang berkaitan dengan biologi, atau cawangan sains yang mengkaji makhluk hidup. Lihat contoh ini untuk jenis soalan yang mungkin anda lihat pada hari ujian. Soalan-soalan dalam artikel ini merujuk kepada petikan berikut. Metabolisme Proses metabolisme adalah ...

GED Contoh Soalan: Penalaran Melalui Dialek Membaca Kesenian Bahasa - Mamma

GED Contoh Soalan: Penalaran Melalui Dialek Membaca Kesenian Bahasa - Mamma

Bahagian kesenian GED, anda mungkin diminta untuk menjawab soalan mengenai satu petikan yang melibatkan dialek. Laluan yang ditulis dalam dialek mungkin mengandungi kata-kata yang mungkin tidak dikenali kerana mereka ditulis sebagai orang di kawasan tertentu akan menyebutnya. Berikut adalah contohnya. Apa yang Anda Perlukan ...

GED Soalan Amalan Sains: Sifat Kimia dan Reaksi - dummies

GED Soalan Amalan Sains: Sifat Kimia dan Reaksi - dummies

Reaksi kimia berlaku di sekeliling kita, jadi ia berguna untuk mengetahui sifat kimia yang berbeza dan bagaimana ciri-ciri ini membuatnya bertindak balas dalam keadaan yang berbeza. Soalan mengenai ujian Sains GED yang berurusan dengan sifat kimia dan tindak balas akan sering menggunakan contoh kehidupan sebenar. Dalam soalan amalan berikut, anda mula membaca dengan ringkas ...

Pilihan Editor

Bagaimana untuk Melihat Foto dari Nikon D5100 pada TV - patung

Bagaimana untuk Melihat Foto dari Nikon D5100 pada TV - patung

Nikon D5100 anda dilengkapi dengan ciri yang membolehkan anda memainkan gambar dan filem anda di skrin televisyen. Sebenarnya, anda mempunyai tiga pilihan main balik: Main balik video biasa (definisi standard): Belum membuat lonjakan ke HDTV? Jangan risau: Anda boleh menetapkan kamera untuk menghantar audio dan video definisi standard biasa ...

ISO dan Bunyi Imej dengan Nikon D3300 - dummies

ISO dan Bunyi Imej dengan Nikon D3300 - dummies

Pada Nikon D3300 untuk memastikan kualiti imej teratas. Apabila ISO meningkat, membuat sensor imej lebih reaktif kepada cahaya, anda meningkatkan risiko menghasilkan bunyi. Bunyi adalah kecacatan yang kelihatan seperti taburan pasir dan sama seperti penampilan pada biji filem, ...