Rumah Kewangan Peribadi Fasa 2 Model Proses CRISP-DM: Memahami Data - dummies

Fasa 2 Model Proses CRISP-DM: Memahami Data - dummies

Isi kandungan:

Video: OBE Pusat Ko-kurikulum UUM - Fasa 2 : Setup Teaching Plan 2024

Video: OBE Pusat Ko-kurikulum UUM - Fasa 2 : Setup Teaching Plan 2024
Anonim

Pada fasa kedua proses proses Proses Perindustrian Standard (CRISP-DM), anda memperoleh data dan mengesahkan bahawa ia sesuai untuk keperluan anda. Anda mungkin mengenal pasti isu yang menyebabkan anda kembali ke pemahaman perniagaan dan menyemak semula pelan anda. Anda juga mungkin mendapati kelemahan dalam pemahaman perniagaan anda, satu lagi sebab untuk memikirkan semula matlamat dan rancangan.

Tahap pemahaman data termasuk empat tugas . Ini adalah

  • Data perhimpunan

  • Menggambarkan data

  • Meneroka data

  • Mengesahkan kualiti data

Petugas: Mengumpulkan data

. Setiap langkah pelan bergantung kepada data yang betul. Lebih baik pastikan anda benar-benar mempunyai data itu!

Hanya satu penyerahan wujud untuk tugas ini: laporan pengumpulan data awal. Dalam laporan anda, anda perlu mengesahkan bahawa anda telah memperoleh data atau sekurang-kurangnya mendapat akses ke data, menguji proses akses data, dan mengesahkan bahawa data itu wujud. Anda juga perlu memuatkan data ke dalam apa-apa alat yang akan anda gunakan untuk perlombongan data untuk mengesahkan bahawa alat itu serasi dengan data.

Anda boleh melakukan banyak kerja untuk mengumpulkan data yang anda perlukan sebelum anda boleh menulis laporan ini. Pertama, anda akan membuat pelan anda, seperti berikut:

  • Keperluan data garisan: Buat senarai jenis data yang diperlukan untuk menangani sasaran perlombongan data. Kembangkan senarai dengan butiran seperti julat masa dan format data yang diperlukan.

  • Sahkan ketersediaan data: Sahkan bahawa data yang diperlukan ada dan anda boleh menggunakannya. Jika beberapa data yang anda mahukan tidak tersedia, tentukan bagaimana anda akan menangani isu itu. Pertimbangkan alternatif seperti

    • Substituting dengan sumber data alternatif

    • Mengurangkan skop projek

    • Mengumpul data baru

  • Tentukan kriteria pemilihan: Kenal pasti sumber data tertentu (pangkalan data, dokumen, dan sebagainya.) Anda akan menggunakannya. Dalam sumber tersebut, tentukan jadual, medan, dan julat kes yang berkaitan dengan projek ini.

Setelah anda melangkah langkah ini, anda mesti mendapatkan data. Pada peringkat ini, import data ke dalam platform perlombongan data yang anda akan gunakan untuk projek itu untuk mengesahkan bahawa ia mungkin untuk melakukannya dan anda memahami proses tersebut. Dalam perjalanan percubaan ini, anda mungkin menemukan keterbatasan perangkat lunak (atau perkakasan) yang tidak anda harapkan, seperti

  • Batas pada jumlah kasus atau medan, atau jumlah memori yang mungkin Anda gunakan

  • Tidak dapat membaca format data sumber anda

  • Kesukaran menangani ketidaksempurnaan dalam data (contohnya, anda mungkin menghadapi produk yang tidak akan mengimport atau menganalisis data tidak lengkap)

Akhirnya, meringkaskan proses perhimpunan dalam laporan.Laporan itu harus menerangkan keperluan anda, dan terangkan secara terperinci apa data yang telah anda kumpulkan dan dari sumber apa. Di sini anda mengesahkan bahawa anda sebenarnya telah memperoleh data dan ia serasi dengan platform perlombongan data anda. Sekiranya anda mengalami kesukaran, anda akan menerangkan apa yang mereka dan bagaimana anda telah mengalaminya (menggunakan sumber alternatif, menyemak semula rancangan, mengubah format).

Penghantaran untuk tugas ini hanyalah laporan ringkas, tetapi kerja yang perlu anda lakukan sebelum anda menulis laporan itu tidak akan mudah! Akses data boleh menjadi salah satu bahagian yang paling mencabar dan mengecewakan dari proses penambangan data, yang penuh dengan cabaran teknikal dan perniagaan.

Petugas: Menggambarkan data

Sekarang bahawa anda mempunyai data, menyediakan gambaran umum tentang apa yang anda miliki.

Pemberian untuk tugas ini adalah laporan penerangan data. Di dalamnya, anda menerangkan sumber dan format data, bilangan kes, nombor dan perihalan medan, dan maklumat umum lain yang mungkin penting. Anda juga membuat penilaian ringkas tentang kesesuaian data untuk tujuan penambangan data anda. Sebagai contoh, sahkan bahawa data termasuk bidang yang anda harapkan dan perlu berada di sana dan kes-kes yang mencukupi untuk dianalisis.

Petugas: Meneroka data

Dalam tugas ini, anda memeriksa data dengan lebih teliti. Untuk setiap pembolehubah, anda melihat julat nilai dan pengedarannya. Anda akan menggunakan manipulasi data mudah dan teknik statistik asas untuk pemeriksaan selanjutnya ke dalam data. Penjelajahan data menyokong beberapa tujuan:

  • Dapatkan akrab dengan data.

  • Tanda tempat masalah kualiti data.

  • Tetapkan tahap untuk langkah penyediaan data.

Pemberian untuk tugas ini adalah laporan penjelajahan data. Ini adalah tempat untuk mendokumentasikan sebarang hipotesis atau penemuan awal yang telah anda usahakan semasa penerokaan data. Laporan ini harus merangkumi penerangan yang lebih terperinci mengenai data daripada laporan penerangan data, termasuk pengedaran, ringkasan, dan sebarang tanda-tanda masalah kualiti data.

Petugas: Mengesahkan kualiti data

Anda mempunyai data dan anda telah memeriksanya, dan kini anda perlu menentukan sama ada ia cukup baik untuk menyokong matlamat anda. Anda sering akan mempunyai masalah kualiti untuk menangani tetapi masih boleh bergerak ke hadapan, tetapi kadang-kadang kualiti data sangat miskin sehingga ia tidak dapat menyokong rancangan anda dan anda perlu mencari alternatif. Beberapa masalah data yang paling teruk termasuk

  • Data yang anda perlukan tidak wujud. (Adakah ia tidak wujud, atau telah dibuang? Bolehkah data ini dikumpulkan dan disimpan untuk kegunaan masa depan?)

  • Ia wujud, tetapi anda tidak boleh memilikinya. (Bolehkah sekatan ini dapat diatasi?)

  • Anda mendapati masalah kualiti data yang teruk (banyak nilai hilang atau salah yang tidak dapat diperbetulkan).

Pemberian untuk tugas ini adalah laporan kualiti data. Ini merangkumi data yang anda ada, isu-isu kualiti kecil dan utama yang anda telah dapati, dan kemungkinan penyelesaian untuk masalah atau alternatif yang berkualiti (seperti menggunakan sumber data alternatif).Sekiranya anda menghadapi sebarang masalah kualiti data yang benar-benar serius dan tidak dapat mengenal pasti penyelesaian yang mencukupi, anda mungkin perlu mencadangkan matlamat atau rancangan semula.

Fasa 2 Model Proses CRISP-DM: Memahami Data - dummies

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...