Video: Statistical Programming with R by Connor Harris 2024
Perlombongan data dilakukan oleh percubaan dan kesilapan, dan oleh itu, untuk penambang data, membuat kesilapan hanya semulajadi. Kesalahan boleh menjadi berharga, dengan kata lain, sekurang-kurangnya dalam keadaan tertentu. Namun, tidak semua kesilapan dibuat sama. Ada yang lebih baik dielakkan. Senarai berikut menawarkan sepuluh kesalahan sedemikian. Sekiranya anda membacanya dengan berhati-hati, dan mengikatnya ke ingatan, anda mungkin mengelakkan beberapa benjolan di kurva pembelajaran:
-
Melangkaui pemeriksaan kualiti data: Kebanyakan penambang data berfikir membangunkan model ramalan lebih menyeronokkan daripada mengkaji data untuk masalah kualiti. Tetapi jika anda gagal untuk mengesan dan membetulkan masalah kualiti data, anda boleh berakhir dengan ramalan yang tidak bernilai.
-
Hilang titik: Anda telah menemui sesuatu yang menarik! Itu bagus, tetapi jika ia juga tidak berkaitan dengan masalah perniagaan yang anda berikan untuk menyelesaikannya, dengan baik, ia tidak relevan sama sekali. Kembali ke landasan.
-
Beriman bahawa corak dalam data membuktikan hubungan sebab-akibat: Anda meneroka dataset dan perhatikan bahawa apabila Variabel A meningkat, Variabel B juga meningkat. Ini boleh berlaku kerana Variabel A mempengaruhi Variabel B, atau kerana Variabel B mempengaruhi Pembolehubah A. Sebaliknya, kedua-duanya boleh dipengaruhi oleh beberapa pembolehubah lain yang tidak anda pertimbangkan. Atau mungkin kebetulan sekali. Siapa boleh katakan?
-
Kesimpulan peregangan terlalu jauh: Jangan menganggap bahawa hubungan yang anda amati dalam data akan berulang dalam keadaan yang berbeza. Jika data anda dikumpulkan dalam persekitaran yang keren, jangan anggap bahawa perkara akan berfungsi dengan cara yang sama dalam tetapan kilang panas.
-
Pertaruhan pada keputusan yang tidak masuk akal: Kaedah perlombongan data adalah tidak formal dan biasanya tidak disokong oleh kaedah dan teori saintifik, jadi hasil anda lebih baik sekurang-kurangnya membuat pengertian perniagaan. Sekiranya tidak ada penjelasan akal untuk hasil yang anda sampaikan, pengurusan eksekutif anda mungkin tidak akan mengambilnya dengan serius, dan mereka tidak seharusnya.
-
Jatuh cinta dengan kaedah pemodelan tertentu: Tidak ada satu jenis model perlombongan data yang sesuai dengan setiap keadaan.
-
Meletakkan model ke dalam pengeluaran tanpa ujian mencukupi: Jangan taruhan perniagaan anda pada model ramalan sehingga anda telah mengujinya dengan data pemantauan dan skala kecil di lapangan.
-
Mengabaikan hasil yang anda tidak suka: Jika anda mengabaikan data anda sekarang, ia akan kembali suatu hari dan berkata, "Saya telah memberitahu anda demikian. "
-
Menggunakan perlombongan data untuk menangani setiap analisis data perlu: Perlombongan data mempunyai nilai yang sangat besar, namun beberapa aplikasi masih memerlukan metode pengumpulan data yang ketat, analisis statistik formal, dan metode saintifik.
-
Menganggap bahawa teknik analisis data tradisional tidak lagi penting: Rujuk kepada peluru sebelumnya.