Video: Suspense: Suspicion 2024
Apabila anda bergantung kepada teknologi atau instrumentasi untuk menjalankan tugas analisis ramalan, gangguan di sini atau di sana boleh menyebabkan instrumen ini mendaftarkan nilai-nilai yang melampau atau tidak biasa. Jika sensor mendaftarkan nilai pemerhatian yang gagal memenuhi piawaian kawalan mutu asas, mereka dapat menghasilkan gangguan sebenar yang tercermin dalam data.
Seseorang yang melakukan kemasukan data, contohnya, dengan mudah boleh menambahkan tambahan 0 di penghujung nilai secara tidak sengaja, mengambil entri keluar dan menghasilkan penjelasan.
Jika anda melihat data pemerhatian yang dikumpulkan oleh sensor air yang dipasang di Baltimore Harbour - dan ia melaporkan kedalaman air 20 kaki di atas paras laut minima - anda mempunyai kelebihan. Sensor itu jelas salah kecuali Baltimore dilindungi sepenuhnya oleh air.
Data boleh berakhir mempunyai kelebihan disebabkan oleh peristiwa luaran atau kesilapan oleh seseorang atau instrumen.
Jika peristiwa sebenar seperti kemalangan kilat ditemui pada kesilapan dalam sistem, akibatnya masih nyata - tetapi jika anda tahu sumber masalah itu, anda mungkin menyimpulkan bahawa kecacatan dalam data, bukan model anda, adalah untuk dipersalahkan jika model anda tidak meramalkan peristiwa itu.
Mengetahui sumber penjual akan membimbing keputusan anda tentang bagaimana untuk menanganinya. Pengecualian yang disebabkan oleh ralat kemasukan data dengan mudah dapat diperbetulkan selepas merujuk kepada sumber data. Pengecualian yang mencerminkan realiti perubahan boleh mendorong anda untuk menukar model anda.
Tidak ada satu-saiz-sesuai-semua jawapan apabila anda memutuskan sama ada untuk menyertakan atau mengabaikan data ekstrem yang bukan kesalahan atau kesalahan. Tanggapan anda bergantung pada jenis analisa yang anda lakukan - dan jenis model yang anda sedang bina. Dalam beberapa kes, cara untuk menangani orang yang tidak jelas adalah mudah:
-
Jika anda mengesan pengecilan anda kepada ralat kemasukan data apabila anda merujuk kepada sumber data, anda dengan mudah boleh membetulkan data dan (mungkin) menyimpan model utuh.
-
Jika sensor air di Pelabuhan Baltimore melaporkan air ke kedalaman 20 kaki di atas paras laut, dan anda berada di Baltimore, tengok tetingkap anda:
-
Jika Baltimore tidak ditutup sepenuhnya oleh air, sensor ternyata salah.
-
Jika anda melihat ikan yang memandang anda, realiti telah berubah; anda mungkin perlu menyemak semula model anda.
-
-
Kemalangan flash mungkin merupakan peristiwa satu kali (dalam jangka masa pendek), tetapi kesannya nyata - dan jika anda telah mempelajari pasaran dalam jangka panjang, anda tahu bahawa sesuatu yang serupa mungkin berlaku lagi.Sekiranya perniagaan anda dalam pembiayaan dan anda berurusan dengan pasaran saham sepanjang masa, anda mahu model anda menganggap penyimpangan tersebut.
Secara umum, jika hasil sesuatu peristiwa biasanya dianggap sebagai outlier boleh memberi impak besar kepada perniagaan anda, pertimbangkan bagaimana menangani peristiwa tersebut dalam analisis anda. Simpan perkara-perkara umum ini dalam fikiran tentang outliers:
-
Dataset yang lebih kecil adalah, makin besar makna pengesan kesan boleh dilakukan pada analisis.
-
Semasa anda membangunkan model anda, pastikan anda juga mengembangkan teknik untuk mencari outlier dan secara sistematik memahami kesannya terhadap perniagaan anda.
-
Mengesan outlier dapat menjadi proses yang rumit; tidak ada cara mudah untuk mengenal pasti mereka.
-
Ahli domain A
-
(seseorang yang mengetahui bidang yang anda sedang model) adalah orang yang paling baik untuk mengesahkan sama ada titik data adalah sah, lebih jelas yang anda boleh tidak menghiraukan atau outlier yang anda miliki untuk mengambil kira. Pakar domain harus dapat menjelaskan faktor-faktor apa yang menciptakan outlier, apa julat variabilitasnya, dan impaknya terhadap perniagaan.