Video: Pembelajaran Berasaskan Projek - Membina Penapis Air 2024
Penambang data sering mengambil kesempatan daripada ciri-ciri khas untuk mengemas lebih banyak maklumat ke dalam carta mudah. Label, lakaran dan pemilihan interaktif merupakan ciri penting dalam aplikasi perlombongan data, ciri khas yang membolehkan anda menjadi lebih produktif.
Mileage menurun apabila tenaga kuda bertambah, seperti yang dilihat dalam angka berikut.
Mileage bertambah dengan masa, seperti yang anda dapat lihat, scatterplot jarak tempuh berbanding tahun model. Adalah berguna untuk mendapatkan kedua idea ini dalam satu graf. Pendekatan penambangan data biasa untuk mengintegrasikan lebih daripada dua pembolehubah dalam graf termasuk
Label:
-
Label ialah nilai rentetan atau pembolehubah kategori yang telah ditumpangkan pada scatterplot. Angka berikut menunjukkan scatterplot yang dilabel dengan model tahun kereta.
Overlay:
-
Dengan overlays, nilai-nilai pemboleh ubah kategori menentukan bentuk atau warna mata. Angka berikut menunjukkan persediaan untuk scatterplot kepada model tahun terlampau di scatterplot jarak tempaan-versus-kuda.
Satu lagi perkara yang perlu diingat dengan scatterplots: Anda mungkin mempunyai beberapa mata yang jatuh di tempat yang sama! Jika ya, anda mungkin tidak dapat memberitahu satu titik untuk satu kes dari satu titik untuk 100 kes. Ubat adalah untuk memeriksa pilihan untuk membuat beberapa contoh kelihatan. Cari saiz titik atau
jitter (bergerak poin sedikit dari lokasi sebenar mereka untuk membuat mereka semua kelihatan) pilihan. Spektrum interaktif adalah penunjuk masa yang hebat untuk penambang data.
Katakanlah anda melihat kumpulan kes yang menarik dalam graf, dan anda ingin menyiasat lebih lanjut hanya kes tersebut. Jika anda melihat hanya satu atau dua mata, anda mungkin mendapat maklumat yang anda inginkan dengan melayang, tetapi itu tidak memuaskan apabila anda berminat dengan lebih daripada beberapa mata.
Alat pemilihan data dalam scatterplots interaktif memberikan anda lebih banyak kuasa untuk memilih data. Angka berikut menunjukkan persediaan graf yang sama, tetapi dengan sekumpulan mata dipilih dengan mengklik dan menyeret tetikus di sekelilingnya. Ini bukan hanya ciri visual.
Anda boleh mengeksport mata yang dipilih sebagai dataset baru. Ini sangat berguna dan cepat!
Jika mata yang anda perlukan tidak sesuai dengan pemilihan segi empat tepat, anda mempunyai pilihan lain. Rujuk ke kawasan Zum / Pilih. Anda dapat melihat butang dengan segi empat tepat untuk pemilihan segi empat tepat dan satu lagi dengan bentuk pusingan untuk pemilihan bentuk bebas.
Berikut adalah contoh pilihan bebas menggunakan data mengenai kandungan nikotin rokok yang dijual di berbagai belahan dunia. Penyebaran ini menunjukkan nikotin setiap rokok untuk sampel dari enam wilayah Pertubuhan Bangsa-bangsa Bersatu. (Ini adalah penggunaan yang tidak tradisional dari scatterplot, kerana rantau bukan pembolehubah yang berterusan, ia adalah kategori. Penambang data sering menggunakan alat tradisional dengan cara yang tidak tradisional.)
Mata dalam rantau tidak jatuh dalam garis menegak yang sempurna. Pergeseran kecil (jitter) ke kiri dan kanan dibuat untuk kebolehbacaan dan penampilan sahaja. Beberapa rokok mempunyai tahap nikotin yang tinggi, dan anda ingin memilih kes tersebut.
Menu drop-down menawarkan pilihan pilihan. Pilihan poligon membolehkan anda menandakan kawasan bebas-bentuk pada scatterplot.
Untuk menandakan, klik pada graf untuk membuat titik permulaan, dan kemudian klik lagi dan kembali ke sekeliling kumpulan mata yang anda mahu sehingga anda telah membuat bentuk yang anda perlukan.
Klik kanan menunjukkan bahawa anda telah menyelesaikan pemilihan; ini dapat dilihat dari kemuncak pada graf.