Rumah Kewangan Peribadi Menyaring Data yang Anda Perlukan - dummies

Menyaring Data yang Anda Perlukan - dummies

Isi kandungan:

Video: Gmail: Managing Email with Gmail 2024

Video: Gmail: Managing Email with Gmail 2024
Anonim

Apabila anda adalah perlombongan data, kadangkala anda akan mempunyai lebih banyak data daripada yang anda perlukan untuk projek yang diberikan. Berikut adalah cara untuk mengurangkan apa yang anda perlukan.

Menyempitkan medan

Apabila anda mempunyai banyak pemboleh ubah dalam dataset, sukar untuk mencari atau melihat orang yang menarik minat anda. Dan sekiranya dataset anda adalah besar, dan anda tidak memerlukan semua pemboleh ubah, mengekalkan ekstra menyerap sumber yang tidak perlu. Jadi, anda kadang-kadang perlu menyimpan beberapa pemboleh ubah dan menggugurkan orang lain. Angka ini menunjukkan contoh dalam KNIME, di mana alat yang betul dipanggil Penapis Lajur.

Persediaan contoh untuk alat ini ditunjukkan dalam angka berikut.

Untuk menyempitkan bidang, cari alatan pemilihan yang berubah-ubah dalam aplikasi perlombongan data anda; ini dijumpai dengan alat lain untuk manipulasi data. Sama seperti alat perlombongan data lain, nama-nama berbeza dari produk ke produk. Cari variasi pada medan lajur, pembolehubah, atau , dan pilihan atau penapisan.

Memilih kes yang berkaitan

Kes dengan data tidak lengkap boleh ditapis sebelum membina model. Mengeluarkan kes yang tidak lengkap adalah satu contoh umum pemilihan data, atau penapisan.

Tetapi bagaimana anda memilih hanya kes yang relevan untuk setiap segmen yang menarik minat anda? Anda akan menggunakan alat pemilihan data.

Angka berikut menunjukkan alat pemilihan data dalam aplikasi penambangan data lain.

Angka seterusnya menunjukkan bagaimana anda akan menyediakan alat tersebut untuk pilihan lain, ini berdasarkan nilai pembolehubah.

Sudah biasa untuk menggunakan pemilihan data jenis ini, dan beberapa aplikasi menyediakan pelbagai fungsi terbina dalam untuk membantu anda menentukan tepat kes-kes yang anda inginkan. Yang ini mempunyai beberapa ciri yang luar biasa; ia memaparkan statistik ringkasan untuk pemboleh ubah dan memberitahu anda dengan tepat berapa kes yang memenuhi kriteria pemilihan.

Kebanyakan aplikasi penambangan data mempunyai alat untuk memilih hanya kes yang anda perlukan. Lihat dalam menu (atau cari) untuk penapis pilih atau .

Pensampelan

Satu pendapat yang popular pada hari ini ialah data yang lebih banyak adalah data yang lebih baik. Ini bukan idea baru. Aplikasi pertambangan data selalu dikembangkan untuk bekerja dengan jumlah data yang besar. Malah nama "perlombongan data" mencadangkan sejumlah besar. Tetapi selalunya, bekerja dengan sampel data anda akan memberikan maklumat yang sama berguna, membuat kerja anda lebih mudah, dan menjimatkan masa dan sumber anda.

Pensampelan memainkan peranan penting dalam perlombongan data. Sekiranya data itu seimbang bermakna model yang digunakan sama bilangan kes dalam setiap kumpulan yang dibandingkan (dalam contoh itu, kumpulan adalah sifat yang mengubah tangan dan sifat yang tidak), walaupun satu kumpulan mempunyai lebih banyak kes daripada lain dalam data asal.

Kemudian, data dipecahkan, dipisahkan menjadi satu subset untuk digunakan untuk melatih model dan yang lain untuk ujian. Menggunakan hanya sampel data dalam plot koordinat yang selari dapat memudahkan pandangan dan tafsiran. (Scatterplots dengan beribu-ribu poin boleh menjadi sukar untuk dibaca!) Mungkin yang paling penting dari semua, persampelan hanya mengurangkan jumlah data, jadi perkara berjalan lebih cepat.

Menyaring Data yang Anda Perlukan - dummies

Pilihan Editor

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Jika anda telah memulakan jejak sosial metrik media dan menikmati kurniaan data yang kini dapat dilihat, dihidupkan, dan digunakan, anda mungkin tertanya-tanya apa yang mungkin menyebabkan kemurungan! Mudah: kehilangan data. Katakanlah bahawa anda mempunyai masalah tapak atau entah bagaimana kehilangan akses ke tapak atau data anda. Adakah anda mempunyai sandaran anda ...

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Mana-mana kempen baru, laman web, akaun Twitter, halaman Facebook, atau item lain yang anda ingin ukur dengan metrik media sosial bermula pada sifar. Nombor ini boleh membuat anda merasa seperti anda bercakap dengan tidak sah, bercakap dengan diri anda atau anda tersembunyi dari pandangan. Perasaan ini boleh membawa kepada pengasingan secara keseluruhan ...

Meracuni Google Spider - dummies

Meracuni Google Spider - dummies

Anda sentiasa dapat mencari orang yang ingin menyimpang dari lurus dan sempit. Ya, mereka adalah orang bodoh yang terlibat dalam taktik pengoptimuman berisiko yang bertujuan untuk menggerakkan PageRank secara artifisial, memanipulasi pesanan halaman hasil carian di Google, dan mendapatkan kelebihan yang tidak adil dalam indeks. Google, dengan reputasi yang luar biasa untuk melindungi, ...

Pilihan Editor

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Di laman web anda memberikan wawasan yang penting. Anda boleh memikirkan sama ada pengunjung sedang melihat cepat, kemudian pergi, atau sama ada mereka bertahan lebih lama dan sebenarnya membaca bahan dalam talian anda dengan tujuan untuk mengambil tindakan. Jika majoriti pelawat laman web anda tidak ...

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Laman web perniagaan sangat mirip dengan merancang kedai dengan pemasaran produk dalam fikiran. Malah, laman web anda benar-benar adalah kedai - kedai maya di Internet. Rangkaian kedai runcit telah menghabiskan berjuta-juta dolar dalam penyelidikan pasaran, menonton dan mendokumentasikan bagaimana pembeli memasuki kedai, belok kanan atau kiri, dan ...

Analitik web Untuk Menipu Cheat Sheet - dummies

Analitik web Untuk Menipu Cheat Sheet - dummies

Melakukan analisis laman web tidak perlu meletihkan dan intensif masa. Anda boleh meringkaskan prestasi keseluruhan laman web anda dengan cepat - jika anda tahu apa yang perlu dicari. Alat analisis web percuma dan kos rendah boleh membantu anda mengukur kejayaan laman web anda, dan anda boleh menjana perujuk tapak dengan pelbagai cara yang tidak mungkin ...

Pilihan Editor

Cara Memaksimumkan Ruang pada Laman Web - dummies

Cara Memaksimumkan Ruang pada Laman Web - dummies

Terlalu terhad, anda boleh membuat penggunaan kreatif beberapa teknologi di luar sana untuk memaksimumkan antara muka anda. Untuk setiap teknik berikut yang diterangkan, terdapat banyak laman web yang menawarkan sampel kod, forum, dan sumber untuk membantu anda memulakan. Accordions. Antara muka akordion membolehkan ...

Cara Mendapatkan Corak CSS3 Online - dummies

Cara Mendapatkan Corak CSS3 Online - dummies

Mencipta kesan mudah untuk laman CSS3 menggunakan gradien mudah . Walau bagaimanapun, mewujudkan sesuatu yang benar-benar hebat memerlukan masa dan keupayaan artistik. Kebanyakan pemaju benar-benar tidak mempunyai masa atau kemahiran yang diperlukan untuk mencipta sesuatu yang mempesonakan menggunakan CSS3 sahaja (atau CSS3 digabungkan dengan grafik) - di sinilah pereka bermain. Ramai pereka yang membolehkan anda ...

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Terdapat banyak pelayar dan versi pelayar yang berbeza gunakan hari ini. Tidak semua daripada mereka adalah optimum untuk CSS3. Inilah tempat Modernizr dimainkan. Pemajunya menyebutnya "perpustakaan JavaScript yang mengesan ciri HTML5 dan CSS3 dalam pelayar pengguna. "Anda menggunakan Modernizr untuk melaksanakan tugas secara pilihan dan memasukkan ciri aplikasi berdasarkan ...