Rumah Kewangan Peribadi Mengikis, Mengumpul dan Mengendalikan Alat Sains Data - dummies

Mengikis, Mengumpul dan Mengendalikan Alat Sains Data - dummies

Isi kandungan:

Video: Suspense: The 13th Sound / Always Room at the Top / Three Faces at Midnight 2024

Video: Suspense: The 13th Sound / Always Room at the Top / Three Faces at Midnight 2024
Anonim

Sama ada anda memerlukan data untuk menyokong analisis perniagaan atau sekeping kewartawanan yang akan datang, pengikisan web dapat membantu anda mengesan sumber data yang menarik dan unik. Dalam web-scraping anda menyediakan program automatik dan kemudian biarkan mereka menjelajahi web untuk data yang anda perlukan. Berikut adalah alat percuma szome yang boleh anda gunakan untuk mengikis data atau imej, termasuk import. io, ImageQuilts, dan DataWrangler.

Mengikis data dengan import. io

Pernahkah anda cuba menyalin dan menampal meja dari web ke dalam dokumen Microsoft Office dan kemudian tidak dapat mendapatkan lajur untuk disesuaikan dengan betul? Frustasi, bukan? Ini betul-betul titik kesakitan yang diimport. io direka untuk menangani.

import. io - diucapkan "import-eye-oh" - adalah aplikasi desktop percuma yang boleh digunakan untuk menyalin, menyisipkan, bersih, dan memformat secara tidak sengaja setiap bahagian laman web dengan hanya beberapa klik tetikus. Anda juga boleh menggunakan import. io secara automatik merangkak dan mengeluarkan data dari senarai berbilang halaman.

Menggunakan import. io, anda boleh mengikis data dari laman sesawang mudah atau rumit:

  • Sederhana: Akses laman web melalui hyperlink yang mudah yang muncul pada Halaman 1, Page 2, Halaman 3.

  • Complicated: > Isi borang atau pilih dari senarai drop-down, kemudian serahkan permintaan mengikis anda ke alat tersebut. import. Ciri yang paling mengesankan adalah keupayaan untuk memerhatikan klik tetikus anda untuk mengetahui apa yang anda mahukan, dan kemudian menawarkan cara yang dapat menyelesaikan tugas anda secara automatik untuk anda. Walaupun import. io belajar dan mencadangkan tugas, ia tidak mengambil tindakan ke atas tugas-tugas tersebut sehingga selepas anda menandakan cadangan itu betul. Akibatnya, interaksi yang diperkuat dengan manusia ini mengurangkan risiko bahawa mesin akan membuat kesimpulan yang salah kerana terlalu meneka.

Mengumpulkan imej dengan ImageQuilts

ImageQuilts adalah pelanjutan Chrome yang dibangunkan sebahagian oleh legenda Edward Tufte, salah satu pelopor besar pertama dalam visualisasi data - dia mempopularkan penggunaan data-ke- nisbah dakwat untuk menilai keberkesanan carta.

Tugas yang dilakukan ImageQuilts adalah mudah mudah untuk diterangkan tetapi sangat kompleks untuk dilaksanakan. ImageQuilts membuat kolaj berpuluh-puluh imej dan memotong mereka semua bersama-sama menjadi satu "selimut" yang terdiri daripada pelbagai baris ketinggian yang sama. Tugas ini boleh menjadi rumit kerana imej sumber hampir tidak sama dengan ketinggian yang sama. ImageQuilts scrapes dan mengubah ukuran imej sebelum menjahit mereka bersama-sama menjadi satu imej output.

Kuilt imej yang ditunjukkan diperoleh daripada "Dilabel untuk Digunakan" carian Google Imej istilah

data sains . ImageQuilts juga membolehkan anda untuk memilih susunan imej atau untuk meramalkannya. Anda boleh menggunakan alat ini untuk menyeret dan menjatuhkan mana-mana imej ke mana-mana tempat, mengeluarkan imej, zum semua imej pada masa yang sama, atau zum setiap imej secara individu.

Anda juga boleh menggunakan alat ini untuk rahsia antara warna imej - dari warna ke skala kelabu atau warna terbalik (yang berguna untuk membuat helaian kenalan negatif, jika anda adalah salah seorang daripada orang-orang yang jarang yang masih memproses analog-fotografi).

Data Wrangling dengan DataWrangler

DataWrangler adalah alat dalam talian yang disokong oleh Lab Data Interaktif Universiti Washington (pada masa DataWrangler dibangunkan, kumpulan ini dipanggil Kumpulan Visualisasi Stanford). Kumpulan yang sama ini mengembangkan Lyra, persekitaran visualisasi data interaktif yang dapat anda gunakan untuk membuat visualisasi kompleks tanpa pengalaman pengaturcaraan.

Jika matlamat anda adalah

mengukir dataset anda - atau membersihkan perkara dengan menggerakkan sesuatu di sekeliling seperti seorang pengukir akan (memecah bahagian ini dalam dua, slice off itu sedikit dan bergerak ke sana, tolak ini jadi segala-galanya di bawahnya akan dipindahkan ke kanan, dan sebagainya) - DataWrangler adalah alat untuk anda. Anda boleh melakukan manipulasi dengan DataWrangler sama seperti yang anda boleh lakukan dalam Excel menggunakan Visual Basic. Sebagai contoh, anda boleh menggunakan DataWrangler atau Excel dengan Visual Basic untuk menyalin, menyisipkan, dan memformat maklumat dari senarai di Internet.

DataWrangler bahkan mencadangkan tindakan berdasarkan dataset anda dan boleh mengulangi tindakan kompleks di seluruh dataset - tindakan seperti menghapus baris yang dilangkau, memecah data dari satu lajur menjadi dua, atau mengubah header ke dalam data lajur. DataWrangler juga boleh menunjukkan kepada anda di mana data anda tiada data.

Data yang hilang dapat menunjukkan ralat pemformatan yang perlu dibersihkan.

Mengikis, Mengumpul dan Mengendalikan Alat Sains Data - dummies

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...