Rumah Kewangan Peribadi Melihat Dasar-dasar Statistik, Pembelajaran Mesin, dan Kaedah Matematik dalam Sains Data -

Melihat Dasar-dasar Statistik, Pembelajaran Mesin, dan Kaedah Matematik dalam Sains Data -

Isi kandungan:

Video: Data Analysis in R by Dustin Tran 2024

Video: Data Analysis in R by Dustin Tran 2024
Anonim

Sebahagian daripada Sains Data Untuk Lembaran Menipu > Jika statistik telah digambarkan sebagai sains untuk mendapatkan pandangan dari data, maka apakah perbezaan antara statistik ahli sains dan data? Soalan yang baik! Walaupun banyak tugas dalam bidang sains data memerlukan sedikit statistik mengetahui bagaimana, skop dan luas pengetahuan dan kemahiran saintis data adalah berbeza daripada statistik ahli. Perbezaan teras digariskan di bawah.

Keahlian subjek:
  • Salah satu ciri utama saintis data ialah mereka menawarkan tahap kepakaran yang canggih dalam bidang yang mereka menerapkan kaedah analisis mereka. Para saintis data memerlukan ini supaya mereka dapat benar-benar memahami implikasi dan aplikasi wawasan data yang mereka hasilkan. Seorang ahli sains data harus mempunyai kepakaran masalah yang cukup untuk dapat mengenal pasti kepentingan penemuan mereka dan secara bebas memutuskan bagaimana untuk meneruskan analisis.

    Sebaliknya, statistik ahli statistik biasanya mempunyai pengetahuan statistik yang sangat mendalam, tetapi sangat sedikit kepakaran dalam hal perkara yang mereka menerapkan kaedah statistik. Kebanyakan ahli-ahli statistik diperlukan untuk berunding dengan pakar-pakar mata pelajaran luaran untuk benar-benar dapat memahami firma penting mengenai penemuan mereka, dan dapat menentukan cara terbaik untuk bergerak maju dalam analisis.

    Pendekatan matematik dan pembelajaran mesin:
  • Ahli statistik bergantung terutamanya pada kaedah dan proses statistik apabila memperoleh pandangan dari data. Sebaliknya, saintis data dikehendaki menarik dari pelbagai teknik untuk memperoleh pandangan data. Ini termasuk kaedah statistik, tetapi juga termasuk pendekatan yang tidak berdasarkan statistik - seperti yang terdapat dalam pendekatan matematik, kluster, klasifikasi, dan pendekatan pembelajaran mesin bukan statistik. Melihat pentingnya pengetahuan statistik

Anda tidak perlu keluar dan mendapatkan ijazah dalam statistik untuk mengamalkan sains data, tetapi anda sekurang-kurangnya harus mengenali beberapa kaedah yang lebih asas yang digunakan dalam analisis data statistik. Ini termasuk:

Regresi linear

  • : Regresi linear berguna untuk memodelkan hubungan antara pembolehubah bergantung dan satu atau beberapa pembolehubah bebas. Tujuan regresi linier adalah untuk mengetahui (dan mengukur kekuatan) korelasi penting antara pembolehubah bergantung dan bebas. Analisis siri masa:

  • Analisis siri masa melibatkan menganalisis koleksi data mengenai nilai atribut dari masa ke masa, untuk meramalkan masa depan langkah berdasarkan data pemerhatian yang lalu. Simulasi Monte Carlo: Kaedah Monte Carlo adalah teknik simulasi yang anda boleh gunakan untuk menguji hipotesis, untuk menghasilkan anggaran parameter, untuk meramalkan hasil senario, dan untuk mengesahkan model. Kaedah ini kuat kerana ia boleh digunakan untuk meniru dengan cepat di mana-mana dari 1 hingga 10, 000 (atau lebih) sampel simulasi untuk sebarang proses yang anda cuba untuk menilai.

  • Statistik untuk data spatial: Satu sifat penting dan penting dalam data spatial adalah bahawa ia tidak rawak. Ia bergantung secara spasi dan autokorelasi. Apabila memodelkan data spatial, elakkan kaedah statistik yang menganggap data anda rawak. Kriging dan krige adalah dua kaedah statistik yang boleh anda gunakan untuk memodelkan data spatial. Kaedah ini membolehkan anda menghasilkan permukaan ramalan untuk keseluruhan kawasan kajian berdasarkan set titik yang diketahui dalam ruang geografi.

  • Bekerja dengan clustering, klasifikasi, dan kaedah pembelajaran mesin Pembelajaran mesin adalah aplikasi algoritma pengiraan untuk belajar dari (atau menyimpulkan corak dalam) dataset mentah.

Clustering

adalah jenis pembelajaran mesin tertentu - tanpa kawalan pembelajaran mesin, tepatnya, yang bermaksud bahawa algoritma mesti belajar daripada data tidak dilabel, dan oleh itu, mereka mesti menggunakan kaedah inferens untuk mengetahui korelasi. Klasifikasi, sebaliknya, dipanggil pembelajaran mesin yang diselia, yang bermaksud bahawa algoritma belajar dari data berlabel. Perihalan berikut memperkenalkan beberapa pendekatan kluster dan klasifikasi yang lebih mendasar:

k-means clustering: Anda secara umumnya menggunakan algoritma k-bermaksud untuk membahagikan mata data kumpulan data ke dalam kluster berdasarkan nilai min yang terdekat. Untuk menentukan pembahagian mata data anda yang optimum ke dalam kluster, supaya jarak antara titik dalam setiap kluster diminimumkan, anda boleh menggunakan kl-k bermakna.

  • Algoritma terdekat jiran: Tujuan analisis jiran terdekat ialah mencari dan mencari sama ada titik terdekat dalam ruang atau nilai berangka terdekat, bergantung kepada atribut yang anda gunakan untuk perbandingan.

  • Anggaran ketumpatan kernel: Satu cara alternatif untuk mengenal pasti kumpulan dalam data anda adalah dengan menggunakan fungsi peleburan ketumpatan. Anggaran ketumpatan kernel (KDE) berfungsi dengan meletakkan

  • kernel fungsi pembobakan yang berguna untuk mengkuantifikasi kepadatan - pada setiap titik data dalam set data, dan kemudian menjumlahkan kernel untuk menjana taksiran kepadatan kernel untuk keseluruhan rantau. Mengekalkan kaedah matematik dalam campuran Banyak dapat dikatakan tentang nilai statistik dalam amalan sains data, tetapi kaedah matematik yang digunakan jarang disebut. Untuk menjadi jujur, matematik adalah asas bagi semua analisis kuantitatif. Kepentingannya tidak boleh dikurangkan. Kaedah matematik berikut dua amat berguna dalam sains data.

Pengambilan keputusan berbilang kriteria (MCDM):

MCDM adalah pendekatan pemodelan keputusan matematik yang boleh anda gunakan apabila anda mempunyai beberapa kriteria atau alternatif yang anda mesti menilai secara bersamaan ketika membuat keputusan.

  • Rantai Markov : Rantaian Markov adalah kaedah matematik yang rantai bersama-sama satu siri pembolehubah yang dijana secara rawak yang mewakili keadaan sekarang untuk memodelkan bagaimana perubahan dalam pembolehubah keadaan sekarang mempengaruhi keadaan masa depan.

Melihat Dasar-dasar Statistik, Pembelajaran Mesin, dan Kaedah Matematik dalam Sains Data -

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...