Rumah Kewangan Peribadi 10 Cara untuk Meningkatkan Model Pembelajaran Mesin Anda - dummies

10 Cara untuk Meningkatkan Model Pembelajaran Mesin Anda - dummies

Isi kandungan:

Video: TEKNIK DAN CARA MENGHAFAL 10 KALI LEBIH CEPAT DAN MUDAH UNTUK PELAJAR & MAHASISWA (SEMUA KALANGAN) 2024

Video: TEKNIK DAN CARA MENGHAFAL 10 KALI LEBIH CEPAT DAN MUDAH UNTUK PELAJAR & MAHASISWA (SEMUA KALANGAN) 2024
Anonim

Sekarang bahawa anda adalah algoritma pembelajaran mesin telah selesai belajar dari data yang diperoleh menggunakan Python atau R, anda merenungkan hasil daripada set ujian anda dan bertanya-tanya sama ada anda boleh memperbaikinya atau telah mencapai hasil terbaik. Terdapat beberapa pemeriksaan dan tindakan yang memberi petunjuk kepada kaedah yang boleh anda gunakan untuk meningkatkan prestasi pembelajaran mesin dan mencapai peramal yang lebih umum yang mampu bekerja dengan baik dengan set ujian anda atau data baru. Senarai sepuluh teknik ini menawarkan peluang untuk meningkatkan hasil yang dicapai dengan menggunakan algoritma pembelajaran mesin.

Mempelajari lengkung pembelajaran

Sebagai langkah pertama untuk meningkatkan hasil anda, anda perlu menentukan masalah dengan model anda. Keluk pembelajaran memerlukan anda mengesahkan terhadap satu set ujian kerana anda mengubah bilangan contoh latihan. Anda akan melihat dengan segera sama ada anda mendapati banyak perbezaan antara kesilapan dalam sampel dan luar sampel anda. Perbezaan awal yang luas adalah tanda varians anggaran; sebaliknya, mempunyai kesilapan yang tinggi dan serupa adalah tanda bahawa anda bekerja dengan model yang berat sebelah.

Python membantu anda dengan mudah membuat keluk pembelajaran menggunakan fungsi Scikit-learn (). Anda juga boleh dengan mudah mencapai hasil yang sama menggunakan R dengan fungsi khusus, seperti yang diterangkan oleh blog analytics Revolusi.

Menggunakan cross-validation dengan betul

Melihat perbezaan besar antara estimasi silang-pengesahan (CV) dan hasilnya adalah masalah umum yang muncul dengan set ujian atau data segar. Mempunyai masalah ini bermakna ada sesuatu yang salah dengan pengesahan silang. Di luar fakta bahawa CV bukan peramal prestasi yang baik, masalah ini juga bermakna penunjuk yang mengelirukan telah menyebabkan anda memodelkan masalah dengan betul dan mencapai hasil yang tidak memuaskan.

Cross-validation memberikan anda petunjuk apabila langkah yang anda ambil betul. Ia penting, tetapi tidak kritikal, bahawa CV menganggarkan dengan tepat meniru pengukuran ralat sampel. Walau bagaimanapun, adalah penting bahawa anggaran CV mencerminkan dengan betul atau memburukkan lagi dalam fasa ujian kerana keputusan pemodelan anda. Secara amnya, terdapat dua sebab bahawa anggaran rentas pengesahan boleh berubah dari hasil ralat sebenar:

  • Snooping
  • Perampasan salah

Python menawarkan lapisan sampel stratified-k-lipat. R boleh menyusun sampel menggunakan kaedah createFolds perpustakaan caret apabila anda memberikan parameter y sebagai faktor.

Memilih ralat betul atau skor metrik

Cuba untuk mengoptimumkan metrik ralat berdasarkan ralat median dengan menggunakan algoritma pembelajaran berdasarkan ralat min tidak akan memberikan hasil terbaik melainkan jika anda menguruskan proses pengoptimuman fesyen yang berfungsi memihak kepada metrik yang anda pilih.Apabila menyelesaikan masalah menggunakan data dan pembelajaran mesin, anda perlu menganalisis masalah dan menentukan metrik yang sesuai untuk dioptimumkan.

Contohnya boleh membantu banyak. Anda boleh mendapatkan banyak daripada mereka dari kertas akademik dan dari kontes pembelajaran mesin awam yang dengan teliti menentukan masalah tertentu dari segi data dan ralat / skor metrik. Cari peraduan yang tujuan dan datanya sama dengan anda, dan kemudian semak metrik yang diminta.

Mencari hiper parameter yang paling baik

Kebanyakan algoritma berfungsi dengan baik dari kotak menggunakan tetapan parameter piawai. Bagaimanapun, anda boleh mencapai hasil yang lebih baik dengan menguji hiper parameter yang berbeza. Apa yang anda perlu lakukan ialah membuat carian grid di antara nilai-nilai yang boleh dimanfaatkan oleh parameter anda dan menilai keputusan menggunakan ralat yang betul atau skor metrik. Carian memerlukan masa, tetapi dapat meningkatkan hasil Anda.

Apabila pencarian mengambil masa terlalu lama untuk diselesaikan, anda sering boleh mencapai hasil yang sama dengan mengerjakan sampel data asal anda. Contoh yang lebih sedikit yang dipilih secara rawak memerlukan pengiraan yang lebih sedikit, tetapi mereka biasanya memberi petunjuk pada penyelesaian yang sama. Trik lain yang dapat menjimatkan masa dan usaha adalah melakukan pencarian secara rawak, dengan itu mengehadkan bilangan kombinasi hyper-parameter untuk diuji.

Menguji beberapa model

Sebagai amalan yang baik, menguji beberapa model, bermula dengan yang asas - model yang lebih berat daripada varians. Anda harus sentiasa memihak penyelesaian mudah ke atas yang kompleks. Anda mungkin mendapati bahawa penyelesaian mudah melakukan lebih baik.

Mewakili prestasi model berbeza menggunakan carta yang sama adalah berguna sebelum memilih yang terbaik untuk menyelesaikan masalah anda. Anda boleh meletakkan model yang digunakan untuk meramalkan tingkah laku pengguna, seperti tindak balas terhadap tawaran komersial, dalam carta kenaikan khas dan carta angkat. Carta-carta ini menunjukkan bagaimana model anda melakukan dengan membahagikan keputusannya kepada halus atau bahagian yang lebih kecil.

Oleh kerana anda mungkin berminat hanya dengan pengguna yang paling mungkin menanggapi tawaran anda, pesanan ramalan dari yang paling tidak mungkin akan menekankan betapa baiknya model anda meramalkan pelanggan yang paling menjanjikan. Jawapan Quora ini membantu anda melihat bagaimana carta keuntungan dan lif berfungsi: Apakah Curian ROC? dan apa itu kurva lif?.

Menguji beberapa model dan introspecting mereka juga boleh memberi cadangan tentang ciri-ciri untuk mengubah untuk penciptaan ciri atau ciri yang keluar apabila anda membuat pilihan ciri.

Model rata-rata

Pembelajaran mesin melibatkan membina banyak model dan menghasilkan banyak ramalan yang berbeza, semuanya dengan persembahan ralat yang diharapkan. Ia mungkin mengejutkan anda untuk mengetahui bahawa anda boleh mendapatkan hasil yang lebih baik dengan rata-rata model bersama-sama. Prinsipnya agak mudah: Anggaran varians adalah rawak, jadi dengan mensasarkan banyak model yang berbeza, anda dapat meningkatkan isyarat dan menolak bunyi yang sering membatalkannya.

Kadangkala hasil dari algoritma yang berfungsi dengan baik, bercampur dengan hasil dari algoritma yang lebih mudah yang tidak berfungsi juga, dapat menghasilkan prediksi yang lebih baik daripada menggunakan algoritma tunggal.Jangan meremehkan sumbangan yang diberikan dari model yang lebih mudah, seperti model linear, apabila anda purata hasilnya dengan output daripada algoritma yang lebih canggih, seperti meningkatkan kecerunan.

Model menyusun

Untuk alasan yang sama yang membuat kerja rata, susunan juga boleh memberikan anda prestasi yang lebih baik. Dalam menyusun, anda membina model pembelajaran mesin anda dalam dua peringkat. Pada mulanya teknik ini meramalkan pelbagai hasil menggunakan algoritma yang berbeza, dengan semua mereka belajar dari ciri-ciri yang ada dalam data anda. Semasa fasa kedua, bukannya menyediakan ciri-ciri yang model baru akan belajar, anda memberikan model itu dengan ramalan yang lain, model yang dilatih sebelumnya.

Menggunakan pendekatan dua peringkat adalah wajar apabila meneka fungsi sasaran kompleks. Anda boleh menghitung mereka hanya dengan menggunakan model berganda bersama-sama dan kemudian dengan menggabungkan hasil pendaraban dengan cara pintar. Anda boleh menggunakan regresi logistik mudah atau ensemble pokok rumit sebagai model peringkat kedua.

Pertandingan Netflix menyediakan bukti dan ilustrasi terperinci tentang bagaimana model heterogen boleh disusun bersama untuk membentuk model yang lebih kuat. Walau bagaimanapun, melaksanakan penyelesaian ini sebagai aplikasi kerja boleh menjadi rumit.

Menggunakan kejuruteraan ciri

Jika anda percaya bahawa berat sebelah masih mempengaruhi model anda, anda mempunyai sedikit pilihan tetapi untuk membuat ciri-ciri baru yang meningkatkan prestasi model. Setiap ciri baru boleh meneka tindak sasaran lebih mudah.

Penciptaan ciri automatik mungkin dilakukan dengan menggunakan pengembangan polinomial atau kelas mesin vektor sokongan algoritma pembelajaran mesin. Mesin vektor sokongan secara automatik boleh mencari ciri-ciri yang lebih baik di ruang ciri dimensi yang lebih tinggi dengan cara yang cepat dan memori komputasi optimum.

Walau bagaimanapun, tiada apa yang benar-benar boleh menggantikan kepakaran dan pemahaman anda tentang kaedah yang diperlukan untuk menyelesaikan masalah data yang algoritma cuba untuk belajar. Anda boleh membuat ciri berdasarkan pengetahuan dan idea anda tentang bagaimana keadaan bekerja di dunia. Manusia masih tidak terkalahkan dalam berbuat demikian, dan mesin tidak dapat menggantikannya dengan mudah.

Memilih ciri dan contoh

Jika varians anggaran adalah tinggi dan algoritma anda bergantung kepada banyak ciri, anda perlu memotong beberapa ciri untuk mendapatkan hasil yang lebih baik. Dalam konteks ini, mengurangkan bilangan ciri dalam matriks data anda dengan memilih yang mempunyai nilai ramalan tertinggi adalah dinasihatkan.

Apabila bekerja dengan model linear, mesin vektor sokongan linier, atau rangkaian saraf, pengaturcaraan sentiasa menjadi pilihan. Kedua-dua L1 dan L2 dapat mengurangkan pengaruh pemboleh ubah berlebihan atau bahkan menghapusnya dari model. Pemilihan kestabilan memanfaatkan keupayaan L1 untuk mengecualikan pemboleh ubah kurang berguna. Teknik ini menyertakan data latihan untuk mengesahkan pengecualian.

Anda boleh mengetahui lebih lanjut mengenai pemilihan kestabilan dengan melihat contoh di laman web Scikit-learn. Di samping itu, anda boleh mengamalkan menggunakan fungsi RandomizedLogisticRegression dan RandomizedLasso Scikit dalam modul linear_model.

Mencari lebih banyak data

Setelah mencuba semua cadangan sebelumnya, anda mungkin masih mempunyai variasi ramalan yang tinggi untuk ditangani. Dalam kes ini, satu-satunya pilihan anda adalah untuk meningkatkan saiz set latihan anda. Cuba meningkatkan sampel anda dengan menyediakan data baru, yang boleh diterjemahkan ke dalam kes-kes baru atau ciri-ciri baru.

Jika anda mahu menambahkan lebih banyak kes, lihat saja sama ada anda mempunyai data yang sama di tangan. Sekiranya anda ingin menambah ciri-ciri baru, cari sumber data sumber terbuka, jika mungkin, untuk memadankan data anda dengan entrinya. Satu lagi cara terbaik untuk mendapatkan kedua-dua kes baru dan ciri-ciri baru adalah dengan mengikis data dari web. Seringkali, data tersedia antara sumber yang berlainan atau melalui antara muka pengaturcaraan aplikasi (API). Contohnya, Google API menawarkan banyak sumber maklumat geografi dan perniagaan.

10 Cara untuk Meningkatkan Model Pembelajaran Mesin Anda - dummies

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...