Rumah Kewangan Peribadi 10 Cara untuk Meningkatkan Model Pembelajaran Mesin Anda - dummies

10 Cara untuk Meningkatkan Model Pembelajaran Mesin Anda - dummies

Isi kandungan:

Video: TEKNIK DAN CARA MENGHAFAL 10 KALI LEBIH CEPAT DAN MUDAH UNTUK PELAJAR & MAHASISWA (SEMUA KALANGAN) 2024

Video: TEKNIK DAN CARA MENGHAFAL 10 KALI LEBIH CEPAT DAN MUDAH UNTUK PELAJAR & MAHASISWA (SEMUA KALANGAN) 2024
Anonim

Sekarang bahawa anda adalah algoritma pembelajaran mesin telah selesai belajar dari data yang diperoleh menggunakan Python atau R, anda merenungkan hasil daripada set ujian anda dan bertanya-tanya sama ada anda boleh memperbaikinya atau telah mencapai hasil terbaik. Terdapat beberapa pemeriksaan dan tindakan yang memberi petunjuk kepada kaedah yang boleh anda gunakan untuk meningkatkan prestasi pembelajaran mesin dan mencapai peramal yang lebih umum yang mampu bekerja dengan baik dengan set ujian anda atau data baru. Senarai sepuluh teknik ini menawarkan peluang untuk meningkatkan hasil yang dicapai dengan menggunakan algoritma pembelajaran mesin.

Mempelajari lengkung pembelajaran

Sebagai langkah pertama untuk meningkatkan hasil anda, anda perlu menentukan masalah dengan model anda. Keluk pembelajaran memerlukan anda mengesahkan terhadap satu set ujian kerana anda mengubah bilangan contoh latihan. Anda akan melihat dengan segera sama ada anda mendapati banyak perbezaan antara kesilapan dalam sampel dan luar sampel anda. Perbezaan awal yang luas adalah tanda varians anggaran; sebaliknya, mempunyai kesilapan yang tinggi dan serupa adalah tanda bahawa anda bekerja dengan model yang berat sebelah.

Python membantu anda dengan mudah membuat keluk pembelajaran menggunakan fungsi Scikit-learn (). Anda juga boleh dengan mudah mencapai hasil yang sama menggunakan R dengan fungsi khusus, seperti yang diterangkan oleh blog analytics Revolusi.

Menggunakan cross-validation dengan betul

Melihat perbezaan besar antara estimasi silang-pengesahan (CV) dan hasilnya adalah masalah umum yang muncul dengan set ujian atau data segar. Mempunyai masalah ini bermakna ada sesuatu yang salah dengan pengesahan silang. Di luar fakta bahawa CV bukan peramal prestasi yang baik, masalah ini juga bermakna penunjuk yang mengelirukan telah menyebabkan anda memodelkan masalah dengan betul dan mencapai hasil yang tidak memuaskan.

Cross-validation memberikan anda petunjuk apabila langkah yang anda ambil betul. Ia penting, tetapi tidak kritikal, bahawa CV menganggarkan dengan tepat meniru pengukuran ralat sampel. Walau bagaimanapun, adalah penting bahawa anggaran CV mencerminkan dengan betul atau memburukkan lagi dalam fasa ujian kerana keputusan pemodelan anda. Secara amnya, terdapat dua sebab bahawa anggaran rentas pengesahan boleh berubah dari hasil ralat sebenar:

  • Snooping
  • Perampasan salah

Python menawarkan lapisan sampel stratified-k-lipat. R boleh menyusun sampel menggunakan kaedah createFolds perpustakaan caret apabila anda memberikan parameter y sebagai faktor.

Memilih ralat betul atau skor metrik

Cuba untuk mengoptimumkan metrik ralat berdasarkan ralat median dengan menggunakan algoritma pembelajaran berdasarkan ralat min tidak akan memberikan hasil terbaik melainkan jika anda menguruskan proses pengoptimuman fesyen yang berfungsi memihak kepada metrik yang anda pilih.Apabila menyelesaikan masalah menggunakan data dan pembelajaran mesin, anda perlu menganalisis masalah dan menentukan metrik yang sesuai untuk dioptimumkan.

Contohnya boleh membantu banyak. Anda boleh mendapatkan banyak daripada mereka dari kertas akademik dan dari kontes pembelajaran mesin awam yang dengan teliti menentukan masalah tertentu dari segi data dan ralat / skor metrik. Cari peraduan yang tujuan dan datanya sama dengan anda, dan kemudian semak metrik yang diminta.

Mencari hiper parameter yang paling baik

Kebanyakan algoritma berfungsi dengan baik dari kotak menggunakan tetapan parameter piawai. Bagaimanapun, anda boleh mencapai hasil yang lebih baik dengan menguji hiper parameter yang berbeza. Apa yang anda perlu lakukan ialah membuat carian grid di antara nilai-nilai yang boleh dimanfaatkan oleh parameter anda dan menilai keputusan menggunakan ralat yang betul atau skor metrik. Carian memerlukan masa, tetapi dapat meningkatkan hasil Anda.

Apabila pencarian mengambil masa terlalu lama untuk diselesaikan, anda sering boleh mencapai hasil yang sama dengan mengerjakan sampel data asal anda. Contoh yang lebih sedikit yang dipilih secara rawak memerlukan pengiraan yang lebih sedikit, tetapi mereka biasanya memberi petunjuk pada penyelesaian yang sama. Trik lain yang dapat menjimatkan masa dan usaha adalah melakukan pencarian secara rawak, dengan itu mengehadkan bilangan kombinasi hyper-parameter untuk diuji.

Menguji beberapa model

Sebagai amalan yang baik, menguji beberapa model, bermula dengan yang asas - model yang lebih berat daripada varians. Anda harus sentiasa memihak penyelesaian mudah ke atas yang kompleks. Anda mungkin mendapati bahawa penyelesaian mudah melakukan lebih baik.

Mewakili prestasi model berbeza menggunakan carta yang sama adalah berguna sebelum memilih yang terbaik untuk menyelesaikan masalah anda. Anda boleh meletakkan model yang digunakan untuk meramalkan tingkah laku pengguna, seperti tindak balas terhadap tawaran komersial, dalam carta kenaikan khas dan carta angkat. Carta-carta ini menunjukkan bagaimana model anda melakukan dengan membahagikan keputusannya kepada halus atau bahagian yang lebih kecil.

Oleh kerana anda mungkin berminat hanya dengan pengguna yang paling mungkin menanggapi tawaran anda, pesanan ramalan dari yang paling tidak mungkin akan menekankan betapa baiknya model anda meramalkan pelanggan yang paling menjanjikan. Jawapan Quora ini membantu anda melihat bagaimana carta keuntungan dan lif berfungsi: Apakah Curian ROC? dan apa itu kurva lif?.

Menguji beberapa model dan introspecting mereka juga boleh memberi cadangan tentang ciri-ciri untuk mengubah untuk penciptaan ciri atau ciri yang keluar apabila anda membuat pilihan ciri.

Model rata-rata

Pembelajaran mesin melibatkan membina banyak model dan menghasilkan banyak ramalan yang berbeza, semuanya dengan persembahan ralat yang diharapkan. Ia mungkin mengejutkan anda untuk mengetahui bahawa anda boleh mendapatkan hasil yang lebih baik dengan rata-rata model bersama-sama. Prinsipnya agak mudah: Anggaran varians adalah rawak, jadi dengan mensasarkan banyak model yang berbeza, anda dapat meningkatkan isyarat dan menolak bunyi yang sering membatalkannya.

Kadangkala hasil dari algoritma yang berfungsi dengan baik, bercampur dengan hasil dari algoritma yang lebih mudah yang tidak berfungsi juga, dapat menghasilkan prediksi yang lebih baik daripada menggunakan algoritma tunggal.Jangan meremehkan sumbangan yang diberikan dari model yang lebih mudah, seperti model linear, apabila anda purata hasilnya dengan output daripada algoritma yang lebih canggih, seperti meningkatkan kecerunan.

Model menyusun

Untuk alasan yang sama yang membuat kerja rata, susunan juga boleh memberikan anda prestasi yang lebih baik. Dalam menyusun, anda membina model pembelajaran mesin anda dalam dua peringkat. Pada mulanya teknik ini meramalkan pelbagai hasil menggunakan algoritma yang berbeza, dengan semua mereka belajar dari ciri-ciri yang ada dalam data anda. Semasa fasa kedua, bukannya menyediakan ciri-ciri yang model baru akan belajar, anda memberikan model itu dengan ramalan yang lain, model yang dilatih sebelumnya.

Menggunakan pendekatan dua peringkat adalah wajar apabila meneka fungsi sasaran kompleks. Anda boleh menghitung mereka hanya dengan menggunakan model berganda bersama-sama dan kemudian dengan menggabungkan hasil pendaraban dengan cara pintar. Anda boleh menggunakan regresi logistik mudah atau ensemble pokok rumit sebagai model peringkat kedua.

Pertandingan Netflix menyediakan bukti dan ilustrasi terperinci tentang bagaimana model heterogen boleh disusun bersama untuk membentuk model yang lebih kuat. Walau bagaimanapun, melaksanakan penyelesaian ini sebagai aplikasi kerja boleh menjadi rumit.

Menggunakan kejuruteraan ciri

Jika anda percaya bahawa berat sebelah masih mempengaruhi model anda, anda mempunyai sedikit pilihan tetapi untuk membuat ciri-ciri baru yang meningkatkan prestasi model. Setiap ciri baru boleh meneka tindak sasaran lebih mudah.

Penciptaan ciri automatik mungkin dilakukan dengan menggunakan pengembangan polinomial atau kelas mesin vektor sokongan algoritma pembelajaran mesin. Mesin vektor sokongan secara automatik boleh mencari ciri-ciri yang lebih baik di ruang ciri dimensi yang lebih tinggi dengan cara yang cepat dan memori komputasi optimum.

Walau bagaimanapun, tiada apa yang benar-benar boleh menggantikan kepakaran dan pemahaman anda tentang kaedah yang diperlukan untuk menyelesaikan masalah data yang algoritma cuba untuk belajar. Anda boleh membuat ciri berdasarkan pengetahuan dan idea anda tentang bagaimana keadaan bekerja di dunia. Manusia masih tidak terkalahkan dalam berbuat demikian, dan mesin tidak dapat menggantikannya dengan mudah.

Memilih ciri dan contoh

Jika varians anggaran adalah tinggi dan algoritma anda bergantung kepada banyak ciri, anda perlu memotong beberapa ciri untuk mendapatkan hasil yang lebih baik. Dalam konteks ini, mengurangkan bilangan ciri dalam matriks data anda dengan memilih yang mempunyai nilai ramalan tertinggi adalah dinasihatkan.

Apabila bekerja dengan model linear, mesin vektor sokongan linier, atau rangkaian saraf, pengaturcaraan sentiasa menjadi pilihan. Kedua-dua L1 dan L2 dapat mengurangkan pengaruh pemboleh ubah berlebihan atau bahkan menghapusnya dari model. Pemilihan kestabilan memanfaatkan keupayaan L1 untuk mengecualikan pemboleh ubah kurang berguna. Teknik ini menyertakan data latihan untuk mengesahkan pengecualian.

Anda boleh mengetahui lebih lanjut mengenai pemilihan kestabilan dengan melihat contoh di laman web Scikit-learn. Di samping itu, anda boleh mengamalkan menggunakan fungsi RandomizedLogisticRegression dan RandomizedLasso Scikit dalam modul linear_model.

Mencari lebih banyak data

Setelah mencuba semua cadangan sebelumnya, anda mungkin masih mempunyai variasi ramalan yang tinggi untuk ditangani. Dalam kes ini, satu-satunya pilihan anda adalah untuk meningkatkan saiz set latihan anda. Cuba meningkatkan sampel anda dengan menyediakan data baru, yang boleh diterjemahkan ke dalam kes-kes baru atau ciri-ciri baru.

Jika anda mahu menambahkan lebih banyak kes, lihat saja sama ada anda mempunyai data yang sama di tangan. Sekiranya anda ingin menambah ciri-ciri baru, cari sumber data sumber terbuka, jika mungkin, untuk memadankan data anda dengan entrinya. Satu lagi cara terbaik untuk mendapatkan kedua-dua kes baru dan ciri-ciri baru adalah dengan mengikis data dari web. Seringkali, data tersedia antara sumber yang berlainan atau melalui antara muka pengaturcaraan aplikasi (API). Contohnya, Google API menawarkan banyak sumber maklumat geografi dan perniagaan.

10 Cara untuk Meningkatkan Model Pembelajaran Mesin Anda - dummies

Pilihan Editor

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Sifat kotak, anda boleh meletakkan objek gaya di mana saja di dalam tetingkap penyemak imbas, objek kedudukan berbanding dengan objek lain pada halaman, dan gunakan peraturan gaya padding dan margin kotak secara selektif untuk mana-mana atau semua empat objek gaya sebagai kiri dan bawah atau atas, kiri, dan ...

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Kadar adalah salah satu istilah pemasaran yang paling mengelirukan dari e-mel. Ia sebenarnya mengukur bilangan interaksi tertentu dengan pelayan e-mel selepas e-mel dihantar dinyatakan sebagai peratusan jumlah tidak melantun. E-mel anda tidak dikira sebagai terbuka sehingga salah satu daripada interaksi berikut berlaku: Penerima membolehkan imej ...

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress adalah perisian bebas sumber terbuka yang dapat anda unduh, memasang, dan gunakan untuk membina komuniti sosial anda sendiri di laman web anda yang berkuasa WordPress. Untuk melakukan ini, anda memerlukan pemahaman asas tentang ciri dan terminologi BuddyPress. Mencipta komuniti sosial anda sendiri mudah dilakukan dengan BuddyPress, tetapi jika anda memerlukan bantuan, anda boleh bertanya ...

Pilihan Editor

Menikmati Magic of Mindful Movies - dummies

Menikmati Magic of Mindful Movies - dummies

Tidak ada cara yang lebih baik untuk mengembangkan pengalaman pemikiran anda melampaui batas fizikal United Kingdom dan mengembangkan wawasan anda daripada menikmati filem yang cenderung berfikiran. Filem untuk kanak-kanak: Kung Fu Panda (Mark Osborne, John Stevenson, 2008). Filem animasi moden ini sering merujuk kepada kuasa yang datang dari ...

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Kadang-kadang, hanya apa yang anda perlukan untuk pengalaman pemikiran yang mendalam. Mendengarkan CD berkualiti boleh memindahkan anda ke luar United Kingdom dan benar-benar membuka fikiran anda kepada idea-idea. CD berikut disyorkan: Meditasi Berpandu: Untuk Ketenangan, Kesedaran dan Cinta oleh Bodhipaksa. A ...

Freemason yang terkenal - orang-orang buatan

Freemason yang terkenal - orang-orang buatan

Yang hebat dan paling cemerlang di dunia atau Freemason. Kumpulan-kumpulan ini memberikan anda jauh dari senarai komprehensif - mereka hanya contoh: Bapa pengasas: Freemason yang paling terkenal di Amerika, George Washington telah dimulakan pada tahun 1752, di Fredericksburg, Virginia. Bapa pengasas lain yang juga Mason termasuk Benjamin Franklin, Marquis de ...

Pilihan Editor

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Subjek tertumpukan tajam dan latar belakang yang lembut dan kabur. Ikuti langkah-langkah ini untuk mengambil potret seperti Canon Rebel Digital anda.

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

DSLR yang dijual hari ini, kamera Canon EOS Rebel T7i / 800D menawarkan Live View, yang menyahdayakan pemidang tilik dan sebaliknya memaparkan pratonton langsung subjek anda pada monitor kamera. Senarai berikut menerangkan asas penggunaan Live View: Switch to Live View for photography: Tekan butang Live View untuk beralih dari ...