Mengenali Had Bias dalam Pembelajaran Mesin - dummies

Video: Belajar Memperbaiki Power Supply VLOG14 2025

Pembelajaran mesin bergantung kepada data dalam sampel. Bahagian data anda adalah penting kerana anda ingin menemui sudut pandangan dunia, dan seperti semua sudut pandang, ia boleh salah, diputarbelitkan, atau hanya sebahagiannya. Anda juga tahu bahawa anda memerlukan contoh contoh untuk memeriksa sama ada proses pembelajaran berfungsi. Walau bagaimanapun, aspek ini hanya membentuk sebahagian daripada gambar.

Apabila anda membuat algoritma pembelajaran mesin pada data untuk meneka tindak balas tertentu, anda secara efektif mengambil judi, dan perjudian itu bukan hanya kerana sampel yang anda gunakan untuk belajar. Ada lagi. Buat masa ini, bayangkan bahawa anda secara bebas mempunyai akses kepada data yang sesuai, tidak berat sebelah, dalam sampel, jadi data bukanlah masalah. Sebaliknya anda perlu memberi tumpuan kepada kaedah pembelajaran dan ramalan.

Pertama, anda mesti mempertimbangkan bahawa anda bertaruh bahawa algoritma boleh meneka dengan tepat. Anda tidak boleh selalu membuat anggapan ini kerana memikirkan jawapan tertentu tidak mungkin tidak kira apa yang anda tahu terlebih dahulu.

Sebagai contoh, anda tidak boleh sepenuhnya menentukan tingkah laku manusia dengan mengetahui sejarah dan tingkah laku mereka sebelum ini. Mungkin kesan rawak terlibat dalam proses generalisasi tingkah laku kita (bahagian yang tidak rasional kita, misalnya), atau mungkin isu ini akan menjadi kehendak bebas (masalah itu juga adalah falsafah / agama, dan terdapat banyak pendapat yang tidak menonjol). Oleh itu, anda boleh meneka hanya beberapa jenis tindak balas, dan untuk kebanyakan orang lain, seperti ketika anda cuba meramal tingkah laku orang, anda harus menerima tahap ketidakpastian tertentu yang, dengan nasib, dapat diterima untuk tujuan anda.

Kedua, anda harus mempertimbangkan bahawa anda bertaruh bahawa hubungan antara maklumat yang anda miliki dan respons yang anda mahu ramalkan boleh dinyatakan sebagai formula matematik semacam, dan pembelajaran komputer anda algoritma sebenarnya mampu meneka formula itu. Kapasiti algoritma anda untuk meneka formula matematik di sebalik tindak balas tertanam secara intrinsik dalam kacang dan bolt algoritma.

Sesetengah algoritma boleh meneka hampir segala-galanya; yang lain sebenarnya mempunyai satu set pilihan terhad. Pelbagai rumusan matematik yang boleh ditakrifkan oleh algoritma adalah set hipotesis yang mungkin. Akibatnya, hipotesis adalah satu algoritma tunggal, yang dinyatakan dalam semua parameternya dan oleh itu mampu membentuk satu, spesifik tertentu.

Matematik adalah hebat. Ia boleh menggambarkan sebahagian besar dunia nyata dengan menggunakan beberapa notasi ringkas, dan ia adalah inti pembelajaran mesin kerana apa-apa algoritma pembelajaran mempunyai keupayaan tertentu untuk mewakili suatu perumusan matematik.Sesetengah algoritma, seperti regresi linear, secara jelas menggunakan rumusan matematik tertentu untuk mewakili bagaimana tindak balas (contohnya, harga rumah) berkaitan dengan satu set maklumat ramalan (seperti maklumat pasaran, lokasi rumah, permukaan estet, dan sebagainya).

Sesetengah formulasi sangat rumit dan rumit yang walaupun mewakili mereka di atas kertas adalah mungkin, berbuat demikian terlalu sukar dalam segi praktikal. Beberapa algoritma canggih yang lain, seperti pokok keputusan, tidak mempunyai formulasi matematik yang jelas, tetapi begitu mudah disesuaikan supaya mereka dapat menetapkan anggaran rumusan yang besar dengan mudah. Sebagai contoh, pertimbangkan rumusan yang mudah dan mudah dijelaskan. Regresi linear hanyalah garis dalam koordinat ruang yang diberikan oleh respons dan semua prediktor. Dalam contoh yang paling mudah, anda boleh mempunyai respons, y, dan peramal tunggal, x, dengan perumusan

y = β ₁ x ₁ + β ₀

Dalam keadaan mudah tindak balas yang diramalkan oleh satu ciri tunggal, model sedemikian sempurna ketika data anda mengatur dirinya sebagai garis. Walau bagaimanapun, apa yang berlaku jika ia tidak dan sebaliknya membentuk dirinya seperti lengkung? Untuk mewakili keadaan, hanya perhatikan perwakilan bidimensional berikut.

Contoh model linier bergelut untuk memetakan fungsi lengkung.

Apabila mata menyerupai garis atau awan, terdapat ralat apabila anda memikirkan bahawa hasilnya adalah garis lurus; oleh itu pemetaan yang disediakan oleh formulasi sebelumnya entah bagaimana tidak tepat. Walau bagaimanapun, ralat tidak muncul secara sistematik tetapi secara rawak kerana beberapa titik berada di atas garis yang dipetakan dan yang lainnya berada di bawahnya. Keadaan dengan awan titik melengkung, berbentuk berbeza, kerana kali ini, garis kadang-kadang tepat tetapi pada masa lain secara sistematik salah. Kadang-kadang mata sentiasa berada di atas garis; kadang-kadang mereka berada di bawahnya.

Memandangkan kesederhanaan pemetaan respon, algoritma anda cenderung secara sistematik menaksir atau memandang rendah peraturan sebenar di belakang data, yang mewakili kecenderungannya. Bias adalah ciri algoritma mudah yang tidak dapat menyatakan formulasi matematik yang rumit.