Pembelajaran mesin dengan Mahout dalam Hadoop - dummies

Pembelajaran Mesin merujuk kepada cawangan teknik perisikan buatan yang menyediakan alat yang membolehkan komputer untuk meningkatkan analisis mereka berdasarkan peristiwa sebelumnya. Sistem komputer ini memanfaatkan data sejarah dari percubaan sebelumnya untuk menyelesaikan tugas untuk meningkatkan prestasi percubaan masa depan pada tugas yang sama.

Dari segi jangkaan hasil, pembelajaran mesin mungkin terdengar seperti kata kunci yang lain "perlombongan data"; Walau bagaimanapun, yang pertama memberi tumpuan kepada ramalan melalui analisis data latihan yang disediakan , yang terakhir berkaitan dengan penemuan pengetahuan dari data mentah tidak diproses . Atas sebab ini, pembelajaran mesin amat bergantung kepada teknik pemodelan statistik dan menarik dari bidang teori kebarangkalian dan pengiktirafan corak.

Mahout adalah projek sumber terbuka dari Apache, yang menawarkan perpustakaan Java untuk algoritma mesin pembelajaran yang diedarkan atau sebaliknya.

Algoritma ini meliputi tugas pembelajaran mesin klasik seperti klasifikasi, pengelompokan, analisis peraturan pergaulan dan cadangan. Walaupun perpustakaan Mahout direka untuk berfungsi dalam konteks Apache Hadoop, mereka juga serasi dengan mana-mana sistem yang menyokong rangka kerja MapReduce. Sebagai contoh, Mahout menyediakan perpustakaan Java untuk koleksi Jawa dan operasi matematik biasa (aljabar linear dan statistik) yang boleh digunakan tanpa Hadoop.

Seperti yang anda lihat, perpustakaan Mahout dilaksanakan di Java MapReduce dan dijalankan pada kluster anda sebagai koleksi petaReduce pekerjaan sama ada YARN (dengan MapReduce v2), atau MapReduce v1.

Mahout adalah projek yang berkembang dengan banyak penyumbang. Pada masa penulisan ini, pengumpulan algoritma yang terdapat di perpustakaan Mahout tidak semestinya lengkap; Walau bagaimanapun, koleksi algoritma yang digunakan untuk digunakan terus berkembang dengan masa.

Terdapat tiga kategori utama algoritma Mahout untuk menyokong analisis statistik: penapisan, kluster, dan klasifikasi kolaborasi.

Penapisan kolaboratif

Mahout direka khusus untuk berfungsi sebagai enjin cadangan, menggunakan apa yang diketahui sebagai algoritma penapisan kolaborasi . Mahout menggabungkan kekayaan clustering dan klasifikasi algoritma di pelupusannya untuk menghasilkan cadangan yang lebih tepat berdasarkan data input.

Cadangan ini sering digunakan terhadap pilihan pengguna, dengan mengambil kira tingkah laku pengguna. Dengan membandingkan pilihan pengguna sebelum ini, adalah mungkin untuk mengenal pasti jiran terdekat (orang yang mempunyai sejarah keputusan yang sama) kepada pengguna tersebut dan meramalkan pilihan masa depan berdasarkan tingkah laku jiran.

Pertimbangkan "profil rasa" enjin seperti Netflix - sebuah enjin yang mencadangkan penarafan berdasarkan tabiat pemilihan dan pemaparan sebelumnya pengguna itu. Dalam contoh ini, corak tingkah laku bagi pengguna dibandingkan dengan sejarah pengguna - dan trend pengguna yang mempunyai citarasa yang serupa dengan komuniti Netflix yang sama - untuk menjana cadangan untuk kandungan yang belum dilihat oleh pengguna yang berkenaan.

Clustering

Tidak seperti kaedah pembelajaran diawasi untuk ciri enjin cadangan Mahout, clustering adalah satu bentuk pembelajaran tanpa pengawasan - di mana label untuk titik data tidak diketahui sebelum masa dan mesti disimpulkan dari data tanpa input manusia (bahagian diselia ). Secara umum, objek dalam kumpulan harus sama; objek dari kluster yang berbeza sepatutnya berbeza. Keputusan dibuat lebih awal daripada bilangan kluster untuk menghasilkan, kriteria untuk mengukur "kesamaan," dan perwakilan objek akan memberi kesan kepada pelabelan yang dihasilkan oleh algoritma kluster.

Sebagai contoh, enjin clustering yang disediakan senarai artikel berita sepatutnya dapat menentukan kluster artikel dalam koleksi itu yang membincangkan topik yang sama.

Anggapkan satu set artikel mengenai Kanada, Perancis, China, perhutanan, minyak, dan wain akan dikelompokkan. Sekiranya bilangan maksimum kluster ditetapkan kepada 2, algoritma anda mungkin menghasilkan kategori seperti "rantau" dan "industri. "Pelarasan kepada bilangan kluster akan menghasilkan pengkategorian yang berlainan; contohnya, memilih untuk 3 kluster boleh menghasilkan pengelompokan berpasangan dari kategori industri-negara.

Klasifikasi

Algoritma pengklasifikasian menggunakan set data latihan berlabel manusia, di mana pengkategorian dan klasifikasi semua input masa depan dikawal oleh label yang diketahui. Pengelas ini melaksanakan apa yang dikenali sebagai pembelajaran diawasi

dalam dunia pembelajaran mesin. Peraturan klasifikasi - yang ditetapkan oleh data latihan, yang telah dilabelkan terlebih dahulu oleh pakar domain - kemudiannya digunakan untuk data mentah dan tidak diproses untuk menentukan label mereka yang sesuai. Teknik ini sering digunakan oleh perkhidmatan e-mel yang cuba mengklasifikasikan e-mel spam sebelum mereka melintas peti masuk anda. Khususnya, diberikan e-mel yang mengandungi satu set frasa yang diketahui lazimnya terjadi bersama dalam kelas spam tertentu - disampaikan dari alamat yang dimiliki oleh botnet yang diketahui - algoritma klasifikasi anda dapat mengenal pasti e-mel dengan pasti sebagai berniat jahat.

Sebagai tambahan kepada kekayaan algoritma statistik yang Mahout menyediakan secara nyata, modul Algoritma Pengguna

(UDA) yang menyokong

juga boleh didapati. Pengguna boleh mengatasi algoritma sedia ada atau melaksanakan sendiri melalui modul UDA. Penyesuaian yang kuat ini membolehkan penalaan prestasi algoritma Mahout asli dan kelenturan dalam menangani cabaran analisis statistik yang unik. Jika Mahout boleh dilihat sebagai pelanjutan analisis statistik ke Hadoop, UDA harus dilihat sebagai lanjutan keupayaan statistik Mahout. Aplikasi analisis statistik tradisional (seperti SAS, SPSS, dan R) datang dengan alat yang kuat untuk menjana aliran kerja. Aplikasi ini menggunakan antara muka pengguna grafik intuitif yang membolehkan visualisasi data yang lebih baik. Skrip Mahout mengikuti corak yang sama seperti alat lain untuk menghasilkan aliran kerja analisis statistik.

Semasa langkah penjelajahan dan penglihatan data akhir, pengguna boleh mengeksport ke format yang boleh dibaca manusia (JSON, CSV) atau memanfaatkan alat visualisasi seperti Tableau Desktop.

Arsitektur Mahout terletak di atas platform Hadoop. Hadoop melepaskan programmer dengan memisahkan tugas pengaturcaraan MapReduce pekerjaan dari pembukuan yang kompleks yang diperlukan untuk menguruskan paralelisme di seluruh sistem fail diedarkan. Dalam semangat yang sama, Mahout menyediakan abstraksi mesra programmer algoritma statistik kompleks, sedia untuk dilaksanakan dengan kerangka Hadoop.