Rumah Kewangan Peribadi Pembelajaran mesin dengan Mahout dalam Hadoop - dummies

Pembelajaran mesin dengan Mahout dalam Hadoop - dummies

Isi kandungan:

Video: apa itu Naive Bayes Classifier [Python Machine Learning bahasa Indonesia pemula] #INDOSOAI 2024

Video: apa itu Naive Bayes Classifier [Python Machine Learning bahasa Indonesia pemula] #INDOSOAI 2024
Anonim

Pembelajaran Mesin merujuk kepada cawangan teknik perisikan buatan yang menyediakan alat yang membolehkan komputer untuk meningkatkan analisis mereka berdasarkan peristiwa sebelumnya. Sistem komputer ini memanfaatkan data sejarah dari percubaan sebelumnya untuk menyelesaikan tugas untuk meningkatkan prestasi percubaan masa depan pada tugas yang sama.

Dari segi jangkaan hasil, pembelajaran mesin mungkin terdengar seperti kata kunci yang lain "perlombongan data"; Walau bagaimanapun, yang pertama memberi tumpuan kepada ramalan melalui analisis data latihan yang disediakan , yang terakhir berkaitan dengan penemuan pengetahuan dari data mentah tidak diproses . Atas sebab ini, pembelajaran mesin amat bergantung kepada teknik pemodelan statistik dan menarik dari bidang teori kebarangkalian dan pengiktirafan corak.

Mahout adalah projek sumber terbuka dari Apache, yang menawarkan perpustakaan Java untuk algoritma mesin pembelajaran yang diedarkan atau sebaliknya.

Algoritma ini meliputi tugas pembelajaran mesin klasik seperti klasifikasi, pengelompokan, analisis peraturan pergaulan dan cadangan. Walaupun perpustakaan Mahout direka untuk berfungsi dalam konteks Apache Hadoop, mereka juga serasi dengan mana-mana sistem yang menyokong rangka kerja MapReduce. Sebagai contoh, Mahout menyediakan perpustakaan Java untuk koleksi Jawa dan operasi matematik biasa (aljabar linear dan statistik) yang boleh digunakan tanpa Hadoop.

Seperti yang anda lihat, perpustakaan Mahout dilaksanakan di Java MapReduce dan dijalankan pada kluster anda sebagai koleksi petaReduce pekerjaan sama ada YARN (dengan MapReduce v2), atau MapReduce v1.

Mahout adalah projek yang berkembang dengan banyak penyumbang. Pada masa penulisan ini, pengumpulan algoritma yang terdapat di perpustakaan Mahout tidak semestinya lengkap; Walau bagaimanapun, koleksi algoritma yang digunakan untuk digunakan terus berkembang dengan masa.

Terdapat tiga kategori utama algoritma Mahout untuk menyokong analisis statistik: penapisan, kluster, dan klasifikasi kolaborasi.

Penapisan kolaboratif

Mahout direka khusus untuk berfungsi sebagai enjin cadangan, menggunakan apa yang diketahui sebagai algoritma penapisan kolaborasi . Mahout menggabungkan kekayaan clustering dan klasifikasi algoritma di pelupusannya untuk menghasilkan cadangan yang lebih tepat berdasarkan data input.

Cadangan ini sering digunakan terhadap pilihan pengguna, dengan mengambil kira tingkah laku pengguna. Dengan membandingkan pilihan pengguna sebelum ini, adalah mungkin untuk mengenal pasti jiran terdekat (orang yang mempunyai sejarah keputusan yang sama) kepada pengguna tersebut dan meramalkan pilihan masa depan berdasarkan tingkah laku jiran.

Pertimbangkan "profil rasa" enjin seperti Netflix - sebuah enjin yang mencadangkan penarafan berdasarkan tabiat pemilihan dan pemaparan sebelumnya pengguna itu. Dalam contoh ini, corak tingkah laku bagi pengguna dibandingkan dengan sejarah pengguna - dan trend pengguna yang mempunyai citarasa yang serupa dengan komuniti Netflix yang sama - untuk menjana cadangan untuk kandungan yang belum dilihat oleh pengguna yang berkenaan.

Clustering

Tidak seperti kaedah pembelajaran diawasi untuk ciri enjin cadangan Mahout, clustering adalah satu bentuk pembelajaran tanpa pengawasan - di mana label untuk titik data tidak diketahui sebelum masa dan mesti disimpulkan dari data tanpa input manusia (bahagian diselia ). Secara umum, objek dalam kumpulan harus sama; objek dari kluster yang berbeza sepatutnya berbeza. Keputusan dibuat lebih awal daripada bilangan kluster untuk menghasilkan, kriteria untuk mengukur "kesamaan," dan perwakilan objek akan memberi kesan kepada pelabelan yang dihasilkan oleh algoritma kluster.

Sebagai contoh, enjin clustering yang disediakan senarai artikel berita sepatutnya dapat menentukan kluster artikel dalam koleksi itu yang membincangkan topik yang sama.

Anggapkan satu set artikel mengenai Kanada, Perancis, China, perhutanan, minyak, dan wain akan dikelompokkan. Sekiranya bilangan maksimum kluster ditetapkan kepada 2, algoritma anda mungkin menghasilkan kategori seperti "rantau" dan "industri. "Pelarasan kepada bilangan kluster akan menghasilkan pengkategorian yang berlainan; contohnya, memilih untuk 3 kluster boleh menghasilkan pengelompokan berpasangan dari kategori industri-negara.

Klasifikasi

Algoritma pengklasifikasian menggunakan set data latihan berlabel manusia, di mana pengkategorian dan klasifikasi semua input masa depan dikawal oleh label yang diketahui. Pengelas ini melaksanakan apa yang dikenali sebagai pembelajaran diawasi

dalam dunia pembelajaran mesin. Peraturan klasifikasi - yang ditetapkan oleh data latihan, yang telah dilabelkan terlebih dahulu oleh pakar domain - kemudiannya digunakan untuk data mentah dan tidak diproses untuk menentukan label mereka yang sesuai. Teknik ini sering digunakan oleh perkhidmatan e-mel yang cuba mengklasifikasikan e-mel spam sebelum mereka melintas peti masuk anda. Khususnya, diberikan e-mel yang mengandungi satu set frasa yang diketahui lazimnya terjadi bersama dalam kelas spam tertentu - disampaikan dari alamat yang dimiliki oleh botnet yang diketahui - algoritma klasifikasi anda dapat mengenal pasti e-mel dengan pasti sebagai berniat jahat.

Sebagai tambahan kepada kekayaan algoritma statistik yang Mahout menyediakan secara nyata, modul Algoritma Pengguna

(UDA) yang menyokong

juga boleh didapati. Pengguna boleh mengatasi algoritma sedia ada atau melaksanakan sendiri melalui modul UDA. Penyesuaian yang kuat ini membolehkan penalaan prestasi algoritma Mahout asli dan kelenturan dalam menangani cabaran analisis statistik yang unik. Jika Mahout boleh dilihat sebagai pelanjutan analisis statistik ke Hadoop, UDA harus dilihat sebagai lanjutan keupayaan statistik Mahout. Aplikasi analisis statistik tradisional (seperti SAS, SPSS, dan R) datang dengan alat yang kuat untuk menjana aliran kerja. Aplikasi ini menggunakan antara muka pengguna grafik intuitif yang membolehkan visualisasi data yang lebih baik. Skrip Mahout mengikuti corak yang sama seperti alat lain untuk menghasilkan aliran kerja analisis statistik.

Semasa langkah penjelajahan dan penglihatan data akhir, pengguna boleh mengeksport ke format yang boleh dibaca manusia (JSON, CSV) atau memanfaatkan alat visualisasi seperti Tableau Desktop.

Arsitektur Mahout terletak di atas platform Hadoop. Hadoop melepaskan programmer dengan memisahkan tugas pengaturcaraan MapReduce pekerjaan dari pembukuan yang kompleks yang diperlukan untuk menguruskan paralelisme di seluruh sistem fail diedarkan. Dalam semangat yang sama, Mahout menyediakan abstraksi mesra programmer algoritma statistik kompleks, sedia untuk dilaksanakan dengan kerangka Hadoop.

Pembelajaran mesin dengan Mahout dalam Hadoop - dummies

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...