Rumah Kewangan Peribadi Pembelajaran mesin dengan Mahout dalam Hadoop - dummies

Pembelajaran mesin dengan Mahout dalam Hadoop - dummies

Isi kandungan:

Video: apa itu Naive Bayes Classifier [Python Machine Learning bahasa Indonesia pemula] #INDOSOAI 2024

Video: apa itu Naive Bayes Classifier [Python Machine Learning bahasa Indonesia pemula] #INDOSOAI 2024
Anonim

Pembelajaran Mesin merujuk kepada cawangan teknik perisikan buatan yang menyediakan alat yang membolehkan komputer untuk meningkatkan analisis mereka berdasarkan peristiwa sebelumnya. Sistem komputer ini memanfaatkan data sejarah dari percubaan sebelumnya untuk menyelesaikan tugas untuk meningkatkan prestasi percubaan masa depan pada tugas yang sama.

Dari segi jangkaan hasil, pembelajaran mesin mungkin terdengar seperti kata kunci yang lain "perlombongan data"; Walau bagaimanapun, yang pertama memberi tumpuan kepada ramalan melalui analisis data latihan yang disediakan , yang terakhir berkaitan dengan penemuan pengetahuan dari data mentah tidak diproses . Atas sebab ini, pembelajaran mesin amat bergantung kepada teknik pemodelan statistik dan menarik dari bidang teori kebarangkalian dan pengiktirafan corak.

Mahout adalah projek sumber terbuka dari Apache, yang menawarkan perpustakaan Java untuk algoritma mesin pembelajaran yang diedarkan atau sebaliknya.

Algoritma ini meliputi tugas pembelajaran mesin klasik seperti klasifikasi, pengelompokan, analisis peraturan pergaulan dan cadangan. Walaupun perpustakaan Mahout direka untuk berfungsi dalam konteks Apache Hadoop, mereka juga serasi dengan mana-mana sistem yang menyokong rangka kerja MapReduce. Sebagai contoh, Mahout menyediakan perpustakaan Java untuk koleksi Jawa dan operasi matematik biasa (aljabar linear dan statistik) yang boleh digunakan tanpa Hadoop.

Seperti yang anda lihat, perpustakaan Mahout dilaksanakan di Java MapReduce dan dijalankan pada kluster anda sebagai koleksi petaReduce pekerjaan sama ada YARN (dengan MapReduce v2), atau MapReduce v1.

Mahout adalah projek yang berkembang dengan banyak penyumbang. Pada masa penulisan ini, pengumpulan algoritma yang terdapat di perpustakaan Mahout tidak semestinya lengkap; Walau bagaimanapun, koleksi algoritma yang digunakan untuk digunakan terus berkembang dengan masa.

Terdapat tiga kategori utama algoritma Mahout untuk menyokong analisis statistik: penapisan, kluster, dan klasifikasi kolaborasi.

Penapisan kolaboratif

Mahout direka khusus untuk berfungsi sebagai enjin cadangan, menggunakan apa yang diketahui sebagai algoritma penapisan kolaborasi . Mahout menggabungkan kekayaan clustering dan klasifikasi algoritma di pelupusannya untuk menghasilkan cadangan yang lebih tepat berdasarkan data input.

Cadangan ini sering digunakan terhadap pilihan pengguna, dengan mengambil kira tingkah laku pengguna. Dengan membandingkan pilihan pengguna sebelum ini, adalah mungkin untuk mengenal pasti jiran terdekat (orang yang mempunyai sejarah keputusan yang sama) kepada pengguna tersebut dan meramalkan pilihan masa depan berdasarkan tingkah laku jiran.

Pertimbangkan "profil rasa" enjin seperti Netflix - sebuah enjin yang mencadangkan penarafan berdasarkan tabiat pemilihan dan pemaparan sebelumnya pengguna itu. Dalam contoh ini, corak tingkah laku bagi pengguna dibandingkan dengan sejarah pengguna - dan trend pengguna yang mempunyai citarasa yang serupa dengan komuniti Netflix yang sama - untuk menjana cadangan untuk kandungan yang belum dilihat oleh pengguna yang berkenaan.

Clustering

Tidak seperti kaedah pembelajaran diawasi untuk ciri enjin cadangan Mahout, clustering adalah satu bentuk pembelajaran tanpa pengawasan - di mana label untuk titik data tidak diketahui sebelum masa dan mesti disimpulkan dari data tanpa input manusia (bahagian diselia ). Secara umum, objek dalam kumpulan harus sama; objek dari kluster yang berbeza sepatutnya berbeza. Keputusan dibuat lebih awal daripada bilangan kluster untuk menghasilkan, kriteria untuk mengukur "kesamaan," dan perwakilan objek akan memberi kesan kepada pelabelan yang dihasilkan oleh algoritma kluster.

Sebagai contoh, enjin clustering yang disediakan senarai artikel berita sepatutnya dapat menentukan kluster artikel dalam koleksi itu yang membincangkan topik yang sama.

Anggapkan satu set artikel mengenai Kanada, Perancis, China, perhutanan, minyak, dan wain akan dikelompokkan. Sekiranya bilangan maksimum kluster ditetapkan kepada 2, algoritma anda mungkin menghasilkan kategori seperti "rantau" dan "industri. "Pelarasan kepada bilangan kluster akan menghasilkan pengkategorian yang berlainan; contohnya, memilih untuk 3 kluster boleh menghasilkan pengelompokan berpasangan dari kategori industri-negara.

Klasifikasi

Algoritma pengklasifikasian menggunakan set data latihan berlabel manusia, di mana pengkategorian dan klasifikasi semua input masa depan dikawal oleh label yang diketahui. Pengelas ini melaksanakan apa yang dikenali sebagai pembelajaran diawasi

dalam dunia pembelajaran mesin. Peraturan klasifikasi - yang ditetapkan oleh data latihan, yang telah dilabelkan terlebih dahulu oleh pakar domain - kemudiannya digunakan untuk data mentah dan tidak diproses untuk menentukan label mereka yang sesuai. Teknik ini sering digunakan oleh perkhidmatan e-mel yang cuba mengklasifikasikan e-mel spam sebelum mereka melintas peti masuk anda. Khususnya, diberikan e-mel yang mengandungi satu set frasa yang diketahui lazimnya terjadi bersama dalam kelas spam tertentu - disampaikan dari alamat yang dimiliki oleh botnet yang diketahui - algoritma klasifikasi anda dapat mengenal pasti e-mel dengan pasti sebagai berniat jahat.

Sebagai tambahan kepada kekayaan algoritma statistik yang Mahout menyediakan secara nyata, modul Algoritma Pengguna

(UDA) yang menyokong

juga boleh didapati. Pengguna boleh mengatasi algoritma sedia ada atau melaksanakan sendiri melalui modul UDA. Penyesuaian yang kuat ini membolehkan penalaan prestasi algoritma Mahout asli dan kelenturan dalam menangani cabaran analisis statistik yang unik. Jika Mahout boleh dilihat sebagai pelanjutan analisis statistik ke Hadoop, UDA harus dilihat sebagai lanjutan keupayaan statistik Mahout. Aplikasi analisis statistik tradisional (seperti SAS, SPSS, dan R) datang dengan alat yang kuat untuk menjana aliran kerja. Aplikasi ini menggunakan antara muka pengguna grafik intuitif yang membolehkan visualisasi data yang lebih baik. Skrip Mahout mengikuti corak yang sama seperti alat lain untuk menghasilkan aliran kerja analisis statistik.

Semasa langkah penjelajahan dan penglihatan data akhir, pengguna boleh mengeksport ke format yang boleh dibaca manusia (JSON, CSV) atau memanfaatkan alat visualisasi seperti Tableau Desktop.

Arsitektur Mahout terletak di atas platform Hadoop. Hadoop melepaskan programmer dengan memisahkan tugas pengaturcaraan MapReduce pekerjaan dari pembukuan yang kompleks yang diperlukan untuk menguruskan paralelisme di seluruh sistem fail diedarkan. Dalam semangat yang sama, Mahout menyediakan abstraksi mesra programmer algoritma statistik kompleks, sedia untuk dilaksanakan dengan kerangka Hadoop.

Pembelajaran mesin dengan Mahout dalam Hadoop - dummies

Pilihan Editor

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Jika anda telah memulakan jejak sosial metrik media dan menikmati kurniaan data yang kini dapat dilihat, dihidupkan, dan digunakan, anda mungkin tertanya-tanya apa yang mungkin menyebabkan kemurungan! Mudah: kehilangan data. Katakanlah bahawa anda mempunyai masalah tapak atau entah bagaimana kehilangan akses ke tapak atau data anda. Adakah anda mempunyai sandaran anda ...

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Mana-mana kempen baru, laman web, akaun Twitter, halaman Facebook, atau item lain yang anda ingin ukur dengan metrik media sosial bermula pada sifar. Nombor ini boleh membuat anda merasa seperti anda bercakap dengan tidak sah, bercakap dengan diri anda atau anda tersembunyi dari pandangan. Perasaan ini boleh membawa kepada pengasingan secara keseluruhan ...

Meracuni Google Spider - dummies

Meracuni Google Spider - dummies

Anda sentiasa dapat mencari orang yang ingin menyimpang dari lurus dan sempit. Ya, mereka adalah orang bodoh yang terlibat dalam taktik pengoptimuman berisiko yang bertujuan untuk menggerakkan PageRank secara artifisial, memanipulasi pesanan halaman hasil carian di Google, dan mendapatkan kelebihan yang tidak adil dalam indeks. Google, dengan reputasi yang luar biasa untuk melindungi, ...

Pilihan Editor

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Di laman web anda memberikan wawasan yang penting. Anda boleh memikirkan sama ada pengunjung sedang melihat cepat, kemudian pergi, atau sama ada mereka bertahan lebih lama dan sebenarnya membaca bahan dalam talian anda dengan tujuan untuk mengambil tindakan. Jika majoriti pelawat laman web anda tidak ...

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Laman web perniagaan sangat mirip dengan merancang kedai dengan pemasaran produk dalam fikiran. Malah, laman web anda benar-benar adalah kedai - kedai maya di Internet. Rangkaian kedai runcit telah menghabiskan berjuta-juta dolar dalam penyelidikan pasaran, menonton dan mendokumentasikan bagaimana pembeli memasuki kedai, belok kanan atau kiri, dan ...

Analitik web Untuk Menipu Cheat Sheet - dummies

Analitik web Untuk Menipu Cheat Sheet - dummies

Melakukan analisis laman web tidak perlu meletihkan dan intensif masa. Anda boleh meringkaskan prestasi keseluruhan laman web anda dengan cepat - jika anda tahu apa yang perlu dicari. Alat analisis web percuma dan kos rendah boleh membantu anda mengukur kejayaan laman web anda, dan anda boleh menjana perujuk tapak dengan pelbagai cara yang tidak mungkin ...

Pilihan Editor

Cara Memaksimumkan Ruang pada Laman Web - dummies

Cara Memaksimumkan Ruang pada Laman Web - dummies

Terlalu terhad, anda boleh membuat penggunaan kreatif beberapa teknologi di luar sana untuk memaksimumkan antara muka anda. Untuk setiap teknik berikut yang diterangkan, terdapat banyak laman web yang menawarkan sampel kod, forum, dan sumber untuk membantu anda memulakan. Accordions. Antara muka akordion membolehkan ...

Cara Mendapatkan Corak CSS3 Online - dummies

Cara Mendapatkan Corak CSS3 Online - dummies

Mencipta kesan mudah untuk laman CSS3 menggunakan gradien mudah . Walau bagaimanapun, mewujudkan sesuatu yang benar-benar hebat memerlukan masa dan keupayaan artistik. Kebanyakan pemaju benar-benar tidak mempunyai masa atau kemahiran yang diperlukan untuk mencipta sesuatu yang mempesonakan menggunakan CSS3 sahaja (atau CSS3 digabungkan dengan grafik) - di sinilah pereka bermain. Ramai pereka yang membolehkan anda ...

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Terdapat banyak pelayar dan versi pelayar yang berbeza gunakan hari ini. Tidak semua daripada mereka adalah optimum untuk CSS3. Inilah tempat Modernizr dimainkan. Pemajunya menyebutnya "perpustakaan JavaScript yang mengesan ciri HTML5 dan CSS3 dalam pelayar pengguna. "Anda menggunakan Modernizr untuk melaksanakan tugas secara pilihan dan memasukkan ciri aplikasi berdasarkan ...