Rumah Kewangan Peribadi Cara menggunakan Apache Mahout untuk Analytics Predictive - dummies

Cara menggunakan Apache Mahout untuk Analytics Predictive - dummies

Video: Data Mining using R | Data Mining Tutorial for Beginners | R Tutorial for Beginners | Edureka 2024

Video: Data Mining using R | Data Mining Tutorial for Beginners | R Tutorial for Beginners | Edureka 2024
Anonim

Alat sumber terbuka yang unik berguna dalam analisis ramalan adalah Apache Mahout. Perpustakaan pembelajaran komputer ini termasuk versi berskala kluster, klasifikasi, penapisan kerjasama, dan algoritma perlombongan data lain yang boleh menyokong model analisis ramalan berskala besar.

Cara yang sangat disyorkan untuk memproses data yang diperlukan untuk model sedemikian adalah untuk menjalankan Mahout dalam sistem yang sudah berjalan Hadoop. Hadoop menunjuk mesin induk yang mengagregatkan mesin lain (seperti Mesin peta dan Mengurangkan mesin) yang digunakan dalam pemprosesannya yang diedarkan. Mahout perlu dipasang pada mesin induk itu.

Bayangkan anda mempunyai banyak data yang disalurkan - artikel berita Google - dan anda ingin cluster mengikut topik, menggunakan salah satu daripada algoritma pengelompokan. Selepas anda memasang Hadoop dan Mahout, anda boleh melaksanakan salah satu daripada algoritma - seperti K-means - pada data anda.

Pelaksanaan K-means di bawah Mahout menggunakan pendekatan MapReduce, yang menjadikannya berbeza daripada pelaksanaan normal K-means. Mahout membahagikan algoritma K-berarti ke dalam sub-prosedur ini:

  • KmeansMapper membaca dataset input dan akan memberikan setiap titik input kepada cara yang paling awal yang dipilih (wakil kluster). Prosedur

  • KmeansCombiner akan mengambil semua rekod - pasang - dihasilkan oleh KmeansMapper dan menghasilkan jumlah separa untuk memudahkan pengiraan wakil cluster berikutnya.

  • KmeansReducer menerima nilai yang dihasilkan oleh semua subtask (kombinasi) untuk mengira centroids sebenar kluster yang merupakan keluaran akhir K-means.

  • KmeansDriver mengendalikan lelaran proses sehingga semua kluster telah berkumpul. Output daripada lelaran yang diberi, keluaran clustering separa, digunakan sebagai input untuk lelaran seterusnya. Proses pemetaan dan pengurangan dataset sehingga penugasan rekod dan kluster tidak menunjukkan perubahan selanjutnya.

Apache Mahout adalah projek yang baru dibangunkan; fungsinya masih banyak ruang untuk memuatkan sambungan. Sementara itu, Mahout telah menggunakan MapReduce untuk melaksanakan klasifikasi, clustering, dan teknik pembelajaran mesin lain - dan boleh melakukannya secara besar-besaran.

Cara menggunakan Apache Mahout untuk Analytics Predictive - dummies

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...