Rumah Kewangan Peribadi Hadoop Integrasi dengan R - dummies

Hadoop Integrasi dengan R - dummies

Isi kandungan:

Video: Working with Big Data in R 2024

Video: Working with Big Data in R 2024
Anonim

Pada mulanya, data besar dan R bukan rakan semulajadi. Pengaturcaraan R memerlukan semua objek dimuatkan ke dalam memori utama mesin tunggal. Keterbatasan seni bina ini segera direalisasikan apabila data besar menjadi sebahagian daripada persamaan.

Sebaliknya, sistem fail yang diedarkan seperti Hadoop hilang teknik statistik yang kuat tetapi sangat sesuai untuk skala operasi dan tugas kompleks. Penyelesaian skala menegak - memerlukan pelaburan dalam perkakasan superkomputer yang mahal - seringkali tidak dapat bersaing dengan pulangan nilai kos yang ditawarkan oleh kluster perkakasan yang diedarkan, komoditi.

Untuk mematuhi memori dalam, batasan mesin tunggal bahasa R, para saintis data sering menyekat analisis hanya subset data sampel yang tersedia. Sebelum penyepaduan yang lebih mendalam dengan Hadoop, pengaturcara bahasa R menawarkan strategi skala untuk mengatasi cabaran dalam memori yang ditimbulkan oleh set data yang besar pada mesin tunggal.

Ini dicapai menggunakan sistem lulus mesej dan paging. Teknik ini dapat memudahkan kerja ke atas set data terlalu besar untuk disimpan di memori utama secara serentak; Walau bagaimanapun, pendekatan pengatur peringkat rendah memberikan kurva pembelajaran yang curam bagi mereka yang tidak dikenali dengan paradigma pengaturcaraan selari.

Pendekatan alternatif berusaha untuk mengintegrasikan keupayaan statistik R dengan gugus yang diedarkan Hadoop dalam dua cara: menginterupsi dengan bahasa pertanyaan SQL, dan integrasi dengan Hadoop Streaming. Dengan yang pertama, matlamatnya adalah memanfaatkan platform pergudangan data SQL sedia ada seperti Hive dan Babi. Skema ini memudahkan pengaturcaraan pekerjaan Hadoop menggunakan pernyataan gaya SQL untuk menyediakan pengaturcaraan peringkat tinggi untuk menjalankan pekerjaan statistik ke atas data Hadoop.

Bagi pengaturcara yang ingin mempromosi MapReduce kerja dalam bahasa (termasuk R) selain Java, pilihan kedua ialah menggunakan API Streaming Hadoop. Map-submitted MapReduce jobs undergo transformation data dengan bantuan UNIX standard streams and serialization, menjamin masukan Java-compliant kepada Hadoop - terlepas dari bahasa yang awalnya dimasukkan oleh programmer.

Pembangun terus meneroka pelbagai strategi untuk memanfaatkan keupayaan pengiraan yang diedarkan MapReduce dan kapasiti storan hampir tanpa had HDFS dalam cara yang boleh dieksploitasi oleh R.

Integrasi Hadoop dengan R sedang berjalan, dengan penawaran yang ditawarkan dari IBM (Big R sebagai sebahagian daripada BigInsights) dan Revolution Analytics (Revolution R Enterprise). Merapatkan penyelesaian yang menggabungkan pengaturcaraan peringkat tinggi dan bahasa pertanyaan dengan Hadoop, seperti RHive dan RHopop, juga tersedia.

Secara asasnya, setiap sistem bertujuan untuk menyampaikan keupayaan analisis mendalam bahasa R ke set data yang lebih besar.

RHive

Rangka kerja RHive berfungsi sebagai jambatan antara bahasa R dan Hive. RHive menyampaikan perpustakaan statistik dan algoritma yang kaya dengan R ke data yang disimpan di Hadoop dengan memperluaskan bahasa pertanyaan seperti Hive (HiveQL) dengan fungsi R-spesifik. Melalui fungsi RHive, anda boleh menggunakan HiveQL untuk memohon model statistik R ke data dalam kumpulan Hadoop anda yang anda telah mengkatalogkan menggunakan Hive.

RHadoop

Satu lagi rangka kerja sumber terbuka yang tersedia untuk pengaturcara R ialah RHadoop, koleksi pakej yang bertujuan untuk membantu mengurus pengedaran dan analisis data dengan Hadoop. Tiga bungkusan nota - rmr2, rhdfs, dan rhbase - menyediakan sebahagian besar fungsi RHadoop:

  • rmr2: Pakej rmr2 menyokong terjemahan bahasa R ke dalam peta Mapir yang mematuhi Hadoop (menghasilkan peta MapReduce peringkat rendah dari kod R tahap lebih tinggi).

  • rhdfs: Pakej rhdfs menyediakan API bahasa R untuk pengurusan fail ke atas stor HDFS. Menggunakan rhdfs, pengguna boleh membaca dari stor HDFS ke bingkai data (matriks R), dan juga menulis data dari matriks R ini kembali ke storan HDFS.

  • rhbase: pakej rhbase menyediakan API bahasa R juga, tetapi matlamat mereka dalam kehidupan adalah untuk menangani pengurusan pangkalan data untuk kedai HBase, bukan fail HDFS.

Revolusi R

Revolusi R (oleh Revolution Analytics) adalah tawaran R komersial dengan sokongan untuk integrasi R pada sistem diedarkan Hadoop. Revolusi R menjanjikan untuk memberikan prestasi, fungsi, dan kebolehgunaan yang lebih baik untuk R pada Hadoop. Untuk memberikan analitik yang mendalam kepada R, Revolution R menggunakan perpustakaan ScaleR syarikat - koleksi algoritma analisis statistik yang dibangunkan khusus untuk koleksi data besar skala perusahaan.

ScaleR bertujuan untuk menyampaikan pelaksanaan program R yang cepat pada cluster Hadoop, yang membolehkan pemaju R berfokus secara eksklusif pada algoritma statistik mereka dan bukan pada MapReduce. Tambahan pula, ia mengendalikan pelbagai tugas analisis, seperti penyediaan data, visualisasi, dan ujian statistik. Big R Max Bigs Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Matlamatnya adalah untuk mengeksploitasi sintaks pemrograman R dan paradigma pengekodan, sambil memastikan bahawa data dikendalikan pada masa menginap di HDFS. Data-data R berfungsi sebagai proksi untuk menyimpan data ini, yang bermaksud pemaju R tidak perlu memikirkan membina peta-peta bawah rendah atau mana-mana bahasa skrip khusus Hadoop (seperti Babi).

Teknologi BigInsights BigR menyokong banyak sumber data - termasuk fail rata, HBase, dan format penyimpanan Hive - sambil menyediakan pelaksanaan kod R yang selari dan dipartisi di seluruh cluster Hadoop. Ia menyembunyikan banyak kerumitan dalam kerangka HDFS dan MapReduce yang mendasari, yang membolehkan fungsi Big R menjalankan analisis data yang komprehensif - pada kedua-dua data berstruktur dan tidak berstruktur.

Akhirnya, skalabilitas enjin statistik Big R membolehkan pemaju R menggunakan kedua-dua teknik statistik yang telah ditetapkan, serta mengarang algoritma baru itu sendiri.

Hadoop Integrasi dengan R - dummies

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...