Rumah Kewangan Peribadi Hadoop Integrasi dengan R - dummies

Hadoop Integrasi dengan R - dummies

Isi kandungan:

Video: Working with Big Data in R 2024

Video: Working with Big Data in R 2024
Anonim

Pada mulanya, data besar dan R bukan rakan semulajadi. Pengaturcaraan R memerlukan semua objek dimuatkan ke dalam memori utama mesin tunggal. Keterbatasan seni bina ini segera direalisasikan apabila data besar menjadi sebahagian daripada persamaan.

Sebaliknya, sistem fail yang diedarkan seperti Hadoop hilang teknik statistik yang kuat tetapi sangat sesuai untuk skala operasi dan tugas kompleks. Penyelesaian skala menegak - memerlukan pelaburan dalam perkakasan superkomputer yang mahal - seringkali tidak dapat bersaing dengan pulangan nilai kos yang ditawarkan oleh kluster perkakasan yang diedarkan, komoditi.

Untuk mematuhi memori dalam, batasan mesin tunggal bahasa R, para saintis data sering menyekat analisis hanya subset data sampel yang tersedia. Sebelum penyepaduan yang lebih mendalam dengan Hadoop, pengaturcara bahasa R menawarkan strategi skala untuk mengatasi cabaran dalam memori yang ditimbulkan oleh set data yang besar pada mesin tunggal.

Ini dicapai menggunakan sistem lulus mesej dan paging. Teknik ini dapat memudahkan kerja ke atas set data terlalu besar untuk disimpan di memori utama secara serentak; Walau bagaimanapun, pendekatan pengatur peringkat rendah memberikan kurva pembelajaran yang curam bagi mereka yang tidak dikenali dengan paradigma pengaturcaraan selari.

Pendekatan alternatif berusaha untuk mengintegrasikan keupayaan statistik R dengan gugus yang diedarkan Hadoop dalam dua cara: menginterupsi dengan bahasa pertanyaan SQL, dan integrasi dengan Hadoop Streaming. Dengan yang pertama, matlamatnya adalah memanfaatkan platform pergudangan data SQL sedia ada seperti Hive dan Babi. Skema ini memudahkan pengaturcaraan pekerjaan Hadoop menggunakan pernyataan gaya SQL untuk menyediakan pengaturcaraan peringkat tinggi untuk menjalankan pekerjaan statistik ke atas data Hadoop.

Bagi pengaturcara yang ingin mempromosi MapReduce kerja dalam bahasa (termasuk R) selain Java, pilihan kedua ialah menggunakan API Streaming Hadoop. Map-submitted MapReduce jobs undergo transformation data dengan bantuan UNIX standard streams and serialization, menjamin masukan Java-compliant kepada Hadoop - terlepas dari bahasa yang awalnya dimasukkan oleh programmer.

Pembangun terus meneroka pelbagai strategi untuk memanfaatkan keupayaan pengiraan yang diedarkan MapReduce dan kapasiti storan hampir tanpa had HDFS dalam cara yang boleh dieksploitasi oleh R.

Integrasi Hadoop dengan R sedang berjalan, dengan penawaran yang ditawarkan dari IBM (Big R sebagai sebahagian daripada BigInsights) dan Revolution Analytics (Revolution R Enterprise). Merapatkan penyelesaian yang menggabungkan pengaturcaraan peringkat tinggi dan bahasa pertanyaan dengan Hadoop, seperti RHive dan RHopop, juga tersedia.

Secara asasnya, setiap sistem bertujuan untuk menyampaikan keupayaan analisis mendalam bahasa R ke set data yang lebih besar.

RHive

Rangka kerja RHive berfungsi sebagai jambatan antara bahasa R dan Hive. RHive menyampaikan perpustakaan statistik dan algoritma yang kaya dengan R ke data yang disimpan di Hadoop dengan memperluaskan bahasa pertanyaan seperti Hive (HiveQL) dengan fungsi R-spesifik. Melalui fungsi RHive, anda boleh menggunakan HiveQL untuk memohon model statistik R ke data dalam kumpulan Hadoop anda yang anda telah mengkatalogkan menggunakan Hive.

RHadoop

Satu lagi rangka kerja sumber terbuka yang tersedia untuk pengaturcara R ialah RHadoop, koleksi pakej yang bertujuan untuk membantu mengurus pengedaran dan analisis data dengan Hadoop. Tiga bungkusan nota - rmr2, rhdfs, dan rhbase - menyediakan sebahagian besar fungsi RHadoop:

  • rmr2: Pakej rmr2 menyokong terjemahan bahasa R ke dalam peta Mapir yang mematuhi Hadoop (menghasilkan peta MapReduce peringkat rendah dari kod R tahap lebih tinggi).

  • rhdfs: Pakej rhdfs menyediakan API bahasa R untuk pengurusan fail ke atas stor HDFS. Menggunakan rhdfs, pengguna boleh membaca dari stor HDFS ke bingkai data (matriks R), dan juga menulis data dari matriks R ini kembali ke storan HDFS.

  • rhbase: pakej rhbase menyediakan API bahasa R juga, tetapi matlamat mereka dalam kehidupan adalah untuk menangani pengurusan pangkalan data untuk kedai HBase, bukan fail HDFS.

Revolusi R

Revolusi R (oleh Revolution Analytics) adalah tawaran R komersial dengan sokongan untuk integrasi R pada sistem diedarkan Hadoop. Revolusi R menjanjikan untuk memberikan prestasi, fungsi, dan kebolehgunaan yang lebih baik untuk R pada Hadoop. Untuk memberikan analitik yang mendalam kepada R, Revolution R menggunakan perpustakaan ScaleR syarikat - koleksi algoritma analisis statistik yang dibangunkan khusus untuk koleksi data besar skala perusahaan.

ScaleR bertujuan untuk menyampaikan pelaksanaan program R yang cepat pada cluster Hadoop, yang membolehkan pemaju R berfokus secara eksklusif pada algoritma statistik mereka dan bukan pada MapReduce. Tambahan pula, ia mengendalikan pelbagai tugas analisis, seperti penyediaan data, visualisasi, dan ujian statistik. Big R Max Bigs Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Matlamatnya adalah untuk mengeksploitasi sintaks pemrograman R dan paradigma pengekodan, sambil memastikan bahawa data dikendalikan pada masa menginap di HDFS. Data-data R berfungsi sebagai proksi untuk menyimpan data ini, yang bermaksud pemaju R tidak perlu memikirkan membina peta-peta bawah rendah atau mana-mana bahasa skrip khusus Hadoop (seperti Babi).

Teknologi BigInsights BigR menyokong banyak sumber data - termasuk fail rata, HBase, dan format penyimpanan Hive - sambil menyediakan pelaksanaan kod R yang selari dan dipartisi di seluruh cluster Hadoop. Ia menyembunyikan banyak kerumitan dalam kerangka HDFS dan MapReduce yang mendasari, yang membolehkan fungsi Big R menjalankan analisis data yang komprehensif - pada kedua-dua data berstruktur dan tidak berstruktur.

Akhirnya, skalabilitas enjin statistik Big R membolehkan pemaju R menggunakan kedua-dua teknik statistik yang telah ditetapkan, serta mengarang algoritma baru itu sendiri.

Hadoop Integrasi dengan R - dummies

Pilihan Editor

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Jika anda telah memulakan jejak sosial metrik media dan menikmati kurniaan data yang kini dapat dilihat, dihidupkan, dan digunakan, anda mungkin tertanya-tanya apa yang mungkin menyebabkan kemurungan! Mudah: kehilangan data. Katakanlah bahawa anda mempunyai masalah tapak atau entah bagaimana kehilangan akses ke tapak atau data anda. Adakah anda mempunyai sandaran anda ...

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Mana-mana kempen baru, laman web, akaun Twitter, halaman Facebook, atau item lain yang anda ingin ukur dengan metrik media sosial bermula pada sifar. Nombor ini boleh membuat anda merasa seperti anda bercakap dengan tidak sah, bercakap dengan diri anda atau anda tersembunyi dari pandangan. Perasaan ini boleh membawa kepada pengasingan secara keseluruhan ...

Meracuni Google Spider - dummies

Meracuni Google Spider - dummies

Anda sentiasa dapat mencari orang yang ingin menyimpang dari lurus dan sempit. Ya, mereka adalah orang bodoh yang terlibat dalam taktik pengoptimuman berisiko yang bertujuan untuk menggerakkan PageRank secara artifisial, memanipulasi pesanan halaman hasil carian di Google, dan mendapatkan kelebihan yang tidak adil dalam indeks. Google, dengan reputasi yang luar biasa untuk melindungi, ...

Pilihan Editor

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Di laman web anda memberikan wawasan yang penting. Anda boleh memikirkan sama ada pengunjung sedang melihat cepat, kemudian pergi, atau sama ada mereka bertahan lebih lama dan sebenarnya membaca bahan dalam talian anda dengan tujuan untuk mengambil tindakan. Jika majoriti pelawat laman web anda tidak ...

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Laman web perniagaan sangat mirip dengan merancang kedai dengan pemasaran produk dalam fikiran. Malah, laman web anda benar-benar adalah kedai - kedai maya di Internet. Rangkaian kedai runcit telah menghabiskan berjuta-juta dolar dalam penyelidikan pasaran, menonton dan mendokumentasikan bagaimana pembeli memasuki kedai, belok kanan atau kiri, dan ...

Analitik web Untuk Menipu Cheat Sheet - dummies

Analitik web Untuk Menipu Cheat Sheet - dummies

Melakukan analisis laman web tidak perlu meletihkan dan intensif masa. Anda boleh meringkaskan prestasi keseluruhan laman web anda dengan cepat - jika anda tahu apa yang perlu dicari. Alat analisis web percuma dan kos rendah boleh membantu anda mengukur kejayaan laman web anda, dan anda boleh menjana perujuk tapak dengan pelbagai cara yang tidak mungkin ...

Pilihan Editor

Cara Memaksimumkan Ruang pada Laman Web - dummies

Cara Memaksimumkan Ruang pada Laman Web - dummies

Terlalu terhad, anda boleh membuat penggunaan kreatif beberapa teknologi di luar sana untuk memaksimumkan antara muka anda. Untuk setiap teknik berikut yang diterangkan, terdapat banyak laman web yang menawarkan sampel kod, forum, dan sumber untuk membantu anda memulakan. Accordions. Antara muka akordion membolehkan ...

Cara Mendapatkan Corak CSS3 Online - dummies

Cara Mendapatkan Corak CSS3 Online - dummies

Mencipta kesan mudah untuk laman CSS3 menggunakan gradien mudah . Walau bagaimanapun, mewujudkan sesuatu yang benar-benar hebat memerlukan masa dan keupayaan artistik. Kebanyakan pemaju benar-benar tidak mempunyai masa atau kemahiran yang diperlukan untuk mencipta sesuatu yang mempesonakan menggunakan CSS3 sahaja (atau CSS3 digabungkan dengan grafik) - di sinilah pereka bermain. Ramai pereka yang membolehkan anda ...

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Terdapat banyak pelayar dan versi pelayar yang berbeza gunakan hari ini. Tidak semua daripada mereka adalah optimum untuk CSS3. Inilah tempat Modernizr dimainkan. Pemajunya menyebutnya "perpustakaan JavaScript yang mengesan ciri HTML5 dan CSS3 dalam pelayar pengguna. "Anda menggunakan Modernizr untuk melaksanakan tugas secara pilihan dan memasukkan ciri aplikasi berdasarkan ...