Hadoop Integrasi dengan R - dummies - Kewangan Peribadi 2024

Pada mulanya, data besar dan R bukan rakan semulajadi. Pengaturcaraan R memerlukan semua objek dimuatkan ke dalam memori utama mesin tunggal. Keterbatasan seni bina ini segera direalisasikan apabila data besar menjadi sebahagian daripada persamaan.

Sebaliknya, sistem fail yang diedarkan seperti Hadoop hilang teknik statistik yang kuat tetapi sangat sesuai untuk skala operasi dan tugas kompleks. Penyelesaian skala menegak - memerlukan pelaburan dalam perkakasan superkomputer yang mahal - seringkali tidak dapat bersaing dengan pulangan nilai kos yang ditawarkan oleh kluster perkakasan yang diedarkan, komoditi.

Untuk mematuhi memori dalam, batasan mesin tunggal bahasa R, para saintis data sering menyekat analisis hanya subset data sampel yang tersedia. Sebelum penyepaduan yang lebih mendalam dengan Hadoop, pengaturcara bahasa R menawarkan strategi skala untuk mengatasi cabaran dalam memori yang ditimbulkan oleh set data yang besar pada mesin tunggal.

Ini dicapai menggunakan sistem lulus mesej dan paging. Teknik ini dapat memudahkan kerja ke atas set data terlalu besar untuk disimpan di memori utama secara serentak; Walau bagaimanapun, pendekatan pengatur peringkat rendah memberikan kurva pembelajaran yang curam bagi mereka yang tidak dikenali dengan paradigma pengaturcaraan selari.

Pendekatan alternatif berusaha untuk mengintegrasikan keupayaan statistik R dengan gugus yang diedarkan Hadoop dalam dua cara: menginterupsi dengan bahasa pertanyaan SQL, dan integrasi dengan Hadoop Streaming. Dengan yang pertama, matlamatnya adalah memanfaatkan platform pergudangan data SQL sedia ada seperti Hive dan Babi. Skema ini memudahkan pengaturcaraan pekerjaan Hadoop menggunakan pernyataan gaya SQL untuk menyediakan pengaturcaraan peringkat tinggi untuk menjalankan pekerjaan statistik ke atas data Hadoop.

Bagi pengaturcara yang ingin mempromosi MapReduce kerja dalam bahasa (termasuk R) selain Java, pilihan kedua ialah menggunakan API Streaming Hadoop. Map-submitted MapReduce jobs undergo transformation data dengan bantuan UNIX standard streams and serialization, menjamin masukan Java-compliant kepada Hadoop - terlepas dari bahasa yang awalnya dimasukkan oleh programmer.

Pembangun terus meneroka pelbagai strategi untuk memanfaatkan keupayaan pengiraan yang diedarkan MapReduce dan kapasiti storan hampir tanpa had HDFS dalam cara yang boleh dieksploitasi oleh R.

Integrasi Hadoop dengan R sedang berjalan, dengan penawaran yang ditawarkan dari IBM (Big R sebagai sebahagian daripada BigInsights) dan Revolution Analytics (Revolution R Enterprise). Merapatkan penyelesaian yang menggabungkan pengaturcaraan peringkat tinggi dan bahasa pertanyaan dengan Hadoop, seperti RHive dan RHopop, juga tersedia.

Secara asasnya, setiap sistem bertujuan untuk menyampaikan keupayaan analisis mendalam bahasa R ke set data yang lebih besar.

RHive

Rangka kerja RHive berfungsi sebagai jambatan antara bahasa R dan Hive. RHive menyampaikan perpustakaan statistik dan algoritma yang kaya dengan R ke data yang disimpan di Hadoop dengan memperluaskan bahasa pertanyaan seperti Hive (HiveQL) dengan fungsi R-spesifik. Melalui fungsi RHive, anda boleh menggunakan HiveQL untuk memohon model statistik R ke data dalam kumpulan Hadoop anda yang anda telah mengkatalogkan menggunakan Hive.

RHadoop

Satu lagi rangka kerja sumber terbuka yang tersedia untuk pengaturcara R ialah RHadoop, koleksi pakej yang bertujuan untuk membantu mengurus pengedaran dan analisis data dengan Hadoop. Tiga bungkusan nota - rmr2, rhdfs, dan rhbase - menyediakan sebahagian besar fungsi RHadoop:

rmr2: Pakej rmr2 menyokong terjemahan bahasa R ke dalam peta Mapir yang mematuhi Hadoop (menghasilkan peta MapReduce peringkat rendah dari kod R tahap lebih tinggi).
rhdfs: Pakej rhdfs menyediakan API bahasa R untuk pengurusan fail ke atas stor HDFS. Menggunakan rhdfs, pengguna boleh membaca dari stor HDFS ke bingkai data (matriks R), dan juga menulis data dari matriks R ini kembali ke storan HDFS.
rhbase: pakej rhbase menyediakan API bahasa R juga, tetapi matlamat mereka dalam kehidupan adalah untuk menangani pengurusan pangkalan data untuk kedai HBase, bukan fail HDFS.

Revolusi R

Revolusi R (oleh Revolution Analytics) adalah tawaran R komersial dengan sokongan untuk integrasi R pada sistem diedarkan Hadoop. Revolusi R menjanjikan untuk memberikan prestasi, fungsi, dan kebolehgunaan yang lebih baik untuk R pada Hadoop. Untuk memberikan analitik yang mendalam kepada R, Revolution R menggunakan perpustakaan ScaleR syarikat - koleksi algoritma analisis statistik yang dibangunkan khusus untuk koleksi data besar skala perusahaan.

ScaleR bertujuan untuk menyampaikan pelaksanaan program R yang cepat pada cluster Hadoop, yang membolehkan pemaju R berfokus secara eksklusif pada algoritma statistik mereka dan bukan pada MapReduce. Tambahan pula, ia mengendalikan pelbagai tugas analisis, seperti penyediaan data, visualisasi, dan ujian statistik. Big R Max Bigs Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Big Matlamatnya adalah untuk mengeksploitasi sintaks pemrograman R dan paradigma pengekodan, sambil memastikan bahawa data dikendalikan pada masa menginap di HDFS. Data-data R berfungsi sebagai proksi untuk menyimpan data ini, yang bermaksud pemaju R tidak perlu memikirkan membina peta-peta bawah rendah atau mana-mana bahasa skrip khusus Hadoop (seperti Babi).

Teknologi BigInsights BigR menyokong banyak sumber data - termasuk fail rata, HBase, dan format penyimpanan Hive - sambil menyediakan pelaksanaan kod R yang selari dan dipartisi di seluruh cluster Hadoop. Ia menyembunyikan banyak kerumitan dalam kerangka HDFS dan MapReduce yang mendasari, yang membolehkan fungsi Big R menjalankan analisis data yang komprehensif - pada kedua-dua data berstruktur dan tidak berstruktur.

Akhirnya, skalabilitas enjin statistik Big R membolehkan pemaju R menggunakan kedua-dua teknik statistik yang telah ditetapkan, serta mengarang algoritma baru itu sendiri.