Rumah Kewangan Peribadi Pemprosesan grafik Di Hadoop - dummies

Pemprosesan grafik Di Hadoop - dummies

Isi kandungan:

Video: Hadoop Processing Frameworks 2024

Video: Hadoop Processing Frameworks 2024
Anonim

Salah satu teknologi NoSQL yang semakin menarik yang melibatkan penyimpanan dan pemprosesan data graf. Anda mungkin berfikir bahawa kenyataan ini adalah berita lama kerana saintis komputer telah membangunkan teknik analisis graf selama beberapa dekad. Apa yang anda katakan mungkin benar, tapi yang baru adalah dengan menggunakan Hadoop, anda boleh melakukan analisa graf pada skala besar.

Apakah data graf?

A graf dalam istilah data hanyalah representasi entiti individu dan hubungan mereka. Entitas graf dikenali sebagai nod (atau vertices ), dan hubungan antara entiti dalam graf dikenali sebagai ujung (atau sambungan >). Mewakili set data dalam graf, berbanding dengan baris tradisional dan lajur, menjadikannya lebih mudah untuk memproses data anda dengan cara yang menjadikan hubungan antara objek jelas-jelas. Pengiraan grafik lazim diwakili oleh jarak laluan terpendek antara pelbagai nod dalam graf anda, atau hanya dengan berapa banyak nod mempunyai sambungan jenis tertentu ke nod tertentu.

Aplikasi untuk analisa graf

Aplikasi yang paling terkenal untuk pangkalan grafik adalah algoritma PageRank Google, yang mengira hubungan yang menghubungkan antara semua halaman web yang diketahui. Google mewakili web sebagai graf gergasi, di mana laman web adalah nod, dan pautan dari satu halaman ke yang lain diwakili sebagai tepi. (Google berkongsi kekayaan dengan menerbitkan kertas kerja yang menggambarkan projek analisis grafnya - berlabel Pregel - kembali pada tahun 2010.) Pemprosesan graf yang Google berminat terlibat mengira bilangan sambungan masuk untuk setiap laman web.

Facebook membuat percikan besar pada tahun 2013 apabila ia mengumumkan bahawa ia menggunakan Apache Giraph (berdasarkan kertas Pregel), sebuah mesin pemprosesan graf yang direka untuk memproses graf yang disimpan dalam HDFS. Ia menunjukkan kuasa Giraph dengan memaparkan grafik yang mewakili semua pengguna Facebook (lebih dari 1 bilion) dan persahabatan mereka (berbilion!), Yang semuanya mempunyai lebih dari 1 trilion tepi. Skala ini mengejutkan: Jika anda Facebook dan anda perlu membuat pengiraan seperti cadangan rakan, apakah alat yang lebih baik untuk digunakan daripada enjin pemprosesan graf? Tidak menghairankan bahawa pangkalan data grafik yang diedarkan terletak pada teras setiap laman media sosial yang terkenal, termasuk Twitter, LinkedIn, OkCupid, dan Pinterest.

Enjin pemprosesan graf boleh menjawab banyak soalan praktikal untuk laman media sosial. Dua contoh adalah bagaimana LinkedIn menunjukkan tahap pemisahan antara anda dan pengguna lain adalah pengiraan laluan terpendek (apakah sambungan paling dekat antara dua nod?) dan bagaimana OkCupid menunjukkan pengguna dengan minat yang sama adalah satu set perhitungan penapisan kolaboratif (apakah sambungan paling umum kepada set nod tertentu?).

Analisis grafik dalam Hadoop

Pada Spring 2014, analisis graf pada Hadoop kekal pada peringkat awal. Dengan kedatangan YARN di Hadoop 2, analisis graf dan teknik pemprosesan khusus yang lain akan menjadi semakin popular di Hadoop. Banyak laman sosial yang disebutkan dalam artikel ini menggunakan pangkalan data graf dan proprietari mereka sendiri, tetapi Facebook adalah pengguna terkemuka dari Giraph. Oleh sebab persetujuan Facebook (tersirat) kelulusan, Giraph telah menjadi pilihan popular untuk analisa graf pada Hadoop, tetapi ia mempunyai beberapa batasan. Ini semata-mata enjin pemprosesan kerana memuatkan data sebagai graf ke dalam memori kluster, dan ia dioptimumkan untuk pertanyaan berasaskan batch.

Satu lagi penyelesaian pemprosesan graf berasal dari Aurelius, sebuah syarikat yang telah mengeluarkan satu set alat analisis grafik sumber terbuka untuk Hadoop. Pada teras tawarannya ialah Titan, sebuah pangkalan data grafik menggunakan HBase sebagai lapisan ketekunan, yang dioptimumkan untuk pertanyaan interaktif, dan Faunus, sebuah mesin pemprosesan graf yang menyimpan gambar graf dari Titan di HDFS dan menjalankan tugas MapReduce terhadapnya. Bagi kedua-dua aplikasi interaktif (Titan) dan batch (Faunus), Aurelius mempunyai API grafik traversal yang sama bernama Gremlin.

Akhirnya, projek Apache Spark mempunyai cabang GraphX, yang membolehkan penjanaan data graf, dan kemudian memproses semua dalam rangka kerja Spark.

Pemprosesan grafik Di Hadoop - dummies

Pilihan Editor

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Cara menggunakan Pemesejan Segera dengan Akaun MySpace anda - dummies

Pasangan mySpaceIM MySpace Instant Messaging (IMing ) dengan perkhidmatan Skype telefon Internet yang popular, membolehkan anda menghantar dan menerima sama ada mesej menaip atau komunikasi suara. MySpaceIM berfungsi pada mesin Windows sahaja yang menggunakan Internet Explorer Microsoft. Sekiranya anda mempunyai Mac atau menggunakan pelayar yang berbeza, anda tidak bernasib baik. Juga, sesiapa sahaja yang anda mahu ...

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Cara Menggunakan Profil MySpace Edit Halaman - dummies

Dengan halaman Edit Profil MySpace, anda boleh tambah, padam, atau tukar maklumat profil anda bila-bila masa anda mahu. Untuk membuka halaman Edit Profil, cuma pergi ke halaman utama anda dan klik pautan Edit Profil di sudut kiri atas. Tab Maklumat Peribadi di halaman Profil Edit dibahagikan kepada lapan skrin berasingan ...

Pilihan Editor

Cara Menggunakan Templat dalam Excel 2007 - dummies

Cara Menggunakan Templat dalam Excel 2007 - dummies

Excel 2007 menyediakan template yang direka bentuk, lembaran kerja untuk kegunaan umum. Templat mengandungi teks standard atau boilerplate, tetapi anda boleh mengubah suai template untuk memenuhi keperluan anda. Anda boleh menggunakan templat secara automatik dipasang dengan Excel 2007, atau anda boleh memuat turun templat percuma dari laman web Microsoft Office Online. Templat berikut dipasang secara automatik apabila ...

Cara menggunakan fungsi teks di Excel 2013 - dummies

Cara menggunakan fungsi teks di Excel 2013 - dummies

Fungsi teks di Excel 2013 menu lungsur butang arahan pada tab Rumus Ribbon (Alt + MT). Terdapat dua jenis fungsi teks: fungsi seperti VALUE, TEXT, dan DOLLAR yang menukarkan entri teks berangka ke dalam nombor dan entri berangka ke dalam teks, dan berfungsi seperti UPPER, LOWER, dan PROPER yang ...

Pilihan Editor

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Cara Mengatur Laman Web Anda dengan Tabel dan Bingkai - dummies

Menggunakan jadual dan bingkai pada halaman Web anda membantu anda membentangkan maklumat kepada pelawat laman anda dengan cara teratur. Jadual adalah alat susunatur untuk jadual data pada halaman Web, tetapi keupayaan meja untuk laman web telah lama digunakan untuk mengawal susun atur keseluruhan halaman. Pereka membuat sel ...

Cara Mendaftar Nama Domain Anda - dummies

Cara Mendaftar Nama Domain Anda - dummies

Ketika membina sebuah laman web, pantai jelas dan nama domain yang anda mahukan memang ada. Seterusnya, sudah tiba masanya untuk mendaftarkan nama domain itu. Apabila anda mendaftarkan nama domain, pastikan anda mendaftarkannya selama sekurang-kurangnya tiga tahun. Anda boleh mendaftar untuk sekurang-kurangnya ...

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Cara Hapus Pemformatan yang Tidak Diingini dari Laman Web Anda - para pengedit kod paling banyak

Yang secara automatik membersihkan kesilapan biasa dalam kod anda. Sebagai contoh, arahan Clean Up Word HTML / XHTML dalam Dreamweaver adalah satu kemestian bagi mana-mana halaman web yang merangkumi kandungan yang disalin dari Word atau mana-mana dokumen Microsoft lain. Ini penting kerana fail Microsoft sering membenamkan tambahan ...