Isi kandungan:
- Apakah data graf?
- Aplikasi yang paling terkenal untuk pangkalan grafik adalah algoritma PageRank Google, yang mengira hubungan yang menghubungkan antara semua halaman web yang diketahui. Google mewakili web sebagai graf gergasi, di mana laman web adalah nod, dan pautan dari satu halaman ke yang lain diwakili sebagai tepi. (Google berkongsi kekayaan dengan menerbitkan kertas kerja yang menggambarkan projek analisis grafnya - berlabel Pregel - kembali pada tahun 2010.) Pemprosesan graf yang Google berminat terlibat mengira bilangan sambungan masuk untuk setiap laman web.
- Pada Spring 2014, analisis graf pada Hadoop kekal pada peringkat awal. Dengan kedatangan YARN di Hadoop 2, analisis graf dan teknik pemprosesan khusus yang lain akan menjadi semakin popular di Hadoop. Banyak laman sosial yang disebutkan dalam artikel ini menggunakan pangkalan data graf dan proprietari mereka sendiri, tetapi Facebook adalah pengguna terkemuka dari Giraph. Oleh sebab persetujuan Facebook (tersirat) kelulusan, Giraph telah menjadi pilihan popular untuk analisa graf pada Hadoop, tetapi ia mempunyai beberapa batasan. Ini semata-mata enjin pemprosesan kerana memuatkan data sebagai graf ke dalam memori kluster, dan ia dioptimumkan untuk pertanyaan berasaskan batch.
Video: Hadoop Processing Frameworks 2024
Salah satu teknologi NoSQL yang semakin menarik yang melibatkan penyimpanan dan pemprosesan data graf. Anda mungkin berfikir bahawa kenyataan ini adalah berita lama kerana saintis komputer telah membangunkan teknik analisis graf selama beberapa dekad. Apa yang anda katakan mungkin benar, tapi yang baru adalah dengan menggunakan Hadoop, anda boleh melakukan analisa graf pada skala besar.
Apakah data graf?
A graf dalam istilah data hanyalah representasi entiti individu dan hubungan mereka. Entitas graf dikenali sebagai nod (atau vertices ), dan hubungan antara entiti dalam graf dikenali sebagai ujung (atau sambungan >). Mewakili set data dalam graf, berbanding dengan baris tradisional dan lajur, menjadikannya lebih mudah untuk memproses data anda dengan cara yang menjadikan hubungan antara objek jelas-jelas. Pengiraan grafik lazim diwakili oleh jarak laluan terpendek antara pelbagai nod dalam graf anda, atau hanya dengan berapa banyak nod mempunyai sambungan jenis tertentu ke nod tertentu.
Aplikasi yang paling terkenal untuk pangkalan grafik adalah algoritma PageRank Google, yang mengira hubungan yang menghubungkan antara semua halaman web yang diketahui. Google mewakili web sebagai graf gergasi, di mana laman web adalah nod, dan pautan dari satu halaman ke yang lain diwakili sebagai tepi. (Google berkongsi kekayaan dengan menerbitkan kertas kerja yang menggambarkan projek analisis grafnya - berlabel Pregel - kembali pada tahun 2010.) Pemprosesan graf yang Google berminat terlibat mengira bilangan sambungan masuk untuk setiap laman web.
Analisis grafik dalam Hadoop
Pada Spring 2014, analisis graf pada Hadoop kekal pada peringkat awal. Dengan kedatangan YARN di Hadoop 2, analisis graf dan teknik pemprosesan khusus yang lain akan menjadi semakin popular di Hadoop. Banyak laman sosial yang disebutkan dalam artikel ini menggunakan pangkalan data graf dan proprietari mereka sendiri, tetapi Facebook adalah pengguna terkemuka dari Giraph. Oleh sebab persetujuan Facebook (tersirat) kelulusan, Giraph telah menjadi pilihan popular untuk analisa graf pada Hadoop, tetapi ia mempunyai beberapa batasan. Ini semata-mata enjin pemprosesan kerana memuatkan data sebagai graf ke dalam memori kluster, dan ia dioptimumkan untuk pertanyaan berasaskan batch.
Satu lagi penyelesaian pemprosesan graf berasal dari Aurelius, sebuah syarikat yang telah mengeluarkan satu set alat analisis grafik sumber terbuka untuk Hadoop. Pada teras tawarannya ialah Titan, sebuah pangkalan data grafik menggunakan HBase sebagai lapisan ketekunan, yang dioptimumkan untuk pertanyaan interaktif, dan Faunus, sebuah mesin pemprosesan graf yang menyimpan gambar graf dari Titan di HDFS dan menjalankan tugas MapReduce terhadapnya. Bagi kedua-dua aplikasi interaktif (Titan) dan batch (Faunus), Aurelius mempunyai API grafik traversal yang sama bernama Gremlin.
Akhirnya, projek Apache Spark mempunyai cabang GraphX, yang membolehkan penjanaan data graf, dan kemudian memproses semua dalam rangka kerja Spark.