Isi kandungan:
- adalah - seperti namanya - rangka kerja yang dapat memproses data secara real-time (atau berhampiran real-time) sebagai aliran data dan mengalir ke dalam sistem. Pada dasarnya, rangka kerja pemprosesan masa nyata adalah antitesis dari kerangka pemprosesan batch yang anda lihat digunakan di Hadoop.
- Para vendor dan produk MPP terkenal termasuk platform Teradata lama sekolah, termasuk penyelesaian yang lebih baru seperti Greenplum DCA EMC
- (RDBMS) tidak dilengkapi untuk menangani permintaan data besar. Ini kerana pangkalan data hubungan tradisional direka untuk mengendalikan hanya kumpulan data relasional yang dibina untuk data yang disimpan dalam baris dan lajur yang bersih dan dengan itu dapat dipertanyakan melalui Bahasa Kuasa Struktur (SQL Query).
Video: Big Data - "Dangerous (feat. Joywave)" [Official Music Video] 2024
Melihat masa lampau Hadoop, anda dapat melihat penyelesaian data besar alternatif pada ufuk. Penyelesaian ini memungkinkan untuk bekerja dengan data besar secara tepat masa atau menggunakan teknologi pangkalan data alternatif untuk mengendalikan dan memprosesnya. Di sini, anda diperkenalkan kepada rangka kerja pemprosesan masa nyata, kemudian platform Pemprosesan Seluruh Massal (MPP), dan akhirnya pangkalan data NoSQL yang membolehkan anda bekerja dengan data besar di luar persekitaran Hadoop.
Anda harus sedar tentang sesuatu yang disebut sebagai pematuhan ACID, pendek untuk A tomisiti, C dan D pematuhan kelalaian. Pematuhan ACID adalah standard yang mana transaksi pangkalan data yang tepat dan boleh dipercayai dijamin. Dalam penyelesaian data besar, kebanyakan sistem pangkalan data tidak mematuhi ACID, tetapi ini tidak semestinya menimbulkan masalah besar. Itu kerana kebanyakan sistem data yang besar menggunakan Sistem Sokongan Keputusan (DSS) yang data proses kelompok sebelum data dibaca. DSS
adalah sistem maklumat yang digunakan untuk sokongan keputusan organisasi. DSS tidak transactional menunjukkan tiada keperluan pematuhan ACID yang sebenar.
adalah - seperti namanya - rangka kerja yang dapat memproses data secara real-time (atau berhampiran real-time) sebagai aliran data dan mengalir ke dalam sistem. Pada dasarnya, rangka kerja pemprosesan masa nyata adalah antitesis dari kerangka pemprosesan batch yang anda lihat digunakan di Hadoop.
Rangka kerja yang menggunakan kaedah pertanyaan yang inovatif untuk memudahkan pencarian data secara besar-besaran:
-
Beberapa penyelesaian dalam kategori ini termasuk Dremel Google, Drill Apache, Hiu untuk Apache Hive, dan Impala Cloudera.
-
Rangka kerja pemprosesan masa nyata, aliran sangat berguna dalam pelbagai industri - dari analisis saham dan pasaran kewangan kepada pengoptimuman e-dagang, dan dari pengesanan penipuan masa nyata kepada logistik pesanan yang dioptimumkan. Terlepas dari industri di mana anda bekerja, jika perniagaan anda dipengaruhi oleh arus data masa nyata yang dihasilkan oleh manusia, mesin, atau sensor, maka rangka kerja pemprosesan masa nyata akan membantu anda dalam mengoptimalkan dan menjana nilai untuk anda organisasi.
Platform Pemprosesan Paralel Massal (MPP) boleh digunakan bukan MapReduce sebagai pendekatan alternatif untuk pemprosesan data yang diedarkan. Jika matlamat anda adalah untuk menggunakan pemprosesan selari pada gudang data tradisional, maka MPP mungkin penyelesaian yang sempurna.
Untuk memahami bagaimana MPP membandingkan dengan rangka kerja pemprosesan selari MapReduce standard, pertimbangkan perkara berikut. MPP menjalankan tugas-tugas pengkomputeran selari dengan perkakasan khusus mahal, sedangkan MapReduce menjalankannya pada pelayan komoditi murah. Oleh itu, keupayaan pemprosesan MPP adalah terhad. Ini berkata, MPP lebih pantas dan lebih mudah digunakan daripada pekerjaan MapReduce standard. Itu kerana MPP boleh dipertimbangkan menggunakan Bahasa Kuasa Terstruktur (SQL), tetapi pekerjaan MapReduce asli dikawal oleh bahasa pengaturcaraan Java yang lebih rumit.Para vendor dan produk MPP terkenal termasuk platform Teradata lama sekolah, termasuk penyelesaian yang lebih baru seperti Greenplum DCA EMC
2, HP Vertica, Netezza HP, dan Exadata Oracle.
Memperkenalkan pangkalan data NoSQL Tradisional sistem pengurusan pangkalan data relasi
(RDBMS) tidak dilengkapi untuk menangani permintaan data besar. Ini kerana pangkalan data hubungan tradisional direka untuk mengendalikan hanya kumpulan data relasional yang dibina untuk data yang disimpan dalam baris dan lajur yang bersih dan dengan itu dapat dipertanyakan melalui Bahasa Kuasa Struktur (SQL Query).
Sistem RDBM tidak dapat mengendalikan data tidak berstruktur dan separuh berstruktur. Selain itu, sistem RDBM hanya tidak mempunyai keupayaan pemprosesan dan pengendalian yang diperlukan untuk memenuhi kelantangan dan keperluan halaju data yang besar. Ini adalah di mana NoSQL masuk. Pangkalan data NoSQL, seperti MongoDB, adalah sistem pangkalan data diedarkan yang tidak berkaitan, yang direka untuk menimbulkan cabaran data besar. Pangkalan data NoSQL melangkaui arsitektur pangkalan data tradisional dan menawarkan penyelesaian yang lebih berskala, cekap. Sistem NoSQL memudahkan pencarian data bukan SQL data tidak relational atau skema, semi-terstruktur dan tidak berstruktur. Dengan cara ini, pangkalan data NoSQL dapat mengendalikan sumber data berstruktur, semi struktur, dan tidak berstruktur yang biasa dalam sistem data besar.
NoSQL menawarkan empat kategori pangkalan data bukan hubungan - pangkalan data grafik, pangkalan data dokumen, kedai nilai utama, dan kedai keluarga lajur. Oleh kerana NoSQL menawarkan fungsi asli untuk setiap jenis struktur data yang berasingan, ia menawarkan fungsi penyimpanan dan pengambilan semula yang sangat efisien untuk kebanyakan jenis data bukan hubungan. Kesesuaian dan kecekapan ini menjadikan NoSQL sebagai pilihan yang semakin popular untuk mengendalikan data besar dan untuk mengatasi cabaran pemprosesan yang disertai dengannya.
Terdapat perdebatan mengenai kepentingan nama NoSQL. Ada yang berpendapat bahawa NoSQL bermaksud
Bukan Hanya SQL, sementara yang lain berpendapat bahawa akronim mewakili
pangkalan data Bukan-SQL . Hujah agak rumit dan tidak ada jawapan yang benar-benar kering.Untuk memastikan perkara mudah, cuma berfikir NoSQL sebagai kelas sistem pengurusan pangkalan data bukan relasi yang tidak termasuk dalam sistem spektrum RDBM yang dipertanyakan menggunakan SQL.