Video: Aditya Riaddy - Apa itu Apache Spark dan Penggunaanya untuk Big Data Analytics | BukaTalks 2024
Pertimbangan utama apabila menjalankan projek data besar adalah jumlah yang diunjurkan dalam masa nyata dan bukan masa nyata yang diperlukan untuk menjalankan inisiatif anda. Data besar sering melakukan perkara-perkara yang tidak mungkin kerana teknologi itu tidak mencukupi atau kosnya mahal. Perubahan besar yang berlaku dengan data besar adalah keupayaan untuk memanfaatkan sejumlah besar data tanpa semua pengaturcaraan kompleks yang diperlukan pada masa lalu.
Banyak organisasi berada di titik tipikal dari segi menguruskan jumlah besar data kompleks. Pendekatan data yang besar akan membantu mengekalkan keseimbangan supaya perniagaan tidak akan mengatasi kelebihan, jumlah, dan halaju perubahan data. Syarikat-syarikat mempunyai masa yang sukar menguruskan peningkatan jumlah data yang perlu diuruskan pada kelajuan tinggi.
Organisasi terpaksa menyelesaikannya untuk menganalisis subset kecil data yang kerap kekurangan maklumat penting untuk mendapatkan gambaran penuh bahawa data dapat didedahkan. Apabila teknologi data besar berkembang dan dikerahkan, syarikat akan dapat menganalisis data dengan lebih mudah dan menggunakannya untuk membuat keputusan atau mengambil tindakan.
Aspek sebenar data besar boleh menjadi revolusioner apabila syarikat perlu menyelesaikan masalah yang besar. Apakah impak apabila organisasi boleh mengendalikan data yang sedang streaming dalam masa nyata? Secara umumnya, pendekatan masa nyata ini adalah paling relevan apabila jawapan kepada masalah adalah masa sensitif dan kritikal perniagaan. Ini mungkin berkaitan dengan ancaman kepada sesuatu yang penting seperti mengesan prestasi peralatan hospital atau menjangkakan potensi gangguan pencerobohan.
Senarai berikut menunjukkan contoh apabila syarikat ingin memanfaatkan data masa nyata ini untuk mendapatkan kelebihan yang cepat:
-
Pemantauan untuk pengecualian dengan sekeping maklumat baru, seperti penipuan / kecerdasan
-
Memantau suapan berita dan media sosial untuk menentukan peristiwa yang mungkin memberi kesan kepada pasaran kewangan, seperti reaksi pelanggan terhadap pengumuman produk baru
-
Menukar penempatan iklan anda semasa acara sukan yang besar berdasarkan aliran Twitter masa nyata
-
Menyediakan kupon kepada pelanggan berdasarkan apa yang dia beli pada titik jualan
Kadang-kadang data streaming datang dengan sangat cepat dan tidak termasuk pelbagai sumber, kadang-kadang pelbagai terdapat, dan kadang-kadang ia adalah gabungan kedua-dua.
Persoalan yang anda perlukan untuk bertanya kepada diri sendiri jika anda bergerak ke masa nyata adalah: Bolehkah masalah ini diselesaikan dengan keupayaan pengurusan maklumat tradisional atau adakah anda memerlukan keupayaan yang lebih baru?Adakah jumlah atau halaju semata-mata akan mengatasi sistem kami? Sering kali ia adalah gabungan kedua-dua.
Oleh itu, jika anda memerlukan keupayaan masa nyata, apakah keperluan infrastruktur untuk menyokongnya? Senarai berikut menyerlahkan beberapa perkara yang perlu dipertimbangkan mengenai keupayaan sistem untuk memalsukan data, memproses, dan menganalisisnya secara real time:
-
Rendah kependaman: Latency adalah jumlah keterlambatan masa yang membolehkan suatu perkhidmatan untuk laksanakan dalam persekitaran. Sesetengah aplikasi memerlukan kekurangan kependaman, yang bermaksud bahawa mereka perlu bertindak balas dalam masa nyata. Aliran masa nyata akan memerlukan kependaman yang rendah. Oleh itu, anda perlu memikirkan kuasa pengiraan dan kekangan rangkaian.
-
Skalabilitas: Skalabilitas adalah keupayaan untuk mengekalkan tahap prestasi tertentu walaupun di bawah beban yang semakin meningkat.
-
Ketidaksesuaian: Sistem ini mesti menyokong aliran data berstruktur dan tidak berstruktur.
-
Format asli: Gunakan data dalam bentuk asalnya. Transformasi memerlukan masa dan wang. Keupayaan untuk menggunakan idea memproses interaksi kompleks dalam data yang mencetuskan peristiwa mungkin transformasi.
Keperluan untuk memproses jumlah data yang semakin meningkat secara berterusan adalah salah satu faktor utama yang mendorong penggunaan perkhidmatan awan. Model awan berskala besar dan diedarkan.