Video: Bagaimana cara kerja ponsel Anda? 2024
Untuk memahami aliran kerja data besar, anda perlu memahami proses dan bagaimana ia berkaitan dengan aliran kerja dalam persekitaran intensif data. Proses cenderung direka sebagai tahap tinggi, struktur akhir ke hujung berguna untuk membuat keputusan dan menormalkan bagaimana perkara dilakukan di syarikat atau organisasi.
Sebaliknya, aliran kerja adalah berorientasikan tugas dan sering memerlukan lebih banyak data khusus daripada proses. Proses terdiri daripada satu atau lebih aliran kerja yang berkaitan dengan objektif keseluruhan proses tersebut.
Dalam banyak cara, aliran kerja data yang besar adalah serupa dengan aliran kerja standard. Malah, dalam apa-apa alur kerja, data diperlukan dalam pelbagai fasa untuk mencapai tugas. Pertimbangkan aliran kerja dalam keadaan penjagaan kesihatan.
Satu alur kerja asas adalah proses "menarik darah. "Lukisan darah adalah tugas yang diperlukan untuk menyelesaikan proses diagnostik keseluruhan. Jika sesuatu berlaku dan darah belum ditarik atau data dari ujian darah itu telah hilang, ia akan menjadi kesan langsung ke atas kebenaran atau kebenaran keseluruhan aktiviti.
Apa yang berlaku apabila anda memperkenalkan aliran kerja yang bergantung pada sumber data yang besar? Walaupun anda mungkin dapat menggunakan aliran kerja yang sedia ada, anda tidak boleh menganggap bahawa proses atau aliran kerja akan berfungsi dengan betul dengan hanya menggantikan sumber data besar untuk sumber standard. Ini mungkin tidak berfungsi kerana kaedah pemprosesan data piawai tidak mempunyai pendekatan pemprosesan atau prestasi untuk menangani kerumitan data besar.
Contoh penjagaan kesihatan memberi tumpuan kepada keperluan melakukan analisis setelah darah diambil dari pesakit. Dalam alur kerja data standard, darah diketik dan kemudian ujian kimia tertentu dilakukan berdasarkan keperluan pengamal penjagaan kesihatan.
Tidak mungkin aliran kerja ini memahami pengujian yang diperlukan untuk mengenal pasti biomarker tertentu atau mutasi genetik. Sekiranya anda membekalkan sumber data besar untuk biomarker dan mutasi, aliran kerja akan gagal. Ia tidak menyedari data besar dan perlu diubahsuai atau ditulis semula untuk menyokong data besar.
Amalan terbaik untuk memahami aliran kerja dan kesan data besar adalah untuk melakukan perkara-perkara berikut:
-
Kenal pasti sumber data besar yang perlu anda gunakan.
-
Peta jenis data besar untuk jenis data aliran kerja anda.
-
Pastikan anda mempunyai kelajuan pemprosesan dan akses storan untuk menyokong aliran kerja anda.
-
Pilih kedai data yang paling sesuai untuk jenis data.
-
Ubah suai aliran kerja sedia ada untuk menampung data besar atau buat aliran kerja data besar baru.
Selepas anda mempunyai aliran kerja data besar anda, ia perlu untuk menyesuaikan perkara ini supaya mereka tidak akan mengatasi atau mencemarkan analisis anda.Contohnya, banyak sumber data besar tidak termasuk definisi data yang jelas dan metadata mengenai unsur-unsur sumber tersebut. Kadang-kadang, sumber data ini tidak dibersihkan. Anda perlu memastikan anda mempunyai tahap pengetahuan yang betul tentang sumber yang akan digunakan.