Video: Webinar: Manajemen Kota di Masa Depan dengan Strategi Geospasial 2024
Unsur asas platform data besar mengurus data dengan cara baru berbanding dengan pangkalan data relasional tradisional. Ini adalah kerana keperluan untuk mempunyai skalabiliti dan prestasi tinggi yang diperlukan untuk menguruskan data berstruktur dan tidak berstruktur.
Komponen ekosistem data yang besar dari Hadoop hingga NoSQL DB, MongoDB, Cassandra, dan HBase semuanya mempunyai pendekatan sendiri untuk mengekstrak dan memuatkan data. Akibatnya, pasukan anda mungkin perlu mengembangkan kemahiran baru untuk menguruskan proses integrasi merentasi platform ini. Walau bagaimanapun, banyak amalan terbaik pengurusan data syarikat anda akan menjadi lebih penting apabila anda beralih ke dunia data besar.
Walaupun data besar memperkenalkan tahap kerumitan integrasi yang baru, asas asas asas masih berlaku. Objektif perniagaan anda perlu difokuskan untuk menyampaikan data yang berkualiti dan dipercayai kepada organisasi pada masa yang tepat dan dalam konteks yang betul.
Untuk memastikan kepercayaan ini, anda perlu menetapkan peraturan umum untuk kualiti data dengan penekanan terhadap ketepatan dan kesempurnaan data. Di samping itu, anda memerlukan pendekatan yang komprehensif untuk membangunkan metadata perusahaan, menjejaki keturunan data dan tadbir urus untuk menyokong integrasi data anda.
Pada masa yang sama, alat tradisional untuk penyepaduan data berkembang untuk menangani pelbagai peningkatan data tak berstruktur dan peningkatan jumlah dan halaju data besar. Walaupun bentuk integrasi tradisional mengambil makna baru dalam dunia data yang besar, teknologi integrasi anda memerlukan platform yang sama yang menyokong kualiti data dan profil.
Untuk membuat keputusan perniagaan yang baik berdasarkan analisis data yang besar, maklumat ini perlu dipercayai dan difahami di semua peringkat organisasi. Walaupun mungkin tidak akan menjadi kos atau masa yang berkesan untuk terlalu peduli dengan kualiti data dalam tahap penerokaan analisis data yang besar, akhirnya kualiti dan kepercayaan harus memainkan peranan jika hasilnya dimasukkan ke dalam proses bisnis.
Maklumat perlu dihantar kepada perniagaan dengan cara yang dipercayai, terkawal, konsisten, dan fleksibel di seluruh perusahaan, tanpa mengira keperluan khusus untuk sistem atau aplikasi individu. Untuk mencapai matlamat ini, tiga prinsip asas berlaku:
-
Anda mesti membuat pemahaman umum tentang definisi data. Pada peringkat awal analisis data besar anda, anda tidak mungkin mempunyai tahap kawalan yang sama terhadap definisi data seperti yang anda lakukan dengan data operasi anda.Walau bagaimanapun, sebaik sahaja anda mengenal pasti corak yang paling relevan dengan perniagaan anda, anda memerlukan keupayaan untuk memetakan elemen data kepada definisi yang sama.
-
Anda mesti membangunkan satu set perkhidmatan data untuk memenuhi syarat data dan menjadikannya konsisten dan akhirnya boleh dipercayai. Apabila sumber data tidak terstruktur dan besar anda disepadukan dengan data operasi berstruktur, anda perlu yakin bahawa hasilnya akan bermakna.
-
Anda memerlukan cara yang diperkemas untuk mengintegrasikan sumber data besar dan sistem rekod anda. Untuk membuat keputusan yang baik berdasarkan keputusan analisa data besar anda, anda perlu menyampaikan maklumat pada masa yang tepat dan dengan konteks yang betul. Proses integrasi data besar anda harus memastikan konsistensi dan kebolehpercayaan.
Untuk menyatukan data dalam persekitaran aplikasi bercampur, dapatkan data dari satu persekitaran data (sumber) ke persekitaran data lain (target). Ekstrak, transformasi, dan beban (ETL) teknologi telah digunakan untuk menyelesaikannya dalam persekitaran gudang data tradisi. Peranan ETL berkembang untuk mengendalikan persekitaran pengurusan data yang lebih baru seperti Hadoop.
Dalam persekitaran data yang besar, anda mungkin perlu menggabungkan alat yang menyokong proses integrasi kumpulan (menggunakan ETL) dengan integrasi dan persekutuan masa nyata di beberapa sumber. Sebagai contoh, syarikat farmaseutikal mungkin perlu menggabungkan data yang disimpan dalam sistem Pengurusan Data Master (MDM) dengan sumber data besar mengenai hasil perubatan penggunaan ubat pelanggan.
Syarikat menggunakan MDM untuk memudahkan pengumpulan, pengagregatan, penyatuan, dan penyampaian data yang konsisten dan boleh dipercayai dengan cara yang terkawal di seluruh perusahaan. Di samping itu, alat baru seperti Sqoop dan Scribe digunakan untuk menyokong integrasi persekitaran data besar. Anda juga mendapati penekanan yang lebih tinggi untuk menggunakan teknologi ekstrak, beban, dan transform (ELT). Teknologi-teknologi ini dijelaskan seterusnya.