Isi kandungan:
- Integrasi data besar lynchpin
- Pengekstrakan, transformasi, dan beban untuk mengumpul data gudang data
Video: MEMBUAT REKAPITULASI DATA SECARA DINAMIS | LAPORAN PENJUALAN | EXCEL 2016 2024
Anda akan mendapati nilai dalam membawa keupayaan gudang data dan persekitaran data yang besar bersama-sama. Anda perlu membuat persekitaran hibrid di mana data besar boleh berfungsi dengan tangan dengan gudang data.
Pertama, penting untuk mengetahui bahawa gudang data seperti yang dirancang hari ini tidak akan berubah dalam jangka pendek.
Oleh itu, lebih pragmatik untuk menggunakan gudang data untuk apa yang telah dirancang untuk dilakukan - menyediakan versi kebenaran yang betul mengenai topik yang ingin di analisis oleh perniagaan. Gudang itu mungkin termasuk maklumat mengenai barisan produk syarikat tertentu, pelanggannya, pembekalnya, dan butiran urus niaga setahun.
Maklumat yang diurus dalam gudang data atau data mart jabatan telah dibina dengan teliti supaya metadata adalah tepat. Dengan pertumbuhan maklumat berasaskan web baru, praktikal dan sering diperlukan untuk menganalisis jumlah besar data ini dalam konteks dengan data sejarah. Di sinilah model hibrid masuk
Aspek-aspek tertentu untuk berkahwin dengan gudang data dengan data besar boleh menjadi lebih mudah. Sebagai contoh, banyak sumber data besar datang dari sumber yang termasuk metadata mereka yang direka dengan baik. Tapak e-dagang yang komplek termasuk elemen data yang jelas. Oleh itu, apabila menjalankan analisis antara gudang dan sumber data besar, organisasi pengurusan maklumat bekerja dengan dua set data dengan model metadata yang direka dengan teliti yang perlu dirasionalisasi.
Sudah tentu, dalam beberapa situasi, sumber maklumat tidak mempunyai metadata yang jelas. Sebelum seorang penganalisis dapat menggabungkan data transaksi bersejarah dengan data besar yang kurang berstruktur, kerja perlu dilakukan. Biasanya, analisis awal petabytes data akan mendedahkan corak menarik yang dapat membantu meramalkan perubahan halus dalam perniagaan atau penyelesaian yang berpotensi untuk diagnosis pesakit.
Analisis awal boleh disempurnakan menggunakan alat seperti MapReduce dengan rangka kerja sistem fail Hadoop yang diedarkan. Pada ketika ini, anda boleh mula memahami sama ada ia dapat membantu menilai masalah yang ditangani.
Dalam proses analisis, ia sama pentingnya untuk menghapuskan data yang tidak perlu kerana ia mengenal pasti data yang berkaitan dengan konteks perniagaan. Apabila fasa ini selesai, baki data perlu diubah supaya definisi metadata adalah tepat. Dengan cara ini, apabila data besar digabungkan dengan data sejarah tradisional dari gudang, hasilnya akan tepat dan bermakna.
Integrasi data besar lynchpin
Proses ini memerlukan strategi integrasi data yang jelas. Walaupun integrasi data adalah unsur penting dalam menguruskan data besar, sama pentingnya apabila mencipta analisis hibrid dengan gudang data. Malah, proses mengekstrak data dan mengubahnya dalam persekitaran hibrid sangat mirip dengan bagaimana proses ini dijalankan dalam gudang data tradisional.
Dalam gudang data, data diekstrak daripada sistem sumber tradisional seperti sistem CRM atau ERP. Adalah penting bahawa unsur-unsur dari pelbagai sistem ini dipadankan dengan betul.
Pengekstrakan, transformasi, dan beban untuk mengumpul data gudang data
Dalam gudang data, anda sering mendapati gabungan jadual pangkalan data hubungan, fail rata, dan sumber tidak berkaitan. Gudang data yang dibina dengan baik akan diwarisi supaya data ditukar menjadi format umum, yang membolehkan pertanyaan diproses dengan tepat dan konsisten. Fail-fail yang diekstrak mesti diubah agar sesuai dengan peraturan perniagaan dan proses subjek bahawa gudang data direka untuk menganalisis.
Dengan kata lain, data harus diekstrak dari sumber data besar supaya sumber-sumber ini dapat berfungsi dengan selamat dan menghasilkan hasil yang bermakna. Di samping itu, sumber perlu diubah supaya mereka membantu dalam menganalisis hubungan antara data sejarah dan data yang lebih dinamik dan masa sebenar yang datang dari sumber data besar.
Memuatkan maklumat dalam model data besar akan berbeza daripada yang anda harapkan dalam gudang data tradisional. Dengan gudang data, selepas data telah dikodifikasikan, ia tidak pernah berubah. Gudang data tipikal akan menyediakan perniagaan dengan gambaran data berdasarkan keperluan untuk menganalisis isu perniagaan tertentu yang memerlukan pemantauan, seperti inventori atau penjualan.
Struktur teragih data besar sering akan memimpin organisasi untuk memuatkan data pertama ke dalam siri nod dan kemudian melaksanakan pengekstrakan dan transformasi. Apabila mencipta hibrida gudang data tradisional dan persekitaran data yang lebih besar, persekitaran data besar yang diedarkan secara mendadak dapat mengubah keupayaan organisasi untuk menganalisis jumlah data yang besar dalam konteks dengan perniagaan.