Video: How to Clean Up Raw Data in Excel 2024
Selain menyimpan lebih banyak data sejuk, satu tekanan yang anda lihat dalam gudang data tradisional ialah peningkatan jumlah sumber pemprosesan yang digunakan untuk beban kerja transformasi (ELT).
Idea di sebalik menggunakan Hadoop sebagai enjin preprocessing untuk mengendalikan transformasi data bermakna kitaran pemprosesan berharga dibebaskan, membolehkan gudang data mematuhi tujuan asalnya: Jawab soalan perniagaan yang berulang untuk menyokong aplikasi analitik. Sekali lagi, anda melihat bagaimana Hadoop boleh melengkapi penggunaan data gudang tradisional dan meningkatkan produktiviti mereka.
Mungkin mentol cahaya kecil yang menyala menyala di kepala anda dan anda berfikir, "Hei, mungkin ada adalah beberapa tugas transformasi yang sangat sesuai untuk keupayaan pemprosesan data Hadoop, tetapi saya tahu terdapat banyak kerja transformasi yang penuh dengan tugas algebra, langkah demi langkah di mana menjalankan SQL pada enjin pangkalan data relasi akan menjadi pilihan yang lebih baik. Bukankah akan menjadi sejuk jika saya boleh menjalankan SQL pada Hadoop? "
SQL pada Hadoop sudah ada di sini. Dengan keupayaan untuk mengeluarkan pertanyaan SQL terhadap data di Hadoop, anda tidak terjebak hanya dengan pendekatan ETL ke aliran data anda - anda juga boleh menggunakan aplikasi seperti ELT.
Satu lagi pendekatan hibrid untuk dipertimbangkan adalah di mana untuk menjalankan logika transformasi anda: di Hadoop atau dalam gudang data? Walaupun sesetengah organisasi prihatin tentang menjalankan apa-apa tetapi analitik di gudang mereka, hakikatnya tetap bahawa pangkalan data relasi sangat baik untuk menjalankan SQL, dan boleh menjadi tempat yang lebih praktikal untuk menjalankan transformasi daripada Hadoop.