Zon Pendaratan Berasaskan Hadoop - dummies

Apabila anda cuba untuk membuat teka-teki apa persekitaran analisis mungkin kelihatan seperti pada masa akan datang, anda tersandung merentasi corak zon pendaratan berasaskan Hadoop masa dan masa lagi. Malah, ia tidak lagi menjadi perbincangan yang berorientasikan masa depan kerana zon mendarat telah menjadi cara bahawa syarikat yang berpandangan ke hadapan kini cuba menjimatkan kos IT, dan menyediakan platform untuk analisis data yang inovatif.

Jadi apa sebenarnya zon mendarat? Pada tahap yang paling asas, zon pendaratan hanyalah tempat utama di mana data akan mendarat di perusahaan anda - pengekstrakan data mingguan dari pangkalan data operasi, contohnya, atau dari sistem yang menghasilkan fail log. Hadoop adalah repositori yang berguna untuk mendarat data, atas sebab-sebab berikut:

Ia boleh mengendalikan semua jenis data.
Ia mudah berskala.
Ia murah.
Sebaik sahaja anda mendarat data dalam Hadoop, anda mempunyai fleksibiliti untuk pertanyaan, menganalisis, atau memproses data dalam pelbagai cara.

Rajah ini hanya menunjukkan sebahagian daripada cerita dan tidak lengkap. Lagipun, anda perlu tahu bagaimana data bergerak dari zon pendaratan ke gudang data, dan sebagainya.

Titik permulaan untuk perbincangan mengenai pemodenan data gudang haruslah bagaimana organisasi menggunakan gudang data dan cabaran yang dihadapi oleh jabatan IT dengan mereka.

Pada tahun 1980-an, apabila organisasi menjadi baik menyimpan maklumat operasi mereka dalam pangkalan data hubungan (transaksi penjualan, misalnya, atau status rangkaian bekalan), pemimpin perniagaan mula mahu laporan yang dihasilkan daripada data hubungan ini. Kedai relasi terawal adalah pangkalan data operasi dan direka untuk Pemprosesan Urus Niaga Dalam Talian (OLTP), supaya rekod boleh dimasukkan, dikemas kini, atau dipadamkan secepat mungkin.

Ini adalah seni bina yang tidak praktikal untuk pelaporan dan analisis skala besar, jadi pangkalan data Pemprosesan Analisis Rasional (ROLAP) dibangunkan untuk memenuhi keperluan ini. Ini membawa kepada evolusi jenis RDBMS yang baru: gudang data , yang merupakan entiti yang berasingan dan hidup di samping kedai data operasi organisasi.

Ini datang untuk menggunakan alat binaan tujuan untuk kecekapan yang lebih baik: anda mempunyai kedai data operasi, yang direka untuk memproses transaksi dengan cekap, dan gudang data, yang dirancang untuk menyokong analisis dan pelaporan yang berulang.

Gudang data berada di bawah tekanan yang semakin meningkat walaupun, atas sebab-sebab berikut:

Peningkatan permintaan untuk menyimpan data dalam talian lebih lama.
Peningkatan permintaan bagi sumber pemprosesan untuk mengubah data untuk digunakan di gudang dan data data lain.
Peningkatan permintaan untuk analisis inovatif, yang memerlukan penganalisis untuk menimbulkan persoalan tentang data gudang, di atas laporan tetap yang telah dilakukan. Ini boleh menimbulkan pemprosesan tambahan yang ketara.

Dalam gambar, anda dapat melihat gudang data yang dibentangkan sebagai sumber utama untuk pelbagai jenis analisis yang disenaraikan di sebelah kanan kanan angka tersebut. Di sini anda juga melihat konsep zon mendarat yang diwakili, di mana Hadoop akan menyimpan data dari pelbagai sumber data masuk.

Untuk mendayakan zon pendaratan Hadoop, anda perlu memastikan anda boleh menulis data dari pelbagai sumber data ke HDFS. Untuk pangkalan data relasi, penyelesaian yang baik adalah menggunakan Sqoop.

Tetapi pendaratan data hanya permulaan.

Apabila anda mengalihkan data dari banyak sumber ke dalam zon pendaratan anda, satu isu yang pasti akan anda lalui adalah kualiti data. Adalah umum bagi syarikat-syarikat untuk mempunyai banyak pangkalan data operasi di mana butir-butir utama adalah berbeza, sebagai contoh, pelanggan mungkin dikenali sebagai "D. deRoos "dalam satu pangkalan data, dan" Dirk deRoos "di lain.

Masalah kualiti lain terletak pada sistem di mana terdapat pergantungan berat pada kemasukan data manual, sama ada dari pelanggan atau kakitangan - di sini, tidak biasa untuk mencari nama pertama dan nama terakhir beralih atau maklumat salah maklumat lain dalam bidang data. Isu kualiti data adalah masalah besar bagi persekitaran gudang data, dan itulah sebabnya banyak usaha masuk ke langkah pembersihan dan pengesahan kerana data dari sistem lain diproses ketika ia dimasukkan ke dalam gudang. Semua itu turun ke

amanah : jika data yang anda tanya soalan adalah kotor, anda tidak boleh mempercayai jawapan dalam laporan anda. Jadi, ketika ada potensi besar dalam mengakses banyak set data yang berbeda dari sumber yang berbeda dalam zon pendaratan Hadoop, Anda harus faktor dalam kualitas data dan berapa banyak yang dapat anda percayai data.