Rumah Kewangan Peribadi Zon Pendaratan Berasaskan Hadoop - dummies

Zon Pendaratan Berasaskan Hadoop - dummies

Video: Technology Stacks - Computer Science for Business Leaders 2016 2024

Video: Technology Stacks - Computer Science for Business Leaders 2016 2024
Anonim

Apabila anda cuba untuk membuat teka-teki apa persekitaran analisis mungkin kelihatan seperti pada masa akan datang, anda tersandung merentasi corak zon pendaratan berasaskan Hadoop masa dan masa lagi. Malah, ia tidak lagi menjadi perbincangan yang berorientasikan masa depan kerana zon mendarat telah menjadi cara bahawa syarikat yang berpandangan ke hadapan kini cuba menjimatkan kos IT, dan menyediakan platform untuk analisis data yang inovatif.

Jadi apa sebenarnya zon mendarat? Pada tahap yang paling asas, zon pendaratan hanyalah tempat utama di mana data akan mendarat di perusahaan anda - pengekstrakan data mingguan dari pangkalan data operasi, contohnya, atau dari sistem yang menghasilkan fail log. Hadoop adalah repositori yang berguna untuk mendarat data, atas sebab-sebab berikut:

  • Ia boleh mengendalikan semua jenis data.

  • Ia mudah berskala.

  • Ia murah.

  • Sebaik sahaja anda mendarat data dalam Hadoop, anda mempunyai fleksibiliti untuk pertanyaan, menganalisis, atau memproses data dalam pelbagai cara.

Rajah ini hanya menunjukkan sebahagian daripada cerita dan tidak lengkap. Lagipun, anda perlu tahu bagaimana data bergerak dari zon pendaratan ke gudang data, dan sebagainya.

Titik permulaan untuk perbincangan mengenai pemodenan data gudang haruslah bagaimana organisasi menggunakan gudang data dan cabaran yang dihadapi oleh jabatan IT dengan mereka.

Pada tahun 1980-an, apabila organisasi menjadi baik menyimpan maklumat operasi mereka dalam pangkalan data hubungan (transaksi penjualan, misalnya, atau status rangkaian bekalan), pemimpin perniagaan mula mahu laporan yang dihasilkan daripada data hubungan ini. Kedai relasi terawal adalah pangkalan data operasi dan direka untuk Pemprosesan Urus Niaga Dalam Talian (OLTP), supaya rekod boleh dimasukkan, dikemas kini, atau dipadamkan secepat mungkin.

Ini adalah seni bina yang tidak praktikal untuk pelaporan dan analisis skala besar, jadi pangkalan data Pemprosesan Analisis Rasional (ROLAP) dibangunkan untuk memenuhi keperluan ini. Ini membawa kepada evolusi jenis RDBMS yang baru: gudang data , yang merupakan entiti yang berasingan dan hidup di samping kedai data operasi organisasi.

Ini datang untuk menggunakan alat binaan tujuan untuk kecekapan yang lebih baik: anda mempunyai kedai data operasi, yang direka untuk memproses transaksi dengan cekap, dan gudang data, yang dirancang untuk menyokong analisis dan pelaporan yang berulang.

Gudang data berada di bawah tekanan yang semakin meningkat walaupun, atas sebab-sebab berikut:

  • Peningkatan permintaan untuk menyimpan data dalam talian lebih lama.

  • Peningkatan permintaan bagi sumber pemprosesan untuk mengubah data untuk digunakan di gudang dan data data lain.

  • Peningkatan permintaan untuk analisis inovatif, yang memerlukan penganalisis untuk menimbulkan persoalan tentang data gudang, di atas laporan tetap yang telah dilakukan. Ini boleh menimbulkan pemprosesan tambahan yang ketara.

Dalam gambar, anda dapat melihat gudang data yang dibentangkan sebagai sumber utama untuk pelbagai jenis analisis yang disenaraikan di sebelah kanan kanan angka tersebut. Di sini anda juga melihat konsep zon mendarat yang diwakili, di mana Hadoop akan menyimpan data dari pelbagai sumber data masuk.

Untuk mendayakan zon pendaratan Hadoop, anda perlu memastikan anda boleh menulis data dari pelbagai sumber data ke HDFS. Untuk pangkalan data relasi, penyelesaian yang baik adalah menggunakan Sqoop.

Tetapi pendaratan data hanya permulaan.

Apabila anda mengalihkan data dari banyak sumber ke dalam zon pendaratan anda, satu isu yang pasti akan anda lalui adalah kualiti data. Adalah umum bagi syarikat-syarikat untuk mempunyai banyak pangkalan data operasi di mana butir-butir utama adalah berbeza, sebagai contoh, pelanggan mungkin dikenali sebagai "D. deRoos "dalam satu pangkalan data, dan" Dirk deRoos "di lain.

Masalah kualiti lain terletak pada sistem di mana terdapat pergantungan berat pada kemasukan data manual, sama ada dari pelanggan atau kakitangan - di sini, tidak biasa untuk mencari nama pertama dan nama terakhir beralih atau maklumat salah maklumat lain dalam bidang data. Isu kualiti data adalah masalah besar bagi persekitaran gudang data, dan itulah sebabnya banyak usaha masuk ke langkah pembersihan dan pengesahan kerana data dari sistem lain diproses ketika ia dimasukkan ke dalam gudang. Semua itu turun ke

amanah : jika data yang anda tanya soalan adalah kotor, anda tidak boleh mempercayai jawapan dalam laporan anda. Jadi, ketika ada potensi besar dalam mengakses banyak set data yang berbeda dari sumber yang berbeda dalam zon pendaratan Hadoop, Anda harus faktor dalam kualitas data dan berapa banyak yang dapat anda percayai data.

Zon Pendaratan Berasaskan Hadoop - dummies

Pilihan Editor

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Jika anda telah memulakan jejak sosial metrik media dan menikmati kurniaan data yang kini dapat dilihat, dihidupkan, dan digunakan, anda mungkin tertanya-tanya apa yang mungkin menyebabkan kemurungan! Mudah: kehilangan data. Katakanlah bahawa anda mempunyai masalah tapak atau entah bagaimana kehilangan akses ke tapak atau data anda. Adakah anda mempunyai sandaran anda ...

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Mana-mana kempen baru, laman web, akaun Twitter, halaman Facebook, atau item lain yang anda ingin ukur dengan metrik media sosial bermula pada sifar. Nombor ini boleh membuat anda merasa seperti anda bercakap dengan tidak sah, bercakap dengan diri anda atau anda tersembunyi dari pandangan. Perasaan ini boleh membawa kepada pengasingan secara keseluruhan ...

Meracuni Google Spider - dummies

Meracuni Google Spider - dummies

Anda sentiasa dapat mencari orang yang ingin menyimpang dari lurus dan sempit. Ya, mereka adalah orang bodoh yang terlibat dalam taktik pengoptimuman berisiko yang bertujuan untuk menggerakkan PageRank secara artifisial, memanipulasi pesanan halaman hasil carian di Google, dan mendapatkan kelebihan yang tidak adil dalam indeks. Google, dengan reputasi yang luar biasa untuk melindungi, ...

Pilihan Editor

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Di laman web anda memberikan wawasan yang penting. Anda boleh memikirkan sama ada pengunjung sedang melihat cepat, kemudian pergi, atau sama ada mereka bertahan lebih lama dan sebenarnya membaca bahan dalam talian anda dengan tujuan untuk mengambil tindakan. Jika majoriti pelawat laman web anda tidak ...

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Laman web perniagaan sangat mirip dengan merancang kedai dengan pemasaran produk dalam fikiran. Malah, laman web anda benar-benar adalah kedai - kedai maya di Internet. Rangkaian kedai runcit telah menghabiskan berjuta-juta dolar dalam penyelidikan pasaran, menonton dan mendokumentasikan bagaimana pembeli memasuki kedai, belok kanan atau kiri, dan ...

Analitik web Untuk Menipu Cheat Sheet - dummies

Analitik web Untuk Menipu Cheat Sheet - dummies

Melakukan analisis laman web tidak perlu meletihkan dan intensif masa. Anda boleh meringkaskan prestasi keseluruhan laman web anda dengan cepat - jika anda tahu apa yang perlu dicari. Alat analisis web percuma dan kos rendah boleh membantu anda mengukur kejayaan laman web anda, dan anda boleh menjana perujuk tapak dengan pelbagai cara yang tidak mungkin ...

Pilihan Editor

Cara Memaksimumkan Ruang pada Laman Web - dummies

Cara Memaksimumkan Ruang pada Laman Web - dummies

Terlalu terhad, anda boleh membuat penggunaan kreatif beberapa teknologi di luar sana untuk memaksimumkan antara muka anda. Untuk setiap teknik berikut yang diterangkan, terdapat banyak laman web yang menawarkan sampel kod, forum, dan sumber untuk membantu anda memulakan. Accordions. Antara muka akordion membolehkan ...

Cara Mendapatkan Corak CSS3 Online - dummies

Cara Mendapatkan Corak CSS3 Online - dummies

Mencipta kesan mudah untuk laman CSS3 menggunakan gradien mudah . Walau bagaimanapun, mewujudkan sesuatu yang benar-benar hebat memerlukan masa dan keupayaan artistik. Kebanyakan pemaju benar-benar tidak mempunyai masa atau kemahiran yang diperlukan untuk mencipta sesuatu yang mempesonakan menggunakan CSS3 sahaja (atau CSS3 digabungkan dengan grafik) - di sinilah pereka bermain. Ramai pereka yang membolehkan anda ...

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Terdapat banyak pelayar dan versi pelayar yang berbeza gunakan hari ini. Tidak semua daripada mereka adalah optimum untuk CSS3. Inilah tempat Modernizr dimainkan. Pemajunya menyebutnya "perpustakaan JavaScript yang mengesan ciri HTML5 dan CSS3 dalam pelayar pengguna. "Anda menggunakan Modernizr untuk melaksanakan tugas secara pilihan dan memasukkan ciri aplikasi berdasarkan ...