Rumah Kewangan Peribadi Zon Pendaratan Berasaskan Hadoop - dummies

Zon Pendaratan Berasaskan Hadoop - dummies

Video: Technology Stacks - Computer Science for Business Leaders 2016 2024

Video: Technology Stacks - Computer Science for Business Leaders 2016 2024
Anonim

Apabila anda cuba untuk membuat teka-teki apa persekitaran analisis mungkin kelihatan seperti pada masa akan datang, anda tersandung merentasi corak zon pendaratan berasaskan Hadoop masa dan masa lagi. Malah, ia tidak lagi menjadi perbincangan yang berorientasikan masa depan kerana zon mendarat telah menjadi cara bahawa syarikat yang berpandangan ke hadapan kini cuba menjimatkan kos IT, dan menyediakan platform untuk analisis data yang inovatif.

Jadi apa sebenarnya zon mendarat? Pada tahap yang paling asas, zon pendaratan hanyalah tempat utama di mana data akan mendarat di perusahaan anda - pengekstrakan data mingguan dari pangkalan data operasi, contohnya, atau dari sistem yang menghasilkan fail log. Hadoop adalah repositori yang berguna untuk mendarat data, atas sebab-sebab berikut:

  • Ia boleh mengendalikan semua jenis data.

  • Ia mudah berskala.

  • Ia murah.

  • Sebaik sahaja anda mendarat data dalam Hadoop, anda mempunyai fleksibiliti untuk pertanyaan, menganalisis, atau memproses data dalam pelbagai cara.

Rajah ini hanya menunjukkan sebahagian daripada cerita dan tidak lengkap. Lagipun, anda perlu tahu bagaimana data bergerak dari zon pendaratan ke gudang data, dan sebagainya.

Titik permulaan untuk perbincangan mengenai pemodenan data gudang haruslah bagaimana organisasi menggunakan gudang data dan cabaran yang dihadapi oleh jabatan IT dengan mereka.

Pada tahun 1980-an, apabila organisasi menjadi baik menyimpan maklumat operasi mereka dalam pangkalan data hubungan (transaksi penjualan, misalnya, atau status rangkaian bekalan), pemimpin perniagaan mula mahu laporan yang dihasilkan daripada data hubungan ini. Kedai relasi terawal adalah pangkalan data operasi dan direka untuk Pemprosesan Urus Niaga Dalam Talian (OLTP), supaya rekod boleh dimasukkan, dikemas kini, atau dipadamkan secepat mungkin.

Ini adalah seni bina yang tidak praktikal untuk pelaporan dan analisis skala besar, jadi pangkalan data Pemprosesan Analisis Rasional (ROLAP) dibangunkan untuk memenuhi keperluan ini. Ini membawa kepada evolusi jenis RDBMS yang baru: gudang data , yang merupakan entiti yang berasingan dan hidup di samping kedai data operasi organisasi.

Ini datang untuk menggunakan alat binaan tujuan untuk kecekapan yang lebih baik: anda mempunyai kedai data operasi, yang direka untuk memproses transaksi dengan cekap, dan gudang data, yang dirancang untuk menyokong analisis dan pelaporan yang berulang.

Gudang data berada di bawah tekanan yang semakin meningkat walaupun, atas sebab-sebab berikut:

  • Peningkatan permintaan untuk menyimpan data dalam talian lebih lama.

  • Peningkatan permintaan bagi sumber pemprosesan untuk mengubah data untuk digunakan di gudang dan data data lain.

  • Peningkatan permintaan untuk analisis inovatif, yang memerlukan penganalisis untuk menimbulkan persoalan tentang data gudang, di atas laporan tetap yang telah dilakukan. Ini boleh menimbulkan pemprosesan tambahan yang ketara.

Dalam gambar, anda dapat melihat gudang data yang dibentangkan sebagai sumber utama untuk pelbagai jenis analisis yang disenaraikan di sebelah kanan kanan angka tersebut. Di sini anda juga melihat konsep zon mendarat yang diwakili, di mana Hadoop akan menyimpan data dari pelbagai sumber data masuk.

Untuk mendayakan zon pendaratan Hadoop, anda perlu memastikan anda boleh menulis data dari pelbagai sumber data ke HDFS. Untuk pangkalan data relasi, penyelesaian yang baik adalah menggunakan Sqoop.

Tetapi pendaratan data hanya permulaan.

Apabila anda mengalihkan data dari banyak sumber ke dalam zon pendaratan anda, satu isu yang pasti akan anda lalui adalah kualiti data. Adalah umum bagi syarikat-syarikat untuk mempunyai banyak pangkalan data operasi di mana butir-butir utama adalah berbeza, sebagai contoh, pelanggan mungkin dikenali sebagai "D. deRoos "dalam satu pangkalan data, dan" Dirk deRoos "di lain.

Masalah kualiti lain terletak pada sistem di mana terdapat pergantungan berat pada kemasukan data manual, sama ada dari pelanggan atau kakitangan - di sini, tidak biasa untuk mencari nama pertama dan nama terakhir beralih atau maklumat salah maklumat lain dalam bidang data. Isu kualiti data adalah masalah besar bagi persekitaran gudang data, dan itulah sebabnya banyak usaha masuk ke langkah pembersihan dan pengesahan kerana data dari sistem lain diproses ketika ia dimasukkan ke dalam gudang. Semua itu turun ke

amanah : jika data yang anda tanya soalan adalah kotor, anda tidak boleh mempercayai jawapan dalam laporan anda. Jadi, ketika ada potensi besar dalam mengakses banyak set data yang berbeda dari sumber yang berbeda dalam zon pendaratan Hadoop, Anda harus faktor dalam kualitas data dan berapa banyak yang dapat anda percayai data.

Zon Pendaratan Berasaskan Hadoop - dummies

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...