Rumah Kewangan Peribadi Menyertai Tabel dengan Hive - dummies

Menyertai Tabel dengan Hive - dummies

Video: Mark of Cain and the Beast and Other Occult Secrets - Zen Garcia, Gary Wayne and David Carrico 2024

Video: Mark of Cain and the Beast and Other Occult Secrets - Zen Garcia, Gary Wayne and David Carrico 2024
Anonim

Anda mungkin sudah tahu bahawa pakar-pakar dalam pemodelan pangkalan data relasional dan reka bentuk lazimnya menghabiskan banyak masa mereka mereka bentuk pangkalan data yang normal, atau skema <. Pangkalan data normalisasi adalah teknik yang melindungi terhadap kehilangan data, redundansi, dan anomali lain kerana data dikemas kini dan diambil. Para ahli mengikuti beberapa peraturan untuk sampai ke pangkalan data yang dinormalkan, tetapi Peraturan 1 adalah bahawa anda mesti berakhir dengan

kumpulan jadual. (Satu jadual besar menyimpan semua data anda tidak normal.) Terdapat pengecualian, bergantung pada kes penggunaan, tetapi undang-undang banyak jadual umumnya diikuti dengan teliti, terutama untuk pangkalan data yang menyokong urus niaga atau pemprosesan analitik (risikan perniagaan, sebagai contoh).

Apabila anda mula membuat pertanyaan dan menganalisis data anda, jadual akan disatukan berdasarkan hubungan yang ditetapkan antara mereka menggunakan SQL - yang bermaksud bahawa cakera pada akhirnya sibuk pada pelayan anda apabila anda mula bergabung dengan jadual, dan cakera sibuk biasanya menghasilkan masa respons pengguna yang lebih perlahan. Walau bagaimanapun, berita gembira adalah bahawa RDBMS dan EDW ditala untuk membuat bergabung secepat mungkin.

Apa semua ini perlu dilakukan dengan menyertai Hive? Nah, ingat bahawa sistem operasi asas untuk Hive adalah (kejutan!) Apache Hadoop: MapReduce adalah enjin untuk menyertai jadual, dan Sistem Fail Hadoop (HDFS) adalah penyimpanan asas. Ini semua berita baik untuk pengguna yang ingin membuat, mengurus, dan menganalisis jadual besar dengan Hive.

Potensi untuk membuka kunci maklumat yang tersembunyi dalam struktur data yang besar adalah menarik. Walau bagaimanapun, bergabung dengan Hive biasanya tidak melakukan seperti yang mereka lakukan di dunia RDBMS / EDW, jadi pengguna kali pertama sering terkejut dengan "pokiness" respon sistem.

Ingatlah bahawa MapReduce dan HDFS dioptimumkan untuk pemalsuan dengan analisis data besar dan bahawa, di dunia ini

latency - masa tindak balas pengguna, dengan kata lain - biasanya tinggi. Hive direka untuk pemprosesan analisis gaya batch, bukan untuk pemprosesan transaksi dalam talian yang cepat. Pengguna yang mahukan prestasi terbaik dengan SQL pada Apache Hadoop mempunyai penyelesaian yang tersedia.

Simpan ini dinamik apabila anda mula menyertai jadual dengan Hive. Juga ambil perhatian bahawa arkitek Hive biasanya menamakan semula pangkalan data mereka sedikit sebanyak, oleh itu, mempunyai lebih sedikit jadual yang lebih besar adalah perkara biasa. Itulah sebabnya jenis data yang kompleks seperti STRUCTs dan ARRAYs disediakan. Anda boleh menggunakan jenis data yang kompleks untuk mengemas lebih banyak data ke dalam satu jadual.

Oleh kerana jadual Hive membaca dan menulis melalui HDFS biasanya melibatkan blok data yang sangat besar, lebih banyak data yang dapat anda uruskan sama sekali dalam satu jadual, lebih baik prestasi keseluruhannya.

Cakera dan akses rangkaian jauh lebih perlahan daripada akses memori, jadi meminimumkan HDFS membaca dan menulis sedapat mungkin.

Dengan maklumat latar belakang ini, anda boleh menangani membuat bergabung dengan Hive. Nasib baik, komuniti pembangunan sarang realistik dan memahami bahawa pengguna ingin dan perlu menyertai jadual dengan HiveQL. Pengetahuan ini menjadi sangat penting dengan pembesaran EDW. Gunakan kes-kes seperti "queryable" arkib sering memerlukan bergabung untuk analisis data.

Berikut adalah contoh menyertai sarang menggunakan jadual data penerbangan. Penyenaraian menunjukkan anda bagaimana untuk membuat dan memaparkan jadual myflightinfo2007 dan jadual myflightinfo2008 dari jadual FlightInfo2007 dan FlightInfo2008 yang lebih besar. Pelan ini bersama-sama menggunakan CTAS yang dibuat myflightinfo2007 dan jadual myflightinfo2008 untuk menggambarkan bagaimana anda boleh melakukan bergabung di Hive.

Angka ini menunjukkan hasil gabungan dalaman dengan jadual myflightinfo2007 dan myflightinfo2008 menggunakan klien SQL SQuirreL.

Sopan menyokong

equi-joins, jenis penyertaan tertentu yang hanya menggunakan perbandingan kesamaan dalam predikat gabungan. (ON m8. FlightNum = m7. FlightNum adalah salah satu contoh dari equi-join.) Penyusun lain seperti Less Than (<) tidak disokong. Sekatan ini hanya disebabkan oleh batasan pada enjin MapReduce yang mendasari. Juga, anda tidak boleh menggunakan ATAU dalam klausa ON. Angka menggambarkan contoh terdahulu dalam batin dan dua jenis gabungan sarang lain. Perhatikan bahawa anda boleh mengesahkan hasil gabungan dalaman dengan mengkaji kandungan jadual myflight2007 dan myflight2008.

Angka berikut menggambarkan bagaimana gabungan batin bekerja menggunakan gambarajah Venn, jika anda tidak biasa dengan teknik tersebut. Idea asas di sini adalah bahawa gabungan dalaman mengembalikan rekod yang sepadan antara dua jadual. Jadi gabungan dalaman adalah alat analisis yang sempurna untuk menentukan penerbangan mana yang sama dari JFK (New York) ke ORD (Chicago) pada bulan Julai 2007 dan Julai 2008.

Mengoptimalkan Hive join adalah topik hangat dalam komuniti Hive. Untuk maklumat lanjut mengenai teknik pengoptimuman semasa, lihat halaman Pengoptimuman Sertai pada wiki Hive.

Menyertai Tabel dengan Hive - dummies

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...