Rumah Kewangan Peribadi Menyertai Tabel dengan Hive - dummies

Menyertai Tabel dengan Hive - dummies

Video: Mark of Cain and the Beast and Other Occult Secrets - Zen Garcia, Gary Wayne and David Carrico 2024

Video: Mark of Cain and the Beast and Other Occult Secrets - Zen Garcia, Gary Wayne and David Carrico 2024
Anonim

Anda mungkin sudah tahu bahawa pakar-pakar dalam pemodelan pangkalan data relasional dan reka bentuk lazimnya menghabiskan banyak masa mereka mereka bentuk pangkalan data yang normal, atau skema <. Pangkalan data normalisasi adalah teknik yang melindungi terhadap kehilangan data, redundansi, dan anomali lain kerana data dikemas kini dan diambil. Para ahli mengikuti beberapa peraturan untuk sampai ke pangkalan data yang dinormalkan, tetapi Peraturan 1 adalah bahawa anda mesti berakhir dengan

kumpulan jadual. (Satu jadual besar menyimpan semua data anda tidak normal.) Terdapat pengecualian, bergantung pada kes penggunaan, tetapi undang-undang banyak jadual umumnya diikuti dengan teliti, terutama untuk pangkalan data yang menyokong urus niaga atau pemprosesan analitik (risikan perniagaan, sebagai contoh).

Apabila anda mula membuat pertanyaan dan menganalisis data anda, jadual akan disatukan berdasarkan hubungan yang ditetapkan antara mereka menggunakan SQL - yang bermaksud bahawa cakera pada akhirnya sibuk pada pelayan anda apabila anda mula bergabung dengan jadual, dan cakera sibuk biasanya menghasilkan masa respons pengguna yang lebih perlahan. Walau bagaimanapun, berita gembira adalah bahawa RDBMS dan EDW ditala untuk membuat bergabung secepat mungkin.

Apa semua ini perlu dilakukan dengan menyertai Hive? Nah, ingat bahawa sistem operasi asas untuk Hive adalah (kejutan!) Apache Hadoop: MapReduce adalah enjin untuk menyertai jadual, dan Sistem Fail Hadoop (HDFS) adalah penyimpanan asas. Ini semua berita baik untuk pengguna yang ingin membuat, mengurus, dan menganalisis jadual besar dengan Hive.

Potensi untuk membuka kunci maklumat yang tersembunyi dalam struktur data yang besar adalah menarik. Walau bagaimanapun, bergabung dengan Hive biasanya tidak melakukan seperti yang mereka lakukan di dunia RDBMS / EDW, jadi pengguna kali pertama sering terkejut dengan "pokiness" respon sistem.

Ingatlah bahawa MapReduce dan HDFS dioptimumkan untuk pemalsuan dengan analisis data besar dan bahawa, di dunia ini

latency - masa tindak balas pengguna, dengan kata lain - biasanya tinggi. Hive direka untuk pemprosesan analisis gaya batch, bukan untuk pemprosesan transaksi dalam talian yang cepat. Pengguna yang mahukan prestasi terbaik dengan SQL pada Apache Hadoop mempunyai penyelesaian yang tersedia.

Simpan ini dinamik apabila anda mula menyertai jadual dengan Hive. Juga ambil perhatian bahawa arkitek Hive biasanya menamakan semula pangkalan data mereka sedikit sebanyak, oleh itu, mempunyai lebih sedikit jadual yang lebih besar adalah perkara biasa. Itulah sebabnya jenis data yang kompleks seperti STRUCTs dan ARRAYs disediakan. Anda boleh menggunakan jenis data yang kompleks untuk mengemas lebih banyak data ke dalam satu jadual.

Oleh kerana jadual Hive membaca dan menulis melalui HDFS biasanya melibatkan blok data yang sangat besar, lebih banyak data yang dapat anda uruskan sama sekali dalam satu jadual, lebih baik prestasi keseluruhannya.

Cakera dan akses rangkaian jauh lebih perlahan daripada akses memori, jadi meminimumkan HDFS membaca dan menulis sedapat mungkin.

Dengan maklumat latar belakang ini, anda boleh menangani membuat bergabung dengan Hive. Nasib baik, komuniti pembangunan sarang realistik dan memahami bahawa pengguna ingin dan perlu menyertai jadual dengan HiveQL. Pengetahuan ini menjadi sangat penting dengan pembesaran EDW. Gunakan kes-kes seperti "queryable" arkib sering memerlukan bergabung untuk analisis data.

Berikut adalah contoh menyertai sarang menggunakan jadual data penerbangan. Penyenaraian menunjukkan anda bagaimana untuk membuat dan memaparkan jadual myflightinfo2007 dan jadual myflightinfo2008 dari jadual FlightInfo2007 dan FlightInfo2008 yang lebih besar. Pelan ini bersama-sama menggunakan CTAS yang dibuat myflightinfo2007 dan jadual myflightinfo2008 untuk menggambarkan bagaimana anda boleh melakukan bergabung di Hive.

Angka ini menunjukkan hasil gabungan dalaman dengan jadual myflightinfo2007 dan myflightinfo2008 menggunakan klien SQL SQuirreL.

Sopan menyokong

equi-joins, jenis penyertaan tertentu yang hanya menggunakan perbandingan kesamaan dalam predikat gabungan. (ON m8. FlightNum = m7. FlightNum adalah salah satu contoh dari equi-join.) Penyusun lain seperti Less Than (<) tidak disokong. Sekatan ini hanya disebabkan oleh batasan pada enjin MapReduce yang mendasari. Juga, anda tidak boleh menggunakan ATAU dalam klausa ON. Angka menggambarkan contoh terdahulu dalam batin dan dua jenis gabungan sarang lain. Perhatikan bahawa anda boleh mengesahkan hasil gabungan dalaman dengan mengkaji kandungan jadual myflight2007 dan myflight2008.

Angka berikut menggambarkan bagaimana gabungan batin bekerja menggunakan gambarajah Venn, jika anda tidak biasa dengan teknik tersebut. Idea asas di sini adalah bahawa gabungan dalaman mengembalikan rekod yang sepadan antara dua jadual. Jadi gabungan dalaman adalah alat analisis yang sempurna untuk menentukan penerbangan mana yang sama dari JFK (New York) ke ORD (Chicago) pada bulan Julai 2007 dan Julai 2008.

Mengoptimalkan Hive join adalah topik hangat dalam komuniti Hive. Untuk maklumat lanjut mengenai teknik pengoptimuman semasa, lihat halaman Pengoptimuman Sertai pada wiki Hive.

Menyertai Tabel dengan Hive - dummies

Pilihan Editor

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Jika anda telah memulakan jejak sosial metrik media dan menikmati kurniaan data yang kini dapat dilihat, dihidupkan, dan digunakan, anda mungkin tertanya-tanya apa yang mungkin menyebabkan kemurungan! Mudah: kehilangan data. Katakanlah bahawa anda mempunyai masalah tapak atau entah bagaimana kehilangan akses ke tapak atau data anda. Adakah anda mempunyai sandaran anda ...

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Mana-mana kempen baru, laman web, akaun Twitter, halaman Facebook, atau item lain yang anda ingin ukur dengan metrik media sosial bermula pada sifar. Nombor ini boleh membuat anda merasa seperti anda bercakap dengan tidak sah, bercakap dengan diri anda atau anda tersembunyi dari pandangan. Perasaan ini boleh membawa kepada pengasingan secara keseluruhan ...

Meracuni Google Spider - dummies

Meracuni Google Spider - dummies

Anda sentiasa dapat mencari orang yang ingin menyimpang dari lurus dan sempit. Ya, mereka adalah orang bodoh yang terlibat dalam taktik pengoptimuman berisiko yang bertujuan untuk menggerakkan PageRank secara artifisial, memanipulasi pesanan halaman hasil carian di Google, dan mendapatkan kelebihan yang tidak adil dalam indeks. Google, dengan reputasi yang luar biasa untuk melindungi, ...

Pilihan Editor

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Di laman web anda memberikan wawasan yang penting. Anda boleh memikirkan sama ada pengunjung sedang melihat cepat, kemudian pergi, atau sama ada mereka bertahan lebih lama dan sebenarnya membaca bahan dalam talian anda dengan tujuan untuk mengambil tindakan. Jika majoriti pelawat laman web anda tidak ...

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Laman web perniagaan sangat mirip dengan merancang kedai dengan pemasaran produk dalam fikiran. Malah, laman web anda benar-benar adalah kedai - kedai maya di Internet. Rangkaian kedai runcit telah menghabiskan berjuta-juta dolar dalam penyelidikan pasaran, menonton dan mendokumentasikan bagaimana pembeli memasuki kedai, belok kanan atau kiri, dan ...

Analitik web Untuk Menipu Cheat Sheet - dummies

Analitik web Untuk Menipu Cheat Sheet - dummies

Melakukan analisis laman web tidak perlu meletihkan dan intensif masa. Anda boleh meringkaskan prestasi keseluruhan laman web anda dengan cepat - jika anda tahu apa yang perlu dicari. Alat analisis web percuma dan kos rendah boleh membantu anda mengukur kejayaan laman web anda, dan anda boleh menjana perujuk tapak dengan pelbagai cara yang tidak mungkin ...

Pilihan Editor

Cara Memaksimumkan Ruang pada Laman Web - dummies

Cara Memaksimumkan Ruang pada Laman Web - dummies

Terlalu terhad, anda boleh membuat penggunaan kreatif beberapa teknologi di luar sana untuk memaksimumkan antara muka anda. Untuk setiap teknik berikut yang diterangkan, terdapat banyak laman web yang menawarkan sampel kod, forum, dan sumber untuk membantu anda memulakan. Accordions. Antara muka akordion membolehkan ...

Cara Mendapatkan Corak CSS3 Online - dummies

Cara Mendapatkan Corak CSS3 Online - dummies

Mencipta kesan mudah untuk laman CSS3 menggunakan gradien mudah . Walau bagaimanapun, mewujudkan sesuatu yang benar-benar hebat memerlukan masa dan keupayaan artistik. Kebanyakan pemaju benar-benar tidak mempunyai masa atau kemahiran yang diperlukan untuk mencipta sesuatu yang mempesonakan menggunakan CSS3 sahaja (atau CSS3 digabungkan dengan grafik) - di sinilah pereka bermain. Ramai pereka yang membolehkan anda ...

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Terdapat banyak pelayar dan versi pelayar yang berbeza gunakan hari ini. Tidak semua daripada mereka adalah optimum untuk CSS3. Inilah tempat Modernizr dimainkan. Pemajunya menyebutnya "perpustakaan JavaScript yang mengesan ciri HTML5 dan CSS3 dalam pelayar pengguna. "Anda menggunakan Modernizr untuk melaksanakan tugas secara pilihan dan memasukkan ciri aplikasi berdasarkan ...