Isi kandungan:
Video: Atribut i apozicija - Srpski jezik za 5. razred (#45) | SuperŠkola 2024
HBase (Pangkalan Data Hadoop) adalah pelaksanaan Java BigTable Google. Google mendefinisikan BigTable sebagai "peta yang disusun secara bersihih, diedarkan dan berterusan. "Ia adalah definisi ringkas, tetapi anda juga akan bersetuju bahawa ia sedikit di sisi kompleks. Untuk memecah kerumitan BigTable sedikit, berikut adalah perbincangan mengenai setiap atribut.
Hbase jarang
Seperti yang mungkin anda dapati, sistem penyimpanan data diedarkan BigTable direka untuk memenuhi permintaan data besar. Sekarang, aplikasi data besar menyimpan banyak data tetapi kandungan data besar juga sering berubah. Bayangkan jadual tradisional dalam pangkalan data syarikat yang menyimpan maklumat hubungan pelanggan, seperti yang ditunjukkan:
ID Pelanggan | Nama Akhir | Nama Pertama | Nama Tengah | Alamat E-mel | Alamat Jalan |
---|---|---|---|---|---|
00001 | Smith | John | Timothy | 1 Hadoop Lane, NY 11111 | |
00002 | Doe | Jane | NULL | NULL | 7 HBase Ave, CA 22222 |
Sesuatu syarikat atau individu mungkin memerlukan rekod data lengkap untuk setiap pelanggan atau konstituennya. Contoh yang baik ialah doktor anda, yang memerlukan semua maklumat hubungan anda untuk memberi anda penjagaan yang betul. Syarikat atau individu lain mungkin hanya memerlukan maklumat hubungan separa atau mungkin perlu mengetahui maklumat itu dari masa ke masa.
Sebagai contoh, syarikat perkhidmatan pelanggan boleh memproses panggilan telefon atau mesej e-mel untuk permintaan perkhidmatan. Pelanggan mungkin atau mungkin tidak memilih untuk memberi syarikat perkhidmatan semua maklumat hubungan mereka. Walau bagaimanapun, dengan setiap interaksi dari masa ke masa, syarikat mungkin mengetahui lebih lanjut mengenai pelanggan mereka yang akan membolehkan mereka menyediakan perkhidmatan yang lebih baik - dengan mengeluarkan peringatan perkhidmatan proaktif, sebagai contoh.
Dalam konteks ini, jarang bererti bahawa bidang dalam baris boleh kosong atau NULL tetapi itu tidak membawa HBase ke penghentian menyerang. HBase boleh menangani fakta bahawa anda tidak (lagi) mengetahui nama tengah dan alamat e-mel Jane Doe, sebagai contoh.
Berikut adalah contoh lain: pangkalan data untuk menyimpan imej satelit. Ternyata Google menggunakan teknologi BigTable untuk menyimpan imejan satelit bumi. Dalam hampir setiap kes, apabila imejan disimpan, metadata juga disimpan dengannya.
Metadata mungkin termasuk alamat jalan imej atau hanya garis lintang dan bujur jika imej ditangkap dari padang belantara. Metadata adalah pemboleh ubah dalam kandungan sehingga beberapa bidang akan NULL - dan itu OK.
Dalam kedua-dua contoh, set data yang dikumpul boleh sangat besar - terutamanya dalam contoh kedua.Pangkalan data imejan hampir selalu diukur dalam terabyte atau kadang-kadang dalam petabytes.
HBase direka untuk menyimpan data besar, tetapi ia juga direka untuk menyimpan rekod data jarang tanpa sebarang kos. Kebimbangan ini adalah penting apabila anda menggunakan aplikasi data besar! Menyimpan beberapa rekod NULL lebih sejuta baris adalah membazir, tetapi cuba membayangkan sisa di atas baris empat belas juta!
Syukurlah, ini merupakan pertimbangan utama bagi pereka Google dan komuniti HBase. Data jarang disokong tanpa pembaziran ruang simpanan yang mahal.
Dan ia tidak berhenti di situ. Pertimbangkan kuasa untuk menyimpan data yang kurang dari skema. Jadual ini menunjukkan jadual perhubungan pelanggan klasik. Apabila syarikat merekabentuk jadual ini, mereka tahu di depan apa yang mereka mahu simpan. Dengan kata lain skema ditetapkan ; ia ditakrifkan sebelum bait pertama maklumat disimpan di dalam jadual.
Sekarang bagaimana jika, dari masa ke masa, bidang baru diperlukan untuk pelanggan? Bagaimana dengan pengendalian Twitter atau nombor telefon bimbit baru? Anda seolah-olah terperangkap dengan skema yang tidak lagi berfungsi untuk anda.
Nah, HBase menyelesaikan cabaran ini juga - anda tidak boleh hanya melangkaui bidang tanpa biaya apabila anda tidak mempunyai data, tetapi juga menambahkan secara dinamik medan (atau tiang dalam bahasa HBase vernakular) masa tanpa perlu mengubah reka bentuk skema atau mengganggu operasi.
Jadi, anda boleh memikirkan HBase sebagai kedai data tanpa skema; iaitu cecair - anda boleh menambah, tolak daripada, atau mengubah skema semasa anda pergi.
HBase diedarkan dan berterusan
BigTable adalah kedai data yang diedarkan dan berterusan. Berterusan hanya bermakna bahawa data yang anda simpan di BigTable (dan HBase, untuk perkara itu) akan berterusan atau kekal selepas program atau sesi anda berakhir. Itulah cukup mudah - berterusan bermakna bahawa ia berterusan - tetapi anda perlu menghabiskan lebih sedikit masa memikirkan tentang bagaimana data berterusan.
Dalam kertas BigTable, Google menerangkan sistem fail yang diedarkan yang dikenali sebagai Sistem Fail Google atau GFS. Ternyata, seperti HBase adalah penerapan sumber terbuka BigTable, HDFS merupakan pelaksanaan sumber terbuka GFS.
Secara lalai, HBase memanfaatkan HDFS untuk mengekalkan datanya ke storan cakera. Walaupun kedai data diedarkan yang lain boleh digunakan dengan HBase, sebahagian besar pemasangan HDB memanfaatkan HDFS. Ini masuk akal kerana HBase adalah "Database Hadoop" - hey, ia dibina ke dalam nama, demi kebaikan.
HDFS adalah teknologi pendorong utama bukan sahaja untuk Hadoop tetapi juga untuk HBase. Dengan menyimpan data dalam HDFS, HBase menawarkan kebolehpercayaan, ketersediaan, skalabilitas yang lancar, prestasi tinggi dan banyak lagi - semua pada pelayan yang diedarkan secara berkesan kos!
HBase mempunyai peta yang diselaraskan multidimensional
Bermula daripada asas-asas, peta (juga dikenali sebagai array bersekutu 999) adalah koleksi abstrak pasangan nilai utama, di mana kunci adalah unik. Takrif ini adalah penting untuk pemahaman anda tentang HBase kerana model data HBase sering diterangkan dengan cara yang berbeza - selalunya tidak lengkap sebagai kedai berorientasikan lajur. HBase adalah, di bawah, sebuah kedai data nilai utama di mana setiap kekunci adalah unik - bermakna ia muncul paling banyak sekali dalam stor data HBase. Di samping itu, peta disusun dan pelbagai. Kekunci disimpan dalam HBase dan disusun dalam urutan byte-leksikografik. Setiap nilai boleh mempunyai pelbagai versi, yang menjadikan model data multidimensional. Secara lalai, versi data dilaksanakan dengan cap waktu.