Isi kandungan:
- Asas data yang besar: RDBMS dan data berterusan
- Asas data yang besar: RDBMS dan jadual
- PostgreSQL, pangkalan data perhubungan sumber terbuka
Video: Sqoop Import and Export data from RDMBS and HDFS 2024
Data besar menjadi elemen penting dalam cara organisasi memanfaatkan data volum tinggi pada kelajuan yang tepat untuk menyelesaikan data tertentu masalah. Sistem Pengurusan Pangkalan Data Relasi adalah penting untuk kelantangan yang tinggi ini. Data besar tidak hidup secara berasingan. Untuk menjadi berkesan, syarikat sering perlu dapat menggabungkan hasil analisis data besar dengan data yang ada dalam perniagaan.
Asas data yang besar: RDBMS dan data berterusan
Salah satu perkhidmatan yang paling penting yang disediakan oleh pangkalan data operasi (juga dipanggil kedai data ) adalah kegigihan. Kegigihan memberi jaminan bahawa data yang disimpan dalam pangkalan data tidak akan diubah tanpa keizinan dan ia akan tersedia selagi ia penting untuk perniagaan. Apa gunanya pangkalan data jika ia tidak boleh dipercayai untuk melindungi data yang anda masukkan di dalamnya?
Memandangkan keperluan yang paling penting ini, anda perlu memikirkan jenis data yang anda ingin teruskan, bagaimana anda boleh mengakses dan mengemas kininya, dan bagaimana anda boleh menggunakannya untuk membuat keputusan perniagaan. Pada tahap yang paling asas ini, pilihan enjin pangkalan data anda adalah penting untuk kejayaan keseluruhan anda dengan pelaksanaan data besar anda.
Walaupun teknologi yang mendasari telah ada selama beberapa waktu, banyak sistem ini beroperasi hari ini kerana perniagaan yang mereka dukung sangat bergantung pada data. Untuk menggantikannya akan serupa dengan menukar enjin pesawat pada penerbangan transoceanic.
Asas data yang besar: RDBMS dan jadual
Pangkalan data relasi dibina atas satu atau lebih hubungan dan diwakili oleh jadual. Jadual-jadual ini ditentukan oleh lajur mereka, dan data disimpan dalam baris. Kekunci utama sering menjadi lajur pertama di dalam jadual. Konsistensi pangkalan data dan sebahagian besar nilainya dicapai dengan "menormalkan" data. Data yang dinormalkan telah ditukar daripada format asli ke dalam format yang dikongsi dan dipersetujui.
Sebagai contoh dalam satu pangkalan data anda mungkin mempunyai "telefon" sebagai XXX-XXX-XXXX manakala dalam yang lain mungkin XXXXXXXXX. Untuk mencapai pandangan yang konsisten mengenai maklumat itu, medan itu perlu diubah kepada bentuk lain. Lima tahap standard wujud untuk normalisasi. Pilihan bentuk normal sering diturunkan kepada pereka pangkalan data. Pengumpulan jadual, kekunci, elemen, dan sebagainya dikenali sebagai pangkalan data skema.
Selama bertahun-tahun, bahasa pertanyaan berstruktur (SQL) telah berkembang dalam langkah kunci dengan teknologi RDBMS dan merupakan mekanisme yang paling banyak digunakan untuk membuat, menguji, menyelenggara dan mengendalikan pangkalan data hubungan.
Di kedua-dua syarikat kecil dan besar, kebanyakan maklumat operasi penting mereka mungkin disimpan dalam RDBMS. Banyak syarikat mempunyai RDBMS yang berlainan untuk pelbagai bidang perniagaan mereka. Data urus niaga mungkin disimpan dalam pangkalan data satu vendor, manakala maklumat pelanggan boleh disimpan di lain.
Tidak mungkin anda akan menggunakan RDBMSs untuk teras pelaksanaan, tetapi anda perlu bergantung pada data yang disimpan dalam RDBMS untuk mencipta nilai tertinggi pada perniagaan dengan data besar.
PostgreSQL, pangkalan data perhubungan sumber terbuka
Semasa pelaksanaan data besar anda, anda mungkin akan menemui PostgreSQL, pangkalan data relasional sumber terbuka yang digunakan secara meluas. Beberapa faktor menyumbang kepada populariti PostgreSQL. Sebagai RDBMS dengan sokongan untuk standard SQL, ia melakukan semua perkara yang dijangkakan dalam produk pangkalan data, ditambah dengan panjang umur dan penggunaannya yang luas telah menjadikannya "pertempuran yang diuji. "Ia juga boleh didapati pada hampir setiap pelbagai sistem operasi, dari PC ke mainframe.
Menyediakan asas dan melakukan ini hanya sebahagian daripada cerita. PostgreSQL juga menyokong banyak ciri yang hanya terdapat dalam RDBMS proprietari yang mahal, termasuk berikut:
-
Keupayaan untuk mengendalikan "objek" secara langsung dalam skema relasional
-
Kunci asing (rujukan dari satu jadual yang lain)
-
Pencetus (peristiwa digunakan untuk memulakan prosedur yang disimpan secara automatik)
-
Pertanyaan Kompleks (subqueries dan bergabung di seluruh jadual diskret)
-
Integriti Transaksi
-
Kawalan Keseragaman Multiversion
Kuasa sebenar PostgreSQL adalah diperpanjangnya. Pengguna dan pengaturcara pangkalan data boleh menambah keupayaan baru tanpa menjejaskan operasi asas atau kebolehpercayaan pangkalan data. Pelanjutan yang mungkin termasuk
-
Jenis data
-
Pengendali
-
Fungsi
-
Pengindeksan kaedah
-
Bahasa prosedural
Penyesuaian tahap tinggi ini menjadikan PostgreSQL wajar apabila produk yang tegar, berpemilik tidak akan dapat dilakukan. Ia adalah jauh extensible.
Akhirnya, lesen PostgreSQL membenarkan pengubahsuaian dan pengedaran dalam sebarang bentuk, sumber terbuka atau tertutup. Sebarang pengubahsuaian boleh disimpan secara peribadi atau dikongsi dengan komuniti seperti yang anda mahukan.