Video: Apache Sqoop Tutorial | Sqoop: Import & Export Data From MySQL To HDFS | Hadoop Training | Edureka 2024
Siap menyelam ke dalam mengimport data dengan Sqoop? Mula dengan melihat angka tersebut, yang menggambarkan langkah-langkah dalam operasi import Sqoop tipikal dari RDBMS atau sistem gudang data. Tidak ada yang terlalu rumit di sini - hanya satu jadual Data Produk khas dari sebuah syarikat fiksyen yang biasa diimport ke dalam kumpulan Apache Hadoop tipikal dari sistem pengurusan data biasa (DMS).
Semasa Langkah 1, Sqoop menggunakan penyambung yang sesuai untuk mendapatkan metadata jadual Produk daripada sasaran DMS. (Metadata digunakan untuk memetakan jenis data dari jadual Produk kepada jenis data dalam bahasa Java.)
Langkah 2 kemudian menggunakan metadata ini untuk menghasilkan dan mengkompilasi kelas Java yang akan digunakan oleh satu atau lebih tugas peta untuk import baris sebenar dari jadual Produk. Sqoop menjimatkan kelas Java yang dijana untuk temp ruang atau direktori yang anda nyatakan supaya anda dapat memanfaatkannya untuk memproses rekod data anda seterusnya.
Kod Java yang dihasilkan oleh Sqoop yang disimpan untuk anda adalah seperti hadiah yang terus memberi! Dengan kod ini, Sqoop mengimport rekod dari DMS dan menyimpannya ke HDFS menggunakan salah satu daripada tiga format yang boleh anda pilih: data biner Avro, fail urutan binari, atau fail teks yang dibatasi. Selepas itu, kod ini tersedia untuk anda untuk memproses data seterusnya.
File urutan adalah pilihan semulajadi jika anda mengimport jenis data binari dan anda memerlukan kelas Java yang dijana untuk menyusun dan mengasingkan data anda kemudian - mungkin untuk memproses atau mengeksport MapReduce. Data Avro - berasaskan rangka kerja bersiri Apache - berguna jika anda perlu berinteraksi dengan aplikasi lain selepas import kepada HDFS.
Jika anda memilih untuk menyimpan data yang diimport anda dalam format teks yang dibatasi, anda mungkin mendapati kod Java yang dihasilkan kemudiannya berharga ketika anda mengurai dan melakukan penukaran format data pada data baru anda. Anda akan melihat bahawa kod yang dihasilkan juga membantu anda menggabungkan set data selepas operasi import Sqoop, dan kod Java yang dihasilkan dapat membantu mengelakkan kekaburan ketika memproses data teks yang dibatasi.
Akhirnya, semasa Langkah 3, Sqoop membahagikan rekod data dalam Jadual produk merentasi beberapa tugas peta (dengan bilangan pemetaan yang ditentukan oleh pengguna secara pilihan) dan mengimport data jadual ke HDFS, Hive, atau HBase.