Apache Hadoop Ecosystem - dummies
Hadoop lebih daripada MapReduce dan HDFS (Sistem File Hadoop Distributed): Ini juga sebuah keluarga projek yang berkaitan (ekosistem, benar-benar) untuk pengkomputeran diedarkan dan pemprosesan data berskala besar. Kebanyakan (tetapi tidak semua) projek-projek ini dihoskan oleh Yayasan Perisian Apache. Jadual ini menyenaraikan beberapa projek ini. Nama Projek Hadoop Berkaitan Nama Projek Keterangan ...
Pilihan Command Hadoop dfsadmin - dummies
Alat dfsadmin adalah alat khusus yang direka untuk membantu anda menyingkirkan maklumat mengenai sistem Fail Hadoop yang Diagihkan anda (HDFS). Sebagai bonus tambahan, anda boleh menggunakannya untuk melaksanakan beberapa operasi pentadbiran di HDFS juga. Pilihan Apa Ia Adakah-Laporkan laporan maklumat dan statistik sistem fail asas. -safemode masukkan | ...
Ambil HBase untuk Run Test - dummies
Di sini, anda mengetahui bagaimana untuk memuat turun dan menggunakan HBase dalam mod mandiri . Ia amat mudah untuk memasang HBase dan mula menggunakan teknologi. Perlu diingat bahawa HBase biasanya digunakan pada kumpulan pelayan komoditi, walaupun anda juga dapat dengan mudah menggunakan HBase dalam konfigurasi mandiri, bukan untuk pembelajaran atau demonstrasi ...
Senibina Apache Hive - dummies
Semasa anda mengkaji unsur Apache Hive yang ditunjukkan, bahawa Hive duduk di atas Sistem Fail Hiralop yang Diagihkan (HDFS) dan sistem MapReduce. Dalam kes MapReduce, angka-angka itu menunjukkan komponen Hadoop 1 dan Hadoop 2. Dengan Hadoop 1, pertanyaan Hive ditukarkan ke kod MapReduce ...
Zon Pendaratan Berasaskan Hadoop - dummies
Apabila anda cuba membayangkan apa persekitaran analytics mungkin kelihatan seperti masa depan, anda tersandung merentasi corak zon pendaratan berasaskan Hadoop masa dan masa lagi. Sebenarnya, ia tidak lagi menjadi perbincangan yang berorientasikan masa depan kerana zon pendaratan telah menjadi cara syarikat berpandangan ke hadapan kini cuba menyelamatkan IT ...
Had Sampling dalam analisis Hadoop - dummies
Analisis statistik jauh daripada menjadi anak baru di blok tersebut, dan sudah pasti berita lama bahawa ia bergantung pada memproses sejumlah besar data untuk mendapatkan wawasan baru. Walau bagaimanapun, jumlah data yang secara tradisional diproses oleh sistem ini berada dalam julat antara 10 dan 100 (atau beratus-ratus) gigabait - ...
HBase MasterServer - dummies
Memulakan perbincangan mengenai arsitektur HBase (Hadoop Database) dengan menggambarkan RegionServers dan bukan MasterServer . Istilah RegionServer nampaknya menyiratkan bahawa ia bergantung pada (dan menengah ke) MasterServer dan oleh itu anda harus membincangkan MasterServer terlebih dahulu. Bagaimanapun, lagu lama itu berlaku, "tidak semestinya begitu. "The ...
Kunci untuk berjaya mengguna pakai Hadoop - dummies
Dalam mana-mana projek Hadoop yang serius, ketua-ketua dari para VP di bawah untuk membantu menyelesaikan masalah kesakitan perniagaan anda - masalah-masalah tersebut (nyata atau dirasakan) yang semakin besar dalam fikiran semua orang. Perniagaan ingin melihat nilai dari pelaburan IT mereka, dan dengan Hadoop ia mungkin datang dalam pelbagai ...
Clive ClI Client - dummies
Klien Hive pertama adalah antara muka baris perintah Hive (CLI). Untuk menguasai titik-titik yang lebih baik dari klien CLI Hive, ia mungkin dapat membantu mengkaji seni bina sarang (agak sibuk). Dalam angka kedua, senibina diselaraskan untuk memberi tumpuan kepada komponen yang diperlukan semasa menjalankan CLI. Ini adalah komponen ...
Ekosistem Pelanggan HBase - dummies
HBase ditulis di Jawa, bahasa yang elegan untuk membina teknologi yang diedarkan seperti HBase, - tidak semua orang yang ingin memanfaatkan inovasi HBase adalah pemaju Java. Itulah sebabnya terdapat ekosistem klien HBase yang kaya di luar sana yang tujuannya adalah untuk mengangkat Java yang berat untuk anda dan ...
Kepentingan MapReduce di Hadoop - dummies
Untuk kebanyakan sejarah Hadoop, MapReduce telah menjadi satu-satunya permainan di bandar apabila ia berkaitan dengan pemprosesan data. Ketersediaan MapReduce telah menjadi sebab kejayaan Hadoop dan pada masa yang sama merupakan faktor utama dalam mengehadkan penggunaan lanjut. MapReduce membolehkan para pengaturcara yang mahir untuk menulis aplikasi yang diedarkan tanpa perlu bimbang ...
Atribut HBase - dummies
HBase (Database Hadoop) adalah pelaksanaan Java BigTable Google. Google mendefinisikan BigTable sebagai "peta yang disusun secara bersihih, diedarkan dan berterusan. "Ia adalah definisi ringkas, tetapi anda juga akan bersetuju bahawa ia sedikit di sisi kompleks. Untuk memecah kerumitan BigTable sedikit, berikut adalah perbincangan mengenai setiap atribut. Hbase adalah jarang ...
Asal dan Reka bentuk Hadoop - patung
Jadi apa sebenarnya perkara ini dengan nama lucu - Hadoop? Pada terasnya, Hadoop adalah kerangka untuk menyimpan data pada kluster besar perkakasan komoditi - perkakasan komputer sehari-hari yang mampu dan mudah didapati - dan menjalankan aplikasi terhadap data tersebut. Satu kumpulan adalah sekumpulan komputer yang saling terhubung (dikenali sebagai ...
Senibina Babi di Hadoop - patung
"Mudah" sering bermaksud "elegan" rumah baru Silicon Valley yang anda telah merencanakan apabila wang itu mula bergolek selepas anda melaksanakan Hadoop. Prinsip yang sama berlaku untuk seni bina perisian. Babi terdiri daripada dua komponen (dua, dua): Bahasa itu sendiri: Sebagai bukti bahawa pengaturcara ...
Aliran Aplikasi MapReduce di Hadoop - dummies
Di terasnya, MapReduce adalah model pemrograman untuk memproses set data disimpan dalam cara tersebar di sebilangan nod hamba cluster. Konsep utama di sini adalah membahagikan dan menakluk. Khususnya, anda ingin memecah data besar yang ditetapkan ke dalam banyak bahagian yang lebih kecil dan memprosesnya selari dengan algoritma yang sama. ...
Prinsip Rekaan Sqoop - dummies
Ketika datang ke Sqoop, gambar seringkali bernilai seribu kata, jadi periksa angka itu, yang memberikan pandangan burung kepada senibina Sqoop. Idea di sebalik Sqoop adalah bahawa ia memanfaatkan tugas peta - tugas-tugas yang melakukan import selari dan eksport jadual pangkalan data relasi - betul dari dalam ...
Mengurangkan Fasa Hadoop's MapReduce Application Flow - dummies
Fase Mengurangkan proses kunci dan senarai masing-masing nilai-nilai supaya apa yang biasanya dikembalikan kepada aplikasi klien adalah satu set pasangan kunci / nilai. Berikut adalah pukulan demi kejatuhan setakat ini: Satu set data yang besar telah dipecahkan kepada kepingan yang lebih kecil, dipanggil input split, dan contoh individu tugas pemetaan telah diproses setiap ...
Penyemak Imbas Web sebagai Hive Client - dummies
Menggunakan CLI Hive hanya memerlukan satu perintah untuk memulakan shell Hive, tetapi apabila anda mahu mengakses Hive menggunakan pelayar web, anda perlu memulakan Pelayan HWI dan kemudian menunjuk pelayar anda ke port yang pelayan sedang mendengar. The following figureillustrates bagaimana jenis klien Hive ini ...
Peta Fasa peta HadoopMemurun Aplikasi - dummies
Aplikasi MapReduce memproses data dalam pemisah input pada satu rekod demi rekod dan setiap rekod dipahami oleh MapReduce menjadi pasangan kunci / nilai. Selepas pemisahan input dikira, tugas pemetaan boleh mula memprosesnya - iaitu, selepas kemudahan penjadualan Pengurus Sumber memberikan mereka sumber pemprosesan. ...
Senibina YARN di Hadoop - dummies
Kekayaan, bagi yang baru tiba di parti ini, Perunding, alat yang membolehkan rangka kerja pemprosesan data lain dijalankan di Hadoop. Kemuliaan YARN adalah bahawa ia membentangkan Hadoop dengan penyelesaian yang elegan untuk beberapa cabaran masa kini. YARN bertujuan untuk menyediakan lebih cekap dan ...
Apa yang SQL Access Sebenarnya Sudah - dummies
Sebilangan syarikat melabur banyak untuk memacu projek sumber terbuka dan penyelesaian proprietari untuk Akses SQL ke data Hadoop. Apabila anda mendengar istilah SQL akses, anda harus mengetahui bahawa anda bergantung pada beberapa asumsi asas: Standard bahasa: Tapak yang paling penting, tentu saja, melibatkan bahasa itu sendiri. Banyak penyelesaian "seperti SQL" wujud, ...
Master Aplikasi yARN di Hadoop - dummies
Tidak seperti komponen lain YARN (Yet Another Resource Resource) peta terus ke Master Application. Pada dasarnya, ini adalah kerja yang dilakukan oleh JobTracker untuk setiap permohonan, tetapi pelaksanaannya adalah sangat berbeza. Setiap aplikasi yang berjalan pada cluster Hadoop mempunyai contoh Induk Aplikasi yang tersendiri, yang sebenarnya berjalan ...
Tahap Shuffle Hadoop MapReduce Application Flow - dummies
Selepas fasa Peta dan sebelum permulaan Mengurangkan fasa adalah proses handoff, yang dikenali sebagai shuffle dan sort. Di sini, data dari tugas pemetaan disediakan dan dipindahkan ke nod di mana tugas reducer akan dijalankan. Apabila tugas pemetaan selesai, hasilnya diisih dengan kunci, dibahagikan jika ...
Ketika Adakah HBase Membuat Sense untuk Anda? - dummies
Jadi, kapan anda harus mempertimbangkan menggunakan HBase? Walaupun jawapan kepada soalan ini tidak semestinya semata-mata untuk semua orang, untuk permulaan anda dengan jelas mesti mempunyai keperluan data yang besar dan sumber perkakasan yang memadai. Keperluan data yang besar: Terabytes kepada petabytes- jika tidak, anda akan mempunyai banyak pelayan terbiar dalam rak anda. Sumber perkakasan yang mencukupi: Lima pelayan ...
Pengurus Node yarn di Hadoop - dummies
Setiap node budak di Yet Another Resource Negotiator (YARN) , yang bertindak sebagai hamba untuk Pengurus Sumber. Seperti dengan TaskTracker, setiap nod hamba mempunyai perkhidmatan yang mengikatnya kepada perkhidmatan pemprosesan (Node Manager) dan perkhidmatan storan (DataNode) yang membolehkan Hadoop menjadi sistem yang diedarkan. ...
Pengurus Sumber yarn - dummies
Komponen utama YARN (Namun Satu Lagi Sumber Negosiator) sumber pemprosesan data dalam cluster Hadoop. Ringkasnya, Pengurus Sumber adalah penjadual khusus yang menyerahkan sumber untuk meminta aplikasi. Satu-satunya tugasnya adalah untuk mengekalkan pandangan global semua sumber dalam kluster, mengendalikan ...
Menjejaki JobTracker dan TaskTracker dalam Hadoop 1 - dummies
MapReduce processing in Hadoop 1 dikendalikan oleh JobTracker dan TaskTracker daemons. JobTracker mengekalkan pandangan semua sumber pemprosesan yang ada dalam cluster Hadoop dan, sebagai permintaan permohonan masuk, ia dijadualkan dan menyebarkannya ke nod TaskTracker untuk pelaksanaan. Apabila aplikasi berjalan, JobTracker menerima kemas kini status dari ...
Caching Data Berkelajuan Tinggi dengan NoSQL - dummies
Dengan NoSQL, anda mempunyai caching data berkelajuan tinggi. Bayangkan anda adalah juruwang bank dengan tiga rakan sekerja yang bekerja. Anda masing-masing mempunyai garis orang untuk disampaikan. Walau bagaimanapun, salah seorang pelanggan terus bertanyakan soalan jika ceknya telah ditunaikan dan jumlahnya dikreditkan ke akaunnya. Apabila anda ...
Cara Berkomunikasi Wawasan dari Data Besar - dummies
Data besar dapat membantu anda memperoleh pandangan. Perniagaan mendapat kelebihan daya saing apabila maklumat yang betul dihantar kepada orang yang tepat pada masa yang tepat. Ini bermakna mengekstrak pandangan dan maklumat daripada data dan menyampaikannya kepada pembuat keputusan dengan cara yang mudah difahami. Lagipun, orang kurang cenderung untuk bertindak jika mereka ...
Zookeeper dan HBase Reliability - dummies
Zookeeper adalah kumpulan pelayan tersebar yang secara kolektif menyediakan perkhidmatan koordinasi dan penyegerakan yang boleh dipercayai untuk aplikasi cluster . Diakui, nama "Zookeeper" mungkin kelihatan pada mulanya menjadi pilihan yang ganjil, tetapi apabila anda memahami apa yang dilakukannya untuk kelompok HBase, anda dapat melihat logika di belakangnya. Apabila anda sedang membina dan menyebarkan debugging ...
Beralih dari model RDBMS ke HBase - dummies
Jika anda menghadapi fasa reka bentuk untuk aplikasi anda dan anda percaya bahawa HBase akan menjadi baik, kemudian mereka bentuk kunci dan skema baris agar sesuai dengan model data HBase dan seni bina adalah pendekatan yang tepat. Walau bagaimanapun, kadang-kadang masuk akal untuk memindahkan pangkalan data yang asalnya direka untuk RDBMS kepada HBase. A ...
Tetingkap dalam HiveQL - dummies
Konsep tetingkap, yang diperkenalkan dalam SQL: 2003 standard, bingkai dari data terhadap fungsi agregat dan tetingkap lain yang boleh beroperasi. HiveQL kini menyokong windowing mengikut standard SQL. Contohnya sangat berguna apabila menerangkan fungsi windowing dan agregat. Kelewatan berlepas datang dengan wilayah apabila terbang ...
Dengan NoSQL - dummies
Kedai nilai utama dalam NoSQL adalah mengenai kelajuan. Anda boleh menggunakan pelbagai teknik untuk memaksimumkan kelajuan itu, dari data caching, untuk mendapatkan beberapa salinan data atau menggunakan struktur penyimpanan yang paling sesuai. Caching data dalam memori Oleh kerana data mudah diakses apabila disimpan dalam memori akses rawak (RAM), memilih kedai nilai utama yang ...
Cara Membangunkan Persekitaran Data yang Berkeyakinan dan Aman - Mammah
Dan pendekatan yang dikawal dengan baik untuk keselamatan boleh berjaya dalam mengurangkan risiko keselamatan. Anda perlu membangunkan persekitaran data besar yang selamat. Satu perkara yang boleh anda lakukan adalah untuk menilai keadaan semasa anda. Dalam persekitaran data yang besar, keselamatan bermula dengan menilai keadaan semasa anda. Tempat yang bagus untuk memulakan adalah dengan ...
Bagaimana untuk Mengendalikan Perintah Variabel dalam Dataset - dummies
Urutan pemboleh ubah (lajur) biasanya hanya masalah bagaimana mereka disusun dalam fail sumber atau pertanyaan pangkalan data yang digunakan untuk mengimportnya. Susunan itu mungkin tidak mudah untuk anda. Jika anda mempunyai banyak pembolehubah, mungkin sukar untuk melihat yang anda mahukan ...
Cara untuk mendapatkan data dari KNIME - dummies
Langkah tangan pertama anda dengan data mendapatkan dari mana saja adalah ke tempat yang anda perlukan. Format teks adalah perkara biasa, dan anda mungkin sering bertemu dengannya. Salah satu yang paling biasa ialah nilai bernilai separuh koma (.sv). KNIME. com AG adalah firma perisian dan perkhidmatan kecil yang berfokus pada data ...
Cara Dapatkan Data dari Orange - dummies
Makmal Bioinformatika Fakulti Sains Komputer dan Maklumat, Ljubljana, Slovenia, mengembangkan Orange dengan kerjasama komuniti sumber terbuka. Untuk membuka data sampel di Orange, ikuti langkah berikut:
Cara Mendapatkan Data dari RapidMiner - dummies
RapidMiner adalah firma perisian dan perkhidmatan kecil yang berfokus pada perlombongan data. Ia menawarkan produk perlombongan data dengan antara muka pengaturcaraan visual. Untuk membuka data sampel di RapidMiner, ikuti langkah berikut: