Enterprise Data Management dan Data Besar - dummies
Pengurusan Data Enterprise (EDM) adalah proses penting dalam data besar untuk memahami dan mengawal ekonomi data dalam perusahaan atau organisasi anda. Walaupun EDM tidak diperlukan untuk data besar, aplikasi EDM yang sepatutnya akan membantu untuk memastikan integrasi, kawalan, dan kegunaan data yang lebih baik. EDM adalah pendekatan yang komprehensif untuk ...
Apakah Sistem Pengurusan Pangkalan Data Relasi? - patung-patung
Melupakan semua asas matematik model relasional, prinsip-prinsip normalisasi, dan aspek-aspek yang sangat teknikal RDBMS. Jika anda berminat, rujuk salah satu dari banyak buku teks yang ada yang membincangkan prinsip dan teknologi RDBMS secara terperinci. RDBMS adalah sistem perisian yang menguruskan pangkalan data hubungan. Jadi, apakah pangkalan data hubungannya? ...
Percubaan dalam Pemasaran Langsung - orang asing
Mungkin aplikasi yang paling umum untuk eksperimen dalam perlombongan data, eksperimen terkawal yang sah seperti yang digunakan saintis, adalah pemasaran langsung. Pemasaran langsung melibatkan menghubungi individu individu. Apabila anda mendapat teks atau e-mel dari peruncit, itu pemasaran langsung. Katalog pesanan pos tradisional, panggilan telefon dari badan amal, dan surat kempen dari ...
Apa yang perlu dimasukkan ke Data Mart - dummies
Jika data mart adalah versi skala kecil gudang data, soalan ini muncul: Apa maksud "skala kecil" merujuk kepada kandungan data mart? Jawapan untuk soalan ini adalah biasanya bahawa data akan menjadi subset data perusahaan keseluruhan. Data geografi yang dibatasi Sebuah mart data mungkin ...
Mengapa Cloud adalah Imperatif untuk Big Data - dummies
Banyak kombinasi penggunaan dan model penghantaran yang ada untuk besar data dalam awan. Sebagai contoh, anda boleh menggunakan awan awam IaaS atau awan peribadi IaaS. Jadi, apakah maksudnya untuk data besar dan mengapa awan itu sesuai untuknya? Well, data besar memerlukan kelompok yang diedarkan kuasa pengiraan, ...
Memperluaskan Lapisan Data Anda dengan NoSQL - dummies
Pangkalan data melakukan satu perkara dengan sangat baik: Ia menyimpan data. Walau bagaimanapun, kerana semua aplikasi memerlukan perisian tambahan untuk lengkap, ia bernilai memastikan bahawa pangkalan data NoSQL yang anda pilih mempunyai alat dan perisian rakan kongsi yang menyediakan fungsi lanjutan yang anda perlukan. Tidak memastikan bahawa fungsi lanjutan disokong akan bermakna anda akan mengakhiri pemasangan ...
Cara Cari Bilangan Unsur dalam Stream Data - monyet
Walaupun Bloom penapis boleh menjejaki objek yang tiba dari strim, ia tidak dapat memberitahu berapa banyak objek di sana. Satu vektor bit diisi oleh yang boleh (bergantung kepada bilangan hash dan kebarangkalian perlanggaran) menyembunyikan bilangan sebenar objek yang telah dihidupkan di alamat yang sama. Mengetahui nombor yang berbeza ...
Pemformatan Data Benar - dummies
Manusia menggunakan pengalaman apabila mereka mentafsirkan data yang mereka lihat, tetapi komputer tidak boleh. Perisian penambangan data anda akan melakukan yang terbaik untuk mengenal pasti jenis data dalam setiap lajur, tetapi jenis data sering samar-samar. Apabila anda melihat senarai Kod ZIP, anda tidak cuba untuk menambah dan menolaknya. Anda tahu bahawa mereka ...
Lima Praktik Terbaik Data Big - dummies
Data besar hanya pada peringkat pertama, tetapi tidak terlalu awal mulakan dengan amalan terbaik. Seperti setiap teknologi yang akan datang yang penting, penting untuk mempunyai strategi di tempat dan tahu di mana anda menuju. Menubuhkan peta jalan data yang besar Pada peringkat ini, anda telah mencuba data besar ...
Lima Pelan untuk Kejayaan Besar Data - dummies
Sementara data besar hanya dalam tahap pertama, untuk kejayaan. Tidaklah terlalu awal untuk memulakan perancangan dan amalan yang baik agar anda boleh memanfaatkan apa yang anda sedang belajar dan pengalaman yang anda perolehi. Merancang matlamat data besar anda Banyak organisasi memulakan perjalanan data besar mereka ...
Empat Peringkat Perancangan Perniagaan dengan Data Besar - patung
Apa rencana perniagaan yang diharapkan dapat dicapai dengan memanfaatkan data besar? Ini bukan soalan mudah untuk dijawab. Syarikat-syarikat yang berbeza dalam industri yang berbeza perlu menguruskan data mereka secara berbeza. Tetapi beberapa isu perniagaan biasa adalah di tengah-tengah cara data besar sedang dipertimbangkan sebagai satu cara untuk kedua-dua rancangan ...
Graf Sebagai Struktur Data Algoritma - dummies
Graf adalah bentuk struktur data biasa yang digunakan dalam algoritma. Anda melihat graf yang digunakan di tempat-tempat seperti peta untuk GPS dan pelbagai tempat lain di mana pendekatan bawah atas struktur pokok tidak akan berfungsi. Grafik adalah semacam lanjutan pokok. Seperti pokok, anda mempunyai nod yang menghubungkan ...
3 Hadoop Configuration Cluster - dummies
Banyak keputusan yang perlu anda buat dari segi komposisi rak dan rangkaian bergantung pada skala kumpulan Hadoop anda. Ia mempunyai tiga permutasi utama.
Mendapatkan Algoritma menjadi Perniagaan - makmies
Manusia kini berada di persimpangan luar biasa data volum yang belum pernah terjadi sebelumnya, perkakasan yang lebih kecil dan berkuasa, dan dianalisis dengan algoritma bahawa proses yang sama membantu berkembang. Ia bukan sekadar soal kelantangan, yang dengan sendirinya adalah cabaran yang sukar. Seperti yang diformalkan oleh syarikat penyelidikan Gartner pada tahun 2001 dan ...
Gordon Moore Mengubah Kuasa ke Data Besar - manisan
Pada tahun 1965, Gordon Moore, pengasas Intel dan Fairchild Semiconductor (dua syarikat raksasa yang menghasilkan komponen elektronik untuk elektronik dan komputer), dinyatakan dalam makalah majalah elektronik berjudul "Cramming More Components Onto Circuits Integrated" yang jumlah komponen yang terdapat dalam litar bersepadu akan berganda setiap tahun untuk dekad yang akan datang. Pada masa itu, transistor ...
Apache Drill - dummies
Apache Drill adalah projek calon dalam inkubator Apache. Apache Drill tidak begitu menyakitkan, walaupun. Teknologi pencipta Apache Software Foundation (ASF) semuanya bermula sebagai projek inkubator sebelum menjadi teknologi ASF rasmi. Anda boleh membaca mengenai Inkubator Apache. Anda boleh membaca mengenai Drill. Diilhamkan oleh teknologi Dremel Google, matlamat prestasi yang dinyatakan ...
Apache Bigtop dan Hadoop - dummies
Untuk membantu anda memulakan Hadoop, di sini adalah arahan bagaimana untuk memuat turun dan menetapkan dengan cepat up Hadoop pada komputer riba anda sendiri. Kelompok anda akan berjalan dalam mod pseudo-diedarkan pada mesin maya, jadi anda tidak memerlukan perkakasan khas. Sebuah mesin maya (VM) adalah komputer simulasi yang boleh anda jalankan ...
Cloudera Impala dan Hadoop - dummies
Cloudera adalah pembekal dan penyedia perkhidmatan Apache Hadoop yang terkemuka di pasaran data besar. Seperti Apache Drill, teknologi Impala Cloudera bertujuan untuk meningkatkan masa respon pertanyaan interaktif untuk pengguna Hadoop. Apache Hive telah menyediakan mekanisme pertanyaan yang biasa dan kuat untuk pengguna Hadoop, tetapi masa respons permintaan sering tidak dapat diterima kerana ketenangan Hive ...
Alternatif Borang Penyebaran Faktor untuk Hadoop - dummies
Walaupun Hadoop berfungsi paling baik apabila dipasang pada komputer fizikal, pemprosesan mempunyai akses langsung ke penyimpanan dan rangkaian khusus, Hadoop mempunyai penggunaan alternatif. Dan walaupun mereka kurang cekap daripada perkakasan khusus, dalam beberapa pilihan tertentu adalah pilihan berbaloi. Server virtualisasi Trend utama dalam pusat-pusat IT sejak dekad yang lalu ...
ACID berbanding BASE Data Stores - dummies
Satu ciri utama sistem pangkalan data relasional adalah sesuatu yang dikenali sebagai pematuhan ACID. Seperti yang mungkin anda fikirkan, ACID adalah akronim - huruf individu, yang dimaksudkan untuk menggambarkan ciri-ciri urus niaga pangkalan data individu, boleh diperluas seperti yang diterangkan dalam senarai ini: Atomicity: Transaksi pangkalan data mesti benar-benar berjaya atau gagal sepenuhnya. Kejayaan separa adalah ...
Mengkonfigurasi Oozie Workflows - dummies
Sebagai enjin aliran kerja, Oozie membolehkan anda menjalankan satu set aplikasi Hadoop dalam urutan tertentu yang diketahui sebagai alur kerja. Anda boleh mengkonfigurasi aliran kerja Oozie dalam salah satu daripada tiga cara, bergantung pada keadaan tertentu anda. Anda boleh menggunakan lalai konfigurasi. fail xml: Menetapkan parameter yang tidak berubah untuk alur kerja. Kerja. fail sifat: Menetapkan ...
10 Hadoop Sumber yang Layak dari Bookmark - dummies
Berikut adalah sepuluh sumber Hadoop hebat yang layak untuk membuat penanda buku dalam penyemak imbas anda. Sumber-sumber ini membantu anda membuat rancangan pembelajaran sepanjang hayat untuk Hadoop. Sistem saraf pusat: Apache. org Yayasan Perisian Apache (ASF) adalah komuniti pusat untuk projek perisian sumber terbuka. Bukan hanya projek yang boleh menjadi projek Apache - ...
Blok dalam Sistem Fail Teragih Hadoop (HDFS) - dummies
Apabila anda menyimpan fail dalam HDFS, sistem memecahnya ke dalam satu set blok individu dan menyimpan blok ini dalam pelbagai nod hamba dalam kelompok Hadoop. Ini adalah perkara yang biasa dilakukan, kerana semua sistem fail memecah fail ke dalam blok sebelum menyimpannya ke cakera. HDFS tidak mempunyai ...
Data Pemodenan Gudang dengan gudang data Hadoop - dummies
Kini berada di bawah tekanan, berusaha untuk menampung peningkatan tuntutan mereka sumber. Hadoop dapat memberikan kelegaan yang signifikan dalam situasi gudang data ini. Peningkatan pesat dalam jumlah data yang dijana di dunia juga telah memberi kesan kepada gudang data kerana jumlah data yang mereka uruskan semakin meningkat - sebahagiannya ...
Membangun aliran kerja Oozie di alur kerja Hadoop - dummies
Oozie, pada terasnya, grafik yang diarahkan, di mana anda dapat menentukan tindakan (Aplikasi Hadoop) dan aliran data, tetapi tanpa gelung - bermakna anda tidak dapat menentukan struktur di mana anda akan menjalankan operasi tertentu berulang-ulang sehingga keadaan tertentu dipenuhi (sebagai contoh untuk gelung). Aliran kerja Oozie cukup fleksibel dengan ...
Membandingkan Hadoop Distributions - dummies
Anda akan mendapati bahawa ekosistem Hadoop mempunyai banyak komponen komponen, Projek Apache. Kerana Hadoop telah berkembang dengan pesat, dan menghadapi beberapa perubahan penting, versi berbeza dari komponen komuniti sumber terbuka mungkin tidak sepenuhnya kompatibel dengan komponen lain. Ini menimbulkan kesukaran yang besar untuk orang yang ingin mendapatkan ...
Faktor-faktor yang Meningkatkan Skala Analisis Statistik di Hadoop - dummies
Sebelum menjalankan analisis statistik di Hadoop adalah analisis jenis ini sering memerlukan sumber pengkomputeran yang signifikan. Ini bukan hanya mengenai jumlah data: terdapat lima faktor utama yang mempengaruhi skala analisis statistik: Ini mudah, tetapi kita perlu menyebutnya: jumlah data di ...
Memampatkan Data dalam Hadoop - dummies
Jumlah data yang besar yang nyata dalam penggunaan Hadoop yang tipikal membuat mampatan menjadi suatu keharusan. Mampatan data pasti menjimatkan banyak ruang penyimpanan dan pasti mempercepat pergerakan data sepanjang kluster anda. Tidak menghairankan, beberapa skema mampatan yang tersedia, dipanggil codec, berada di luar sana untuk ...
Hadapt dan Hadoop - dummies
Pada akhir tahun 2010, Hadapt dibentuk sebagai permulaan oleh dua pelajar Yale University dan seorang penolong profesor sains komputer. Profesor Daniel Abadi dan Kamil Bajda-Pawlikowski, seorang pelajar PhD dari jabatan sains komputer Yale, telah mengusahakan projek penyelidikan HadoopDB. Selepas kertas ini diterbitkan, Justin Borgman, seorang pelajar dari ...
Google Dremel dan Hadoop - dummies
Untuk kebanyakan orang, istilah Dremel mengingatkan, alat tork yang berfungsi dengan baik untuk pelbagai pekerjaan di sekitar rumah. Tetapi adakah anda tahu bahawa Google mencipta Dremel? Daripada menghasilkan alat mekanikal mudah alih yang lain, Google memilih alat perisian cepat yang dimaksudkan untuk analisis interaktif data besar. ...
Hadoop dan Hive - dummies
Untuk membuat cerita panjang pendek, Hive menyediakan Hadoop dengan jambatan ke dunia RDBMS dan menyediakan Dialek SQL dikenali sebagai Hive Query Language (HiveQL), yang boleh digunakan untuk melaksanakan tugas-tugas seperti SQL. Itulah berita besar, tetapi lebih banyak lagi untuk Hive daripada memenuhi mata, seperti yang mereka katakan, atau lebih banyak aplikasi ...
Nod kelebihan dalam Hadoop Clusters - dummies
Nod tepi adalah antara antarmuka Hadoop dan rangkaian luar. Atas sebab ini, mereka kadang-kadang dirujuk sebagai nod gateway. Kebanyakan nod kelebihan digunakan untuk menjalankan aplikasi klien dan alat pentadbiran kluster. Mereka juga sering digunakan sebagai kawasan pementasan untuk data yang dipindahkan ke cluster Hadoop. Oleh itu, Oozie, ...
Penipuan penipuan dengan Hadoop - dummies
Jumlah urus niaga yang semata-mata menjadikannya lebih sukar untuk melihat penipuan kerana jumlah data, ironinya, cabaran yang sama ini dapat membantu membuat model ramalan penipuan yang lebih baik - kawasan di mana Hadoop bersinar. Dalam dunia yang saling berkaitan sekarang, jumlah dagangan dan kerumitan urus niaga menjadikannya lebih sukar berbanding sebelum ini untuk mencari penipuan. Apa yang digunakan ...
Pemprosesan grafik Di Hadoop - dummies
Salah satu teknologi NoSQL muncul yang lebih menarik melibatkan penyimpanan dan pemprosesan data graf. Anda mungkin berfikir bahawa kenyataan ini adalah berita lama kerana saintis komputer telah membangunkan teknik analisis graf selama beberapa dekad. Apa yang anda katakan mungkin benar, tetapi apa yang baru ialah dengan menggunakan Hadoop, anda boleh melakukan grafik ...
Hasoop Sistem Fail Teragih (HDFS) Persekutuan - dummies
Penyelesaian untuk mengembangkan cluster Hadoop selama-lamanya adalah federasi NameNode. Sebelum Hadoop 2 memasuki tempat kejadian, kelompok Hadoop terpaksa hidup dengan hakikat bahawa NameNode diletakkan pada tahap yang mereka boleh skala. Kelompok-kelebihan hanya boleh melebihi 3,000 atau 4,000 nod. NameNode perlu mengekalkan rekod untuk ...
Hasoop Sistem Fail Teragih (HDFS) Ketersediaan Tinggi - dummies
Perbincangan tertumpu pada perwakilan NameNode mengenai satu titik kegagalan. Hadoop, secara keseluruhan, sentiasa mempunyai seni bina yang teguh dan tahan lama, dengan pengecualian kawasan utama ini. Tanpa NameNode, tidak ada cluster Hadoop. Dengan menggunakan Hadoop 2, anda boleh mengkonfigurasi HDFS supaya ada ...
Hadoop sebagai Engine Preprocessing Data - dummies
Salah satu kes penggunaan paling awal untuk Hadoop dalam perusahaan adalah sebagai enjin transformasi programatik yang digunakan untuk mengolah data yang terikat untuk gudang data. Pada asasnya, kes penggunaan ini memanfaatkan kuasa ekosistem Hadoop untuk memanipulasi dan menerapkan transformasi ke data sebelum dimuatkan ke dalam gudang data. Walaupun transformasi sebenar ...
Hadoop sebagai Destinasi Data Arkib - dummies
Kos penyimpanan yang murah untuk Hadoop ditambah keupayaan untuk menanyakan data Hadoop dengan SQL menjadikan Hadoop destinasi utama untuk data arkib. Kes penggunaan ini mempunyai kesan yang rendah terhadap organisasi anda kerana anda boleh mula membina kemahiran Hadoop anda pada data yang tidak disimpan pada sistem misi prestasi-misi. Terlebih lagi, anda tidak ...