Rumah Kewangan Peribadi Data besar untuk Menipu Cheat Sheet - dummies

Data besar untuk Menipu Cheat Sheet - dummies

Video: How to Get Free Cable (All Channels) 2024

Video: How to Get Free Cable (All Channels) 2024
Anonim

Oleh Judith Hurwitz, Alan Nugent, Fern Halper, Marcia Kaufman

Syarikat mesti mencari cara praktikal untuk menangani data besar untuk kekal berdaya saing - untuk mempelajari cara baru untuk menangkap dan menganalisis jumlah pertumbuhan maklumat mengenai pelanggan, produk, dan perkhidmatan. Data menjadi semakin kompleks dalam cara yang berstruktur dan tidak tersusun. Sumber data baru datang dari mesin, seperti sensor; laman perniagaan sosial; dan interaksi tapak web, seperti data klik-strim. Memenuhi keperluan perniagaan yang berubah ini menuntut agar maklumat yang betul tersedia pada waktu yang tepat.

Menetapkan Data Besar: Kelantangan, Kelajuan, dan Pelbagai

Data besar membolehkan organisasi untuk menyimpan, mengurus, dan memanipulasi sejumlah besar data berbeza pada kelajuan yang tepat dan pada masa yang tepat. Untuk mendapatkan wawasan yang tepat, data besar biasanya dipecah oleh tiga ciri:

  • Jumlah: Berapa banyak data

  • Halaju: Berapa cepat data diproses

  • Pelbagai: jenis data

Walaupun mudah untuk memudahkan data besar ke dalam tiga Vs, ia boleh mengelirukan dan terlalu mudah. Sebagai contoh, anda mungkin menguruskan jumlah yang agak kecil, sangat rumit, data yang rumit atau anda mungkin memproses sejumlah besar data yang sangat mudah. Data mudah itu mungkin berstruktur atau tidak berstruktur.

Yang lebih penting ialah keempat V, kebenaran. Seberapa tepat data tersebut meramalkan nilai perniagaan? Adakah hasil analisis data yang besar benar-benar masuk akal? Data mesti dapat disahkan berdasarkan kedua-dua ketepatan dan konteks. Perniagaan inovatif mungkin ingin menganalisis sejumlah besar data dalam masa nyata untuk menilai dengan cepat nilai pelanggan dan potensi untuk memberikan tawaran tambahan kepada pelanggan tersebut. Ia perlu mengenal pasti jumlah dan jenis data yang dapat dianalisis dalam masa nyata untuk memberi kesan kepada hasil perniagaan.

Data besar menggabungkan semua jenis data, termasuk data berstruktur dan data tidak berstruktur dari e-mel, media sosial, aliran teks dan sebagainya. Pengurusan data jenis ini memerlukan syarikat memanfaatkan data berstruktur dan tidak berstruktur.

Memahami Data Tidak Terstruktur

Data tak berstruktur adalah berbeza daripada data berstruktur dalam strukturnya tidak dapat diramalkan. Contoh data tak berstruktur termasuk dokumen, e-mel, blog, imej digital, video, dan imejan satelit. Ia juga termasuk beberapa data yang dihasilkan oleh mesin atau sensor. Sebenarnya, akaun data tidak berstruktur untuk majoriti data yang ada di premis syarikat anda dan juga di luar syarikat anda dalam sumber swasta dan awam dalam talian seperti Twitter dan Facebook.

Pada masa lalu, kebanyakan syarikat tidak dapat menangkap atau menyimpan data yang banyak ini. Ia terlalu mahal atau terlalu besar. Walaupun syarikat dapat menangkap data, mereka tidak mempunyai alat untuk menganalisis data dengan mudah dan menggunakan keputusan untuk membuat keputusan. Alat yang sangat sedikit dapat memahami banyak data ini. Alat yang wujud adalah rumit untuk digunakan dan tidak menghasilkan hasil dalam tempoh masa yang munasabah.

Pada akhirnya, mereka yang benar-benar ingin pergi ke usaha besar menganalisis data ini terpaksa bekerja dengan gambar data. Ini mempunyai kesan yang tidak diingini dari peristiwa penting yang hilang kerana mereka tidak berada dalam gambar tertentu.

Satu pendekatan yang menjadi semakin bernilai sebagai cara untuk mendapatkan nilai perniagaan dari data tidak terstruktur adalah analisis teks, proses menganalisis teks tidak berstruktur, mengekstrak maklumat yang relevan, dan mengubahnya menjadi maklumat berstruktur yang dapat dimanfaatkan dalam pelbagai cara. Proses analisis dan pengekstrakan mengambil kesempatan daripada teknik yang berasal dari linguistik komputasi, statistik, dan disiplin sains komputer yang lain.

Peranan Data Operasi Tradisional dalam Persekitaran Data Besar

Mengetahui apa data yang disimpan dan di mana ia disimpan adalah blok bangunan kritikal dalam pelaksanaan data besar anda. Ia tidak mungkin anda akan menggunakan RDBMSs untuk teras pelaksanaannya, tetapi kemungkinan besar anda perlu bergantung pada data yang disimpan dalam RDBMS untuk membuat nilai tertinggi pada bisnis dengan data besar.

Kebanyakan syarikat besar dan kecil mungkin menyimpan sebahagian besar maklumat operasi mereka dalam sistem pengurusan pangkalan data relasi (RDBMSs), yang dibina pada satu atau lebih hubungan dan diwakili oleh jadual. Jadual-jadual ini ditakrifkan dengan cara menyimpan data. Data disimpan dalam objek pangkalan data yang dipanggil jadual - dianjurkan dalam baris dan lajur. RDBMS mengikuti pendekatan yang konsisten dengan cara data disimpan dan diambil.

Untuk mendapatkan nilai perniagaan yang paling dari analisis data masa nyata anda yang tidak berstruktur, anda perlu memahami data dalam konteks dengan data sejarah anda mengenai pelanggan, produk, transaksi, dan operasi. Dalam erti kata lain, anda perlu mengintegrasikan data tidak berstruktur anda dengan data operasi tradisional anda.

Asas Infrastruktur Data Besar

Data besar adalah mengenai halaju tinggi, jumlah besar, dan pelbagai data yang luas, jadi infrastruktur fizikal secara literal akan "membuat atau memecahkan" pelaksanaannya. Kebanyakan pelaksanaan data yang besar perlu tersedia, jadi rangkaian, pelayan, dan penyimpanan fizikal mesti berdaya tahan dan berlebihan.

Ketahanan dan redundansi saling berkaitan. Infrastruktur, atau sistem, berdaya tahan terhadap kegagalan atau perubahan apabila sumber berlebihan yang mencukupi disediakan untuk bertindak. Ketahanan dapat membantu menghilangkan titik kegagalan dalam infrastruktur anda. Sebagai contoh, jika hanya satu sambungan rangkaian wujud antara perniagaan anda dan Internet, anda tidak mempunyai rangkaian redundansi, dan infrastrukturnya tidak berdaya tahan terhadap gangguan rangkaian.

Di pusat data yang besar dengan keperluan kesinambungan perniagaan, kebanyakan redundansi telah disediakan dan boleh dimanfaatkan untuk mewujudkan persekitaran data yang besar. Dalam pelaksanaan baru, para pereka mempunyai tanggungjawab untuk memetakan penggunaan kepada keperluan perniagaan berdasarkan kos dan prestasi.

Menguruskan Data Besar dengan Hadoop: HDFS dan MapReduce

Hadoop, rangka kerja perisian sumber terbuka, menggunakan HDFS (Sistem Fail Hadoop yang Diagihkan) dan MapReduce untuk menganalisis data besar mengenai kluster perkakasan komoditi - iaitu persekitaran pengkomputeran yang diedarkan.

Sistem File Hadoop yang Diagihkan (HDFS) telah dibangunkan untuk membolehkan syarikat lebih mudah menguruskan jumlah besar data dalam cara yang mudah dan pragmatik. Hadoop membolehkan masalah besar dihuraikan menjadi unsur yang lebih kecil supaya analisis dapat dilakukan dengan cepat dan kos efektif. HDFS adalah pendekatan yang serba boleh, berdaya tahan, berkumpulan untuk menguruskan fail dalam persekitaran data yang besar.

HDFS bukan destinasi terakhir untuk fail. Sebaliknya ia adalah "perkhidmatan" data yang menawarkan satu set keupayaan yang unik yang diperlukan apabila jumlah dan halaju data yang tinggi.

MapReduce adalah rangka kerja perisian yang membolehkan pemaju menulis program yang dapat memproses sejumlah besar data tak berstruktur selari dalam kumpulan pemproses yang diedarkan. MapReduce telah direka oleh Google sebagai satu cara untuk melaksanakan satu set fungsi dengan berkesan terhadap sejumlah besar data dalam mod batch.

Komponen "peta" mengedarkan masalah pengaturcaraan atau tugas dalam sebilangan besar sistem dan mengendalikan penempatan tugas dengan cara mengimbangi beban dan menguruskan pemulihan daripada kegagalan. Selepas pengiraan diedarkan selesai, fungsi lain yang dipanggil "mengurangkan" mengumpulkan semua elemen kembali bersama untuk memberikan hasil. Satu contoh penggunaan MapReduce adalah untuk menentukan berapa banyak halaman buku ditulis dalam setiap 50 bahasa yang berbeza.

Menempatkan Dasar untuk Strategi Data Big Anda

Syarikat berenang dalam data besar. Masalahnya ialah mereka sering tidak tahu cara menggunakan data itu secara pragmatik untuk dapat meramalkan masa depan, melaksanakan proses perniagaan yang penting, atau hanya mendapat pandangan baru. Matlamat strategi dan rancangan data besar anda adalah untuk mencari cara pragmatik untuk memanfaatkan data untuk hasil perniagaan yang lebih diramalkan.

Mulailah strategi data besar anda dengan memulakan proses penemuan. Anda perlu mengendalikan apa data yang anda sudah ada, di mana ia ada, yang memiliki dan mengendalikannya, dan bagaimana ia digunakan sekarang. Sebagai contoh, apakah sumber data pihak ketiga yang bergantung kepada syarikat anda? Proses ini dapat memberi anda banyak pandangan:

  • Anda boleh menentukan berapa banyak sumber data yang anda ada dan berapa banyak pertindihan yang ada.

  • Anda boleh mengenal pasti jurang dalam pengetahuan tentang sumber data tersebut.

  • Anda mungkin mendapati bahawa anda mempunyai banyak data pendua dalam satu kawasan perniagaan dan hampir tidak ada data di kawasan lain.

  • Anda mungkin memastikan bahawa anda bergantung kepada data pihak ketiga yang tidak tepat seperti yang sepatutnya.

Luangkan masa yang anda perlukan untuk melakukan proses penemuan ini kerana ia akan menjadi asas bagi perancangan dan pelaksanaan strategi data besar anda.

Data besar untuk Menipu Cheat Sheet - dummies

Pilihan Editor

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Sifat kotak, anda boleh meletakkan objek gaya di mana saja di dalam tetingkap penyemak imbas, objek kedudukan berbanding dengan objek lain pada halaman, dan gunakan peraturan gaya padding dan margin kotak secara selektif untuk mana-mana atau semua empat objek gaya sebagai kiri dan bawah atau atas, kiri, dan ...

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Kadar adalah salah satu istilah pemasaran yang paling mengelirukan dari e-mel. Ia sebenarnya mengukur bilangan interaksi tertentu dengan pelayan e-mel selepas e-mel dihantar dinyatakan sebagai peratusan jumlah tidak melantun. E-mel anda tidak dikira sebagai terbuka sehingga salah satu daripada interaksi berikut berlaku: Penerima membolehkan imej ...

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress adalah perisian bebas sumber terbuka yang dapat anda unduh, memasang, dan gunakan untuk membina komuniti sosial anda sendiri di laman web anda yang berkuasa WordPress. Untuk melakukan ini, anda memerlukan pemahaman asas tentang ciri dan terminologi BuddyPress. Mencipta komuniti sosial anda sendiri mudah dilakukan dengan BuddyPress, tetapi jika anda memerlukan bantuan, anda boleh bertanya ...

Pilihan Editor

Menikmati Magic of Mindful Movies - dummies

Menikmati Magic of Mindful Movies - dummies

Tidak ada cara yang lebih baik untuk mengembangkan pengalaman pemikiran anda melampaui batas fizikal United Kingdom dan mengembangkan wawasan anda daripada menikmati filem yang cenderung berfikiran. Filem untuk kanak-kanak: Kung Fu Panda (Mark Osborne, John Stevenson, 2008). Filem animasi moden ini sering merujuk kepada kuasa yang datang dari ...

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Kadang-kadang, hanya apa yang anda perlukan untuk pengalaman pemikiran yang mendalam. Mendengarkan CD berkualiti boleh memindahkan anda ke luar United Kingdom dan benar-benar membuka fikiran anda kepada idea-idea. CD berikut disyorkan: Meditasi Berpandu: Untuk Ketenangan, Kesedaran dan Cinta oleh Bodhipaksa. A ...

Freemason yang terkenal - orang-orang buatan

Freemason yang terkenal - orang-orang buatan

Yang hebat dan paling cemerlang di dunia atau Freemason. Kumpulan-kumpulan ini memberikan anda jauh dari senarai komprehensif - mereka hanya contoh: Bapa pengasas: Freemason yang paling terkenal di Amerika, George Washington telah dimulakan pada tahun 1752, di Fredericksburg, Virginia. Bapa pengasas lain yang juga Mason termasuk Benjamin Franklin, Marquis de ...

Pilihan Editor

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Subjek tertumpukan tajam dan latar belakang yang lembut dan kabur. Ikuti langkah-langkah ini untuk mengambil potret seperti Canon Rebel Digital anda.

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

DSLR yang dijual hari ini, kamera Canon EOS Rebel T7i / 800D menawarkan Live View, yang menyahdayakan pemidang tilik dan sebaliknya memaparkan pratonton langsung subjek anda pada monitor kamera. Senarai berikut menerangkan asas penggunaan Live View: Switch to Live View for photography: Tekan butang Live View untuk beralih dari ...