Rumah Kewangan Peribadi Data besar untuk Menipu Cheat Sheet - dummies

Data besar untuk Menipu Cheat Sheet - dummies

Video: How to Get Free Cable (All Channels) 2024

Video: How to Get Free Cable (All Channels) 2024
Anonim

Oleh Judith Hurwitz, Alan Nugent, Fern Halper, Marcia Kaufman

Syarikat mesti mencari cara praktikal untuk menangani data besar untuk kekal berdaya saing - untuk mempelajari cara baru untuk menangkap dan menganalisis jumlah pertumbuhan maklumat mengenai pelanggan, produk, dan perkhidmatan. Data menjadi semakin kompleks dalam cara yang berstruktur dan tidak tersusun. Sumber data baru datang dari mesin, seperti sensor; laman perniagaan sosial; dan interaksi tapak web, seperti data klik-strim. Memenuhi keperluan perniagaan yang berubah ini menuntut agar maklumat yang betul tersedia pada waktu yang tepat.

Menetapkan Data Besar: Kelantangan, Kelajuan, dan Pelbagai

Data besar membolehkan organisasi untuk menyimpan, mengurus, dan memanipulasi sejumlah besar data berbeza pada kelajuan yang tepat dan pada masa yang tepat. Untuk mendapatkan wawasan yang tepat, data besar biasanya dipecah oleh tiga ciri:

  • Jumlah: Berapa banyak data

  • Halaju: Berapa cepat data diproses

  • Pelbagai: jenis data

Walaupun mudah untuk memudahkan data besar ke dalam tiga Vs, ia boleh mengelirukan dan terlalu mudah. Sebagai contoh, anda mungkin menguruskan jumlah yang agak kecil, sangat rumit, data yang rumit atau anda mungkin memproses sejumlah besar data yang sangat mudah. Data mudah itu mungkin berstruktur atau tidak berstruktur.

Yang lebih penting ialah keempat V, kebenaran. Seberapa tepat data tersebut meramalkan nilai perniagaan? Adakah hasil analisis data yang besar benar-benar masuk akal? Data mesti dapat disahkan berdasarkan kedua-dua ketepatan dan konteks. Perniagaan inovatif mungkin ingin menganalisis sejumlah besar data dalam masa nyata untuk menilai dengan cepat nilai pelanggan dan potensi untuk memberikan tawaran tambahan kepada pelanggan tersebut. Ia perlu mengenal pasti jumlah dan jenis data yang dapat dianalisis dalam masa nyata untuk memberi kesan kepada hasil perniagaan.

Data besar menggabungkan semua jenis data, termasuk data berstruktur dan data tidak berstruktur dari e-mel, media sosial, aliran teks dan sebagainya. Pengurusan data jenis ini memerlukan syarikat memanfaatkan data berstruktur dan tidak berstruktur.

Memahami Data Tidak Terstruktur

Data tak berstruktur adalah berbeza daripada data berstruktur dalam strukturnya tidak dapat diramalkan. Contoh data tak berstruktur termasuk dokumen, e-mel, blog, imej digital, video, dan imejan satelit. Ia juga termasuk beberapa data yang dihasilkan oleh mesin atau sensor. Sebenarnya, akaun data tidak berstruktur untuk majoriti data yang ada di premis syarikat anda dan juga di luar syarikat anda dalam sumber swasta dan awam dalam talian seperti Twitter dan Facebook.

Pada masa lalu, kebanyakan syarikat tidak dapat menangkap atau menyimpan data yang banyak ini. Ia terlalu mahal atau terlalu besar. Walaupun syarikat dapat menangkap data, mereka tidak mempunyai alat untuk menganalisis data dengan mudah dan menggunakan keputusan untuk membuat keputusan. Alat yang sangat sedikit dapat memahami banyak data ini. Alat yang wujud adalah rumit untuk digunakan dan tidak menghasilkan hasil dalam tempoh masa yang munasabah.

Pada akhirnya, mereka yang benar-benar ingin pergi ke usaha besar menganalisis data ini terpaksa bekerja dengan gambar data. Ini mempunyai kesan yang tidak diingini dari peristiwa penting yang hilang kerana mereka tidak berada dalam gambar tertentu.

Satu pendekatan yang menjadi semakin bernilai sebagai cara untuk mendapatkan nilai perniagaan dari data tidak terstruktur adalah analisis teks, proses menganalisis teks tidak berstruktur, mengekstrak maklumat yang relevan, dan mengubahnya menjadi maklumat berstruktur yang dapat dimanfaatkan dalam pelbagai cara. Proses analisis dan pengekstrakan mengambil kesempatan daripada teknik yang berasal dari linguistik komputasi, statistik, dan disiplin sains komputer yang lain.

Peranan Data Operasi Tradisional dalam Persekitaran Data Besar

Mengetahui apa data yang disimpan dan di mana ia disimpan adalah blok bangunan kritikal dalam pelaksanaan data besar anda. Ia tidak mungkin anda akan menggunakan RDBMSs untuk teras pelaksanaannya, tetapi kemungkinan besar anda perlu bergantung pada data yang disimpan dalam RDBMS untuk membuat nilai tertinggi pada bisnis dengan data besar.

Kebanyakan syarikat besar dan kecil mungkin menyimpan sebahagian besar maklumat operasi mereka dalam sistem pengurusan pangkalan data relasi (RDBMSs), yang dibina pada satu atau lebih hubungan dan diwakili oleh jadual. Jadual-jadual ini ditakrifkan dengan cara menyimpan data. Data disimpan dalam objek pangkalan data yang dipanggil jadual - dianjurkan dalam baris dan lajur. RDBMS mengikuti pendekatan yang konsisten dengan cara data disimpan dan diambil.

Untuk mendapatkan nilai perniagaan yang paling dari analisis data masa nyata anda yang tidak berstruktur, anda perlu memahami data dalam konteks dengan data sejarah anda mengenai pelanggan, produk, transaksi, dan operasi. Dalam erti kata lain, anda perlu mengintegrasikan data tidak berstruktur anda dengan data operasi tradisional anda.

Asas Infrastruktur Data Besar

Data besar adalah mengenai halaju tinggi, jumlah besar, dan pelbagai data yang luas, jadi infrastruktur fizikal secara literal akan "membuat atau memecahkan" pelaksanaannya. Kebanyakan pelaksanaan data yang besar perlu tersedia, jadi rangkaian, pelayan, dan penyimpanan fizikal mesti berdaya tahan dan berlebihan.

Ketahanan dan redundansi saling berkaitan. Infrastruktur, atau sistem, berdaya tahan terhadap kegagalan atau perubahan apabila sumber berlebihan yang mencukupi disediakan untuk bertindak. Ketahanan dapat membantu menghilangkan titik kegagalan dalam infrastruktur anda. Sebagai contoh, jika hanya satu sambungan rangkaian wujud antara perniagaan anda dan Internet, anda tidak mempunyai rangkaian redundansi, dan infrastrukturnya tidak berdaya tahan terhadap gangguan rangkaian.

Di pusat data yang besar dengan keperluan kesinambungan perniagaan, kebanyakan redundansi telah disediakan dan boleh dimanfaatkan untuk mewujudkan persekitaran data yang besar. Dalam pelaksanaan baru, para pereka mempunyai tanggungjawab untuk memetakan penggunaan kepada keperluan perniagaan berdasarkan kos dan prestasi.

Menguruskan Data Besar dengan Hadoop: HDFS dan MapReduce

Hadoop, rangka kerja perisian sumber terbuka, menggunakan HDFS (Sistem Fail Hadoop yang Diagihkan) dan MapReduce untuk menganalisis data besar mengenai kluster perkakasan komoditi - iaitu persekitaran pengkomputeran yang diedarkan.

Sistem File Hadoop yang Diagihkan (HDFS) telah dibangunkan untuk membolehkan syarikat lebih mudah menguruskan jumlah besar data dalam cara yang mudah dan pragmatik. Hadoop membolehkan masalah besar dihuraikan menjadi unsur yang lebih kecil supaya analisis dapat dilakukan dengan cepat dan kos efektif. HDFS adalah pendekatan yang serba boleh, berdaya tahan, berkumpulan untuk menguruskan fail dalam persekitaran data yang besar.

HDFS bukan destinasi terakhir untuk fail. Sebaliknya ia adalah "perkhidmatan" data yang menawarkan satu set keupayaan yang unik yang diperlukan apabila jumlah dan halaju data yang tinggi.

MapReduce adalah rangka kerja perisian yang membolehkan pemaju menulis program yang dapat memproses sejumlah besar data tak berstruktur selari dalam kumpulan pemproses yang diedarkan. MapReduce telah direka oleh Google sebagai satu cara untuk melaksanakan satu set fungsi dengan berkesan terhadap sejumlah besar data dalam mod batch.

Komponen "peta" mengedarkan masalah pengaturcaraan atau tugas dalam sebilangan besar sistem dan mengendalikan penempatan tugas dengan cara mengimbangi beban dan menguruskan pemulihan daripada kegagalan. Selepas pengiraan diedarkan selesai, fungsi lain yang dipanggil "mengurangkan" mengumpulkan semua elemen kembali bersama untuk memberikan hasil. Satu contoh penggunaan MapReduce adalah untuk menentukan berapa banyak halaman buku ditulis dalam setiap 50 bahasa yang berbeza.

Menempatkan Dasar untuk Strategi Data Big Anda

Syarikat berenang dalam data besar. Masalahnya ialah mereka sering tidak tahu cara menggunakan data itu secara pragmatik untuk dapat meramalkan masa depan, melaksanakan proses perniagaan yang penting, atau hanya mendapat pandangan baru. Matlamat strategi dan rancangan data besar anda adalah untuk mencari cara pragmatik untuk memanfaatkan data untuk hasil perniagaan yang lebih diramalkan.

Mulailah strategi data besar anda dengan memulakan proses penemuan. Anda perlu mengendalikan apa data yang anda sudah ada, di mana ia ada, yang memiliki dan mengendalikannya, dan bagaimana ia digunakan sekarang. Sebagai contoh, apakah sumber data pihak ketiga yang bergantung kepada syarikat anda? Proses ini dapat memberi anda banyak pandangan:

  • Anda boleh menentukan berapa banyak sumber data yang anda ada dan berapa banyak pertindihan yang ada.

  • Anda boleh mengenal pasti jurang dalam pengetahuan tentang sumber data tersebut.

  • Anda mungkin mendapati bahawa anda mempunyai banyak data pendua dalam satu kawasan perniagaan dan hampir tidak ada data di kawasan lain.

  • Anda mungkin memastikan bahawa anda bergantung kepada data pihak ketiga yang tidak tepat seperti yang sepatutnya.

Luangkan masa yang anda perlukan untuk melakukan proses penemuan ini kerana ia akan menjadi asas bagi perancangan dan pelaksanaan strategi data besar anda.

Data besar untuk Menipu Cheat Sheet - dummies

Pilihan Editor

Cara Mengeksport karya seni dari Fireworks - dummies

Cara Mengeksport karya seni dari Fireworks - dummies

Setelah anda mengoptimumkan imej itu, sudah waktunya untuk mengeksport dari Fireworks. Mengekspot imej adalah agak mudah; pilih Fail → Eksport dan kemudian nyatakan folder di mana untuk menyimpan imej. Apabila anda mengeksport dokumen seperti menu navigasi dengan beberapa kepingan, anda mengeksport dokumen itu sebagai imej dan HTML seperti berikut: Pilih Fail → Eksport. The ...

Cara Cari Warna untuk Skema Warna Laman Web Anda - dummies

Cara Cari Warna untuk Skema Warna Laman Web Anda - dummies

Peraturan yang paling asas Skim warna untuk laman web adalah bahawa anda perlu bekerja dengan beberapa warna yang terkurung. Jika tidak, laman web anda hanya akan membentangkan warna cacian warna. (Ya, pendekatan gila-gilaan juga merupakan bentuk skema warna, tetapi sebagai peraturan umum tidak begitu berkesan.) Bagaimana ...

Pilihan Editor

Memilih Penutupan Daripada Potret Khas - patung

Memilih Penutupan Daripada Potret Khas - patung

Potret di mana imej anda dipangkas dengan ketat supaya subjek itu mengambil sebahagian besar atau semua bingkai - adalah alat licik dalam beg jurufat jurulatih. Walau bagaimanapun, orang umumnya tidak suka mempunyai kamera terlalu dekat dengan mereka, kerana ketakutan bahawa imej itu ...

Menangkap Highlights and Drips dalam Fotografi Makanan Anda - dummies

Menangkap Highlights and Drips dalam Fotografi Makanan Anda - dummies

Sedikit dari fotografi bukan makanan. Fotografi komersil tradisional cenderung untuk menjauhkan diri dari kekejangan sorotan spekular dan kelemahan drip dan ketidaksempurnaan. Sorotan specular kadang-kadang hanya smidge yang terlalu cerah dan mengganggu dalam foto, tetapi kemuncaknya berkilat ...

Pilih Lensa Makro Kanan untuk Subjek Anda - patung

Pilih Lensa Makro Kanan untuk Subjek Anda - patung

Komponen utama untuk dipertimbangkan ketika mencari makro Kanta yang sesuai dengan gaya fotografi rapat anda adalah subjek yang akan anda ambil gambar dengan lensa. Sekiranya anda menembak mata secara tidak langsung, anda boleh meletakkan kanta anda dengan sangat dekat dengannya. Subjek lain mungkin memerlukan anda menyimpan jarak yang selamat, yang bermaksud ...

Pilihan Editor

Bagaimana Mengubah Transparansi Layer Jenis di Photoshop CS6 - dummies

Bagaimana Mengubah Transparansi Layer Jenis di Photoshop CS6 - dummies

Anda boleh menukar transparansi lapisan jenis, seperti yang anda boleh dengan lapisan lain dalam Adobe Photoshop Creative Suite 6, mengurangkan kelegapan (ketelusan) jenis supaya ia membolehkan lapisan mendasar untuk menunjukkan. Lapisan adalah seperti susunan lapisan digital yang mana setiap unsur imej anda ...

Bagaimana Tukar Resolusi Imej dalam Adobe Photoshop CS6 - dummies

Bagaimana Tukar Resolusi Imej dalam Adobe Photoshop CS6 - dummies

Menggunakan kotak dialog Ukuran Imej hanya satu cara yang anda boleh mengawal resolusi dalam Adobe Photoshop CS6. Walaupun anda boleh meningkatkan resolusi, berbuat demikian dengan berhati-hati dan mengelakkannya, jika anda boleh. Pengecualian kepada peraturan ini adalah apabila anda mempunyai imej yang besar dalam saiz dimensi tetapi rendah ...

Cara Mengukir Huruf menjadi Imej Tekstur Batu di Photoshop CS6

Cara Mengukir Huruf menjadi Imej Tekstur Batu di Photoshop CS6

Dalam Adobe Photoshop CS6, anda boleh menggunakan alat jenis untuk membuat pilihan yang dibentuk seperti huruf dan kemudian menggunakan imej itu sendiri sebagai tekstur (seperti batu) untuk jenisnya. Pemilihan jenis boleh memotong mana-mana bahagian gambar untuk menggunakan apa-apa cara yang anda mahukan. Ikuti langkah-langkah ini untuk mengukir huruf ke dalam tekstur batu ...