Isi kandungan:
Video: 3000+ Common Spanish Words with Pronunciation 2024
Produk perisikan perniagaan tradisional tidak benar-benar direka untuk mengendalikan data besar, jadi mereka mungkin memerlukan beberapa pengubahsuaian. Mereka direka bentuk untuk bekerja dengan data yang sangat berstruktur, dipahami dengan baik, sering disimpan dalam repositori data relasional dan dipaparkan pada komputer desktop atau komputer riba anda. Analisis kecerdasan perniagaan tradisional ini biasanya digunakan untuk mengambil gambar data dan bukannya keseluruhan jumlah data yang ada. Apa yang berbeza dengan analisis data yang besar?
Data data yang besar
Data besar terdiri daripada data berstruktur, separa berstruktur, dan tidak berstruktur. Anda sering mempunyai banyak, dan ia boleh menjadi agak kompleks. Apabila anda berfikir tentang menganalisisnya, anda perlu mengetahui ciri-ciri potensi data anda:
-
Ini boleh datang dari sumber yang tidak dipercayai. Analisis data yang besar sering melibatkan pengagregatan data dari pelbagai sumber. Ini mungkin termasuk sumber data dalaman dan luaran. Bagaimana amanah adalah sumber maklumat luaran ini? Contohnya, bagaimana boleh dipercayai data media sosial seperti tweet? Maklumat ini mungkin datang dari sumber yang tidak disahkan. Integriti data ini perlu dipertimbangkan dalam analisis.
-
Ia boleh menjadi kotor. Data kotor merujuk kepada data yang tidak tepat, tidak lengkap, atau salah. Ini mungkin termasuk salah kata perkataan; sensor yang pecah, tidak dikalibrasi dengan betul, atau rosak dalam beberapa cara; atau data yang diduplikasi. Ahli sains data membahaskan tentang mana untuk membersihkan data - sama ada dekat dengan sumber atau dalam masa nyata.
Sudah tentu, satu sekolah pemikiran mengatakan bahawa data kotor tidak boleh dibersihkan sama sekali kerana ia mungkin mengandungi pengesan menarik. Strategi pembersihan mungkin bergantung kepada sumber dan jenis data dan matlamat analisis anda. Sebagai contoh, jika anda membangunkan penapis spam, matlamatnya adalah untuk mengesan unsur-unsur buruk dalam data, jadi anda tidak mahu membersihkannya.
-
Nisbah isyarat-ke-bunyi boleh menjadi rendah. Dengan kata lain, isyarat (maklumat yang boleh digunakan) hanya boleh menjadi satu peratus kecil data; bunyi adalah selebihnya. Mampu mengeluarkan isyarat kecil daripada data yang bising adalah sebahagian daripada manfaat analitik data besar, tetapi anda perlu sedar bahawa isyarat sememangnya kecil.
-
Ia boleh menjadi masa nyata. Dalam banyak kes, anda akan cuba menganalisis arus data masa nyata.
Tadbir urus data yang besar akan menjadi bahagian penting dari persamaan analitik. Di bawah analisis perniagaan, penambahbaikan perlu dibuat untuk penyelesaian tadbir urus untuk memastikan kebenaran yang diperoleh daripada sumber data baru, terutamanya kerana ia digabungkan dengan data yang dipercayai yang disimpan di dalam gudang.Penyelesaian keselamatan dan privasi data juga perlu ditingkatkan untuk menyokong pengurusan data besar yang disimpan dalam teknologi baru.
Analisis data besar algoritma
Apabila anda mempertimbangkan analitik data besar, anda perlu menyedari bahawa apabila anda melangkah melampaui desktop, algoritma yang anda gunakan sering perlu refactored, mengubah kod dalaman tanpa menjejaskan fungsi luarannya. Keindahan infrastruktur data yang besar ialah anda boleh menjalankan model yang digunakan untuk mengambil jam atau hari dalam beberapa minit.
Ini membolehkan anda melaraskan model ratusan kali. Walau bagaimanapun, jika anda menjalankan regresi pada satu bilion baris data merentasi persekitaran yang diedarkan, anda perlu mempertimbangkan keperluan sumber yang berkaitan dengan jumlah data dan lokasinya dalam kelompok. Algoritma anda perlu mengetahui data.
Selain itu, vendor mula menawarkan analitik baru yang direka untuk ditempatkan dekat dengan sumber data besar untuk menganalisis data di tempatnya. Pendekatan menjalankan analisis lebih dekat kepada sumber data meminimumkan jumlah data yang disimpan dengan mengekalkan hanya data bernilai tinggi. Ia juga membolehkan anda menganalisis data lebih cepat, yang penting untuk membuat keputusan masa nyata.
Sudah tentu, analisis akan terus berubah. Sebagai contoh, anda mungkin memerlukan keupayaan visualisasi masa nyata untuk memaparkan data masa nyata yang sentiasa berubah. Bagaimana anda praktikal merancang satu bilion mata di plot graf? Atau, bagaimanakah anda bekerja dengan algoritma ramalan supaya mereka melaksanakan analisis yang cukup cepat dan cukup dalam menggunakan set data yang semakin berkembang? Ini adalah kawasan penyelidikan aktif.
Sokongan infrastruktur data yang besar
Cukuplah untuk mengatakan bahawa jika anda mencari platform, ia perlu mencapai yang berikut:
-
Mengintegrasikan teknologi: Prasarana perlu mengintegrasikan teknologi data baru yang besar dengan teknologi tradisional dapat memproses semua jenis data besar dan menjadikannya konsisten dengan analisis tradisional.
-
Menyimpan sejumlah besar data yang berbeza: Sistem Hadoop yang dikuasai oleh perusahaan mungkin diperlukan yang boleh memproses / menyimpan / menguruskan sejumlah besar data dengan tenang, sama ada ia berstruktur, separa berstruktur, atau tidak berstruktur.
-
Proses data yang bergerak: Keupayaan pengkomputeran aliran mungkin diperlukan untuk memproses data dalam gerakan yang terus dihasilkan oleh sensor, peranti pintar, video, audio, dan log untuk menyokong pengambilan keputusan masa nyata.
-
Data gudang: Anda mungkin memerlukan penyelesaian yang dioptimumkan untuk beban kerja analitis yang beroperasi atau mendalam untuk menyimpan dan menguruskan jumlah yang semakin meningkat data yang dipercayai.
Dan sudah tentu, anda memerlukan keupayaan untuk mengintegrasikan data yang anda sudah ada bersama dengan hasil analisis data yang besar.