Rumah Kewangan Peribadi Log Data dengan analisis Hadoop - dummies

Log Data dengan analisis Hadoop - dummies

Video: Hadoop Tutorial: Analyzing Server Logs 2024

Video: Hadoop Tutorial: Analyzing Server Logs 2024
Anonim

Analisis log adalah kes penggunaan biasa untuk projek Hadoop sulung. Penggunaan Hadoop terawal adalah untuk analisa besar log klik log - log yang merakam data mengenai halaman web yang dikunjungi oleh orang-orang dan di mana pesanan mereka melawat mereka.

Semua log data yang dihasilkan oleh infrastruktur IT anda sering dirujuk sebagai ekzos data . Log adalah hasil sampingan pelayan berfungsi, sama seperti asap yang datang dari paip ekzos enjin kerja. Ekzos data mempunyai konotasi pencemaran atau pembaziran, dan banyak syarikat tidak diragukan lagi mendekati jenis data ini dengan pemikiran itu dalam fikiran.

Log data sering berkembang dengan cepat, dan kerana jumlah yang tinggi dihasilkan, ia boleh membosankan untuk dianalisis. Dan, nilai potensi data ini sering tidak jelas. Oleh itu, godaan dalam jabatan IT adalah untuk menyimpan data log ini untuk masa yang sedikit sebanyak mungkin. (Lagipun, kos wang untuk menyimpan data, dan jika tidak ada nilai perniagaan yang dirasakan, mengapa menyimpannya?)

Tetapi Hadoop mengubah matematik: Kos menyimpan data relatif murah, dan Hadoop pada asalnya dibangunkan terutamanya untuk pemprosesan batch berskala besar data log.

Kesilapan analisis data log adalah tempat yang berguna untuk memulakan perjalanan Hadoop anda kerana kemungkinan besar data yang anda kerjakan dihapuskan atau "jatuh ke lantai. "Sesetengah syarikat yang secara teratur mencatat terabyte (TB) atau lebih banyak aktiviti web pelanggan setiap minggu membuang data tanpa analisis (yang membuat anda tertanya-tanya mengapa mereka peduli untuk mengumpulnya).

Untuk memulakan dengan cepat, data dalam kes penggunaan ini mungkin mudah diperoleh dan secara amnya tidak merangkumi isu yang sama yang akan anda hadapi jika anda memulakan perjalanan Hadoop anda dengan data lain (ditadbir).

Apabila penganalisis industri membincangkan jumlah data yang semakin meningkat yang wujud (4. 1 exabytes pada 2014 - lebih daripada 4 juta cakera keras 1TB), log data akaun untuk banyak pertumbuhan ini. Dan tidak hairanlah: Hampir setiap aspek kehidupan kini menghasilkan penjanaan data. Telefon pintar boleh menjanakan beratus-ratus penyertaan log setiap hari untuk pengguna aktif, menjejaki bukan sahaja suara, teks, dan pemindahan data tetapi juga data geolokasi.

Kebanyakan isi rumah kini mempunyai meter pintar yang menggunakan penggunaan elektrik mereka. Kereta baru mempunyai beribu-ribu sensor yang mencatat aspek keadaan dan penggunaannya. Setiap pergerakan klik dan tetikus yang anda buat semasa melayari Internet menyebabkan lata penyertaan log dihasilkan.

Setiap kali anda membeli sesuatu - walaupun tanpa menggunakan kad kredit atau kad debit - sistem merekodkan aktiviti dalam pangkalan data - dan dalam log.Anda dapat melihat beberapa sumber data log yang lebih biasa: pelayan IT, klik web, sensor, dan sistem transaksi.

Setiap industri (serta semua jenis log yang diterangkan) mempunyai potensi besar untuk analisis berharga - terutamanya apabila anda boleh sifar dalam jenis aktiviti tertentu dan kemudian mengaitkan penemuan anda dengan set data lain untuk memberikan konteks.

Sebagai contoh, pertimbangkan pengalaman menyemak imbas dan pembelian berasaskan web yang biasa ini:

  1. Anda melayari laman web, mencari item untuk dibeli.

  2. Anda klik untuk membaca penerangan produk yang menangkap mata anda.

  3. Akhirnya, anda menambah item ke keranjang belanja anda dan teruskan ke checkout (tindakan belian).

Selepas melihat kos penghantaran, bagaimanapun, anda memutuskan bahawa item itu tidak bernilai dan anda menutup tetingkap penyemak imbas. Setiap klik yang anda buat - dan kemudian berhenti membuat - berpotensi untuk menawarkan pandangan berharga kepada syarikat di sebalik laman e-dagang ini.

Dalam contoh ini, anggaplah bahawa perniagaan ini mengumpul data klikstream (data tentang setiap klik tetikus dan tampilan laman yang pengunjung "menyentuh") dengan tujuan untuk memahami bagaimana untuk lebih baik melayani para pelanggannya. Satu cabaran yang lazim di kalangan perniagaan e-dagang adalah mengenali faktor-faktor utama di belakang kereta belanja yang ditinggalkan. Apabila anda melakukan analisis yang lebih mendalam pada data aliran klik dan memeriksa kelakuan pengguna di tapak, corak terikat akan muncul.

Adakah syarikat anda mengetahui jawapan kepada soalan yang mudah, "Adakah produk tertentu ditinggalkan lebih daripada yang lain? "Atau jawapannya kepada soalan itu," Berapa banyak pendapatan yang dapat ditarik balik jika anda mengurangkan pengabaian kereta sebanyak 10 peratus? "Berikut ini memberikan contoh jenis laporan yang boleh anda tunjukkan kepada pemimpin perniagaan anda untuk mencari pelaburan mereka dalam sebab Hadoop anda.

Untuk sampai ke titik di mana anda boleh menghasilkan data untuk membina graf yang ditunjukkan, anda mengasingkan sesi penyemakan imbas web pengguna individu (proses yang dikenali sebagai sesi) , mengenal pasti kandungan kereta belanja mereka, dan kemudian tentukan keadaan urus niaga pada akhir sesi - semuanya dengan mengkaji data klik.

Berikut ialah contoh cara memasang sesi penyemakan imbas pengguna dengan mengumpulkan semua klik dan alamat URL dengan alamat IP.

Dalam konteks Hadoop, anda sentiasa bekerja dengan kunci dan nilai - setiap fasa MapReduce input dan output data dalam set kunci dan nilai. Kuncinya adalah alamat IP, dan nilai itu terdiri daripada cap waktu dan URL. Semasa fasa peta, sesi pengguna dipasang selari untuk semua blok fail kumpulan data klik yang disimpan dalam kumpulan Hadoop anda.

Fasa peta mengembalikan unsur-unsur ini:

  • Halaman akhir yang dikunjungi

  • Senarai item dalam keranjang belanja

  • Keadaan transaksi untuk setiap sesi pengguna (diindeks oleh kunci alamat IP) < Reducer memungut rekod-rekod ini dan melakukan agregasi kepada jumlah dan nilai kereta yang ditinggalkan setiap bulan dan untuk memberikan sejumlah halaman akhir yang paling biasa yang dilihat seseorang sebelum menamatkan sesi pengguna.

Log Data dengan analisis Hadoop - dummies

Pilihan Editor

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Melindungi Metrik Media Sosial anda dengan Alat Cadangan - dummies

Jika anda telah memulakan jejak sosial metrik media dan menikmati kurniaan data yang kini dapat dilihat, dihidupkan, dan digunakan, anda mungkin tertanya-tanya apa yang mungkin menyebabkan kemurungan! Mudah: kehilangan data. Katakanlah bahawa anda mempunyai masalah tapak atau entah bagaimana kehilangan akses ke tapak atau data anda. Adakah anda mempunyai sandaran anda ...

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Laman web baru? Menarik Tumpuan Media Sosial Lalu Lintas dan Meningkat - dummies

Mana-mana kempen baru, laman web, akaun Twitter, halaman Facebook, atau item lain yang anda ingin ukur dengan metrik media sosial bermula pada sifar. Nombor ini boleh membuat anda merasa seperti anda bercakap dengan tidak sah, bercakap dengan diri anda atau anda tersembunyi dari pandangan. Perasaan ini boleh membawa kepada pengasingan secara keseluruhan ...

Meracuni Google Spider - dummies

Meracuni Google Spider - dummies

Anda sentiasa dapat mencari orang yang ingin menyimpang dari lurus dan sempit. Ya, mereka adalah orang bodoh yang terlibat dalam taktik pengoptimuman berisiko yang bertujuan untuk menggerakkan PageRank secara artifisial, memanipulasi pesanan halaman hasil carian di Google, dan mendapatkan kelebihan yang tidak adil dalam indeks. Google, dengan reputasi yang luar biasa untuk melindungi, ...

Pilihan Editor

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Mengukur Pengunjung Lama Menginap di Laman Web Anda - dummies

Di laman web anda memberikan wawasan yang penting. Anda boleh memikirkan sama ada pengunjung sedang melihat cepat, kemudian pergi, atau sama ada mereka bertahan lebih lama dan sebenarnya membaca bahan dalam talian anda dengan tujuan untuk mengambil tindakan. Jika majoriti pelawat laman web anda tidak ...

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Pemasaran web: Cara Menilai Layouts dengan Peta Haba - dummies

Laman web perniagaan sangat mirip dengan merancang kedai dengan pemasaran produk dalam fikiran. Malah, laman web anda benar-benar adalah kedai - kedai maya di Internet. Rangkaian kedai runcit telah menghabiskan berjuta-juta dolar dalam penyelidikan pasaran, menonton dan mendokumentasikan bagaimana pembeli memasuki kedai, belok kanan atau kiri, dan ...

Analitik web Untuk Menipu Cheat Sheet - dummies

Analitik web Untuk Menipu Cheat Sheet - dummies

Melakukan analisis laman web tidak perlu meletihkan dan intensif masa. Anda boleh meringkaskan prestasi keseluruhan laman web anda dengan cepat - jika anda tahu apa yang perlu dicari. Alat analisis web percuma dan kos rendah boleh membantu anda mengukur kejayaan laman web anda, dan anda boleh menjana perujuk tapak dengan pelbagai cara yang tidak mungkin ...

Pilihan Editor

Cara Memaksimumkan Ruang pada Laman Web - dummies

Cara Memaksimumkan Ruang pada Laman Web - dummies

Terlalu terhad, anda boleh membuat penggunaan kreatif beberapa teknologi di luar sana untuk memaksimumkan antara muka anda. Untuk setiap teknik berikut yang diterangkan, terdapat banyak laman web yang menawarkan sampel kod, forum, dan sumber untuk membantu anda memulakan. Accordions. Antara muka akordion membolehkan ...

Cara Mendapatkan Corak CSS3 Online - dummies

Cara Mendapatkan Corak CSS3 Online - dummies

Mencipta kesan mudah untuk laman CSS3 menggunakan gradien mudah . Walau bagaimanapun, mewujudkan sesuatu yang benar-benar hebat memerlukan masa dan keupayaan artistik. Kebanyakan pemaju benar-benar tidak mempunyai masa atau kemahiran yang diperlukan untuk mencipta sesuatu yang mempesonakan menggunakan CSS3 sahaja (atau CSS3 digabungkan dengan grafik) - di sinilah pereka bermain. Ramai pereka yang membolehkan anda ...

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Bagaimana Mengoptimumkan Aplikasi CSS3 dengan Modernizr - dummies

Terdapat banyak pelayar dan versi pelayar yang berbeza gunakan hari ini. Tidak semua daripada mereka adalah optimum untuk CSS3. Inilah tempat Modernizr dimainkan. Pemajunya menyebutnya "perpustakaan JavaScript yang mengesan ciri HTML5 dan CSS3 dalam pelayar pengguna. "Anda menggunakan Modernizr untuk melaksanakan tugas secara pilihan dan memasukkan ciri aplikasi berdasarkan ...