Rumah Kewangan Peribadi Log Data dengan analisis Hadoop - dummies

Log Data dengan analisis Hadoop - dummies

Video: Hadoop Tutorial: Analyzing Server Logs 2024

Video: Hadoop Tutorial: Analyzing Server Logs 2024
Anonim

Analisis log adalah kes penggunaan biasa untuk projek Hadoop sulung. Penggunaan Hadoop terawal adalah untuk analisa besar log klik log - log yang merakam data mengenai halaman web yang dikunjungi oleh orang-orang dan di mana pesanan mereka melawat mereka.

Semua log data yang dihasilkan oleh infrastruktur IT anda sering dirujuk sebagai ekzos data . Log adalah hasil sampingan pelayan berfungsi, sama seperti asap yang datang dari paip ekzos enjin kerja. Ekzos data mempunyai konotasi pencemaran atau pembaziran, dan banyak syarikat tidak diragukan lagi mendekati jenis data ini dengan pemikiran itu dalam fikiran.

Log data sering berkembang dengan cepat, dan kerana jumlah yang tinggi dihasilkan, ia boleh membosankan untuk dianalisis. Dan, nilai potensi data ini sering tidak jelas. Oleh itu, godaan dalam jabatan IT adalah untuk menyimpan data log ini untuk masa yang sedikit sebanyak mungkin. (Lagipun, kos wang untuk menyimpan data, dan jika tidak ada nilai perniagaan yang dirasakan, mengapa menyimpannya?)

Tetapi Hadoop mengubah matematik: Kos menyimpan data relatif murah, dan Hadoop pada asalnya dibangunkan terutamanya untuk pemprosesan batch berskala besar data log.

Kesilapan analisis data log adalah tempat yang berguna untuk memulakan perjalanan Hadoop anda kerana kemungkinan besar data yang anda kerjakan dihapuskan atau "jatuh ke lantai. "Sesetengah syarikat yang secara teratur mencatat terabyte (TB) atau lebih banyak aktiviti web pelanggan setiap minggu membuang data tanpa analisis (yang membuat anda tertanya-tanya mengapa mereka peduli untuk mengumpulnya).

Untuk memulakan dengan cepat, data dalam kes penggunaan ini mungkin mudah diperoleh dan secara amnya tidak merangkumi isu yang sama yang akan anda hadapi jika anda memulakan perjalanan Hadoop anda dengan data lain (ditadbir).

Apabila penganalisis industri membincangkan jumlah data yang semakin meningkat yang wujud (4. 1 exabytes pada 2014 - lebih daripada 4 juta cakera keras 1TB), log data akaun untuk banyak pertumbuhan ini. Dan tidak hairanlah: Hampir setiap aspek kehidupan kini menghasilkan penjanaan data. Telefon pintar boleh menjanakan beratus-ratus penyertaan log setiap hari untuk pengguna aktif, menjejaki bukan sahaja suara, teks, dan pemindahan data tetapi juga data geolokasi.

Kebanyakan isi rumah kini mempunyai meter pintar yang menggunakan penggunaan elektrik mereka. Kereta baru mempunyai beribu-ribu sensor yang mencatat aspek keadaan dan penggunaannya. Setiap pergerakan klik dan tetikus yang anda buat semasa melayari Internet menyebabkan lata penyertaan log dihasilkan.

Setiap kali anda membeli sesuatu - walaupun tanpa menggunakan kad kredit atau kad debit - sistem merekodkan aktiviti dalam pangkalan data - dan dalam log.Anda dapat melihat beberapa sumber data log yang lebih biasa: pelayan IT, klik web, sensor, dan sistem transaksi.

Setiap industri (serta semua jenis log yang diterangkan) mempunyai potensi besar untuk analisis berharga - terutamanya apabila anda boleh sifar dalam jenis aktiviti tertentu dan kemudian mengaitkan penemuan anda dengan set data lain untuk memberikan konteks.

Sebagai contoh, pertimbangkan pengalaman menyemak imbas dan pembelian berasaskan web yang biasa ini:

  1. Anda melayari laman web, mencari item untuk dibeli.

  2. Anda klik untuk membaca penerangan produk yang menangkap mata anda.

  3. Akhirnya, anda menambah item ke keranjang belanja anda dan teruskan ke checkout (tindakan belian).

Selepas melihat kos penghantaran, bagaimanapun, anda memutuskan bahawa item itu tidak bernilai dan anda menutup tetingkap penyemak imbas. Setiap klik yang anda buat - dan kemudian berhenti membuat - berpotensi untuk menawarkan pandangan berharga kepada syarikat di sebalik laman e-dagang ini.

Dalam contoh ini, anggaplah bahawa perniagaan ini mengumpul data klikstream (data tentang setiap klik tetikus dan tampilan laman yang pengunjung "menyentuh") dengan tujuan untuk memahami bagaimana untuk lebih baik melayani para pelanggannya. Satu cabaran yang lazim di kalangan perniagaan e-dagang adalah mengenali faktor-faktor utama di belakang kereta belanja yang ditinggalkan. Apabila anda melakukan analisis yang lebih mendalam pada data aliran klik dan memeriksa kelakuan pengguna di tapak, corak terikat akan muncul.

Adakah syarikat anda mengetahui jawapan kepada soalan yang mudah, "Adakah produk tertentu ditinggalkan lebih daripada yang lain? "Atau jawapannya kepada soalan itu," Berapa banyak pendapatan yang dapat ditarik balik jika anda mengurangkan pengabaian kereta sebanyak 10 peratus? "Berikut ini memberikan contoh jenis laporan yang boleh anda tunjukkan kepada pemimpin perniagaan anda untuk mencari pelaburan mereka dalam sebab Hadoop anda.

Untuk sampai ke titik di mana anda boleh menghasilkan data untuk membina graf yang ditunjukkan, anda mengasingkan sesi penyemakan imbas web pengguna individu (proses yang dikenali sebagai sesi) , mengenal pasti kandungan kereta belanja mereka, dan kemudian tentukan keadaan urus niaga pada akhir sesi - semuanya dengan mengkaji data klik.

Berikut ialah contoh cara memasang sesi penyemakan imbas pengguna dengan mengumpulkan semua klik dan alamat URL dengan alamat IP.

Dalam konteks Hadoop, anda sentiasa bekerja dengan kunci dan nilai - setiap fasa MapReduce input dan output data dalam set kunci dan nilai. Kuncinya adalah alamat IP, dan nilai itu terdiri daripada cap waktu dan URL. Semasa fasa peta, sesi pengguna dipasang selari untuk semua blok fail kumpulan data klik yang disimpan dalam kumpulan Hadoop anda.

Fasa peta mengembalikan unsur-unsur ini:

  • Halaman akhir yang dikunjungi

  • Senarai item dalam keranjang belanja

  • Keadaan transaksi untuk setiap sesi pengguna (diindeks oleh kunci alamat IP) < Reducer memungut rekod-rekod ini dan melakukan agregasi kepada jumlah dan nilai kereta yang ditinggalkan setiap bulan dan untuk memberikan sejumlah halaman akhir yang paling biasa yang dilihat seseorang sebelum menamatkan sesi pengguna.

Log Data dengan analisis Hadoop - dummies

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...