Log Data dengan analisis Hadoop - dummies

Analisis log adalah kes penggunaan biasa untuk projek Hadoop sulung. Penggunaan Hadoop terawal adalah untuk analisa besar log klik log - log yang merakam data mengenai halaman web yang dikunjungi oleh orang-orang dan di mana pesanan mereka melawat mereka.

Semua log data yang dihasilkan oleh infrastruktur IT anda sering dirujuk sebagai ekzos data . Log adalah hasil sampingan pelayan berfungsi, sama seperti asap yang datang dari paip ekzos enjin kerja. Ekzos data mempunyai konotasi pencemaran atau pembaziran, dan banyak syarikat tidak diragukan lagi mendekati jenis data ini dengan pemikiran itu dalam fikiran.

Log data sering berkembang dengan cepat, dan kerana jumlah yang tinggi dihasilkan, ia boleh membosankan untuk dianalisis. Dan, nilai potensi data ini sering tidak jelas. Oleh itu, godaan dalam jabatan IT adalah untuk menyimpan data log ini untuk masa yang sedikit sebanyak mungkin. (Lagipun, kos wang untuk menyimpan data, dan jika tidak ada nilai perniagaan yang dirasakan, mengapa menyimpannya?)

Tetapi Hadoop mengubah matematik: Kos menyimpan data relatif murah, dan Hadoop pada asalnya dibangunkan terutamanya untuk pemprosesan batch berskala besar data log.

Kesilapan analisis data log adalah tempat yang berguna untuk memulakan perjalanan Hadoop anda kerana kemungkinan besar data yang anda kerjakan dihapuskan atau "jatuh ke lantai. "Sesetengah syarikat yang secara teratur mencatat terabyte (TB) atau lebih banyak aktiviti web pelanggan setiap minggu membuang data tanpa analisis (yang membuat anda tertanya-tanya mengapa mereka peduli untuk mengumpulnya).

Untuk memulakan dengan cepat, data dalam kes penggunaan ini mungkin mudah diperoleh dan secara amnya tidak merangkumi isu yang sama yang akan anda hadapi jika anda memulakan perjalanan Hadoop anda dengan data lain (ditadbir).

Apabila penganalisis industri membincangkan jumlah data yang semakin meningkat yang wujud (4. 1 exabytes pada 2014 - lebih daripada 4 juta cakera keras 1TB), log data akaun untuk banyak pertumbuhan ini. Dan tidak hairanlah: Hampir setiap aspek kehidupan kini menghasilkan penjanaan data. Telefon pintar boleh menjanakan beratus-ratus penyertaan log setiap hari untuk pengguna aktif, menjejaki bukan sahaja suara, teks, dan pemindahan data tetapi juga data geolokasi.

Kebanyakan isi rumah kini mempunyai meter pintar yang menggunakan penggunaan elektrik mereka. Kereta baru mempunyai beribu-ribu sensor yang mencatat aspek keadaan dan penggunaannya. Setiap pergerakan klik dan tetikus yang anda buat semasa melayari Internet menyebabkan lata penyertaan log dihasilkan.

Setiap kali anda membeli sesuatu - walaupun tanpa menggunakan kad kredit atau kad debit - sistem merekodkan aktiviti dalam pangkalan data - dan dalam log.Anda dapat melihat beberapa sumber data log yang lebih biasa: pelayan IT, klik web, sensor, dan sistem transaksi.

Setiap industri (serta semua jenis log yang diterangkan) mempunyai potensi besar untuk analisis berharga - terutamanya apabila anda boleh sifar dalam jenis aktiviti tertentu dan kemudian mengaitkan penemuan anda dengan set data lain untuk memberikan konteks.

Sebagai contoh, pertimbangkan pengalaman menyemak imbas dan pembelian berasaskan web yang biasa ini:

Anda melayari laman web, mencari item untuk dibeli.
Anda klik untuk membaca penerangan produk yang menangkap mata anda.
Akhirnya, anda menambah item ke keranjang belanja anda dan teruskan ke checkout (tindakan belian).

Selepas melihat kos penghantaran, bagaimanapun, anda memutuskan bahawa item itu tidak bernilai dan anda menutup tetingkap penyemak imbas. Setiap klik yang anda buat - dan kemudian berhenti membuat - berpotensi untuk menawarkan pandangan berharga kepada syarikat di sebalik laman e-dagang ini.

Dalam contoh ini, anggaplah bahawa perniagaan ini mengumpul data klikstream (data tentang setiap klik tetikus dan tampilan laman yang pengunjung "menyentuh") dengan tujuan untuk memahami bagaimana untuk lebih baik melayani para pelanggannya. Satu cabaran yang lazim di kalangan perniagaan e-dagang adalah mengenali faktor-faktor utama di belakang kereta belanja yang ditinggalkan. Apabila anda melakukan analisis yang lebih mendalam pada data aliran klik dan memeriksa kelakuan pengguna di tapak, corak terikat akan muncul.

Adakah syarikat anda mengetahui jawapan kepada soalan yang mudah, "Adakah produk tertentu ditinggalkan lebih daripada yang lain? "Atau jawapannya kepada soalan itu," Berapa banyak pendapatan yang dapat ditarik balik jika anda mengurangkan pengabaian kereta sebanyak 10 peratus? "Berikut ini memberikan contoh jenis laporan yang boleh anda tunjukkan kepada pemimpin perniagaan anda untuk mencari pelaburan mereka dalam sebab Hadoop anda.

Untuk sampai ke titik di mana anda boleh menghasilkan data untuk membina graf yang ditunjukkan, anda mengasingkan sesi penyemakan imbas web pengguna individu (proses yang dikenali sebagai sesi) , mengenal pasti kandungan kereta belanja mereka, dan kemudian tentukan keadaan urus niaga pada akhir sesi - semuanya dengan mengkaji data klik.

Berikut ialah contoh cara memasang sesi penyemakan imbas pengguna dengan mengumpulkan semua klik dan alamat URL dengan alamat IP.

Dalam konteks Hadoop, anda sentiasa bekerja dengan kunci dan nilai - setiap fasa MapReduce input dan output data dalam set kunci dan nilai. Kuncinya adalah alamat IP, dan nilai itu terdiri daripada cap waktu dan URL. Semasa fasa peta, sesi pengguna dipasang selari untuk semua blok fail kumpulan data klik yang disimpan dalam kumpulan Hadoop anda.

Fasa peta mengembalikan unsur-unsur ini:

Halaman akhir yang dikunjungi
Senarai item dalam keranjang belanja
Keadaan transaksi untuk setiap sesi pengguna (diindeks oleh kunci alamat IP) < Reducer memungut rekod-rekod ini dan melakukan agregasi kepada jumlah dan nilai kereta yang ditinggalkan setiap bulan dan untuk memberikan sejumlah halaman akhir yang paling biasa yang dilihat seseorang sebelum menamatkan sesi pengguna.