Isi kandungan:
- Memfokuskan pada perniagaan perlombongan data
- Memahami bagaimana pelombong data menghabiskan masa mereka
- Mengenali proses perlombongan data
- Membuat model
- Memahami model matematik
- Model hanya memberikan nilai apabila anda menggunakannya dalam perniagaan. Ramalan model mungkin menyokong keputusan dalam pelbagai cara. Anda mungkin
Video: What Is Bitcoin in Malay | Bitcoin Malaysia | Bitcoin Indonesia | Apa Bitcoin? 2024
Jika anda memikirkan data sebagai bahan mentah, dan maklumat yang anda dapat dari data sebagai sesuatu yang bernilai dan agak halus, proses pengekstrakan informasi dapat berbanding dengan mengeluarkan logam dari bijih atau permata dari kotoran. Demikianlah istilah pertambangan data berasal.
Memfokuskan pada perniagaan perlombongan data
Penambang data tidak hanya merenungkan data tanpa tujuan, dengan harapan untuk mencari sesuatu yang menarik. Setiap projek perlombongan data bermula dengan masalah perniagaan tertentu dan matlamat untuk dipadankan.
Sebagai pelombong data, anda mungkin tidak akan mempunyai kuasa untuk membuat keputusan perniagaan akhir, jadi penting agar anda menyelaraskan kerja anda dengan keperluan pembuat keputusan. Anda mesti memahami masalah, keperluan, dan keutamaan mereka, dan menumpukan usaha anda untuk memberikan maklumat yang menyokong keputusan perniagaan yang baik.
Pengetahuan perniagaan anda sendiri sangat penting. Eksekutif tidak akan duduk bersebelahan dengan anda semasa anda bekerja, memberikan maklum balas mengenai kaitan penemuan anda terhadap kebimbangan mereka. Anda mesti menggunakan pengalaman dan kecerdasan anda sendiri untuk menilai itu untuk diri anda semasa anda bekerja.
Memahami bagaimana pelombong data menghabiskan masa mereka
Akan sangat bagus jika penambang data boleh menghabiskan sepanjang hari membuat penemuan yang mengubah hidup, membina model berharga, dan mengintegrasikannya ke dalam perniagaan sehari-hari. Tetapi itu seperti mengatakan ia akan menjadi baik jika atlet boleh menghabiskan semua kejohanan memenangi hari. Ia memerlukan banyak persediaan untuk membina momen kejayaan. Jadi, seperti atlet, penambang data menghabiskan banyak masa untuk persiapan.
Mengenali proses perlombongan data
Proses kerja yang baik membantu anda memanfaatkan sepenuhnya masa, data anda, dan semua sumber lain. Dalam buku ini, anda akan menemui proses perlombongan data yang paling popular, CRISP-DM. Ia adalah kitaran penemuan dan fasa enam fasa yang diwujudkan oleh konsortium penambang data dari banyak industri, dan satu standard terbuka yang digunakan sesiapa sahaja.
Fase proses CRISP-DM adalah
-
Memahami Perniagaan
-
Memahami Data
-
Penyediaan Data
-
Pemodelan
-
Evaluasi
-
Penggunaan (menggunakan model dalam perniagaan setiap hari)
fasa membawa berat badan yang sama pentingnya kepada kualiti hasil dan nilai kepada perniagaan. Tetapi dari segi masa yang diperlukan, penyediaan data menguasai. Penyediaan data secara rutin mengambil masa lebih banyak daripada semua fasa lain proses penambangan data yang digabungkan.
Membuat model
Apabila matlamat difahami, dan data dibersihkan dan sedia untuk digunakan, anda boleh mengubah perhatian anda untuk membina model ramalan.Model melakukan apa yang tidak dapat laporan; mereka memberi anda maklumat yang menyokong tindakan.
Laporan boleh memberitahu anda bahawa jualan turun. Ia boleh memecah jualan mengikut rantau, produk, dan saluran supaya anda tahu di mana penjualan menurun dan sama ada penurunan ini meluas atau menjejaskan hanya kawasan tertentu. Tetapi mereka tidak memberi anda sebarang petunjuk tentang penjualan mengapa merosot atau tindakan yang mungkin dapat membantu menghidupkan semula perniagaan.
Model membantu anda memahami faktor-faktor yang memberi kesan kepada jualan, tindakan yang cenderung meningkatkan atau menurunkan jualan, dan strategi dan taktik yang memastikan perniagaan anda berjalan lancar. Itu menarik, bukan? Mungkin itulah sebabnya kebanyakan penambang data mempertimbangkan pemodelan untuk menjadi bahagian yang menyenangkan dari pekerjaan itu.
Memahami model matematik
Model matematik adalah pusat kepada perlombongan data, tetapi apakah mereka? Apa yang mereka lakukan, bagaimana ia berfungsi, dan bagaimana ia dicipta?
Model matematik adalah, biasa dan mudah, persamaan, atau set persamaan, yang menggambarkan hubungan antara dua atau lebih perkara. Persamaan sedemikian adalah cara tersendiri bagi teori-teori mengenai cara-cara alam dan masyarakat. Teori ini boleh disokong oleh bukti yang besar atau ia mungkin hanya meneka liar. Bahasa matematik adalah sama dalam kedua-dua kes.
Terma seperti model ramalan, model statistik, atau model linear merujuk kepada jenis model matematik tertentu, nama-nama yang menggambarkan penggunaan yang dimaksudkan, satu model tertentu. Ketiga contoh ini hanya beberapa dari sebutan tersebut.
Apabila model disebut dalam tetapan perniagaan, kemungkinan besar model yang digunakan untuk membuat ramalan. Model digunakan untuk meramalkan harga saham, jualan produk, dan kadar pengangguran, di antara banyak perkara lain.
Ramalan ini mungkin atau mungkin tidak tepat, tetapi bagi setiap nilai yang diberikan (faktor-faktor yang dikenali seperti ini dipanggil pembolehubah bebas atau input ) termasuk dalam model, anda akan mencari ramalan yang jelas (juga dikenali sebagai pembolehubah, output, atau bergantung ). Model matematik digunakan untuk tujuan lain dalam perniagaan, juga, seperti untuk menerangkan mekanisme kerja yang mendorong proses tertentu. Dalam perlombongan data, anda membuat model dengan mencari pola dalam data menggunakan pembelajaran mesin atau kaedah statistik. Penambang data tidak mengikuti pendekatan ketat yang sama yang dilakukan ahli statistik klasik, tetapi semua model diperolehi daripada data sebenar dan teknik pemodelan matematik yang konsisten. Semua model perlombongan data disokong oleh satu badan bukti.
Mengapa menggunakan model matematik? Tidakkah hubungan yang sama dapat diterangkan menggunakan kata-kata? Itu mungkin, namun anda mendapati kelebihan tertentu untuk menggunakan persamaan. Ini termasuk
Kenyamanan:
-
Dibandingkan dengan uraian bersamaan yang ditulis dalam ayat, persamaan adalah ringkas. Perlambangan matematik telah berkembang khusus untuk maksud mewakili hubungan matematik; bahasa seperti bahasa Inggeris tidak. Kejelasan:
-
Persamaan menyampaikan idea-idea ringkas dan tidak jelas.Mereka tidak tertakluk kepada tafsiran yang berbeza berdasarkan budaya, dan simbolisme matematik adalah sejenis bahasa umum yang digunakan di seluruh dunia. Ketekalan:
-
Oleh kerana perwakilan matematik adalah tidak jelas, implikasi keadaan tertentu jelas ditakrifkan oleh model matematik. Meletakkan maklumat ke dalam tindakan
Model hanya memberikan nilai apabila anda menggunakannya dalam perniagaan. Ramalan model mungkin menyokong keputusan dalam pelbagai cara. Anda mungkin
Menggabungkan ramalan ke dalam laporan atau persembahan yang akan digunakan dalam membuat keputusan tertentu.
-
Mengintegrasikan model ke dalam sistem operasi (seperti sistem perkhidmatan pelanggan) untuk memberikan ramalan masa nyata untuk penggunaan setiap hari. (Sebagai contoh, anda mungkin membenderkan tuntutan insurans untuk bayaran segera, penafian segera, atau siasatan lanjut.)
-
Gunakan model untuk ramalan batch. (Sebagai contoh, anda boleh menjaringkan senarai pelanggan dalaman untuk memutuskan pelanggan mana yang patut menerima tawaran tertentu.)