Isi kandungan:
- Bagaimana untuk menjana data yang diperoleh
- Data yang digunakan dalam model ramalan biasanya dikumpulkan dari pelbagai sumber. Analisis anda boleh diambil dari data yang tersebar di pelbagai format data, fail, dan pangkalan data, atau berbilang jadual dalam pangkalan data yang sama. Menyusun data bersama-sama dan menggabungkannya menjadi format bersepadu untuk pemodelan data yang digunakan adalah penting.
Video: Cara Menghitung Rumus Persen (%) di Excel Versi EXCEL ID 2024
Dalam fasa eksplorasi analisis ramalan ini, anda akan mendapat pengetahuan mendalam tentang data anda - yang seterusnya akan membantu anda memilih pembolehubah yang berkaitan untuk menganalisis. Pengertian ini juga akan membantu anda menilai hasil model anda. Tetapi pertama-tama anda perlu mengenal pasti dan membersihkan data untuk analisis.
Bagaimana untuk menjana data yang diperoleh
Atribut asal adalah rekod baru yang dibina daripada satu atau lebih atribut sedia ada. Contohnya ialah penciptaan rekod yang mengenal pasti buku-buku yang paling laris di pameran buku. Data mentah tidak dapat menangkap rekod sedemikian - tetapi untuk tujuan pemodelan, rekod yang diperolehi itu boleh menjadi penting. Nisbah harga-per-pendapatan dan purata bergerak 200 hari adalah dua contoh data yang diperolehi yang banyak digunakan dalam aplikasi kewangan.
Atribut derivatif boleh didapati dari pengiraan mudah seperti mengurangkan umur dari tarikh lahir. Atribut turunan juga boleh dikira dengan meringkaskan maklumat daripada berbilang rekod. Sebagai contoh, mengubah jadual pelanggan dan buku yang dibeli ke dalam jadual membolehkan anda menjejaki bilangan buku yang dijual melalui sistem pengesyorkan, melalui pemasaran yang disasarkan, dan di pameran buku - dan mengenal pasti demografi pelanggan yang membeli buku-buku itu.
Bagaimana untuk mengurangkan dimensi data anda
Data yang digunakan dalam model ramalan biasanya dikumpulkan dari pelbagai sumber. Analisis anda boleh diambil dari data yang tersebar di pelbagai format data, fail, dan pangkalan data, atau berbilang jadual dalam pangkalan data yang sama. Menyusun data bersama-sama dan menggabungkannya menjadi format bersepadu untuk pemodelan data yang digunakan adalah penting.
Jika data anda mengandungi sebarang kandungan hierarki, ia mungkin perlu
diratakan . Sesetengah data mempunyai beberapa ciri hierarki seperti hubungan ibu bapa-anak, atau rekod yang terdiri daripada rekod lain.Sebagai contoh, produk seperti kereta mungkin mempunyai berbilang pembuat; data perut, dalam kes ini, bermakna termasuk setiap pembuat sebagai ciri tambahan rekod yang anda sedang analisa. Penyebaran data adalah penting apabila ia digabungkan dari pelbagai rekod yang berkaitan untuk membentuk gambaran yang lebih baik.
Sebagai contoh, menganalisis peristiwa buruk untuk beberapa ubat yang dibuat oleh beberapa syarikat mungkin memerlukan data yang diratakan pada tahap bahan. Dengan demikian, anda akan mengalih keluar hubungan
satu-ke-banyak (dalam kes ini, banyak pembuat dan banyak bahan untuk satu produk) yang boleh menyebabkan terlalu banyak pertindihan data dengan mengulangi banyak entri bahan yang ulangi maklumat produk dan pembuat pada setiap entri. Perataan menurunkan
dimensi data, yang diwakili oleh bilangan ciri rekod atau pemerhatian yang ada. Sebagai contoh, pelanggan boleh mempunyai ciri-ciri berikut: nama, umur, alamat, barang yang dibeli. Apabila anda memulakan analisis anda, anda mungkin mendapati diri anda menilai rekod dengan banyak ciri, hanya beberapa yang penting untuk analisis. Oleh itu, anda harus menghapuskan semua tetapi ciri-ciri yang paling sedikit yang mempunyai kuasa yang paling ramalkan untuk projek khusus anda.
Mengurangkan dimensi data dapat dicapai dengan meletakkan semua data dalam satu jadual yang menggunakan beberapa lajur untuk mewakili sifat-sifat yang menarik. Pada permulaan analisis, tentu saja, analisis itu harus menilai sejumlah besar lajur - tetapi jumlah itu dapat dikurangkan ketika analisis berlangsung.
Proses ini boleh dibantu dengan menyusun semula medan - contohnya, dengan mengelompokkan data dalam kategori yang mempunyai ciri yang sama.
Dataset yang dihasilkan - dataset yang dibersihkan - biasanya dimasukkan dalam pangkalan data yang berasingan untuk penganalisis untuk digunakan. Semasa proses pemodelan, data ini harus mudah diakses, diurus, dan dikemas kini.