Video: Tutorial Membuat Wikipedia yang Baik dan Benar 2024
Manusia menggunakan pengalaman apabila mereka mentafsirkan data yang mereka lihat, tetapi komputer tidak boleh. Perisian penambangan data anda akan melakukan yang terbaik untuk mengenal pasti jenis data dalam setiap lajur, tetapi jenis data sering samar-samar.
Apabila anda melihat senarai Kod ZIP, anda tidak cuba untuk menambah dan tolaknya. Anda tahu bahawa mereka mewakili tempat. Anda memahami ini kerana anda mempunyai banyak pengalaman melihat dan mengenali Kod ZIP. Komputer mungkin mentafsirkan Kod ZIP sebagai integer atau langkah berterusan. Akhirnya, terpulang kepada anda untuk menentukan format yang betul.
Fungsi untuk menetapkan format dan peranan data (seperti menandakan pembolehubah bergantung kepada pemodelan) boleh dikebumikan dalam pelbagai tempat dalam aplikasi penambangan data anda. Anda mungkin menentukan format dan peranan pembolehubah dalam fail data sebelum anda membuka aplikasi perlombongan data (format data asal untuk Orange dan Weka membenarkan ini), sebagai sebahagian daripada import atau kemudiannya dalam proses.
Anda mungkin mempunyai alat yang dibina untuk tujuan ini, seperti alat yang ditunjukkan dalam angka berikut, atau anda boleh menentukan sifat-sifat ini dalam prosedur lain.
Setiap aplikasi perlombongan data mempunyai set jenis ubahsuaian sendiri dan had sendiri tentang bagaimana setiap jenis boleh digunakan. Beberapa had ini berasaskan teori. Sebagai contoh, anda hanya boleh menambah dan tolak nombor, bukan huruf. Tetapi yang lain mungkin hanya soal bagaimana aplikasi itu direka. Sebagai contoh, anda mungkin mendapati bahawa alat pemodelan tertentu dalam satu aplikasi membolehkan anda meramalkan pembolehubah kategori dan berterusan, tetapi alat yang sama dalam aplikasi lain boleh membenarkan pemodelan hanya satu atau yang lain.