Video: 01 Data Analisis Dengan R Visualisasi Data A 2024
Anda perlu mendapatkan data dalam bentuk yang boleh digunakan oleh algoritma untuk membina model analisis ramalan. Untuk melakukannya, anda perlu mengambil sedikit masa untuk memahami data dan mengetahui struktur data. Ketik fungsi untuk mengetahui struktur data. Perintah dan keluarannya kelihatan seperti ini: data
str (autos) '. bingkai ': 398 obs. daripada 9 pembolehubah: $ V1: num 18 15 18 16 17 15 14 14 14 15 … $ V2: int 8 8 8 8 8 8 8 8 8 8 … $ V3: num 307 350 318 304 302 429 454 440 455 390 … $ V4: chr "130. 0" "165. 0" "150. 0" "150. 0" … $ V5: num 3504 3693 3436 3433 3449 … $ V6: num 12 11. 5 11 12 10. 5 10 9 8 5 10 8. 5 … $ V7: int 70 70 70 70 70 70 70 70 70 70 … … V8: int 1 1 1 1 1 1 1 1 1 1 … $ V9: Faktor w / 305 tahap "amc ambassador brougham", …:50 37 232 15 162 142 55 224 242 2 …
Dari melihat struktur, anda boleh mengetahui bahawa terdapat beberapa penyediaan data dan pembersihan untuk dilakukan. Berikut adalah senarai tugas yang diperlukan:
-
Namakan semula nama lajur.
Ini tidak diperlukan, tetapi untuk tujuan contoh ini, lebih baik menggunakan nama lajur yang anda boleh faham dan ingat.
-
Tukar jenis data V4 ( kuda kuda ) ke jenis data angka .
Dalam contoh ini, kuasa kuda adalah nilai berangka berterusan dan bukan jenis data aksara.
-
Mengendalikan nilai yang hilang.
Di sini kuasa kuda mempunyai enam nilai yang hilang.
-
Tukar sifat yang mempunyai nilai diskret kepada faktor.
Di sini silinder, tahun model, dan asal mempunyai nilai-nilai diskret.
-
Buang nama V9 ( nama kereta ).
Di sini nama kereta tidak menambah nilai kepada model yang anda buat. Jika atribut asal tidak diberikan, anda boleh memperoleh asal dari atribut nama kereta.
Untuk menamakan semula jenis lajur dalam kod berikut: >> kolnames (autos) <-
c ("mpg", "silinder", "displacement" "berat", "pecutan", "model", "asal","carName")
Seterusnya, tukar jenis data kuasa kuda kepada angka dengan kod berikut: >> autos $ horsepower < sebagai. numerik (kuasa kuda kuda autos)
Program ini akan mengeluh kerana tidak semua nilai dalam kuasa kuda merupakan representasi rentetan nombor. Terdapat beberapa nilai yang hilang yang diwakili sebagai "? "Watak. Tidak apa-apa untuk sekarang kerana R menukar setiap contoh? ke NA.
Cara yang biasa untuk mengendalikan nilai-nilai yang hilang bagi pembolehubah yang berterusan adalah untuk menggantikan setiap nilai yang hilang dengan min keseluruhan lajur. Barisan kod berikut ini ialah: >> autos $ horsepower [adalah.na (autos $ kuda kuda)] <- maksud (autos $ kuda kuda, na rm = TRUE)
Adalah penting untuk mempunyai. rm-TRUE dalam fungsi min. Ia memberitahu fungsi untuk tidak menggunakan lajur dengan nilai nol dalam pengiraannya. Tanpa itu, fungsi itu akan kembali.
Seterusnya, tukar atribut dengan nilai diskret kepada faktor. Tiga sifat telah dikenal pasti sebagai diskret. Tiga garisan kod berikut mengubah sifat. >> autos $ asal autos $ modelYear autos $ cylinders <- factor (autos $ cylinders)
Akhir sekali, keluarkan atribut dari bingkai data dengan baris kod ini: >> autos $ carName <- nULL < Pada ketika ini, anda telah selesai menyediakan data untuk proses pemodelan. Berikut adalah pandangan struktur selepas proses penyediaan data: data
str (autos) '. bingkai ': 398 obs. daripada 8 pembolehubah: $ mpg: num 18 15 18 16 17 15 14 14 14 15 … $ silinder: Faktor w / 5 tahap "3", "4", "5", "6", …:
5 5 5 5 5 5 5 5 5 5 … $ displacement: num 307 350 318 304 302 429 454 440 455 390 … $ horsepower: num 130 165 150 150 140 198 220 215 225 190 … $ weight: num 3504 3693 3436 3433 3449 … $ pecutan: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ modelYear: Faktor w / 13 tahap "70", "71", "72", …:
1 1 1 1 1 1 1 1 1 1 … $ asal: Faktor w / 3 tahap "1", "2", "3":
1 1 1 1 1 1 1 1 1 1 …