Rumah Kewangan Peribadi Cara Sediakan Data dalam Regresi R untuk Analitik Rancangan - dummies

Cara Sediakan Data dalam Regresi R untuk Analitik Rancangan - dummies

Video: 01 Data Analisis Dengan R Visualisasi Data A 2024

Video: 01 Data Analisis Dengan R Visualisasi Data A 2024
Anonim

Anda perlu mendapatkan data dalam bentuk yang boleh digunakan oleh algoritma untuk membina model analisis ramalan. Untuk melakukannya, anda perlu mengambil sedikit masa untuk memahami data dan mengetahui struktur data. Ketik fungsi untuk mengetahui struktur data. Perintah dan keluarannya kelihatan seperti ini: data

str (autos) '. bingkai ': 398 obs. daripada 9 pembolehubah: $ V1: num 18 15 18 16 17 15 14 14 14 15 … $ V2: int 8 8 8 8 8 8 8 8 8 8 … $ V3: num 307 350 318 304 302 429 454 440 455 390 … $ V4: chr "130. 0" "165. 0" "150. 0" "150. 0" … $ V5: num 3504 3693 3436 3433 3449 … $ V6: num 12 11. 5 11 12 10. 5 10 9 8 5 10 8. 5 … $ V7: int 70 70 70 70 70 70 70 70 70 70 … … V8: int 1 1 1 1 1 1 1 1 1 1 … $ V9: Faktor w / 305 tahap "amc ambassador brougham", …: 

50 37 232 15 162 142 55 224 242 2 …

Dari melihat struktur, anda boleh mengetahui bahawa terdapat beberapa penyediaan data dan pembersihan untuk dilakukan. Berikut adalah senarai tugas yang diperlukan:

  • Namakan semula nama lajur.

    Ini tidak diperlukan, tetapi untuk tujuan contoh ini, lebih baik menggunakan nama lajur yang anda boleh faham dan ingat.

  • Tukar jenis data V4 ( kuda kuda ) ke jenis data angka .

    Dalam contoh ini, kuasa kuda adalah nilai berangka berterusan dan bukan jenis data aksara.

  • Mengendalikan nilai yang hilang.

    Di sini kuasa kuda mempunyai enam nilai yang hilang.

  • Tukar sifat yang mempunyai nilai diskret kepada faktor.

    Di sini silinder, tahun model, dan asal mempunyai nilai-nilai diskret.

  • Buang nama V9 ( nama kereta ).

    Di sini nama kereta tidak menambah nilai kepada model yang anda buat. Jika atribut asal tidak diberikan, anda boleh memperoleh asal dari atribut nama kereta.

Untuk menamakan semula jenis lajur dalam kod berikut: >> kolnames (autos) <-

c ("mpg", "silinder", "displacement" "berat", "pecutan", "model", "asal", 

"carName")

Seterusnya, tukar jenis data kuasa kuda kepada angka dengan kod berikut: >> autos $ horsepower < sebagai. numerik (kuasa kuda kuda autos)

Program ini akan mengeluh kerana tidak semua nilai dalam kuasa kuda merupakan representasi rentetan nombor. Terdapat beberapa nilai yang hilang yang diwakili sebagai "? "Watak. Tidak apa-apa untuk sekarang kerana R menukar setiap contoh? ke NA.

Cara yang biasa untuk mengendalikan nilai-nilai yang hilang bagi pembolehubah yang berterusan adalah untuk menggantikan setiap nilai yang hilang dengan min keseluruhan lajur. Barisan kod berikut ini ialah: >> autos $ horsepower [adalah.na (autos $ kuda kuda)] <- maksud (autos $ kuda kuda, na rm = TRUE)

Adalah penting untuk mempunyai. rm-TRUE dalam fungsi min. Ia memberitahu fungsi untuk tidak menggunakan lajur dengan nilai nol dalam pengiraannya. Tanpa itu, fungsi itu akan kembali.

Seterusnya, tukar atribut dengan nilai diskret kepada faktor. Tiga sifat telah dikenal pasti sebagai diskret. Tiga garisan kod berikut mengubah sifat. >> autos $ asal autos $ modelYear autos $ cylinders <- factor (autos $ cylinders)

Akhir sekali, keluarkan atribut dari bingkai data dengan baris kod ini: >> autos $ carName <- nULL < Pada ketika ini, anda telah selesai menyediakan data untuk proses pemodelan. Berikut adalah pandangan struktur selepas proses penyediaan data: data

str (autos) '. bingkai ': 398 obs. daripada 8 pembolehubah: $ mpg: num 18 15 18 16 17 15 14 14 14 15 … $ silinder: Faktor w / 5 tahap "3", "4", "5", "6", …:

5 5 5 5 5 5 5 5 5 5 … $ displacement: num 307 350 318 304 302 429 454 440 455 390 … $ horsepower: num 130 165 150 150 140 198 220 215 225 190 … $ weight: num 3504 3693 3436 3433 3449 … $ pecutan: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ modelYear: Faktor w / 13 tahap "70", "71", "72", …:

1 1 1 1 1 1 1 1 1 1 … $ asal: Faktor w / 3 tahap "1", "2", "3":

1 1 1 1 1 1 1 1 1 1 …

Cara Sediakan Data dalam Regresi R untuk Analitik Rancangan - dummies

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...