Isi kandungan:
- Pakej ggplot2 juga menjadikannya sangat mudah untuk membuat garis regresi melalui data anda. Anda menggunakan fungsi stat_smooth () untuk membuat garis jenis ini.
- Seterusnya, tambahkan lebih lancar. Ini semudah menambahkan stat_smooth () ke baris kod anda. >> p + stat_smooth ()
Video: Statistical Programming with R by Connor Harris 2025
Selepas data, pemetaan, dan geom, unsur keempat lapisan ggplot2 dalam R menggambarkan bagaimana data harus diringkaskan. Dalam ggplot2, anda merujuk kepada ringkasan statistik ini sebagai statistik .
Satu ciri mudah ggplot2 adalah pelbagai fungsi untuk meringkaskan data anda dalam plot. Ini bermakna anda sering tidak perlu merumuskan semula data anda. Sebagai contoh, ketinggian bar dalam histogram menunjukkan berapa banyak pemerhatian sesuatu yang anda ada dalam data anda. Ringkasan statistik untuk ini adalah mengira pemerhatian. Ahli statistik merujuk kepada proses ini sebagai binning, dan stat default untuk geom_bar () adalah stat_bin ().
Secara analog dengan cara setiap geom mempunyai stats lalai yang berkaitan, setiap statistik juga mempunyai geom lalai.
Jadi, ini menimbulkan persoalan: Bagaimana anda memutuskan sama ada menggunakan geom atau stat? Secara teori, tidak kira sama ada anda memilih geom atau stat terlebih dahulu. Walau bagaimanapun dalam amalan, ia sering intuitif untuk memulakan dengan jenis plot terlebih dahulu - dengan kata lain, nyatakan geom. Sekiranya anda mahu menambah satu lagi ringkasan statistik, gunakan statistik.
Stat
Deskripsi
Geom Default | stat_bin () | Mengira bilangan pemerhatian dalam tong. |
---|---|---|
geom_bar () | stat_smooth () | Mencipta garis lancar |
geom_line () | stat_sum () | Menambahkan nilai |
geom_point () | stat_identity () | Tiada ringkasan. Plot data seperti |
geom_point () | stat_boxplot () | Meringkaskan data untuk petak box-and-whisker. |
geom_boxplot () |
|
Anda telah melihat bagaimana menggunakan stat_bin () untuk meringkaskan data anda ke dalam tong, kerana ini adalah stat default geom_bar (). Ini bermakna bahawa dua baris kod berikut menghasilkan plot yang sama: >> ggplot (gempa, aes (x = kedalaman)) + geom_bar (binwidth = 50)> ggplot (gempa, aes (x = kedalaman)) + stat_bin (binwid th = 50) |
Pakej ggplot2 juga menjadikannya sangat mudah untuk membuat garis regresi melalui data anda. Anda menggunakan fungsi stat_smooth () untuk membuat garis jenis ini.
Perkara yang menarik tentang stat_smooth () ialah ia menggunakan regresi tempatan secara lalai. R mempunyai beberapa fungsi yang boleh melakukan ini, tetapi ggplot2 menggunakan fungsi loess () untuk regresi tempatan. Ini bermakna jika anda ingin membuat model regresi linear, anda perlu memberitahu stat_smooth () untuk menggunakan fungsi yang lebih lancar.Anda melakukan ini dengan hujah kaedah.
Untuk menggambarkan penggunaan yang lebih lancar, mulakan dengan mencipta penumpuan pengangguran dalam dataset longley: >> p p
Seterusnya, tambahkan lebih lancar. Ini semudah menambahkan stat_smooth () ke baris kod anda. >> p + stat_smooth ()
Grafik anda harus kelihatan seperti plot di sebelah kiri imej di bawah.
Kadangkala, ggplot2 menjana mesej dengan petua dan maklumat tambahan. Selagi anda tidak melihat amaran atau kesilapan, anda boleh mengabaikan mesej ini dengan selamat. Dalam kes ini, stat_smooth () memberitahu anda bahawa lalai yang lebih lancar adalah kaedah yang dipanggil
loess
(melicinkan setempat). Mesej ini juga mengatakan anda boleh menggunakan kaedah pelicinan alternatif.
Akhirnya, gunakan stat_smooth () agar sesuai dan plot model regresi linear. Anda melakukan ini dengan menambah kaedah argumen = "lm": >> p + stat_smooth (method = "lm")
Grafik anda sekarang harus kelihatan seperti plot di sebelah kanan.
stat_smooth ().
Menambah garis regresi dengan stat_smooth (). Melakukan apa-apa dengan identiti Kadangkala anda tidak mahu ggplot2 meringkaskan data anda dalam plot. Ini biasanya berlaku apabila data anda sudah pra-diringkaskan atau apabila setiap baris bingkai data anda terpapar secara berasingan Dalam kes ini, anda ingin memberitahu ggplot2 untuk tidak berbuat apa-apa, dan statistik untuk melakukan ini adalah stat_identity (). Anda mungkin perasan bahawa stat_identity adalah statistik lalai untuk mata dan garisan
