Cara Plot Summarized Data dalam ggplot2 dalam R - dummies

Video: Quick Plots - R Studio (ggplot2) 2024

Satu ciri yang sangat mudah dari ggplot2 adalah pelbagai fungsi untuk meringkaskan data R anda dalam plot. Ini bermakna anda sering tidak perlu merumuskan semula data anda. Sebagai contoh, ketinggian bar dalam histogram menunjukkan berapa banyak pemerhatian sesuatu yang anda ada dalam data anda.

Ringkasan statistik untuk ini adalah mengira pemerhatian. Ahli statistik merujuk kepada proses ini sebagai binning, dan stat default untuk geom_bar () adalah stat_bin ().

Secara analog dengan cara setiap geom mempunyai stats lalai yang berkaitan, setiap statistik juga mempunyai geom lalai.

Jadi, ini menimbulkan persoalan: Bagaimana anda memutuskan sama ada menggunakan geom atau stat? Secara teori, tidak kira sama ada anda memilih geom atau stat terlebih dahulu. Walau bagaimanapun dalam amalan, ia sering intuitif untuk memulakan dengan jenis plot terlebih dahulu - dengan kata lain, nyatakan geom. Sekiranya anda mahu menambah satu lagi ringkasan statistik, gunakan statistik.

Dalam plot ini, anda menggunakan data yang sama untuk mula membuat hamburan dengan geom_point () dan kemudian anda menambah garis lancar dengan stat_smooth ().

Lihat beberapa contoh praktikal menggunakan fungsi stat.

Stat	Deskripsi	Geom Lalai
stat_bin ()	Mengira bilangan pemerhatian dalam tong.	geom_bar ()
stat_smooth ()	Mencipta garis lancar.	geom_line ()
stat_sum ()	Menambah nilai.	geom_point ()
stat_identity ()	Tiada ringkasan. Plot data seperti.	geom_point ()
stat_boxplot ()	Meringkaskan data untuk petak box-and-whisker.	geom_boxplot ()
Bagaimana data bin di ggplot2

Anda telah melihat bagaimana menggunakan stat_bin () untuk meringkaskan data anda ke dalam tong, kerana ini adalah stat default geom_bar (). Ini bermakna bahawa dua baris kod berikut menghasilkan plot yang sama: >> ggplot (gempa, aes (x = kedalaman)) + geom_bar (binwidth = 50)> ggplot (gempa, aes (x = kedalaman) binwidth = 50)

Bagaimana untuk memperlancar data R dalam ggplot2

Pakej ggplot2 juga menjadikannya sangat mudah untuk membuat garis regresi melalui data anda. Anda menggunakan fungsi stat_smooth () untuk membuat garis jenis ini.

Perkara yang menarik tentang stat_smooth () ialah ia menggunakan regresi tempatan secara lalai. R mempunyai beberapa fungsi yang boleh melakukan ini, tetapi ggplot2 menggunakan fungsi loess () untuk regresi tempatan. Ini bermakna jika anda ingin membuat model regresi linear anda perlu memberitahu stat_smooth () untuk menggunakan fungsi yang lebih lancar. Anda melakukan ini dengan hujah kaedah.

Untuk menggambarkan penggunaan yang lebih lancar, mulailah dengan membuat penumpuan pengangguran dalam dataset longley: >> ggplot (longley, aes (x = Year, y = Bekerja)) + geom_point ()

Next, tambah halus.Ini semudah menambahkan stat_smooth () ke baris kod anda. >> ggplot (longley, aes (x = Year, y = Employed)) + + geom_point () + stat_smooth ()

Akhir sekali, beritahu stat_smooth untuk menggunakan model regresi linear. Anda melakukan ini dengan menambah kaedah argumen = "lm". >> ggplot (longley, aes (x = Year, y = Employed)) + + geom_point () + stat_smooth (method = "lm")

How to tell ggplot2 to leave data you unsummarized

tidak mahu ggplot2 untuk meringkaskan data anda dalam plot. Ini biasanya berlaku apabila data anda telah diringkaskan sebelum atau apabila setiap baris bingkai data anda terpapar secara berasingan. Dalam kes ini, anda ingin memberitahu ggplot2 untuk tidak berbuat apa-apa, dan statistik untuk melakukan ini adalah stat_identity ().