R语言数据分析实战:使用简单随机抽样进行描述性统计分析
使用简单随机抽样进行描述性统计分析
本文将使用R语言的tips数据集,进行简单随机抽样并对数据进行描述性统计分析。
导入数据
首先导入tips数据集并设置随机数种子:
library(ggplot2)
library(dplyr)
set.seed(123)
tips <- as.data.frame(ggplot2::mpg)
# 简单随机抽样
tips_sample <- tips[sample(nrow(tips), 50, replace = TRUE), ]
数值型变量分析
1. 散点图
可以通过散点图来观察两个数值变量之间的关系。
ggplot(tips_sample, aes(x = tip, y = total_bill)) +
geom_point()

从散点图可以看出,总消费金额和小费金额呈正相关关系。
2. 直方图
直方图可以用来描述数值型变量的分布情况。
ggplot(tips_sample, aes(x = tip)) +
geom_histogram(color = 'white', fill = '#0072B2') +
labs(x = 'Tip amount ($)', y = 'Frequency')

从直方图可以看出,小费金额的分布呈右偏态分布,大部分小费金额集中在 2 到 4 美元之间。
3. 箱线图
箱线图可以用来描述数值型变量的分布情况和异常值情况。
ggplot(tips_sample, aes(x = tip)) +
geom_boxplot(fill = '#0072B2', alpha = 0.5) +
labs(x = 'Tip amount ($)', y = 'Frequency')

从箱线图可以看出,小费金额的中位数约为 3 美元,上四分位数为 3.56 美元,下四分位数为 2.0 美元,存在一些小费金额比较高的异常值。
因子型变量分析
1. 饼图
饼图可以用来描述因子型变量的分布情况。
ggplot(tips_sample, aes(x = '', fill = factor(smoker))) +
geom_bar(width = 1) +
coord_polar(theta = 'y') +
labs(fill = 'Smoker')

从饼图可以看出,样本中吸烟者和非吸烟者的比例大约是 2:3。
2. 条形图
条形图可以用来描述因子型变量的分布情况。
ggplot(tips_sample, aes(x = factor(sex), fill = factor(sex))) +
geom_bar() +
labs(x = 'Gender', y = 'Count')

从条形图可以看出,就餐者中男性和女性的比例大约是 1:1。
总结
本文通过对tips数据集进行简单随机抽样和描述性统计分析,展示了如何利用直方图、箱线图、饼图、条形图等可视化手段来分析数据的分布情况和特征。这些方法可以帮助我们更好地理解数据,并为后续的统计分析提供参考。
原文地址: https://www.cveoy.top/t/topic/m9cq 著作权归作者所有。请勿转载和采集!