R语言数据分析实战：使用简单随机抽样进行描述性统计分析

使用简单随机抽样进行描述性统计分析

本文将使用R语言的tips数据集，进行简单随机抽样并对数据进行描述性统计分析。

导入数据

首先导入tips数据集并设置随机数种子：

library(ggplot2)
library(dplyr)

set.seed(123)
tips <- as.data.frame(ggplot2::mpg)

# 简单随机抽样
tips_sample <- tips[sample(nrow(tips), 50, replace = TRUE), ]

数值型变量分析

1. 散点图

可以通过散点图来观察两个数值变量之间的关系。

ggplot(tips_sample, aes(x = tip, y = total_bill)) +
  geom_point()

散点图

从散点图可以看出，总消费金额和小费金额呈正相关关系。

2. 直方图

直方图可以用来描述数值型变量的分布情况。

ggplot(tips_sample, aes(x = tip)) +
  geom_histogram(color = 'white', fill = '#0072B2') +
  labs(x = 'Tip amount ($)', y = 'Frequency')

直方图

从直方图可以看出，小费金额的分布呈右偏态分布，大部分小费金额集中在 2 到 4 美元之间。

3. 箱线图

箱线图可以用来描述数值型变量的分布情况和异常值情况。

ggplot(tips_sample, aes(x = tip)) +
  geom_boxplot(fill = '#0072B2', alpha = 0.5) +
  labs(x = 'Tip amount ($)', y = 'Frequency')

箱线图

从箱线图可以看出，小费金额的中位数约为 3 美元，上四分位数为 3.56 美元，下四分位数为 2.0 美元，存在一些小费金额比较高的异常值。

因子型变量分析

1. 饼图

饼图可以用来描述因子型变量的分布情况。

ggplot(tips_sample, aes(x = '', fill = factor(smoker))) +
  geom_bar(width = 1) +
  coord_polar(theta = 'y') +
  labs(fill = 'Smoker')

从饼图可以看出，样本中吸烟者和非吸烟者的比例大约是 2:3。

2. 条形图

条形图可以用来描述因子型变量的分布情况。

ggplot(tips_sample, aes(x = factor(sex), fill = factor(sex))) +
  geom_bar() +
  labs(x = 'Gender', y = 'Count')

条形图

从条形图可以看出，就餐者中男性和女性的比例大约是 1:1。

总结

本文通过对tips数据集进行简单随机抽样和描述性统计分析，展示了如何利用直方图、箱线图、饼图、条形图等可视化手段来分析数据的分布情况和特征。这些方法可以帮助我们更好地理解数据，并为后续的统计分析提供参考。