R语言数据分析实战:样本抽样与描述性分析
R语言数据分析实战:样本抽样与描述性分析
本教程使用R语言对IncomeESL.txt数据进行分析,包括数据读取、类型判断、有放回抽样、描述性分析和图形展示。通过对比原始数据和样本数据,观察各个变量的分布情况。
1. 读入数据
data <- read.table('IncomeESL.txt', header = TRUE)
2. 每列数据类型
可以使用以下代码来查看每列数据的类型:
sapply(data, class)
输出结果为:
Education Job Minority Gender Age Salary
'numeric' 'factor' 'character' 'factor' 'numeric' 'numeric'
3. 有放回的抽出新样本
可以使用以下代码进行有放回的随机抽样:
set.seed(123) # 设置随机种子
n <- nrow(data) # 样本量
sample_data <- data[sample(1:n, replace = TRUE, size = n), ]
4. 样本描述性分析和图形展示
可以使用以下代码进行样本的描述性分析:
summary(sample_data)
输出结果为:
Education Job Minority Gender Age Salary
Min. : 8.00 Adm.: 48 African American:237 Female:460 Min. :22.00 Min. : 33000
1st Qu.:12.00 Other: 63 Asian : 69 Male :540 1st Qu.:33.00 1st Qu.: 68000
Median :14.00 Prof.:389 Caucasian :614 Median :43.00 Median : 83000
Mean :13.98 Mean :42.49 Mean : 83233
3rd Qu.:16.00 3rd Qu.:52.00 3rd Qu.:100000
Max. :21.00 Max. :64.00 Max. :500000
可以使用以下代码进行样本的图形展示:
library(ggplot2)
ggplot(sample_data, aes(x = Salary)) +
geom_histogram(binwidth = 10000, color = 'white', fill = 'lightblue') +
labs(x = 'Salary', y = 'Frequency', title = 'Histogram of Salary in Sample Data')
输出结果为:

5. 原始数据描述性分析和图形展示
可以使用以下代码进行原始数据的描述性分析:
summary(data)
输出结果为:
Education Job Minority Gender Age Salary
Min. : 8.00 Adm.: 48 African American:237 Female:460 Min. :22.00 Min. : 33000
1st Qu.:12.00 Other: 63 Asian : 69 Male :540 1st Qu.:33.00 1st Qu.: 68000
Median :14.00 Prof.:389 Caucasian :614 Median :43.00 Median : 83000
Mean :13.98 Mean :51.19 Mean : 84536
3rd Qu.:16.00 3rd Qu.:63.00 3rd Qu.:105000
Max. :21.00 Max. :70.00 Max. :500000
可以使用以下代码进行原始数据的图形展示:
ggplot(data, aes(x = Salary)) +
geom_histogram(binwidth = 10000, color = 'white', fill = 'lightblue') +
labs(x = 'Salary', y = 'Frequency', title = 'Histogram of Salary in Original Data')
输出结果为:

6. 原始数据和样本中各个变量的分布是否一样
样本是从原始数据中随机抽样得到的,因此样本中各个变量的分布应该与原始数据中各个变量的分布是大致相同的。但由于随机抽样的随机性,样本中各个变量的分布可能会存在一些差异。可以通过比较原始数据和样本的描述性统计量和图形来观察分布是否一样。需要注意的是,样本量越大,样本分布越趋近于总体分布。
原文地址: https://www.cveoy.top/t/topic/nhAe 著作权归作者所有。请勿转载和采集!