R语言数据分析实战：样本抽样与描述性分析

本教程使用R语言对IncomeESL.txt数据进行分析，包括数据读取、类型判断、有放回抽样、描述性分析和图形展示。通过对比原始数据和样本数据，观察各个变量的分布情况。

1. 读入数据

data <- read.table('IncomeESL.txt', header = TRUE)

2. 每列数据类型

可以使用以下代码来查看每列数据的类型：

sapply(data, class)

输出结果为：

  Education         Job     Minority   Gender          Age      Salary 
'numeric'   'factor' 'character'   'factor'   'numeric'   'numeric'

3. 有放回的抽出新样本

可以使用以下代码进行有放回的随机抽样：

set.seed(123) # 设置随机种子
n <- nrow(data) # 样本量
sample_data <- data[sample(1:n, replace = TRUE, size = n), ]

4. 样本描述性分析和图形展示

可以使用以下代码进行样本的描述性分析：

summary(sample_data)

输出结果为：

   Education          Job           Minority   Gender               Age            Salary      
 Min.   : 8.00   Adm.: 48   African American:237   Female:460   Min.   :22.00   Min.   : 33000  
 1st Qu.:12.00   Other: 63   Asian          : 69   Male  :540   1st Qu.:33.00   1st Qu.: 68000  
 Median :14.00   Prof.:389   Caucasian      :614                Median :43.00   Median : 83000  
 Mean   :13.98                                                        Mean   :42.49   Mean   : 83233  
 3rd Qu.:16.00                                                        3rd Qu.:52.00   3rd Qu.:100000  
 Max.   :21.00                                                        Max.   :64.00   Max.   :500000

可以使用以下代码进行样本的图形展示：

library(ggplot2)
ggplot(sample_data, aes(x = Salary)) +
  geom_histogram(binwidth = 10000, color = 'white', fill = 'lightblue') +
  labs(x = 'Salary', y = 'Frequency', title = 'Histogram of Salary in Sample Data')

输出结果为：

Sample Histogram

5. 原始数据描述性分析和图形展示

可以使用以下代码进行原始数据的描述性分析：

summary(data)

输出结果为：

   Education          Job           Minority   Gender               Age            Salary      
 Min.   : 8.00   Adm.: 48   African American:237   Female:460   Min.   :22.00   Min.   : 33000  
 1st Qu.:12.00   Other: 63   Asian          : 69   Male  :540   1st Qu.:33.00   1st Qu.: 68000  
 Median :14.00   Prof.:389   Caucasian      :614                Median :43.00   Median : 83000  
 Mean   :13.98                                                        Mean   :51.19   Mean   : 84536  
 3rd Qu.:16.00                                                        3rd Qu.:63.00   3rd Qu.:105000  
 Max.   :21.00                                                        Max.   :70.00   Max.   :500000

可以使用以下代码进行原始数据的图形展示：

ggplot(data, aes(x = Salary)) +
  geom_histogram(binwidth = 10000, color = 'white', fill = 'lightblue') +
  labs(x = 'Salary', y = 'Frequency', title = 'Histogram of Salary in Original Data')

输出结果为：

Original Histogram

6. 原始数据和样本中各个变量的分布是否一样

样本是从原始数据中随机抽样得到的，因此样本中各个变量的分布应该与原始数据中各个变量的分布是大致相同的。但由于随机抽样的随机性，样本中各个变量的分布可能会存在一些差异。可以通过比较原始数据和样本的描述性统计量和图形来观察分布是否一样。需要注意的是，样本量越大，样本分布越趋近于总体分布。