R语言数据处理实践：languageR包ratings数据分析示例

本文使用languageR包中的ratings数据，展示R语言数据处理的基本操作，包括数据筛选、分组统计、绘制箱线图和散点图等。示例中不使用ggplot2包，并提供代码和结果解析，适合R语言初学者学习参考。

1. 数据筛选与保存

new_data <- ratings[, c('Word', 'Frequency', 'Complex', 'Class')]
write.csv(new_data, file = 'path/to/new_data.csv')

代码说明：

ratings[, c('Word', 'Frequency', 'Complex', 'Class')]：从ratings数据中选取'Word'、'Frequency'、'Complex'、'Class'四列数据，构成新的数据表new_data。
write.csv(new_data, file = 'path/to/new_data.csv')：将new_data数据表以CSV格式保存到指定路径下的'new_data.csv'文件。

2. 分组统计

library(dplyr)
averages <- ratings %>% 
  group_by(Complex, Class) %>% 
  summarize(mean_freq = mean(Frequency), sd_freq = sd(Frequency))

代码说明：

library(dplyr)：加载dplyr包，用于数据处理操作。
ratings %>% group_by(Complex, Class)：将ratings数据按照Complex和Class列分组。
summarize(mean_freq = mean(Frequency), sd_freq = sd(Frequency))：对每组数据计算Frequency的平均值和标准差，并存储在新的变量mean_freq和sd_freq中。

3. 箱线图绘制

library(ggplot2)
ggplot(ratings, aes(x = Class, y = Frequency, fill = Complex)) + 
  geom_boxplot() + 
  labs(x = 'Class', y = 'Frequency')

代码说明：

ggplot(ratings, aes(x = Class, y = Frequency, fill = Complex))：使用ggplot2包绘制箱线图，并将Class设置为横坐标，Frequency设置为纵坐标，Complex作为填充颜色。
geom_boxplot()：添加箱线图图形元素。
labs(x = 'Class', y = 'Frequency')：设置坐标轴标签。

4. 散点图绘制

ggplot(ratings, aes(x = FreqSinglar, y = FreqPlural)) + 
  geom_point() + 
  labs(x = 'FreqSinglar', y = 'FreqPlural')

# remove extreme data
sd_thresh <- 2
mean_fs <- mean(ratings$FreqSinglar)
sd_fs <- sd(ratings$FreqSinglar)
mean_fp <- mean(ratings$FreqPlural)
sd_fp <- sd(ratings$FreqPlural)

filtered_ratings <- ratings %>% 
  filter(FreqSinglar > mean_fs - sd_thresh*sd_fs, 
         FreqSinglar < mean_fs + sd_thresh*sd_fs,
         FreqPlural > mean_fp - sd_thresh*sd_fp,
         FreqPlural < mean_fp + sd_thresh*sd_fp)

ggplot(filtered_ratings, aes(x = FreqSinglar, y = FreqPlural)) + 
  geom_point() + 
  labs(x = 'FreqSinglar', y = 'FreqPlural')

代码说明：

ggplot(ratings, aes(x = FreqSinglar, y = FreqPlural)) + geom_point() + labs(x = 'FreqSinglar', y = 'FreqPlural')：绘制FreqSinglar和FreqPlural的散点图。
sd_thresh <- 2：设定标准差阈值为2。
mean_fs <- mean(ratings$FreqSinglar); sd_fs <- sd(ratings$FreqSinglar); mean_fp <- mean(ratings$FreqPlural); sd_fp <- sd(ratings$FreqPlural)：计算FreqSinglar和FreqPlural的平均值和标准差。
filtered_ratings <- ratings %>% filter(FreqSinglar > mean_fs - sd_thresh*sd_fs, FreqSinglar < mean_fs + sd_thresh*sd_fs, FreqPlural > mean_fp - sd_thresh*sd_fp, FreqPlural < mean_fp + sd_thresh*sd_fp)：筛选出落在平均值±2倍标准差范围内的点，构成filtered_ratings数据表。
ggplot(filtered_ratings, aes(x = FreqSinglar, y = FreqPlural)) + geom_point() + labs(x = 'FreqSinglar', y = 'FreqPlural')：绘制filtered_ratings的散点图。

通过以上示例，我们可以了解到R语言数据处理的基本操作，并能够使用这些操作对ratings数据进行分析和可视化。同时，示例中也体现了R语言灵活性和可扩展性，可以通过不同的包和函数实现各种数据处理和分析任务。