R语言筛选数据:找出至少出现在两列的记录
假设三列数据所在的文件名为'data.csv',可以按照以下步骤使用R语言进行筛选:
- 读入数据文件:
data <- read.csv('data.csv')
- 对每一行数据判断至少出现在两列的数据个数,使用apply函数可实现:
count <- apply(data, 1, function(x) sum(!is.na(x)))
其中,!is.na(x)表示对于每一行数据,非缺失值的位置为TRUE,缺失值的位置为FALSE;sum函数则可将TRUE的个数加总,即为至少出现在两列的数据个数。
- 根据判断结果,挑选出符合条件的行:
selected <- data[count >= 2, ]
其中,count >= 2表示判断结果大于等于2的行,即在至少两列中都出现过的数据行。
- 输出结果:
write.csv(selected, 'selected_data.csv', row.names = FALSE)
将筛选后的数据输出到'selected_data.csv'文件中。
完整代码如下:
data <- read.csv('data.csv')
count <- apply(data, 1, function(x) sum(!is.na(x)))
selected <- data[count >= 2, ]
write.csv(selected, 'selected_data.csv', row.names = FALSE)
原文地址: https://www.cveoy.top/t/topic/nHn9 著作权归作者所有。请勿转载和采集!