R语言使用edgeR包去除RNA-seq count中表达较低的数据
这里给出一种常见的方法,使用edgeR包来去除表达低的数据。
- 安装和加载edgeR包
install.packages('edgeR')
library(edgeR)
- 读入count数据
假设我们的count数据已经存储在一个名为counts的数据框中,其中行代表基因,列代表样本。
counts <- read.table('counts.txt', header=TRUE, row.names=1)
- 转换数据格式
将数据框转换为edgeR包中的DGEList对象,该对象包含了count数据和其他一些元数据。
dge <- DGEList(counts)
- 进行样本归一化和基因筛选
使用edgeR中的calcNormFactors函数进行样本归一化,然后使用filterByExpr函数筛选掉表达量较低的基因。
dge <- calcNormFactors(dge)
keep <- filterByExpr(dge)
dge <- dge[keep,,keep.lib.sizes=FALSE]
- 输出结果
最后,我们可以将处理后的count数据保存为一个新的文件。
write.table(dge$counts, file='filtered_counts.txt', sep=' ', quote=FALSE)
原文地址: https://www.cveoy.top/t/topic/oEzK 著作权归作者所有。请勿转载和采集!