R语言使用edgeR包去除RNA-seq count中表达较低的数据

这里给出一种常见的方法，使用edgeR包来去除表达低的数据。

install.packages('edgeR')
library(edgeR)

假设我们的count数据已经存储在一个名为counts的数据框中，其中行代表基因，列代表样本。

counts <- read.table('counts.txt', header=TRUE, row.names=1)

将数据框转换为edgeR包中的DGEList对象，该对象包含了count数据和其他一些元数据。

dge <- DGEList(counts)

使用edgeR中的calcNormFactors函数进行样本归一化，然后使用filterByExpr函数筛选掉表达量较低的基因。

dge <- calcNormFactors(dge)
keep <- filterByExpr(dge)
dge <- dge[keep,,keep.lib.sizes=FALSE]

最后，我们可以将处理后的count数据保存为一个新的文件。

write.table(dge$counts, file='filtered_counts.txt', sep='	', quote=FALSE)