这里给出一种常见的方法,使用edgeR包来去除表达低的数据。

  1. 安装和加载edgeR包
install.packages('edgeR')
library(edgeR)
  1. 读入count数据

假设我们的count数据已经存储在一个名为counts的数据框中,其中行代表基因,列代表样本。

counts <- read.table('counts.txt', header=TRUE, row.names=1)
  1. 转换数据格式

将数据框转换为edgeR包中的DGEList对象,该对象包含了count数据和其他一些元数据。

dge <- DGEList(counts)
  1. 进行样本归一化和基因筛选

使用edgeR中的calcNormFactors函数进行样本归一化,然后使用filterByExpr函数筛选掉表达量较低的基因。

dge <- calcNormFactors(dge)
keep <- filterByExpr(dge)
dge <- dge[keep,,keep.lib.sizes=FALSE]
  1. 输出结果

最后,我们可以将处理后的count数据保存为一个新的文件。

write.table(dge$counts, file='filtered_counts.txt', sep='	', quote=FALSE)
R语言使用edgeR包去除RNA-seq count中表达较低的数据

原文地址: https://www.cveoy.top/t/topic/oEzK 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录