CAGE-seq是一种专门用于鉴定mRNA中所有转录起始位点(TSS)的技术。相对于RNA-seq,CAGE对于选择性启动子的分析是更佳选择。然而,目前公共数据中关于肝细胞癌(HCC)的CAGE-seq数据非常有限。根据我们的调研,我们只找到了一个包含50例HCC和配对癌旁的CAGE数据的数据集。该数据集是由日本实验室生成并提交于dbGap数据库,属于受限制数据,我们很难获得。此外,H3K4me3 ChIP-seq和三代超长读长测序也面临着同样的问题,即数据量少、难以获得和成本高。

为了解决这个问题,新加坡基因组研究所的Patrick Tan教授团队开发了'proActiv'算法,该算法可以通过RNA-seq数据计算启动子的活性。该团队使用来自PCAWG、TCGA和GTEx队列的18,468个样本中的数据进行了启动子活性的量化,并将其与公开的H3K4me3染色质免疫沉淀测序(ChIP-seq)数据以及来自不同细胞系和组织的CAGE标签数据进行了比较,结果显示具有较高的一致性。随后的研究也进一步证明了该方法的可靠性。尽管该方法可能不是计算启动子活性的最佳方式,但在研究条件有限的情况下,它仍然是一种可选的并且具有操作性的计算启动子活性的方法。

根据您的建议,我们下载了FANTOM中HepG2的CAGE-seq数据进行分析。结果显示,在高启动子活性组中几乎所有的启动子都可以检测到CAGE信号,而无活性启动子中只有极少数可以检测到CAGE信号。此外,通过proActiv的启动子活性分析也可以检测出经典选择性启动子RASSF1中不同启动子活性的变化。这也表明利用proActiv根据RNAseq计算启动子活性具有较强的可靠性。另外,我们还在HepG2中通过RT-qPCR验证了ARAP1启动子活性与转录表达丰度的一致性。

proActiv算法:利用RNA-seq数据高效计算启动子活性

原文地址: https://www.cveoy.top/t/topic/fKBF 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录