使用 TCGAbiolinks 包从 GDC 下载和准备 TCGA 数据
使用 TCGAbiolinks 包从 GDC 下载和准备 TCGA 数据
本教程将指导您使用 R 中的 TCGAbiolinks 包从基因组数据共享平台 (GDC) 下载和准备 TCGA 数据。
1. 获取项目信息
首先,使用 'getProjectSummary()' 函数获取有关您感兴趣的 TCGA 项目的信息。例如,要获取有关胶质母细胞瘤 (GBM) 项目的信息,请使用以下代码:
# 获取 GBM 项目的摘要信息
summar <- TCGAbiolinks:::getProjectSummary('TCGA-GBM')
# 查看可用项目的列表
TCGAbiolinks:::getGDCprojects()$project_id
2. 创建查询
接下来,使用 'GDCquery()' 函数创建一个查询,以指定要下载的数据。例如,要下载所有 GBM 项目的 RNA 测序数据,请使用以下代码:
# 创建一个查询以下载 GBM 项目的 RNA 测序数据
query <- GDCquery(project = 'TCGA-GBM',
data.category = 'Transcriptome Profiling',
data.type = 'Gene Expression Quantification',
workflow.type = 'HTSeq - Counts')
3. 准备下载
创建查询后,使用 'GDCprepare()' 函数准备下载的数据。此函数将 'GDCquery' 对象作为参数,并返回一个包含下载数据所需信息的 'GDCprepare' 对象。
# 准备下载的数据
query <- GDCprepare(query)
'GDCprepare()' 函数执行以下操作:
- 下载元数据: 下载有关所选数据的文件大小、md5 校验和和其他相关信息。
- 数据子集: 如果查询中指定了任何过滤器,则 'GDCprepare()' 函数将把数据子集化,以仅下载与过滤器匹配的文件。
- 预处理: 'GDCprepare()' 函数可以执行一些预处理步骤,例如解压缩文件和转换文件格式。
4. 下载数据
准备下载后,使用 'GDCdownload()' 函数下载数据。
# 下载数据
GDCdownload(query)
结论
'GDCprepare()' 函数是 TCGAbiolinks 包中的一个重要函数,它可以帮助用户准备下载数据的元数据,并执行一些预处理步骤,以便数据可以在后续分析中使用。
原文地址: https://www.cveoy.top/t/topic/fRNC 著作权归作者所有。请勿转载和采集!