使用 seqkit 提取基因组特定序列 - 基于碱基位置 - 常规

使用 seqkit 的 subseq 命令可以根据碱基位置提取基因组中的一段序列。以下是具体步骤:

seqkit subseq -r 1:1000-2000 genome.fa > chr1_1000_2000.fa

其中，-r 参数指定要提取的序列的范围，1 表示要提取的序列所在的染色体编号，1000-2000 表示要提取的序列的起始和终止位置。genome.fa 是基因组序列文件名，chr1_1000_2000.fa 是输出文件名。

seqkit stats chr1_1000_2000.fa

输出结果包括序列数、总长度、最长和最短序列长度等信息。