Python 代码将基因序列分割成多条 FASTA 序列

假设我们的基因序列为：

ATCGATCGAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC

我们将其分成 3 条 FASTA 序列，每条序列长度为 40 个碱基，代码如下：

# 将基因序列分成多条fasta序列
seq = 'ATCGATCGAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC'

# 定义fasta文件头部
header = '>seq_'

# 定义每条序列长度
length = 40

# 分割序列并写入fasta文件
with open('sequences.fasta', 'w') as f:
    for i in range(0, len(seq), length):
        f.write(header + str(i//length+1) + '\n')
        f.write(seq[i:i+length] + '\n')

运行代码后，我们会得到一个名为 'sequences.fasta' 的文件，其内容如下：

>seq_1
ATCGATCGAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCT
>seq_2
AGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTA
>seq_3
GCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG