假设我们的基因序列为:

ATCGATCGAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC

我们将其分成 3 条 FASTA 序列,每条序列长度为 40 个碱基,代码如下:

# 将基因序列分成多条fasta序列
seq = 'ATCGATCGAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC'

# 定义fasta文件头部
header = '>seq_'

# 定义每条序列长度
length = 40

# 分割序列并写入fasta文件
with open('sequences.fasta', 'w') as f:
    for i in range(0, len(seq), length):
        f.write(header + str(i//length+1) + '\n')
        f.write(seq[i:i+length] + '\n')

运行代码后,我们会得到一个名为 'sequences.fasta' 的文件,其内容如下:

>seq_1
ATCGATCGAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCT
>seq_2
AGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTA
>seq_3
GCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG
Python 代码将基因序列分割成多条 FASTA 序列

原文地址: https://www.cveoy.top/t/topic/lE4u 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录