Python 代码将基因序列分割成多条 FASTA 序列
假设我们的基因序列为:
ATCGATCGAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC
我们将其分成 3 条 FASTA 序列,每条序列长度为 40 个碱基,代码如下:
# 将基因序列分成多条fasta序列
seq = 'ATCGATCGAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC'
# 定义fasta文件头部
header = '>seq_'
# 定义每条序列长度
length = 40
# 分割序列并写入fasta文件
with open('sequences.fasta', 'w') as f:
for i in range(0, len(seq), length):
f.write(header + str(i//length+1) + '\n')
f.write(seq[i:i+length] + '\n')
运行代码后,我们会得到一个名为 'sequences.fasta' 的文件,其内容如下:
>seq_1
ATCGATCGAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCT
>seq_2
AGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTA
>seq_3
GCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG
原文地址: https://www.cveoy.top/t/topic/lE4u 著作权归作者所有。请勿转载和采集!