蛋白质二级结构预测命令行工具
该代码实现了一个蛋白质二级结构预测的命令行工具,包含三个命令:train、test 和 cli。
-
train 命令用于训练模型,可以根据参数选择只训练第一层网络或只训练第二层网络。
--first-only只训练第一层网络。--second-only只训练第二层网络。--config指定配置文件。--learning-rate手动设置训练的学习率。--save-training-progress将训练进度保存到文件中。
-
test 命令用于测试模型,需要指定第一层网络文件和第二层网络文件,以及待预测的蛋白质序列文件。
-
cli 命令用于设置日志级别和版本信息。
代码分析
train 命令
-
first_level函数用于训练第一层网络,加载数据、定义多层感知机模型、训练模型并保存模型。 -
second_level函数用于训练第二层网络,将第一层网络输出转换为第二层网络输入格式、加载数据、定义多层感知机模型、训练模型并保存模型。
test 命令
-
transform函数将数据转换为第二层网络的输入格式。 -
get_XY函数加载数据并进行格式转换。 -
train_model函数用于测试模型。
cli 命令
-
设置日志级别,
verbose参数设置日志级别为 DEBUG,quiet参数设置日志级别为 WARNING。 -
添加版本信息。
代码示例
训练模型
python protein_structure_prediction.py train --config default.cfg --save-training-progress training_progress.txt
测试模型
python protein_structure_prediction.py test --first first_level_network.pkl --second second_level_network.pkl protein_sequence.fasta
代码中使用的库
Theano:一个用于定义和训练深度学习模型的 Python 库。Click:一个用于创建命令行工具的 Python 库。pickle:用于序列化和反序列化 Python 对象。logging:用于记录日志信息。datetime:用于获取当前时间。
原文地址: https://www.cveoy.top/t/topic/nvcC 著作权归作者所有。请勿转载和采集!