• for F in /home/liulanzhou/metagenome/temp/fastp/*@fp_R1.fq.gz; do: 循环遍历指定目录中所有以_R1.fq.gz结尾的文件,将文件名赋值给变量$F
  • R=${F%_*}_R2.fq.gz;: 将变量$F的值中最后一个下划线(_)及其后面的内容删除,然后在末尾添加_R2.fq.gz,将结果赋值给变量$R。这样可以得到与$F对应的R2文件名。
  • BASE=${F##*/};: 从变量$F的值中,删除最后一个斜杠(/)及其前面的内容,将结果赋值给变量$BASE。这样可以获得文件名(不含路径)。
  • SAMPLE=${BASE%_*};: 将变量$BASE的值中最后一个下划线(_)及其后面的内容删除,将结果赋值给变量$SAMPLE。这样可以获得样本名。
  • time kneaddata: 执行kneaddata程序,用于去除人类基因组序列等污染物。
  • -i $F -i $R: 输入文件参数,指定输入的R1和R2序列文件。
  • -o /home/liulanzhou/metagenome/temp/kneaddata: 输出目录参数,指定输出结果的存放目录。
  • -db /home/liulanzhou/db/kneaddata/human_genome: 数据库参数,指定用于去除污染物的参考序列数据库。
  • -v: 显示详细输出。
  • -t 16: 线程数参数,指定使用的线程数。
  • --trimmomatic /home/liulanzhou/miniconda3/envs/kneaddata/share/trimmomatic-0.39-2/: 指定trimmomatic程序的路径。
  • --sequencer-source none: 指定测序仪类型为none,这意味着不使用默认的测序仪参数。
  • --trimmomatic-options 'MINLEN:60': 指定trimmomatic程序的参数,最小序列长度为60。
  • --max-memory 120000m: 指定最大内存使用量为120000MB。
  • --output-prefix $SAMPLE: 输出前缀参数,指定输出文件的前缀为样本名。
  • --remove-intermediate-output: 删除中间文件,只保留最终输出文件。
  • --bowtie2-options '--very-sensitive-local --dovetail': 指定bowtie2程序的参数,使用very sensitive local模式和dovetail模式。
  • --reorder: 重新排序输出的reads
for F in homeliulanzhoumetagenometempfastpfp_R1fqgz; do R=$F__R2fqgz; BASE=$F##; SAMPLE=$BASE_; time kneaddata -i $F -i $R -o homeliulanzhoumetagenometempkneaddata -db homeliulanzhoudbkneaddatahuman_g

原文地址: http://www.cveoy.top/t/topic/foag 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录