文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

python实现GATK多线程加速示例

2024-04-02 19:55

关注

GATK 变异分析

对于大数据样本可能会比较慢,因此可以按照染色体拆分后进行多线程并行计算。

下面是我写的一个python多线程脚本,仅供参考,拙劣之处敬请指正。

#!/usr/bin/python3
import _thread
import os
import threading
import time
muthreads=[]
bam_file="a.mkdup.bam"
out_file_prefix="flower" 
chr_list=["CHR01","CHR02","CHR03","CHR04","CHR05","CHR06","CHR07","CHR08","CHR09","CHR10","CHR11","CHR12","CHR13"]
for chr in chr_list:
    threads_comonder_name= "gatk   HaplotypeCaller --intervals " + chr +"  -R /mnt/j/BSA/02-read-align/Tifrunner2.fasta -I " + bam_file + "   -ERC GVCF -O "+ out_file_prefix +"-"+chr+".erc.g.vcf"
    muthreads.append(threads_comonder_name)
exitFlag = 0
class myThread (threading.Thread):
    def __init__(self, threadID, name, counter, comander):
        threading.Thread.__init__(self)
        self.threadID = threadID
        self.name = name
        self.counter = counter
        self.comander = comander
    def run(self):
        print ("开始线程:" + self.name)
        print_time(self.name, self.counter, 5, self.comander)
        print ("退出线程:" + self.name)
def print_time(threadName, delay, counter,comander):
          # while counter:
   if exitFlag:
      threadName.exit()
   time.sleep(delay)
   print(comander)
   os.system(comander)#调用操作系统命令行处理数据
        # counter -= 1
# 创建新线程
threadlist=[]
for i, threadsnu in enumerate(muthreads[0:11]):
    print(i)
    print(threadsnu)
    threadsnew=myThread(1, "Thread-" + str(i), 2, threadsnu)
    threadlist.append(threadsnew)
# 开启新线程
for threads in threadlist:
    threads.start()
for threads in threadlist:
    threads.join()
print ("运行结束退出主线程")

下面的来自网络未验证

多条染色体的同样本的vcf文件合并

# for i in {1..22} X Y ;do echo "-I final_chr$i.vcf" '\';done
# for i in {10..19} {1..9} M X Y ;do echo "-I final_chr$i.vcf" '\';done
module load java/1.8.0_91
GATK=/home/jianmingzeng/biosoft/GATK/gatk-4.0.3.0/gatk
$GATK GatherVcfs  \
-I final_chr1.vcf \
-I final_chr2.vcf \
-I final_chr3.vcf \
-I final_chr4.vcf \
-I final_chr5.vcf \
-I final_chr6.vcf \
-I final_chr7.vcf \
-I final_chr8.vcf \
-I final_chr9.vcf \
-I final_chr10.vcf \
-I final_chr11.vcf \
-I final_chr12.vcf \
-I final_chr13.vcf \
-I final_chr14.vcf \
-I final_chr15.vcf \
-I final_chr16.vcf \
-I final_chr17.vcf \
-I final_chr18.vcf \
-I final_chr19.vcf \
-I final_chr20.vcf \
-I final_chr21.vcf \
-I final_chr22.vcf \
-I final_chrX.vcf \
-I final_chrY.vcf \
-O merge.vcf 

合并的时候需要注意,vcf文件的顺序跟每个vcf文件里面头文件顺序是相同的。

以上就是python实现GATK多线程加速示例的详细内容,更多关于python GATK多线程加速的资料请关注编程网其它相关文章!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯