iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 19
0

回顧一下前兩天

在前兩天的文當中,我分別介紹了應用在SNP array及NGS資料上的CNV-calling方法,今天就來看看如果我想使用julia底下的工具來達成這個目標是否有可能。

先看一下我前面分享過的BioJulia及OpenGene兩個專案

BioJuliaOpenGene裡頭雖有幾個Packages稍微與CNV-calling有關,但僅僅是Fasta/Fastq、BED/VCF之類檔案的讀寫,像以下這些:

如果我就是很懶,在Julia底下我有什麼選擇呢?

先來看看CNV-calling的步驟,根據Biostars上面的某篇討論文章中所提到的CNV-calling的流程中,在還沒涉及到演算法的部份,主要可以分為三個部份:

  1. 將定序出來的序列(reads)比對回參考基因體序列及結果過濾。
  2. 將參考基因體序列切分成好幾個windows,然後統計每個windows當中比對到那一段位置的reads數量。
  3. 對所有windows裡頭的reads數量歸一化並進行統計分析。
    將這些步驟具體化一點呈現,就是每個Bioinformatician都很熟悉的scripts

經過我認真找了一下之後,我找到了這些工具:

第一個工具採用的是一般BAM檔經pileup變成BCF檔再進行variant-calling的方式,中間同樣是使用前面介紹過的pipeline()來完成操作。第二個工具則是利用串接不同的simulated data產生器及不同的variant callers,來比較其性能及結果。第三個工具則是支援對於SeqArray這種工具所產生資料的parser。

看來,想偷懶是不可能的。剩下近兩週的鐵人賽,只好自己跳下來寫了 T_T


上一篇
[Day 18] 分析Copy number variation系列(參)
下一篇
[Day 20] 先來自幹一個makewindows的功能好了
系列文
When Bioinfo met Julia: Bioinformatician的30天Julia學習之路32

1 則留言

0
杜岳華
iT邦新手 5 級 ‧ 2018-10-20 20:49:28

光是各種整理就很感人了

我也是找了才知道 XD

我要留言

立即登入留言