[Day 19] 分析Copy number variation系列（肆）

2019 iT 邦幫忙鐵人賽

DAY 19

自我挑戰組

When Bioinfo met Julia: Bioinformatician的30天Julia學習之路系列第 20 篇

2019鐵人賽 julialang bioinformatics cnv

nostalgie1211

2018-10-20 20:29:46

1539 瀏覽

回顧一下前兩天

在前兩天的文當中，我分別介紹了應用在SNP array及NGS資料上的CNV-calling方法，今天就來看看如果我想使用julia底下的工具來達成這個目標是否有可能。

先看一下我前面分享過的BioJulia及OpenGene兩個專案

在BioJulia及OpenGene裡頭雖有幾個Packages稍微與CNV-calling有關，但僅僅是Fasta/Fastq、BED/VCF之類檔案的讀寫，像以下這些：

BioSequences.jl
FASTX.jl
BED.jl
BigBed.jl
GeneticVariation.jl
或是可以處理座標區間這類資料的IntervalTrees等。Well，看起來沒有工具可以讓我們能夠很直接地用來call CNV。

如果我就是很懶，在Julia底下我有什麼選擇呢？

先來看看CNV-calling的步驟，根據Biostars上面的某篇討論文章中所提到的CNV-calling的流程中，在還沒涉及到演算法的部份，主要可以分為三個部份：

將定序出來的序列（reads）比對回參考基因體序列及結果過濾。
將參考基因體序列切分成好幾個windows，然後統計每個windows當中比對到那一段位置的reads數量。
對所有windows裡頭的reads數量歸一化並進行統計分析。
將這些步驟具體化一點呈現，就是每個Bioinformatician都很熟悉的scripts。

經過我認真找了一下之後，我找到了這些工具：

第一個工具採用的是一般BAM檔經pileup變成BCF檔再進行variant-calling的方式，中間同樣是使用前面介紹過的pipeline()來完成操作。第二個工具則是利用串接不同的simulated data產生器及不同的variant callers，來比較其性能及結果。第三個工具則是支援對於SeqArray這種工具所產生資料的parser。

看來，想偷懶是不可能的。剩下近兩週的鐵人賽，只好自己跳下來寫了 T_T