[Day 15] 分析Copy number variation系列（零）

2019 iT 邦幫忙鐵人賽

DAY 15

自我挑戰組

When Bioinfo met Julia: Bioinformatician的30天Julia學習之路系列第 16 篇

2019鐵人賽 julialang bioinformatics cnv

nostalgie1211

2018-10-16 22:32:13

5434 瀏覽

分享至

關於這系列

我預計用4+1篇的篇幅來講一下關於所謂的拷貝數變異的問題、如何分析拷貝數變異、有哪些演算法及實作，以及最後的在Julia底下該怎麼來分析這種資料。

Copy Number Variation

關於copy number variation (CNV)這個名詞的中文翻譯我是借中國那邊的用語來使用，有點不確定台灣這邊怎麼翻譯，所以在這系列我都會以CNV這個簡稱來專指拷貝數變異一詞。從生物學方面的解釋來說，CNV基本上就是一種普遍存在於同一種生物體不同個體之間某些基因體片段重複數量不一的現象，這些不一致來自於該種片段數量的增加或減少（相對於大多數的個體），因此它屬於一種結構變異（structural variation）。CNV不僅僅出現在人類身上，研究發現這現象甚至也能在大腸桿菌中發現。由於CNV在疾病相關的表型上具有非常重要的影響，故在人類上關於這方面的研究數量也就特別多。

在人類的基因體上面其實有很大一部份都是重複序列，在這些重複序列中又有4.8~9.5%的比例被歸類到CNV中。根據其重複序列pattern的長度又可粗分為兩大類—短片段重複（short repeats）以及長片段重複（long repeats）。前者常見的有兩個nucleotides的重複（bi-nucleotide repeats，像這樣A-C-A-C-A-C...）及三個nucleotide的重複（tri-nucleotide repeats），而後者則可能是一整個基因的重複。

前面說到了CNV是個很普遍的現象，那這對於我們又有什麼重要的意義呢？以一個很有名的疾病作為例子來說明好了，Huntington's disease應該算是一種蠻有名氣的神經病變，它主要就是因為位於人類第四號染色體上短臂4p16.3處的一個名為HTT的基因中，有段超長的CAG三個nucleotide重複，這段超長的重複序列（通常是重複超過36次）會使得該基因的蛋白質產物結構不正常，造成部份的神經元的死亡率上升，所以引發了這個看似會讓人手舞足蹈實則神經失調的疾病。

回過來說CNV這件事，既然CNV有可能會造成疾病，那我們有什麼方式能夠檢測CNV呢？過去在NGS這個技術還沒出現甚至是還不普遍的時候，普遍採用檢測CNV的技術有fluorescence in situ hybridization (aka. FISH)法以及array-based Comparative Genomic Hybridization (aka. aGCH)。到了近幾年，隨著NGS技術的進步，也不少臨床實例及相關研究都是採取定序的方式來檢測CNV。

未來幾天，我會跟各位介紹更多更詳細的東西。主要也是因為我最近正在玩這一塊的資料，又恰好之前沒摸過，所以就邊學邊分享啦！