Bioinformatics Overview

Overview

Course site

Why genomics ?

Central dogma 不是標準原則

Central dogma 不是準則，有非常多的變異點
- DNA 生成的 Protein 可以回來和 DNA 結合
- 一些 modifiers (methylation) 可以改變 DNA
所以 information 不只順著影響，也會逆向影響

Sequencing

Sequencing 是 genomics 的核心
- 了解 gene 的所有影響
- 因為 sequencing 的進步，可以測出單個 tumor 的 genome
- 但目前無法完整分析

可以到 NCBI (National Center for Biotechnology Information) 下載這些已經定序好的 gene data

What is genomics ?

如果是指 strucutre:

人類身體大約有 3 billion 個 nucleotides (As, Cs, Gs, Ts) 組成 genome
- 所有 genome 都被分成 23 個 chromosomes (22 + XX or XY)
- Chromosome 又有 centromere 和 telomere

如果是指 function:

Genome 能做什麼 ?
- Encode 所有身體會用到的東西
- Respiration metabolism
- Building brain

如果是指 evolution:

一代一代傳下來的 genome 是幾乎沒有什麼變的
- 但可以和其他生物比較

Difference between Biology-Genetics and Genomics

Biology-Genetics

Genomics

Scope

targeted one or few genes

all genes in a genome

Technology

targeted, low-throughput experiments

global, high-throughput experiments

Hard part

設計良好實驗、不斷重複實驗

大數據、大量計算、不確定性

What Is Genomic Data Science?

Genomic Data Science = Bioinformatics
- 包含 biology, statistics, computer science

Bioinformatics 在做什麼 ?

收集任意 subject (e.g. human) 的細胞樣本
對樣本執行 sequencing
產生大量的 data
每個 sequences 都是小片段，又稱為 reads
將這些 reads 和 reference genome (e.g. average european male) 對齊
開始分析差異
儲存這些資料、分析結果到公開的 database (e.g. NCBI)
對這些公開資料可以進一步分析

上圖順時針共有 8 個步驟，對應於一些重要領域

Experimental design (1, 2, 3)
- 設計出你想研究的東西，產生 data
Alignment & Assembly (3, 4)
- 將 data 與 reference genome 對齊，找出差異，集中結果
Preprocessing & Normalization (4, 5)
- 避免巨量 data 產生 bias 所以要正規化
Statistics & Machine learning (5, 7)
- 用一些技巧來得出結論
Software development (8)
- 利用現成軟體來加速進行
Population genomics (5, 7, 8, 1)
- 不一定只有找出 cancer 原因，也能找出同一群人的特徵 (e.g. 容易得到疾病)
Integrative genomics (6, 7, 8, 1)
- 把所有結果整合

The human genome project

1989 開始由 NIH + DOE (US) 主導
- 一開始目標，在 2005 前 sequence 3 billion basepairs ($1 per base)
Early 1990s
- busy creating maps
- analyze small or large pieces of DNA
1995
- TIGR (Craig Venter)
- 在 haemophilus influenzae (嗜血桿菌) 序列出完整基因
- 1.8 million bases
- 1742 genes
1998
- new sequencing machine
- Celera Genomics company
June 2000
- completion of the human genome
- "Draft"

How many genes do we have ?

在 3 billion 的 bases 中，有多少 encoded genes ?

1964
- 6.7 million genes?
Feb 2001 (Nature 409)
- 30000 - 40000 genes
Feb 2001 (Science 291)
- 26588 genes + 12000 likely genes
Today
- 99.9% genome have been sequenced
- 22000 - 23000 genes

Project result

sequence 3 billion basepairs - succeed!
$1 per base - $1 per 700 bases!
- 700 bases are one read
by 2005 - done in 2001!
Cost today - $1 per 3 million bases!
- 4000-fold cheaper

Measurement Technology

Polymerase Chain Reaction (PCR)

PCR 是製作 DNA copy 的一個重大技術
用 DNA polymerase 幫助複製
因為每做一回合，就拿到雙倍的 DNA copy，是一個 chain reaction

製作材料
- DNA
- Primers (告訴 DNA polymerase 哪裡開始複製)
- DNA polymerase
- A's, C's, G's, T's
Recipe
1. 加熱到 94 度 C
2. 退火 (冷卻) 到 54 度 C
3. 回溫到 72 度 C
4. 回到第一步 (約 30 次 cycle)

首先 2 個 primers 附到 DNA 的兩側開頭 (綠色和藍色)

慢慢加熱，使得 DNA double-strand 和 primers 都慢慢分開

再來慢慢冷卻，不讓 DNA 回復，但讓 primers 回復

讓 DNA polymerase 還有一堆 As, Cs, Gs, Ts 加入，開始複製 DNA (溫度些微加熱)

我們得到了一倍的 DNA copy，下一輪也是如此

通常持續 30 次迴圈，所以共可產生 2^30 個 DNA copy (約十億個 DNA copy)

Next Generation Sequencing (NGS)

現在所用的 data 多為 2007 之後 NGS 技術所產生的 sequencing data

Recall 一下 DNA 是怎麼複製的:

NGS 將大量 template DNA 放在 slide 上面，下圖只用兩個舉例

對大量 template DNA 進行 PCR，產生 copy

利用這個原理，對將被用來複製的 nucleotides 塗上顏色

在他們被複製時按下快門，就可以看到顏色得到對應的原 bases

重複在每個 base 被加入時拍照，就可以得到原本的 sequence

但在越後面的 cycles 會出現越多的錯誤

例如某一些 template 的速度較其他 template 快，某些較慢。所以無法同時一次讀取上千個 base

最終結果如下，有的跟在 ACGT 的是 quality value (正確率)

Quality value 由些 base calling 軟體來評估

Application of Sequencing

由於 NGS 可以非常快速定序，且又非常便宜，所以產生了一些相關的應用

Basic idea
- 轉換一些東西變成 DNA (例如 RNA)
- 對 DNA 進行 NGS

Exome sequencing

人類大約有 1.5% genes (30 to 60 million bases) 是 exons
- Exons (Exome) 是 genome 中負責 protein-coding 的 genes

為了從一堆 DNA fragment 中取出 exons 的部分
- 有一個 magnetic bead 的工具
- Bead 上有 DNA 中的 exon 部分
我們將要測試的 DNA 加熱變成 single-strand
- Exons 會和 bead 上的對應 DNA 結合 (hybridize)
- 接著就可以把這些 exons 取出進行定序