RPKM

RPKM

RPKM是Reads Per Kilobases per Million reads的縮寫,代表每百萬reads中來自於某基因每千鹼基長度的reads數。

基本信息

簡介

RPKM是將map到基因的read數除以map到基因組上的所有read數(以million為單位)與RNA的長度(以KB為單位)。
RNA-seq是二代測序技術中用來表示基因表達量或豐富的方法。在衡量基因表達量時,若是單純以map到的read數來計算基因的表達量,在統計上是不合理的。因為在隨機抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的基因較高,如此一來,序列長的基因永遠會被認為表達量較高,而錯估基因真正的表現量,所以AliMortazavi等人在2008年提出以RPKM在估計基因的表現量。其公式為:

計算公式計算公式
以下就用一個簡化的例子來說明RPKM的運用方式與概念:
假設一基因體只有兩個基因,一個9KB,一個1KB,如今有一sample,其map到9KB的read有18million個,map到1KB的有2million個,
對於9KB的基因而言,
Totalexonreads=18million
Mappedreads=18+2=20million
Exonlength=9KB
RPKM=18million/(20*9)=0.1*10^6=10^5
對於1KB的基因而言,
Totalexonreads=2million
Mappedreads=18+2=20million
Exonlength=1KB
RPKM=2million/(20*1)=0.1*10^6=10^5
由此我們可以知道這兩個基因表現量沒有差別。
假設此時我們有另一個sample(該例子中map上的reads數較少,RPKM值作為表達量的衡量指數並不可信),其表現如下圖所示:
RPKM
我們可以發現此sample中9KB基因的read數明顯比上一個sample少,如果我們計算RPKM可以得到RPKM=9/((9+1)*10^(-6)*9)=0.1*10^6=10^5,卻與上一個sample相同,這可能是因為cDNA濃度較低或是其他sample備制過程的問題,造成整體read變少,但是對9KB基因而言,其read數占所有read數的比例並沒有發生改變,所以其表現量會和上一個sample相同。

相關詞條

相關搜尋

熱門詞條

聯絡我們