fasta格式

fasta格式

fasta格式是一種基於文本用於表示核酸序列或多肽序列的格式。其中核酸或胺基酸均以單個字母來表示,且允許在序列前添加序列名及注釋。該格式已成為生物信息學領域的一項標準。

背景知識

發明人

fasta格式發明人 fasta格式發明人

fasta格式,又稱Pearson格式,主要發明人是威廉·皮爾森(William Raymond Pearson)和戴維德.李普曼(David J. Lipman),威廉·雷蒙德·皮爾森是美國維吉尼亞大學的生物化學與分子遺傳學教授,戴維德.李普曼在1989年至2017年期間擔任NCBI主任,他也是BLAST算法的發明人之一。1985年3月,雙方在科學期刊Science上合作發表了相關成果 。

資料庫冗餘

DNA和蛋白質資料庫中的很多記錄是屬於同一基因和蛋白質家族,或在不同生物體上發現的同源基因。不同的研究機構可能向資料庫傳送了相同的序列數據,如果沒有被檢查出來,則這些記錄或多或少地緊密相關。當然,這些記錄如果的確非常相近,可以被認定為它們是相同序列,但一些顯著的差異可能是由於基因組多樣性的結果。

冗餘數據至少可能導致以下3個潛在的錯誤:

一是如果一組DNA或胺基酸序列包含了大量非常相關序列族,則相應的統計分析將偏向這些族,在分析結果中,這些族的特性被誇大。

二是序列間不同部分的顯著相關可能是在數據樣本抽樣時是有偏的和不正確的。

最後是如果這些數據是被用於預測,則這些序列將使預測方法—如人工智慧方法—發生偏離。

非冗餘(non-redundant, nr)

生物數據非常複雜,它遠非“冗餘”二字可以準備描述。例如,同一位點上的2個等位基因是不是冗餘的?同一生物體內的2個同功酶是否冗餘?因此,過於苛刻地去除“太過於相似的序列”可能導致一些有價值的信息被刪除,應在數據規模和非冗餘之間找到一個合理的平衡點。

序列數據的偏差或人為假象(artifacts) 主要來自實驗過程,這與其它科學數據的情況相同。這些人為假象主要來自以下幾個方面:

(1) 載體序列污染:在測定序列等實驗過程中,載體序列可能造成污染,致使序列記錄數據中包含了載體序列。

(2) 異源(heterologous)序列污染:有研究表明一些人類cDNA測序結果在實驗過程中被酵母和細菌序列污染。

(3) 序列的重排和缺失。

(4) 重複因子污染:cDNA克隆方法有時會受到逆轉錄因子(如Alus)的影響 。

(5) 測序誤差和自然多態性:測序過程存在一定的誤差機率。

資料庫格式

以下為EMBL和GenBank資料庫的主要格式及內容:

序列名稱、長度、日期

序列說明、編號、版本號

物種來源、學名、分類學位置

相關文獻作者、題目、刊物、日期

序列特徵表

鹼基組成

序列(每行60個鹼基)

EMBL標識字 GenBank標識字 含義

ID LOCUS 序列名稱

DE DEFINITION 序列簡單說明

AC ACCESSION 序列編號

SV VERSION 序列版本號

KW KEYWORDS 與序列相關的關鍵字

OS SOURCE 序列來源的物種名

OC ORGANISM 序列來源的物種學名和分類學位置

DT 建立日期

RN REFERENCE 相關文獻編號或提交註冊信息

RA AUTHORS 相關文獻作者或提交序列作者

RT TITLE 相關文獻題目

RL JOURNAL 相關文獻刊物名或作者單位

RX MEDLINE 相關文獻Medline引文代碼

RC REMARK 相關文獻注釋

RP 相關文獻其它注釋

CC COMMENT 關於序列的注釋信息

DR 相關資料庫交叉引用號

FH FEATURES 序列特徵表起始

FT 序列特徵表子項

SQ BASE CONTENT 序列長度、鹼基數目統計數

空格 ORIGIN 序列

// // 序列結束標誌、空行

常見格式

fasta格式檔案的第一行是由大於號“>”(較常用)或分號“;”打頭的任意文字說明,用於序列標記。從第二行開始為序列本身,只允許使用既定的核苷酸或胺基酸編碼符號(參見支持代碼類型)。通常核苷酸符號大小寫均可,而胺基酸常用大寫字母。使用時應注意有些程式對大小寫有明確要求。一般每行60~80個字母。

核苷酸序列

fasta檔案格式 fasta檔案格式

fasta格式首先以大於號“>”開頭,接著是序列的標識符“gi|187608668|ref|NM_001043364.2|”,然後是序列的描述信息。換行後是序列信息,序列中允許空格,換行,空行,直到下一個大於號,表示該序列的結束。

所有來源於NCBI的序列都有一個gi號“gi|gi_identifier”,gi號類似與資料庫中的流水號,由數字組成,一條核酸或者蛋白質改變了,將賦予一個新的gi號(這時序列的接收號可能不變),不能重複。

gi號後面是序列的標識符,下表是來源於不同資料庫的標識符的說明。標識符由序列來源標識、序列標識(如接收號、名稱等)等幾部分組成,他們之間用“|”隔開,如果某項缺失,可以留空但是“|”不能省略。如上例中標識符為“ref|NM_001043364.2|”,表示序列來源於NCBI的參考序列庫,接收號為“NM_001043364.2”。

檔案中和每一行通常60到80個字元。

對於核酸序列,除了為大家所熟知的A、C、G、T、U外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(帶酮基);M代表A或C(帶氨基);S代表G 或C(強);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一種。

胺基酸序列

>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*

支持代碼類型

核苷酸代碼

核苷酸代碼意義核苷酸代碼意義
A 腺苷(adenosine) SG或C (強作用strong)
C 胞嘧啶(cytidine) WA或T (弱作用weak)
G 鳥嘌呤(guanine) BG或T或C
T 胸腺嘧啶核苷(thymidine) DG或A或T
U 尿嘧啶(uridine) HA或C或T
R G或A (puRine) VG或C或A
Y T或C (嘧啶pyrimidine) NA 或G或C或T (任意1種)
K G或T (酮化keto) X未知的
M A或C (胺化amino) -片段長度不定

胺基酸代碼

胺基酸代碼意義
胺基酸代碼意義
A丙氨酸(Alanine)O 吡咯賴氨酸(Pyrrolysine)
B 天冬氨酸(Aspartic acid)或 天冬醯胺(Asparagine) P 脯氨酸(Proline)
C半胱氨酸(Cysteine)Q 谷氨醯胺(Glutamine)
D天冬氨酸(Aspartic acid)S絲氨酸(Serine)
E谷氨酸(Glutamic acid)T蘇氨酸(Threonine)
F苯丙氨酸(Phenylalanine)U硒半胱氨酸(Selenocysteine)
G甘氨酸(Glycine)V纈氨酸(Valine)
H組氨酸(Histidine)W色氨酸(Tryptophan)
I異亮氨酸(Isoleucine)X任意胺基酸
K賴氨酸(Lysine)Y酪氨酸(Tyrosine)
L亮氨酸(Leucine)Z 谷氨酸(Glutamic acid)或 谷氨醯胺(Glutamine)
M 甲硫氨酸(Methionine) * 翻譯終止
N 天冬醯胺(Asparagine) - 不確定長度空白占位符
R精氨酸(Arginine)J 亮氨酸(Leucine)或 異亮氨酸(Isoleucine)

標識符

資料庫名稱(Database Name)標識符(Identifier Syntax)
GenBankgb | accession | locus
EMBL Data Libraryemb|accession|locus
DDBJ, DNA Database of Japandbj|accession|locus
NBRF PIRpir||entry
Protein Research Foundationprf||name
SWISS-PROTsp|accession|entry name
Brookhaven Protein Data Bankpdb|entry|chain
Patentspat|country|number
GenInfo Backbone Idbbs|number
General database identifiergnl|database|identifier
NCBI Reference Sequenceref|accession|locus
Local Sequence identifier lcl|identifier

相關詞條

相關搜尋

熱門詞條

聯絡我們