蛋白質組研究

北京蛋白質組研究中心成立5年來,已成為中國蛋白質組學國家重點實驗室、全軍基因組學與蛋白質組學重點實驗室。投資10多個億的蛋白質藥物國家工程研究中心、國家蛋白質科學基礎設施即將開工,一個集科學研究、技術服務、成果轉化為一體的綜合基地初見雛形。這一切表明,中國的蛋白質組研究水平已躋身世界前列。

自從人類基因組計畫啟動以來,公共媒體不斷向大眾勾畫著一幅幅美麗的圖景,使人們認為,一旦科學家把各種生物基因組的全部鹼基排列順序測定清楚,生命的遺傳奧秘就會顯露無餘。但是,真實的圖景遠不像普通人想像的那樣簡單。遺傳信息並不直接參與生命活動,而是通過控制蛋白質的形成間接地指導有機體的新陳代謝。也就是說,一個基因所含的遺傳信息,通過一系列複雜的反應,最終導致了相應的蛋白質形成,蛋白質再參與到生命的各種活動中去。所以,要想真正揭開遺傳的奧秘,僅僅了解基因組的鹼基排列順序是很不夠的,還必須認識基因的產物——蛋白質。 
與基因組研究的戰略一樣,科學家們已不再局限於對個別蛋白質進行研究,而是對細胞或組織內成千上萬的蛋白質同時進行研究,即蛋白質組學(proteomics)。2001年2月15日,英國《自然》周刊在發布人類基因組框架圖時,同期登載了一條關於人類蛋白質組研究組織(Human Proteome Organization,HUPO)成立的訊息,標題就叫“現在是蛋白質組了”。但科學家們也意識到,蛋白質組研究要比基因組研究複雜得多。
剪不斷理還亂的“怪圈”
存在於細胞核里的DNA構成了基因組。基因組作為遺傳信息的載體,最根本的特徵就是穩定不變。對單細胞生物而言,不論在什麼樣的生長條件下,其基因組始終保持不變。對多細胞生物來說,每一個個體的基因組,在構成個體的不同種類的細胞里都是一樣的,知道了個體內某一細胞內的基因組就知道了該個體所有細胞的基因組。然而對於蛋白質組而言,由於蛋白質是生命活動的主要執行者,不同類型的細胞或同一個細胞在不同的活動狀態下,其蛋白質組的蛋白質種類構成卻是很不一樣的。 
所以,蛋白質組與基因組的一個重要差別就是蛋白質組具有多樣性。這種差別要求我們對“蛋白質組”的概念要進行仔細的分析。目前蛋白質組比較公認的定義是:一個基因組內所有基因表達的全部蛋白質。這種定義從字面上容易理解,但在實際中卻很成問題。 
任何一種生物的基因組,都是由不編碼蛋白質的核苷酸序列和編碼蛋白質的核苷酸序列(基因)所組成。基因通常只是基因組的一小部分,例如編碼人類蛋白質的核苷酸序列大約占人類基因組的2%。要想從混雜有大量非編碼核苷酸序列的基因組中找出基因,如同沙裡淘金。基因組研究的結果表明,一個基因組擁有的“基因”數目是由兩部分組成的:通過實驗證明確有蛋白質產物的真實基因、根據起始密碼和終止密碼序列所確定的潛在基因。生物學家們把這兩類基因都稱為“開放閱讀框”(open reading frame,ORF)。因此,一個基因組內的基因數目通常是指ORF的數目。 
當一個基因組的全序列測定之後,確定其含有的ORF就成為了主要任務,稱為基因注釋。目前用於基因注釋的方法還有較高的出錯率,尤其對於那些存在不連續基因(即在一個基因內插有非編碼的核苷酸序列)的複雜基因組,出錯的問題更為突出。此外,這些ORF是否與蛋白質存在一一對應關係也是一個問題。一方面,人們已經發現有許多“假基因”(pseudogene)的存在,這些假基因有和真基因相同的ORF,但卻從不表達。另一方面,由於存在RNA水平上遺傳信息的加工——mRNA編輯(RNA editing),以及蛋白質水平上遺傳信息的加工——蛋白質剪接(protein splicing),許多蛋白質很難找到直接對應的ORF。如果我們不能確定基因組的“所有”基因,我們從何知道蛋白質組的“全部”蛋白質? 
顯然,確定基因數目最可靠的方法是通過研究蛋白質組來進行。據最新統計,人類基因組擁有的基因數目大約是在3萬到4萬個之間。如果能夠把人體252種細胞內的全部蛋白質都給鑑定出來,那么我們就有可能真正知道人類基因組的所有基因。但是這樣一來,基因組和蛋白質組形成了“循環定義”:蛋白質組是以基因組擁有的所有基因的表達產物來構成,而所有基因的確定又必須通過蛋白質組來給予肯定。可見,要找出一個生物體基因組的所有基因和相應的全部蛋白質,是一項非常困難的任務。
沒有標尺的度量
不同生物的基因組大小有著很大的差別。例如芽殖酵母基因組有1200萬鹼基對,而人類基因組則為32億鹼基對。基因組不論大小,其核苷酸的數量總是很明確的。然而,對蛋白質組來說,蛋白質的種類究竟有多少就很難說了。上面說過,蛋白質組可以被定義為基因組的基因表達的所有蛋白質,但這一定義沒有考慮蛋白質的化學修飾。細胞內的大部分蛋白質通常在合成結束後,都被進行過化學基團的修飾,如磷酸化、糖基化、醯基化等等。修飾過的蛋白質的物理化學性質和生物學功能,均不同於未修飾的蛋白質。如果把一個修飾蛋白視為一種新的蛋白質,那么蛋白質組的蛋白質數量,將遠遠大於相應的基因組的基因數量。在這個意義上,人們估計人類蛋白質組的蛋白質種類大約在20萬到200萬之間。顯而易見,蛋白質組蛋白質數量的估計是非常模糊的。
從蛋白質修飾的角度來看,不僅僅是蛋白質種類大大增加,更重要的是,由於不存在度量修飾蛋白質種類的尺度,人們也許永遠不能像確定基因組核苷酸序列那樣,準確地統計出生物體內蛋白質組的蛋白質總數。如果說表達產生的蛋白質種類可以根據基因的數目來確定,那么修飾形成的蛋白質種類只有依靠對蛋白質的直接研究來判定。生命是一個永遠處於變化中的開放系統。既然蛋白質的修飾和生命活動密切相關,因而這種研究是沒有止境的。從這種意義上來說,對基因組核苷酸序列的測定是一種“有限”的工作,而對蛋白質組蛋白質種類的確定則是一種“無限”的工作。
四維尺度下的研究
DNA作為遺傳信息的載體,以雙螺鏇的形式存在於細胞核內,在細胞一代代的繁衍過程中其鹼基序列始終保持不變,因此在測定基因組的DNA序列時不需要考慮時空的影響。而在蛋白質組的研究中,時間和空間的影響都是不可忽略的。 
首先,在個體發育的不同階段或細胞的不同活動時期,細胞內產生的蛋白質種類是不一樣的。此外,不同蛋白質的壽命也不一樣。有些蛋白質在合成後成為細胞的結構成分,相當穩定;而有些蛋白質在產生後被用來進行某種細胞活動,比如基因轉錄的調控,工作一旦完成就被迅速降解。因此,在分析蛋白質組的蛋白質成分時,需要把時間作為一個重要的參數。對於在不同時間過程中蛋白質組的組成成分的比較分析——差異蛋白質組研究,已成為當前蛋白質組學的主要內容。 
蛋白質的另一個重要特徵是,不同的蛋白質通常分布在細胞的不同部位,它們的功能與其空間定位密切相關。要想真正了解蛋白質的功能,通常還需要知道蛋白質所處的空間位置。更為重要的是,許多蛋白質在細胞里不是靜止不動的,它們在細胞里常常通過在不同亞細胞環境裡的運動發揮作用。例如細胞周期的調控過程、細胞的信號轉導和轉錄調控,都依賴於蛋白質空間位置的變化和運動。因此,蛋白質組學中又派生了一個與空間緊密相關的新研究領域——亞細胞蛋白質組學。這種亞細胞蛋白質組可能是細胞器蛋白質組,如高爾基體蛋白質組;也可能是比細胞器還要小的組分,如核膜的蛋白質組。
永 不 孤 獨
在不了解基因組序列的情況下,人們曾經推測,生命的複雜程度是由基因組的基因數量來決定的。也就是說,生命的複雜程度越高,其基因組擁有的基因數目越大。但隨著各種生物的基因組全序列的測定,科學家們認識到情況並非如此。線蟲(C. elegans)是一種低等動物,其基因組的基因數為1.9萬多個。而人類基因組框架圖的完成表明,人基因組的基因總數僅僅比線蟲多1.5萬個左右,遠不是預期的10萬到15萬。剛剛完成的水稻基因組框架圖更讓人吃驚,其基因總數在4.6萬到5.5萬之間,比人的基因還要多。顯然,基因數目與生命的複雜程度沒有直接的相關。那么,在生命從簡單到複雜,從低級到高級的進化過程中,究竟是什麼因子體現了這種變化? 
隨著功能基因組研究的進展,人們已逐漸意識到,這種因子可能就是不同基因的產物蛋白質之間“排列組合”的複雜程度。也就是說,原始生命體中蛋白質之間的相互關係比較簡單,而高級生命體中蛋白質之間則具有較為複雜的關係網。
蛋白質組具有一個不同於基因組的重要特性,即蛋白質彼此間有著直接的影響。某一個蛋白質功能的實現,通常離不開它與其他蛋白質之間的相互作用。也許可以說,不與其他蛋白質發生作用的“孤立蛋白質”根本就不存在。過去,科學家們因研究手段的限制,只能研究數個蛋白質之間的相互作用,而今天通過蛋白質組學的新方法,可以同時研究成千上萬個蛋白質之間的相互作用。例如,芽殖酵母基因組全部ORF的表達產物——共6000多個多肽,彼此間可能存在的作用情況已進行了分析,從中發現了9百多種可能的相互作用,涉及到1000多個蛋白質。科學家為這一類型的研究專門發明了一個新的名詞——“相互作用組”(interactomes)。
相互作用組研究可以分為兩類。第一類是研究蛋白質相互作用的網路。細胞內的許多活動如信號轉導等,都是通過一個複雜而廣泛的蛋白質相互作用網路實現的。相互作用組的另一類研究是蛋白質複合體組成的分析。蛋白質複合體通常可以分為兩種。一種是結構型的蛋白質複合體,如核孔複合體,這一類通常比較穩定?鴉另一種則是功能型蛋白質複合體,例如負責轉錄的轉錄蛋白複合體、負責DNA複製的複製蛋白複合體等,這類複合體只有在執行功能時才聚合在一起,任務完成後就解離。當前,相互作用組研究已成為蛋白質組研究領域的一個重要內容。
技 術 的 煩 惱
基因組的物質基礎是DNA,它由兩條螺鏇狀生物大分子鏈組成,其中每一條鏈都由成千上萬的核苷酸連線而成,這些核苷酸僅含有四種類型的鹼基。基因組研究的核心任務,就是要測定DNA鏈上四種鹼基的排列順序。因此,DNA測序技術是基因組研究中一個最基本和最主要的工具,這樣一種單一的技術就能勝任基因組的研究工作。但是,在蛋白質組研究中,需要的研究技術遠遠不止一種,並且技術的難度也要大於基因組研究技術。 
首先,由於蛋白質是由20種化學性質各異的胺基酸所組成,因此不同蛋白質的物理化學性質差別很大。例如,有些蛋白質易溶於極性溶劑,有些蛋白質則難溶於極性溶劑;有些蛋白質較穩定,有些蛋白質則易降解。此外,蛋白質的各種修飾和相互作用更增加了蛋白質的複雜性。僅僅通過一兩種技術,顯然不可能完成對蛋白質組內成千上萬種不同性質的蛋白質的檢測。
其次,不同種類的蛋白質的量在細胞內有著很大的差別。例如在酵母細胞里,有些細胞周期調控蛋白不到100個分子,而糖基酶則可能有200萬個分子。據估計,蛋白質之間量的差別,竟可達106數量級。蛋白質組研究的特點是要同時分析各種各樣的蛋白質,因此需要排除巨量的蛋白質類型的干擾,把微量的蛋白質類型從蛋白質混合物中鑑定出來。現有的蛋白質組研究技術,尚不能令人滿意地完成這一任務。
簡而言之,蛋白質組研究對技術的依賴性和要求遠遠超過基因組學

蛋白質組學的研究技術目前還有很多不完善之處,許多新技術正在研發之中。因此,蛋白質組學的發展是受技術限制的,也是受技術推動的。
如果說未知世界是一個無邊無際的海洋,那么我們的知識就是這海洋里一個小小的島嶼。隨著科學的進步,知識的島嶼會不斷地擴張。但我們同時會發現,環繞著知識島的未知領域也在增長。我們的研究可以逐漸地擴大人類知識的領地,但永遠不能窮盡宇宙的奧秘。基因組也好,蛋白質組也好,都不會是人類認識生命的終點。

熱門詞條

聯絡我們