機器翻譯

機器翻譯

機器翻譯(machine translation),又稱為自動翻譯,是利用計算機把一種自然源語言轉變為另一種自然目標語言的過程,一般指自然語言之間句子和全文的翻譯。它是自然語言處理 (Natural Language Processing)的一個分支,與計算語言學(Computational Linguistics )、自然語言理解( Natural Language Understanding) 之間存在著密不可分的關係。機器翻譯運用語言學原理,機器自動識別語法,調用存儲的詞庫,自動進行對應翻譯,但是因語法、詞法、句法發生變化或者不規則,出現錯誤是難免的。

規則

( Rule-Based )的機譯系統

系統劃分

機譯系統可劃分為基於規則( Rule-Based )和基於語料庫(Corpus-Based)兩大類。前者由詞典和規則庫構成知識源;後者由經過劃分並具有標註的語料庫構成知識源,既不需要詞典也不需要規則,以統計規律為主。機譯系統是隨著語料庫語言學的興起而發展起來的,世界上絕大多數機譯系統都採用以規則為基礎的策略,一般分為語法型、語義型、知識型和智慧型型。不同類型的機譯系統由不同的成分構成。抽象地說,所有機譯系統的處理過程都包括以下步驟:對源語言的分析或理解,在語言的某一平面進行轉換,按目標語言結構規則生成目標語言。技術差別主要體現在轉換平面上。

辭彙型

從美國喬治敦大學的機器翻譯試驗到50年代末的系統,基本上屬於這一類機器翻譯系統。它們的特點是:①以辭彙轉換為中心,建立雙語詞典,翻譯時,文句加工的目的在於立即確定相應於原語各個詞的譯語等價詞;②如果原語的一個詞對應於譯語的若干個詞,機器翻譯系統本身並不能決定選擇哪一個,而只能把各種可能的選擇全都輸出;③語言和程式不分,語法的規則與程式的算法混在一起,算法就是規則。由於第一類機器翻譯系統的上述特點,它的譯文質量是極為低劣的,並且,設計這樣的系統是一種十分瑣碎而繁雜的工作,系統設計成之後沒有擴展的餘地,修改時牽一髮而動全身,給系統的改進造成極大困難。

語法型

研究重點是詞法和句法,以上下文無關文法為代表,早期系統大多數都屬這一類型。語法型系統包括源文分析機構、源語言到目標語言的轉換機構和目標語言生成機構3部分。源文分析機構對輸入的源文加以分析,這一分析過程通常又可分為詞法分析、語法分析和語義分析。通過上述分析可以得到源文的某種形式的內部表示。轉換機構用於實現將相對獨立於源文表層表達方式的內部表示轉換為與目標語言相對應的內部表示。目標語言生成機構實現從目標語言內部表示到目標語言表層結構的轉化。

60年代以來建立的機器翻譯系統絕大部分是這一類機器翻譯系統。它們的特點是:①把句法的研究放在第一位,首先用代碼化的結構標誌來表示原語文句的結構,再把原語的結構標誌轉換為譯語的結構標誌,最後構成譯語的輸出文句;②對於多義詞必須進行專門的處理,根據上下文關係選擇出恰當的詞義,不容許把若干個譯文詞一攬子列出來;③語法與算法分開,在一定的條件之下,使語法處於一定類別的界限之內,使語法能由給定的算法來計算,並可由這種給定的算法描寫為相應的公式,從而不改變算法也能進行語法的變換,這樣,語法的編寫和修改就可以不考慮算法。第2類機器翻譯系統不論在譯文的質量上還是在使用的方便上,都比第1類機器翻譯系統大大地前進了一步。

語義型

研究重點是在機譯過程中引入語義特徵信息,以Burtop提出的語義文法和Charles Fillmore提出的格框架文法為代表。語義分析的各種理論和方法主要解決形式和邏輯的統一問題。利用系統中的語義切分規則,把輸入的源文切分成若干個相關的語義元成分。再根據語義轉化規則,如關鍵字匹配,找出各語義元成分所對應的語義內部表示。系統通過測試各語義元成分之間的關係,建立它們之間的邏輯關係,形成全文的語義表示。處理過程主要通過查語義詞典的方法實現。語義表示形式一般為格框架,也可以是概念依存表示形式。最後,機譯系統通過對中間語義表示形式的解釋,形成相應的譯文。

70年代以來,有些機器翻譯者提出了以語義為主的第3類機器翻譯系統。引入語義平面之後,就要求在語言描寫方面作一些實質性的改變,因為在以句法為主的機器翻譯系統中,最小的翻譯單位是詞,最大的翻譯單位是單個的句子,機器翻譯的算法只考慮對一個句子的自動加工,而不考慮分屬不同句子的詞與詞之間的聯繫。第3類機器翻譯系統必須超出句子範圍來考慮問題,除了義素、詞、詞組、句子之外,還要研究大於句子的句段和篇章。為了建立第3類機器翻譯系統,語言學家要深入研究語義學,數學家要制定語義表示和語義加工的算法,在程式設計方面,也要考慮語義加工的特點。

知識型

目標是給機器配上人類常識,以實現基於理解的翻譯系統,以Tomita提出的知識型機譯系統為代表。知識型機譯系統利用龐大的語義知識庫,把源文轉化為中間語義表示,並利用專業知識和日常知識對其加以精練,最後把它轉化為一種或多種譯文輸出。

智慧型型

目標是採用人工智慧的最新成果,實現多路徑動態選擇以及知識庫的自動重組技術,對不同句子實施在不同平面上的轉換。這樣就可以把語法、語義、常識幾個平面連成一有機整體,既可繼承傳統系統優點,又能實現系統自增長的功能。這一類型的系統以中國科學院計算所開發的IMT/EC系統為代表。

語料庫

(Corpus-Based)的機譯系統

不同於基於規則的機譯系統由詞典和語法規則庫構成翻譯知識庫,基於語料庫的機譯系統是以語料的套用為核心,由經過劃分並具有標註的語料庫構成知識庫。基於語料庫的方法可以分為基於統計(Statistics-based)的方法和基於實例(Example-based)的方法。

基於統計的機器翻譯

基於統計的機器翻譯方法把機器翻譯看成是一個信息傳輸的過程,用一種信道模型對機器翻譯進行解釋。這種思想認為,源語言句子到目標語言句子的翻譯是一個機率問題,任何一個目標語言句子都有可能是任何一個源語言句子的譯文,只是機率不同,機器翻譯的任務就是找到機率最大的句子。具體方法是將翻譯看做對原文通過模型轉換為譯文的解碼過程。因此統計機器翻譯又可以分為以下幾個問題:模型問題、訓練問題、解碼問題。所謂模型問題,就是為機器翻譯建立機率模型,也就是要定義源語言句子到目標語言句子的翻譯機率的計算方法。而訓練問題,是要利用語料庫來得到這個模型的所有參數。所謂解碼問題,則是在已知模型和參數的基礎上,對於任何一個輸入的源語言句子,去查找機率最大的譯文。

實際上, 用統計學方法解決機器翻譯問題的想法並非是 20 世紀 90 年代的全新思想,1949 年W. Weaver 在那個機器翻譯備忘錄就已經提出使用這種方法,只是由於喬姆斯基(N.Chomsky) 等人對計的批判,這種方法很快就被放棄了。批判的理由主要是一點:語言是無限的,基於經驗主義的統計描述無法滿足語言的實際要求。

另外,限於當時的計算機速度,統計的價值也無從談起。計算機不論從速度還是從容量方面都有了大幅度的提高,昔日大型計算機才能完成的工作,今日小型工作站或個人計算機就可以完成了。此外,統計方法在語音識別、文字識別、詞典編纂等領域的成功套用也表明這一方法在語言自動處理領域還是很有成效的。

統計機器翻譯方法的數學模型是由國際商業機器公司 (IBM) 的研究人員提出的。在著名的文章《機器翻譯的數學理論》中提出了由五種詞到詞的統計模型,稱為 IBM 模型 1 到 IBM 模型 5。這五種模型均源自信源-信道模型,採用最大似然法估計參數。由於當時(1993年)計算條件的限制,無法實現基於大規模數據訓練。其後,由Stephan Vogel提出了基於隱馬爾科夫模型的統計模型也受到重視,該模型被用來替代IBM Model 2。在這時的研究中,統計模型只考慮了詞與詞之間的線性關係,沒有考慮句子的結構。這在兩種語言的語序相差較大時效果可能不會太好。如果在考慮語言模型和翻譯模型時將句法結構或語義結構考慮進來,應該會得到更好的結果。

在此文發表後6年,一批研究人員在約翰·霍普金斯大學的機器翻譯夏令營上實現了GIZA軟體包。Franz Joseph Och 在隨後對該軟體進行了最佳化,加快訓練速度。特別是IBM Model 3 到 5的訓練。同時他提出了更加複雜的Model 6。Och發布的軟體包被命名為GIZA++,直到現在,GIZA++還是絕大部分統計機器翻譯系統的基石。針對大規模語料的訓練,已有GIZA++的若干並行化版本存在。

基於詞的統計機器翻譯的性能卻由於建模單元過小而受到限制。因此,許多研究者開始轉向基於短語的翻譯方法。Franz-Josef Och提出的基於最大熵模型的區分性訓練方法使統計機器翻譯的性能極大提高,在此後數年,該方法的性能遠遠領先於其他方法。一年後Och又修改最大熵方法的最佳化準則,直接針對客觀評價標準進行最佳化,從而誕生了今天廣泛採用的最小錯誤訓練方法(Minimum Error Rate Training)。

另一件促進統計機器翻譯進一步發展的重要發明是自動客觀評價方法的出現,為翻譯結果提供了自動評價的途徑,從而避免了繁瑣與昂貴的人工評價。最為重要的評價是BLEU評價指標。絕大部分研究者仍然使用BLEU作為評價其研究結果的首要的標準。

Moses 是維護較好的開源機器翻譯軟體,由愛丁堡大學研究人員組織開發。其發布使得以往繁瑣複雜的處理簡單化。

Google 的線上翻譯已為人熟知,其背後的技術即為基於統計的機器翻譯方法,基本運行原理是通過搜尋大量的雙語網頁內容,將其作為語料庫,然後由計算機自動選取最為常見的詞與詞的對應關係,最後給出翻譯結果。不可否認,Google 採用的技術是先進的,但它還是經常鬧出各種“翻譯笑話” 。其原因在於:基於統計的方法需要大規模雙語語料,翻譯模型、語言模型參數的準確性直接依賴於語料的多少,而翻譯質量的高低主要取決於機率模型的好壞和語料庫的復蓋能力。基於統計的方法雖然不需要依賴大量知識,直接靠統計結果進行歧義消解處理和譯文選擇,避開了語言理解的諸多難題,但語料的選擇和處理工程量巨大。因此通用領域的機器翻譯系統很少以統計方法為主。

基於實例的機器翻譯

與統計方法相同,基於實例的機器翻譯方法也是一種基於語料庫的方法,其基本思想由日本著名的機器翻譯專家長尾真提出,他研究了外語初學者的基本模式,發現初學外語的人總是先記住最基本的英語句子和對應的日語句子,而後做替換練習。參照這個學習過程,他提出了基於實例的機器翻譯思想,即不經過深層分析,僅僅通過已有的經驗知識,通過類比原理進行翻譯。其翻譯過程是首先將源語言正確分解為句子,再分解為短語碎片,接著通過類比的方法把這些短語碎片譯成目標語言短語,最後把這些短語合併成長句。對於實例方法的系統而言,其主要知識源就是雙語對照的實例庫,不需要什麼字典、語法規則庫之類的東西,核心的問題就是通過最大限度的統計,得出雙語對照實例庫。

基於實例的機器翻譯對於相同或相似文本的翻譯有非常顯著的效果,隨著例句庫規模的增加,其作用也越來越顯著。對於實例庫中的已有文本,可以直接獲得高質量的翻譯結果。對與實例庫中存在的實例十分相似的文本,可以通過類比推理,並對翻譯結果進行少量的修改,構造出近似的翻譯結果。

這種方法在初推之時,得到了很多人的推崇。但一段時期後,問題出現了。由於該方法需要一個很大的語料庫作為支撐,語言的實際需求量非常龐大。但受限於語料庫規模,基於實例的機器翻譯很難達到較高的匹配率,往往只有限定在比較窄的或者專業的領域時,翻譯效果才能達到使用要求。因而到目前為止,還很少有機器翻譯系統採用純粹的基於實例的方法,一般都是把基於實例的機器翻譯方法作為多翻譯引擎中的一個,以提高翻譯的正確率。

線上機譯

鑒於機器翻譯仍具相當市場,中國涉足這一領域的廠商也不一而足。國內市場上的翻譯軟體產品可以劃分為四大類:全文翻譯(專業翻譯)、線上翻譯、漢化軟體和電子詞典。

全文翻譯

全文翻譯軟體以中軟“譯星”以及“雅信CAT2.5”為代表;

線上翻譯

線上翻譯軟體主要以“火雲譯客

”、“金山快譯.net2001”、華建的“翻譯網上通”為代表;

漢化類翻譯

漢化類翻譯軟體主要以“東方快車3000”為代表;

詞典工具

詞曲工具軟體以“金山詞霸.net2001”為主要代表。

由於機器翻譯在今後需要滿足人們在浩瀚的網際網路上方便地進行信息蒐集的需求,於是很多翻譯開發者在翻譯準確度上下工夫的同時,開始注重結合用戶的使用領域並進行方向性的開發。根據的市場發展看來,在新一輪的競賽中,線上翻譯前景十分看好。中國的網民已超4億,並繼續以極快速度增長。

質量問題

誤差難免

很多人對機器翻譯有誤解,他們認為機器翻譯偏差大,不能幫人們解決任何問題。其實其誤差在所難免,原因在於,機器翻譯運用語言學原理,機器自動識別語法,調用存儲的詞庫,自動進行對應翻譯,但是因語法、詞法、句法發生變化或者不規則,出現錯誤是難免的,比如《大話西遊》中“給我一個殺你的理由,先”之類狀語後置的句子。機器畢竟是機器,沒有人對語言的特殊感情,它怎么會感受“最是那一低頭的溫柔,像一朵水蓮花不勝涼風的嬌羞”的韻味?畢竟漢語因其詞法、語法、句法的變化及其語境的更換,其意思大相逕庭,就連很多國人都是丈二和尚——摸不著頭腦,就別說機器了。

瓶頸所在

事實上,不論哪種方法,影響機譯發展的最大因素在於譯文的質量。就已有的成就來看,機譯的質量離終極目標仍相差甚遠。

中國數學家、語言學家周海中曾在論文《機器翻譯五十年》中指出:要提高機譯的質量,首先要解決的是語言本身問題而不是程式設計問題;單靠若干程式來做機譯系統,肯定是無法提高機譯質量的。同時,他還指出:在人類尚未明了“人腦是如何進行語言的模糊識別和邏輯判斷”的情況下,機譯要想達到“信、達、雅”的程度是不可能的。這也是制約機譯質量提高的一大瓶頸。

值得一提的是,美國發明家、未來學家雷·科茲威爾在接受《赫芬頓郵報》採訪時預言,到2029年機譯的質量將達到人工翻譯的水平。對於這一論斷,學術界還存在很多爭議。

不論怎樣,目前是人們對機譯最為看好的時期,這種關注是建立在一個客觀認識和理性思考的基礎上的。我們也有理由相信:在計算機專家、語言學家、心理學家、邏輯學家和數學家的共同努力下,機譯的瓶頸問題將會得以解決了。

相關詞條

相關搜尋

熱門詞條

聯絡我們