計算語言學

計算語言學

計算語言學,是語言學的一個分支,專指利用電子計算機進行語言研究。計算語言學可以說是計算機和語言學相結合的產物。

計算語言學

正文

語言學的一個分支,專指利用電子計算機進行語言研究。
電子計算機問世不久,人們便考慮到它的非數值運算問題,並選中機器翻譯作為第一個非數值運算的課題。這個選擇可以說開闢了計算機非數值套用無比廣闊的領域,許多語言學理論和方法以及許多技術成果都是在它的基礎上或啟發下產生和解決的。例如,文字的輸入輸出設備、大存儲裝置、言語識別和文字識別等課題均在機器翻譯研究初期便已提出。但是由於機器翻譯是一種比較高級的人工智慧,至今尚未能真正或廣泛付諸套用,而計算語言學的其他方面卻得到了很大發展。計算機情報檢索在60年代末期便已實現,現在通過衛星已可進行洲際檢索。利用計算機進行言語統計已成常事,在統計分析的基礎上編成了一大批正序、逆序詞表和頻率詞典,建立了各種語料庫,促進了計算風格學的誕生。同時還編制了大量索引和逐詞索引。大字元集的信息處理問題已得到一定解決,這為中文和其他東方語文的信息處理提供了方便條件。計算機輔助教學日趨成熟與普遍。作為人工智慧一個重要分支的自然語言理解也已奠定了基礎,與此相聯繫的文字自動識別、言語識別和言語合成等項語言工程也在蓬勃開展。計算機在實驗語音學、方言研究、語法分析和詞典編纂等方面也得到了越來越廣泛的套用。
計算語言學之所以有這樣長足的發展,是由於社會的需要。當今世界處於新技術革命時代,一個以電子計算機為基本工具的現代化語言文字信息處理系統正在世界範圍內形成,這標誌著高度發展的信息化社會的到來。計算語言學正是為擔當這一歷史使命而誕生和發展的。
計算語言學發展到今天,按其工作性質和複雜程度,可以歸結為以下3個方面:①自動編排:這是計算機最擅長的工作,也是計算語言學中最成熟的部分。對各種語言素材進行統計、分類、排序,編輯各種詞表、索引和詞典,建立語料庫、術語資料庫等等,已經得到廣泛運用。由於這些技術已經相當成熟,因而已有現成的軟體包提供服務。②自動分析:這是一種較複雜的語言自動處理。這種自動分析系統是根據事先存入計算機內的特定語言信息進行工作,目的在於得到預先規定的結論,例如讓計算機查詞典或進行語法測試,均屬此類。若結論有誤,就證明詞典或語法不夠完備,需要對原先的數據或規則加以修訂或補充。這類系統一般尚處於試驗研究階段。③自動研究:這是一種更複雜的語言自動處理。這種自動研究系統是根據計算機記憶體儲的一般語言信息進行工作,藉助統計、比較、類推等手段,得出自己推斷的結論。人工智慧研究中的某些自然語言理解系統正在朝這方面努力,但目前還沒有比較成熟的研究成果。
計算語言學可以說是計算機和語言學相結合的產物。這種結合已經得到豐碩的成果,除了上面說到的那些套用課題以外,還表現在對語言學理論和方法的影響上。語言的定義擴展了:語言已不僅是人類重要的交際工具,而且也是人機之間的交際工具。為了滿足計算機加工的要求,計算語言學最大的特點就是要求語言的形式化,因為只有形式化,才能算法化、自動化。根據這項要求,近年來制定出一系列面向語言信息處理的自動分析方法,其中包括預示分析法從屬分析法中介成分體系優選語義學擴充轉移網路概念從屬論等等。這些自動分析方法,已在機器翻譯和自然語言理解的系統中得到套用,並證明有效。語言的形式化是分層進行的。語法的形式化相對來說比較簡單,人們已做了不少工作;語義的形式化則是一個複雜的問題,人們進行的工作還不多。而語義形式化問題解決得好壞,將大大影響語言自動加工的成效。因此,繼續發掘行之有效的形式結構分析方法和語義分析方法,研究它們之間的關係,以及探討它們在不同系統中各自使用的限度,這是計算語言學中的重點研究課題。
第五代計算機要求人們賦予它聽覺(識別口語)和更強的視覺(自動識別文字),賦予它說話能力(合成言語)和聽寫能力(語音打字),同時還要求人們賦予它理解自然語言並把某種(或多種)自然語言翻譯成另一種(或多種)自然語言的能力。這樣,計算語言學工作者又需要提供各種物理參數、語言機率性等方面的數據和各種套用軟體,以便同有關的專家、工程師一道共同解決為計算機增添“翅膀”這個重大課題,使之真正成為“萬能的智慧型機器”。
完成上述任務,必須靠整個語言學界的努力和合作。儘管面向機器的語言學有其獨特性,在許多方面都要另起爐灶,但是實踐證明:傳統語言學的基礎雄厚與否對解決一些新任務有很大關係,例如傳統的英漢對比語言學研究得好,就會給英漢機器翻譯提供很多方便。從這個意義上講,計算語言學只有很好地吸取傳統語言學的成果並加以改造,才能得到迅速發展。

配圖

計算語言學計算語言學

相關連線

相關詞條

相關搜尋

熱門詞條

聯絡我們