辭彙標示框架

辭彙標示框架(Lexical Markup Framework,簡稱LMF)是國際標準組織(ISO/TC37)進行中的一項工作,目的在為自然語言處理與機讀字典的辭彙庫描述建立一個標準化框架。計畫範疇涵蓋對牽涉到多語溝通及文化差異的語言資源,對建立與交換這些資源的準則與方法做標準化處理。

目標

辭彙標示框架的目標有三。其一,為辭彙資源的創造與使用提供共用模型。其二,管理辭彙資源間的資料交換。其三,促進個別電子資源的整合以形成大規模的全球性電子資源。

辭彙標示框架的種類包括單語、雙語或多語的辭彙資源。這三種分類亦適用於小型或大型辭彙庫、簡單或複雜辭彙庫,乃至於書面或口語辭彙表述。說明的範疇包含構詞學、語法學、計算語意學及電腦輔助翻譯。涵蓋的語言包括所有自然語言,並不局限於歐洲地區。此計畫在自然語言處理的運用上不受限制。辭彙標示框架能呈現多數辭典,包括WordNet、EDR及PAROLE。

歷史

在過去,已有不少計畫做過辭彙庫標準化的研究,如GENELEX、EDR、EAGLES、 MULTEXT、PAROLE、SIMPLE 與ISLE。其後,參與ISO/TC37的國家代表決定為自然語言處理與辭彙庫呈現訂定標準。2003年暑假,由美國代表提出的辭彙標示框架計畫誕生。2003年秋,法國代表提出定義資料模型的技術主張,以俾利做自然語言處理的辭典。到了2004初,ISO/TC37委員會又決定做一項共同ISO計畫,由Nicoletta Calzolari (義)擔任召集人,Gil Francopoulo (法)與Monte George (美)擔任編輯。此計畫建立出的辭彙標示框架已有13個版本,並已分送給各國指定的專家做評論,再經過ISO技術會議的討論修正。經過五年的努力,多次會議與電子郵件往來,編輯群間達成共識並建立了完整一致的UML模型。綜上所述,辭彙標示框架應可被視為當今自然語言處理辭彙庫領域中技術發展之極致。

現況

辭彙標示框架已於2008年11月17日正式發行,成為國際標準;標準號碼為ISO24613。

隸屬ISO/TC37家族的一支

ISO/TC37標準家族已被定位為高階指定規格,處理包括斷詞(ISO 24614)、標註(ISO 24611亦稱為MAF、ISO 24612即LAF、ISO24615亦即SynAF與ISO 24617-1又名SemAF/Time)、特徵結構(ISO 24610)、多媒體載體(ISO 24616亦稱為MLIF)以及辭典(ISO 24613)等內容。這些標準主要建立在提供共同術語的低階指定規格,亦即資料範疇匯總(ISO 12620的修定版)、語言編碼(ISO 639)、書寫體編碼(ISO 15924)、國家編碼(ISO 3166)與通用編碼(ISO 10646)。

這兩個階層架構的標準遵循下列兩項簡單共通準則,以構成具內部一致性的標準家族:

•高階指定規格提供了上層的結構框架,其內容將由標準化常數充實之。

•低階指定規格提供標準化常數元素與後設資料。

基本標準

語言學的常數元素如/女性/或/及物/在辭彙標示框架中並沒有被規範,但被記錄在資料範疇匯總(DCR)中。資料範疇匯總是一項全球性資源,由ISO/TC37負責維持,依照ISO/IEC 11179-3:2003*[1]。這些常數元素要用來充實高階結構性元素。

辭彙標示框架遵守由物件管理組(OMG)規範的統一塑模語言(UML)。結構由UML的階級圖表呈現,例子由UML的例子圖表或物件圖表呈現。

需要補充說明的是,XML的檔案類別定義(DTD)是由辭彙標示框架的附屬檔案所規範 。

模型結構

辭彙標示框架包含下列組成成分:

•核心封包:也就是描述詞條資訊之基本階級的結構。

•核心封包的擴充:它以框架表達,該框架描述核心組成成分的再利用,此核心組成成分與特定辭彙資源所需的額外組成成分相連線。

這些擴充乃特別為下列領域而設定,包含構詞學、機讀字典、自然語言處理語法學、自然語言處理語意學、多語標記、自然語言處理典型模式、多字詞表達模式與限制表達模式。

參見

•構詞學

•機器翻譯,有關於幾種多語標記的資訊(於方法段)。

相關詞條

熱門詞條

聯絡我們