GB13000

GB13000是一種技術標準,起草單位是信息產業部電子工業標準化研究所。

GB13000 全稱:國家標準GB13000.1:1993《信息技術 通用多八位編碼字元集(UCS)第一部分:體系結構與基本多文種平面
此標準等同採用國際標準ISO/IEC 10646.1:1993《信息技術 通用多八位編碼字元集(UCS)第一部分:體系結構與基本多文種平面》。
GB13000的字元集包含20902個漢字。
此標準由中華人民共和國信息產業部提出;
此標準由信息產業部電子工業標準化研究所歸口;
此標準起草單位:信息產業部電子工業標準化研究所;
2、GB13000(附:Unicode規範)
2.1、GB13000
為了便於多個文種的同時處理,國際標準化組織下屬編碼字元集工作組研製了新的編碼字元集標準,ISO/IEC 10646。該標準第一次頒布是在1993年,當時只頒布了其第一部分,即ISO/IEC 10646.1: 1993,我國相應的國家標準是GB 13000.1-93《信息技術 通用多八位編碼字元集(UCS) 第一部分:體系結構與基本多文種平面》。制定這個標準的目的是對世界上的所有文字統一編碼,以實現世界上所有文字在計算機上的統一處理。
提到GB 13000(ISO/IEC 10646),順便提到Unicode規範。Unicode規範可以被看作是GB 13000在產業界的翻版,是GB 13000以另一種形式在產業界的實現。施樂(Xerox)公司的專家Joseph D. Becker對Unicode的解釋可以幫助我們理解GB 13000的意義,他說:Unicode這個名字意味著建立一個酪壞模╱nique)、統一的(unified)、通用的(universal)編碼(體系)。
GB13000建立了一個全新的編碼體系。ISO/IEC 10646被稱作"多八位"編碼字元集,是因為它採用四個"八位"(即8 bit或稱作位元組)編碼。這四個位元組被用來分別表示組、平面、行和字位。見下圖:
GB2312規定的漢字為常用漢字,包括簡化漢字三千餘個。由於我國漢字數量巨大(約10萬字),我國又陸續增加了六個輔助集。其中,基本集與第二、第四輔助集是簡化漢字集,第一(即GB 12345)、第三、第五輔助集是繁體集,且基本集與第一、第二與第三、第四與第五輔助集分別有簡、繁體字一一對應關係,(個別簡、繁關係為一對多的漢字除外)。第七輔助集漢字的來源是GB13000.1的CJK統一漢字部分,為日本、韓國和台灣地區使用的漢字。七個字元集包含漢字總計約49,000字(簡化字和繁體字分別編碼)。
可以看出,GB13000的總編碼位置高達2,147,483,648個(128組×256平面×256行×256字位)。目前實現的是00組的00平面,稱為"基本多文種平面"(Basic multilingual Plane, BMP),編碼位置65536個。(由於基本多文種平面所有字元代碼的前兩個位元組都是0(00組00平面XX行XX字位),因此,目前在默認情況下,基本多文種平面按照兩位元組處理。)
GB13000的優點和特點非常明顯:
編碼空間非常巨大,可以容納多種文字同時編碼,也就保證了多文種同時處理;
作為統一的編碼,拉丁語系的文字與其它文字一樣,都是採用相同數目的"八位"編碼,即:都是四位元組,在基本多文種平面,都是雙位元組;
註:對於GB1988(ISO646/ASCII)字元,直接增加高八位為0x00即可。
字元和字形的區分十分清楚:字元是負載文本內容的抽象實體,而字形則是可視的具體圖形形式;
通過採用漢字認同規則,各國家/地區的漢字統一編碼,既滿足了各國家/地區對編碼漢字數目的實際需求,又不至於由於漢字在基本多文種平面占據的碼位過多而影響到其他文字的編碼:
由於世界上的文字數量巨大,不可能將所有文字編碼,為此,劃定了專用區,供標準使用者實現其對未編碼字元的特別需要。
其中,CJK統一漢字和CJK統一漢字擴充A收錄了GB2312和第一、三、五、七輔助集的全部漢字27,484個。康熙部首和中日韓補充部首共收錄漢字部首369個。
此外,還收錄了維哈克文(屬於阿拉伯文體系)、朝鮮文、彝文、藏文和蒙古文。預計不久將增加傣文。
2.2、Unicode標準
Unicode 標準目前在基本平面上與GB 13000保持一致。採納UTF-16方案作為未來實現01到0F共15個輔助平面的方式。其它方面與GB 13000基本一致。

熱門詞條

聯絡我們