GB2312

GB2312

2312-80《信息交換用漢字編碼字元集

概述

GB2312,全稱GB2312-80《信息交換用漢字編碼字元集 基本集》,於1980年發布。該編碼字元集根據GB 2311《信息技術 字元代碼結構與擴充技術》(ISO/IEC 2022)提供的擴充技術,通過對GB 1988《信息技術 信息交換用ISO七位編碼字元集》(ISO 646,ASCII)所規定C0控制集和G0圖形字元集進行替換和擴充,形成雙位元組編碼的新的編碼字元集。規定了6763個漢字和682個非漢字圖形。

GB2312的編碼原理

按照GB 2311的規定,圖形字元在8位(或7位)代碼中應具有由1個或多個8位(或7位)位組(位元組)構成的編碼表示,而由單個位組表示的每個字元所在的編碼圖形字元集應是94字元集(0x21~0x7E或0xA1~0xFE)或96字元集(0x20~0x7F或0xA0~0xFF)。如此,每個字元通過n個位組串列表示的編碼圖形字元集(n>1)應是94n字元集或96n字元集。通過轉義字元ESC加上一些參數構成轉義序列來指明調用GB 2312漢字字元集,再通過移位功能調用GB 2312中的各個94字元集。(在這94個字元集中,每個漢字字元和非漢字字元各占一個字位,這就是"區位"的由來)。
GB2312規定的漢字為常用漢字,包括簡化漢字三千餘個。由於我國漢字數量巨大(約10萬字),我國又陸續增加了六個輔助集。其中,基本集與第二、第四輔助集是簡化漢字集,第一(即GB 12345)、第三、第五輔助集是繁體集,且基本集與第一、第二與第三、第四與第五輔助集分別有簡、繁體字一一對應關係,(個別簡、繁關係為一對多的漢字除外)。第七輔助集漢字的來源是GB13000.1的CJK統一漢字部分,為日本、韓國和台灣地區使用的漢字。七個字元集包含漢字總計約49,000字(簡化字和繁體字分別編碼)。

GB2312GB2312

GB 2312-80《信息交換用漢字編碼字元集 基本集》在ISO/IEC 2022編碼空間位置圖

熱門詞條

聯絡我們