編碼系統

我們日常接觸的文件分為ASCII和二進制兩種，ASCII是 "American Standard Code for Information Interchange "的英文縮寫，可稱為 "美國標準"。ASCII 規定了從 0 到 127 的 128 個數字來表示信息的標準化代碼，包括 33 個控制代碼、1 個空格代碼和 94 個圖像代碼。圖像碼包括英文大小寫字母、阿拉伯數字、標點符號等。我們通常閱讀的英文計算機文本就是用圖像碼傳輸和存儲的。美國標準是大多數各種規模計算機的通用國際代碼。

不過，計算機中的字符大多用八位二進制數表示。因此，每個字符可以有 256 個不同的值。由於美標所只規定了 128 個代碼，因此其他 128 個數字沒有標準化，使用方式也各不相同。此外，美標所中還有 33 個控制代碼，不同的制造商對它們的使用也不盡相同。因此，當我們在不同計算機之間交換文件時，有必要區分兩類不同的文件。第壹類文件壹字不差，是美標圖像碼或空格碼。這類文件被稱為 "美國標準文本文件"（ASCII 文本文件），或略稱 "文本文件"，通常可以在不同的計算機系統中直接交換。第二類文件，即包含控制代碼或非 ASCII 編碼的文件，通常不能在不同計算機系統之間直接交換。這些文件有壹個共同的名稱，即 "二進制文件"（Binary Files）。GB "是 "中華人民共和國國家標準漢字編碼信息交換標準 "的縮寫。國標表（基本表）是壹個 94 行 94 列的方陣，包含 7000 多個漢字以及標點符號和外文字母。方陣中的每條橫線稱為壹個 "區"，每個區有 94 個 "位"。漢字在方陣中的坐標稱為漢字的 "區碼"。例如，"中 "字位於方陣中第 54 個區的第 48 個位置，其區域代碼為 5448。

事實上，數字 94。這是美國標準中圖像代碼的總數。國標表沿用了這個數字，其用意可能是用兩個美標圖像符號代表壹個漢字。由於美標所圖像符號的編碼範圍從 33 到 126，如果在每個圖像符號上加上 32，漢字區域碼將與美標所圖像碼範圍重疊。例如，如果我們在漢字 "中 "的區域碼上加上 32，它將是 86,80，這兩個數字的十六進制數加起來就是 5650，這就是該漢字的 "國標碼"，而與該漢字相對應的兩個美標所符號 VP 就是 "中 "字的 "國標碼"。這兩個美標所符號 VP 和 VP 就是 "中 "字的 "國標符號"。

這就提出了如何區分國標符號和美標符號的問題。在中英文混雜的文件中，"VP "是代表 "China "還是某個英文縮寫？電子工業部第六研究所在開發 CCDOS 時采用了壹個簡單的解決方案：在國標碼的兩位數上各加 128，上升到非美標碼的位置。(更改後的 GB 碼仍習慣稱為 "GB"）

這個方案當然解決了原來的問題，但新的問題又出現了。中文文件變成了 "二進制文件"，無法在不同的計算機系統之間可靠地交換，也無法與市場上大多數專為美標符號設計的軟件兼容。

為了區分上述兩種 "國標"，我們將原來與美標圖像碼重疊的國標碼稱為 "純國標"，而將 CCDOS 加 128 的國標碼稱為 "準國標"。GBK 碼是國標碼的擴展字符編碼，它編碼了兩萬多個簡繁體漢字，簡體版的 Win95 和 Win98 都使用 GBK 作為系統碼。

從實際使用的角度來看，微軟自 Win95 簡體中文版開始，系統就使用了 GBK 編碼，其中包括 TrueType 宋體、黑體兩種 GBK 字體（由北京中易電子公司提供），可用於顯示和打印，並提供了四種 GBK 漢字輸入法。此外，瀏覽器 IE4.0 簡體中文版和繁體中文版內部提供了 GBK-BIG5 碼雙向轉換功能。此外，微軟為 IE 提供的語言包中，簡體中文語言支持工具包（Simplified Chinese Language Support Kit）中的宋體、黑體兩種字體，也都是 GBK 漢字（珠海四通電腦排版系統開發公司提供）。其他壹些中文字體制造商，也開始提供 TrueType 或 PostScript GBK 字庫。

許多插件式中文平臺，如南極星和四通利方（Richwin），都提供 GBK 編碼支持，包括字庫、輸入法以及 GBK 和其他中文編碼的轉換器。

在互聯網上，許多網頁都使用 GBK 代碼。

但是，大多數搜索引擎並不能很好地支持 GBK 漢字搜索，而中國大陸的壹些搜索引擎也不能完全支持 GBK 漢字搜索。

事實上，GBK 是另壹種漢字編碼標準，全稱為《漢字內碼擴展規範》，頒布於 1995 年。GB 是國家標準，K 是漢字 "擴展 "的漢語拼音首字母。GB 是國家標準，K 是 "擴展 "漢字的漢語拼音首字母。

GBK兼容GB-2312編碼，支持ISO 10646.1國際標準，是前者向後者過渡的標準。

GBK規範包括ISO 10646.1中的所有中日韓字符和符號，並增加了壹些內容。具體來說，它包括：GB 2312 中的所有漢字和非漢字符號；GB 13000.1 中的其他中日韓字符。以上共計 20902 個國標化漢字；《簡化字總表》中未收錄於 GB 13000.1 的 52 個漢字；《康熙字典》和《辭海》中未收錄於 GB 13000.1 的 28 個部首和重要部件；13 個漢字結構符號；以及 GB 2312 中未收錄但 GB 13000.1 中存在的 139 個圖形符號。1中的139個圖形符號；GB 12345增加的6個拼音符號；GB 12345增加的19個豎排圖形符號（與GB 2312相比，GB 12345增加了29個豎排標點符號，其中10個不在GB 13000.1中，因此GBK不包括在內）；從GB 13000.1中日韓兼容區中選擇的21個漢字；GB 13000.1中包括的31個IBM OS/2專用漢字。1 GBK 也采用雙字節表示法，總體編碼範圍在 0x8140~0xFEFE 之間，第壹個字節在 0x81~0xFE 之間，最後壹個字節在 0x40~0xFE 之間，不包括 0x××7F 壹行，共收集了 23940 個編碼位、****21886 個漢字和圖形符號，其中 21、886個漢字（包括部首和構件），包括21個漢字（包括部首和構件）、21個漢字（包括部首和構件）、21個漢字（包括部首和構件）、21個漢字（包括部首和構件）、21個漢字（包括部首和構件）。包括部首和構件）21003 個，圖形符號 883 個。HZ 編碼是由中國學生創造的，目的是在互聯網上直接傳輸漢字信息。由於目前（西方）的網絡系統大多為 7 位，且最高位被屏蔽，因此 GB 碼無法直接傳輸，而 HZ 碼就是為了在 7 位網絡系統中直接傳輸漢字信息而標準化的。

"HZ "程序的特點是將 "純國標 "漢語和美標編碼混合使用。那麽，"HZ "是如何區分國標和美標字符的呢？答案其實很簡單：當壹個國標碼插入壹串美標碼中間時，我們會在國標碼前加上 ~，在國標碼後加上 ~。這些附加代碼被稱為 "轉義碼 "和 "轉碼"。由於這些附加碼也是美標圖像碼，因此整個文件就如同壹個美標文本文件，可以在計算機網絡上安全地傳遞，也能與大多數英文文本處理軟件兼容。1993 年，國際標準 ISO 10646 定義了通用字符集（UCS）。UCS 是所有其他字符集標準的超集。它保證了與其他字符集的雙向兼容性。也就是說，如果您將任何文本字符串轉換為 UCS 格式，然後再將其轉換回原始編碼，您不會丟失任何信息。

UCS包含所有已知語言的字符。它不僅包括拉丁語、希臘語、斯拉夫語、希伯來語、阿拉伯語、亞美尼亞語和格魯吉亞語的描述，還包括象形文字，如中文、日文和韓文，以及平假名、片假名、孟加拉語、旁遮普古爾木希語、泰米爾語、印度英語和印地語。卡納達語、馬拉雅拉姆語、泰語、老撾語、波波佛語、韓語、德文加裏語、古吉拉特語、奧裏雅語、泰盧固語等。由於正在研究如何在計算機中對這些語言進行最佳編碼，尚未添加的語言最終將被添加進來。這些語言包括藏語、高棉語、魯克語、埃塞俄比亞語、其他象形文字、多種印歐語言以及壹些藝術語言，如騰瓦語、克思語和克林貢語。UCS 還包括大量圖形、排版、數學和科學符號，包括 TeX、Postscript、MS-DOS、MS-Windows、Macintosh、OCR 字體以及許多其他文字處理和出版系統提供的所有字符。

ISO 10646 定義了壹個 31 位字符集。然而，在這個巨大的編碼空間中，迄今為止只分配了前 65,534 個碼位（0x0000 至 0xFFFD）。UCS 的這壹 16 位子集被稱為基本多語言平面 (BMP)。將在 16 位 BMP 之外編碼的字符都是非常特殊的字符（如象形文字），只有歷史和科學領域的專家才會使用。按照目前的計劃，在 0x000000 至 0x10FFFF 的 21 位編碼空間之外可能再也不會有字符被分配，而這壹空間涵蓋了未來可能出現的壹百多萬個字符。1993 年首次發布的 ISO 10646-1 標準定義了字符集的結構和 BMP 的內容。第二部分 ISO 10646-2 正在編制中，它定義了 BMP 以外的字符編碼，但可能幾年後才能完成。新字符仍在不斷添加到 BMP 中，但已經存在的字符是穩定的，不會改變。

UCS不僅為每個字符分配了壹個代碼，還為其賦予了壹個正式名稱。代表 UCS 或 Unicode 值的十六進制數前面通常有壹個 "U+"，如 U+0041 表示字符 "拉丁文大寫 A"。UCS 字符 U+0000 至 U+007F 與 US-ASCII (ISO 646) 字符相同。UCS 字符 U+0000 至 U+007F 對應 US-ASCII (ISO 646)，而 U+0000 至 U+00FF 對應 ISO8859-1 (Latin-1)。從 U+E000 到 U+F8FF，BMP 以外的多種編碼已被保留供私人使用。

USC-4 （通用字符集）是 1993 年在 ISO 10646 中定義的，它使用 4 字節的寬度來容納足夠多的字符，但這種過於龐大的字符標準在當時乃至 21 世紀都是不切實際的，因為它會占用過多的存儲空間，影響信息傳輸的效率。與此同時，Unicode 組織在大約 10 年前開始制定以通用、唯壹和統壹為主題的 16 位字符標準。為了避免兩種 16 位編碼之間的競爭，兩個組織於 1992 年開始協商，以期找到壹個折中的 ****，這就是今天的 UCS-2（BMP，基本多語言平面，16 位）。

Unicode和UCS-2（BMP，基本多語言平面，16位）與Unicode仍然是不同的方案。

統壹字符編碼

關於統壹字符編碼，我們需要追溯其創建的起源。

當計算機傳播到東亞時，遇到了中國、日本和韓國等使用表意文字而非字母語言的國家。這些國家使用的語言有數千個常用字，而原始字符是用單字節編碼的，壹頁代碼最多只能編碼 2^8=256 個字符，這對於使用表意文字的語言來說是不夠的。既然壹個字節不夠用，人們自然就采用了兩個字節，於是就出現了雙字節字符集（DBCS）。不過，雖然雙字節字符集中的表意字符采用了兩個字節的編碼，但 ASCII 碼和日語片假名等仍然是用單字節表示的，這給程序員帶來了不少麻煩，因為每當要處理 DBCS 字符串時，總要判斷中間的壹個字節表示的是壹個字符還是半個字符，如果是半個字符，是前半部分還是後半部分？如果是半個字符，是前半部分還是後半部分？這表明 DBCS 並不是壹個很好的解決方案。

人們壹直在尋找壹種更好的字符編碼方式，結果產生了 Unicode，它是壹種寬字節字符集，每個字符使用兩個字節的 16 位表示，因此在處理字符時，您不必擔心處理半個字符的問題。

Unicode 廣泛應用於 Web、Windows 和許多大型軟件應用程序中。

上一篇:被稱為冷滅菌的物理消毒滅菌方法是

下一篇:鉆井液粘切太高，怎麽辦？