當前位置:偏方大全网 - 藥品查詢 - 編碼系統

編碼系統

我們日常接觸的文件分為ASCII和二進制兩種,ASCII是 "American Standard Code for Information Interchange "的英文縮寫,可稱為 "美國標準"。ASCII 規定了從 0 到 127 的 128 個數字來表示信息的標準化代碼,包括 33 個控制代碼、1 個空格代碼和 94 個圖像代碼。圖像碼包括英文大小寫字母、阿拉伯數字、標點符號等。我們通常閱讀的英文計算機文本就是用圖像碼傳輸和存儲的。美國標準是大多數各種規模計算機的通用國際代碼。

不過,計算機中的字符大多用八位二進制數表示。因此,每個字符可以有 256 個不同的值。由於美標所只規定了 128 個代碼,因此其他 128 個數字沒有標準化,使用方式也各不相同。此外,美標所中還有 33 個控制代碼,不同的制造商對它們的使用也不盡相同。因此,當我們在不同計算機之間交換文件時,有必要區分兩類不同的文件。第壹類文件壹字不差,是美標圖像碼或空格碼。這類文件被稱為 "美國標準文本文件"(ASCII 文本文件),或略稱 "文本文件",通常可以在不同的計算機系統中直接交換。第二類文件,即包含控制代碼或非 ASCII 編碼的文件,通常不能在不同計算機系統之間直接交換。這些文件有壹個共同的名稱,即 "二進制文件"(Binary Files)。GB "是 "中華人民共和國國家標準漢字編碼信息交換標準 "的縮寫。國標表(基本表)是壹個 94 行 94 列的方陣,包含 7000 多個漢字以及標點符號和外文字母。方陣中的每條橫線稱為壹個 "區",每個區有 94 個 "位"。漢字在方陣中的坐標稱為漢字的 "區碼"。例如,"中 "字位於方陣中第 54 個區的第 48 個位置,其區域代碼為 5448。

事實上,數字 94。這是美國標準中圖像代碼的總數。國標表沿用了這個數字,其用意可能是用兩個美標圖像符號代表壹個漢字。由於美標所圖像符號的編碼範圍從 33 到 126,如果在每個圖像符號上加上 32,漢字區域碼將與美標所圖像碼範圍重疊。例如,如果我們在漢字 "中 "的區域碼上加上 32,它將是 86,80,這兩個數字的十六進制數加起來就是 5650,這就是該漢字的 "國標碼",而與該漢字相對應的兩個美標所符號 VP 就是 "中 "字的 "國標碼"。這兩個美標所符號 VP 和 VP 就是 "中 "字的 "國標符號"。

這就提出了如何區分國標符號和美標符號的問題。在中英文混雜的文件中,"VP "是代表 "China "還是某個英文縮寫?電子工業部第六研究所在開發 CCDOS 時采用了壹個簡單的解決方案:在國標碼的兩位數上各加 128,上升到非美標碼的位置。(更改後的 GB 碼仍習慣稱為 "GB")

這個方案當然解決了原來的問題,但新的問題又出現了。中文文件變成了 "二進制文件",無法在不同的計算機系統之間可靠地交換,也無法與市場上大多數專為美標符號設計的軟件兼容。

為了區分上述兩種 "國標",我們將原來與美標圖像碼重疊的國標碼稱為 "純國標",而將 CCDOS 加 128 的國標碼稱為 "準國標"。GBK 碼是國標碼的擴展字符編碼,它編碼了兩萬多個簡繁體漢字,簡體版的 Win95 和 Win98 都使用 GBK 作為系統碼。

從實際使用的角度來看,微軟自 Win95 簡體中文版開始,系統就使用了 GBK 編碼,其中包括 TrueType 宋體、黑體兩種 GBK 字體(由北京中易電子公司提供),可用於顯示和打印,並提供了四種 GBK 漢字輸入法。此外,瀏覽器 IE4.0 簡體中文版和繁體中文版內部提供了 GBK-BIG5 碼雙向轉換功能。此外,微軟為 IE 提供的語言包中,簡體中文語言支持工具包(Simplified Chinese Language Support Kit)中的宋體、黑體兩種字體,也都是 GBK 漢字(珠海四通電腦排版系統開發公司提供)。其他壹些中文字體制造商,也開始提供 TrueType 或 PostScript GBK 字庫。

許多插件式中文平臺,如南極星和四通利方(Richwin),都提供 GBK 編碼支持,包括字庫、輸入法以及 GBK 和其他中文編碼的轉換器。

在互聯網上,許多網頁都使用 GBK 代碼。

但是,大多數搜索引擎並不能很好地支持 GBK 漢字搜索,而中國大陸的壹些搜索引擎也不能完全支持 GBK 漢字搜索。

事實上,GBK 是另壹種漢字編碼標準,全稱為《漢字內碼擴展規範》,頒布於 1995 年。GB 是國家標準,K 是漢字 "擴展 "的漢語拼音首字母。GB 是國家標準,K 是 "擴展 "漢字的漢語拼音首字母。

GBK兼容GB-2312編碼,支持ISO 10646.1國際標準,是前者向後者過渡的標準。

GBK規範包括ISO 10646.1中的所有中日韓字符和符號,並增加了壹些內容。具體來說,它包括:GB 2312 中的所有漢字和非漢字符號;GB 13000.1 中的其他中日韓字符。以上共計 20902 個國標化漢字;《簡化字總表》中未收錄於 GB 13000.1 的 52 個漢字;《康熙字典》和《辭海》中未收錄於 GB 13000.1 的 28 個部首和重要部件;13 個漢字結構符號;以及 GB 2312 中未收錄但 GB 13000.1 中存在的 139 個圖形符號。1中的139個圖形符號;GB 12345增加的6個拼音符號;GB 12345增加的19個豎排圖形符號(與GB 2312相比,GB 12345增加了29個豎排標點符號,其中10個不在GB 13000.1中,因此GBK不包括在內);從GB 13000.1中日韓兼容區中選擇的21個漢字;GB 13000.1中包括的31個IBM OS/2專用漢字。1 GBK 也采用雙字節表示法,總體編碼範圍在 0x8140~0xFEFE 之間,第壹個字節在 0x81~0xFE 之間,最後壹個字節在 0x40~0xFE 之間,不包括 0x××7F 壹行,共收集了 23940 個編碼位、****21886 個漢字和圖形符號,其中 21、886個漢字(包括部首和構件),包括21個漢字(包括部首和構件)、21個漢字(包括部首和構件)、21個漢字(包括部首和構件)、21個漢字(包括部首和構件)、21個漢字(包括部首和構件)。包括部首和構件)21003 個,圖形符號 883 個。HZ 編碼是由中國學生創造的,目的是在互聯網上直接傳輸漢字信息。由於目前(西方)的網絡系統大多為 7 位,且最高位被屏蔽,因此 GB 碼無法直接傳輸,而 HZ 碼就是為了在 7 位網絡系統中直接傳輸漢字信息而標準化的。

"HZ "程序的特點是將 "純國標 "漢語和美標編碼混合使用。那麽,"HZ "是如何區分國標和美標字符的呢?答案其實很簡單:當壹個國標碼插入壹串美標碼中間時,我們會在國標碼前加上 ~,在國標碼後加上 ~。這些附加代碼被稱為 "轉義碼 "和 "轉碼"。由於這些附加碼也是美標圖像碼,因此整個文件就如同壹個美標文本文件,可以在計算機網絡上安全地傳遞,也能與大多數英文文本處理軟件兼容。1993 年,國際標準 ISO 10646 定義了通用字符集(UCS)。UCS 是所有其他字符集標準的超集。它保證了與其他字符集的雙向兼容性。也就是說,如果您將任何文本字符串轉換為 UCS 格式,然後再將其轉換回原始編碼,您不會丟失任何信息。

UCS包含所有已知語言的字符。它不僅包括拉丁語、希臘語、斯拉夫語、希伯來語、阿拉伯語、亞美尼亞語和格魯吉亞語的描述,還包括象形文字,如中文、日文和韓文,以及平假名、片假名、孟加拉語、旁遮普古爾木希語、泰米爾語、印度英語和印地語。卡納達語、馬拉雅拉姆語、泰語、老撾語、波波佛語、韓語、德文加裏語、古吉拉特語、奧裏雅語、泰盧固語等。由於正在研究如何在計算機中對這些語言進行最佳編碼,尚未添加的語言最終將被添加進來。這些語言包括藏語、高棉語、魯克語、埃塞俄比亞語、其他象形文字、多種印歐語言以及壹些藝術語言,如騰瓦語、克思語和克林貢語。UCS 還包括大量圖形、排版、數學和科學符號,包括 TeX、Postscript、MS-DOS、MS-Windows、Macintosh、OCR 字體以及許多其他文字處理和出版系統提供的所有字符。

ISO 10646 定義了壹個 31 位字符集。然而,在這個巨大的編碼空間中,迄今為止只分配了前 65,534 個碼位(0x0000 至 0xFFFD)。UCS 的這壹 16 位子集被稱為基本多語言平面 (BMP)。將在 16 位 BMP 之外編碼的字符都是非常特殊的字符(如象形文字),只有歷史和科學領域的專家才會使用。按照目前的計劃,在 0x000000 至 0x10FFFF 的 21 位編碼空間之外可能再也不會有字符被分配,而這壹空間涵蓋了未來可能出現的壹百多萬個字符。1993 年首次發布的 ISO 10646-1 標準定義了字符集的結構和 BMP 的內容。第二部分 ISO 10646-2 正在編制中,它定義了 BMP 以外的字符編碼,但可能幾年後才能完成。新字符仍在不斷添加到 BMP 中,但已經存在的字符是穩定的,不會改變。

UCS不僅為每個字符分配了壹個代碼,還為其賦予了壹個正式名稱。代表 UCS 或 Unicode 值的十六進制數前面通常有壹個 "U+",如 U+0041 表示字符 "拉丁文大寫 A"。UCS 字符 U+0000 至 U+007F 與 US-ASCII (ISO 646) 字符相同。UCS 字符 U+0000 至 U+007F 對應 US-ASCII (ISO 646),而 U+0000 至 U+00FF 對應 ISO8859-1 (Latin-1)。從 U+E000 到 U+F8FF,BMP 以外的多種編碼已被保留供私人使用。

USC-4 (通用字符集)是 1993 年在 ISO 10646 中定義的,它使用 4 字節的寬度來容納足夠多的字符,但這種過於龐大的字符標準在當時乃至 21 世紀都是不切實際的,因為它會占用過多的存儲空間,影響信息傳輸的效率。與此同時,Unicode 組織在大約 10 年前開始制定以通用、唯壹和統壹為主題的 16 位字符標準。為了避免兩種 16 位編碼之間的競爭,兩個組織於 1992 年開始協商,以期找到壹個折中的 ****,這就是今天的 UCS-2(BMP,基本多語言平面,16 位)。

Unicode和UCS-2(BMP,基本多語言平面,16位)與Unicode仍然是不同的方案。

統壹字符編碼

關於統壹字符編碼,我們需要追溯其創建的起源。

當計算機傳播到東亞時,遇到了中國、日本和韓國等使用表意文字而非字母語言的國家。這些國家使用的語言有數千個常用字,而原始字符是用單字節編碼的,壹頁代碼最多只能編碼 2^8=256 個字符,這對於使用表意文字的語言來說是不夠的。既然壹個字節不夠用,人們自然就采用了兩個字節,於是就出現了雙字節字符集(DBCS)。不過,雖然雙字節字符集中的表意字符采用了兩個字節的編碼,但 ASCII 碼和日語片假名等仍然是用單字節表示的,這給程序員帶來了不少麻煩,因為每當要處理 DBCS 字符串時,總要判斷中間的壹個字節表示的是壹個字符還是半個字符,如果是半個字符,是前半部分還是後半部分?如果是半個字符,是前半部分還是後半部分?這表明 DBCS 並不是壹個很好的解決方案。

人們壹直在尋找壹種更好的字符編碼方式,結果產生了 Unicode,它是壹種寬字節字符集,每個字符使用兩個字節的 16 位表示,因此在處理字符時,您不必擔心處理半個字符的問題。

Unicode 廣泛應用於 Web、Windows 和許多大型軟件應用程序中。

  • 上一篇:被稱為冷滅菌的物理消毒滅菌方法是
  • 下一篇:鉆井液粘切太高,怎麽辦?
  • copyright 2024偏方大全网