一、前言

有人丟給你下面這張圖，如果你能清楚地說(shuō)明它們之間的關(guān)系以及用途，那么你對(duì)字符編碼的理解肯定過(guò)關(guān)了。

不知道看了上面這張圖，是否有混亂的感覺(jué)，本文試著給你梳理、講透這些孤立的幾個(gè)單詞之間聯(lián)系......

二、關(guān)于字符編碼，你所需要知道的

2.1 ASCII（寡頭壟斷時(shí)期）

計(jì)算機(jī)內(nèi)部，所有信息最終都是一個(gè)二進(jìn)制值。每一個(gè)二進(jìn)制位（bit）有0和1兩種狀態(tài)，8個(gè)二進(jìn)制位稱(chēng)之為1個(gè)字節(jié)。把鍵盤(pán)上（如下圖）所有按鍵的狀態(tài)。

用8位二進(jìn)制共256種表示綽綽有余。把所有的空格、標(biāo)點(diǎn)符號(hào)、數(shù)字、大小寫(xiě)字母分別用連續(xù)的字節(jié)狀態(tài)表示，一直編到了第127號(hào)，這樣計(jì)算機(jī)利用8位二進(jìn)制位（1個(gè)字節(jié)）就可以用來(lái)存儲(chǔ)英語(yǔ)的文字了，這就是大名鼎鼎的ASCII（美國(guó)信息互換標(biāo)準(zhǔn)代碼）。當(dāng)時(shí)世界上所有的計(jì)算機(jī)都用同樣的ASCII方案來(lái)保存英文文字。

2.2 非 ASCII 編碼（漢字編碼的發(fā)展）

伴隨著互聯(lián)網(wǎng)的興起，計(jì)算機(jī)技術(shù)的發(fā)展，世界各地都開(kāi)始使用計(jì)算機(jī)，但是很多國(guó)家用的不是英文，所適用的字母里有許多是ASCII里沒(méi)有的。

為了可以在計(jì)算機(jī)保存他們的文字，決定采用 127號(hào)之后的空位來(lái)表示這些新的字母、符號(hào)，還加入了很多畫(huà)表格時(shí)需要用下到的橫線、豎線、交叉等形狀，一直把序號(hào)編到了最后一個(gè)狀態(tài)255。

從128 到255這一頁(yè)的字符集被稱(chēng)“擴(kuò)展字符集”。此之后，貪婪的人類(lèi)再?zèng)]有新的狀態(tài)可以用了。

隨著計(jì)算機(jī)在中國(guó)流行時(shí)，已經(jīng)沒(méi)有可以利用的字節(jié)狀態(tài)來(lái)表示漢字，況且有6000多個(gè)常用漢字需要保存。但這難不倒智慧的中國(guó)人民，我們就把那些127號(hào)之后的奇異符號(hào)們直接取消掉，并規(guī)定：一個(gè)小于127的字符的意義與原來(lái)相同，但兩個(gè)大于127的字符連在一起時(shí)，就表示一個(gè)漢字，前面的一個(gè)字節(jié)（他稱(chēng)之為高字節(jié)）從0xA1用到0xF7，后面一個(gè)字節(jié)（低字節(jié)）從0xA1到0xFE，這樣我們就可以組合出大約7000多個(gè)簡(jiǎn)體漢字了。

在這些編碼里，我們還把數(shù)學(xué)符號(hào)、羅馬希臘的字母都編進(jìn)去了，連在 ASCII 里本來(lái)就有的數(shù)字、標(biāo)點(diǎn)、字母都統(tǒng)統(tǒng)重新編了兩個(gè)字節(jié)長(zhǎng)的編碼，這就是常說(shuō)的”全角”字符。而原來(lái)在127號(hào)以下的那些就叫”半角”字符了。中國(guó)人民看到這樣很不錯(cuò)，于是就把這種漢字方案叫做 “GB2312”。GB2312 是對(duì) ASCII 的中文擴(kuò)展。

（圖片來(lái)源于網(wǎng)絡(luò)）

但是中國(guó)的漢字太多了，我們很快就就發(fā)現(xiàn)有許多人的人名沒(méi)有辦法在這里打出來(lái)。我們不得不繼續(xù)把GB2312 沒(méi)有用到的碼位找出來(lái)老實(shí)不客氣地用上。后來(lái)還是不夠用，于是干脆不再要求低字節(jié)一定是127號(hào)之后的內(nèi)碼，只要第一個(gè)字節(jié)是大于127就固定表示這是一個(gè)漢字的開(kāi)始，不管后面跟的是不是擴(kuò)展字符集里的內(nèi)容。

結(jié)果擴(kuò)展之后的編碼方案被稱(chēng)為 GBK 標(biāo)準(zhǔn)，GBK包括了GB2312 的所有內(nèi)容，同時(shí)又增加了近20000個(gè)新的漢字（包括繁體字）和符號(hào)。后來(lái)少數(shù)民族也要用電腦了，于是我們?cè)贁U(kuò)展，又加了幾千個(gè)新的少數(shù)民族的字，GBK擴(kuò)成了 GB18030。

2.3 非 ASCII 編碼

百花齊放，各自編碼標(biāo)準(zhǔn)帶來(lái)的問(wèn)題

當(dāng)時(shí)各個(gè)國(guó)家都像中國(guó)這樣搞出一套自己的編碼標(biāo)準(zhǔn)，結(jié)果互相之間誰(shuí)也不懂誰(shuí)的編碼，誰(shuí)也不支持別人的編碼，就連大陸和臺(tái)灣這樣只相隔了150海里，使用著同一種語(yǔ)言，也分別采用了不同的 DBCS 編碼方案。

當(dāng)時(shí)的中國(guó)人想讓電腦顯示漢字，就必須裝上一個(gè)“漢字系統(tǒng)”，專(zhuān)門(mén)用來(lái)處理漢字的顯示、輸入的問(wèn)題，像是那個(gè)臺(tái)灣的愚昧封建人士寫(xiě)的算命程序就必須加裝另一套支持 BIG5

編碼的什么“倚天漢字系統(tǒng)”才可以用，裝錯(cuò)了字符系統(tǒng)，顯示就會(huì)亂了套！這怎么辦？

而且世界民族之林中還有那些一時(shí)用不上電腦的窮苦人民，他們的文字又怎么辦？

（圖片來(lái)源于維基百科）

2.4 Unicode

世界這么亂，得我來(lái)管管，大一統(tǒng)時(shí)期

ISO（國(guó)際標(biāo)誰(shuí)化組織）的國(guó)際組織決定著手解決這個(gè)問(wèn)題。采用的方法很簡(jiǎn)單：廢了所有的地區(qū)性編碼方案，重新搞一個(gè)包括了地球上所有文化、所有字母和符號(hào)的編碼！

他們打算叫它“Universal Multiple-Octet Coded Character Set”，簡(jiǎn)稱(chēng)UCS, 俗稱(chēng) “Unicode”。Unicode相當(dāng)于一個(gè)抽象層，給每個(gè)字符一個(gè)唯一的碼點(diǎn)(code point)。

用 0x000000 - 0x10FFFF 這么多的數(shù)字去對(duì)應(yīng)全世界所有的語(yǔ)言、公式、符號(hào)。然后把這些數(shù)字分成 17 部分，把常用的放到 0x0000 - 0xFFFF，也就是 2 個(gè)字節(jié)，叫做基本平面（BMP）；從 0x010000 - 0x10FFFF 再劃分為其他平面。

（圖片來(lái)源于維基百科）

栗子：「v維」

如果「v維」這個(gè)字符串放到內(nèi)存中就是 0x767ef4。問(wèn)題來(lái)了，計(jì)算機(jī)怎么知道，幾個(gè)字節(jié)代表一個(gè)字符呢？是 0x76呢？還是 0x7ef4 呢？還是 0x767ef4？

Unicode只是對(duì)信源編碼，對(duì)字符集數(shù)字化，解決了字符到數(shù)字化的映射。接下來(lái)面臨如何解決存儲(chǔ)和傳輸?shù)膯?wèn)題。

三、傳輸和存儲(chǔ)

用通信理論的思路可以理解為:

Unicode是信源編碼，對(duì)字符集數(shù)字化；
UTF-32、UTF-16、UTF-8是信道編碼，為更好的存儲(chǔ)和傳輸。

3.1 UTF-32

UTF-32 編碼，簡(jiǎn)單明了，碼點(diǎn)值是多少，內(nèi)存中就存多少，UTF-32 缺點(diǎn)很明顯了，字母 A 原本只需要 1 個(gè)字節(jié)去存儲(chǔ)，而現(xiàn)在卻用了 4 個(gè)字節(jié)去存，大部分位置都是 0。

提問(wèn)：我們?yōu)槭裁匆啻婺敲炊嗔隳兀?/strong>

3.2 UTF-16

問(wèn)題：「亮」碼點(diǎn)值是 20142，換成 16 進(jìn)制就是 0x4eae，內(nèi)存中是按字節(jié)進(jìn)行編址的。所以我們是先存4e呢？還是ae？

一個(gè) Unicode 的碼點(diǎn)值會(huì)對(duì)應(yīng)一個(gè)數(shù)字，對(duì)于Basic平面的字符，我們直接把這個(gè)數(shù)字存到內(nèi)存中。

UTF - 16 編碼的時(shí)候，除本身的字節(jié)，為了區(qū)分大端序和小端序，最開(kāi)頭還多了兩個(gè)字節(jié)，ff和fe。feff代表大端序，fffe代表小端序。

（Notepad中的BOM）

小知識(shí)：feff和fffe也叫做 BOM，它可以區(qū)分不同編碼。UTF-16 編碼最小單位是兩個(gè)字節(jié)，所以有字節(jié)序的問(wèn)題，從而加了 BOM 來(lái)區(qū)分是大端序還是小端序。

3.3 UTF-8

UTF-8 顧名思義，是一套以 8 位為一個(gè)編碼單位的可變長(zhǎng)編碼。會(huì)將一個(gè)碼位編碼為 1 到 4 個(gè)字節(jié)。一個(gè)碼點(diǎn)值會(huì)生成 1 個(gè)或多個(gè)字節(jié)，然后把這些字節(jié)按順序存就可以了。

小知識(shí)：UTF-8 無(wú) BOM 或者 UTF-8 BOM。UTF - 8 的 BOM 是 EF BB BF ，UTF-8 并不存在字節(jié)序的問(wèn)題，因?yàn)樗淖钚【幋a單位就是字節(jié)。

UTF-8 并不需要區(qū)分大端序還是小端序，所以可以不需要 BOM。如果加了 BOM，對(duì)于一些讀取操作，它可能會(huì)把讀取到的 BOM 認(rèn)為是字符，從而造成一些錯(cuò)誤。所以我們保存 UTF - 8 編碼的文件時(shí)，最好選擇無(wú) BOM。

栗子：「知」

根據(jù)上表中的編碼規(guī)則，「知」字的碼位 U+77E5 屬于第三行的范圍：

這就是將U+77E5 按照 UTF-8 編碼為字節(jié)序列E79FA5 的過(guò)程，反之亦然。

3.4 ANSI

「ANSI」指的是對(duì)應(yīng)當(dāng)前系統(tǒng) locale 的遺留（legacy）編碼。

Windows 里說(shuō)的「ANSI」其實(shí)是 Windows code pages，這個(gè)模式根據(jù)當(dāng)前 locale 選定具體的編碼，比如簡(jiǎn)中 locale 下是 GBK。把自己這些 code page 稱(chēng)作「ANSI」是 Windows 的臭毛病。在 ASCII 范圍內(nèi)它們應(yīng)該是和 ASCII 一致的。

3.1 擴(kuò)展思考

問(wèn)：在java中char 型變量中能不能存貯一個(gè)中文漢字，為什么？

答：java中使用的編碼符號(hào)集是Unicode（不涉及特定的編碼方式，給每個(gè)符號(hào)分配一個(gè)二進(jìn)制編碼，目前已容納容納100多萬(wàn)個(gè)符號(hào)），而漢字已納入U(xiǎn)nicode字符集，而char類(lèi)型占兩個(gè)字節(jié)，用來(lái)表示Unicode編碼，所以是可以存儲(chǔ)漢字的

問(wèn)：tomcat的中默認(rèn)ISO-8859-1編碼，如何解決web項(xiàng)目中的亂碼問(wèn)題？

答：

方式一：修改tomcat下的conf/server.xml文件

 <Connector port="8080"  protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" URIEncoding="UTF-8 useBodyEncodingForURI="true"/>

URIEncoding=”UTF-8“：即可讓Tomcat（默認(rèn)ISO-8859-1編碼）以UTF-8的編碼處理請(qǐng)求參數(shù)。
useBodyEncodingForURI="true"：是指請(qǐng)求參數(shù)的編碼方式采用請(qǐng)求體的編碼方式。

方式二：

1）當(dāng)使用字符流向?yàn)g覽器發(fā)送頁(yè)面信息時(shí)，默認(rèn)查詢的是ISO-8859-1碼表

設(shè)置1：
response.setCharacterEncoding("UTF-8")
設(shè)置2：
response.setContentType("text/html;charset=UTF-8")

2）客戶端請(qǐng)求服務(wù)器出現(xiàn)的中文亂碼解決方式

POST請(qǐng)求方式：瀏覽器當(dāng)前使用什么編碼，表單提交的參數(shù)就是什么編碼，
服務(wù)端處理：
request.setCharacterEncoding("utf-8")。
GET請(qǐng)求方式：

String name=request.getParameter("name");//首先拿到參數(shù)的值
//得到的byte[] 再重新用utf-8去編碼，即可得到正常的值
name=new String(name.getBytes("iso-8859-1")/**用參數(shù)的值用iso-8859-1來(lái)解碼**/,"utf-8");

說(shuō)明：tomcat的 j2ee實(shí)現(xiàn)對(duì)表單提交即 post方式提示時(shí)處理參數(shù)采用缺省的 iso-8859-1來(lái)處理，tomcat對(duì) get方式提交的請(qǐng)求對(duì) query-string 處理時(shí)采用了和 post方法不一樣的處理方式。

四、總結(jié)

回到前言中的那個(gè)問(wèn)題，整理了下面這張圖，不知現(xiàn)在的你是否對(duì)字符編碼有了更清楚的認(rèn)識(shí)......

用通信理論的思路可以理解為:

Unicode是信源編碼，對(duì)字符集數(shù)字化；
UTF-32、UTF-16、UTF-8是信道編碼，為更好的存儲(chǔ)和傳輸。

「技術(shù)分享」某種程度上，是讓作者和讀者，不那么孤獨(dú)的東西。歡迎關(guān)注我的微信公眾號(hào)：「Kirito的技術(shù)分享」

計(jì)算機(jī)字符編碼的前世今生

「技術(shù)分享」某種程度上，是讓作者和讀者，不那么孤獨(dú)的東西。歡迎關(guān)注我的微信公眾號(hào)：「Kirito的技術(shù)分享」

「技術(shù)分享」某種程度上，是讓作者和讀者，不那么孤獨(dú)的東西。歡迎關(guān)注我的微信公眾號(hào)：「Kirito的技術(shù)分享」