<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          為什么不建議在MySQL中使用 utf8 ?

          共 4041字,需瀏覽 9分鐘

           ·

          2021-10-14 20:20

          往期熱門文章:

          1、編寫Spring MVC控制器的14個(gè)技巧!漲知識(shí)了!

          2、日志打印的15個(gè)建議!血淚啊!

          3、List中remove()方法的陷阱,被坑慘了!

          4、Facebook 全球宕機(jī) 6 小時(shí)!到底遇到了什么問題??

          5放棄使用 15 年的 MacOS,我決定換成 Linux!

          MySQL 字符編碼集中有兩套 UTF-8 編碼實(shí)現(xiàn):utf8utf8mb4
          如果使用 utf8 的話,存儲(chǔ) emoji 符號(hào)和一些比較復(fù)雜的漢字、繁體字就會(huì)出錯(cuò)。
          為什么會(huì)這樣呢?這篇文章可以從源頭給你解答。

          何為字符集?

          字符是各種文字和符號(hào)的統(tǒng)稱,包括各個(gè)國(guó)家文字、標(biāo)點(diǎn)符號(hào)、表情、數(shù)字等等。字符集 就是一系列字符的集合。字符集的種類較多,每個(gè)字符集可以表示的字符范圍通常不同,就比如說有些字符集是無法表示漢字的。
          計(jì)算機(jī)只能存儲(chǔ)二進(jìn)制的數(shù)據(jù),那英文、漢字、表情等字符應(yīng)該如何存儲(chǔ)呢?
          我們要將這些字符和二級(jí)制的數(shù)據(jù)一一對(duì)應(yīng)起來,比如說字符“a”對(duì)應(yīng)“01100001”,反之,“01100001”對(duì)應(yīng) “a”。我們將字符對(duì)應(yīng)二進(jìn)制數(shù)據(jù)的過程稱為"字符編碼",反之,二進(jìn)制數(shù)據(jù)解析成字符的過程稱為“字符解碼”。

          有哪些常見的字符集?

          常見的字符集有 ASCII、GB2312、GBK、UTF-8......。
          不同的字符集的主要區(qū)別在于:
          • 可以表示的字符范圍
          • 編碼方式

          ASCII

          ASCII (American Standard Code for Information Interchange,美國(guó)信息交換標(biāo)準(zhǔn)代碼) 是一套主要用于現(xiàn)代美國(guó)英語的字符集(這也是 ASCII 字符集的局限性所在)。
          為什么 ASCII 字符集沒有考慮到中文等其他字符呢? 因?yàn)橛?jì)算機(jī)是美國(guó)人發(fā)明的,當(dāng)時(shí),計(jì)算機(jī)的發(fā)展還處于比較雛形的時(shí)代,還未在其他國(guó)家大規(guī)模使用。因此,美國(guó)發(fā)布 ASCII 字符集的時(shí)候沒有考慮兼容其他國(guó)家的語言。
          ASCII 字符集至今為止共定義了 128 個(gè)字符,其中有 33 個(gè)控制字符(比如回車、刪除)無法顯示。
          一個(gè) ASCII 碼長(zhǎng)度是一個(gè)字節(jié)也就是 8 個(gè) bit,比如“a”對(duì)應(yīng)的 ASCII 碼是“01100001”。不過,最高位是 0 僅僅作為校驗(yàn)位,其余 7 位使用 0 和 1 進(jìn)行組合,所以,ASCII 字符集可以定義 128(2^7)個(gè)字符。
          由于,ASCII 碼可以表示的字符實(shí)在是太少了。后來,人們對(duì)其進(jìn)行了擴(kuò)展得到了 ASCII 擴(kuò)展字符集 。ASCII 擴(kuò)展字符集使用 8 位(bits)表示一個(gè)字符,所以,ASCII 擴(kuò)展字符集可以定義 256(2^8)個(gè)字符。
          ASCII字符編碼

          GB2312

          我們上面說了,ASCII 字符集是一種現(xiàn)代美國(guó)英語適用的字符集。因此,很多國(guó)家都搗鼓了一個(gè)適合自己國(guó)家語言的字符集。
          GB2312 字符集是一種對(duì)漢字比較友好的字符集,共收錄 6700 多個(gè)漢字,基本涵蓋了絕大部分常用漢字。不過,GB2312 字符集不支持絕大部分的生僻字和繁體字。
          對(duì)于英語字符,GB2312 編碼和 ASCII 碼是相同的,1 字節(jié)編碼即可。對(duì)于非英字符,需要 2 字節(jié)編碼。

          GBK

          GBK 字符集可以看作是 GB2312 字符集的擴(kuò)展,兼容 GB2312 字符集,共收錄了 20000 多個(gè)漢字。
          GBK 中 K 是漢語拼音 Kuo Zhan(擴(kuò)展)中的“Kuo”的首字母。

          GB18030

          GB18030 完全兼容 GB2312 和 GBK 字符集,納入中國(guó)國(guó)內(nèi)少數(shù)民族的文字,且收錄了日韓漢字,是目前為止最全面的漢字字符集,共收錄漢字 70000 多個(gè)。

          BIG5

          BIG5 主要針對(duì)的是繁體中文,收錄了 13000 多個(gè)漢字。

          Unicode & UTF-8 編碼

          為了更加適合本國(guó)語言,誕生了很多種字符集。
          我們上面也說了不同的字符集可以表示的字符范圍以及編碼規(guī)則存在差異。這就導(dǎo)致了一個(gè)非常嚴(yán)重的問題:使用錯(cuò)誤的編碼方式查看一個(gè)包含字符的文件就會(huì)產(chǎn)生亂碼現(xiàn)象。
          就比如說你使用 UTF-8 編碼方式打開 GB2312 編碼格式的文件就會(huì)出現(xiàn)亂碼。示例:“牛”這個(gè)漢字 GB2312 編碼后的十六進(jìn)制數(shù)值為 “C5A3”,而 “C5A3” 用 UTF-8 解碼之后得到的卻是 “?”。
          你可以通過這個(gè)網(wǎng)站在線進(jìn)行編碼和解碼:
          https://www.haomeili.net/HanZi/ZiFuBianMaZhuanHuan
          這樣我們就搞懂了亂碼的本質(zhì):編碼和解碼時(shí)用了不同或者不兼容的字符集
          為了解決這個(gè)問題,人們就想:“如果我們能夠有一種字符集將世界上所有的字符都納入其中就好了!”。
          然后,Unicode 帶著這個(gè)使命誕生了。
          Unicode 字符集中包含了世界上幾乎所有已知的字符。不過,Unicode 字符集并沒有規(guī)定如何存儲(chǔ)這些字符(也就是如何使用二級(jí)制數(shù)據(jù)表示這些字符)。
          然后,就有了 UTF-88-bit Unicode Transformation Format)。類似的還有 UTF-16、 UTF-32。
          UTF-8 使用 1 到 4 個(gè)字節(jié)為每個(gè)字符編碼, UTF-16 使用 2 或 4 個(gè)字節(jié)為每個(gè)字符編碼,UTF-32 固定位 4 個(gè)字節(jié)為每個(gè)字符編碼。
          UTF-8 可以根據(jù)不同的符號(hào)自動(dòng)選擇編碼的長(zhǎng)短,像英文字符只需要 1 個(gè)字節(jié)就夠了,這一點(diǎn) ASCII 字符集一樣 。因此,對(duì)于英語字符,UTF-8 編碼和 ASCII 碼是相同的。
          UTF-32 的規(guī)則最簡(jiǎn)單,不過缺陷也比較明顯,對(duì)于英文字母這類字符消耗的空間是 UTF-8 的 4 倍之多。
          UTF-8 是目前使用最廣的一種字符編碼,。

          MySQL 字符集

          MySQL 支持很多種字符編碼的方式,比如 UTF-8、GB2312、GBK、BIG5。
          你可以通過 SHOW CHARSET 命令來查看。
          通常情況下,我們建議使用 UTF-8 作為默認(rèn)的字符編碼方式。
          不過,這里有一個(gè)小坑。
          MySQL 字符編碼集中有兩套 UTF-8 編碼實(shí)現(xiàn):
          • utf8utf8編碼只支持1-3個(gè)字節(jié) 。在 utf8 編碼中,中文是占 3 個(gè)字節(jié),其他數(shù)字、英文、符號(hào)占一個(gè)字節(jié)。但 emoji 符號(hào)占 4 個(gè)字節(jié),一些較復(fù)雜的文字、繁體字也是 4 個(gè)字節(jié)。
          • utf8mb4 :UTF-8 的完整實(shí)現(xiàn),正版!最多支持使用 4 個(gè)字節(jié)表示字符,因此,可以用來存儲(chǔ) emoji 符號(hào)。
          為什么有兩套 UTF-8 編碼實(shí)現(xiàn)呢? 原因如下:
          因此,如果你需要存儲(chǔ)emoji類型的數(shù)據(jù)或者一些比較復(fù)雜的文字、繁體字到 MySQL 數(shù)據(jù)庫的話,數(shù)據(jù)庫的編碼一定要指定為utf8mb4 而不是utf8 ,要不然存儲(chǔ)的時(shí)候就會(huì)報(bào)錯(cuò)了。
          演示一下吧!(環(huán)境:MySQL 5.7+)
          建表語句如下,我們指定數(shù)據(jù)庫 CHARSET 為 utf8
          CREATE?TABLE?`user`?(
          ??`id`?varchar(66)?CHARACTER?SET?utf8mb4?NOT?NULL,
          ??`name`?varchar(33)?CHARACTER?SET?utf8mb4?NOT?NULL,
          ??`phone`?varchar(33)?CHARACTER?SET?utf8mb4?DEFAULT?NULL,
          ??`password`?varchar(100)?CHARACTER?SET?utf8mb4?DEFAULT?NULL
          )?ENGINE=InnoDB?DEFAULT?CHARSET=utf8;
          當(dāng)我們執(zhí)行下面的 insert 語句插入數(shù)據(jù)到數(shù)據(jù)庫時(shí),果然報(bào)錯(cuò)!
          INSERT?INTO?`user`?(`id`,?`name`,?`phone`,?`password`)
          VALUES
          ?('A00003',?'guide哥??????',?'181631312312',?'123456');
          報(bào)錯(cuò)信息如下:
          Incorrect?string?value:?'\xF0\x9F\x98\x98\xF0\x9F...'?for?column?'name'?at?row?1

          參考

          • 字符集和字符編碼(Charset & Encoding):
            https://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html
          • 十分鐘搞清字符集和字符編碼:http://cenalulu.github.io/linux/character-encoding/
          • Unicode-維基百科:https://zh.wikipedia.org/wiki/Unicode
          • GB2312-維基百科:https://zh.wikipedia.org/wiki/GB_2312
          • UTF-8-維基百科:https://zh.wikipedia.org/wiki/UTF-8
          • GB18030-維基百科: https://zh.wikipedia.org/wiki/GB_18030

          往期熱門文章:

          1、歷史文章分類導(dǎo)讀列表!精選優(yōu)秀博文都在這里了!》
          2、用 Java 爬小姐姐圖片,這個(gè)厲害了。。。
          3、消息冪等(去重)通用解決方案,真頂!
          4、從MySQL 5.6升級(jí)到8.0,F(xiàn)acebook付出了慘痛代價(jià)……
          5、當(dāng) Transactional 碰到鎖,有個(gè)大坑!
          6、橫空出世,比Visio快10倍的畫圖工具來了。
          7、驚呆了,Spring中竟然有12種定義bean的方法
          8、代碼寫的垃圾被嫌棄?
          9、牛逼!SpringBoot+Vue企業(yè)級(jí)支付系統(tǒng)!附源碼!
          10、你真的會(huì)寫for循環(huán)嗎?來看看這些常見的for循環(huán)優(yōu)化方式

          瀏覽 42
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  夜色av无码 | 亚洲高清无码在线视频 | 欧美日韩在线免费观看视频 | 日韩人妻无码精品免费shipin | 豆花视频在线看 |