<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          深入剖析go中字符串的編碼問(wèn)題——特殊字符的string怎么轉(zhuǎn)byte?

          共 5485字,需瀏覽 11分鐘

           ·

          2020-09-05 04:28

          前言

          前段時(shí)間發(fā)表了Go中的HTTP請(qǐng)求之——HTTP1.1請(qǐng)求流程分析,所以這兩天本來(lái)打算研究HTTP2.0的請(qǐng)求源碼,結(jié)果發(fā)現(xiàn)太復(fù)雜就跑去逛知乎了,然后就發(fā)現(xiàn)了一個(gè)非常有意思的提問(wèn)“golang 特殊字符的string怎么轉(zhuǎn)成[]byte?”。為了轉(zhuǎn)換一下心情, 便有了此篇文章。

          問(wèn)題

          原問(wèn)題我就不碼字了,直接上圖:

          看到問(wèn)題,我的第一反應(yīng)是ASCII碼值范圍應(yīng)該是0~127呀,怎么會(huì)超過(guò)127呢?直到實(shí)際運(yùn)行的時(shí)候才發(fā)現(xiàn)上圖的特殊字符是‘?’(如果無(wú)法展示,記住該特殊字符的unicode是\u0081),并不是英文中的句號(hào)。

          unicode和utf-8的恩怨糾葛

          百度百科已經(jīng)把unicode和utf-8介紹的很詳細(xì)了,所以這里就不做過(guò)多的闡述,僅摘抄部分和本文相關(guān)的定義:

          • Unicode為每個(gè)字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,通常用兩個(gè)字節(jié)表示一個(gè)字符

          • UTF-8是針對(duì)Unicode的一種可變長(zhǎng)度字符編碼。它可以用來(lái)表示Unicode標(biāo)準(zhǔn)中的任何字符。UTF-8的特點(diǎn)是對(duì)不同范圍的字符使用不同長(zhǎng)度的編碼。對(duì)于0x00-0x7F之間的字符,UTF-8編碼與ASCII編碼完全相同。

          go中的字符

          眾所周知,go中能表示字符的有兩種類型,分別是byterune,byte和rune的定義分別是:type byte = uint8type rune = int32

          uint8范圍是0-255,只能夠表示有限個(gè)unicode字符,超過(guò)255的范圍就會(huì)編譯報(bào)錯(cuò)。根據(jù)上述關(guān)于unicode的定義,4字節(jié)的rune完全兼容兩字節(jié)的unicode。

          我們用下面的代碼來(lái)驗(yàn)證:

          var (
          c1 byte = 'a'
          c2 byte = ''
          c3 rune = ''
          )
          fmt.Println(c1, c2, c3)

          上述的程序根本無(wú)法運(yùn)行,因?yàn)榈诙芯幾g會(huì)報(bào)錯(cuò),vscode給到了十分詳細(xì)的提示:'新' (untyped rune constant 26032) overflows byte。

          接下來(lái),我們通過(guò)下面的代碼來(lái)驗(yàn)證字符unicode和整型的等價(jià)關(guān)系:

          	fmt.Printf("0x%x, %d\n", '?', '?') //輸出:0x81, 129
          fmt.Println(0x81 == '?', '\u0081' == '?', 129 == '?') // 輸出:true true true
          //\u0081輸出到屏幕上后不展示, 所以換了大寫字母A來(lái)輸出
          fmt.Printf("%c\n", 65) // 輸出:A

          根據(jù)上面的代碼輸出的3個(gè)true可以知道,字符和unicode和整形是等價(jià),并且整型也能轉(zhuǎn)回字符的表現(xiàn)形式。

          go中的字符串是utf8編碼的

          根據(jù)golang官方博客https://blog.golang.org/strings的原文:


          Go source code is always UTF-8.
          A string holds arbitrary bytes.
          A string literal, absent byte-level escapes, always holds valid UTF-8 sequences.

          翻譯整理過(guò)來(lái)其實(shí)也就是兩點(diǎn):

          1. go中的代碼總是用utf8編碼,并且字符串能夠存儲(chǔ)任何字節(jié)。

          2. 沒(méi)有經(jīng)過(guò)字節(jié)級(jí)別的轉(zhuǎn)義,那么字符串是一個(gè)標(biāo)準(zhǔn)的utf8序列。

          有了前面的基礎(chǔ)知識(shí)和字符串是一個(gè)標(biāo)準(zhǔn)的utf8序列這一結(jié)論后我們接下來(lái)對(duì)字符串“?”(如果無(wú)法展示,記住該特殊字符的unicode是\u0081)手動(dòng)編碼。

          Unicode到UTF-8的編碼方對(duì)照表:

          Unicode編碼(十六進(jìn)制)UTF-8 字節(jié)流(二進(jìn)制)
          000000-00007F0xxxxxxx
          000080-0007FF110xxxxx 10xxxxxx
          000800-00FFFF1110xxxx 10xxxxxx 10xxxxxx
          010000-10FFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

          字符‘?’(如果無(wú)法展示,記住該特殊字符的unicode是\u0081)的二進(jìn)制表示為10000001,16進(jìn)制表示為0x81。

          根據(jù)unicode轉(zhuǎn)utf8的對(duì)照表,0x7f < 0x81 < 0x7ff,所以此特殊字符需占兩個(gè)字節(jié),并且要套用的utf8模版是110xxxxx 10xxxxxx

          我們按照下面的步驟對(duì)10000001轉(zhuǎn)為utf8的二進(jìn)制序列:

          第一步:根據(jù)x數(shù)量對(duì)特殊字符的高位補(bǔ)0。x的數(shù)量是11,所以需要對(duì)特殊字符的高位補(bǔ)3個(gè)0,此時(shí)特殊字符的二進(jìn)制表示為:00010000001

          第二步:x有兩個(gè)部分,且長(zhǎng)度分別是5和6,所以對(duì)00010000001由底位向高位分別截取6位和5位,得到00000100010。

          第三步:將00000100010由低位向高位填充至模版110xxxxx 10xxxxxx,可得到utf8的二進(jìn)制序列為:11000010 10000001

          我們通過(guò)go對(duì)二進(jìn)制轉(zhuǎn)為整型:

          fmt.Printf("%d, %d\n", 0b11000010, 0b10000001)
          // 輸出:194, 129

          綜上:當(dāng)用字符轉(zhuǎn)字節(jié)時(shí)輸出的是字符本身的整型值,當(dāng)用字符串轉(zhuǎn)字節(jié)切片時(shí),實(shí)際上是輸出的是utf8的字節(jié)切片序列(go中的字符串存儲(chǔ)的就是utf8字節(jié)切片)。此時(shí),我們回顧一下最開(kāi)始的問(wèn)題,就會(huì)發(fā)現(xiàn)輸出是完全符合預(yù)期的。

          go中的rune

          筆者在這里猜測(cè)提問(wèn)者期望的結(jié)果是“字符串轉(zhuǎn)字節(jié)切片和字符轉(zhuǎn)字節(jié)的結(jié)果保持一致”,這時(shí)rune就派上用場(chǎng)了,我們看看使用rune的效果:

          fmt.Println([]rune("?"))
          // 輸出:[129]

          由上可知用rune切片去轉(zhuǎn)字符串時(shí),它是直接將每個(gè)字符轉(zhuǎn)為對(duì)應(yīng)的unicode。

          我們通過(guò)下面的代碼模擬字符串轉(zhuǎn)為[]rune切片和[]rune切片轉(zhuǎn)為字符串的過(guò)程:

          字符串轉(zhuǎn)為rune切片:

              // 字符串直接轉(zhuǎn)為[]rune切片
          for _, v := range []rune("新世界雜貨鋪") {
          fmt.Printf("%x ", v)
          }
          fmt.Println()
          bs := []byte("新世界雜貨鋪")
          for len(bs) > 0 {
          r, w := utf8.DecodeRune(bs)
          fmt.Printf("%x ", r)
          bs = bs[w:]
          }
          fmt.Println()
          // 輸出:
          // 65b0 4e16 754c 6742 8d27 94fa
          // 65b0 4e16 754c 6742 8d27 94fa

          上述代碼中utf8.DecodeRune的作用是通過(guò)傳入的utf8字節(jié)序列轉(zhuǎn)為一個(gè)rune即unicode。

          rune切片轉(zhuǎn)為字符串:

              // rune切片轉(zhuǎn)為字符串
          rs := []rune{0x65b0, 0x4e16, 0x754c, 0x6742, 0x8d27, 0x94fa}
          fmt.Println(string(rs))
          utf8bs := make([]byte, 0)
          for _, r := range rs {
          bs := make([]byte, 4)
          w := utf8.EncodeRune(bs, r)
          utf8bs = append(utf8bs, bs[:w]...)
          }
          fmt.Println(string(utf8bs))
          // 輸出:
          // 新世界雜貨鋪
          // 新世界雜貨鋪

          上述代碼中utf8.EncodeRune的作用是將一個(gè)rune轉(zhuǎn)為utf8字節(jié)序列。

          綜上:對(duì)于無(wú)法確定字符串中僅有單字節(jié)的字符的情況, 請(qǐng)使用rune,每一個(gè)rune類型代表一個(gè)unicode字符,并且它可以和字符串做無(wú)縫切換。

          理解go中的字符串其實(shí)是字節(jié)切片

          前面已經(jīng)提到了字符串能夠存儲(chǔ)任意字節(jié)數(shù)據(jù),而且是一個(gè)標(biāo)準(zhǔn)的utf8格式的字節(jié)切片。那么本節(jié)將會(huì)通過(guò)代碼來(lái)加深印象。

          	fmt.Println([]byte("新世界雜貨鋪"))
          s := "新世界雜貨鋪"
          for i := 0; i < len(s); i++ {
          fmt.Print(s[i], " ")
          }
          fmt.Println()
          // 輸出:
          // [230 150 176 228 184 150 231 149 140 230 157 130 232 180 167 233 147 186]
          // 230 150 176 228 184 150 231 149 140 230 157 130 232 180 167 233 147 186

          由上述的代碼可知,我們通過(guò)游標(biāo)按字節(jié)訪問(wèn)字符串得到的結(jié)果和字符串轉(zhuǎn)為字節(jié)切片是一樣的,因此可以再次確認(rèn)字符串和字節(jié)切片是等價(jià)的。

          通常情況下我們的字符串都是標(biāo)準(zhǔn)utf8格式的字節(jié)切片,但這并不是說(shuō)明字符串只能存儲(chǔ)utf8格式的字節(jié)切片,go中的字符串可以存儲(chǔ)任意的字節(jié)數(shù)據(jù)。


          bs := []byte{65, 73, 230, 150, 176, 255}
          fmt.Println(string(bs)) // 將隨機(jī)的字節(jié)切片轉(zhuǎn)為字符串
          fmt.Println([]byte(string(bs))) // 將字符串再次轉(zhuǎn)回字節(jié)切片

          rs := []rune(string(bs)) // 將字符串轉(zhuǎn)為字節(jié)rune切片
          fmt.Println(rs) // 輸出rune切片
          fmt.Println(string(rs)) // rune切片轉(zhuǎn)為字符串

          for len(bs) > 0 {
          r, w := utf8.DecodeRune(bs)
          fmt.Printf("%d: 0x%x ", r, r) // 輸出rune的值和其對(duì)應(yīng)的16進(jìn)制
          bs = bs[w:]
          }
          fmt.Println()
          fmt.Println([]byte(string(rs))) // rune切片轉(zhuǎn)為字符串后再次轉(zhuǎn)為字節(jié)切片
          // 輸出:
          // AI新?
          // [65 73 230 150 176 255]
          // [65 73 26032 65533]
          // AI新?
          // 65: 0x41 73: 0x49 26032: 0x65b0 65533: 0xfffd
          // [65 73 230 150 176 239 191 189]

          仔細(xì)閱讀上面的代碼和輸出,前5行的輸出應(yīng)該是沒(méi)有疑問(wèn)的。但是第6行輸出卻和預(yù)期有出入。

          前面提到了字符串可以存儲(chǔ)任意的字節(jié)數(shù)據(jù),那如果存儲(chǔ)的字節(jié)數(shù)據(jù)不是標(biāo)準(zhǔn)的utf8字節(jié)切片就會(huì)出現(xiàn)上面的問(wèn)題。

          我們已經(jīng)知道通過(guò)utf8.DecodeRune可以將字節(jié)切片轉(zhuǎn)為rune。那如果碰到不符合utf8編碼規(guī)范的字節(jié)切片時(shí),utf8.DecodeRune會(huì)返回一個(gè)容錯(cuò)的unicode\uFFFD,這個(gè)unicode對(duì)應(yīng)上面輸出的16進(jìn)制0xfffd

          問(wèn)題也就出現(xiàn)在這個(gè)容錯(cuò)的unicode\uFFFD上,因?yàn)樽止?jié)切片不符合utf8編碼規(guī)范無(wú)法得到正確的unicode,既\uFFFD占據(jù)了本應(yīng)該是正確的unicode所在的位置。這個(gè)時(shí)候再將已經(jīng)含有容錯(cuò)字符的rune切片轉(zhuǎn)為字符串時(shí),字符串存儲(chǔ)的就是合法的utf8字節(jié)切片了,因此第六行輸出的是含有\uFFFD的合法utf8字節(jié)切片,也就產(chǎn)生了和最初始的字節(jié)切片不一致的情況了。

          ??:在平時(shí)的開(kāi)發(fā)中要注意rune切片和byte切片的相互轉(zhuǎn)換一定要基于沒(méi)有亂碼的字符串(內(nèi)部是符合utf8編碼規(guī)則的字節(jié)切片),否則容易出現(xiàn)上述類似的錯(cuò)誤。

          字符串的多種表示方式

          本節(jié)算是擴(kuò)展了,在開(kāi)發(fā)中還是盡量別用這種特殊的表示方式,雖然看起來(lái)很高級(jí)但是可讀性太差。

          下面直接看代碼:

          	bs := []byte([]byte(""))
          for i := 0; i < len(bs); i++ {
          fmt.Printf("0x%x ", bs[i])
          }
          fmt.Println()
          fmt.Println("\xe6\x96\xb0")
          fmt.Println("\xe6\x96\xb0世界雜貨鋪" == "新世界雜貨鋪")
          fmt.Println('\u65b0' == '')
          fmt.Println("\u65b0世界雜貨鋪" == "新世界雜貨鋪")
          // 輸出:
          // 0xe6 0x96 0xb0
          //
          // true
          // true
          // true

          目前筆者僅發(fā)現(xiàn)unicode和單字節(jié)的16進(jìn)制可以直接用在字符串中, 歡迎讀者提供更多的表示方式以供交流。

          最后,祝大家讀完此篇文章后能夠有所收獲。




          推薦閱讀



          學(xué)習(xí)交流 Go 語(yǔ)言,掃碼回復(fù)「進(jìn)群」即可


          站長(zhǎng) polarisxu

          自己的原創(chuàng)文章

          不限于 Go 技術(shù)

          職場(chǎng)和創(chuàng)業(yè)經(jīng)驗(yàn)


          Go語(yǔ)言中文網(wǎng)

          每天為你

          分享 Go 知識(shí)

          Go愛(ài)好者值得關(guān)注



          瀏覽 60
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美精品久久久久黄片18试看 | 成人精品人妻 | 欧美做爱视频大全 | 亚洲AV无码国产精品综合 | 午夜亚洲天堂 |