<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          為什么要進(jìn)行URL編碼?。?!

          共 7406字,需瀏覽 15分鐘

           ·

          2021-11-29 23:03

          點(diǎn)擊關(guān)注公眾號,回復(fù)“2T”獲取2TB學(xué)習(xí)資源!

          互聯(lián)網(wǎng)架構(gòu)師后臺回復(fù) 2T 有特別禮包

          作者:一覺睡到丶小時候
          鏈接:https://www.jianshu.com/p/290ecc26d5f2

          上一篇:SQL查找是否"存在",別再count了!

          我們都知道Http協(xié)議中參數(shù)的傳輸是"key=value"這種簡直對形式的,如果要傳多個參數(shù)就需要用“&”符號對鍵值對進(jìn)行分割。

          如"?name1=value1&name2=value2",這樣在服務(wù)端在收到這種字符串的時候,會用“&”分割出每一個參數(shù),然后再用“=”來分割出參數(shù)值。

          針對“name1=value1&name2=value2”我們來說一下客戶端到服務(wù)端的概念上解析過程:

          上述字符串在計算機(jī)中用ASCII嗎表示為:

          6E616D6531 3D 76616C756531 26 6E616D6532 3D 76616C756532。
          6E616D6531:name1
          3D:=
          76616C756531:value1
          26:&
          6E616D6532:name2
          3D:=
          76616C756532:value2

          服務(wù)端在接收到該數(shù)據(jù)后就可以遍歷該字節(jié)流,首先一個字節(jié)一個字節(jié)的吃,當(dāng)吃到3D這字節(jié)后,服務(wù)端就知道前面吃得字節(jié)表示一個key,再想后吃,如果遇到26,說明從剛才吃的3D到26子節(jié)之間的是上一個key的value,以此類推就可以解析出客戶端傳過來的參數(shù)。

          現(xiàn)在有這樣一個問題,如果我的參數(shù)值中就包含=或&這種特殊字符的時候該怎么辦?

          比如說“name1=value1”,其中value1的值是“va&lu=e1”字符串,那么實(shí)際在傳輸過程中就會變成這樣“name1=va&lu=e1”。我們的本意是就只有一個鍵值對,但是服務(wù)端會解析成兩個鍵值對,這樣就產(chǎn)生了奇異。

          如何解決上述問題帶來的歧義呢?解決的辦法就是對參數(shù)進(jìn)行URL編碼

          URL編碼只是簡單的在特殊字符的各個字節(jié)前加上%,例如,我們對上述會產(chǎn)生奇異的字符進(jìn)行URL編碼后結(jié)果:“name1=va%26lu%3D”,這樣服務(wù)端會把緊跟在“%”后的字節(jié)當(dāng)成普通的字節(jié),就是不會把它當(dāng)成各個參數(shù)或鍵值對的分隔符。搜索公眾號互聯(lián)網(wǎng)架構(gòu)師復(fù)“2T”,送你一份驚喜禮包。

          另外一個問題,就是為什么我們要用ASCII傳輸,可不可以用別的編碼?

          當(dāng)然可以用別的編碼,你自己可以開發(fā)一套編碼,然后自己解析。就像大部分國家都有自己的語言一樣。那國家之間要交流,怎么辦?用英語把,英語的使用范圍最廣。
          通常如果一樣?xùn)|西需要編碼,說明這樣?xùn)|西并不適合傳輸。原因多種多樣,如Size過大,包含隱私數(shù)據(jù),對于Url來說,之所以要進(jìn)行編碼,是因?yàn)閁rl中有些字符會引起歧義。
          例如,Url參數(shù)字符串中使用key=value鍵值對這樣的形式來傳參,鍵值對之間以&符號分隔,如/s?q=abc&ie=utf-8。如果你的value字符串中包含了=或者&,那么勢必會造成接收Url的服務(wù)器解析錯誤,因此必須將引起歧義的&和=符號進(jìn)行轉(zhuǎn)義,也就是對其進(jìn)行編碼。
          又如,Url的編碼格式采用的是ASCII碼,而不是Unicode,這也就是說你不能在Url中包含任何非ASCII字符,例如中文。否則如果客戶端瀏覽器和服務(wù)端瀏覽器支持的字符集不同的情況下,中文可能會造成問題。
          Url編碼的原則就是使用安全的字符(沒有特殊用途或者特殊意義的可打印字符)去表示那些不安全的字符。搜索公眾號互聯(lián)網(wǎng)架構(gòu)師復(fù)“2T”,送你一份驚喜禮包。
          預(yù)備知識:URI是統(tǒng)一資源標(biāo)識的意思,通常我們所說的URL只是URI的一種。典型URL的格式如下所示。下面提到的URL編碼,實(shí)際上應(yīng)該指的是URI編碼。


          哪些字符需要編碼

          RFC3986文檔規(guī)定,Url中只允許包含英文字母(a-zA-Z)、數(shù)字(0-9)、-_.~4個特殊字符以及所有保留字符。RFC3986文檔對Url的編解碼問題做出了詳細(xì)的建議,指出了哪些字符需要被編碼才不會引起Url語義的轉(zhuǎn)變,以及對為什么這些字符需要編碼做出了相應(yīng)的解釋。

          還有一些字符(!><'()*+,;=)用于在每個組件中起到分隔作用的,如=用于表示查詢參數(shù)中的鍵值對,&符號用于分隔查詢多個鍵值對。當(dāng)組件中的普通數(shù)據(jù)包含這些特殊字符時,需要對其進(jìn)行編碼。

          RFC3986中指定了以下字符為保留字符:! * ' ( ) ; : @ & = + $ , / ? # [ ]

          需要注意的是,對于Url中的合法字符,編碼和不編碼是等價的,但是對于上面提到的這些字符,如果不經(jīng)過編碼,那么它們有可能會造成Url語義的不同。因此對于Url而言,只有普通英文字符和數(shù)字,特殊字符$-_.+!*'()還有保留字符,才能出現(xiàn)在未經(jīng)編碼的Url之中。其他字符均需要經(jīng)過編碼之后才能出現(xiàn)在Url中。

          但是由于歷史原因,目前尚存在一些不標(biāo)準(zhǔn)的編碼實(shí)現(xiàn)。例如對于符號,雖然RFC3986文檔規(guī)定,對于波浪符號,不需要進(jìn)行Url編碼,但是還是有很多老的網(wǎng)關(guān)或者傳輸代理會進(jìn)行編碼。


          如何對Url中的非法字符進(jìn)行編碼

          Url編碼通常也被稱為百分號編碼(Url Encoding,also known as percent-encoding),是因?yàn)樗木幋a方式非常簡單,使用%百分號加上兩位的字符——0123456789ABCDEF——代表一個字節(jié)的十六進(jìn)制形式。

          Url編碼默認(rèn)使用的字符集是US-ASCII。例如a在US-ASCII碼中對應(yīng)的字節(jié)是0x61,那么Url編碼之后得到的就是%61,我們在地址欄上輸入http://g.cn/search?q=%61%62%63,實(shí)際上就等同于在google上搜索abc了。又如@符號在ASCII字符集中對應(yīng)的字節(jié)為0x40,經(jīng)過Url編碼之后得到的是%40。

          對于非ASCII字符,需要使用ASCII字符集的超集進(jìn)行編碼得到相應(yīng)的字節(jié),然后對每個字節(jié)執(zhí)行百分號編碼。對于Unicode字符,RFC文檔建議使用utf-8對其進(jìn)行編碼得到相應(yīng)的字節(jié),然后對每個字節(jié)執(zhí)行百分號編碼。如"中文"使用UTF-8字符集得到的字節(jié)為0xE4 0xB8 0xAD 0xE6 0x96 0x87,經(jīng)過Url編碼之后得到"%E4%B8%AD%E6%96%87"。

          如果某個字節(jié)對應(yīng)著ASCII字符集中的某個非保留字符,則此字節(jié)無需使用百分號表示。例如"Url編碼",使用UTF-8編碼得到的字節(jié)是0x55 0x72 0x6C 0xE7 0xBC 0x96 0xE7 0xA0 0x81,由于前三個字節(jié)對應(yīng)著ASCII中的非保留字符"Url",因此這三個字節(jié)可以用非保留字符"Url"表示。最終的Url編碼可以簡化成"Url%E7%BC%96%E7%A0%81" ,當(dāng)然,如果你用"%55%72%6C%E7%BC%96%E7%A0%81"也是可以的。

          由于歷史的原因,有一些Url編碼實(shí)現(xiàn)并不完全遵循這樣的原則,下面會提到。

          Javascript中的escape, encodeURI和encodeURIComponent的區(qū)別

          JavaScript中提供了3對函數(shù)用來對Url編碼以得到合法的Url,它們分別是escape / unescape, encodeURI / decodeURI和encodeURIComponent / decodeURIComponent。由于解碼和編碼的過程是可逆的,因此這里只解釋編碼的過程。
          這三個編碼的函數(shù)——escape,encodeURI,encodeURIComponent——都是用于將不安全不合法的Url字符轉(zhuǎn)換為合法的Url字符表示,它們有以下幾個不同點(diǎn)。

          這種方式已經(jīng)被W3C廢棄了。但是在ECMA-262標(biāo)準(zhǔn)中仍然保留著escape的這種編碼語法。encodeURI和encodeURIComponent則使用UTF-8對非ASCII字符進(jìn)行編碼,然后再進(jìn)行百分號編碼。這是RFC推薦的。因此建議盡可能的使用這兩個函數(shù)替代escape進(jìn)行編碼。

          我們上面提到過,保留字符一般是用來分隔URI組件(一個URI可以被切割成多個組件,參考預(yù)備知識一節(jié))或者子組件(如URI中查詢參數(shù)的分隔符),如:號用于分隔scheme和主機(jī),?號用于分隔主機(jī)和路徑。由于encodeURI操縱的對象是一個完整的的URI,這些字符在URI中本來就有特殊用途,因此這些保留字符不會被encodeURI編碼,否則意義就變了。

          組件內(nèi)部有自己的數(shù)據(jù)表示格式,但是這些數(shù)據(jù)內(nèi)部不能包含有分隔組件的保留字符,否則就會導(dǎo)致整個URI中組件的分隔混亂。因此對于單個組件使用encodeURIComponent,需要編碼的字符就更多了。

          表單提交

          當(dāng)Html的表單被提交時,每個表單域都會被Url編碼之后才在被發(fā)送。由于歷史的原因,表單使用的Url編碼實(shí)現(xiàn)并不符合最新的標(biāo)準(zhǔn)。
          例如對于空格使用的編碼并不是%20,而是+號,如果表單使用的是Post方法提交的,我們可以在HTTP頭中看到有一個Content-Type的header,值為application/x-www-form-urlencoded。
          大部分應(yīng)用程序均能處理這種非標(biāo)準(zhǔn)實(shí)現(xiàn)的Url編碼,但是在客戶端Javascript中,并沒有一個函數(shù)能夠?qū)?號解碼成空格,只能自己寫轉(zhuǎn)換函數(shù)。還有,對于非ASCII字符,使用的編碼字符集取決于當(dāng)前文檔使用的字符集。例如我們在Html頭部加上。搜索公眾號互聯(lián)網(wǎng)架構(gòu)師復(fù)“2T”,送你一份驚喜禮包。
          <meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
          這樣瀏覽器就會使用gb2312去渲染此文檔(注意,當(dāng)HTML文檔中沒有設(shè)置此meta標(biāo)簽,則瀏覽器會根據(jù)當(dāng)前用戶喜好去自動選擇字符集,用戶也可以強(qiáng)制當(dāng)前網(wǎng)站使用某個指定的字符集)。當(dāng)提交表單時,Url編碼使用的字符集就是gb2312。
          之前在使用Aptana(為什么專指aptana下面會提到)遇到一個很迷惑的問題,就是在使用encodeURI的時候,發(fā)現(xiàn)它編碼得到的結(jié)果和我想的很不一樣。下面是我的示例代碼:
          <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" 
          "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

          <html xmlns="http://www.w3.org/1999/xhtml">
              <head>
                  <meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
              </head>
              <body>
                  <script type="text/javascript">
                      document.write(encodeURI("中文"));
          </script>

              </body>
          </html>
          運(yùn)行結(jié)果輸出%E6%B6%93%EE%85%9F%E6%9E%83。顯然這并不是使用UTF-8字符集進(jìn)行Url編碼得到的結(jié)果(在Google上搜索"中文",Url中顯示的是%E4%B8%AD%E6%96%87)。
          所以我當(dāng)時就很質(zhì)疑,難道encodeURI還跟頁面編碼有關(guān),但是我發(fā)現(xiàn),正常情況下,如果你使用gb2312進(jìn)行Url編碼也不會得到這個結(jié)果的才是。后來終于被我發(fā)現(xiàn),原來是頁面文件存儲使用的字符集和Meta標(biāo)簽中指定的字符集不一致導(dǎo)致的問題。
          Aptana的編輯器默認(rèn)情況下使用UTF-8字符集。也就是說這個文件實(shí)際存儲的時候使用的是UTF-8字符集。但是由于Meta標(biāo)簽中指定了gb2312,這個時候,瀏覽器就會按照gb2312去解析這個文檔,那么自然在"中文"這個字符串這里就會出錯,因?yàn)?中文"字符串用UTF-8編碼過后得到的字節(jié)是0xE4 0xB8 0xAD 0xE6 0x96 0x87,這6個字節(jié)又被瀏覽器拿gb2312去解碼,那么就會得到另外三個漢字"涓枃"(GBK中一個漢字占兩個字節(jié)),這三個漢字在傳入encodeURI函數(shù)之后得到的結(jié)果就是%E6%B6%93%EE%85%9F%E6%9E%83。因此,encodeURI使用的還是UTF-8,并不會受到頁面字符集的影響。
          對于包含中文的Url的處理問題,不同瀏覽器有不同的表現(xiàn)。例如對于IE,如果你勾選了高級設(shè)置"總是以UTF-8發(fā)送Url",那么Url中的路徑部分的中文會使用UTF-8進(jìn)行Url編碼之后發(fā)送給服務(wù)端,而查詢參數(shù)中的中文部分使用系統(tǒng)默認(rèn)字符集進(jìn)行Url編碼。為了保證最大互操作性,建議所有放到Url中的組件全部顯式指定某個字符集進(jìn)行Url編碼,而不依賴于瀏覽器的默認(rèn)實(shí)現(xiàn)。
          另外,很多HTTP監(jiān)視工具或者瀏覽器地址欄等在顯示Url的時候會自動將Url進(jìn)行一次解碼(使用UTF-8字符集),這就是為什么當(dāng)你在Firefox中訪問Google搜索中文的時候,地址欄顯示的Url包含中文的緣故。但實(shí)際上發(fā)送給服務(wù)端的原始Url還是經(jīng)過編碼的。你可以在地址欄上使用Javascript訪問location.href就可以看出來了。在研究Url編解碼的時候千萬別被這些假象給迷惑了。
          感謝您的閱讀,也歡迎您發(fā)表關(guān)于這篇文章的任何建議,關(guān)注我,技術(shù)不迷茫!小編到你上高速。
              · END ·
          最后,關(guān)注公眾號互聯(lián)網(wǎng)架構(gòu)師,在后臺回復(fù):2T,可以獲取我整理的 Java 系列面試題和答案,非常齊全。


          正文結(jié)束


          推薦閱讀 ↓↓↓

          1.心態(tài)崩了!稅前2萬4,到手1萬4,年終獎扣稅方式1月1日起施行~

          2.深圳一普通中學(xué)老師工資單曝光,秒殺程序員,網(wǎng)友:敢問是哪個學(xué)校畢業(yè)的?

          3.從零開始搭建創(chuàng)業(yè)公司后臺技術(shù)棧

          4.程序員一般可以從什么平臺接私活?

          5.清華大學(xué):2021 元宇宙研究報告!

          6.為什么國內(nèi) 996 干不過國外的 955呢?

          7.這封“領(lǐng)導(dǎo)痛批95后下屬”的郵件,句句扎心!

          8.15張圖看懂瞎忙和高效的區(qū)別!


          瀏覽 16
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费人成视频在线 | 操b视频在线播放 | 日韩精品成人无码 | 欧美淫色图 | 91成人电影免费 |