為了搞清楚CDN的原理,我頭都禿了...
CDN 概述
CDN 全稱 Content Delivery Network,即內(nèi)容分發(fā)網(wǎng)絡(luò)。其基本思路是盡可能避開互聯(lián)網(wǎng)上有可能影響數(shù)據(jù)傳輸速度和穩(wěn)定性的瓶頸和環(huán)節(jié),使內(nèi)容傳輸?shù)母臁⒏€(wěn)定
CDN 的
工作原理就是將源站的資源緩存CDN各個節(jié)點上,當請求命中了某個節(jié)點的資源緩存時,立即返回客戶端,避免每個請求的資源都通過源站獲取,避免網(wǎng)絡(luò)擁塞、緩解源站壓力,保證用戶訪問資源的速度和體驗。
舉一個生活中的例子,我們在某東上購買商品,快遞能做到當日送達,其根本原理是通過在全國各地建設(shè)本地倉庫。當用戶購買商品時,通過智能倉配模式,為消費者選擇就近倉庫發(fā)貨,從而縮短物流配送時間。

而商品庫存的分配,流程可以參考下圖,從 工廠(源站) -> 地域倉庫(二級緩存) -> 本地倉庫 (一級緩存)

內(nèi)容分發(fā)網(wǎng)絡(luò) 就像前面提到的 智能倉配網(wǎng)絡(luò) 一樣,解決了因分布、帶寬、服務(wù)器性能帶來的訪問延遲問題,適用于站點加速、點播、直播等場景。使用戶可就近取得所需內(nèi)容,解決 Internet網(wǎng)絡(luò)擁擠的狀況,提高用戶訪問網(wǎng)站的響應(yīng)速度和成功率。

CDN的誕生

CDN 誕生于二十多年前,為解決內(nèi)容源服務(wù)器和傳輸骨干網(wǎng)絡(luò)壓力過大的問題,在 1995 年,麻省理工學(xué)院教授,互聯(lián)網(wǎng)發(fā)明者之一 Tom Leighton 帶領(lǐng)著研究生 Danny Lewin 和其他幾位頂級研究人員一起嘗試用數(shù)學(xué)問題解決網(wǎng)絡(luò)擁堵問題。
他們使用數(shù)學(xué)算法,處理內(nèi)容的動態(tài)路由安排,并最終解決了困擾 Internet 使用者的難題。后來,史隆管理學(xué)院的 MBA 學(xué)生 Jonathan Seelig 加入了 Leighton 的隊伍中,從那以后他們開始實施自己的商業(yè)計劃,最終于 1998 年 8 月 20 日正式成立公司,命名為 Akamai。Akamai 公司通過智能化的互聯(lián)網(wǎng)分發(fā),結(jié)束了 “World Wide Wait” 的尷尬局面。
同年 1998 年,中國第一家 CDN 公司 ChinaCache 成立
CDN工作原理
接入CDN
在接入CDN前,當我們訪問某個域名,直接拿到第一個真實服務(wù)器的IP地址,整個流程如下(圖有點簡陋)

當我們需要加速網(wǎng)站時,通過向運營商注冊自己加速域名,源站域名,然后進入到自己域名的DNS配置信息,將 A 記錄修改成 CNAME 記錄即可。阿里云加速申請參考如下:

CDN訪問過程

1、用戶訪問圖片內(nèi)容,先經(jīng)過 本地DNS解析,如果 LDNS 命中,直接返回給用戶。2、 LDNSMISS,轉(zhuǎn)發(fā)授權(quán)DNS查詢3、返回域名 CNAMEpicwebws.pstatp.com.wsglb0.com. 對應(yīng)IP地址(實際就是DNS調(diào)度系統(tǒng)的ip地址)4、域名解析請求發(fā)送至 DNS調(diào)度系統(tǒng),DNS調(diào)度系統(tǒng)為請求分配最佳節(jié)點IP地址。5、返回的解析 IP地址6、用戶向 緩存服務(wù)器發(fā)起請求,緩存服務(wù)器響應(yīng)用戶請求,將用戶所需內(nèi)容傳送到用戶終端。
圖:華為云全站加速示意圖
CDN解決了什么問題
骨干網(wǎng)壓力過大
Tom Leighton在 1995 年, 帶領(lǐng)團隊嘗試用數(shù)學(xué)問題解決網(wǎng)絡(luò)擁堵問題,從而解決骨干網(wǎng)絡(luò)壓力過大的問題。由于上網(wǎng)沖浪 的少年越來越多,造成骨干網(wǎng)的核心節(jié)點流量吞吐不足以支撐互聯(lián)網(wǎng)用戶的增長,通過CDN可以避免用戶流量流經(jīng)骨干網(wǎng)。
骨干網(wǎng)是一個全球性的局域網(wǎng),一級互聯(lián)網(wǎng)服務(wù)提供商(ISP)將其高速光纖網(wǎng)絡(luò)連接在一起,形成互聯(lián)網(wǎng)的骨干網(wǎng),實現(xiàn)在不同地理區(qū)域之間高效地傳輸流量。
1、局域網(wǎng)
局域網(wǎng)(Local Area Network,LAN)是指在某一區(qū)域內(nèi)由多臺計算機互聯(lián)成的計算機組,比如:在大學(xué)時期,晚上12點后斷網(wǎng)了,我們?nèi)匀荒軌蛲ㄟ^路由器開黑打CS,魔獸。那就是基于局域網(wǎng)互聯(lián),實現(xiàn)資料共享與信息之間的通信。

2、骨干網(wǎng)
這里引用一下中國電信全網(wǎng)架構(gòu),骨干網(wǎng)可以理解成是一個全國性的局域網(wǎng),通過核心節(jié)點的流量互通,實現(xiàn)全網(wǎng)網(wǎng)絡(luò)的互通。這也是為什么我們稱為互聯(lián)網(wǎng) 的原因。

北京、上海、廣州,是ChinaNet的超級核心。除了超級核心之外,ChinaNet還有天津、西安、南京、杭州、武漢、成都等普通核心。

三公里之 middlemile
通常網(wǎng)絡(luò)訪問中會有"三公里"路程
第一公里為:源站到ISP接入點 第二公里為:源站ISP接入點到訪問用戶的ISP接入點 第三公里(最后一公里)為:用戶ISP接入點到用戶客戶端
CDN網(wǎng)絡(luò)層主要用來加速第二公里(middlemile),
在 CDN 的基礎(chǔ)架構(gòu)中,通常使用兩級 server 做加速:
L1(下層):距離用戶(或俗稱網(wǎng)民)越近越好,通常用于緩存那些可緩存的靜態(tài)數(shù)據(jù),稱之為 lastmile(最后一公里)。 L2(上層):距離源站越近越好,稱之為 firstmile(第一公里),當 L1 無法命中緩存,或內(nèi)容不可緩存時,請求會通過 L1 透傳給 L2,若 L2 仍然沒有命中緩存或內(nèi)容不可緩存,則會繼續(xù)透傳給 L2 的 upstream(有可能是源站,也有可能是 L3),同時 L2 還可以做流量、請求數(shù)的量級收斂,減少回源量(如果可緩存),降低源站壓力。 L1 和 L2 之間的部分,是 CDN 的 ”內(nèi)部網(wǎng)絡(luò)“,稱之為 middlemile(中間一公里)。

CDN的組成
全局負載均衡系統(tǒng) GLB(Global Load Balance)

當用戶訪問加入CDN服務(wù)的網(wǎng)站時,域名解析請求將最終由 “智能調(diào)度DNS”負責處理。 它通過一組預(yù)先定義好的策略,將當時 最接近用戶的節(jié)點地址提供給用戶,使用戶可以得到快速的服務(wù)。同時它需要與分布在各地的CDN節(jié)點保持通信,跟蹤各節(jié)點的健康狀態(tài)、容量等信息,確保將用戶的請求分配到就近可用的節(jié)點上.
緩存服務(wù)器
緩存服務(wù)器主要的功能就是緩存熱點數(shù)據(jù),數(shù)據(jù)類型包括:靜態(tài)資源(html,js,css等),多媒體資源(img,mp3,mp4等),以及動態(tài)數(shù)據(jù)(邊緣渲染)等。
眾所周知耳熟能詳?shù)呐c CDN 有關(guān)的開源軟件有:
Squid Varnish Nginx OpenResty ATS HAProxy
具體對比可參考:https://blog.csdn.net/joeyon1985/article/details/46573281
CDN的分層架構(gòu)

源站
源站指發(fā)布內(nèi)容的原始站點。添加、刪除和更改網(wǎng)站的文件,都是在源站上進行的;另外緩存服務(wù)器所抓取的對象也全部來自于源站。
CDN 調(diào)度策略
DNS 調(diào)度
基于請求端 local DNS 的出口 IP 歸屬地以及運營商的 DNS 調(diào)度。
DNS 調(diào)度的問題:
DNS 緩存時間在 TTL 過期前是不會刷新的, 這樣會導(dǎo)致節(jié)點異常的時候自動調(diào)度延時很大,會直接影響線上業(yè)務(wù)訪問。 大量的 local DNS 不支持 EDNS 協(xié)議,拿不到客戶的真實IP,CDN 絕大多數(shù)時候只能通過local DNS IP來做決策,經(jīng)常會出現(xiàn)跨區(qū)域調(diào)度的情況。
HTTP DNS 調(diào)度
客戶端請求固定的 HTTP DNS 地址,根據(jù)返回獲取解析結(jié)果??梢蕴岣呓馕龅臏蚀_性(不像DNS調(diào)度,只能通過local DNS IP來做決策),能很好的避免劫持等問題。
當然這種模式也有一些問題,例如客戶端每次加載URL都可能產(chǎn)生一次HTTP DNS查詢,這就對性能和網(wǎng)絡(luò)接入要求很高。
302調(diào)度
基于客戶端 IP 和 302 調(diào)度集群進行實時的流量調(diào)度。
我們來看一個例子:
訪問 URL 鏈接后,此時請求到了調(diào)度群集上,我們能拿到的客戶端信息有 客戶端的出口IP(絕大多情況下是相同的),接下來算法和基于 DNS 的調(diào)度可以是一樣的,只是判斷依據(jù)由 local DNS 出口 ip 變成了客戶端的出口IP。 瀏覽器收到302回應(yīng),跟隨 Location 中的 URL,繼續(xù)發(fā)起 http 請求,這次請求的目標 IP 是CDN 邊緣節(jié)點,CDN節(jié)點會響應(yīng)實際的文件內(nèi)容。
302 調(diào)度的優(yōu)勢:
實時調(diào)度,因為沒有 local DNS 緩存的,適合 CDN 的削峰處理,對于成本控制意義重大; 準確性高,直接獲取客戶端出口 IP 進行調(diào)度。
302 調(diào)度的劣勢:
每次都要跳轉(zhuǎn),對于延時敏感的業(yè)務(wù)不友好。一般只適用于大文件。
AnyCast BGP路由調(diào)度
基于 BGP AnyCast 路由策略,只提供極少的對外 IP,路由策略可以很快的調(diào)整。
目前 AWS CloudFront、CloudFlare 都使用了這種方式,在路由層面進行調(diào)度。
這種方式可以很好地抵御 DDOS 攻擊,降低網(wǎng)絡(luò)擁塞。
當然這種方式的成本和方案設(shè)計都比較復(fù)雜,所以國內(nèi)的 CDN 目前還都是用 UniCast 的方式。
一些概念
CDN運作原理
本地緩存的數(shù)據(jù),通過key-value 的形式,將url 和本地緩存進行映射,存儲結(jié)構(gòu)與 Map相似,采用 hash+鏈表形式進行緩存。

CDN命中率
衡量我們CDN服務(wù)質(zhì)量的一個核心標準,當用戶訪問的資源恰好在緩存系統(tǒng)里,可以直接返回給用戶,說明CDN命中;如果CDN緩存中,沒有命中資源,那么會觸發(fā)回源動作。
CDN回源
當CDN本地緩存沒有命中時,觸發(fā)回源動作,
一級緩存訪問二級緩存是否有相關(guān)數(shù)據(jù),如果有,返回一級緩存。二級緩存Miss,觸發(fā) 二級緩存 回源請求,請求源站對應(yīng)數(shù)據(jù)。獲取結(jié)果后,緩存到本地緩存,返回數(shù)據(jù)到一級緩存。一級緩存獲取數(shù)據(jù),緩存本地后,返回給用戶。
CDN預(yù)熱數(shù)據(jù)
上面說的訪問模式,都是基于Pull模式,由用戶決策哪部分熱點數(shù)據(jù)會最終存留在CDN緩存中;對于大促場景,我們往往需要預(yù)先將活動相關(guān)資源預(yù)熱 到 邊緣節(jié)點(L1),避免大促開啟后,大量用戶訪問,造成源站壓力過大。這時候采用的是 Push模式。
CDN的特點總結(jié)
1、資源訪問加速: 本地Cache加速,提高了企業(yè)站點(尤其含有大量圖片和靜態(tài)頁面站點)的訪問速度,并大大提高以上性質(zhì)站點的穩(wěn)定性
2、消除運營商間網(wǎng)絡(luò)互聯(lián)的瓶頸問題: 鏡像服務(wù)消除了不同運營商之間互聯(lián)的瓶頸造成的影響,實現(xiàn)了跨運營商的網(wǎng)絡(luò)加速,保證不同網(wǎng)絡(luò)中的用戶都能得到良好的訪問質(zhì)量。
3、遠程加速: 遠程訪問用戶根據(jù)DNS負載均衡技術(shù) 智能自動選擇Cache服務(wù)器,選擇最快的Cache服務(wù)器,加快遠程訪問的速度
4、帶寬優(yōu)化: 自動生成服務(wù)器的遠程Mirror(鏡像)cache服務(wù)器,遠程用戶訪問時從cache服務(wù)器上讀取數(shù)據(jù),減少遠程訪問的帶寬、分擔網(wǎng)絡(luò)流量、減輕原站點WEB服務(wù)器負載等功能。
5、集群抗攻擊: 廣泛分布的CDN節(jié)點加上節(jié)點之間的智能冗余機制,可以有效地預(yù)防黑客入侵以及降低各種D.D.o.S攻擊對網(wǎng)站的影響,同時保證較好的服務(wù)質(zhì)量 。

【另類見解】秒殺其實很簡單??!

Redis緩存那點破事 | 絕殺面試官 25 問!

