<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          高性能GPU服務(wù)器硬件拓?fù)渑c集群組網(wǎng)

          共 14471字,需瀏覽 29分鐘

           ·

          2024-04-15 08:01

          01術(shù)語(yǔ)與基礎(chǔ)


          大模型訓(xùn)練一般都是用單機(jī) 8 卡 GPU 主機(jī)組成集群,機(jī)型包括 8*{A100,A800,H100,H800} 。下面一臺(tái)典型 8*A100 GPU 的主機(jī)內(nèi)硬件拓?fù)洌?/span>

          | 典型 8 卡 A100 主機(jī)硬件拓?fù)?/span>

          本文來(lái)自“高性能GPU服務(wù)器硬件拓?fù)渑c集群組網(wǎng)”。本節(jié)將基于這張圖來(lái)介紹一些概念和術(shù)語(yǔ),有基礎(chǔ)的可直接跳過(guò)。

          關(guān)于CPU、服務(wù)器和存儲(chǔ)詳細(xì)技術(shù),請(qǐng)參考“下載提醒:服務(wù)器基礎(chǔ)知識(shí)全解(終極版)”,“2023年服務(wù)器計(jì)算機(jī)CPU行業(yè)報(bào)告”、“2023年機(jī)架式服務(wù)器行業(yè)洞察”、“2023~2025服務(wù)器CPU路線圖”、“2023服務(wù)器產(chǎn)業(yè)鏈及市場(chǎng)競(jìng)爭(zhēng)格局”、“存儲(chǔ)系統(tǒng)關(guān)鍵技術(shù)全解(終極版)”、“更新下載:存儲(chǔ)系統(tǒng)基礎(chǔ)知識(shí)全解(終極版)”、“存儲(chǔ)芯片技術(shù)基礎(chǔ)知識(shí)介紹(2023)”等等。

           PCIe 交換芯片

          CPU、內(nèi)存、存儲(chǔ)(NVME)、GPU、網(wǎng)卡等支持 PICe 的設(shè)備,都可以連接到 PCIe 總線或?qū)iT(mén)的 PCIe 交換芯片,實(shí)現(xiàn)互聯(lián)互通。

          PCIe 目前有 5 代產(chǎn)品,最新的是 Gen5。

          NVLink

          >定義

          Wikipedia 上 NVLink 上的定義:

          NVLink is a wire-based serial multi-lane near-range communications link developed by Nvidia. Unlike PCI Express, a device can consist of multiple NVLinks, and devices use mesh networking to communicate instead of a central hub. The protocol was first announced in March 2014 and uses a proprietary high-speed signaling interconnect (NVHS).

          簡(jiǎn)單總結(jié):同主機(jī)內(nèi)不同 GPU 之間的一種高速互聯(lián)方式:

          1. 是一種短距離通信鏈路,保證包的成功傳輸,更高性能,替代 PCIe,
          2. 支持多 lane,link 帶寬隨 lane 數(shù)量線性增長(zhǎng),
          3. 同一臺(tái) node 內(nèi)的 GPU 通過(guò) NVLink 以 full-mesh 方式(類(lèi)似 spine-leaf)互聯(lián),
          4. NVIDIA 專(zhuān)利技術(shù)。

          >演進(jìn):1/2/3/4 代

          主要區(qū)別是單條 NVLink 鏈路的 lane 數(shù)量、每個(gè) lane 的帶寬(圖中給的都是雙向帶寬)等:

          | NVLink 演進(jìn)。Image from: HotChips 2022 [1]

          例如:
          • A100 是 2 lanes/NVSwitch * 6 NVSwitch * 50GB/s/lane= 600GB/s 雙向帶寬(單向 300GB/s)。注意:這是一個(gè) GPU 到所有 NVSwitch 的總帶寬;
          • A800 被閹割了 4 條 lane,所以是 8 lane * 50GB/s/lane = 400GB/s 雙向帶寬(單向 200GB/s)。

          >監(jiān)控

          基于 DCGM 可以采集到實(shí)時(shí) NVLink 帶寬:
          | Metrics from dcgm-exporter [5]

          NVSwitch

          還是參考下圖:
          | 典型 8 卡 A100 主機(jī)硬件拓?fù)?/span>

          NVSwitch 是 NVIDIA 的一款交換芯片,封裝在 GPU module 上,并不是主機(jī)外的獨(dú)立交換機(jī)。

          下面是真機(jī)圖,浪潮的機(jī)器,圖中 8 個(gè)盒子就是 8 片 A100,右邊的 6 塊超厚散熱片下面就是 NVSwitch 芯片:

          Inspur NF5488A5 NVIDIA HGX A100 8 GPU Assembly Side View. Image source: [2]

          NVLink Switch

          NVSwitch 聽(tīng)名字像是交換機(jī),但實(shí)際上是 GPU module 上的交換芯片,用來(lái)連接同一臺(tái)主機(jī)內(nèi)的 GPU。

          2022 年,NVIDIA 把這塊芯片拿出來(lái)真的做成了交換機(jī),叫 NVLink Switch [3], 用來(lái)跨主機(jī)連接 GPU 設(shè)備。

          這倆名字很容易讓人混淆。

          HBM (High Bandwidth Memory)


          >由來(lái)

          傳統(tǒng)上,GPU 顯存和普通內(nèi)存(DDR)一樣插在主板上,通過(guò) PCIe 連接到處理器(CPU、GPU), 因此速度瓶頸在 PCIe,Gen4 是 64GB/s,Gen5 是 128GB/s。

          因此,一些 GPU 廠商(不是只有 NVIDIA 一家這么做)將將多個(gè) DDR 芯片堆疊之后與 GPU 封裝到一起 (后文講到 H100 時(shí)有圖),這樣每片 GPU 和它自己的顯存交互時(shí),就不用再去 PCIe 交換芯片繞一圈,速度最高可以提升一個(gè)量級(jí)。這種“高帶寬內(nèi)存”(High Bandwidth Memory)縮寫(xiě)就是 HBM。

          HBM 的市場(chǎng)目前被 SK 海力士和三星等韓國(guó)公司壟斷。

          >演進(jìn):HBM 1/2/2e/3/3e

          From wikipedia HBM,
          | 使用了 HBM 的近幾代高端 NVIDIA GPU 顯存帶寬(雙向),縱坐標(biāo)是 TB/s。Image source: [3]

          • AMD MI300X 采用 192GB HBM3 方案,帶寬 5.2TB/s;
          • HBM3e 是 HBM3 的增強(qiáng)版,速度從 6.4GT/s 到 8GT/s。

          帶寬單位

          大規(guī)模 GPU 訓(xùn)練的性能與數(shù)據(jù)傳輸速度有直接關(guān)系。這里面涉及到很多鏈路,比如 PCIe 帶寬、內(nèi)存帶寬、NVLink 帶寬、HBM 帶寬、網(wǎng)絡(luò)帶寬等等。

          • 網(wǎng)絡(luò)習(xí)慣用 bits/second (b/s) 表示之外,并且一般說(shuō)的都是單向(TX/RX);
          • 其他模塊帶寬基本用 byte/sedond (B/s) 或 transactions/second (T/s) 表示,并且一般都是雙向總帶寬。

          比較帶寬時(shí)注意區(qū)分和轉(zhuǎn)換。


          02、典型 8*A100/8*A800 主機(jī)

          主機(jī)內(nèi)拓?fù)洌?/strong>2-2-4-6-8-8


          • 2 片 CPU(及兩邊的內(nèi)存,NUMA)
          • 2 張存儲(chǔ)網(wǎng)卡(訪問(wèn)分布式存儲(chǔ),帶內(nèi)管理等)
          • 4 個(gè) PCIe Gen4 Switch 芯片
          • 6 個(gè) NVSwitch 芯片
          • 8 個(gè) GPU
          • 8 個(gè) GPU 專(zhuān)屬網(wǎng)卡

          | 典型 8 卡 A100 主機(jī)硬件拓?fù)?/span>

          下面這個(gè)圖畫(huà)的更專(zhuān)業(yè),需要更多細(xì)節(jié)的可參考:
          NVIDIA DGX A100 主機(jī)(官方 8 卡機(jī)器)硬件拓?fù)洹mage source: [4]

          >存儲(chǔ)網(wǎng)卡

          通過(guò) PCIe 直連 CPU。用途:
          1. 從分布式存儲(chǔ)讀寫(xiě)數(shù)據(jù),例如讀訓(xùn)練數(shù)據(jù)、寫(xiě) checkpoint 等;
          2. 正常的 node 管理,ssh,監(jiān)控采集等等。

          官方推薦用 BF3 DPU。但其實(shí)只要帶寬達(dá)標(biāo),用什么都行。組網(wǎng)經(jīng)濟(jì)點(diǎn)的話用 RoCE,追求最好的性能用 IB。

          NVSwitch fabric:intra-node full-mesh

          8 個(gè) GPU 通過(guò) 6 個(gè) NVSwitch 芯片 full-mesh 連接,這個(gè) full-mesh 也叫 NVSwitch fabric;full-mesh 里面的每根線的帶寬是 n * bw-per-nvlink-lane:

          • A100 用的 NVLink3,50GB/s/lane,所以 full-mesh 里的每條線就是 12*50GB/s=600GB/s,注意這個(gè)是雙向帶寬,單向只有 300GB/s。
          • A800 是閹割版,12 lane 變成 8 lane,所以每條線 8*50GB/s=400GB/s,單向 200GB/s。

          用 nvidia-smi topo 查看拓?fù)?/strong>

          下面是一臺(tái) 8*A800 機(jī)器上 nvidia-smi 顯示的實(shí)際拓?fù)洌ňW(wǎng)卡兩兩做了 bond,NIC 0~3 都是 bond):
          • GPU 之間(左上角區(qū)域):都是 NV8,表示 8 條 NVLink 連接;
          • NIC 之間:
          在同一片 CPU 上:NODE,表示不需要跨 NUMA,但需要跨 PCIe 交換芯片;
          不在同一片 CPU 上:SYS,表示需要跨 NUMA;

          • GPU 和 NIC 之間:
          在同一片 CPU 上,且在同一個(gè) PCIe Switch 芯片下面:NODE,表示只需要跨 PCIe 交換芯片;

          在同一片 CPU 上,且不在同一個(gè) PCIe Switch 芯片下面:NODE,表示需要跨 PCIe 交換芯片和 PCIe Host Bridge;

          不在同一片 CPU 上:SYS,表示需要跨 NUMA、PCIe 交換芯片,距離最遠(yuǎn);

          GPU 訓(xùn)練集群組網(wǎng):IDC GPU fabirc


          GPU node 互聯(lián)架構(gòu):

          >計(jì)算網(wǎng)絡(luò)

          GPU 網(wǎng)卡直連到置頂交換機(jī)(leaf),leaf 通過(guò) full-mesh 連接到 spine,形成跨主機(jī) GPU 計(jì)算網(wǎng)絡(luò)。

          • 這個(gè)網(wǎng)絡(luò)的目的是 GPU 與其他 node 的 GPU 交換數(shù)據(jù);
          • 每個(gè) GPU 和自己的網(wǎng)卡之間通過(guò) PCIe 交換芯片連接:GPU <--> PCIe Switch <--> NIC。

          >存儲(chǔ)網(wǎng)絡(luò)

          直連 CPU 的兩張網(wǎng)卡,連接到另一張網(wǎng)絡(luò)里,主要作用是讀寫(xiě)數(shù)據(jù),以及 SSH 管理等等。

          RoCE vs. InfiniBand

          不管是計(jì)算網(wǎng)絡(luò)還是存儲(chǔ)網(wǎng)絡(luò),都需要 RDMA 才能實(shí)現(xiàn) AI 所需的高性能。RDMA 目前有兩種選擇:
          • RoCEv2:公有云賣(mài)的 8 卡 GPU 主機(jī)基本都是這種網(wǎng)絡(luò),比如 CX6 8*100Gbps 配置;在性能達(dá)標(biāo)的前提下,(相對(duì))便宜;
          • InfiniBand (IB):同等網(wǎng)卡帶寬下,性能比 RoCEv2 好 20% 以上,但是價(jià)格貴一倍。

          數(shù)據(jù)鏈路帶寬瓶頸分析

          | 單機(jī) 8 卡 A100 GPU 主機(jī)帶寬瓶頸分析

          幾個(gè)關(guān)鍵鏈路帶寬都標(biāo)在圖上了:
          1. 同主機(jī) GPU 之間:走 NVLink,雙向 600GB/s,單向 300GB/s;
          2. 同主機(jī) GPU 和自己的網(wǎng)卡之間:走 PICe Gen4 Switch 芯片,雙向 64GB/s,單向 32GB/s;
          3. 跨主機(jī) GPU 之間:需要通過(guò)網(wǎng)卡收發(fā)數(shù)據(jù),這個(gè)就看網(wǎng)卡帶寬了,目前國(guó)內(nèi) A100/A800 機(jī)型配套的主流帶寬是(單向) 100Gbps=12.5GB/s。所以跨機(jī)通信相比主機(jī)內(nèi)通信性能要下降很多。
          • 200Gbps==25GB/s:已經(jīng)接近 PCIe Gen4 的單向帶寬;
          • 400Gbps==50GB/s:已經(jīng)超過(guò) PCIe Gen4 的單向帶寬。

          所以在這種機(jī)型里用 400Gbps 網(wǎng)卡作用不大,400Gbps 需要 PCIe Gen5 性能才能發(fā)揮出來(lái)。


          03、典型 8*H100/8*H800 主機(jī)

          GPU Board Form Factor 分為兩種類(lèi)型:
          • PCIe Gen5
          • SXM5:性能更高一些

          H100 芯片 layout

          下面是一片 H100 GPU 芯片的內(nèi)部結(jié)構(gòu):
          單片 H100 GPU 內(nèi)部邏輯布局。Image source: [3]

          • 4nm 工藝;
          • 最下面一排是 18 根 Gen4 NVLink;雙向總帶寬 18 lanes * 25GB/s/lane = 900GB/s;
          • 中間藍(lán)色的是 L2 cache;
          • 左右兩側(cè)是 HBM 芯片,即顯存。

          主機(jī)內(nèi)硬件拓?fù)?/strong>

          跟 A100 8 卡機(jī)結(jié)構(gòu)大致類(lèi)似,區(qū)別:

          NVSwitch 芯片從 6 個(gè)減少到了 4 個(gè);真機(jī)圖如下:
          與 CPU 的互聯(lián)從 PCIe Gen4 x16 升級(jí)到 PCIe Gen5 x16,雙向帶寬 128GB/s;

          組  網(wǎng)

          與 A100 也類(lèi)似,只是標(biāo)配改成了 400Gbps 的 CX7 網(wǎng)卡, 否則網(wǎng)絡(luò)帶寬與 PCIe Switch 和 NVLink/NVSwitch 之間的差距更大了。


          04、典型 4*L40S/8*L40S 主機(jī)

          L40S 是今年(2023)即將上市的新一代“性?xún)r(jià)比款”多功能 GPU,對(duì)標(biāo) A100。除了不適合訓(xùn)練基座大模型之外(后面會(huì)看到為什么),官方的宣傳里它幾乎什么都能干。 價(jià)格的話,目前第三方服務(wù)器廠商給到的口頭報(bào)價(jià)都是 A100 的 8 折左右。

          L40S vs A100 配置及特點(diǎn)對(duì)比

          L40S 最大的特點(diǎn)之一是 time-to-market 時(shí)間短,也就是從訂貨到拿到貨周期比 A100/A800/H800 快很多。這里面技術(shù)和非技術(shù)原因都有,比如:

          • 比如 FP64 和 NVLink 都干掉了;
          • 使用 GDDR6 顯存,不依賴(lài) HBM 產(chǎn)能(及先進(jìn)封裝)。

          價(jià)格便宜也有幾方面原因,后面會(huì)詳細(xì)介紹:

          • 大頭可能來(lái)自 GPU 本身價(jià)格降低:因?yàn)槿サ袅艘恍┠K和功能,或者用便宜的產(chǎn)品替代;
          • 整機(jī)成本也有節(jié)省:例如去掉了一層 PCIe Gen4 Swtich;不過(guò)相比于 4x/8x GPU,整機(jī)的其他部分都可以說(shuō)送的了。

          L40S 與 A100 性能對(duì)比

          下面是一個(gè)官方標(biāo)稱(chēng)性能對(duì)比:
          具體場(chǎng)景的性能對(duì)比網(wǎng)上也有很多官方資料,這里就不列舉了。

          • 性能 1.2x ~ 2x(看具體場(chǎng)景);
          • 功耗:兩臺(tái) L40S 和單臺(tái) A100 差不多。

          需要注意,L40S 主機(jī)官方推薦的是單機(jī) 4 卡而不是 8 卡(后面會(huì)介紹為什么), 所以對(duì)比一般是用 兩臺(tái) 4*L40S vs 單臺(tái) 8*A100。另外,很多場(chǎng)景的性能提升有個(gè) 大前提:網(wǎng)絡(luò)需要是 200Gbps RoCE 或 IB 網(wǎng)絡(luò),接下來(lái)介紹為什么。

           L40S 攢機(jī)

          >推薦架構(gòu):2-2-4

          相比于 A100 的 2-2-4-6-8-8 架構(gòu), 官方推薦的 L40S GPU 主機(jī)是 2-2-4 架構(gòu),一臺(tái)機(jī)器物理拓?fù)淙缦拢?/span>

          | 推薦單機(jī) 4 卡 L40S GPU 主機(jī)拓?fù)?/span>

          最明顯的變化是去掉了 CPU 和 GPU 之間的 PCIe Switch 芯片, 網(wǎng)卡和 GPU 都是直連 CPU 上自帶的 PCIe Gen4 x16(64GB/s):

          • 2 片 CPU(NUMA)
          • 2 張雙口 CX7 網(wǎng)卡(每張網(wǎng)卡 2*200Gbps)
          • 4 片 L40S GPU
          • 另外,存儲(chǔ)網(wǎng)卡只配 1 張(雙口),直連在任意一片 CPU 上

          這樣每片 GPU 平均 200Gbps 網(wǎng)絡(luò)帶寬。

          >不推薦架構(gòu):2-2-8
          單機(jī) 8 卡 L40S GPU 主機(jī)拓?fù)洌瑏?lái)自 NVIDIA L40S 官方推介材料

          如圖,跟單機(jī) 4 卡相比,單機(jī) 8 卡需要引入兩片 PCIe Gen5 Switch 芯片:
          • 說(shuō)是現(xiàn)在PCIe Gen5 Switch 單片價(jià)格 1w 刀(不知真假),一臺(tái)機(jī)器需要 2 片;價(jià)格不劃算;
          • PCIe switch 只有一家在生產(chǎn),產(chǎn)能受限,周期很長(zhǎng);
          • 平攤到每片 GPU 的網(wǎng)絡(luò)帶寬減半。

          組網(wǎng)

          官方建議 4 卡機(jī)型,搭配 200Gbps RoCE/IB 組網(wǎng)。

          數(shù)據(jù)鏈路帶寬瓶頸分析

          |  單機(jī) 4 卡 L40S GPU 主機(jī)帶寬瓶頸分析

          以同 CPU 下面的兩種 L40S 為例,這里面有兩條鏈路可選:

          1)直接通過(guò) CPU 處理:GPU0 <--PCIe--> CPU <--PCIe--> GPU1
          • PCIe Gen4 x16 雙向 64GB/s,單向 32GB/s;
          • CPU 處理瓶頸?TODO

          2)完全繞過(guò) CPU 處理,通過(guò)網(wǎng)卡去外面繞一圈再回來(lái):GPU0 <--PCIe--> NIC <-- RoCe/IB Switch --> NIC <--PCIe--> GPU1
          • PCIe Gen4 x16 雙向 64GB/s,單向 32GB/s;
          • 平均每個(gè) GPU 一個(gè)單向 200Gbps 網(wǎng)口,單向折算 25GB/s;
          • 需要 NCCL 支持,官方說(shuō)新版本 NCCL 正在針對(duì) L40S 適配,默認(rèn)行為就是去外面繞一圈回來(lái);

          第二種方式看著長(zhǎng)了很多,但官方說(shuō)其實(shí)比方式一還要快很多(這里還每太搞懂,CPU 那里是怎么處理的?)—— 前提是網(wǎng)卡和交換機(jī)配到位:200Gbps RoCE/IB 網(wǎng)絡(luò)。在這種網(wǎng)絡(luò)架構(gòu)下(網(wǎng)絡(luò)帶寬充足)。

          • 任何兩片 GPU 的通信帶寬和延遲都是一樣的,是否在一臺(tái)機(jī)器內(nèi)或一片 CPU 下面并不重要,集群可以橫向擴(kuò)展(scaling up,compared with scaling in);
          • GPU 機(jī)器成本降低;但其實(shí)對(duì)于那些對(duì)網(wǎng)絡(luò)帶寬要求沒(méi)那么高的業(yè)務(wù)來(lái)說(shuō),是把 NVLINK 的成本轉(zhuǎn)嫁給了網(wǎng)絡(luò),這時(shí)候必須要組建 200Gbps 網(wǎng)絡(luò),否則發(fā)揮不出 L40S 多卡訓(xùn)練的性能。

          如果是方式二,同主機(jī)內(nèi) GPU 卡間的帶寬瓶頸在網(wǎng)卡速度。即使網(wǎng)絡(luò)是推薦的 2*CX7 配置:
          • L40S:200Gbps(網(wǎng)卡單向線速)
          • A100:300GB/s(NVLINK3 單向) == 12x200Gbps
          • A800:200GB/s(NVLINK3 單向) == 8x200Gbps

          可以看到,L40S 卡間帶寬還是比 A100 NVLINK 慢了 12 倍, 比 A800 NVLink 慢了 8 倍,所以不適合數(shù)據(jù)密集交互的基礎(chǔ)大模型訓(xùn)練。

          測(cè)試注意事項(xiàng)

          如上,即便只測(cè)試單機(jī) 4 卡 L40S 機(jī)器,也需要搭配 200Gbps 交換機(jī),否則卡間性能發(fā)揮不出來(lái)。

          參考資料
          NVLink-Network Switch - NVIDIA’s Switch Chip for High Communication-Bandwidth SuperPODs, Hot Chips 2022
          ChatGPT Hardware a Look at 8x NVIDIA A100 Powering the Tool, 2023
          NVIDIA Hopper Architecture In-Depth, nvidia.com, 2022
          DGX A100 review: Throughput and Hardware Summary, 2020
          Understanding NVIDIA GPU Performance: Utilization vs. Saturation, 2023
          相關(guān)閱讀:

          轉(zhuǎn)載申明:轉(zhuǎn)載本號(hào)文章請(qǐng)注明作者來(lái)源,本號(hào)發(fā)布文章若存在版權(quán)等問(wèn)題,請(qǐng)留言聯(lián)系處理,謝謝。

          推薦閱讀
          更多架構(gòu)相關(guān)技術(shù)知識(shí)總結(jié)請(qǐng)參考“架構(gòu)師全店鋪技術(shù)資料打包(全)”相關(guān)電子書(shū)(41本技術(shù)資料打包匯總詳情可通過(guò)“閱讀原文”獲取)。

          全店內(nèi)容持續(xù)更新,現(xiàn)下單“架構(gòu)師技術(shù)全店資料打包匯總(全)”一起發(fā)送“服務(wù)器基礎(chǔ)知識(shí)全解(終極版)和“存儲(chǔ)系統(tǒng)基礎(chǔ)知識(shí)全解(終極版)pdf及ppt版本,后續(xù)可享全店內(nèi)容更新“免費(fèi)”贈(zèng)閱,價(jià)格僅收249元(原總價(jià)399元)。


          溫馨提示:

          掃描二維碼關(guān)注公眾號(hào),點(diǎn)擊閱讀原文鏈接獲取架構(gòu)師技術(shù)全店資料打包匯總(全)電子書(shū)資料詳情


          瀏覽 301
          10點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          10點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                    <th id="afajh"><progress id="afajh"></progress></th>
                    亚洲AV成人无码一区二区三区 | 亚欧精品久久久 | 五月天天婷婷 | 色婷婷欧美亚洲激情综合另类在线 | 国产又粗又大操逼视频 |