<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          K8S, AI 大模型推理優(yōu)化的新選擇!

          共 1656字,需瀏覽 4分鐘

           ·

          2024-04-11 04:17

          最近直播超級多, 預約 保你有收獲

          今晚直播: 大模型Agent應(yīng)用落地實戰(zhàn)

          1

          AI 大模型訓練和推理

          Docker 容器和 Kubernetes 已經(jīng)成為越來越多 AI 應(yīng)用首選的運行環(huán)境和平臺。一方面,Kubernetes 幫助用戶標準化異構(gòu)資源和運行時環(huán)境、簡化運維流程;另一方面,AI 這種重度依賴 GPU 的場景可以利用 K8S 的彈性優(yōu)勢節(jié)省資源成本。在 AIGC/大模型的這波浪潮下,以 Kubernetes 上運行 AI 應(yīng)用將變成一種事實標準。

          大模型訓練和推理是企業(yè)重要應(yīng)用,但企業(yè)往往面臨著 GPU 管理復雜、資源利用率低,以及全生命周期管理中工程效率低下等挑戰(zhàn)。通過創(chuàng)建 kubernetes 集群,使用 KServe + vLLM 部署推理服務(wù)。適用于以下場景:

          • 大模型訓練:基于 Kubernetes 集群微調(diào)開源大模型,可以屏蔽底層資源和環(huán)境的復雜度,快速配置訓練數(shù)據(jù)、提交訓練任務(wù),并自動運行和保存訓練結(jié)果。
          • 大模型推理:基于 Kubernetes 集群部署推理服務(wù),可以屏蔽底層資源和環(huán)境的復雜度,快速將微調(diào)后的大模型部署成推理服務(wù),將大模型應(yīng)用到實際業(yè)務(wù)場景中。
          • GPU 共享推理: 支持 GPU 共享調(diào)度能力和顯存隔離能力,可將多個推理服務(wù)部署在同一塊 GPU 卡上,提高 GPU 的利用率的同時,也能保證推理服務(wù)的穩(wěn)定運行。

          2

          vLLM 大模型推理加速器

          即使在高端 GPU 上,提供 LLM 模型的速度也可能出奇 慢,平均推理速度大約5秒,vLLM 是一種快速且易于使用的 LLM 推理引擎。它可以實現(xiàn)比 Huggingface Transformer 網(wǎng)絡(luò)結(jié)構(gòu)高 10 倍甚至至 20 倍的吞吐量。它支持連續(xù)批處理以提高吞吐量和 GPU 利用率, vLLM 支持分頁注意力以解決內(nèi)存瓶頸,在自回歸解碼過程中,所有注意力鍵值張量(KV 緩存)都保留在 GPU 內(nèi)存中以生成下一個令牌。

          db0c280e7876214d6766cf3a9fdc1d06.webp

          • vLLM 是一個快速且易于使用的 LLM 推理和服務(wù)庫。
          • vLLM 支持了并行取樣,如下所示:
          f6550965b1682fbfba99f75964bd9fbb.webp
          • vLLM 支持了對多個輸出進行采樣,如下所示:
          83b3000d278d6eefc93a26ab2e568c42.webp

          3

          KServe 大模型推理平臺

          KServe 是一個與云無關(guān)的標準大模型推理平臺,專為大模型應(yīng)用高度可擴展而構(gòu)建,KServe 封裝了自動擴展、網(wǎng)絡(luò)、健康檢查和服務(wù)器配置的復雜性,為 大模型應(yīng)用部署帶來了 GPU 自動擴展、零擴縮放和金絲雀發(fā)布等先進的服務(wù)特性。它使得生產(chǎn)大模型應(yīng)用服務(wù)變得簡單、可插拔,它提供了以下特性: 8d92f0990b094cff270cd288b5d4e62d.webp
          • 跨機器學習框架,提供高性能標準化推理協(xié)議。
          • 支持現(xiàn)代無服務(wù)器推理工作負載,具有基于請求在 CPU 和 GPU 的自動縮放(包括縮放至零)。
          • 使用ModelMesh 支持 高可擴展性、密度封裝和智能路由。
          •  簡單且可插入的生產(chǎn)服務(wù): 用于推理、預/后處理、監(jiān)控和可解釋性。
          • 高級部署: 金絲雀部署、Pipeline、InferenceGraph。

          4

          領(lǐng)取《AI 大模型技術(shù)直播

          我們梳理了下 AI 大模型應(yīng)用開發(fā)的知識圖譜,包括12項核心技能: 大模型內(nèi)核架構(gòu)、大模型開發(fā) API、開發(fā)框架、向量數(shù)據(jù)庫、AI 編程、AI Agent、緩存、算力、RAG、大模型微調(diào)、大模型預訓練、LLMOps  等。

          3d83a09b0bbac399993366aa90e837ea.webp

          為了幫助同學們掌握 AI 大模型應(yīng)用開發(fā)技能,我們準備了一系列免費直播干貨掃碼全部領(lǐng)取

          END



          瀏覽 121
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日日久性爱视频 | 天天免费看黄片 | 大香蕉婷婷国产 | 色鬼色综合| A片免费网址 |