<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          LLMs 千面郎君 更新版

          共 29856字,需瀏覽 60分鐘

           ·

          2024-10-16 07:00


          !! 介紹:本項目是作者們根據(jù)個人面試和經(jīng)驗總結(jié)出的 大模型(LLMs)面試準(zhǔn)備的學(xué)習(xí)筆記與資料,該資料目前包含 大模型(LLMs)各領(lǐng)域的 面試題積累。

          Github 地址:https://github.com/km1994/LLMs_interview_notes


          !! NLP 面無不過 面試交流群 (注:人滿 可 添加 小編wx:yzyykm666 加群!)

          大模型(LLMs)基礎(chǔ)面

          1. 目前 主流的開源模型體系 有哪些?
          2. prefix Decoder 和 causal Decoder 和 Encoder-Decoder 區(qū)別是什么?
          3. 大模型LLM的 訓(xùn)練目標(biāo) 是什么?
          4. 涌現(xiàn)能力是啥原因?
          5. 為何現(xiàn)在的大模型大部分是Decoder only結(jié)構(gòu)?
          6. 簡單 介紹一下 大模型【LLMs】?
          7. 大模型【LLMs】后面跟的 175B、60B、540B等 指什么?
          8. 大模型【LLMs】具有什么優(yōu)點?
          9. 大模型【LLMs】具有什么缺點?
          • 點擊查看答案

          大模型(LLMs)進(jìn)階面

          1. LLMs 復(fù)讀機(jī)問題
            1. 什么是 LLMs 復(fù)讀機(jī)問題?
            2. 為什么會出現(xiàn) LLMs 復(fù)讀機(jī)問題?
            3. 如何緩解 LLMs 復(fù)讀機(jī)問題?
          2. llama 系列問題
            1. llama 輸入句子長度理論上可以無限長嗎?
          3. 什么情況用Bert模型,什么情況用LLaMA、ChatGLM類大模型,咋選?
          4. 各個專業(yè)領(lǐng)域是否需要各自的大模型來服務(wù)?
          5. 如何讓大模型處理更長的文本?
          • 點擊查看答案

          大模型(LLMs)微調(diào)面

          大模型(LLMs)微調(diào)面

          1. 如果想要在某個模型基礎(chǔ)上做全參數(shù)微調(diào),究竟需要多少顯存?
          2. 為什么SFT之后感覺LLM傻了?
          3. SFT 指令微調(diào)數(shù)據(jù) 如何構(gòu)建?
          4. 領(lǐng)域模型Continue PreTrain 數(shù)據(jù)選取?
          5. 領(lǐng)域數(shù)據(jù)訓(xùn)練后,通用能力往往會有所下降,如何緩解模型遺忘通用能力?
          6. 領(lǐng)域模型Continue PreTrain ,如何 讓模型在預(yù)訓(xùn)練過程中就學(xué)習(xí)到更多的知識?
          7. 進(jìn)行SFT操作的時候,基座模型選用Chat還是Base?
          8. 領(lǐng)域模型微調(diào) 指令&數(shù)據(jù)輸入格式 要求?
          9. 領(lǐng)域模型微調(diào) 領(lǐng)域評測集 構(gòu)建?
          10. 領(lǐng)域模型詞表擴(kuò)增是不是有必要的?
          11. 如何訓(xùn)練自己的大模型?
          12. 訓(xùn)練中文大模型有啥經(jīng)驗?
          13. 指令微調(diào)的好處?
          14. 預(yù)訓(xùn)練和微調(diào)哪個階段注入知識的?
          15. 想讓模型學(xué)習(xí)某個領(lǐng)域或行業(yè)的知識,是應(yīng)該預(yù)訓(xùn)練還是應(yīng)該微調(diào)?
          16. 多輪對話任務(wù)如何微調(diào)模型?
          17. 微調(diào)后的模型出現(xiàn)能力劣化,災(zāi)難性遺忘是怎么回事?
          18. 微調(diào)模型需要多大顯存?
          19. 大模型LLM進(jìn)行SFT操作的時候在學(xué)習(xí)什么?
          20. 預(yù)訓(xùn)練和SFT操作有什么不同
          21. 樣本量規(guī)模增大,訓(xùn)練出現(xiàn)OOM錯
          22. 大模型LLM進(jìn)行SFT 如何對樣本進(jìn)行優(yōu)化?
          23. 模型參數(shù)迭代實驗
          24. 微調(diào)大模型的一些建議
          • 點擊查看答案

          大模型(LLMs)訓(xùn)練經(jīng)驗帖

          • 分布式訓(xùn)練框架選擇?
          • LLMs 訓(xùn)練時 有哪些有用的建議?
          • 模型大小如何選擇?
          • 加速卡如何選擇?
          • 點擊查看答案

          大模型(LLMs)langchain 面

          大模型(LLMs)langchain 面

          • 什么是 LangChain?

            • 2.1 LangChain 中 Components and Chains 是什么?
            • 2.2 LangChain 中 Prompt Templates and Values 是什么?
            • 2.3 LangChain 中 Example Selectors 是什么?
            • 2.4 LangChain 中 Output Parsers 是什么?
            • 2.5 LangChain 中 Indexes and Retrievers 是什么?
            • 2.6 LangChain 中  Chat Message History 是什么?
            • 2.7 LangChain 中  Agents and Toolkits 是什么?
            1. LangChain 包含哪些 核心概念?
            1. 什么是 LangChain Agent?
            1. 如何使用 LangChain ?
            1. LangChain 支持哪些功能?
            1. 什么是 LangChain model?
            1. LangChain 包含哪些特點?
            • 8.1 LangChain 如何調(diào)用 LLMs 生成回復(fù)?
            • 8.2 LangChain 如何修改 提示模板?
            • 8.3 LangChain 如何鏈接多個組件處理一個特定的下游任務(wù)?
            • 8.4 LangChain 如何Embedding & vector store?
            1. LangChain 如何使用?
          • LangChain 存在哪些問題及方法方案?

            1. LangChain 缺乏標(biāo)準(zhǔn)的可互操作數(shù)據(jù)類型問題
            1. LangChain 行為不一致并且隱藏細(xì)節(jié)問題
            1. LangChain 太多概念容易混淆,過多的“輔助”函數(shù)問題
            1. LangChain 文檔的問題
            1. LangChain 低效的令牌使用問題
          • LangChain 替代方案?

          • 點擊查看答案

          基于LLM+向量庫的文檔對話 經(jīng)驗面

          • 一、基于LLM+向量庫的文檔對話 基礎(chǔ)面

            • 1.1 為什么 大模型 需要 外掛(向量)知識庫?
            • 1.2. 基于LLM+向量庫的文檔對話 思路是怎么樣?
            • 1.3. 基于LLM+向量庫的文檔對話 核心技術(shù)是什么?
            • 1.4. 基于LLM+向量庫的文檔對話 prompt 模板 如何構(gòu)建?
          • 二、基于LLM+向量庫的文檔對話 存在哪些痛點?

          • 三、基于LLM+向量庫的文檔對話 工程示例面

          • 點擊查看答案

          LLM文檔對話 —— pdf解析關(guān)鍵問題

          • 一、為什么需要進(jìn)行pdf解析?

          • 二、為什么需要 對 pdf 進(jìn)行解析?

          • 三、pdf解析 有哪些方法,對應(yīng)的區(qū)別是什么?

          • 四、pdf解析 存在哪些問題?

          • 五、如何 長文檔(書籍)中關(guān)鍵信息?

          • 六、為什么要提取標(biāo)題甚至是多級標(biāo)題?

          • 七、如何提取 文章標(biāo)題?

          • 八、如何區(qū)分單欄還是雙欄pdf?如何重新排序?

          • 九、如何提取表格和圖片中的數(shù)據(jù)?

          • 十、基于AI的文檔解析有什么優(yōu)缺點?

          • 點擊查看答案

          基于LLM+向量庫的文檔對話 經(jīng)驗面

          • 一、基于LLM+向量庫的文檔對話 基礎(chǔ)面

            • 1.1 為什么 大模型 需要 外掛(向量)知識庫?
            • 1.2. 基于LLM+向量庫的文檔對話 思路是怎么樣?
            • 1.3. 基于LLM+向量庫的文檔對話 核心技術(shù)是什么?
            • 1.4. 基于LLM+向量庫的文檔對話 prompt 模板 如何構(gòu)建?
          • 二、基于LLM+向量庫的文檔對話 存在哪些痛點?

          • 三、基于LLM+向量庫的文檔對話 工程示例面

          • 點擊查看答案

          大模型(LLMs)參數(shù)高效微調(diào)(PEFT) 面

          大模型(LLMs)參數(shù)高效微調(diào)(PEFT) 面

          • 微調(diào)方法是啥?如何微調(diào)?

          • 為什么需要 PEFT?

          • 介紹一下 PEFT?

          • PEFT 有什么優(yōu)點?

          • 微調(diào)方法批處理大小模式GPU顯存速度?

          • Peft 和 全量微調(diào)區(qū)別?

          • 多種不同的高效微調(diào)方法對比

          • 當(dāng)前高效微調(diào)技術(shù)存在的一些問題

          • 高效微調(diào)技術(shù)最佳實踐

          • PEFT 存在問題?

          • 能不能總結(jié)一下各種參數(shù)高效微調(diào)方法?

          • 點擊查看答案

          配器微調(diào)(Adapter-tuning)篇

          • 一、為什么 需要 適配器微調(diào)(Adapter-tuning)?

          • 二、適配器微調(diào)(Adapter-tuning)思路?

          • 三、 適配器微調(diào)(Adapter-tuning)特點是什么?

          • 四、AdapterFusion 思路 是什么?

          • 五、AdapterDrop 思路 是什么?

          • 六、AdapterDrop 特點 是什么?

          • 七、MAM Adapter 思路 是什么?

          • 八、MAM Adapter 特點 是什么?

          • 點擊查看答案

          提示學(xué)習(xí)(Prompting)

          • 一、為什么需要 提示學(xué)習(xí)(Prompting)?

          • 二、什么是 提示學(xué)習(xí)(Prompting)?

          • 三、提示學(xué)習(xí)(Prompting) 有什么優(yōu)點?

          • 四、提示學(xué)習(xí)(Prompting)有哪些方法,能不能稍微介紹一下它們間?

            • 4.4.1 為什么需要 P-tuning v2?
            • 4.4.2 P-tuning v2 思路是什么?
            • 4.4.3 P-tuning v2 優(yōu)點是什么?
            • 4.4.4 P-tuning v2 缺點是什么?
            • 4.3.1 為什么需要 P-tuning?
            • 4.3.2 P-tuning 思路是什么?
            • 4.3.3 P-tuning 優(yōu)點是什么?
            • 4.3.4 P-tuning 缺點是什么?
            • 4.2.1 為什么需要 指示微調(diào)(Prompt-tuning)?
            • 4.2.2 指示微調(diào)(Prompt-tuning)思路是什么?
            • 4.2.3 指示微調(diào)(Prompt-tuning)優(yōu)點是什么?
            • 4.2.4 指示微調(diào)(Prompt-tuning)缺點是什么?
            • 4.2.5 指示微調(diào)(Prompt-tuning)與 Prefix-tuning 區(qū)別 是什么?
            • 4.2.6 指示微調(diào)(Prompt-tuning)與 fine-tuning 區(qū)別 是什么?
            • 4.1.1 為什么需要 前綴微調(diào)(Prefix-tining)?
            • 4.1.2 前綴微調(diào)(Prefix-tining)思路是什么?
            • 4.1.3 前綴微調(diào)(Prefix-tining)的優(yōu)點是什么?
            • 4.1.4 前綴微調(diào)(Prefix-tining)的缺點是什么?
            • 4.1 前綴微調(diào)(Prefix-tining)篇
            • 4.2 指示微調(diào)(Prompt-tuning)篇
            • 4.3 P-tuning 篇
            • 4.4 P-tuning v2 篇
          • 點擊查看答案

          LoRA 系列篇

          • 一、LoRA篇

            • 1.1 什么是 LoRA?
            • 1.2 LoRA 的思路是什么?
            • 1.3 LoRA 的特點是什么?
          • 二、QLoRA篇

            • 2.1 QLoRA 的思路是怎么樣的?
            • 2.2 QLoRA 的特點是什么?
          • 三、AdaLoRA篇

            • 3.1 AdaLoRA 的思路是怎么樣的?
          • 四、LoRA權(quán)重是否可以合入原模型?

          • 五、ChatGLM-6B LoRA后的權(quán)重多大?

          • 六、LoRA 微調(diào)優(yōu)點是什么?

          • 七、LoRA微調(diào)方法為啥能加速訓(xùn)練?

          • 八、如何在已有LoRA模型上繼續(xù)訓(xùn)練?

          • 九、LoRA 缺點是什么?

          • 十、LoRA這種微調(diào)方法和全參數(shù)比起來有什么劣勢嗎?

          • 點擊查看答案

          大模型(LLMs)推理面

          大模型(LLMs)推理面


            1. 為什么大模型推理時顯存漲的那么多還一直占著?
            1.  模型在gpu和cpu上推理速度如何?
            1. 推理速度上,int8和fp16比起來怎么樣?
            1. 大模型有推理能力嗎?
            1. 大模型生成時的參數(shù)怎么設(shè)置?

            1. 有哪些省內(nèi)存的大語言模型訓(xùn)練/微調(diào)/推理方法?
              6.1 如何 估算模型所需的RAM?
              6.2 Fp16-mixed precision
              6.3 Int8-bitsandbytes
              6.4 LoRA
              6.5 Gradient Checkpointing
              6.6 Torch FSDP+CPU offload
            1. 如何讓大模型輸出合規(guī)化
            1. 應(yīng)用模式變更
          • 點擊查看答案

          大模型(LLMs)預(yù)訓(xùn)練面

          大模型(LLMs)增量預(yù)訓(xùn)練篇

          1. 為什么要增量預(yù)訓(xùn)練?
          2. 進(jìn)行 增量預(yù)訓(xùn)練 需要做哪些準(zhǔn)備工作?
          3. 增量預(yù)訓(xùn)練 所用 訓(xùn)練框架?
          4. 增量預(yù)訓(xùn)練 訓(xùn)練流程 是怎么樣?
          • 點擊查看答案

          大模型(LLMs)評測面

          1. 大模型怎么評測?
          2. 大模型的honest原則是如何實現(xiàn)的?模型如何判斷回答的知識是訓(xùn)練過的已知的知識,怎么訓(xùn)練這種能力?
          3. 如何衡量大模型水平?
          4. 大模型評估方法 有哪些?
          5. 大模型評估工具 有哪些?
          • 點擊查看答案

          大模型(LLMs)強(qiáng)化學(xué)習(xí)面


            1. 簡單介紹強(qiáng)化學(xué)習(xí)?
            1. 簡單介紹一下 RLHF?
            1. 獎勵模型需要和基礎(chǔ)模型一致嗎?
            1. RLHF 在實踐過程中存在哪些不足?
            1. 如何解決 人工產(chǎn)生的偏好數(shù)據(jù)集成本較高,很難量產(chǎn)問題?
            1. 如何解決三個階段的訓(xùn)練(SFT->RM->PPO)過程較長,更新迭代較慢問題?
            1. 如何解決 PPO 的訓(xùn)練過程同時存在4個模型(2訓(xùn)練,2推理),對計算資源的要求較高 問題?
          • 點擊查看答案

          大模型(LLMs)軟硬件配置面

          1. 建議的軟件環(huán)境是什么?
          • 點擊查看答案

          大模型(LLMs)訓(xùn)練集面

          1. SFT(有監(jiān)督微調(diào))的數(shù)據(jù)集格式?
          2. RM(獎勵模型)的數(shù)據(jù)格式?
          3. PPO(強(qiáng)化學(xué)習(xí))的數(shù)據(jù)格式?
          4. 找數(shù)據(jù)集哪里找?
          5. 微調(diào)需要多少條數(shù)據(jù)?
          6. 有哪些大模型的訓(xùn)練集?
          7. 進(jìn)行領(lǐng)域大模型預(yù)訓(xùn)練應(yīng)用哪些數(shù)據(jù)集比較好?
          • 點擊查看答案

          大模型(LLMs)顯存問題面

          1. 大模型大概有多大,模型文件有多大?
          2. 能否用4 * v100 32G訓(xùn)練vicuna 65b?
          3. 如果就是想要試試65b模型,但是顯存不多怎么辦?
          4. nB模型推理需要多少顯存?
          5. nB模型訓(xùn)練需要多少顯存?
          6. 如何 估算模型所需的RAM?
          7. 如何評估你的顯卡利用率?
          8. 測試你的顯卡利用率 實現(xiàn)細(xì)節(jié)篇
            1. 如何查看多機(jī)訓(xùn)練時的網(wǎng)速?
            2. 如何查看服務(wù)器上的多卡之間的NVLINK topo?
            3. 如何查看服務(wù)器上顯卡的具體型號?
            4. 如何查看訓(xùn)練時的flops?(也就是每秒的計算量)
            5. 如何查看對deepspeed的環(huán)境配置是否正確?
            6. tf32格式有多長?
            7. 哪里看各類顯卡算力比較?
            8. (torch profiler)如何查看自己的訓(xùn)練中通信開銷?
          • 點擊查看答案

          大模型(LLMs)分布式訓(xùn)練面

          大模型(LLMs)分布式訓(xùn)練面

          • 理論篇


            • 1.1 訓(xùn)練 大語言模型 存在問題?
            • 1.2 什么是 點對點通信?
            • 1.3 什么是 集體通信?
            • 1.4 什么是 數(shù)據(jù)并行?
            • 1.5 數(shù)據(jù)并行 如何 提升效率?
            • 1.6 什么是 流水線并行?
            • 1.7 什么是 張量并行 (intra-layer)?
            • 1.8 數(shù)據(jù)并行 vs 張量并行 vs 流水線并行?
            • 1.9 什么是 3D并行?
            • 1.10 想要訓(xùn)練1個LLM,如果只想用1張顯卡,那么對顯卡的要求是什么?
            • 1.11 如果有N張顯存足夠大的顯卡,怎么加速訓(xùn)練?
            • 1.12 如果顯卡的顯存不夠裝下一個完整的模型呢?
            • 1.13 PP推理時,是一個串行的過程,1個GPU計算,其他空閑,有沒有其他方式?
            • 1.14 3種并行方式可以疊加嗎?
            • 1.15 Colossal-AI 有1D/2D/2.5D/3D,是什么情況?
            • 1.16 除了3D并行有沒有其他方式大規(guī)模訓(xùn)練?
            • 1.17 有了ZeRO系列,為什么還需要3D并行?
            • 1.18 平民適不適合玩3D并行?
            • 1.19 平民適不適合直接上多機(jī)多卡的ZeRO3(萬兆網(wǎng))?
            • 1.20 分布式并行及顯存優(yōu)化技術(shù)并行技術(shù)有哪一些,都有什么特點?
            • 1.21 顯存優(yōu)化技術(shù)有哪一些,都有什么特點?
            • 1.22 常見的分布式訓(xùn)練框架哪一些,都有什么特點?
            2. 實踐篇
            • 2.1 假如有超多的8卡A100節(jié)點(DGX A100),如何應(yīng)用3D并行策略?
            • 2.2 如果想構(gòu)這樣一個大規(guī)模并行訓(xùn)練系統(tǒng),訓(xùn)練框架如何選?
            • 2.3 訓(xùn)練框架如何選?
            1. 并行化策略選擇篇
            • 3.1 如何選擇一款分布式訓(xùn)練框架?
            • 3.2 如何選擇一款分布式訓(xùn)練框架?
            • 3.3 單GPU
            • 3.4 單節(jié)點多卡
            • 3.5 多節(jié)點多卡
            1. 問題篇
            • 4.1 推理速度驗證
            • 4.2 并行化訓(xùn)練加速
            • 4.3 deepspeed 訓(xùn)練過程,報找不主機(jī)
            • 4.4 為什么 多機(jī)訓(xùn)練效率不如單機(jī)?
            • 4.5 多機(jī)訓(xùn)練不通,DeepSPeed配置問題
          • 點擊查看答案

          圖解分布式訓(xùn)練(一) —— 流水線并行(Pipeline Parallelism)面

          • 為什么需要流水線并行(Pipeline Parallelism)?

          • 一、流水線并行(Pipeline Parallelism) 優(yōu)化目標(biāo)是什么?

          • 二、圖解 流水線并行(Pipeline Parallelism)模型并行 必要性?

          • 三、流水線并行(Pipeline Parallelism) 圖解?

          • 四、流水線并行(Pipeline Parallelism)優(yōu)缺點?

          • 點擊查看答案

          圖解分布式訓(xùn)練(二) —— nn.DataParallel面

          • 為什么需要nn.DataParallel?

          • 一、pytorch中的GPU操作默認(rèn)是什么樣?

          • 二、介紹一下 nn.DataParallel 函數(shù)?

          • 三、nn.DataParallel 函數(shù) 處理邏輯 介紹一下?

          • 四、nn.DataParallel 函數(shù) 常見問題及解答 有哪些?

            • 4.1 多GPU計算減少了程序運行的時間?
            • 4.2 如何保存和加載多GPU訓(xùn)練模型呢?
            • 4.3 為什么第一塊卡的顯存會占用的更多一些?
            • 4.4 直接使用nn.DataParallel的時候,訓(xùn)練采用多卡訓(xùn)練,會出現(xiàn)一個warning?
            • 4.5 device_ids 0 被占用問題
          • 五、nn.DataParallel 函數(shù) 參數(shù)更新方式 ?

          • 六、nn.DataParallel 函數(shù) 優(yōu)點 介紹一下?

          • 七、nn.DataParallel 函數(shù) 缺點 介紹一下?

          • 八、nn.DataParallel 函數(shù) 實戰(zhàn)?

          • 點擊查看答案

          圖解分布式訓(xùn)練(三) ——  nn.parallel.DistributedDataParallel

          • 為什么需要 nn.parallel.DistributedDataParallel ?

          • 一、什么是 DistributedDataParallel 核心 —— Ring-AllReduce?

          • 二、nn.parallel.DistributedDataParallel 函數(shù) 介紹一下?

          • 三、nn.parallel.DistributedDataParallel 函數(shù) 如何多卡加速訓(xùn)練?

          • 四、nn.parallel.DistributedDataParallel 實現(xiàn)流程介紹一下?

          • 五、nn.parallel.DistributedDataParallel 參數(shù)更新介紹一下?

          • 六、nn.DataParallel(以下簡稱DP) vs DistributedDataParallel(以下簡稱DDP)介紹一下?

          • 七、DistributedDataParallel(以下簡稱DDP) 優(yōu)點有哪些?

          • 八、DistributedDataParallel(以下簡稱DDP) 缺點有哪些?

          • 點擊查看答案

          圖解分布式訓(xùn)練(四) ——  torch.multiprocessing 詳細(xì)解析

          • 一、torch.multiprocessing 函數(shù)介紹一下?

          • 二、torch.multiprocessing 函數(shù)如何使用?

          • 三、介紹一下 共享CUDA張量?

          • 四、介紹一下 共享策略?

          • 五、torch.multiprocessing 函數(shù)使用

          • 點擊查看答案

          圖解分布式訓(xùn)練(五) ——  AMP混合精度訓(xùn)練 詳細(xì)解析

          • 為什么需要 AMP混合精度訓(xùn)練?

          • 一、什么是自動混合精度訓(xùn)練(AMP)

          • 二、為什么需要自動混合精度?

          • 三、混合精度訓(xùn)練的優(yōu)點是什么?

          • 四、混合精度訓(xùn)練的缺點是什么?

          • 五、混合精度訓(xùn)練的關(guān)鍵技術(shù)是什么?

          • 六、介紹一下 混合精度訓(xùn)練 動態(tài)損失縮放?

          • 七、如何在PyTorch中使用自動混合精度?

          • 八、如何使用 AMP混合精度訓(xùn)練 ?

          • 點擊查看答案

          圖解分布式訓(xùn)練(六) —— Pytorch的 DeepSpeed 詳細(xì)解析

          • 一、為什么需要 Deepspeed?

          • 二、DeepSpeed 基本概念 介紹一下?

          • 三、DeepSpeed 通信策略 介紹一下?

          • 四、DeepSpeed 如何使用?

          • 五、DeepSpeed 代碼實現(xiàn)?

          • 七、訓(xùn)練精度 介紹一下?

          • 八、獲取模型參數(shù) 介紹一下?

          • 點擊查看答案

          圖解分布式訓(xùn)練(七)—— accelerate 分布式訓(xùn)練 詳細(xì)解析

          • 一、為什么需要 accelerate 分布式訓(xùn)練?

          • 二、什么是 accelerate 分布式訓(xùn)練?

          • 三、accelerate 分布式訓(xùn)練 原理講解?

          • 四、accelerate 分布式訓(xùn)練 如何實踐?

          • 點擊查看答案

          圖解分布式訓(xùn)練(八)—— ZeRO 學(xué)習(xí)

          • 一、什么是 3D 并行?

          • 二、3D 并行 策略有哪些?

          • 三、為什么需要 ZeRO?

          • 四、ZeRO 的 核心思想是什么?

          • 五、ZeRO 顯存如何分配?

          • 六、ZeRO 優(yōu)化策略是怎么樣?

          • 七、ZeRO Offload后的計算流程是怎么樣?

          • 點擊查看答案

          大模型(LLMs)agent 面

          1. 如何給LLM注入領(lǐng)域知識?
          2. 如果想要快速體驗各種模型,該怎么辦?
          • 點擊查看答案

          Token及模型參數(shù)準(zhǔn)備篇

          1. 預(yù)訓(xùn)練數(shù)據(jù) Token 重復(fù) 是否影響 模型性能?
          2. SFT需要訓(xùn)練Token數(shù)?
          • 點擊查看答案

          LLMs 位置編碼篇

          • 1 什么是位置編碼?

          • 2 什么是絕對位置編碼?

          • 3 什么是相對位置編碼?

          • 4 旋轉(zhuǎn)位置編碼 RoPE篇

            • 4.1 旋轉(zhuǎn)位置編碼 RoPE 思路是什么?
            • 4.2 推導(dǎo)一下 旋轉(zhuǎn)位置編碼 RoPE ?
            • 4.3 旋轉(zhuǎn)位置編碼 RoPE 有什么優(yōu)點?
            • 4.4 旋轉(zhuǎn)位置編碼 RoPE 被哪些 LLMs 應(yīng)用?
          • 5 長度外推問題篇

            • 5.1 什么是 長度外推問題?
            • 5.2 長度外推問題 的 解決方法 有哪些?
          • 6 ALiBi (Attention with Linear Biases)篇

            • 6.1 ALiBi (Attention with Linear Biases) 思路是什么?
            • 6.2 ALiBi (Attention with Linear Biases) 的偏置矩陣是什么?有什么作用?
            • 6.3 ALiBi (Attention with Linear Biases) 有什么優(yōu)點?
            • 6.4 ALiBi (Attention with Linear Biases)  被哪些 LLMs 應(yīng)用?
          • 點擊查看答案

          LLMs Tokenizer 篇

          LLMs Tokenizer 篇

          • Byte-Pair Encoding(BPE)篇

            • 1 Byte-Pair Encoding(BPE) 如何構(gòu)建詞典?
          • WordPiece 篇

            • 1 WordPiece 與 BPE 異同點是什么?
          • SentencePiece 篇

            • 簡單介紹一下 SentencePiece 思路?
          • 對比篇

            • 1 舉例 介紹一下 不同 大模型LLMs 的分詞方式?
            • 2 介紹一下 不同 大模型LLMs 的分詞方式 的區(qū)別?
          • 點擊查看答案

          怎么讓英文大語言模型支持中文?(一) —— 構(gòu)建中文tokenization

          • 一、為什么需要 構(gòu)建中文tokenization?

          • 二、如何對 原始數(shù)據(jù)預(yù)處理?

          • 三、如何構(gòu)建中文的詞庫?

          • 四、如何使用transformers庫加載sentencepiece模型?

          • 五、如何合并英文詞表和中文詞表?

          • 六、怎么使用修改后的詞表?

          • 總結(jié)一下 構(gòu)建中文tokenization?

          • 點擊查看答案

          怎么讓英文大語言模型支持中文?(二) —— 繼續(xù)預(yù)訓(xùn)練篇

          • 一、為什么需要進(jìn)行繼續(xù)預(yù)訓(xùn)練?

          • 二、如何對 繼續(xù)預(yù)訓(xùn)練 數(shù)據(jù)預(yù)處理?

          • 三、如何 構(gòu)建模型?

          • 四、如何 使用模型?

          • 點擊查看答案

          怎么讓英文大語言模型支持中文?(三) —— 對預(yù)訓(xùn)練模型進(jìn)行指令微調(diào)

          • 一、為什么需要對預(yù)訓(xùn)練模型進(jìn)行指令微調(diào)?

          • 二、對預(yù)訓(xùn)練模型進(jìn)行指令微調(diào) 數(shù)據(jù) 如何處理?

          • 三、對預(yù)訓(xùn)練模型進(jìn)行指令微調(diào) tokenization 如何構(gòu)建?

          • 四、對預(yù)訓(xùn)練模型進(jìn)行指令微調(diào) 模型 如何構(gòu)建?

          • 五、是否可以結(jié)合 其他庫 使用?

          • 點擊查看答案

          Layer normalization 篇

          • Layer normalization-方法篇

            • Deep Norm 思路?
            • 寫一下 Deep Norm 代碼實現(xiàn)?
            • RMS Norm 的計算公式寫一下?
            • RMS Norm 相比于 Layer Norm 有什么特點?
            • Layer Norm 的計算公式寫一下?
            • Layer Norm 篇
            • RMS Norm 篇 (均方根 Norm)
            • Deep Norm 篇
            • Deep Norm 有什么優(yōu)點?
          • Layer normalization-位置篇

            • 1 LN 在 LLMs 中的不同位置 有什么區(qū)別么?如果有,能介紹一下區(qū)別么?
          • Layer normalization 對比篇

            • LLMs 各模型分別用了 哪種 Layer normalization?
          • 點擊查看答案

          LLMs 激活函數(shù)篇

          • 1 介紹一下 FFN 塊 計算公式?

          • 2 介紹一下 GeLU 計算公式?

          • 3 介紹一下 Swish 計算公式?

          • 4 介紹一下 使用 GLU 線性門控單元的 FFN 塊 計算公式?

          • 5 介紹一下 使用 GeLU 的 GLU 塊 計算公式?

          • 6 介紹一下 使用 Swish 的 GLU 塊 計算公式?

          • 各LLMs 都使用哪種激活函數(shù)?

          • 點擊查看答案

          LLMs 激活函數(shù)篇

          • 1 介紹一下 FFN 塊 計算公式?

          • 2 介紹一下 GeLU 計算公式?

          • 3 介紹一下 Swish 計算公式?

          • 4 介紹一下 使用 GLU 線性門控單元的 FFN 塊 計算公式?

          • 5 介紹一下 使用 GeLU 的 GLU 塊 計算公式?

          • 6 介紹一下 使用 Swish 的 GLU 塊 計算公式?

          • 各LLMs 都使用哪種激活函數(shù)?

          • 點擊查看答案

          大模型(LLMs)加速篇

          大模型(LLMs)加速篇

          • 當(dāng)前優(yōu)化模型最主要技術(shù)手段有哪些?


          • 推理加速框架有哪一些?都有什么特點?


          • 3 vLLM 篇

            • 3.1 vLLM 的 功能有哪些?
            • 3.2 vLLM 的 優(yōu)點有哪些?
            • 3.3 vLLM 的 缺點有哪些?
            • 3.4 vLLM 離線批量推理?
            • 3.5 vLLM API Server?
          • 4 Text generation inference 篇

            • 4.1 介紹一下 Text generation inference?
            • 4.2 Text generation inference 的 功能有哪些?
            • 4.3 Text generation inference 的 優(yōu)點有哪些?
            • 4.4 Text generation inference 的 缺點有哪些?
            • 4.5 Text generation inference 的 使用docker運行web server?
          • 點擊查看答案

          LLM(大語言模型)部署加速方法——PagedAttention篇

          • 一、vLLM 用于大模型并行推理加速 存在什么問題?

          • 二、vLLM 如何 優(yōu)化 大模型并行推理加速?

          • 三、什么是 PagedAttention?

          • 四、 PagedAttention 如何存儲 連續(xù)的key和value?

          • 五、 PagedAttention 技術(shù)細(xì)節(jié)?

          • 六、 PagedAttention 如何 實現(xiàn)安全共享?

          • 七、 PagedAttention 源碼介紹?

          • 點擊查看答案

          大模型推理加速工具 —— vLLM

          • 一、引言

            • 1.1 前言
            • 1.2 為什么 需要 vLLM ?
            • 1.3 vLLM 具有哪些特點 ?
            • 1.4 vLLM 支持哪些 Huggingface 模型 ?
          • 二、vLLM 性能如何?

          • 三、vLLM 依賴包

          • 四、vLLM 如何安裝?

          • 五、vLLM 如何使用?

          • 六、vLLM 分布式推理與服務(wù)

          • 點擊查看答案

          LLM(大語言模型)部署加速方法——Faster Transformer篇

          • 一、為什么需要 FasterTransformer?

          • 二、FasterTransformer 介紹一下?

          • 三、FasterTransformer 核心是什么?

          • 四、FasterTransformer 優(yōu)化?

          • 點擊查看答案

          純Python超輕量高性能LLM推理框架 —— LightLLM

          • 一、引言

            • 1.1 前言
            • 1.2 為什么 需要 LightLLM ?
            • 1.3 目前 LLM推理框架 有 哪些?
          • 二、LightLLM 介紹一下?

            • 2.1 什么是 LightLLM ?
            • 2.2 Token Attention 介紹?
            • 2.3 Efficient Router 介紹?
          • 三、LightLLM 性能表現(xiàn) 介紹?

          • 四、LightLLM 依賴包 有哪些?

          • 五、LightLLM  如何安裝?

            • 5.1 下載 LightLLM
            • 5.2 安裝 LightLLM 依賴
            • 5.3 安裝 LightLLM
          • 六、LightLLM 如何使用?

            • 6.1 啟動 LightLLM 服務(wù)
          • 填坑筆記

            • LightLLM 支持模型 LLMs 模型?
          • 點擊查看答案

          Attention 升級面

          • 1 傳統(tǒng) Attention 存在哪些問題?

          • 2 Attention 優(yōu)化方向

          • 3 Attention 變體有哪些?

          • 4 Multi-Query Attention 篇

            • 4.1 Multi-head Attention 存在什么問題?
            • 4.2 介紹一下 Multi-Query Attention?
            • 4.3 對比一下 Multi-head Attention 和 Multi-Query Attention?
            • 4.4 Multi-Query Attention 這樣做的好處是什么?
            • 4.5 有 哪些模型 是 使用 Multi-Query Attention?
          • 5 Grouped-query Attention

            • 5.1 什么是 Grouped-query Attention?
            • 5.2 有哪些大模型使用 Grouped-query Attention?
          • 6 FlashAttention 介紹一下

          • 7 并行 transformer block 介紹一下?

          • 點擊查看答案

          大模型幻覺(LLM Hallucination)面

          大模型幻覺(LLM Hallucination)面

          • 一、什么是大模型幻覺?

          • 二、為什么LLM會產(chǎn)生幻覺?

          • 三、為什么需要解決LLM的幻覺問題?

          • 四、幻覺一定是有害的嗎?

          • 五、幻覺有哪些不同類型?

          • 六、如何度量幻覺?

          • 七、如何緩解LLM幻覺?

            • 7.1 通過使用外部知識驗證主動檢測和減輕幻覺
            • 7.2 事實核心采樣
            • 7.3 SelfCheckGPT
          • 八、LLMs什么時候最容易產(chǎn)生幻覺?

          • 點擊查看答案

          大模型的幻覺問題篇

          • 一、什么是 大模型幻覺問題?

          • 二、為什么 會 出現(xiàn) 大模型幻覺問題?

          • 三、如何 評估 大模型幻覺問題?

          • 四、如何 緩解 大模型幻覺問題?

          • 點擊查看答案

          大模型的幻覺問題篇

          • 一、為什么 會 出現(xiàn) 大模型幻覺?

          • 二、如何 緩解 大模型幻覺?

          • 點擊查看答案

          LLMs 對比篇

          LLMs 對比篇

          • LLMs 訓(xùn)練數(shù)據(jù) 和 數(shù)據(jù)量 對比如何?

          • 點擊查看答案

          百川智能baichuan7B、13B、53B、baichuan2 總結(jié)篇

          • 一、baichuan-7B篇

            1. baichuan-7B 如何 提高 訓(xùn)練穩(wěn)定性和吞吐?
            1. baichuan-7B 如何 收集原始數(shù)據(jù)并 構(gòu)建 訓(xùn)練數(shù)據(jù)?
            1. 你了解baichuan-7B解構(gòu)么?介紹一下?
          • 二、baichuan-13B篇

            1. 如何 對 baichuan-13B 進(jìn)行微調(diào)?
            1. 如何 對 baichuan-13B 進(jìn)行推理和部署?
            1. 相比于 baichuan-7B,baichuan-13B 的 特點體現(xiàn)在哪里?
          • 三、baichuan-53B篇

            • 3.1 baichuan-53B 相比于 baichuan-7B 和 baichuan-13B 有哪些優(yōu)勢?
            • 3.2 baichuan-53B 如何對 預(yù)訓(xùn)練數(shù)據(jù) 做處理?
            • 3.3 baichuan-53B 如何進(jìn)行 搜索增強(qiáng)?
          • 四、baichuan2篇

            • 4.1 baichuan2 與 其他大模型 對比
          • 五、baichuan 數(shù)據(jù)構(gòu)建篇

            • 5.1 baichuan 進(jìn)行微調(diào)時,領(lǐng)域數(shù)據(jù):通用數(shù)據(jù)配比?
          • 點擊查看答案

          思維鏈 Chain-of-Thought(COT)篇

          思維鏈 Chain-of-Thought(COT)篇

          • 一、什么是思維鏈提示?

          • 二、思維鏈提示本質(zhì)是什么?

          • 三、思維鏈提示 與 標(biāo)準(zhǔn)的提示學(xué)習(xí)方法有什么不同?

          • 四、思維鏈提示 為什么可以提高語言模型的復(fù)雜推理能力?它的優(yōu)勢在哪里?

          • 五、思維鏈提示 適用場景 有 哪些?

          • 六、思維鏈提示 目前還存在哪些不足點?

          • 七、思維鏈提示 對推動語言模型復(fù)雜推理能力研究有哪些啟發(fā)和影響?

          • 八、思維鏈提示 對實現(xiàn)真正的通用人工智能仍面臨哪些挑戰(zhàn)?

          • 九、如何通過增加模型規(guī)模來獲得語言模型強(qiáng)大的思路鏈推理能力的?這與模型獲得的哪些能力有關(guān)?

          • 十、你認(rèn)為可以在哪些其他方面應(yīng)用“思路鏈提示”這一思路來提升語言模型的能力?

          • 十一、如果需要你對 思維鏈提示 進(jìn)行改進(jìn),你覺得你會改進(jìn)哪些地方?

          • 十二、思維鏈提示 未來研究方向?

          • 點擊查看答案

          思維鏈 Chain-of-Thought(COT)變體篇

          • 思維鏈 Chain-of-Thought(COT):思維鏈的啟蒙

            1. 思維鏈 Chain-of-Thought(COT)存在問題?
            1. 思維鏈 Chain-of-Thought(COT)是思路是什么?
            1. 什么是 思維鏈 Chain-of-Thought(COT)?
          • 思維樹 Tree of Thoughts(TOT):一種用樹結(jié)構(gòu)解決復(fù)雜問題的方法

            1. 思維樹 Tree of Thoughts(TOT)涉及問題有哪些?
            1. 什么是 思維樹 Tree of Thoughts(TOT)?
            1. 為什么需要 思維樹 Tree of Thoughts(TOT)?
          • 思維圖 Graph of Thoughts(GOT):一種把思維鏈過程建模層圖結(jié)構(gòu)的方法

            1. 思維圖 Graph of Thoughts(GOT)核心思想是什么 ?
            1. 什么是 思維圖 Graph of Thoughts(GOT) ?
            1. 為什么 需要 思維圖 Graph of Thoughts(GOT)?
          • 思維算法 Algorithm of Thoughts(AOT):一種用DFS/BFS示例解決問題的方法

            1. 思維算法 Algorithm of Thoughts(AOT) vs 其他 COT 的 區(qū)別?
            1. 思維算法 Algorithm of Thoughts(AOT)思路是什么?
            1. 為什么 需要 思維算法 Algorithm of Thoughts(AOT)?
          • 思維鏈 Chain-of-Thought(COT) 有哪些 應(yīng)用場景?

          • 思維鏈 Chain-of-Thought(COT) 有哪些 局限性?

          • 點擊查看答案

          思維鏈 Chain-of-Thought(COT)變體篇

          • 一、為什么需要 Graph RAG?

          • 二、什么是 Graph RAG?

          • 三、Graph RAG 思路介紹?

          • 四、用代碼 介紹 Graph RAG ?

          • 五、用 示例 介紹 Graph RAG ?

          • 六、Graph RAG 排序優(yōu)化方式?

          • 點擊查看答案


          瀏覽 116
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  色黄乱婬免费视频 | 色吧AV | 国产69精品久久久久久久久久 | 九一亚洲| 天天操夜夜操狠狠操 |