<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          LongLLaMA加強(qiáng)版 LLaMA 模型

          聯(lián)合創(chuàng)作 · 2023-09-26 00:05

          LongLLaMA 是一個(gè)能夠處理長上下文的大型語言模型,能夠處理 256k tokens 甚至更多的長上下文。它基于 OpenLLaMA 并使用 Focused Transformer (FoT) 方法進(jìn)行微調(diào)。

          開發(fā)團(tuán)隊(duì)在 Apache 2.0 許可下發(fā)布了 LongLLaMA 模型的較小 3B 基本變體(未調(diào)整指令),并在 Hugging Face 上支持更長上下文的推理代碼。模型權(quán)重可以作為現(xiàn)有實(shí)現(xiàn)中 LLaMA 的直接替代品(對于最多 2048 個(gè) tokens 的短上下文)。此外,還提供評估結(jié)果以及與原始 OpenLLaMA 模型的比較。請繼續(xù)關(guān)注進(jìn)一步的更新。

          LongLLaMA 具有三層用于上下文擴(kuò)展。至關(guān)重要的是,LongLLaMA 能夠推斷的上下文長度遠(yuǎn)遠(yuǎn)超過訓(xùn)練時(shí)的長度:8k。例如,在密鑰檢索任務(wù)中,它可以處理長度為 256k 的輸入。

          LongLLaMA-3B LongLLaMA-3Bv1.1 LongLLaMA-7B
          (coming soon)
          LongLLaMA-13B
          (coming soon)
          Source model OpenLLaMA-3B OpenLLaMA-3Bv2 - -
          Source model tokens 1T 1 T - -
          Fine-tuning tokens 10B 5B - -
          Memory layers 6, 12, 18 6, 12, 18 - -
          瀏覽 28
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  操美女视频在线观看 | 婷婷国产在线视频 | 中文字幕成人免费视频 | 影音先锋福利资源91p | 日韩欧美在中文 |