<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          小模型已成趨勢?

          共 1605字,需瀏覽 4分鐘

           ·

          2024-07-22 14:24

          來源:機(jī)器之心

          上周,OpenAI 上線小模型 GPT-4o-mini,小模型賽道正式開卷。近期加入這一賽道的還有蘋果。


          最近,蘋果公司作為 DataComp-LM(DCLM)項目的研究機(jī)構(gòu)之一,在 Hugging Face 上發(fā)布了 DCLM-7B 開源模型。該模型性能已經(jīng)超越了 Mistral-7B,并且正在逼近其他領(lǐng)先的開源模型,包括 Llama 3 和 Gemma。




          • 論文鏈接:https://arxiv.org/pdf/2406.11794

          • 項目鏈接:https://huggingface.co/apple/DCLM-7B


          論文作者之一、蘋果機(jī)器學(xué)習(xí)團(tuán)隊 Vaishaal Shankar 將 DCLM 模型描述為「真正開源的最佳模型」,因為 DCLM 不僅開源了模型權(quán)重,還開源了訓(xùn)練代碼和預(yù)訓(xùn)練數(shù)據(jù)集。



          研究介紹


          大型語言模型(LLM)目前面臨的一個評估挑戰(zhàn)是缺乏受控比較。LLM 研究通常會比較采用不同架構(gòu)、計算或超參數(shù)的模型,因此難以理清影響語言模型質(zhì)量的因素。


          基于此,研究團(tuán)隊提出了語言模型數(shù)據(jù)比較新基準(zhǔn) ——DCLM,這是語言模型訓(xùn)練數(shù)據(jù)整編(curation)的第一個基準(zhǔn),旨在讓 LLM 通過設(shè)計高質(zhì)量數(shù)據(jù)集來提高模型性能,特別是在多模態(tài)領(lǐng)域。


          研究團(tuán)隊發(fā)現(xiàn)基于模型的過濾,即由機(jī)器學(xué)習(xí) (ML) 模型從較大的數(shù)據(jù)集中自動過濾和選擇高質(zhì)量數(shù)據(jù),可能是構(gòu)建高質(zhì)量訓(xùn)練集的關(guān)鍵。


          DCLM 整體思路很簡單:使用一個標(biāo)準(zhǔn)化的框架來進(jìn)行實驗,包括固定的模型架構(gòu)、訓(xùn)練代碼、超參數(shù)和評估,最終找出哪種數(shù)據(jù)整理策略最適合訓(xùn)練出高性能的模型。



          使用 DCLM,研究團(tuán)隊構(gòu)建了一個高質(zhì)量數(shù)據(jù)集 DCLM-BASELINE,并用該數(shù)據(jù)集從頭開始訓(xùn)練了一個 7B 參數(shù)模型 —— DCLM-7B。



          DCLM-7B 模型的細(xì)節(jié)。


          DCLM-7B 使用基于 OpenLM 框架的預(yù)訓(xùn)練方案,在 MMLU 基準(zhǔn)上 5-shot 準(zhǔn)確率達(dá)到 64%,可與 Mistral-7B-v0.3(63%)和 Llama 3 8B(66%)相媲美,并且在 53 個自然語言理解任務(wù)上的平均表現(xiàn)也可與 Mistral-7B-v0.3、Llama 3 8B 相媲美,而所需計算量僅為 Llama 3 8B 的 1/6。



          以下是 DCLM-7B 在各種任務(wù)(部分)上的評估結(jié)果:



          DCLM-7B 與其他同等大小模型比較結(jié)果如下表所示:



          值得注意的是,大部分其他模型雖然開放權(quán)重但封閉數(shù)據(jù)。這就是 Vaishaal Shankar 將 DCLM 模型描述為「真正開源」的原因。


          參考鏈接:https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/


          ——The  End——

          分享

          收藏

          點(diǎn)贊

          在看

          瀏覽 114
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  一级免费黄色视频 | 色先锋资源网 | 无码卡一卡二 | 夜夜操狠狠操 | 免费 69视频看片 |