<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Mistral AI推出基于Mamba2的Code開源模型,代碼方面優(yōu)于TF架構(gòu)

          共 2937字,需瀏覽 6分鐘

           ·

          2024-07-18 08:30

          “歐洲OpenAI”和“Transformer挑戰(zhàn)者”強(qiáng)強(qiáng)聯(lián)合了!

          Mistral AI剛剛推出了其第一個(gè)基于Mamba2架構(gòu)的開源模型——Codestral Mamba(7B),專搞代碼生成。

          與Transformer架構(gòu)不同,Mamba架構(gòu)可進(jìn)行“線性時(shí)間推理”,理論上能夠支持無限長度輸入。

          Mistral AI:這也就是為啥我們用Mamba架構(gòu)推出的代碼推理模型抗打。

          Mistral AI表示已經(jīng)在最多256k token上下文中測試了Codestral Mamba。

          基準(zhǔn)測試中,Codestral Mamba總體性能超越CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B、CodeLlama 34B。

          有網(wǎng)友表示,這一波是Mistral AI要帶飛Mamba架構(gòu)的節(jié)奏。

          Mamba架構(gòu)作者之一、CMU助理教授Albert Gu表示:

          具有較弱“tokenizations”的不同模態(tài)或數(shù)據(jù)格式(例如代碼、byte級(jí)建模)會(huì)越來越多地從壓縮模型(如SSM)中受益。

          除了Codestral Mamba,Mistral AI這次還同時(shí)發(fā)布了一個(gè)新的數(shù)學(xué)模型——Mathstral(7B)。

          有意思的是,網(wǎng)友讓它做這幾天大模型頻頻翻車的“9.11和9.9哪個(gè)大”的問題,Mathstral先比較整數(shù),然后再比較小數(shù)部分,最后成功做對(duì)。

          7B性能接近22BTransformer

          Codestral Mamba完整基準(zhǔn)測試結(jié)果如下:

          在HumanEval C++/Java/JavaScript/Bash等所有基準(zhǔn)上,Codestral Mamba全面超越CodeGemma-1.1 7B、CodeLlama 7B,且超越比它更大的CodeLlama 34B。

          Mistral AI此前自家的最強(qiáng)開源編程模型Codestral 22B也沒有和Codestral Mamba拉開太大差距。

          除此外,DeepSeek v1.5 7B在基準(zhǔn)中也比較突出,和Codestral Mamba打得有來有回。

          DeepSeek v1.5 7B在Spider(復(fù)雜跨域語義分析和文本到SQL任務(wù))、HumanEval Java、HumanEval Bash、MBPP等方面優(yōu)于Codestral Mamba。

          除了基準(zhǔn)測試結(jié)果,Codestral Mamba最令人關(guān)注的當(dāng)屬它是首批Mamba2架構(gòu)模型。

          Mamba架構(gòu)由FlashAttention作者Tri Dao和CMU助理教授、Cartesia AI聯(lián)合創(chuàng)始人及首席科學(xué)家Albert Gu在去年年底提出。

          此前,ChatGPT等Transformer架構(gòu)大模型有一大痛點(diǎn):處理長文本算力消耗巨大。其背后也是因?yàn)門ransformer架構(gòu)中注意力機(jī)制的二次復(fù)雜度。

          而Mamba是第一個(gè)真正實(shí)現(xiàn)匹配Transformer性能的線性時(shí)間序列模型,也是一種狀態(tài)空間模型(SSM,State Space Model)。

          Mamba建立在更現(xiàn)代的適用于深度學(xué)習(xí)的結(jié)構(gòu)化SSM(S4, Structured SSM)基礎(chǔ)上,與經(jīng)典架構(gòu)RNN有相似之處。

          主要有三點(diǎn)創(chuàng)新:對(duì)輸入信息有選擇性處理、硬件感知的算法、更簡單的架構(gòu)。

          Mamba架構(gòu)一問世就引起了圈內(nèi)廣泛關(guān)注。Stability AI創(chuàng)始人、英偉達(dá)科學(xué)家Jim Fan等都對(duì)它的出現(xiàn)感到興奮。


          Mamba初代論文年初被ICLR拒稿,當(dāng)時(shí)在圈內(nèi)引起熱議。

          不過,最近已經(jīng)被新生代頂流會(huì)議CoLM2024接收了。

          Mamba2是其二代,狀態(tài)空間擴(kuò)大8倍,訓(xùn)練速度提高50%。

          Mamba2論文中更是發(fā)現(xiàn),Transformer中的注意力機(jī)制與SSM存在著非常緊密的數(shù)學(xué)聯(lián)系,論文成功入選ICML 2024。

          還發(fā)布了一個(gè)數(shù)學(xué)模型

          除了Codestral Mamba,Mistral AI還同時(shí)推出了一個(gè)開源數(shù)學(xué)模型——Mathstral(7B),作為對(duì)阿基米德誕生2311周年的紀(jì)念。

          Mathstral在Mistral 7B基礎(chǔ)之上,專注于STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué)),上下文窗口32k。

          在基準(zhǔn)測試中,Mathstral MATH得分56.6%,MMLU達(dá)到了63.47%。

          重點(diǎn)是,Mathstral還可以通過更多的推理時(shí)間計(jì)算獲得更好的結(jié)果:

          使用多數(shù)投票機(jī)制時(shí),Mathstral 7B在MATH測試中的得分為68.37%,而在64個(gè)候選模型中應(yīng)用一個(gè)強(qiáng)效獎(jiǎng)勵(lì)模型時(shí),得分能夠提升到74.59%。

          以下是Mathstral 7B和Mistral 7B在MMLU各科目中的表現(xiàn)差異:

          參考鏈接:
          [1]https://mistral.ai/news/codestral-mamba/

          [2]https://mistral.ai/news/mathstral/
          [3]https://x.com/MistralAI/status/1813222156265791531
          [4]https://x.com/GuillaumeLample/status/1813231491154899012
          [5]https://x.com/theo_gervet/status/1813226968600469824
          [6]https://x.com/tuturetom/status/1813238885453033540
          [7]https://x.com/WenhuChen/status/1812562112524226569

          版權(quán)聲明:本號(hào)內(nèi)容部分來自互聯(lián)網(wǎng),轉(zhuǎn)載請注明原文鏈接和作者,如有侵權(quán)或出處有誤請和我們聯(lián)系。

          瀏覽 33
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲一级av无码毛片精品 | 国产乱伦区 | 操美女的骚逼 | 123草逼网 | 国产真实露脸乱子伦对白高清视频 |