<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Claude 3再次登頂!化學(xué)專業(yè)一騎絕塵,全面碾壓GPT-4

          共 2751字,需瀏覽 6分鐘

           ·

          2024-04-02 12:53



            新智元報(bào)道  

          編輯:Mindy
          【新智元導(dǎo)讀】Claude 3在通用任務(wù)上是全球最強(qiáng)已經(jīng)毋庸置疑。更令人驚嘆的是,它在專業(yè)領(lǐng)域的表現(xiàn),比如化學(xué)任務(wù),也能遠(yuǎn)遠(yuǎn)領(lǐng)先GPT-4。

          Claude 3的誕生又一次震驚了全世界。
          Claude 3 Opus,Claude 3中最智能的模型,在大多數(shù)常見的人工智能系統(tǒng)評(píng)估基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,包括本科水平專家知識(shí)(MMLU)、研究生水平專家推理(GPQA)、基礎(chǔ)數(shù)學(xué)(GSM8K)等。
          但在特定的專業(yè)領(lǐng)域,它的表現(xiàn)卻是一個(gè)未知數(shù)。
          比如化學(xué),化學(xué)在藥物發(fā)現(xiàn)和材料科學(xué)等領(lǐng)域發(fā)揮著至關(guān)重要的作用,但現(xiàn)有研究顯示它們?cè)诨瘜W(xué)任務(wù)上的性能令人沮喪。

          指令微調(diào)讓LLM完成化學(xué)任務(wù)成為可能


          近日,一支來(lái)自O(shè)SU的團(tuán)隊(duì)構(gòu)建了一個(gè)專門針對(duì)化學(xué)任務(wù)指令微調(diào)的數(shù)據(jù)集,命名為SMolInstruct。

          論文地址:https://arxiv.org/pdf/2402.09391.pdf
          該SMolInstruct測(cè)試集涵蓋了14種任務(wù),包括名稱轉(zhuǎn)換、屬性預(yù)測(cè)、分子描述、分子生成、正向合成和逆向合成等,這些專業(yè)任務(wù)經(jīng)過(guò)精心挑選,以建立堅(jiān)實(shí)的化學(xué)基礎(chǔ)。
          它同時(shí)包含340萬(wàn)個(gè)不同的樣本和160萬(wàn)個(gè)不同的分子,涵蓋了各種大小、結(jié)構(gòu)和性質(zhì)的化合物,展示了廣泛的化學(xué)知識(shí)覆蓋范圍。這些樣本都經(jīng)過(guò)嚴(yán)格的處理步驟,排除了有問(wèn)題和低質(zhì)量的樣本。
          然后,他們?cè)赟MolInstruct數(shù)據(jù)集上對(duì)四個(gè)開源LLM(Galactica、Llama 2、Code Llama和Mistral)進(jìn)行微調(diào),創(chuàng)建了一系列專門用于化學(xué)任務(wù)的LLM,稱為L(zhǎng)laSMol。
          論文中,主要將LlaSMol模型與兩種類型的模型進(jìn)行比較:
          1. 未在SMolInstruct上進(jìn)行微調(diào)的LLM
          2. SOTA任務(wù)特定模型
          結(jié)果顯示,LlaSMol在所有任務(wù)上都顯著優(yōu)于現(xiàn)有的LLM,包括GPT-4。
          例如,將SMILES轉(zhuǎn)換為分子式的準(zhǔn)確率達(dá)到94.5%,而GPT-4僅為16.4%;對(duì)于逆合成任務(wù),準(zhǔn)確率達(dá)到32.9%,而GPT-4僅為0%,并接近最先進(jìn)的任務(wù)特定模型SOTA。
          這凸顯了SMolInstruct數(shù)據(jù)集的有效性和微調(diào)的好處。
          這個(gè)結(jié)果是合理的,雖然GPT-4很強(qiáng)大,但它畢竟是通用模型,很難直接和經(jīng)過(guò)特定的任務(wù)及樣本微調(diào)的LlaSMol去對(duì)抗。
          但經(jīng)過(guò)微調(diào)的LLM表現(xiàn)已經(jīng)逼近非LLM的任務(wù)特定模型,還是展現(xiàn)了LLM的巨大潛力。
          不僅如此,四個(gè)LlaSMol模型在性能上表現(xiàn)出顯著差異,也強(qiáng)調(diào)出了基礎(chǔ)模型對(duì)下游任務(wù)的重要影響。

          Claude 3在專業(yè)化學(xué)領(lǐng)域仍舊領(lǐng)先


          Claude 3一經(jīng)推出,該團(tuán)隊(duì)便在SMolInstruct 該基準(zhǔn)測(cè)試上對(duì)于Claude 3 Opus同樣進(jìn)行了實(shí)驗(yàn)。
          雖然與LlaSMol還是有差距,但在大多數(shù)任務(wù)中,Claude 3的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)GPT-4。
          雖然在其中的一個(gè)名稱轉(zhuǎn)換任務(wù)S2F中,也就是一個(gè)將用于表示分子結(jié)構(gòu)的文本字符串轉(zhuǎn)換為分子式去計(jì)算原子數(shù)量的任務(wù),Claude 3要比GPT-4差得多,但大多數(shù)任務(wù)的大幅領(lǐng)先還是展現(xiàn)了Claude 3在專業(yè)領(lǐng)域?qū)W習(xí)能力上的優(yōu)越性。
          Anthropic在官網(wǎng)介紹Claude 3時(shí),用了「smarter, faster, safer」去描述大模型智能的未來(lái)潛力。
          而我們?cè)诨瘜W(xué)特定任務(wù)上,已經(jīng)可以感受到了Opus作為通用模型,學(xué)習(xí)的速度之快,能力之強(qiáng)。

          LLM超越任務(wù)特定模型,指日可待


          在SMolInstruct原論文的結(jié)尾,作者也表達(dá)了對(duì)在化學(xué)領(lǐng)域,LLM能夠超越任務(wù)特定模型的期許和展望。
          任務(wù)特定模型畢竟是基于固定的輸入,它們被優(yōu)化以執(zhí)行其特定任務(wù),通常在大小和復(fù)雜性上都較小,而且在跨知識(shí)共享的任務(wù)中很難有好的表現(xiàn)。
          而LLM有更多的參數(shù)和模型結(jié)構(gòu),可以在學(xué)習(xí)中進(jìn)化,也能快速適應(yīng)新的需求。
          不可否認(rèn)的是,經(jīng)過(guò)微調(diào)的LLM更多的在專業(yè)領(lǐng)域上趕超任務(wù)特定模型,目前非常依賴于微調(diào)指令的完整性、全面性、準(zhǔn)確性。
          但若以發(fā)展的眼光來(lái)比較兩種模型,尤其是在我們已經(jīng)感受到Claude 3可怕的成長(zhǎng)速度之后。
          可以預(yù)想到,作為通用模型來(lái)設(shè)計(jì)的LLM,會(huì)在專業(yè)領(lǐng)域逐漸爆發(fā)。
          參考資料:
          https://twitter.com/hhsun1/status/1766656199083098134
          https://www.anthropic.com/news/claude-3-family
          https://arxiv.org/pdf/2402.09391.pdf




          瀏覽 26
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  超碰乱伦 | 日韩人妻在线观看 | 日日天天| 久久久成人午夜无码影院 | 性爱视频在线无码播放 |