<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          發(fā)布日志記錄、公開所有代碼,Meta開放1750億參數(shù)大模型,媲美GPT-3

          共 2754字,需瀏覽 6分鐘

           ·

          2022-06-28 12:19

          數(shù)學(xué)算法俱樂部

          日期 : 2022年06月26日       

          正文共 :1798

          來源 :機(jī)器之心
          OPT-175B,使人工智能更加開放和可復(fù)制。

          Meta AI 在昨天公布的一篇論文可謂是炸開了鍋,論文網(wǎng)站 paperswithcode 熱搜榜第一,眾多 AI 大佬推薦:


          LSTM 提出者和奠基者,奧地利人工智能高級(jí)研究所(IARAI)創(chuàng)始人 Sepp Hochreiter 教授就在推特上進(jìn)行了宣傳:


          社交及新聞網(wǎng)站 reddit 討論量也爆表:


          有研究者表示這是將大型 LM 研究引入學(xué)術(shù)界的重大一步。用一句話總結(jié)就是:Meta AI 正在開放用于人工智能研究的大型語言模型訪問權(quán)限,并表示這個(gè)具有 1750 億參數(shù)的模型,是第一個(gè)可供更廣泛的人工智能研究社區(qū)使用的模型。值得注意的是,OpenAI 提出的 GPT-3 也具有 1750 億參數(shù),不知道這一數(shù)字是巧合還是其他。

          下面我們介紹一下這項(xiàng)研究的主要內(nèi)容

          Meta AI 開放 1750 億參數(shù)的模型

          大型語言模型,即具有超過 1000 億個(gè)參數(shù)的自然語言處理 (NLP) 系統(tǒng),在過去幾年中改變了 NLP 和 AI 研究。這些模型經(jīng)過大量文本訓(xùn)練,在生成創(chuàng)意文本、解決數(shù)學(xué)問題、回答閱讀理解等方面表現(xiàn)出令人驚訝的能力。

          雖然在某些情況下,公眾可以通過付費(fèi) API 與這些模型進(jìn)行交互,但完整的研究訪問權(quán)限仍然僅限于少數(shù)資源豐富的實(shí)驗(yàn)室。這種受限訪問限制了研究人員理解這些大型語言模型如何以及為什么工作的能力,阻礙了提高其魯棒性和減輕偏見等已知問題的進(jìn)展。

          根據(jù) Meta AI 對(duì)開放科學(xué)的承諾,他們正在共享 Open Pretrained Transformer (OPT-175B),這是一個(gè)具有 1750 億參數(shù)的模型,在公共數(shù)據(jù)集上訓(xùn)練而成,之所以共享這個(gè)模型,Meta AI 希望更多的社區(qū)參與理解關(guān)于大模型的基本技術(shù)。


          論文地址:https://arxiv.org/pdf/2205.01068.pdf

          對(duì)于這種規(guī)模的語言技術(shù)系統(tǒng),該版本首次包括預(yù)訓(xùn)練模型以及訓(xùn)練和使用它們所需的代碼。為了保持完整性并防止濫用,Meta AI 將在非商業(yè)許可下發(fā)布該模型,以專注于研究用例。該模型的訪問權(quán)限將授予學(xué)術(shù)研究人員;隸屬于政府、民間團(tuán)體和學(xué)術(shù)界組織的人員;以及世界各地的工業(yè)研究實(shí)驗(yàn)室。

          Meta AI 希望整個(gè)人工智能社區(qū),包括學(xué)術(shù)研究人員、民間團(tuán)體、政策制定者等研究者共同努力,圍繞負(fù)責(zé)任的人工智能,特別是負(fù)責(zé)任的大型語言模型制定明確的指導(dǎo)方針,因?yàn)樗鼈冊(cè)谠S多下游語言應(yīng)用程序中處于中心地位。人工智能社區(qū)更需要訪問這些模型,以便進(jìn)行可重復(fù)的研究并共同推動(dòng)該領(lǐng)域的發(fā)展。隨著 OPT-175B 和小規(guī)?;€的發(fā)布,Meta AI 也希望增加倫理方面的考慮。

          ?
          公開記錄文檔

          根據(jù) AI 合作伙伴關(guān)系(Partnership on AI)為研究人員制定的出版指南,以及 NIST 在 2022 年 3 月概述的治理指南(第 3.4 節(jié)),Meta AI 將發(fā)布開發(fā)過程的所有記錄文檔,包括詳細(xì)說明日常訓(xùn)練過程的完整 logbook,因此其他研究人員可以更輕松地在此工作基礎(chǔ)上繼續(xù)研究。此外,這些細(xì)節(jié)還揭示了用于訓(xùn)練 OPT-175B 的計(jì)算量以及當(dāng)?shù)讓踊A(chǔ)設(shè)施或訓(xùn)練過程本身大規(guī)模變得不穩(wěn)定時(shí)所需的人力開銷。

          對(duì)此有研究者表示:研究團(tuán)隊(duì)的 logbook 是一個(gè)隱藏的寶石,突出了自 Lua torch 以來就存在且尚未解決的 ML 研究中的痛點(diǎn) / 更廣泛的問題:


          Meta AI 僅使用 16 個(gè) NVIDIA V100 GPU 來訓(xùn)練和部署模型的代碼庫,以增加這些模型的可訪問性,達(dá)到專門用于研究目的。Meta AI 還全面發(fā)布了一套更小規(guī)模的基線模型,使用的數(shù)據(jù)集和 OPT-175B 相同 ,設(shè)置也和 OPT-175B 類似,這樣一來研究人員能夠單獨(dú)研究模型規(guī)模的影響。這些小規(guī)模模型的參數(shù)包括 1.25 億、3.5 億、13 億、27 億、67 億、130 億和 300 億(660 億即將發(fā)布)。


          人工智能研究的最新發(fā)展消耗了大量的計(jì)算能力。雖然行業(yè)實(shí)驗(yàn)室已經(jīng)開始報(bào)告這些模型的碳足跡,但大多數(shù)不包括與實(shí)驗(yàn)研發(fā)階段相關(guān)的計(jì)算成本,在某些情況下,這可能比訓(xùn)練最終模型更耗費(fèi)一個(gè)數(shù)量級(jí)的資源。

          Meta AI 在開發(fā) OPT-175B 時(shí)考慮到了能源效率,其碳足跡僅為 GPT-3 的 1/7。這是通過在 Megatron-LM 中結(jié)合 Meta 的開源全分片數(shù)據(jù)并行 (FSDP) API 和 NVIDIA 的張量并行抽象來實(shí)現(xiàn)的。Meta AI 在 NVIDIA 的 80 GB A100 GPU 上實(shí)現(xiàn)了約 147 TFLOP/s/GPU 利用率,比 NVIDIA 研究人員在類似硬件上公布的數(shù)據(jù)高出大約 17%。

          通過與代碼庫共享這些基線以有效地訓(xùn)練 175B 模型,Meta AI 正在減少碳足跡,同時(shí)還允許以一致的方式衡量該領(lǐng)域的新成果和進(jìn)展。

          代爾夫特理工大學(xué)助理教師 Luís Cruz 表示:很高興看到新的人工智能論文討論他們模型的碳足跡。盡管有非常粗略的估計(jì),但 OPT-175B 是作為 GPT-3 的替代品提出的,其碳足跡是 GPT-3 的 1/7。


          Meta AI 希望 OPT-175B 能夠?yàn)榇笳Z言模型創(chuàng)建的前沿帶來更多聲音,幫助社區(qū)集體設(shè)計(jì)負(fù)責(zé)任的發(fā)布策略,為該領(lǐng)域的大語言模型開發(fā)增加前所未有的透明度和開放性。

          • 訪問開源代碼和小規(guī)模預(yù)訓(xùn)練模型:https://github.com/facebookresearch/metaseq
          • OPT-175B:https://docs.google.com/forms/d/e/1FAIpQLSe4IP4N6JkCEMpCP-yY71dIUPHngVReuOmQKDEI1oHFUaVg7w/viewform
          • OPT-175B 許可協(xié)議:https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/MODEL_LICENSE.md



          — THE END —


          ?26歲雙非博士發(fā)表19篇SCI,畢業(yè)即副教授,出道即巔峰!
          ?程序員的最大謊言是什么?推特?zé)嶙h,其中很多話你也說過……
          ?中科大博導(dǎo)萬字自述:5年收13封拒稿信
          ?80多年前,4萬年輕人寧可“割肉斷骨”,爬也要爬到這個(gè)地方……
          ?高校教師因嚴(yán)重違反防疫規(guī)定,被全校通報(bào)批評(píng)!
          ?這兩年!蘋果市值漲上3萬億,一掛中國科技巨頭縮水8000
          瀏覽 78
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  丝袜美腿av | 成年人aa级小电影 | 欧美尻屄视频 | 特级学生妹黄色一级片 | 黄网av |