<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          不用1750億!OpenAI CEO放話:GPT-4參數(shù)量不增反減

          共 2849字,需瀏覽 6分鐘

           ·

          2021-09-22 17:06



            新智元報(bào)道  

          來源:AIM

          編輯:好困

          【新智元導(dǎo)讀】不要100萬億!也不要10萬億!更不要1750億!GPT-4參數(shù)量竟然比GPT-3還少!


          GPT-4官宣?

          ?

          近日,OpenAI的首席執(zhí)行官Sam Altman出席了「the AC10 online meetup」的線上QA,并透露了關(guān)于GPT-4的最新消息。
           
           
          去年,OpenAI在一篇題為「語言模型是小樣本學(xué)習(xí)者」的論文中介紹了當(dāng)時(shí)最大的神經(jīng)網(wǎng)絡(luò)GPT-3。
           
          作為最先進(jìn)的語言模型,GPT-3包括1750億個(gè)參數(shù),而其前身GPT-2的參數(shù)為15億,并且擊敗了之前保持「有史以來最大」記錄的圖靈NLG模型(170億)。
           
          由于OpenAI幾乎是每間隔一年就發(fā)布一個(gè)GPT模型:2018年發(fā)布了GPT-1,2019年發(fā)布了GPT-2,2020年發(fā)布了GPT-3。
           
          到了2021年,網(wǎng)絡(luò)上對于測GPT-4的猜測就如雨后春筍一般層出不窮。
           
          例如7月份的一篇報(bào)道預(yù)測GPT-4或許會(huì)有10萬億的參數(shù)量。
           
          也有文章表示GPT-4的參數(shù)量將與大腦的突觸一樣多,達(dá)到100萬億個(gè)。

          甚至連OpenAI的「自己人」也覺得這怎么也得有個(gè)100億吧。



          然而,誰也沒有想到,GPT-4的參數(shù)竟然比GPT-3還少!


          GPT-4的期待


          Altman在采訪中表示:與流行的看法相反,GPT-4不會(huì)比GPT-3大,但會(huì)使用更多的計(jì)算資源。
           
          實(shí)現(xiàn)這一點(diǎn),GPT-4將使用與之前GPT模型不同的方法,包括數(shù)據(jù)算法和微調(diào),這其中的重點(diǎn)顯然是在較小的模型中獲得最大的收益。
           
          通常認(rèn)為,一個(gè)模型的參數(shù)越多,它能實(shí)現(xiàn)的任務(wù)就越復(fù)雜。
           
          不過,有越來越多的研究指出,一個(gè)模型的有效性可能不一定像人們認(rèn)為的那樣與它的大小相關(guān)。
           
          例如,最近一項(xiàng)來自谷歌的的研究表明,比GPT-3小得多的模型:微調(diào)語言網(wǎng)(FLAN),在一些具有挑戰(zhàn)性的基準(zhǔn)上比前者提供了更好的結(jié)果。
           
          https://arxiv.org/pdf/2109.01652.pdf
           
          篇標(biāo)題為「微調(diào)語言模型是零樣本學(xué)習(xí)者」的論文,似乎是直指OpenAI的那篇GPT-3論文,火藥味十足。
           
          言歸正傳,從Altman的發(fā)言中可以看出,OpenAI也一直在摸索如何通過訓(xùn)練較小的模型來完成一些任務(wù),并達(dá)到更好的效果。
           
          Altman還表示,GPT-4將更加關(guān)注代碼的生成,也就是更接近OpenAI通過API在私人測試中發(fā)布的Codex模型。
           
          Codex是GPT-3的衍生版本,也是GitHub Copilot的基礎(chǔ)。
           
          它能理解十幾種語言,還能用自然語言解釋簡單的命令,并代表用戶執(zhí)行這些命令,允許為現(xiàn)有的應(yīng)用程序建立自然語言界面。

          只要對Codex發(fā)號(hào)施令,它就會(huì)將英語翻譯成代碼。
           
          比如:「add this image of a rocketship」
           
          隨后,這張火箭照片就被添加進(jìn)來了:
           

          Codex不僅能夠收到指令后自行編程,還能夠開發(fā)個(gè)小游戲。
           
           
          此外,Codex還能接受語音指令。
           
          「啪,每行開頭的空格消失了!」
           
          除了GPT-4之外,Altman還表示,之后的GPT-5或許能夠通過圖靈測試。
           
          不過,這可能并不值得付出努力去做。
           

          DALL.E將開源


          DALL.E要開源了!
           
          DALL.E與GPT-3一樣,也是一個(gè)Transformer語言模型。
           
          作為GPT-3的120億參數(shù)衍生版本,它將文本和圖像作為單一的數(shù)據(jù)流接收,其中包含多達(dá)1280個(gè)詞元,并使用最大似然法進(jìn)行訓(xùn)練。
           
          自然語言輸入是一個(gè)完全開放的沙盒,如果能按照模型的喜好使用文字,你幾乎可以創(chuàng)造任何東西。
           
          DALL-E文本到圖像的端到端生成
           
          由于OpenAI一直沒有開源DALL.E,因此之前的創(chuàng)作都是基于圖像標(biāo)注模型CLIP。
           
           
          在概念上,這種從文本描述生成圖像的想法與DALL.E模型驚人地相似,但實(shí)際上卻完全不同。
           
          DALL.E是直接從語言中產(chǎn)生高質(zhì)量的圖像而進(jìn)行的端到端訓(xùn)練,而CLIP則是使用語言來引導(dǎo)現(xiàn)有的無條件圖像生成模型。
           
          而這些基于CLIP的方法要相對拙略一些,所以輸出的結(jié)果并不像DALL.E那樣具有很高質(zhì)量和精確度。相反,這些生成的圖像是怪異、迷幻和抽象的。
           
          正是這種怪異使這些基于CLIP的作品如此獨(dú)特,讓人在熟悉的事物上看到完全不同的結(jié)果。
           
          「牛油果形狀的扶手椅」:上圖由DALL.E生成,下圖由CLIP生成的
           

          AGI:算法、數(shù)據(jù)和計(jì)算機(jī)


          對于AGI,UCLA的計(jì)算機(jī)科學(xué)教授、人工智能先驅(qū)Stuart Russell表示深度學(xué)習(xí)是不足實(shí)現(xiàn)的。
           
          「關(guān)注原始計(jì)算能力完全沒有抓住重點(diǎn)。我們不知道如何讓一臺(tái)機(jī)器真正智能化,即使它有宇宙那么大。」
           
          相比之下,OpenAI相信,在大型數(shù)據(jù)集上輸入大型神經(jīng)網(wǎng)絡(luò)并在巨大的計(jì)算機(jī)上進(jìn)行訓(xùn)練是實(shí)現(xiàn)AGI的最佳途徑。
           
          OpenAI的首席技術(shù)官Greg Brockman表示:「誰擁有最大的計(jì)算機(jī),誰就能獲得最大的好處?!?/span>
           
          此外,OpenAI相信縮放假說:給定一個(gè)可擴(kuò)展的算法,如GPT系列背后的基本架構(gòu)Transformer,就可能有一條通向AGI的直接路徑,包括基于該算法訓(xùn)練越來越大的模型。
           
          但大型模型只是AGI難題的一個(gè)部分,訓(xùn)練它們需要大型數(shù)據(jù)集和大量的計(jì)算能力。
           
          當(dāng)機(jī)器學(xué)習(xí)界開始揭示無監(jiān)督學(xué)習(xí)的潛力時(shí),數(shù)據(jù)不再是一個(gè)瓶頸。
           
          再加上生成性語言模型,以及少量的任務(wù)轉(zhuǎn)移,也就解決了「大型數(shù)據(jù)集」問題。
           
          OpenAI只需要巨大的計(jì)算資源來訓(xùn)練和部署他們的模型就可以了。
           
          這或許就是在2019年決定與微軟合作的原因,這樣就通過授權(quán)微軟在商業(yè)上使用OpenAI的模型,以換取使用其云計(jì)算基礎(chǔ)設(shè)施和所需的強(qiáng)大GPU。



          參考資料:

          https://analyticsindiamag.com/gpt-4-sam-altman-confirms-the-rumours/

          https://towardsdatascience.com/gpt-4-will-have-100-trillion-parameters-500x-the-size-of-gpt-3-582b98d82253




          瀏覽 59
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产极品在线播放 | 男生女生操逼国产激情AV国产 | 色五月综合网 | 黑人大操逼| 高清无码第一页 |