<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          10萬億!達(dá)摩院發(fā)布全球最大AI預(yù)訓(xùn)練模型,能耗僅為GPT-3的1%

          共 8953字,需瀏覽 18分鐘

           ·

          2021-11-09 15:43

          大數(shù)據(jù)文摘作品


          11月8日,阿里巴巴達(dá)摩院公布多模態(tài)大模型M6最新進(jìn)展,其參數(shù)已從萬億躍遷至10萬億,規(guī)模遠(yuǎn)超谷歌、微軟此前發(fā)布的萬億級模型,成為全球最大的AI預(yù)訓(xùn)練模型。同時,M6做到了業(yè)內(nèi)極致的低碳高效,使用512 GPU在10天內(nèi)即訓(xùn)練出具有可用水平的10萬億模型。相比去年發(fā)布的大模型GPT-3,M6實現(xiàn)同等參數(shù)規(guī)模,能耗僅為其1%。

          ?

          與傳統(tǒng)AI相比,大模型擁有成百上千倍“神經(jīng)元”數(shù)量,且預(yù)先學(xué)習(xí)過海量知識,表現(xiàn)出像人類一樣“舉一反三”的學(xué)習(xí)能力。因此,大模型被普遍認(rèn)為是未來的“基礎(chǔ)模型”,將成下一代AI基礎(chǔ)設(shè)施。然而,其算力成本相當(dāng)高昂,訓(xùn)練1750億參數(shù)語言大模型GPT-3所需能耗,相當(dāng)于汽車行駛地月往返距離。

          ?

          今年5月,通過專家并行策略及優(yōu)化技術(shù),達(dá)摩院M6團隊將萬億模型能耗降低超八成、效率提升近11倍。10月,M6再次突破業(yè)界極限,通過更細(xì)粒度的CPU offload、共享-解除算法等創(chuàng)新技術(shù),讓收斂效率進(jìn)一步提升7倍,這使得模型規(guī)模擴大10倍的情況下,能耗未顯著增加。這一系列突破極大降低了大模型研究門檻,讓一臺機器訓(xùn)練出一個千億模型成為可能。


          同時,達(dá)摩院聯(lián)合阿里云推出了M6服務(wù)化平臺,為大模型訓(xùn)練及應(yīng)用提供完備工具,首次讓大模型實現(xiàn)“開箱即用”,算法人員及普通用戶均可方便地使用平臺。達(dá)摩院還推出了當(dāng)前最大規(guī)模的中文多模態(tài)評測數(shù)據(jù)集MUGE,覆蓋圖文描述、文本生成圖像、跨模態(tài)檢索任務(wù),填補了缺少中文多模態(tài)權(quán)威評測基準(zhǔn)的空白。

          【達(dá)摩院技術(shù)同學(xué)自述】挑戰(zhàn)極限規(guī)模,落地實際應(yīng)用!十萬億M6及服務(wù)化平臺發(fā)布
          ?
          此前達(dá)摩院陸續(xù)發(fā)布了多個版本的M6模型,從大規(guī)模稠密模型到超大規(guī)模的混合專家模型的探索,逐步從百億參數(shù)升級到萬億參數(shù)規(guī)模,在致力于推動超大規(guī)模預(yù)訓(xùn)練及Green AI的同時,也在發(fā)力超大規(guī)模預(yù)訓(xùn)練模型的落地應(yīng)用和服務(wù)化,為現(xiàn)實場景中各式各樣豐富的下游任務(wù)提供強大的表示學(xué)習(xí)底座。在近期,M6團隊在多個方向上持續(xù)積累,做出了如下成果:

          超低碳訓(xùn)練和推理:達(dá)摩院聯(lián)合阿里云PAI、阿里云EFLOPS大計算集群團隊和螞蟻EFLOPs工程團隊,僅用EFLOPS集群的512張V100-32G,訓(xùn)練僅用時10天,打造目前業(yè)界最大的預(yù)訓(xùn)練模型10萬億參數(shù)模型M6-10T,效果超出此前萬億參數(shù)模型M6-T,之前業(yè)界最好水平是微軟最新發(fā)布的DeepSpeed,其使用了512張A100才完成3.5萬億參數(shù)基于MoE的GPT;從千億、萬億到十萬億參數(shù),單機承載的參數(shù)量從64億,168億增長至1563億,相比去年,M6自身規(guī)模擴大了1000倍,但訓(xùn)練能耗僅為此前3%,大力推動了低碳大模型和Green AI發(fā)展。

          M6能力升級:此前M6圖像生成分辨率達(dá)到業(yè)界最高的1024*1024,在此基礎(chǔ)上進(jìn)一步提升了生成質(zhì)量,以及在少樣本情況下的生成拓展性和創(chuàng)造力,且范圍擴展到企業(yè)Logo生成,NFT圖片生成等;文案生成繼達(dá)到工業(yè)級后陸續(xù)收到業(yè)務(wù)反饋,幫助多個業(yè)務(wù)實現(xiàn)5%及以上的業(yè)務(wù)效果提升;打造金融大腦,預(yù)訓(xùn)練融入金融知識,覆蓋10個以上理解和生成任務(wù)。

          正式推出M6服務(wù)化平臺:日常服務(wù)阿里巴巴超過40個業(yè)務(wù)團隊,日調(diào)用量上億,提供上手簡便的基于M6的finetune和inference方案,覆蓋多項理解和生成任務(wù),包括Seq2Seq文本生成、自回歸文本續(xù)寫、圖片描述、文本分類、多模態(tài)分類、文本匹配、圖文檢索、多模態(tài)對比學(xué)習(xí)、文本流暢度評估等,是目前業(yè)界覆蓋最廣泛的大模型生態(tài)的服務(wù)化平臺,并同時打造算法社區(qū),推動普惠AI發(fā)展。

          一、背景介紹

          進(jìn)入2021年,大規(guī)模預(yù)訓(xùn)練模型成為學(xué)術(shù)界和工業(yè)界都非常關(guān)注的一大研究領(lǐng)域,而斯坦福等科研機構(gòu)也在近期提出基礎(chǔ)模型(Foundation Model)的概念,并且強調(diào)基礎(chǔ)模型的重要性。2020年中GPT-3提出以來,一系列國內(nèi)外大企業(yè)都在大模型的研發(fā)上開展探索,專注各個領(lǐng)域任務(wù)的大模型相繼提出,在各大下游任務(wù)都展現(xiàn)出優(yōu)越的表現(xiàn)。無疑,超大規(guī)模預(yù)訓(xùn)練模型蘊含著巨大的學(xué)術(shù)研究價值和商業(yè)落地價值。

          此前達(dá)摩院智能計算實驗室在阿里打響了超大規(guī)模預(yù)訓(xùn)練的第一槍,相繼提出百億、千億和萬億參數(shù)規(guī)模的超大規(guī)模預(yù)訓(xùn)練模型M6。除了首先通過擴展稠密模型觀察到和Neural scaling law一致的現(xiàn)象,后續(xù)M6團隊開始研究超大規(guī)模MoE模型,是在全球范圍繼谷歌后首個在此領(lǐng)域深入探索的團隊。隨后打造了第一個基于稀疏專家模型的多模態(tài)預(yù)訓(xùn)練模型-千億參數(shù)M6,用非常高效的方式完成如此大規(guī)模的多模態(tài)預(yù)訓(xùn)練模型的訓(xùn)練。完成第一步之后,M6團隊在此前研究的基礎(chǔ)上,開始思考如何讓MoE模型變得更加強大的同時,也能更加低碳、環(huán)保。最終,在今年5月,在相比千億M6顯著提效的同時,萬億參數(shù)M6-T僅用480張GPU耗時3天即訓(xùn)練完成。

          但如果要訓(xùn)練極限規(guī)模的模型,比如10萬億參數(shù)的規(guī)模,是此前萬億參數(shù)模型的10倍。即便使用此前萬億參數(shù)M6的方法,也需要10倍的資源,即近4800 GPU才可能完成10萬億參數(shù)的訓(xùn)練。在需要限制資源投入的現(xiàn)實情況下,團隊希望找到一條路徑,能夠用此前萬億參數(shù)M6訓(xùn)練的資源規(guī)模,去訓(xùn)練1個參數(shù)規(guī)模增加10倍的極限模型,同時保證較高的訓(xùn)練效率,為學(xué)界和工業(yè)界提供一種在有限資源的條件下高效訓(xùn)練超大規(guī)模模型的范式。

          此外,除了深入探索大模型研發(fā)的技術(shù),M6團隊同時也高度關(guān)注大模型的落地應(yīng)用和服務(wù)。針對不同的業(yè)務(wù)場景,團隊將M6模型和各類單模態(tài)和跨模態(tài)的下游任務(wù),包括理解類和生成類任務(wù)深度結(jié)合,推出了服務(wù)化組件,日均實現(xiàn)上億調(diào)用,得到了業(yè)務(wù)方的認(rèn)可和積極的意見反饋。同時團隊將M6模型的生成和理解能力,落地到服飾制造、智能文案生產(chǎn)、金融領(lǐng)域?qū)υ捙c問答等應(yīng)用場景中,將技術(shù)能力轉(zhuǎn)化為工業(yè)落地價值。
          ?

          二、十萬億M6技術(shù)實現(xiàn)

          過去的一年中,一系列大模型的工作都在說明,參數(shù)規(guī)模的擴展帶來的便是模型能力邊界的擴展,更多的數(shù)據(jù)+更大的模型=更強的能力。此前,M6實現(xiàn)了480GPU訓(xùn)練萬億參數(shù)模型,說明MoE模型結(jié)合高效的分組機制能夠用有限資源快速訓(xùn)練完成一個效果優(yōu)越的大模型。但如果要訓(xùn)練的是極限規(guī)模的十萬億參數(shù)模型,是不是就需要成倍地增加機器呢?

          M6團隊提出的命題是,如何在有限資源的條件下高效地訓(xùn)練極限規(guī)模模型?近期,微軟DeepSpeed團隊相繼提出了CPU offload以及NVMe offload等技術(shù),大力推動民主AI的發(fā)展。但事實上,采用各種offload的方法,自然可以緩解存儲的問題,但是用時間換空間的方式,勢必會大大延長訓(xùn)練時間。而像NVMe offload甚至還有SSD硬盤的設(shè)備要求,并且SSD硬盤寫的次數(shù)還是有限的,這樣的做法會帶來大量資源損耗。那么有沒有比較簡單的方式可以用少量資源快速訓(xùn)練一個大模型呢?

          M6團隊提出了一種簡單的方法解決此類極限規(guī)模模型訓(xùn)練的問題,不僅關(guān)注如何用有限的資源訓(xùn)練極限規(guī)模模型,還關(guān)注如何將其訓(xùn)練至真實可用。團隊使用512張GPU將十萬億參數(shù)的模型訓(xùn)練至可用的水平,而如果訓(xùn)練此前的萬億參數(shù)模型也只需要64張GPU即可實現(xiàn)。相比此前的M6模型,M6-10T具有如下優(yōu)勢:

          1. 相比此前的萬億參數(shù)M6,M6-10T的參數(shù)量是原先的10倍沒有顯著的資源增加(480 vs 512 GPU);
          2. 相比萬億參數(shù)M6,M6-10T在樣本量的維度上具有更快的收斂速度;
          3. 提出的共享解除機制將十萬億參數(shù)模型的訓(xùn)練速度提升7倍以上,并可廣泛應(yīng)用于其他同類大模型的訓(xùn)練。

          達(dá)摩院智能計算實驗室聯(lián)合阿里云PAI團隊,在Whale框架下實現(xiàn)M6模型。此前發(fā)布的千億和萬億參數(shù)M6模型,均在Whale上實現(xiàn),利用其強大的數(shù)據(jù)并行、模型并行以及專家并行的能力實現(xiàn)超大規(guī)模模型的訓(xùn)練和推理。Whale通過一系列優(yōu)化,為M6模型的訓(xùn)練節(jié)約資源,提升效率。顯存優(yōu)化方面,Whale的自動Gradient Checkpointing、Group-wise Apply、CPU Offload技術(shù)和通信池化等技術(shù)均有效節(jié)約顯存的使用,而在計算和通信方面,Whale支持了MoE所需的DP+EP的機制,并在EFLOPS集群高速通信能力的基礎(chǔ)上,采用分組融合通信、半精度通信、拓?fù)涓兄腁ll2All通信算子等技術(shù)來提高通信效率,以及結(jié)合混合精度、編譯優(yōu)化等技術(shù)提高訓(xùn)練效率等。同時,EFLOPS團隊聯(lián)合PAI團隊對attention進(jìn)行優(yōu)化,將訪存密集型算子融合成一個cuda kernel實現(xiàn),將multihead attention性能提升30%。

          而在十萬億M6模型的訓(xùn)練上,團隊首先解決有限資源(512 GPU)“放下”10萬億參數(shù)的極限規(guī)模模型,而模型結(jié)構(gòu)則采用此前萬億參數(shù)M6-T使用的結(jié)合expert prototyping的MoE模型。團隊在分布式框架Whale中利用CPU offload的方法成功將十萬億參數(shù)的M6-10T模型在512張GPU的機器中放下并實現(xiàn)訓(xùn)練。相比其他的CPU offload方案,M6的CPU offload粒度可控,可以靈活地選擇offload的模型層,可以不用將所有的權(quán)重offload到CPU memory中,而選擇保留部分權(quán)重在GPU memory上進(jìn)行計算,這樣的做法可以進(jìn)一步地提高GPU利用率。

          解決了放入模型的問題后,團隊針對訓(xùn)練效率的問題設(shè)計了Pseudo-to-Real(共享解除)機制,其核心思想為利用訓(xùn)練好的小模型初始化大模型。該算法首先利用參數(shù)共享的機制構(gòu)建并快速訓(xùn)練小模型,此階段無需使用CPU內(nèi)存存放模型同時可以使用更大的批次。配合上專家拆分和合并的機制,算法團隊只需要使用256張GPU即可快速訓(xùn)練一個Pseudo Giant。隨后,訓(xùn)練好的模型層的參數(shù)用于為Real Giant的每一層提供初始化,大模型即可在訓(xùn)練好的小模型的基礎(chǔ)上繼續(xù)優(yōu)化。盡管大模型的訓(xùn)練速度較慢,但無需經(jīng)歷漫長的收斂過程,只需從一個低點開始優(yōu)化。

          團隊也通過實驗證明該方案在收斂和下游遷移的有效性,同時在十萬億參數(shù)規(guī)模的M6-10T模型上做出成功實踐,僅用10天左右的時間即得到非常突出的收斂效果。樣本維度上收斂效果顯著優(yōu)于此前千億參數(shù)M6和萬億參數(shù)模型M6-T。如上圖所示,在經(jīng)過了10M樣本的訓(xùn)練后,同等實驗設(shè)置下M6-10T的log PPL顯著低于M6-MoE和M6-T,分別降低了34.7%和10.1%。在實驗中,對比不使用Pseudo-to-Real機制直接訓(xùn)練的十萬億模型,Pseudo-to-Real機制達(dá)到相同預(yù)訓(xùn)練loss用時僅為原先的6%。對比M6萬億模型,Pseudo-to-Real十萬億模型達(dá)到相同預(yù)訓(xùn)練loss所需的樣本量僅需約40%,充分顯示出Pseudo-to-Real機制對于超大模型訓(xùn)練的優(yōu)勢。

          三、M6能力再升級

          除了在超大規(guī)模的基礎(chǔ)技術(shù)以及低碳大模型開展深入探索以外,達(dá)摩院還希望M6在下游場景能力更加全面和強大。相比此前的發(fā)布,M6的圖像生成能力在實際效果上進(jìn)一步提升了效果,同時文本生成能力實現(xiàn)了更全面的覆蓋,擴展到金融領(lǐng)域的問答與對話等。

          (1)AI設(shè)計師,智能新制造
          此前M6團隊發(fā)現(xiàn)了圖像生成在設(shè)計領(lǐng)域的巨大潛力以及商業(yè)價值,并和犀牛智造合作。近期,通過近一步探索將在細(xì)節(jié)生成上有不俗表現(xiàn)的StyleGAN和M6結(jié)合,提升了生成細(xì)節(jié)質(zhì)量以及可編輯性。同時根據(jù)此前提出的M6-UFC的工作,團隊大大提升了圖像在少樣本情況下的生成拓展性和創(chuàng)造力,通過自動圖像生成來打造全新款式。
          M6生成的“國風(fēng)漢服長裙”

          同時,M6團隊發(fā)現(xiàn),對于樣本中數(shù)量極少的款式圖片,少樣本場景下的文生圖效果會急劇下降。但利用圖像編輯的方式,創(chuàng)新款式也很容易被快速擴展,可以生成更多擴展款式。

          目前,M6通過犀牛智造與品牌的合作已完成從設(shè)計到生產(chǎn)的閉環(huán)。雙11期間,多款由M6的AI設(shè)計款在淘寶平臺上線。通過M6助力智能智造,可將傳統(tǒng)新品服飾開發(fā)周期從數(shù)月降低至兩周內(nèi)。具體鏈路如下:
          ?
          在設(shè)計環(huán)節(jié),基于M6的生成+選款設(shè)計師的AI元生款鏈路,一周能穩(wěn)定產(chǎn)出100款以上新款式,相比傳統(tǒng)設(shè)計師一周20款的款式圖產(chǎn)出,元生款鏈路的設(shè)計效率提升至少五倍以上。
          ?
          同樣,在生產(chǎn)環(huán)節(jié),一款衣服在已有的設(shè)計圖上會經(jīng)歷設(shè)計-打樣-下單-大貨的全流程,傳統(tǒng)的設(shè)計是畫款式圖或者效果圖,和真實衣服出來的效果有一定差異,往往要打?qū)嵨飿右?次或者更多才能進(jìn)入下單生產(chǎn)環(huán)節(jié),其中物料成本,人力成本,時間成本都較高。AI服裝生成的方式,視覺呈現(xiàn)上是更接近實物的類照片效果,版師和設(shè)計師則更容易對齊需求,結(jié)合AI實現(xiàn)的虛擬試穿,能減少打樣次數(shù),提升效率,并節(jié)約成本,響應(yīng)低碳號召。
          ?
          經(jīng)過M6元生款數(shù)智制造的努力,結(jié)合犀牛環(huán)保面料的研發(fā)應(yīng)用,能在全鏈路減少30%以上的碳排放。根據(jù)測算,每一件元生款鏈路生產(chǎn)的服裝,能減排0.35千克二氧化碳;賣出50件就相當(dāng)于種下一棵樹。

          傳統(tǒng)設(shè)計款式圖
          ?
          基于M6的元生款設(shè)計模型
          ?
          為了進(jìn)一步驗證并應(yīng)用M6的超強圖像生成以及創(chuàng)新能力,M6團隊與內(nèi)外部合作,嘗試了用M6進(jìn)行概念車型設(shè)計、家裝設(shè)計、LOGO配圖設(shè)計、寵物頭像設(shè)計等,通過少樣本或者文本描述即可生成符合要求的圖像,同時還在進(jìn)一步優(yōu)化模型以產(chǎn)出更多豐富且符合業(yè)務(wù)標(biāo)準(zhǔn)的圖像。
          M6生成的現(xiàn)代風(fēng)及科幻風(fēng)車型
          ?
          M6生成的寵物貓的頭像圖
          ?
          (2)工業(yè)級文案生成
          M6大模型也擁有極強的文本生成能力,包括基于圖像的文本生成或者基于上下文的文本生成等。在中文摘要LCSTS數(shù)據(jù)集和對話數(shù)據(jù)集STC上,M6相較此前SOTA均取得了效果的提升:

          而在業(yè)務(wù)落地方面,M6在多個業(yè)務(wù)場景中都得到應(yīng)用。其中包括但不限于手淘、支付寶、小蜜智能客服內(nèi)容文案供給,取得了3%~13%的效果提升。

          此外,M6還在劇本生成和金融大腦等多個場景實現(xiàn)落地,實現(xiàn)了較為突出的業(yè)務(wù)效果。

          劇本生成
          值得一提的是,近幾年,直播熱度不斷飆升,虛擬主播也在這樣的背景下應(yīng)孕而生。M6與相關(guān)團隊開展合作,為小蜜虛擬主播自動生成播報劇本,較此前劇本更加流暢連貫。在有限的標(biāo)注數(shù)據(jù)下(不到1000條),通過M6+NAR相結(jié)合的技術(shù),在評測指標(biāo)BLEU上提升了10個點,人工評測通過率超過71%,大大提高了智能劇本的生產(chǎn)效率。

          金融預(yù)訓(xùn)練
          內(nèi)容理解和金融的結(jié)合一直備受相關(guān)領(lǐng)域研究人員的高度重視,在學(xué)術(shù)界有不少論文研究、Kaggle中有相關(guān)競賽、一些公募私募基金的報告也經(jīng)常進(jìn)行討論。M6的理解和生成能力相比以往模型已經(jīng)有了長足的進(jìn)步,所以團隊關(guān)注到了金融領(lǐng)域,嘗試研發(fā)一個金融預(yù)訓(xùn)練大腦,能夠?qū)鹑陬I(lǐng)域帶來幫助。近期M6在金融對話、投資問答、時間評論、新聞?wù)饶芰ㄔO(shè)上,取得了較好的離線效果。


          上述大部分應(yīng)用主要還是在數(shù)據(jù)、下游任務(wù)及具體任務(wù)模型創(chuàng)新等方面。后面,M6將努力把金融領(lǐng)域至關(guān)重要的時效性、知識性、內(nèi)容與金融市場的影響引入預(yù)訓(xùn)練模型,從而進(jìn)一步強化訓(xùn)練大腦、產(chǎn)生更高的價值。
          ?

          四、M6服務(wù)化平臺發(fā)布

          憑借平臺的易用性、訓(xùn)練高效低碳、下游任務(wù)覆蓋廣泛等特點,M6服務(wù)化平臺已日常服務(wù)了阿里巴巴近40項業(yè)務(wù),包括淘系技術(shù)部、支付寶搜索、阿里健康、阿里云、飛豬等。

          今年雙11,M6也活躍在阿里不同業(yè)務(wù)場景中:作為AI助理設(shè)計師,M6與犀牛制造聯(lián)手為近10個商家提供元生款服飾設(shè)計;M6憑借多模態(tài)特征提取能力,助力每屋每平團隊更好理解商品和內(nèi)容的不同維度信息;M6智能生成的內(nèi)容文案成為手淘和支付寶內(nèi)容供給之一;認(rèn)知圖譜團隊基于M6產(chǎn)出的商品多模態(tài)特征進(jìn)行商品屬性標(biāo)簽補充,用于進(jìn)行認(rèn)知召回;M6的通用知識也幫助支付寶服務(wù)搜索更好的理解用戶的Query語義,更好地理解平臺大量的長尾服務(wù)。

          M6服務(wù)業(yè)務(wù)案例:每平每屋

          每平每屋輕應(yīng)用是是淘系大家裝垂類中的主要流量入口,以內(nèi)容導(dǎo)購的形式滿足用戶在家居領(lǐng)域的購買需求。每平每屋算法團隊基于M6服務(wù)化平臺提供的多模態(tài)特征提取能力,全面優(yōu)化了已有的家居商品及相關(guān)內(nèi)容的特征抽取過程。對比線上已有模型和其他公開模型,具有強大跨模態(tài)理解能力M6的能夠更好地捕捉商品的風(fēng)格、場景等維度的信息。在實際業(yè)務(wù)場景中取得了風(fēng)格召回一致率,用戶點擊率及轉(zhuǎn)化率等多項指標(biāo)的顯著提升。


          除了對內(nèi)服務(wù)以外,M6服務(wù)化平臺也通過阿里云對外發(fā)布,詳情可點擊portal鏈接。外部用戶可以在阿里云上體驗M6的服務(wù),并且可以根據(jù)需求以合作的形式定制化地使用M6的功能,通過給M6團隊更多反饋意見,推動多模態(tài)大模型及整個大模型生態(tài)的發(fā)展。

          目前,M6平臺集成了此前M6接口提供的多種finetune形式的源碼,并且將陸續(xù)提供data2text文案生成、搜索召回、服飾設(shè)計、智能對話、金融問答等內(nèi)部孵化成熟的解決方案。同時,平臺提供了高效&低碳的分布式訓(xùn)練、低延遲的模型serving、統(tǒng)一的數(shù)據(jù)&模型管理、一鍵式模型部署方案。用戶可以根據(jù)自身數(shù)據(jù)情況,選擇使用SDK調(diào)用、Finetune、自定義模型等方式來靈活支持自己的下游任務(wù)。整體框架如下:


          綜合M6超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型的跨模態(tài)理解和生成能力,團隊在不同平臺上的預(yù)訓(xùn)練&finetune模型&inference時的工程實踐經(jīng)驗,以及團隊與下游業(yè)務(wù)合作中抽象出的finetune模型與業(yè)務(wù)解決方案,本次發(fā)布的M6多模態(tài)預(yù)訓(xùn)練服務(wù)化平臺具有以下三個核心能力點:

          • 任務(wù)形式覆蓋廣:平臺可以覆蓋多模態(tài)(圖文)輸入輸出的常見任務(wù)。
          • 高性能 & 簡單易用:用戶快速試用只需要準(zhǔn)備數(shù)據(jù)和簡單修改參數(shù),無需關(guān)注底層細(xì)節(jié);平臺底層實現(xiàn)集成系列優(yōu)化提升效率,其中包括自研MoE分組策略等。
          • 下游任務(wù)內(nèi)源 + 支持自定義模型改造:用戶可以編寫自定義模型,只需開發(fā)少量接口。

          此外,在以固定形式提供下游任務(wù)finetune接口并開源這些下游任務(wù)實現(xiàn)代碼的同時,M6團隊更希望借這一契機促進(jìn)經(jīng)濟體內(nèi)的算法社區(qū)的建立,期望更多的算法同學(xué)甚至產(chǎn)品運營同學(xué)都能在這樣一個開放的算法社區(qū)中貢獻(xiàn)自己的idea,在不同業(yè)務(wù)場景挖掘出大規(guī)模預(yù)訓(xùn)練模型的更大潛力,建立代碼、模型ckpt以及數(shù)據(jù)在一定程度上的分享與重用。?
          ?

          五、大規(guī)模中文多模態(tài)評測基準(zhǔn)MUGE發(fā)布

          針對學(xué)術(shù)界缺少統(tǒng)一且有效驗證多模態(tài)預(yù)訓(xùn)練算法效果的基準(zhǔn)評測,達(dá)摩院提出了MUGE評測基準(zhǔn),擁有當(dāng)前最大規(guī)模的中文多模態(tài)評測數(shù)據(jù)集,任務(wù)類型包括圖像描述生成、基于文本的圖像生成等、跨模態(tài)檢索等。在當(dāng)前中文多模態(tài)領(lǐng)域下游任務(wù)數(shù)據(jù)集匱乏的大背景下,該基準(zhǔn)讓廣大研究人員能有效評估大模型多模態(tài)理解和生成的效果,讓技術(shù)落地不再困難。
          ?
          目前,MUGE評測挑戰(zhàn)已經(jīng)在阿里云天池平臺開放(比賽鏈接https://tianchi.aliyun.com/muge),來自中科院、天津大學(xué)、武漢大學(xué)等多個機構(gòu)的挑戰(zhàn)隊伍進(jìn)行了提交,挑戰(zhàn)熱度持續(xù)上升。
          ?
          ?
          對于已開放的評測任務(wù),MUGE正不斷完善評測標(biāo)準(zhǔn)和基準(zhǔn)模型,便于選手更好參與。未來MUGE會持續(xù)地擴增更多的多模態(tài)任務(wù)及數(shù)據(jù)規(guī)模,延伸到更多的多模態(tài)落地場景和形式中,更進(jìn)一步契合其作為通用評測基準(zhǔn)的宗旨。與此同時,MUGE也在積極準(zhǔn)備英文數(shù)據(jù)集,使評測不再受限于語言類型的限制,進(jìn)一步為研究人員和開發(fā)者提升算法模型效果而提供支持。

          六、潛在科學(xué)應(yīng)用方向

          未來,團隊希望M6積極探索與科學(xué)應(yīng)用的結(jié)合,通過AI for science讓大模型的潛力充分發(fā)揮。潛在科學(xué)應(yīng)用方向可能包括:

          1.腦神經(jīng)連接圖譜繪制:腦科學(xué)是自然科學(xué)中最前沿的部分,繪制腦神經(jīng)連接圖譜則是其中最基礎(chǔ)、最核心的工作之一,對了解智力形成、發(fā)展人工智能技術(shù)具有重要意義。但腦神經(jīng)連接圖譜繪制上有若干重要難題,首先是數(shù)據(jù)規(guī)模非常大,斑馬魚和果蠅的腦神經(jīng)連接的切片數(shù)據(jù)就已經(jīng)是千億TB級別;其次是腦神經(jīng)元的軸突、樹突和突觸都難以確定,能否基于已有數(shù)據(jù)展開研究也充滿不確定性,這部分或許是由于以前的分析技術(shù)不夠?qū)е拢琈6潛在可以發(fā)揮較大貢獻(xiàn);

          2.腦機接口:腦機接口的本質(zhì)是將介觀層面或者微觀層面的腦區(qū)活動信息與特定含義聯(lián)系起來,這涉及兩方面工作,首先是硬件要有很高的集成度和敏感度,其次是要有軟件能很好地分析腦區(qū)活動成像信息的含義。目前,科學(xué)界對腦區(qū)活動的測量還積累不夠,對很多微弱信號的理解尚顯不足,M6潛在可以提高模型理解能力;

          3.透明海洋:透明海洋就是通過水下無人機、水下探測器以及海面聲吶設(shè)備等裝備,將海面以下的狀況圖像化,以提升人類對海洋的理解,但如何更好地分析包括聲音、圖像在內(nèi)的極其龐大的海洋數(shù)據(jù)是個巨大的挑戰(zhàn),M6潛在能發(fā)揮作用。

          同時,團隊也希望M6未來可以充分使用國產(chǎn)芯片,在加強軟硬一體化研究,解決顯存瓶頸、GPU利用率和sparsity等問題做出突破,幫助國產(chǎn)芯片打造壁壘。同時在結(jié)構(gòu)化知識結(jié)合,保證下游產(chǎn)出事實準(zhǔn)確性,更加靈活適用于廣泛下游復(fù)雜任務(wù)的pretrain+finetune和與端計算結(jié)合等方向,有巨大的技術(shù)發(fā)展空間。

          總結(jié)


          在這一年里,M6團隊從小規(guī)模的探索開始,逐步探索超大規(guī)模多模態(tài)預(yù)訓(xùn)練,針對超大規(guī)模預(yù)訓(xùn)練基礎(chǔ)技術(shù)和各類型下游任務(wù)應(yīng)用都取得了一定的進(jìn)展,推動了大模型尤其是低碳大模型的發(fā)展。

          但值得進(jìn)一步探索的問題還有很多,比如當(dāng)前的預(yù)訓(xùn)練模型隨著參數(shù)規(guī)模的擴大雖然在語言模型建模之類的任務(wù)上取得不錯的進(jìn)展,但如何真正發(fā)揮大模型的潛力,設(shè)計更好的大模型結(jié)構(gòu),如何有效遷移到多種類型的下游任務(wù)上等,都是值得廣大研究人員進(jìn)一步探索的問題。

          此外,目前的預(yù)訓(xùn)練模型對知識的理解往往還比較淺薄,而如何讓大模型真正地理解并運用知識,也許也是一個值得長時間投入的研究方向。未來,M6團隊在這些方面也會展開研究,希望能為大模型和預(yù)訓(xùn)練盡綿薄之力。
          ?

          點「在看」的人都變好看了哦!
          瀏覽 78
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91视频福利网 | 亚洲欧洲精品成人久久奇米网 | 国产又粗又硬又黄的视频 | 狠狠撸夜夜撸 | 51妺妺嘿嘿午夜福利 |