<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          這可真是太猛了!一秒5百億億次!

          共 4317字,需瀏覽 9分鐘

           ·

          2022-01-26 11:32

          轉(zhuǎn)自:新智元?|?好困?袁榭

          從「黑客帝國(guó)」到「西部世界」,無(wú)數(shù)文藝作品都展望了跑在超級(jí)計(jì)算機(jī)上的超級(jí)AI,控制虛擬現(xiàn)實(shí)世界、統(tǒng)治地球的未來(lái)。2022年1月25日,Meta公布的AI超級(jí)計(jì)算機(jī)RSC,似乎正在往這個(gè)方向邁去。


          1月25日,Meta聯(lián)合英偉達(dá)正式推出了一個(gè)全新的超算——「人工智能研究超級(jí)集群」( AI Research SuperCluster,縮寫(xiě)RSC)。
          ?
          Meta的計(jì)劃也很「樸素」,首先把CV、NLP、語(yǔ)音識(shí)別等技術(shù)所需的模型都做到最大,參數(shù)量差不多「數(shù)萬(wàn)億」個(gè)吧。
          ?
          這些模型可以在數(shù)百種不同的語(yǔ)言中工作;無(wú)縫分析文本、圖像和視頻;開(kāi)發(fā)新的增強(qiáng)現(xiàn)實(shí)工具等等。
          ?
          然后再構(gòu)建全新的人工智能系統(tǒng)。例如,為使用不同語(yǔ)言的人群提供實(shí)時(shí)語(yǔ)音翻譯,這樣大家就可以就研究項(xiàng)目無(wú)縫協(xié)作,或者一起暢玩AR增強(qiáng)現(xiàn)實(shí)游戲。
          ?
          最終,RSC將和相關(guān)的AI工作一起,為構(gòu)建「元宇宙」鋪平道路。
          ?
          ?
          值得一提的是,RSC從論文靈感到實(shí)物只用了18個(gè)月的時(shí)間。
          ?

          要整就整最大的


          自2013年Facebook正式設(shè)立人工智能實(shí)驗(yàn)室開(kāi)始,Meta在AI方面取得了很多重大進(jìn)展。
          ?
          諸如從大量未標(biāo)注的樣本中學(xué)習(xí)的自監(jiān)督學(xué)習(xí),以及讓AI模型能夠進(jìn)行更有效推理的Transformer。
          ?
          不過(guò),想要發(fā)揮自監(jiān)督學(xué)習(xí)和基于Transformer的模型的優(yōu)勢(shì),無(wú)論是視覺(jué)、語(yǔ)音、語(yǔ)言,還是關(guān)鍵信息的識(shí)別,都需要訓(xùn)練越來(lái)越大、越來(lái)越復(fù)雜的模型。
          ?
          計(jì)算機(jī)視覺(jué)需要以更高的數(shù)據(jù)采樣率來(lái)處理更大、更長(zhǎng)的視頻。語(yǔ)音識(shí)別需要在有大量背景噪音的挑戰(zhàn)性場(chǎng)景中也能很好地工作,如聚會(huì)或音樂(lè)會(huì)。NLP需要理解更多的語(yǔ)言、方言和口音。
          ?
          而其他領(lǐng)域的進(jìn)步,包括機(jī)器人技術(shù)、具身人工智能和多模態(tài)人工智能,將能夠完成現(xiàn)實(shí)世界中的任務(wù)。
          ?
          ?
          為此,Meta在2017年打造了第一代超算。其中,一個(gè)集群中擁有22000個(gè)英偉達(dá)V100 Tensor Core GPU,每天執(zhí)行35000個(gè)訓(xùn)練作業(yè)。
          ?
          2020年初,Meta決定從0開(kāi)始設(shè)計(jì)一個(gè)新的超算,進(jìn)而在大到一個(gè)Exabyte的數(shù)據(jù)集上訓(xùn)練出超過(guò)一萬(wàn)億個(gè)參數(shù)的模型,換句話說(shuō),這個(gè)數(shù)據(jù)量相當(dāng)于36000年的高質(zhì)量視頻。

          反正神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)數(shù)量也一直在猛增,例如自然語(yǔ)言處理器GPT-3有1750億個(gè)參數(shù),超級(jí)計(jì)算機(jī)跑超級(jí)神經(jīng)網(wǎng)絡(luò)AI,沒(méi)毛病。
          ?
          具體參數(shù)
          ?
          RSC由760個(gè)英偉達(dá)DGX A100系統(tǒng)構(gòu)成運(yùn)算節(jié)點(diǎn),總共有6080個(gè)英偉達(dá)A100 GPU在Quantum InfiniBand網(wǎng)絡(luò)上連接,達(dá)到每秒1895千萬(wàn)億次運(yùn)算的TF32程度性能。
          ?
          RSC的存儲(chǔ)層有175PB的Pure Storage FlashArray,46PB的Penguin Computing Altus系統(tǒng)的緩存存儲(chǔ),以及10PB的Pure Storage FlashBlade。
          ?
          ?
          20倍性能增益
          ?
          Meta的第一代超算設(shè)計(jì)于2017年,其中一個(gè)集群中擁有22000個(gè)英偉達(dá)V100 Tensor Core GPU,每天執(zhí)行35000個(gè)訓(xùn)練作業(yè)。
          ?
          RSC的早期基準(zhǔn)測(cè)試表明,較于第一代超算,它運(yùn)行計(jì)算機(jī)視覺(jué)工作流程的速度提高了20倍,運(yùn)行英偉達(dá)集體通信庫(kù)(NCCL)的速度提高了9倍多,訓(xùn)練大規(guī)模NLP模型的速度提高了3倍。
          ?
          這意味著一個(gè)擁有數(shù)百億個(gè)參數(shù)的模型可以在三周內(nèi)完成訓(xùn)練,而之前是九周。
          ?
          ?
          在2022年度的第二階段,RSC的GPU數(shù)量將從6080個(gè)增加到16000個(gè),使AI的訓(xùn)練性能提高2.5倍以上,成為世界上最快的人工智能超級(jí)計(jì)算機(jī)。
          ?
          在混合精度方面,RSC將達(dá)到驚人的每秒5百億億次運(yùn)算。存儲(chǔ)系統(tǒng)則會(huì)擴(kuò)容到Exabyte(10億GB)級(jí)別,并具有16TB/s的目標(biāo)傳輸帶寬。
          ?
          此外,InfiniBand結(jié)構(gòu)將支持16000個(gè)端口,采用雙層拓?fù)浣Y(jié)構(gòu)且沒(méi)有超占比。
          ?
          作為對(duì)照物,在最新一輪MLPerf神經(jīng)網(wǎng)絡(luò)訓(xùn)練基準(zhǔn)測(cè)試中,最大的系統(tǒng)是Nvidia部署的4320-GPU系統(tǒng)。

          其可在不到一分鐘的時(shí)間內(nèi)訓(xùn)練自然語(yǔ)言處理器BERT。然而,與Meta的RSC將使用的數(shù)萬(wàn)億個(gè)參數(shù)相比,BERT只有1.1億個(gè)參數(shù)。

          真是小巫見(jiàn)大巫了。

          ?
          超算的優(yōu)勢(shì)
          ?
          負(fù)責(zé)RSC的Meta項(xiàng)目經(jīng)理凱文·李稱(chēng),超級(jí)計(jì)算機(jī)的巨型規(guī)模在多方面都很有必要。
          ?
          首先,Meta公司本身的基礎(chǔ)業(yè)務(wù)就帶來(lái)了不間斷處理海量信息的需求,這對(duì)數(shù)據(jù)處理性能的規(guī)模下限有很高要求。
          ?
          其次,AI研發(fā)項(xiàng)目使用的數(shù)據(jù)量也有下限要求,因?yàn)閿?shù)據(jù)集內(nèi)容越復(fù)雜越整全,研究結(jié)果就越好。
          ?
          訓(xùn)練AI模型的算力下限,遠(yuǎn)高于運(yùn)行AI模型的算力下限。這就是你的智能手機(jī)在掃臉認(rèn)證時(shí)不需要連上堆滿(mǎn)服務(wù)器的數(shù)據(jù)中心的原因。
          ?
          再次,所有這些基礎(chǔ)設(shè)施的管理是很大的挑戰(zhàn)。所以大規(guī)模帶來(lái)的管理去碎片化,簡(jiǎn)化了管理工作,提高了管理工作、耗能、占地等任務(wù)的效率。
          ?
          ?

          元宇宙:請(qǐng)加大力度


          Meta在公開(kāi)宣布超算時(shí),并沒(méi)有忘記公司最近的元宇宙主旋律。
          ?
          2021年10月,F(xiàn)acebook正式宣布改名,META!
          ?
          ?
          當(dāng)蒙在硅谷總部標(biāo)志牌上的「豎起大拇指」被揭掉的那一刻起,「元宇宙新紀(jì)元」也正式拉開(kāi)帷幕。


          Meta老板馬克·扎克伯格周一在自己的Facebook帖文中寫(xiě)道:「我們?yōu)樵钪鏄?gòu)建的體驗(yàn)需要巨大的算力(每秒數(shù)萬(wàn)億次操作!),RSC將啟用新的AI模型,可以從數(shù)萬(wàn)億個(gè)示例中研究,理解數(shù)百種語(yǔ)言等等。」
          ?
          ?
          Meta公司也多次在消息公布文章中表示:開(kāi)發(fā)超算的目的之一是「幫助實(shí)現(xiàn)公司的元宇宙愿景
          」。用超算跑AI也是因?yàn)椤窤I驅(qū)動(dòng)的應(yīng)用和產(chǎn)品將在元宇宙中發(fā)揮重要作用?!?/span>
          ?
          Meta稱(chēng):「我們希望算力的躍階提升不僅能幫助我們?yōu)楝F(xiàn)有服務(wù)創(chuàng)建更精確的人工智能模型,同時(shí)能夠?qū)崿F(xiàn)全新的用戶(hù)體驗(yàn),尤其是在元宇宙之中……正在幫我們創(chuàng)造為元宇宙提供動(dòng)力、并推動(dòng)更廣泛的人工智能社區(qū)前進(jìn)的基礎(chǔ)技術(shù)。」
          ?

          RSC能推動(dòng)的具體產(chǎn)品與落地場(chǎng)景也不乏展望。除了多次提到的「審查海量?jī)?nèi)容」和「為包含數(shù)百種語(yǔ)言的人群實(shí)時(shí)翻譯語(yǔ)音」外,還有Facebook與Instagram正在開(kāi)發(fā)的增強(qiáng)現(xiàn)實(shí)設(shè)備也可以從中獲益。
          ?
          正如馬克·扎克伯格提到自家的data2vec模型所說(shuō),高性能AI與AR的結(jié)合將提升元宇宙的用戶(hù)體驗(yàn):「高性能的AI助手最終將內(nèi)置于AR眼鏡中。例如當(dāng)用戶(hù)做飯時(shí)少放調(diào)料、爐火開(kāi)太大等等時(shí),AR眼鏡中的AI助手能及時(shí)彈窗/語(yǔ)音提示,協(xié)助用戶(hù)完成復(fù)雜任務(wù)?!?span style="display: none;line-height: 0px;">?


          如何造一個(gè)AI超算


          設(shè)計(jì)、建造RSC這類(lèi)項(xiàng)目,并不只消考慮性能參數(shù),而是要用當(dāng)今最好的方案在盡可能大的范圍內(nèi)實(shí)現(xiàn)這些性能。
          ?
          與外界伙伴協(xié)作
          ?
          所有這些基礎(chǔ)設(shè)施必須非??煽磕陀?,因?yàn)镸eta公司估計(jì)有些實(shí)驗(yàn)可以運(yùn)行數(shù)周,并需要成千上萬(wàn)的GPU。而且使用RSC的整個(gè)體驗(yàn)必須對(duì)研究人員友好,以便研究團(tuán)隊(duì)可以輕松地探索廣泛的人工智能模型。
          ?
          這一目標(biāo)實(shí)現(xiàn)的很大一部分,是Meta與長(zhǎng)期合作伙伴的協(xié)力結(jié)果,他們也都在2017年幫助設(shè)計(jì)了Meta的第一代AI基礎(chǔ)設(shè)施。
          ?
          SGH旗下的企鵝計(jì)算公司是Meta的架構(gòu)和管理服務(wù)合作伙伴,它與Meta的運(yùn)營(yíng)團(tuán)隊(duì)合作,進(jìn)行硬件集成以部署集群,并幫助建立控制平面的主要部分。
          ?
          Pure Storage為Meta提供了強(qiáng)大的、可擴(kuò)展的存儲(chǔ)解決方案。
          ?
          英偉達(dá)為Meta提供了以尖端系統(tǒng)、GPU和InfiniBand結(jié)構(gòu)為特色的AI計(jì)算技術(shù),以及用于集群的NCCL等軟件棧組件。
          ?
          ?
          開(kāi)發(fā)中應(yīng)對(duì)時(shí)勢(shì)變故
          ?
          但在RSC的發(fā)展過(guò)程中還出現(xiàn)了其他意想不到的挑戰(zhàn)--即新冠大流行。
          ?
          新冠讓RSC初始時(shí)成為完全的遠(yuǎn)程項(xiàng)目,項(xiàng)目團(tuán)隊(duì)得用大約一年半的時(shí)間里將其從一個(gè)簡(jiǎn)單的共享文件變成了一個(gè)正常運(yùn)作的工作集群。
          ?
          新冠和全行業(yè)的晶圓供應(yīng)短缺還帶來(lái)了供應(yīng)鏈問(wèn)題,使得從芯片、光學(xué)組件到GPU,甚至建材都難以獲得--所有這些都必須按照新的安全規(guī)程進(jìn)行運(yùn)輸。
          ?
          為了有效地建立這個(gè)集群,Meta的項(xiàng)目團(tuán)隊(duì)不得不從頭開(kāi)始設(shè)計(jì),創(chuàng)造了許多全新的Meta獨(dú)有流程,并在此過(guò)程中重新思考以前的先例。
          ?
          比如Meta必須圍繞其數(shù)據(jù)中心設(shè)計(jì)編寫(xiě)新的規(guī)則--包括其冷卻、電源、機(jī)架布局、布線和網(wǎng)絡(luò)(包括一個(gè)全新的控制界面),以及其他重要的考量因素。
          ?
          ?
          Meta必須確保公司內(nèi)的所有團(tuán)隊(duì),從建筑到硬件到軟件和人工智能,都與合作伙伴步調(diào)一致地工作。
          ?
          為超算開(kāi)發(fā)的AIRStore
          ?
          除了核心系統(tǒng)本身,AI超級(jí)計(jì)算機(jī)還需要一個(gè)強(qiáng)大的存儲(chǔ)解決方案:一個(gè)能夠從一個(gè)超字節(jié)規(guī)模的存儲(chǔ)系統(tǒng)提供TB級(jí)帶寬的解決方案。
          ?
          為了滿(mǎn)足人工智能訓(xùn)練日益增長(zhǎng)的帶寬和容量需求,Meta從頭開(kāi)始開(kāi)發(fā)了一個(gè)存儲(chǔ)服務(wù)--人工智能研究商店(AIRStore)。
          ?
          為了優(yōu)化人工智能模型,AIRStore采用了一個(gè)新的數(shù)據(jù)準(zhǔn)備階段,對(duì)用于訓(xùn)練的數(shù)據(jù)集進(jìn)行預(yù)處理。一旦準(zhǔn)備工作完成,準(zhǔn)備好的數(shù)據(jù)集可用于多次訓(xùn)練,直至過(guò)期。
          ?
          AIRStore還優(yōu)化了數(shù)據(jù)傳輸,使Meta數(shù)據(jù)中心間主干網(wǎng)的跨區(qū)域流量降至最低。
          ?
          ?
          保障數(shù)據(jù)安全
          ?
          幾十年來(lái)高性能計(jì)算一直都在解決規(guī)模上的問(wèn)題,然而安全和隱私的控制也尤為重要。
          ?
          為了滿(mǎn)足隱私和安全要求,數(shù)據(jù)從存儲(chǔ)系統(tǒng)到GPU的整個(gè)鏈路都是端到端加密的,直到訓(xùn)練前才會(huì)被解密。而且在導(dǎo)入RSC之前,數(shù)據(jù)都必須經(jīng)過(guò)隱私審查程序,以保證被正確地匿名化。
          ?
          此外,RSC與互聯(lián)網(wǎng)也是隔離,沒(méi)有直接的入站或出站連接,流量只能來(lái)自Meta的生產(chǎn)數(shù)據(jù)中心。
          ?
          Meta的RSC可以說(shuō)是第一次在這樣的規(guī)模下去解決性能、可靠性、安全性和隱私問(wèn)題。
          ?
          最后,一旦完全啟用,Meta的RSC超級(jí)電腦將是英偉達(dá)DGX A100系統(tǒng)的最大規(guī)??椭苹惭b項(xiàng)目。


          參考資料:

          https://ai.facebook.com/blog/ai-rsc

          https://blogs.nvidia.com/blog/2022/01/24/meta-ai-supercomputer-dgx/

          https://www.enterpriseai.news/2022/01/24/meta-builds-a-massive-new-ai-research-supercluster-supercomputer/

          ·················END·················

          推薦閱讀

          ?? ?北京,終于落戶(hù)了!?? ?馬賽克,克星,真來(lái)了!????又整新活,AI 殺麻了!

          瀏覽 36
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产又爽 又黄 免费观看视频 | 亚洲爆乳无码精品AAA片蜜桃 | AV在线无码观看 | 久久精品视频18 | 天天视频入口 |