<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          三問大模型,AI的路在何方?

          共 3930字,需瀏覽 8分鐘

           ·

          2022-11-14 16:21

          作者 | 王云鶴,華為諾亞方舟實(shí)驗(yàn)室

          https://zhuanlan.zhihu.com/p/580745171

          你好,這里是DASOU。今天分享一篇關(guān)于AI領(lǐng)域大模型的思考。

          三問大模型,AI的路在何方

          近日內(nèi)部有關(guān)大模型的討論比較多,也組織了幾次內(nèi)部的分析和研討,有贊同、有批判、有質(zhì)疑、有期許,抱著略懂的心態(tài),本著 “胡說八道” 的精神,借著彈窗的周末時(shí)間,談?wù)剬?duì)大模型的一些看法。想到哪里就寫到哪里,比較細(xì)碎,由于胡說八道所以就以字為主,方便討論, 省流的話直接看加粗字體部分

          1. 大模型到底大在哪里?

          要想回答這個(gè)問題,首先要思考“大模型”到底是什么,只有定義好這個(gè)邊界,我們才能有所有后續(xù)的“胡說八道”。

          大模型這個(gè)關(guān)鍵詞的熱度在學(xué)術(shù)界應(yīng)該起于兩篇論文GPT-3 [1] 和 ViT [2]。(注:由于我以前的研究背景都在視覺上,所以對(duì)GPT相關(guān)的工作是真的胡說, 后文的思考還是以CV領(lǐng)域的感受為主

          GPT-3給大家的直觀感受就是參數(shù)量暴漲、計(jì)算量暴漲、數(shù)據(jù)量和性能暴漲,很強(qiáng)!ViT給做視覺的同學(xué)們帶來的感受有點(diǎn)文藝復(fù)興的意思,因?yàn)榘褕D像切成很多塊的方式是深度學(xué)習(xí)之前的視覺最基本的操作,不規(guī)則的就是傳統(tǒng)的SIFT [3],規(guī)則的切patch方式就是HoG [4],在十年前的很多比賽中也都取得了不錯(cuò)的結(jié)果(CV和NLP領(lǐng)域經(jīng)常互相借鑒,Bag-of-visual-words也是從NLP領(lǐng)域借鑒過來的)。

          話又說回來,ViT對(duì)視覺領(lǐng)域的從業(yè)人員來說,更直接的感受像讓子彈飛中的張麻子(槍在手,跟我走), 新架構(gòu)終于來了,趕緊跟!誰(shuí)下手快誰(shuí)引用高!

          那么,以視覺為例,到底什么是大模型呢?大是一個(gè)形容詞,比較出來的結(jié)果,如果拿ViT與也是基于谷歌的工作卷積網(wǎng)絡(luò)(CNN)架構(gòu)FixEfficientNetV2-L2(480M參數(shù),585G計(jì)算量)做對(duì)比,ViT-Large(307M參數(shù),190.7G計(jì)算量, 很多人其實(shí)沒有細(xì)想過,我有時(shí)候會(huì)覺得,ViT這種架構(gòu)只是在不想增加FLOPS的情況下,努力增加參數(shù)量,能吃下更多數(shù)據(jù)的一種方案 )似乎也沒有特別大 [6]。

          不過,由于架構(gòu)的不一致,ViT這種具有更高參數(shù)容量的模型在更大的數(shù)據(jù)集(谷歌JFT,也有一種說法這個(gè)數(shù)據(jù)集一定程度包含了ImageNet,所以結(jié)論存疑)上做預(yù)訓(xùn)練可以達(dá)到更好的性能。此外,之前在智源的一次活動(dòng)中跟山世光等老師們討論過,視覺跟語(yǔ)言的模型不一樣,視覺模型的輸入維度很高,比如經(jīng)典的ResNet系列,輸入數(shù)據(jù)的維度是一張有2242243個(gè)像素的圖像,所以大不大其實(shí)也要看計(jì)算量,比如上面提到的94B已經(jīng)非常恐怖了。

          結(jié)合最近的一些論文、公眾號(hào)、講座、內(nèi)部研討、訪談,我總試圖想定義一下,到底什么是大模型,可行的有兩個(gè)可以量化的角度:

          a) 100M參數(shù)以上,在多個(gè)任務(wù)(不同loss|不同dataset|不同task)上進(jìn)行預(yù)訓(xùn)練的模型就叫大模型 。正例很多,ViT和各種變種,也有我們自己鼓搗出來的底層視覺大模型IPT [5]。不過,這個(gè)結(jié)論很快被組里的一位機(jī)智的小伙伴推翻了,因?yàn)镋fficientNet或者某些CV backbone經(jīng)過放大之后可以輕易超過100M參數(shù),并且在ImageNet上預(yù)訓(xùn)練之后可以在檢測(cè)、分割等任務(wù)上做出很好的表現(xiàn), 不是新東西

          b) 用到了Transformer的架構(gòu),支持預(yù)訓(xùn)練就叫大模型 。本來以為這個(gè)定義似乎清晰了一些,但是又想到大家開始在ViT架構(gòu)中猛插卷積(convolution)并且取得了更好的效果, 所以大模型似乎也不應(yīng)該跟Transformer綁定

          所以,這一環(huán)節(jié)的 結(jié)論,仍然是無(wú)法清晰地給定,什么是大模型 。或許,在技術(shù)上就不存在這樣一個(gè)新概念,只要 隨著數(shù)據(jù)不斷增長(zhǎng),算力持續(xù)提升,優(yōu)化手段越來越好,模型總是會(huì)越來越大的

          2. 大模型到解決了什么大問題?

          既然有大模型,我想,其他的AI模型都應(yīng)該是“小模型”了吧,那我們需要思考的就是大模型在關(guān)鍵的問題上真的全面超過小模型了沒有?感覺前面啰嗦了太多,當(dāng)然問題定義也比較重要,我們沿用1.a的定義去思考,大模型與小模型的對(duì)比。

          a) 在ImageNet這種大規(guī)模數(shù)據(jù)集上,或者更大的數(shù)據(jù)集,目前的證據(jù)確實(shí)是越大的模型(尤其引入了Transformer和切patch之后),精度越來越高。不過限定的一些實(shí)際用到的數(shù)據(jù)集往往也會(huì)發(fā)現(xiàn),小容量(<100M)的網(wǎng)絡(luò)也能摸到數(shù)據(jù)集的極限, 小模型還有速度、內(nèi)存、功耗、訓(xùn)練成本等優(yōu)勢(shì)所以,越復(fù)雜的任務(wù),參數(shù)越多,模型越大,作用越大,也有點(diǎn)勝讀一席話的意思了。

          b) 多個(gè)任務(wù)一起預(yù)訓(xùn)練,這么多年機(jī)器學(xué)習(xí)也都是一直這么干的,那我們剝離模型本身,就看 多任務(wù)預(yù)訓(xùn)練一定會(huì)讓模型在后續(xù)任務(wù)中fine-tuning之后效果更好嗎?答案是否定的 ,我們之前的工作中就發(fā)現(xiàn)了,在底層視覺的任務(wù)里,有些任務(wù)是打架的,聯(lián)合訓(xùn)練會(huì)導(dǎo)致一定程度的精度惡化。甚至如果優(yōu)化器做得好,直接train from scratch可以比pre-train + fine-tuning效果更好,確實(shí)也有點(diǎn)離譜。相似的任務(wù)一起預(yù)訓(xùn)練還是會(huì)有一定幫助的,也可以理解成為某種程度的數(shù)據(jù)擴(kuò)充,見得多總是要識(shí)得廣。

          c)大模型經(jīng)過調(diào)整之后,經(jīng)過一系列模型優(yōu)化手段之后,是不是能一定超過小模型?答案也是否定的 ,很多任務(wù)是具有很專業(yè)化的領(lǐng)域知識(shí)支撐才可以做好的,而不簡(jiǎn)單是一個(gè)大模型就包打天下。如果不理解任務(wù)不理解數(shù)據(jù)特性,大模型甚至達(dá)不到領(lǐng)域內(nèi)SOTA模型的精度。此外,很多任務(wù)的邏輯不一樣,模型架構(gòu)也是完全不一樣的,強(qiáng)扭的瓜不甜,我感覺為了融合而融合達(dá)不到很好的效果。用大模型對(duì)小模型蒸餾一定會(huì)產(chǎn)生更好的結(jié)果嗎?不好意思,因?yàn)榧軜?gòu)差異太大,這還是個(gè)需要探索的問題。

          個(gè)人感覺有價(jià)值的方向還是2.a和2.b中提到的, 難的任務(wù),相似的功能,相同的數(shù)據(jù),大模型可以吃得下,就有其優(yōu)勢(shì)。題外話是算力和優(yōu)化器能否支撐這么大的模型,還有硬件之間的連接和通信。

          3. 大模型中最大的挑戰(zhàn)是什么?

          大模型從熱度伊始就在學(xué)術(shù)界有兩種聲音,一種是大模型功能多性能強(qiáng),一種是大模型就是一陣風(fēng)。所謂韭菜的共識(shí)也是共識(shí),我們?cè)傧胂氪竽P兔媾R的挑戰(zhàn)。上面也說了,NLP我確實(shí)不怎么懂,主要的感官還是來自計(jì)算機(jī)視覺。

          a)模型規(guī)模繼續(xù)加大,參數(shù)量繼續(xù)增多,精度還能上漲嗎?目前來看在新的架構(gòu)出來之前,似乎CNN、Transformer、CNN+Transformer都已經(jīng)達(dá)到了一定程度的極限,一旦主流任務(wù)刷不動(dòng)了,大家又要開始去別的領(lǐng)域應(yīng)用了,例如AI4Science,我個(gè)人不覺得關(guān)鍵點(diǎn)在于大模型。不過這也是個(gè)好事,技術(shù)階段性成熟,積極變現(xiàn)轉(zhuǎn)化成新的力量。另外一個(gè)角度是一位同學(xué)跟我說的MoE(Mixture of Experts),通過稀疏化把多個(gè)模型集成在一起,輕松提升模型參數(shù)量。嗨!學(xué)術(shù)界的營(yíng)銷能力其實(shí)一直都不比工業(yè)界差,MoE也不是個(gè)新概念,有幾十年歷史。類似的一些優(yōu)秀工作也有Slimmable Network和Dynamic Network等,未來到底AI架構(gòu)何去何從,共勉吧。

          b)現(xiàn)在大模型是一個(gè)工程問題,還是一個(gè)技術(shù)問題?大膽的說一下,更多我們見到的大模型都是工程問題,背后有杰出的工程師做數(shù)據(jù)收集、數(shù)據(jù)清洗、模型結(jié)構(gòu)設(shè)計(jì)、模型調(diào)優(yōu)、多機(jī)多卡優(yōu)化等等復(fù)雜繁瑣的工程性工作。產(chǎn)生的價(jià)值見仁見智。兩年前,一位業(yè)界大佬在重要的講座中講到,大模型的工作里面都是工程、工程、還是工程問題 。在合適的任務(wù)上還是有其優(yōu)勢(shì)的,但是我們也要思考,現(xiàn)有的優(yōu)化器能否支撐大模型的參數(shù)量和任務(wù)復(fù)雜度。單說ImageNet這個(gè)經(jīng)典任務(wù),非Transformer架構(gòu),不用預(yù)訓(xùn)練,通過系統(tǒng)性地適配優(yōu)化器、訓(xùn)練參數(shù)、數(shù)據(jù)擴(kuò)充、甚至隨機(jī)數(shù)種子等等,也可以超過ViT。當(dāng)然,這也是一些煉丹工作,但是煉丹煉著煉著其實(shí)也能發(fā)現(xiàn)科學(xué),比如最近的一些Rep系列工作(重參數(shù)化),我覺得也是一種很不錯(cuò)的優(yōu)化器改進(jìn)的方法,也會(huì)鼓勵(lì)大家去使用。

          慣例還是要及時(shí)總結(jié): 寫完這些,越來越讓我覺得 大模型是一個(gè)被大家揣著明白裝糊涂的概念性詞匯 ,大家似乎也沒有定義清楚啥是大模型,無(wú)論是1.a還是1.b都有一定的可取之處,對(duì)AI架構(gòu)有一定年頭積累的專業(yè)人員也都知道“大模型”的優(yōu)劣。

          但是,大家似乎都沉浸在大模型欣欣向榮、歌舞升平的狀態(tài)中, 大多數(shù)工業(yè)界的場(chǎng)景中,大模型并不能直接發(fā)揮價(jià)值 。在不同的任務(wù)里還是要根據(jù)實(shí)際場(chǎng)景去談具體的模型和算法,不建議逢解決方案就提大模型,也不建議把大模型當(dāng)成一個(gè)主要的技術(shù)方案去忽悠不是特別懂這一塊技術(shù)的人,事實(shí)上在學(xué)術(shù)界的論文中也不會(huì)有人說我們用一個(gè)Big Model解決了所有問題。未來大模型應(yīng)該可以在2.c所提的方向上持續(xù)發(fā)力,但 肯定也會(huì)演變出來一系列千奇百怪或優(yōu)或劣的AI架構(gòu),大浪淘沙,去偽存真

          參考文獻(xiàn):

          1. GPT-3: Language Models are Few-Shot Learners
          2. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
          3. Scale Invariant Feature Transform
          4. Histogram of Oriented Gradients
          5. IPT:Pre-Trained Image Processing Transformer
          6. https://paperswithcode.com/sota/image-classification-on-imagenet

          瀏覽 68
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩视频手机在线观看 | 午夜亚洲精品无码不卡在线 | 特级茜茜人体444WWwtini | 日本一区精品 | 精品视频一区二区 |