谷歌正式推出開(kāi)源大語(yǔ)言模型 Gemma,聲稱(chēng)超越 Meta Llama-2 競(jìng)品,...
作者:張俊林@知乎
關(guān)于Google開(kāi)源Gemma的一些零散的看法:
-Google Gemma代表谷歌被迫再次切入開(kāi)源領(lǐng)域,谷歌重返開(kāi)源賽場(chǎng),這是個(gè)大好事,但很明顯是被迫的。去年Google貌似已經(jīng)下定決心要閉源了,這可能源于低估了追趕OpenAI的技術(shù)難度,Bard推出令人大失所望使得谷歌不得不面對(duì)現(xiàn)實(shí),去年下半年進(jìn)入很尷尬的局面,閉源要追上OpenAI估計(jì)還要不少時(shí)間,而開(kāi)源方面Meta已下決心,還有Mistral這種新秀冒頭,逐漸主導(dǎo)了開(kāi)源市場(chǎng),這導(dǎo)致無(wú)論開(kāi)源閉源,谷歌都處于被兩面夾擊,進(jìn)退為難的境地。很明顯,Gemma代表谷歌大模型策略的轉(zhuǎn)變:兼顧開(kāi)源和閉源,開(kāi)源主打性能最強(qiáng)大的小規(guī)模模型,希望腳踢M(jìn)eta和Mistral;閉源主打規(guī)模大的效果最好的大模型,希望盡快追上OpenAI。目前大模型開(kāi)源形成三巨頭局面:Google Gemma、Meta LLama和歐洲的Mistral。
-目前大模型巨頭混戰(zhàn),形成了打壓鏈局面:OpenAI處于鏈條頂端,主要打壓對(duì)手是有潛力追上它的競(jìng)爭(zhēng)對(duì)手:谷歌和Anthropic,Mistral估計(jì)也正在被列入OpenAI的打壓列表中。這個(gè)打壓鏈條是這樣的:OpenAI→Google &Anthropic & Mistral→ Meta→其它大模型公司
Gemini 1.5其實(shí)是很強(qiáng)的,但在宣發(fā)策略上被OpenAI臨時(shí)拿Sora出來(lái)打啞火,沒(méi)有獲取應(yīng)該獲取到的足夠公眾關(guān)注,這就是典型的例子。前年年底發(fā)布的ChatGPT也是臨時(shí)趕工出來(lái)打壓Anthropic 的Claude模型的。這說(shuō)明一個(gè)問(wèn)題,OpenAI應(yīng)該儲(chǔ)備了一個(gè)用于打壓對(duì)手的技術(shù)儲(chǔ)備庫(kù),即使做得差不多了也隱而不發(fā),專(zhuān)等競(jìng)爭(zhēng)對(duì)手發(fā)布新產(chǎn)品的時(shí)候扔出來(lái),以形成宣傳優(yōu)勢(shì),如果OpenAI判斷對(duì)手的產(chǎn)品對(duì)自己的威脅越強(qiáng),就越可能把技術(shù)儲(chǔ)備庫(kù)里最強(qiáng)的扔出來(lái),比如ChatGPT和Sora,都是大殺器級(jí)別的,這也側(cè)面說(shuō)明OpenAI比較認(rèn)可Gemini 1.5和Claude的實(shí)力。而這種打壓策略很明顯還會(huì)繼續(xù)下去,以后我們?nèi)匀粫?huì)經(jīng)常看到類(lèi)似的情景,不巧的是,可能其它公司比如谷歌也學(xué)會(huì)這招了,估計(jì)也很快會(huì)傳導(dǎo)到國(guó)內(nèi)大模型公司范圍里。所以2024年會(huì)比較熱鬧,估計(jì)會(huì)有不少大戲上演。
-谷歌開(kāi)源Gemma不是針對(duì)OpenAI 宣發(fā)策略的反擊,Gemimi 系列的定位才是對(duì)標(biāo)GPT 4的。Gemma是針對(duì)開(kāi)源屆的,也就是針對(duì)Meta和Mistral的,這側(cè)面說(shuō)明Meta的LLama 3很快就要發(fā)布了,或者M(jìn)istral最近會(huì)有新品發(fā)布。
-關(guān)于Gemma的技術(shù)報(bào)告我覺(jué)得反倒沒(méi)什么特別值得說(shuō)的,如果要說(shuō)的話,只是通過(guò)Gemma再次證明了,只要數(shù)據(jù)量足夠多(Gemma 7B用到了6萬(wàn)億Token,效果和Mistral 7B 差不多,這也側(cè)面說(shuō)明了之前大家猜測(cè)Mistral 7B使用了大約7萬(wàn)億Token的大概率屬實(shí)),數(shù)據(jù)質(zhì)量足夠好(增加數(shù)學(xué)、代碼、科學(xué)論文等增強(qiáng)模型推理能力的數(shù)據(jù)),小模型的能力仍然能夠得到持續(xù)提升。
-關(guān)于大模型的開(kāi)源和閉源,我的判斷是如果是做當(dāng)前最強(qiáng)大的大模型,目前看還是要拼模型規(guī)模,這方面開(kāi)源模型相對(duì)閉源模型出于明顯劣勢(shì),短期內(nèi)難以追上GPT 4或GPT 4v,且這種類(lèi)型的大模型,即使是開(kāi)源也只能仰仗谷歌或者M(jìn)eta這種財(cái)大氣粗的大公司,主要是太消耗資源了,一般人玩不起,國(guó)內(nèi)這方面阿里千問(wèn)系列做得比較好,肯把比較大規(guī)模的模型開(kāi)源出來(lái),當(dāng)然肯定也不是他們最好的,不過(guò)這也很難得了。
-開(kāi)源模型應(yīng)該把主要精力放在開(kāi)發(fā)并開(kāi)源出性能足夠強(qiáng)的小規(guī)模大模型上(SLLM,Small Large Language Model),我覺(jué)得谷歌的開(kāi)源策略是非常合理的。目前看,作出強(qiáng)大的SLLM并沒(méi)有太多技巧,主要是把模型壓小的基礎(chǔ)上,大量增加訓(xùn)練數(shù)據(jù)的規(guī)模,數(shù)據(jù)質(zhì)量方面則是增加數(shù)學(xué)、代碼等數(shù)據(jù)來(lái)提升模型的推理能力,比如Gemma 7B用6萬(wàn)億Token數(shù)據(jù),Mistral 7B的7萬(wàn)億Token數(shù)據(jù),兩者也應(yīng)該大量采用了增強(qiáng)推理能力的訓(xùn)練數(shù)據(jù),只要持續(xù)增加訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量,模型效果會(huì)持續(xù)提升,所以SLLM模型的性能天花板目前也沒(méi)有到頭,只要有更多更高質(zhì)量的數(shù)據(jù),就能持續(xù)提升SLLM模型的效果,仍然有很大空間。而且SLLM相對(duì)GPT 4這種追求最強(qiáng)效果的模型比,訓(xùn)練成本低得多,而因?yàn)槟P鸵?guī)模小,推理成本也極低,只要持續(xù)優(yōu)化效果,從應(yīng)用層面,大家肯定會(huì)比較積極地部署SLLM用來(lái)實(shí)戰(zhàn)的,市場(chǎng)潛力巨大。也就是說(shuō),SLLM應(yīng)該是沒(méi)有太多資源,但是還是有一些資源的大模型公司必爭(zhēng)之地。我個(gè)人最近幾個(gè)月在SLLM這方面關(guān)注度也比較高,我相信2024年開(kāi)源SLLM會(huì)有黑馬出現(xiàn)。
——The End——
分享
收藏
點(diǎn)贊
在看
