噓,差點被警察帶走
大家好,我是 Jack。
時間又來到了假期的最后一晚,今天繼續(xù)跟大家閑聊兩句,再講個新技術(shù)。
我最近一直在調(diào)整生活習(xí)慣,吃了一周的蔬菜,外加多多鍛煉,開啟了養(yǎng)生模式。
按照往常的假期,我基本是宅在家里,要么工作,要么學(xué)習(xí),要么創(chuàng)作,很少公園散步。
昨天去了趟奧森,放松遛達了一番,風(fēng)景確實不錯。

大家在忙于學(xué)習(xí)和工作之余,一定注意鍛煉身體和健康飲食,別像我,生了病再調(diào)整。
難受啊,哈哈。
閑聊結(jié)束,進入我們今天的正題。
CogView2
我發(fā)現(xiàn),最近新出的很多論文,都是多模態(tài)方向的研究。
比如根據(jù)文本生成圖像的Imagen,再比如根據(jù)文本生成視頻的CogVideo,我在之前的文章中講過:
CogVideo還一直沒有開源,不過它依賴的文本生成圖像的CogView2算法這兩天開源了。

本來我想自己訓(xùn)練個模型試試,試一試一些奇思妙想。
但看到說明文檔,我就放棄了:
Hardware: Linux servers with Nvidia A100s are recommended, but it is also okay to run the pretrained models with smaller --max-inference-batch-size or training smaller models on less powerful GPUs.
官方推薦使用A100顯卡訓(xùn)練,這東西什么級別呢?也別對比GFLOPS了,看著抽象,直接看價錢吧:

沒有相應(yīng)的設(shè)備,就別想訓(xùn)練了,不過跑一跑pretrained models倒是可以。
項目地址:
https://github.com/thudm/cogview2
想要運行,需要部署下開發(fā)環(huán)境,不過官方也提供了網(wǎng)頁版,直接體驗。
體驗地址(需要工具):
https://replicate.com/thudm/cogview2
支持英文輸入,比如:
A tiger wearing VR glasses

中文輸入,比如:
穿黑絲的帥哥

打住,不能再亂試了,怕被 FBI 請去喝茶。

算法的理解能力還是有點東西的,看下更多的效果吧:

CogView2 算法基于Transformers,思想是將文本和圖像 tokens 進行大規(guī)模生成聯(lián)合預(yù)訓(xùn)練。
同時引入Attention Mask,只對 mask 區(qū)域計算 loss,使生成效果更穩(wěn)定。

CogView2 提出一種基于層次 Transformer 和局部平行自回歸生成的解決方案,采用了一個簡單而靈活的自監(jiān)督任務(wù),跨模態(tài)通用語言模型(CogLM),來預(yù)訓(xùn)練一個 6B 參數(shù)的 Transformer。
對原理感興趣的小伙伴,可以看看論文:
https://arxiv.org/pdf/2204.14217.pdf
好了,今天就聊這么多。
最近時間不多,沒有寫一些硬核的技術(shù)文,后面慢慢給大家補了~
我是 Jack,我們下期見~

