帶標(biāo)簽圖像數(shù)據(jù)無限生成!GPT-3+DALL-E 2聯(lián)合,或徹底解決CV界的「糧食危機(jī)」

??新智元報道??

??新智元報道??
編輯:LRS
【新智元導(dǎo)讀】沒有優(yōu)質(zhì)數(shù)據(jù),再強(qiáng)大的模型也無法發(fā)揮作用。最近有研究人員發(fā)現(xiàn),GPT-3+DALL-E 2模型如果結(jié)合在一起,就能自動生成海量的帶標(biāo)簽數(shù)據(jù),可以用來擴(kuò)增和平衡數(shù)據(jù)集、抵御對抗攻擊等。
巧婦難為無米之炊,沒有數(shù)據(jù)何以訓(xùn)模型?
?
根據(jù)2022年Datagen對300個計算機(jī)視覺研發(fā)團(tuán)隊的調(diào)研結(jié)果,99%的CV團(tuán)隊因?yàn)橛?xùn)練數(shù)據(jù)不足而取消了該機(jī)器學(xué)習(xí)項目。
?
與此同時,收集數(shù)據(jù)帶來的模型訓(xùn)練延遲也無處不在,100%的團(tuán)隊報告說由于訓(xùn)練數(shù)據(jù)不足而導(dǎo)致過嚴(yán)重的項目延遲。
?

?
研究還表明,訓(xùn)練數(shù)據(jù)相關(guān)的問題還不止是數(shù)據(jù)不足的問題,其他主要問題如標(biāo)注質(zhì)量不佳 (48%)、域覆蓋度不足 (47%) 等都困擾著CV模型研發(fā)團(tuán)隊。
?
不過報告中指出,96%的CV團(tuán)隊都已經(jīng)開始采用合成圖像來補(bǔ)充數(shù)據(jù)集輔助模型訓(xùn)練。但合成數(shù)據(jù)的質(zhì)量、來源和比例在領(lǐng)域內(nèi)還存在較大差異,目前只有6%的團(tuán)隊專門使用合成數(shù)據(jù)進(jìn)行訓(xùn)練。
?
與此同時,OpenAI最近更新了多模態(tài)模型DALL-E 2,只要能給出一段文本描述,模型就能生成對應(yīng)的圖像。
?
新模型采用了更先進(jìn)的深度學(xué)習(xí)技術(shù)、更大的算力提升了圖像的質(zhì)量和分辨率,并且相比一代也有了更多功能,例如編輯圖像或者基于給定圖像進(jìn)行二次創(chuàng)作。
?

?
DALL-E 2一出,由于效果太好,獲得了大量的AI愛好者和研究人員在社交媒體上的稱贊。
?
新模型除了根據(jù)文本來生成圖像以外,或許還能用來解決「計算機(jī)視覺領(lǐng)域的最大挑戰(zhàn)」——數(shù)據(jù)不足。
?

?
報告認(rèn)為2022年合成數(shù)據(jù)的研究將取得突破性進(jìn)展,現(xiàn)在看來,DALL-E 2或許是開出的第一槍。
?
CV的短板
CV的短板
?
計算機(jī)視覺AI應(yīng)用領(lǐng)域十分廣泛,從檢測CT掃描中的良性腫瘤到實(shí)現(xiàn)自動駕駛都需要CV算法,但這些應(yīng)用都有一個共同點(diǎn):需要大量的數(shù)據(jù)來訓(xùn)練。
?
深度學(xué)習(xí)算法能取得遠(yuǎn)超其他模型性能的一個重要原因就是能吃下大容量的數(shù)據(jù)集,例如谷歌內(nèi)部用于訓(xùn)練圖像分類模型的數(shù)據(jù)集JFT就包含了3億張圖像和3.75億個標(biāo)簽。
?

?
想象一下圖像分類模型的工作流程:神經(jīng)網(wǎng)絡(luò)將像素顏色轉(zhuǎn)化為代表其特征的一組數(shù)字,也稱為輸入的embedding。然后這些特征被映射到輸出層,其中包含模型要檢測的每一類圖像的概率值。在訓(xùn)練過程中,神經(jīng)網(wǎng)絡(luò)試圖學(xué)習(xí)能夠區(qū)分不同類別的最佳特征表示,例如,杜賓犬與貴賓犬的尖耳朵特征。
?
理想情況下,機(jī)器學(xué)習(xí)模型可以學(xué)會在不同的照明條件、角度和背景環(huán)境下進(jìn)行泛化。但更多時候,深度學(xué)習(xí)模型會因?yàn)閿?shù)據(jù)量多樣性不足而過擬合,導(dǎo)致學(xué)習(xí)到錯誤的表征。
?
雖說「大力出奇跡」,加大數(shù)據(jù)量就能解決這個問題,但你需要收集所有需要的樣本。然后,你還需要確保每個類別有足夠的標(biāo)簽數(shù)據(jù),以防止模型對某些類別過擬合或欠擬合。最后,你需要給每張圖片貼上標(biāo)簽,說明哪張圖片對應(yīng)于哪個類別。
?
在一個更好的模型問世前,這三步通常是實(shí)現(xiàn)sota的有效措施。
?
但即使如此,計算機(jī)視覺模型也很容易被欺騙,尤其是遭受到對抗性攻擊(adversarial attacks)。解決的方法也很簡單:繼續(xù)加入更多有標(biāo)簽的、精心挑選的、多樣化的數(shù)據(jù)。
?

?
DALL-E 2救世
DALL-E 2救世
拿一個「狗品種分類器」舉例,有一個非常難找的圖片類別——達(dá)爾馬提亞犬(Dalmatian),也叫斑點(diǎn)狗、大麥町犬。
?

?
如果用DALL-E 2該怎么解決斑點(diǎn)狗數(shù)據(jù)量不足的問題?
?
1、正常使用(Vanilla use),將類的名稱作為文本提示的一部分反饋給DALL-E,并將生成的圖像添加到該類的標(biāo)簽中。例如輸入文本為「一只大麥町犬在公園里追趕一只鳥」。
?
2、更改文本,在保持同一類別的情況下,搭配不同的環(huán)境和風(fēng)格來提高模型的泛化能力。例如文本修改為「一只大麥町的狗在海灘上追逐一只鳥」。切換圖像風(fēng)格的輸入文本可以是「卡通風(fēng)格,一只大麥町狗在公園里追趕一只鳥」。
?
3、對抗性樣本。使用類的名稱來創(chuàng)建一個對抗性例子的數(shù)據(jù)集,例如「一輛類似大麥町的汽車」。
?
4、DALL-E 2的新功能之一就是可以根據(jù)輸入圖像生成多種變化后的圖像,擴(kuò)增數(shù)據(jù)集的時候可以將每張圖像的突出點(diǎn)融合起來。也就是可以編寫一個腳本,將數(shù)據(jù)集中的所有現(xiàn)成圖像都作為DALL-E 2的輸入,為每個類別生成幾十種變化。
?
5、圖像修復(fù)。DALL-E 2還可以對現(xiàn)有圖像進(jìn)行逼真的編輯,在考慮到陰影、反射和紋理的情況下添加和刪除元素。這也可以成為一種強(qiáng)大的數(shù)據(jù)增強(qiáng)技術(shù)來進(jìn)一步訓(xùn)練和增強(qiáng)基礎(chǔ)模型。
?
除了生成更多的訓(xùn)練數(shù)據(jù),使用DALL-E 2的一個好處是,新生成的圖像已經(jīng)被貼上了標(biāo)簽,無需再次標(biāo)注一遍圖像。
?
雖然生成對抗網(wǎng)絡(luò)等圖像生成技術(shù)已經(jīng)存在了相當(dāng)長的時間,但DALL-E 2的區(qū)別在于其1024×1024的高分辨率,將文本轉(zhuǎn)化為圖像的多模態(tài)性質(zhì)和其強(qiáng)大的語義一致性,能夠正確理解特定圖像中不同物體之間的關(guān)系。
?
GPT-3助陣
GPT-3助陣
DALL-E的輸入是期望生成圖像的文本提示。
?
但從文本模板里生成的話就太慢了,多樣性也不強(qiáng),我們可以利用文本生成模型GPT-3,為每個類別生成幾十個文本提示,然后用DALL-E生成幾十個圖像并標(biāo)記為對應(yīng)的類別。
?
根據(jù)模板A [class_name] [gpt3_generated_actions],可以給GPT-3提供一個類名,讓其補(bǔ)全為具體的場景提示,就可以得到輸入文本為「一只躺在地上的大麥町犬」。
?

?
為了進(jìn)一步提高對新增加的樣本的信心,人們可以設(shè)置一個確定性閾值,只選擇在指定排名前的生成文本。
?
合成圖像并非銀彈
合成圖像并非銀彈
如果DALL-E不加以審查,其生成的結(jié)果可能是不準(zhǔn)確的、或局限在某個領(lǐng)域內(nèi)的圖像,排除特定的種族群體或忽略可能導(dǎo)致偏見的特征。比如用man生成的人臉圖像,可能最后訓(xùn)出來的模型只能針對男性的人臉圖像進(jìn)行檢測。
?
此外,在病理學(xué)或自動駕駛汽車等特定領(lǐng)域,使用由DALL-E生成的圖像可能會有很大的風(fēng)險,因?yàn)樵谶@些領(lǐng)域,假陰性的代價是非常大的。
?
DALL-E 2也還存在一些局限性,比如對物體的構(gòu)成性(compositionality)認(rèn)知不是特別好。如果僅依靠提示,就假設(shè)生成圖像中物體的位置是正確的,可能存在一定風(fēng)險。
?

?
緩解這種情況的方法包括人工采樣,即由人類專家隨機(jī)選擇樣本來檢查其有效性。為了優(yōu)化過程,也可以采用主動學(xué)習(xí)的方法,對于一個給定的標(biāo)題,得到最低CLIP排名的圖像會被優(yōu)先審查。
?
結(jié)語
?
DALL-E 2是OpenAI的又一激動人心的研究成果,它為更廣泛的應(yīng)用場景打開了大門,能夠生成海量數(shù)據(jù)集來解決計算機(jī)視覺的最大瓶頸之一。
?
OpenAI表示,它將在今年夏天的某個時候發(fā)布DALL-E,也可能是分階段發(fā)布,為感興趣的用戶進(jìn)行預(yù)選。
?
對于那些等不及的人,或者沒有能力支付這項服務(wù)的人,可以使用開源的替代品,如DALL-E Mini。
?
雖然許多基于DALL-E的應(yīng)用程序的商業(yè)案例將取決于OpenAI為其API用戶設(shè)定的定價和政策,但它們都肯定會使圖像生成向前邁進(jìn)一大步。
參考資料:
https://venturebeat.com/2022/04/16/how-dall-e-2-could-solve-major-computer-vision-challenges/

