<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          GPT-3+DALL-E 2 = 海量帶標(biāo)簽數(shù)據(jù)自動(dòng)生成 ?

          共 3305字,需瀏覽 7分鐘

           ·

          2022-05-19 12:51

          文章來源:新智元

          https://mp.weixin.qq.com/s/1A3dzES_TSIQqUG1fr32_g


          導(dǎo)讀
          沒有優(yōu)質(zhì)數(shù)據(jù),再強(qiáng)大的模型也無法發(fā)揮作用。最近有研究人員發(fā)現(xiàn),GPT-3+DALL-E 2模型如果結(jié)合在一起,就能自動(dòng)生成海量的帶標(biāo)簽數(shù)據(jù),可以用來擴(kuò)增和平衡數(shù)據(jù)集、抵御對抗攻擊等。

          巧婦難為無米之炊,沒有數(shù)據(jù)何以訓(xùn)模型?

          ?

          根據(jù)2022年Datagen對300個(gè)計(jì)算機(jī)視覺研發(fā)團(tuán)隊(duì)的調(diào)研結(jié)果,99%的CV團(tuán)隊(duì)因?yàn)橛?xùn)練數(shù)據(jù)不足而取消了該機(jī)器學(xué)習(xí)項(xiàng)目。

          ?

          與此同時(shí),收集數(shù)據(jù)帶來的模型訓(xùn)練延遲也無處不在,100%的團(tuán)隊(duì)報(bào)告說由于訓(xùn)練數(shù)據(jù)不足而導(dǎo)致過嚴(yán)重的項(xiàng)目延遲。

          ?

          ?

          研究還表明,訓(xùn)練數(shù)據(jù)相關(guān)的問題還不止是數(shù)據(jù)不足的問題,其他主要問題如標(biāo)注質(zhì)量不佳 (48%)、域覆蓋度不足 (47%) 等都困擾著CV模型研發(fā)團(tuán)隊(duì)。

          ?

          不過報(bào)告中指出,96%的CV團(tuán)隊(duì)都已經(jīng)開始采用合成圖像來補(bǔ)充數(shù)據(jù)集輔助模型訓(xùn)練。但合成數(shù)據(jù)的質(zhì)量、來源和比例在領(lǐng)域內(nèi)還存在較大差異,目前只有6%的團(tuán)隊(duì)專門使用合成數(shù)據(jù)進(jìn)行訓(xùn)練。

          ?

          與此同時(shí),OpenAI最近更新了多模態(tài)模型DALL-E 2,只要能給出一段文本描述,模型就能生成對應(yīng)的圖像。

          ?

          新模型采用了更先進(jìn)的深度學(xué)習(xí)技術(shù)、更大的算力提升了圖像的質(zhì)量和分辨率,并且相比一代也有了更多功能,例如編輯圖像或者基于給定圖像進(jìn)行二次創(chuàng)作。

          ?

          ?

          DALL-E 2一出,由于效果太好,獲得了大量的AI愛好者和研究人員在社交媒體上的稱贊。

          ?

          新模型除了根據(jù)文本來生成圖像以外,或許還能用來解決「計(jì)算機(jī)視覺領(lǐng)域的最大挑戰(zhàn)」——數(shù)據(jù)不足。

          ?

          ?

          報(bào)告認(rèn)為2022年合成數(shù)據(jù)的研究將取得突破性進(jìn)展,現(xiàn)在看來,DALL-E 2或許是開出的第一槍。

          ?

          CV的短板

          ?

          計(jì)算機(jī)視覺AI應(yīng)用領(lǐng)域十分廣泛,從檢測CT掃描中的良性腫瘤到實(shí)現(xiàn)自動(dòng)駕駛都需要CV算法,但這些應(yīng)用都有一個(gè)共同點(diǎn):需要大量的數(shù)據(jù)來訓(xùn)練。

          ?

          深度學(xué)習(xí)算法能取得遠(yuǎn)超其他模型性能的一個(gè)重要原因就是能吃下大容量的數(shù)據(jù)集,例如谷歌內(nèi)部用于訓(xùn)練圖像分類模型的數(shù)據(jù)集JFT就包含了3億張圖像和3.75億個(gè)標(biāo)簽。

          ?

          ?

          想象一下圖像分類模型的工作流程:神經(jīng)網(wǎng)絡(luò)將像素顏色轉(zhuǎn)化為代表其特征的一組數(shù)字,也稱為輸入的embedding。然后這些特征被映射到輸出層,其中包含模型要檢測的每一類圖像的概率值。在訓(xùn)練過程中,神經(jīng)網(wǎng)絡(luò)試圖學(xué)習(xí)能夠區(qū)分不同類別的最佳特征表示,例如,杜賓犬與貴賓犬的尖耳朵特征。

          ?

          理想情況下,機(jī)器學(xué)習(xí)模型可以學(xué)會在不同的照明條件、角度和背景環(huán)境下進(jìn)行泛化。但更多時(shí)候,深度學(xué)習(xí)模型會因?yàn)閿?shù)據(jù)量多樣性不足而過擬合,導(dǎo)致學(xué)習(xí)到錯(cuò)誤的表征。

          ?

          雖說「大力出奇跡」,加大數(shù)據(jù)量就能解決這個(gè)問題,但你需要收集所有需要的樣本。然后,你還需要確保每個(gè)類別有足夠的標(biāo)簽數(shù)據(jù),以防止模型對某些類別過擬合或欠擬合。最后,你需要給每張圖片貼上標(biāo)簽,說明哪張圖片對應(yīng)于哪個(gè)類別。

          ?

          在一個(gè)更好的模型問世前,這三步通常是實(shí)現(xiàn)sota的有效措施。

          ?

          但即使如此,計(jì)算機(jī)視覺模型也很容易被欺騙,尤其是遭受到對抗性攻擊(adversarial attacks)。解決的方法也很簡單:繼續(xù)加入更多有標(biāo)簽的、精心挑選的、多樣化的數(shù)據(jù)。

          ?

          ?

          DALL-E 2救世


          拿一個(gè)「狗品種分類器」舉例,有一個(gè)非常難找的圖片類別——達(dá)爾馬提亞犬(Dalmatian),也叫斑點(diǎn)狗、大麥町犬。

          ?

          ?

          如果用DALL-E 2該怎么解決斑點(diǎn)狗數(shù)據(jù)量不足的問題?

          ?

          1、正常使用(Vanilla use),將類的名稱作為文本提示的一部分反饋給DALL-E,并將生成的圖像添加到該類的標(biāo)簽中。例如輸入文本為「一只大麥町犬在公園里追趕一只鳥」。

          ?

          2、更改文本,在保持同一類別的情況下,搭配不同的環(huán)境和風(fēng)格來提高模型的泛化能力。例如文本修改為「一只大麥町的狗在海灘上追逐一只鳥」。切換圖像風(fēng)格的輸入文本可以是「卡通風(fēng)格,一只大麥町狗在公園里追趕一只鳥」。

          ?

          3、對抗性樣本。使用類的名稱來創(chuàng)建一個(gè)對抗性例子的數(shù)據(jù)集,例如「一輛類似大麥町的汽車」。

          ?

          4、DALL-E 2的新功能之一就是可以根據(jù)輸入圖像生成多種變化后的圖像,擴(kuò)增數(shù)據(jù)集的時(shí)候可以將每張圖像的突出點(diǎn)融合起來。也就是可以編寫一個(gè)腳本,將數(shù)據(jù)集中的所有現(xiàn)成圖像都作為DALL-E 2的輸入,為每個(gè)類別生成幾十種變化。

          ?

          5、圖像修復(fù)。DALL-E 2還可以對現(xiàn)有圖像進(jìn)行逼真的編輯,在考慮到陰影、反射和紋理的情況下添加和刪除元素。這也可以成為一種強(qiáng)大的數(shù)據(jù)增強(qiáng)技術(shù)來進(jìn)一步訓(xùn)練和增強(qiáng)基礎(chǔ)模型。

          ?

          除了生成更多的訓(xùn)練數(shù)據(jù),使用DALL-E 2的一個(gè)好處是,新生成的圖像已經(jīng)被貼上了標(biāo)簽,無需再次標(biāo)注一遍圖像。

          ?

          雖然生成對抗網(wǎng)絡(luò)等圖像生成技術(shù)已經(jīng)存在了相當(dāng)長的時(shí)間,但DALL-E 2的區(qū)別在于其1024×1024的高分辨率,將文本轉(zhuǎn)化為圖像的多模態(tài)性質(zhì)和其強(qiáng)大的語義一致性,能夠正確理解特定圖像中不同物體之間的關(guān)系。

          ?

          GPT-3助陣


          DALL-E的輸入是期望生成圖像的文本提示。

          ?

          但從文本模板里生成的話就太慢了,多樣性也不強(qiáng),我們可以利用文本生成模型GPT-3,為每個(gè)類別生成幾十個(gè)文本提示,然后用DALL-E生成幾十個(gè)圖像并標(biāo)記為對應(yīng)的類別。

          ?

          根據(jù)模板A [class_name] [gpt3_generated_actions],可以給GPT-3提供一個(gè)類名,讓其補(bǔ)全為具體的場景提示,就可以得到輸入文本為「一只躺在地上的大麥町犬」。

          ?

          ?

          為了進(jìn)一步提高對新增加的樣本的信心,人們可以設(shè)置一個(gè)確定性閾值,只選擇在指定排名前的生成文本。

          ?

          合成圖像并非銀彈


          如果DALL-E不加以審查,其生成的結(jié)果可能是不準(zhǔn)確的、或局限在某個(gè)領(lǐng)域內(nèi)的圖像,排除特定的種族群體或忽略可能導(dǎo)致偏見的特征。比如用man生成的人臉圖像,可能最后訓(xùn)出來的模型只能針對男性的人臉圖像進(jìn)行檢測。

          ?

          此外,在病理學(xué)或自動(dòng)駕駛汽車等特定領(lǐng)域,使用由DALL-E生成的圖像可能會有很大的風(fēng)險(xiǎn),因?yàn)樵谶@些領(lǐng)域,假陰性的代價(jià)是非常大的。

          ?

          DALL-E 2也還存在一些局限性,比如對物體的構(gòu)成性(compositionality)認(rèn)知不是特別好。如果僅依靠提示,就假設(shè)生成圖像中物體的位置是正確的,可能存在一定風(fēng)險(xiǎn)。

          ?

          ?

          緩解這種情況的方法包括人工采樣,即由人類專家隨機(jī)選擇樣本來檢查其有效性。為了優(yōu)化過程,也可以采用主動(dòng)學(xué)習(xí)的方法,對于一個(gè)給定的標(biāo)題,得到最低CLIP排名的圖像會被優(yōu)先審查。

          ?

          結(jié)語

          ?

          DALL-E 2是OpenAI的又一激動(dòng)人心的研究成果,它為更廣泛的應(yīng)用場景打開了大門,能夠生成海量數(shù)據(jù)集來解決計(jì)算機(jī)視覺的最大瓶頸之一。

          ?

          OpenAI表示,它將在今年夏天的某個(gè)時(shí)候發(fā)布DALL-E,也可能是分階段發(fā)布,為感興趣的用戶進(jìn)行預(yù)選。

          ?

          對于那些等不及的人,或者沒有能力支付這項(xiàng)服務(wù)的人,可以使用開源的替代品,如DALL-E Mini。

          ?

          雖然許多基于DALL-E的應(yīng)用程序的商業(yè)案例將取決于OpenAI為其API用戶設(shè)定的定價(jià)和政策,但它們都肯定會使圖像生成向前邁進(jìn)一大步。

          參考資料:

          https://venturebeat.com/2022/04/16/how-dall-e-2-could-solve-major-computer-vision-challenges/



          猜您喜歡:

          ?戳我,查看GAN的系列專輯~!
          一頓午飯外賣,成為CV視覺前沿弄潮兒!
          CVPR 2022 | 25+方向、最新50篇GAN論文
          ?ICCV 2021 | 35個(gè)主題GAN論文匯總
          超110篇!CVPR 2021最全GAN論文梳理
          超100篇!CVPR 2020最全GAN論文梳理


          拆解組新的GAN:解耦表征MixNMatch

          StarGAN第2版:多域多樣性圖像生成


          附下載 |?《可解釋的機(jī)器學(xué)習(xí)》中文版

          附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

          附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享


          《基于深度學(xué)習(xí)的表面缺陷檢測方法綜述》

          《零樣本圖像分類綜述: 十年進(jìn)展》

          《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》


          瀏覽 66
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产黄色一级电影 | 青娱乐在线免费 | 中文字幕第九页 | 影音先锋东莞AV | 亚洲成人AV在线 |