<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CVPR2024-擴(kuò)散模型可解釋性新探索,圖像生成一致性創(chuàng)新高!AI視頻生成新機(jī)遇?

          共 6200字,需瀏覽 13分鐘

           ·

          2024-04-18 18:40

          CVPR2024-擴(kuò)散模型可解釋性新探索,圖像生成一致性創(chuàng)新高!AI視頻生成新機(jī)遇?

          1. 本文概要

          在本研究中,作者指出了對圖像生成擴(kuò)散模型的可重復(fù)性或一致性進(jìn)行定量評分的重要性。本文提出了一種基于成對平均CLIP(對比語言-圖像預(yù)訓(xùn)練)分?jǐn)?shù)的語義一致性評分方法。通過將此度量應(yīng)用于比較兩種領(lǐng)先的開源圖像生成擴(kuò)散模型——Stable Diffusion XL(SDXL)和PixArt-α,作者發(fā)現(xiàn)它們在語義一致性分?jǐn)?shù)上存在顯著的統(tǒng)計(jì)差異。所選模型的語義一致性分?jǐn)?shù)與綜合人工標(biāo)注結(jié)果的一致性高達(dá)94%。此外,本文還研究了SDXL及其經(jīng)過LoRA(低秩適應(yīng))微調(diào)的版本之間的一致性,結(jié)果顯示微調(diào)后的模型在語義一致性上有顯著提高。本文提出的語義一致性分?jǐn)?shù)為圖像生成的一致性提供了一個(gè)量化工具,這有助于評估特定任務(wù)的模型架構(gòu),并為選擇合適的模型提供了參考依據(jù)。

          論文標(biāo)題:Semantic Approach to Quantifying the Consistency of Diffusion Model Image Generation 論文鏈接:https://arxiv.org/abs/2404.08799 開源鏈接:https://github.com/brinnaebent/semantic-consistency-score

          圖1:將單個(gè)提示通過設(shè)置好的隨機(jī)種子重復(fù)n次傳遞到擴(kuò)散模型中。生成的圖像通過CLIP圖像編碼器傳遞,計(jì)算所有來自單個(gè)提示生成的圖像的成對余弦相似度。

          2. 方法引出

          隨著圖像生成擴(kuò)散模型的研究和應(yīng)用不斷增長,對這些模型輸出的可解釋性進(jìn)行更深入的研究變得尤為重要。在使用擴(kuò)散模型進(jìn)行圖像生成時(shí),輸出結(jié)果會(huì)顯示出一定的變異性。這種變異性是由擴(kuò)散過程中的隨機(jī)因素造成的,包括隨機(jī)初始化、概率分布采樣以及非線性激活函數(shù)等。盡管變異性是擴(kuò)散模型的一個(gè)內(nèi)在特點(diǎn),但由于模型架構(gòu)、訓(xùn)練過程(包括近似方法)以及用于指導(dǎo)生成過程的技術(shù)的不同,不同模型之間的變異性水平也會(huì)有所不同。在將這些模型應(yīng)用于實(shí)際問題時(shí),需要在輸出的多樣性和創(chuàng)造性與輸入提示的一致性和連貫性之間找到一個(gè)平衡點(diǎn)。對輸出的一致性或可重復(fù)性進(jìn)行量化,可以使對這種變異性進(jìn)行量化分析,并在決定使用哪種擴(kuò)散模型來完成特定任務(wù)時(shí),提供創(chuàng)造性與一致性之間的平衡參考。這種量化方法能夠評估模型的穩(wěn)定性和一致性,檢測意外的偏差,驗(yàn)證模型輸出的解釋,并提高人類對模型的理解。

          3. 方法詳析

          3.1. 語義一致性分?jǐn)?shù)

          作者認(rèn)識(shí)到,為了量化擴(kuò)散模型在圖像生成中的可重復(fù)性或一致性,一個(gè)量化分?jǐn)?shù)是必需的。在本研究中,本文介紹了一種基于語義的方法來計(jì)算這一分?jǐn)?shù),即通過使用成對平均CLIP分?jǐn)?shù)(公式1)來實(shí)現(xiàn)。

          公式1給出了語義一致性分?jǐn)?shù),它是一個(gè)成對平均CLIP分?jǐn)?shù),其中N是圖像的數(shù)量, 分別是圖像 的CLIP視覺嵌入。為了更好的可解釋性和理解,該分?jǐn)?shù)被限制在0到100之間,得分越接近100表示生成的圖像語義越一致。所有成對余弦相似度之和除以唯一圖像對的總數(shù)。使用均值是為了確保該指標(biāo)對異常值敏感。

          CLIP是一種跨模態(tài)檢索模型,它在包含400M個(gè)(圖像,標(biāo)題)對的大規(guī)模數(shù)據(jù)集上接受訓(xùn)練,這些數(shù)據(jù)來自于50萬個(gè)網(wǎng)絡(luò)搜索查詢。用于計(jì)算語義一致性分?jǐn)?shù)的CLIP模型采用的是ViT-B/32版本,該版本采用視覺變換器架構(gòu)。網(wǎng)絡(luò)輸出一個(gè)512維向量,用以表征圖像內(nèi)容。模型權(quán)重的訓(xùn)練目標(biāo)是最大化匹配的圖像/標(biāo)題對的標(biāo)度余弦相似度,同時(shí)最小化不匹配對的相似度,從而創(chuàng)建一個(gè)嵌入空間,該空間適用于從圖像字幕生成到圖像檢索和搜索等多種應(yīng)用場景。

          3.2. 圖像生成模型評估

          為了評估先進(jìn)圖像生成模型的一致性,本文選擇了SDXL和PixArt- 進(jìn)行比較,因?yàn)樗鼈兊臋?quán)重和架構(gòu)是開源的。相比之下,DALL-E 3、Imagen 2和Midjourney等封閉式圖像生成模型由于缺乏圖像生成過程的透明度,難以用于一致性研究。特別是,無法設(shè)置隨機(jī)種子,這對于研究模型的重復(fù)性至關(guān)重要。此外,DALL-E 3的API會(huì)重寫輸入的提示,這在實(shí)驗(yàn)中導(dǎo)致無法固定提示和隨機(jī)種子,從而無法消除混雜變量。

          圖1詳細(xì)說明了本文評估大型圖像生成模型的方法。首先,作者將一個(gè)提示傳遞給圖像生成擴(kuò)散模型(SDXL或PixArt- )。然后重復(fù)這一過程n次,以確保結(jié)果的可靠性。接下來,使用CLIP圖像編碼器為每個(gè)生成的圖像創(chuàng)建嵌入。最后,通過計(jì)算成對的余弦相似度并取平均值,以此得出針對特定提示和模型的最終一致性得分。

          3.2.1 數(shù)據(jù)集構(gòu)建:SDXL和PixArt-

          為了評估SDXL和PixArt- ,首先使用一個(gè)大型語言模型(Anthropic, claude-3-opus-20240229)編寫了100個(gè)獨(dú)特的提示,并將這些提示標(biāo)準(zhǔn)化應(yīng)用于兩個(gè)模型。此外,使用預(yù)定義的隨機(jī)種子來確保研究的可重復(fù)性,其中一個(gè)隨機(jī)種子對應(yīng)于一次重復(fù)。所有其他參數(shù)在兩個(gè)模型間保持一致:寬度和高度設(shè)置為768像素,這是可用最大分辨率的一半。使用的調(diào)度器是K-Euler,引導(dǎo)比例設(shè)為7.5,推理步驟數(shù)設(shè)為20。

          3.2.2 數(shù)據(jù)集構(gòu)建:SDXL和LoRA

          為了研究低秩適應(yīng)(LoRA)微調(diào)對SDXL的影響,使用低秩適應(yīng)在9幅公有領(lǐng)域的莫奈畫作上微調(diào)了SDXL的權(quán)重。輸入圖像經(jīng)過SwinIR(放大)、BLIP(字幕)和CLIPSeg(去除不利于訓(xùn)練的圖像區(qū)域,溫度1.0)處理。批量大小為4,epochs為1000,U-Net的學(xué)習(xí)率為1e-6,文本嵌入學(xué)習(xí)率縮放為3e-4,LoRA嵌入的學(xué)習(xí)率縮放為1e-4。LoRA微調(diào)在Nvidia A40上Replicate上運(yùn)行。

          使用了50個(gè)之前用于SDXL和PixArt- 模型比較的提示子集,并在模型間使用相同的隨機(jī)種子。為輸入SDXL,在提示末尾添加"莫奈風(fēng)格"。同樣,為LoRA模型修改提示,附加"風(fēng)格TOK",其中"TOK"是訓(xùn)練時(shí)用來表示輸入圖像中概念的唯一標(biāo)記字符串,即莫奈畫風(fēng)。

          3.2.3 人工標(biāo)注

          標(biāo)注由13名人類標(biāo)注者完成。本文構(gòu)建了一個(gè)標(biāo)注界面,并排顯示SDXL和PixArt- 生成的圖像庫,標(biāo)注者選擇他們認(rèn)為最一致的庫,并瀏覽每個(gè)提示。通過比較語義一致性得分最高的模型與每個(gè)標(biāo)注者的選擇以及所有標(biāo)注者的整體響應(yīng)(按頻率聚合)來衡量一致性。

          3.2.4 敏感性分析

          本文進(jìn)行了敏感性分析,以確定分析的最佳提示重復(fù)次數(shù),以平衡準(zhǔn)確性和計(jì)算效率。本文計(jì)算了SDXL和PixArt- 的10個(gè)不同提示的成對平均CLIP分?jǐn)?shù),重復(fù)次數(shù)從10到100不等。

          根據(jù)敏感性分析的結(jié)果,本文對每個(gè)模型的每個(gè)提示進(jìn)行了20次重復(fù)(隨機(jī)種子),得到了4k張圖像進(jìn)行分析。

          3.2.5 統(tǒng)計(jì)分析

          對于每個(gè)提示和每個(gè)模型,計(jì)算成對平均CLIP分?jǐn)?shù)。使用Kolmogorov-Smirnov正態(tài)性檢驗(yàn)發(fā)現(xiàn),每個(gè)模型的分?jǐn)?shù)分布都不服從正態(tài)分布(p<0.05)。因此,作者使用Wilcoxon符號秩檢驗(yàn)(非參數(shù)配對樣本顯著性檢驗(yàn))和兩樣本Kolmogorov-Smirnov檢驗(yàn)(非參數(shù)檢驗(yàn),用于確定兩個(gè)樣本是否來自同一連續(xù)分布)來檢查統(tǒng)計(jì)顯著性。

          圖2:(上行)SDXL和PixArt-α在成對得分和分布上顯示出顯著差異,使用箱線圖和核密度估計(jì)圖可視化。(下行)SDXL(基礎(chǔ))和SDXL(基于Monet的LoRA微調(diào))在成對得分和分布上顯示出顯著差異,使用箱線圖和核密度估計(jì)圖可視化。

          4. 實(shí)驗(yàn)

          4.1. 敏感性分析

          作者進(jìn)行了敏感性分析,以確定分析的最佳提示重復(fù)次數(shù),平衡準(zhǔn)確性和計(jì)算效率。作者發(fā)現(xiàn),至少需要20次重復(fù),才能確保得分在所有重復(fù)的平均得分和100次重復(fù)得分的1%范圍內(nèi)。在95%的迭代中,使用20次重復(fù)可將得分保持在平均得分和100次重復(fù)得分的0.5%范圍內(nèi)。

          4.2. 模型比較:SDXL和PixArt-

          作者探討了SDXL和PixArt- 兩種最先進(jìn)的開源模型在圖像生成一致性方面的差異(圖2)。在100個(gè)提示和每個(gè)模型2k張圖像中,SDXL的平均一致性得分為88.9±7.1(中位數(shù)91.3),PixArt- 為93.4±4.9(中位數(shù)95.1)。兩樣本Kolmogorov-Smirnov檢驗(yàn)顯示,兩個(gè)模型的得分分布存在顯著差異(KS統(tǒng)計(jì)量=0.48;p值=8.44e-11)。Wilcoxon符號秩檢驗(yàn)也顯示配對得分存在顯著差異(Wilcoxon統(tǒng)計(jì)量=110.0;p值=1.01e-16)。

          人工標(biāo)注與最高語義一致性得分之間的比較顯示了很高的一致性。獲得最高語義一致性得分的模型與人類標(biāo)注者最常選擇的模型匹配的比例為94%。在所有標(biāo)注者中,平均一致性為90.9%[范圍86%-94%]。

          4.3. 模型比較:SDXL和基于LoRA的SDXL微調(diào)版本

          本文探討了基礎(chǔ)SDXL和基于LoRA微調(diào)的SDXL版本在圖像生成一致性方面的差異。在50個(gè)提示和每個(gè)模型1k張圖像中,SDXL的平均一致性得分為90.1±5.4(中位數(shù)91.7),LoRA微調(diào)SDXL模型的平均一致性得分為92.9±5.0(中位數(shù)94.2)。兩樣本Kolmogorov-Smirnov檢驗(yàn)顯示,兩個(gè)模型的得分分布存在顯著差異(KS統(tǒng)計(jì)量=0.38;p值=0.001)。Wilcoxon符號秩檢驗(yàn)也顯示配對得分存在顯著差異(Wilcoxon統(tǒng)計(jì)量=95.0;p值=5.80e-09)。

          4.4. 局限性

          這項(xiàng)研究將大大受益于進(jìn)一步與人類判斷圖像生成一致性的比較。此外,作者使用CLIP嵌入模型,因?yàn)樗谄渌美幸驯蛔C明是穩(wěn)健的,但應(yīng)該探索其他多模態(tài)嵌入模型,如BLIP2,特別是因?yàn)镃LIP模型已被證明會(huì)從輸入提示中吸收偏差。

          5. 結(jié)論

          在本文中,作者提出了一種基于成對平均CLIP分?jǐn)?shù)的語義一致性分?jǐn)?shù)。作者使用這個(gè)度量比較了兩種最先進(jìn)的開源模型SDXL和PixArt- ,以及SDXL及其基于LoRA的微調(diào)版本。

          這一評估突出了PixArt- 在跨提示的一致性和較低可變性方面的優(yōu)勢,相比之下SDXL存在不足。這一發(fā)現(xiàn)對于選擇合適的模型有重要影響:對于要求高一致性的應(yīng)用,選擇更一致的PixArt- 模型會(huì)更有優(yōu)勢;相反,當(dāng)需要多樣性輸出時(shí),SDXL會(huì)更合適。通過精確量化這種一致性,作者可以更好地區(qū)分不同模型,并就針對不同用例選擇模型架構(gòu)做出明智決策。

          對擴(kuò)散模型權(quán)重進(jìn)行LoRA微調(diào)是一種常見的做法,旨在生成更符合預(yù)期的輸出。通過采用語義一致性分?jǐn)?shù)進(jìn)行評估,作者發(fā)現(xiàn)與原始SDXL相比,經(jīng)LoRA微調(diào)的SDXL版本在語義一致性上表現(xiàn)更佳。本研究提出的語義一致性分?jǐn)?shù)為圖像生成的一致性提供了一個(gè)量化指標(biāo),有助于評估特定任務(wù)下LoRA模型的性能。此外,作者還考慮了對提示的評估,這在嘗試量化和編纂各種用例(包括連貫故事和電影生成)所使用的提示工程時(shí)可能非常有用。

          作者提出的量化生成模型輸出一致性的概念,不僅適用于圖像生成,也可以擴(kuò)展到其他領(lǐng)域,如生成文本、音頻或者視頻輸出的一致性評估,這將為生成模型的發(fā)展帶來新的機(jī)遇。

          瀏覽 624
          1點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          1點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  无码Aⅴ| 翔田千里与黑人未删减avXX | 免费看黄 片 | 久久天天躁日日躁狠狠躁 | 国内AV视 |