大家好，今天繼續(xù)聊聊科技圈發(fā)生的那些事。

一、V-Express

V-Express 是一個(gè)在參考圖像、音頻和 V-Kps 圖像序列的控制下生成一個(gè)會(huì)說(shuō)話的頭像視頻的開源項(xiàng)目。

V-Express 能夠從單張圖像生成帶有音頻的肖像視頻，通過(guò)平衡不同的控制信號(hào)（如音頻、姿勢(shì)和圖像）來(lái)實(shí)現(xiàn)自然的嘴部和面部動(dòng)作同步。例如，將一張靜態(tài)照片轉(zhuǎn)換成對(duì)話視頻。

類似的項(xiàng)目我們也分享過(guò)很多了，不過(guò)，每個(gè)項(xiàng)目都有其出色之處。V-Express 研究的重點(diǎn)在于，對(duì)于一般的視頻生成來(lái)說(shuō)，控制信號(hào)的強(qiáng)度各異，如文本、音頻、圖像參考、姿勢(shì)、深度圖等。在這些信號(hào)中，較弱的條件（如音頻信號(hào)）往往難以發(fā)揮作用，因?yàn)樗鼈內(nèi)菀妆惠^強(qiáng)的條件（如姿勢(shì)和原始圖像）干擾。這就直接導(dǎo)致了生成效果不佳。V-Express 通過(guò)一系列漸進(jìn)的丟棄操作來(lái)平衡不同控制信號(hào)，很好的解決了這個(gè)問(wèn)題。

這個(gè)項(xiàng)目的部署也是類似的。安裝 Python 環(huán)境下所需依賴（項(xiàng)目主頁(yè)中已列出），然后克隆項(xiàng)目到本地，就可以體驗(yàn)開發(fā)團(tuán)隊(duì)提供的demo了。

作者團(tuán)隊(duì)還提到，在會(huì)說(shuō)話的人臉生成任務(wù)中，當(dāng)目標(biāo)視頻與參考角色不是同一個(gè)人時(shí)，選擇與參考人臉姿勢(shì)更相似的目標(biāo)視頻將能獲得更好的效果。此外，模型目前在英語(yǔ)上表現(xiàn)較好，其他語(yǔ)言尚未進(jìn)行詳細(xì)測(cè)試。

項(xiàng)目地址：

https://github.com/tencent-ailab/V-Express

二、automatic

這個(gè)項(xiàng)目的簡(jiǎn)介是，穩(wěn)定擴(kuò)散和其他基于擴(kuò)散的生成圖像模型的高級(jí)實(shí)現(xiàn)。不過(guò)從簡(jiǎn)來(lái)說(shuō)，automatic 就是一個(gè)升級(jí)版的 Stable Diffusion。

相信 Stable Diffusion 大家已經(jīng)很了解了，那么對(duì)于 automatic（也可以稱作 SD.Next ），我們就來(lái)簡(jiǎn)單說(shuō)說(shuō)相對(duì)于原版 SD，做出了哪些升級(jí)。

SD.Next 支持 Diffusers 和 Original 兩種主要后端：

Diffusers：基于Huggingface Diffusers實(shí)現(xiàn)，支持所有列出的模型，新安裝默認(rèn)使用此后端。
Original：基于LDM參考實(shí)現(xiàn)并由A1111顯著擴(kuò)展，兼容大多數(shù)現(xiàn)有功能和擴(kuò)展，支持SD 1.x和SD 2.x模型，其他模型類型需要使用Diffusers后端。

SD.Next 支持非常多種類的模型。簡(jiǎn)單數(shù)了一下，大概是20-30種模型可供支持。而有關(guān)使用平臺(tái)，SD.Next 支持nVidia GPU、AMD GPU、Intel Arc GPU、兼容DirectX的所有GPU、兼容OpenVINO的所有設(shè)備、Apple M1/M2、ONNX/Olive等。也就是說(shuō)，只要你是一臺(tái)正經(jīng)設(shè)備，基本上都能跑通。另外，項(xiàng)目還設(shè)置了更好看的用戶界面，支持主題切換。