又火一個(gè)驚艷的AI項(xiàng)目,已開源!
共 2487字,需瀏覽 5分鐘
·
2024-05-31 16:03
大家好,今天繼續(xù)聊聊科技圈發(fā)生的那些事。
一、V-Express
V-Express 是一個(gè)在參考圖像、音頻和 V-Kps 圖像序列的控制下生成一個(gè)會(huì)說(shuō)話的頭像視頻的開源項(xiàng)目。
V-Express 能夠從單張圖像生成帶有音頻的肖像視頻,通過(guò)平衡不同的控制信號(hào)(如音頻、姿勢(shì)和圖像)來(lái)實(shí)現(xiàn)自然的嘴部和面部動(dòng)作同步。例如,將一張靜態(tài)照片轉(zhuǎn)換成對(duì)話視頻。
類似的項(xiàng)目我們也分享過(guò)很多了,不過(guò),每個(gè)項(xiàng)目都有其出色之處。V-Express 研究的重點(diǎn)在于,對(duì)于一般的視頻生成來(lái)說(shuō),控制信號(hào)的強(qiáng)度各異,如文本、音頻、圖像參考、姿勢(shì)、深度圖等。在這些信號(hào)中,較弱的條件(如音頻信號(hào))往往難以發(fā)揮作用,因?yàn)樗鼈內(nèi)菀妆惠^強(qiáng)的條件(如姿勢(shì)和原始圖像)干擾。這就直接導(dǎo)致了生成效果不佳。V-Express 通過(guò)一系列漸進(jìn)的丟棄操作來(lái)平衡不同控制信號(hào),很好的解決了這個(gè)問(wèn)題。
這個(gè)項(xiàng)目的部署也是類似的。安裝 Python 環(huán)境下所需依賴(項(xiàng)目主頁(yè)中已列出),然后克隆項(xiàng)目到本地,就可以體驗(yàn)開發(fā)團(tuán)隊(duì)提供的demo了。
作者團(tuán)隊(duì)還提到,在會(huì)說(shuō)話的人臉生成任務(wù)中,當(dāng)目標(biāo)視頻與參考角色不是同一個(gè)人時(shí),選擇與參考人臉姿勢(shì)更相似的目標(biāo)視頻將能獲得更好的效果。此外,模型目前在英語(yǔ)上表現(xiàn)較好,其他語(yǔ)言尚未進(jìn)行詳細(xì)測(cè)試。
項(xiàng)目地址:
https://github.com/tencent-ailab/V-Express
二、automatic
這個(gè)項(xiàng)目的簡(jiǎn)介是,穩(wěn)定擴(kuò)散和其他基于擴(kuò)散的生成圖像模型的高級(jí)實(shí)現(xiàn)。不過(guò)從簡(jiǎn)來(lái)說(shuō),automatic 就是一個(gè)升級(jí)版的 Stable Diffusion。
相信 Stable Diffusion 大家已經(jīng)很了解了,那么對(duì)于 automatic(也可以稱作 SD.Next ),我們就來(lái)簡(jiǎn)單說(shuō)說(shuō)相對(duì)于原版 SD,做出了哪些升級(jí)。
SD.Next 支持 Diffusers 和 Original 兩種主要后端:
-
Diffusers:基于Huggingface Diffusers實(shí)現(xiàn),支持所有列出的模型,新安裝默認(rèn)使用此后端。 -
Original:基于LDM參考實(shí)現(xiàn)并由A1111顯著擴(kuò)展,兼容大多數(shù)現(xiàn)有功能和擴(kuò)展,支持SD 1.x和SD 2.x模型,其他模型類型需要使用Diffusers后端。
SD.Next 支持非常多種類的模型。簡(jiǎn)單數(shù)了一下,大概是20-30種模型可供支持。而有關(guān)使用平臺(tái),SD.Next 支持nVidia GPU、AMD GPU、Intel Arc GPU、兼容DirectX的所有GPU、兼容OpenVINO的所有設(shè)備、Apple M1/M2、ONNX/Olive等。也就是說(shuō),只要你是一臺(tái)正經(jīng)設(shè)備,基本上都能跑通。另外,項(xiàng)目還設(shè)置了更好看的用戶界面,支持主題切換。
那么,簡(jiǎn)單來(lái)說(shuō)說(shuō)項(xiàng)目的部署吧。項(xiàng)目文件中有一個(gè)非常詳細(xì)的 Step by Step 安裝教程,在這里我們簡(jiǎn)單進(jìn)行一個(gè)概括。
-
安裝 Git,根據(jù)自己的系統(tǒng)進(jìn)行安裝即可。 -
安裝 Python 環(huán)境 -
從 GitHub 克隆項(xiàng)目,進(jìn)入項(xiàng)目的目錄
最后,運(yùn)行適用于您操作系統(tǒng)的啟動(dòng)器來(lái)啟動(dòng)Web界面:
-
Windows: webui.bat --debug 或 .\webui.ps1 --debug -
Linux: ./webui.sh --debug -
Mac: ./webui.sh --debug
怎么樣,是不是很簡(jiǎn)單?感興趣的小伙伴,可以動(dòng)手試試了!
項(xiàng)目地址:
https://github.com/vladmandic/automatic
最后,再來(lái)看看B站的新視頻吧!
這一期的視頻,分享了一個(gè)換臉項(xiàng)目 FaceFusion,我們將其制作成了一鍵啟動(dòng)懶人包,可以通過(guò)網(wǎng)盤下載,本地直接部署。
如果本地算力不足,可以使用云平臺(tái)進(jìn)行計(jì)算,我們也準(zhǔn)備了一鍵鏡像,GPU這邊選擇4090就可以跑了,性價(jià)比最高。
潞晨云:
https://cloud.luchentech.com
順提一嘴,本期視頻點(diǎn)贊過(guò)三萬(wàn),我們將手把手教大家訓(xùn)練一個(gè) DFM 模型,比起市面上免費(fèi)的 DFM 模型來(lái)說(shuō),效果肯定是好上加好的!還請(qǐng)大家多多支持!
視頻鏈接:
https://www.bilibili.com/video/BV1Nw4m1S7Q4/
好了,本期的內(nèi)容就是這么多,我們下期再見!
