AudioLDM2文本轉(zhuǎn)音頻/音樂生成
AudioLDM2 支持文本到音頻(包括音樂)和文本到語音生成。目前支持:
- 添加文本轉(zhuǎn)語音 checkpoint
- 支持生成更長的音頻(>10s)
- 優(yōu)化模型的推理速度。
- 與 Diffusers 庫集成(參閱 Diffusers)
預(yù)訓(xùn)練模型
可以通過設(shè)置“model_name”來選擇模型 checkpoint:
# CUDA
audioldm2 --model_name "audioldm2-full" --device cuda -t "Musical constellations twinkling in the night sky, forming a cosmic melody."
# MPS
audioldm2 --model_name "audioldm2-full" --device mps -t "Musical constellations twinkling in the night sky, forming a cosmic melody."
有五個 checkpoint 可供選擇:
- audioldm2-full(默認(rèn)):使用 AudioLDM2 架構(gòu)生成音效和音樂。
- audioldm_48k:該 checkpoint 可以生成高保真音效和音樂。
- audioldm_16k_crossattn_t5 : AudioLDM 1.0的改進(jìn)版本。
- audioldm2-full-large-1150k:audioldm2-full 的更大版本。
- audioldm2-music-665k:音樂生成。
- audioldm2-speech-gigaspeech(TTS 的默認(rèn)值):文本轉(zhuǎn)語音,在 GigaSpeech 數(shù)據(jù)集上進(jìn)行訓(xùn)練。
- audioldm2-speech-ljspeech:文本轉(zhuǎn)語音,在 LJSpeech 數(shù)據(jù)集上進(jìn)行訓(xùn)練。
目前支持 3 種設(shè)備:
- cpu
- cuda
- mps(注意,計算需要大約 20GB 的 RAM)
評論
圖片
表情
