Bark文本提示生成音頻模型
Bark 是由 Suno 創(chuàng)建的基于轉(zhuǎn)換器的文本到音頻模型。Bark 可以生成高度逼真的多語(yǔ)言語(yǔ)音以及其他音頻 - 包括音樂(lè)、背景噪音和簡(jiǎn)單的音效。該模型還可以產(chǎn)生非語(yǔ)言交流,如大笑、嘆息和哭泣。為了支持研究社區(qū),我們提供了對(duì)準(zhǔn)備好進(jìn)行推理的預(yù)訓(xùn)練模型檢查點(diǎn)的訪問(wèn)。
Usage
from bark import SAMPLE_RATE, generate_audio from IPython.display import Audio text_prompt = """ Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe. """ audio_array = generate_audio(text_prompt) Audio(audio_array, rate=SAMPLE_RATE)
Bark 支持開箱即用的各種語(yǔ)言,并自動(dòng)根據(jù)輸入文本確定語(yǔ)言。當(dāng)提示使用代碼轉(zhuǎn)換文本時(shí),Bark 甚至?xí)L試在同一聲音中使用各種語(yǔ)言的本地口音。
text_prompt = """
Buenos días Miguel. Tu colega piensa que tu alemán es extremadamente malo.
But I suppose your english isn't terrible.
"""
audio_array = generate_audio(text_prompt)
Bark 可以生成所有類型的音頻,并且原則上看不出語(yǔ)音和音樂(lè)之間的區(qū)別。有時(shí) Bark 選擇將文本生成為音樂(lè),但你可以通過(guò)在歌詞周圍添加音符來(lái)幫助它。
text_prompt = """
? In the jungle, the mighty jungle, the lion barks tonight ?
"""
audio_array = generate_audio(text_prompt)
Bark 具有完全克隆聲音的能力——包括音調(diào)、音調(diào)、情感和韻律。該模型還試圖從輸入音頻中保留音樂(lè)、環(huán)境噪音等。但是,為了減少對(duì)這項(xiàng)技術(shù)的濫用,開發(fā)團(tuán)隊(duì)將音頻歷史提示限制為一組有限的 Suno 提供的、完全合成的選項(xiàng),以供每種語(yǔ)言選擇。指定以下模式:{lang_code}_speaker_{number}
text_prompt = """
I have a silky smooth voice, and today I will tell you about
the exercise regimen of the common sloth.
"""
audio_array = generate_audio(text_prompt, history_prompt="en_speaker_1")
你可以提供特定的演講者提示,例如旁白、男人、女人等。但這些提示并不總是被尊重的,尤其是在給出沖突的音頻歷史提示時(shí)。
text_prompt = """
WOMAN: I would like an oatmilk latte please.
MAN: Wow, that's expensive!
"""
audio_array = generate_audio(text_prompt)
Bark 已經(jīng)過(guò)測(cè)試并適用于 CPU 和 GPU(pytorch 2.0+、CUDA 11.7 和 CUDA 12.0)。運(yùn)行 Bark 需要運(yùn)行 >100M 的參數(shù)轉(zhuǎn)換器模型。在現(xiàn)代 GPU 和 PyTorch nightly 上,Bark 可以大致實(shí)時(shí)地生成音頻。在較舊的 GPU、默認(rèn) colab 或 CPU 上,推理時(shí)間可能會(huì)慢 10-100 倍。
如果你沒(méi)有可用的新硬件,或者如果想玩更大版本的模型,也可以在此處注冊(cè)以搶先體驗(yàn) model playground。
