<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

分離人聲和伴奏

機(jī)器學(xué)習(xí)與生成對(duì)抗網(wǎng)絡(luò)

共 1777字，需瀏覽 4分鐘

·

2021-09-22 15:15

點(diǎn)擊上方“機(jī)器學(xué)習(xí)與生成對(duì)抗網(wǎng)絡(luò)”，關(guān)注星標(biāo)

獲取有趣、好玩的前沿干貨！

博雯發(fā)自凹非寺
量子位報(bào)道 | 公眾號(hào) QbitAI

寫歌填詞、改換風(fēng)格、續(xù)寫音樂的AI，今天又來做編曲人了！

上傳一段《Stay》，一鍵按下：

伴奏和人聲就輕松分離。

人聲頗有種在空曠地帶清唱的清晰感，背景樂都能直接拿去做混剪了！

這樣驚人的效果也引發(fā)了Reddit熱議：

這項(xiàng)研究的主要負(fù)責(zé)人孔秋強(qiáng)來自字節(jié)跳動(dòng)，全球最大的古典鋼琴數(shù)據(jù)集GiantMIDI-Piano，也是由他在去年?duì)款^發(fā)布的。

那么今天，他又帶來了怎樣的一個(gè)AI音樂家呢？

一起來看看。

基于深度殘差網(wǎng)絡(luò)的音源分離

這是一個(gè)包含了相位估計(jì)的音樂源分離（MSS）系統(tǒng)。

首先，將幅值（Magnitude）與相位（Phase）解耦，用以估計(jì)復(fù)數(shù)理想比例掩碼（cIRM）。

其次，為了實(shí)現(xiàn)更靈活的幅值估計(jì)，將有界掩碼估計(jì)和直接幅值預(yù)測(cè)結(jié)合起來。

最后，為MSS系統(tǒng)引入一個(gè)143層的深度殘差網(wǎng)絡(luò)（Deep Residual UNets），利用殘差編碼塊（REB）和殘差解碼塊（RDB）來增加其深度：

殘差編碼塊和殘差卷積塊中間還引入了中間卷積塊（ICB），以提高殘差網(wǎng)絡(luò)的表達(dá)能力。

其中每個(gè)殘差編碼塊由4個(gè)殘差卷積塊（RCB）組成，殘差卷積塊又由兩個(gè)核大小為3×3的卷積層組成。

每個(gè)殘差解碼塊由8個(gè)卷積層和1個(gè)反卷積層組成。

實(shí)驗(yàn)結(jié)果

接下來，將這一系統(tǒng)在MUSDB18數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

MUSDB18中的訓(xùn)練/驗(yàn)證集分別包含100/50個(gè)完整的立體聲音軌，包括獨(dú)立的人聲、伴奏、低音、鼓和其他樂器。

在訓(xùn)練時(shí)，利用上述系統(tǒng)進(jìn)行并行的混合音頻數(shù)據(jù)增強(qiáng)，隨機(jī)混合來自同一來源的兩個(gè)3秒片段，然后作為一個(gè)新的3秒片段進(jìn)行訓(xùn)練。

以信號(hào)失真率（SDR）作為評(píng)判標(biāo)準(zhǔn)，可以看到ResUNetDecouple系統(tǒng)在分離人聲、低音、其他和伴奏方面明顯優(yōu)于以前的方法：

在消融實(shí)驗(yàn)中，143層殘差網(wǎng)絡(luò)的表現(xiàn)也證實(shí)了，結(jié)合有界掩碼估計(jì)和直接幅值預(yù)測(cè)確實(shí)能夠改善聲音源分離系統(tǒng)的性能。

作者介紹

這項(xiàng)研究的論文一作為孔秋強(qiáng)，本碩都畢業(yè)于華南理工大學(xué)，博士則畢業(yè)于英國(guó)薩里大學(xué)的電子信息工程專業(yè)。

他在2019年加入字節(jié)跳動(dòng)的Speech, Audio and Music Intelligence研究小組，主要負(fù)責(zé)音頻信號(hào)處理和聲音事件檢測(cè)等領(lǐng)域的研究。

論文：
https://arxiv.org/abs/2109.05418

試玩：
https://huggingface.co/spaces/akhaliq/Music_Source_Separation

開源地址：
https://github.com/bytedance/music_source_separation

參考鏈接：
https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/

— 完 —

猜您喜歡：

等你著陸！【GAN生成對(duì)抗網(wǎng)絡(luò)】知識(shí)星球！

CVPR 2021 | GAN的說話人驅(qū)動(dòng)、3D人臉論文匯總

CVPR 2021 | 圖像轉(zhuǎn)換今如何？幾篇GAN論文

【CVPR 2021】通過GAN提升人臉識(shí)別的遺留難題

CVPR 2021生成對(duì)抗網(wǎng)絡(luò)GAN部分論文匯總

經(jīng)典GAN不得不讀：StyleGAN

最新最全20篇！基于 StyleGAN 改進(jìn)或應(yīng)用相關(guān)論文

超100篇！CVPR 2020最全GAN論文梳理匯總！

附下載 | 《Python進(jìn)階》中文版

附下載 | 經(jīng)典《Think Python》中文版

附下載 | 《Pytorch模型訓(xùn)練實(shí)用教程》

附下載 | 最新2020李沐《動(dòng)手學(xué)深度學(xué)習(xí)》

附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版

附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

附下載 | 超100篇！CVPR 2020最全GAN論文梳理匯總！

附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享

瀏覽 87

點(diǎn)贊

收藏

分享

舉報(bào)

評(píng)論

圖片

表情

環(huán)繞 (人聲伴奏)

環(huán)繞 (人聲伴奏)

多好(人聲伴奏版)

多好(人聲伴奏版)

閃光 (無人聲伴奏)

閃光 (無人聲伴奏)

第二次相遇 (人聲伴奏)

第二次相遇 (人聲伴奏)

怎樣把視頻中的人聲和背景音樂分離？

音頻、視頻中的人聲和背景音樂可以完美分離的，使用 AI 分離人聲和背景音樂，不需要音軌、聲道這些前提條件。音頻、視頻消除人聲或者背景音樂，推薦使用「云貓轉(zhuǎn)碼」的「消音」功能，集成了領(lǐng)先的 AI 技術(shù)，可以高精度識(shí)別并消除音視頻的人聲，也可以消除其中的背景音樂。相對(duì)于傳統(tǒng)軟件，不僅更加簡(jiǎn)單容易上手，而且 AI 效果更好，可以媲美原生的音視頻：消音 - 云貓轉(zhuǎn)碼 | 簡(jiǎn)單智能、功能齊備的云端視頻工具全流程云端處理的，不需要安裝任何傳統(tǒng)軟件，兩步即可完成任務(wù)，還可以跨終端查看、恢復(fù)任務(wù)：手機(jī)端可以使用同名微信小程序——「云貓轉(zhuǎn)碼」，和電腦端賬號(hào)同步，也是非常地便捷：「云貓轉(zhuǎn)碼」是一款簡(jiǎn)單智能、功能齊備的云端視頻工具，擁

再見愛情 (人聲伴奏版)

再見愛情 (人聲伴奏版)

最親愛的親愛 (人聲伴奏)

最親愛的親愛 (人聲伴奏)

翻篇 (人聲伴奏版)

翻篇 (人聲伴奏版)

緋石之心 (人聲伴奏)

緋石之心 (人聲伴奏)

等著你說 (人聲伴奏版)

等著你說 (人聲伴奏版)

點(diǎn)贊

收藏

分享

舉報(bào)

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

亚洲人妻乱 | 亚洲成人网站无码在线观看 | 东京热视频在线观看 | 亚洲国内自拍 | 精品国产日批 |