亲子乱伦视频,精品黑料成人网AV,操逼的网,91麻豆精产国品一二三产品测评 ,亚洲在线观看视频网站,国产毛片18水真多18精品,男女日日夜夜,亚洲热情

轉(zhuǎn)自：量子位 |?博雯?

大家好，我是 Jack。

最近又發(fā)現(xiàn)了一個好玩的項目。

寫歌填詞、改換風格、續(xù)寫音樂的AI，今天又來做編曲人了！

上傳一段《Stay》，一鍵按下：

伴奏和人聲就輕松分離，大家聽聽效果：

人聲頗有種在空曠地帶清唱的清晰感，背景樂都能直接拿去做混剪了！

神器，福音??！

這樣驚人的效果也引發(fā)了 Reddit 熱議：

這項研究的主要負責人孔秋強來自字節(jié)跳動，全球最大的古典鋼琴數(shù)據(jù)集GiantMIDI-Piano，也是由他在去年牽頭發(fā)布的。

AI 音樂家實錘，可以看下官方的演示效果。

Music Source Separation

算法已經(jīng)開源，有編程基礎(chǔ)的可以直接跑代碼。

項目地址：
https://github.com/bytedance/music_source_separation

沒有編程基礎(chǔ)也沒關(guān)系，項目提供了在線可玩的網(wǎng)頁。

試玩網(wǎng)頁：
https://huggingface.co/spaces/akhaliq/Music_Source_Separation

這里簡單說下算法的原理。

這是一個包含了相位估計的音樂源分離（MSS）系統(tǒng)。

首先，將幅值（Magnitude）與相位（Phase）解耦，用以估計復數(shù)理想比例掩碼（cIRM）。

其次，為了實現(xiàn)更靈活的幅值估計，將有界掩碼估計和直接幅值預測結(jié)合起來。

最后，為 MSS 系統(tǒng)引入一個 143 層的深度殘差網(wǎng)絡(luò)（Deep Residual UNets），利用殘差編碼塊（REB）和殘差解碼塊（RDB）來增加其深度：

殘差編碼塊和殘差卷積塊中間還引入了中間卷積塊（ICB），以提高殘差網(wǎng)絡(luò)的表達能力。

其中每個殘差編碼塊由 4 個殘差卷積塊（RCB）組成，殘差卷積塊又由兩個核大小為 3×3 的卷積層組成。

每個殘差解碼塊由 8 個卷積層和 1 個反卷積層組成。

更詳細的算法原理，可以直接看論文。

論文地址：
https://arxiv.org/pdf/2109.05418.pdf

接下來，將這一系統(tǒng)在 MUSDB18 數(shù)據(jù)集上進行實驗。

MUSDB18 中的訓練/驗證集分別包含 100/50 個完整的立體聲音軌，包括獨立的人聲、伴奏、低音、鼓和其他樂器。

在訓練時，利用上述系統(tǒng)進行并行的混合音頻數(shù)據(jù)增強，隨機混合來自同一來源的兩個 3 秒片段，然后作為一個新的 3 秒片段進行訓練。

以信號失真率（SDR）作為評判標準，可以看到 ResUNetDecouple 系統(tǒng)在分離人聲、低音、其他和伴奏方面明顯優(yōu)于以前的方法：

在消融實驗中，143 層殘差網(wǎng)絡(luò)的表現(xiàn)也證實了，結(jié)合有界掩碼估計和直接幅值預測確實能夠改善聲音源分離系統(tǒng)的性能。

參考鏈接：
https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/

·················END·················