<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          好家伙,AI音樂家火了。。

          共 1692字,需瀏覽 4分鐘

           ·

          2021-10-09 15:12

          點擊下方AI算法與圖像處理”,一起進步!

          重磅干貨,第一時間送達

          轉(zhuǎn)自:量子位 |?博雯?

          最近又發(fā)現(xiàn)了一個好玩的項目。

          寫歌填詞、改換風格、續(xù)寫音樂的AI,今天又來做編曲人了!

          上傳一段《Stay》,一鍵按下:

          伴奏和人聲就輕松分離,大家聽聽效果:




          人聲頗有種在空曠地帶清唱的清晰感,背景樂都能直接拿去做混剪了!

          神器,福音?。?/p>

          這樣驚人的效果也引發(fā)了 Reddit 熱議:

          這項研究的主要負責人孔秋強來自字節(jié)跳動,全球最大的古典鋼琴數(shù)據(jù)集GiantMIDI-Piano,也是由他在去年牽頭發(fā)布的。

          AI 音樂家實錘,可以看下官方的演示效果。


          Music Source Separation

          算法已經(jīng)開源,有編程基礎(chǔ)的可以直接跑代碼。

          項目地址:

          https://github.com/bytedance/music_source_separation

          沒有編程基礎(chǔ)也沒關(guān)系,項目提供了在線可玩的網(wǎng)頁。

          試玩網(wǎng)頁:

          https://huggingface.co/spaces/akhaliq/Music_Source_Separation

          這里簡單說下算法的原理。

          原理說明

          這是一個包含了相位估計的音樂源分離(MSS)系統(tǒng)。

          首先,將幅值(Magnitude)與相位(Phase)解耦,用以估計復(fù)數(shù)理想比例掩碼(cIRM)。

          其次,為了實現(xiàn)更靈活的幅值估計,將有界掩碼估計和直接幅值預(yù)測結(jié)合起來。

          最后,為 MSS 系統(tǒng)引入一個 143 層的深度殘差網(wǎng)絡(luò)(Deep Residual UNets),利用殘差編碼塊(REB)和殘差解碼塊(RDB)來增加其深度:

          殘差編碼塊和殘差卷積塊中間還引入了中間卷積塊(ICB),以提高殘差網(wǎng)絡(luò)的表達能力。

          其中每個殘差編碼塊由 4 個殘差卷積塊(RCB)組成,殘差卷積塊又由兩個核大小為 3×3 的卷積層組成。

          每個殘差解碼塊由 8 個卷積層和 1 個反卷積層組成。

          更詳細的算法原理,可以直接看論文。

          論文地址:

          https://arxiv.org/pdf/2109.05418.pdf

          實驗結(jié)果

          接下來,將這一系統(tǒng)在 MUSDB18 數(shù)據(jù)集上進行實驗。

          MUSDB18 中的訓(xùn)練/驗證集分別包含 100/50 個完整的立體聲音軌,包括獨立的人聲、伴奏、低音、鼓和其他樂器。

          在訓(xùn)練時,利用上述系統(tǒng)進行并行的混合音頻數(shù)據(jù)增強,隨機混合來自同一來源的兩個 3 秒片段,然后作為一個新的 3 秒片段進行訓(xùn)練。

          以信號失真率(SDR)作為評判標準,可以看到 ResUNetDecouple 系統(tǒng)在分離人聲、低音、其他和伴奏方面明顯優(yōu)于以前的方法:

          在消融實驗中,143 層殘差網(wǎng)絡(luò)的表現(xiàn)也證實了,結(jié)合有界掩碼估計和直接幅值預(yù)測確實能夠改善聲音源分離系統(tǒng)的性能。


          參考鏈接:
          https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/

          努力分享優(yōu)質(zhì)的計算機視覺相關(guān)內(nèi)容,歡迎關(guān)注:

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有美顏、三維視覺、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群


          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會分享


          AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風格指南


          AI算法與圖像處理」公眾號后臺回復(fù):c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!



          下載3 CVPR2021

          AI算法與圖像處公眾號后臺回復(fù):CVPR,即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文



          瀏覽 39
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  a片视频在线播放 | 韩国毛片在线播放 | 久久精产国99精产国高潮麻豆 | 猫咪AV大香蕉 | 精品卡一卡二 |