EnCodec基于深度學(xué)習(xí)的音頻編解碼器
EnCodec 是一個基于深度學(xué)習(xí)的音頻編解碼器,由 AI 驅(qū)動,可以在音頻質(zhì)量沒有損失的前提下,將音頻壓縮到比 MP3 格式還要小 10 倍的程度。
實現(xiàn)過程如下:
- 首先,編碼器將未壓縮的數(shù)據(jù)轉(zhuǎn)換為較低幀率的 "latent space" 表示(representation);
- 然后,量化器將這個表示壓縮到目標(biāo)大小,同時跟蹤最重要的信息,這些信息以后將被用于重建原始信號(這個壓縮信號將通過網(wǎng)絡(luò)發(fā)送或保存在磁盤上);
- 最后,解碼器使用單個 CPU 上的神經(jīng)網(wǎng)絡(luò)將壓縮的數(shù)據(jù)實時地轉(zhuǎn)變回音頻;
安裝
EnCodec 需要 Python 3.8 和 PyTorch 1.11.0,要安裝 EnCodec,可以運(yùn)行:
pip install -U encodec # stable release pip install -U git+https://[email protected]/facebookresearch/encodec#egg=encodec # bleeding edge # of if you cloned the repo locally pip install .
使用
然后,可以使用 EnCodec 命令:
python3 -m encodec [...] # or encodec [...]
評論
圖片
表情
