本周AI開源項目精選(下) |基于PaddlePaddle的出色多語言O(shè)CR工具包、鋼琴MIDI數(shù)據(jù)集
本周關(guān)鍵詞:MIDI數(shù)據(jù)集、ORC、矢量模型、輕量級AutoML基準(zhǔn)
GiantMIDI-Piano 鋼琴MIDI數(shù)據(jù)集
鋼琴轉(zhuǎn)譜是一項將鋼琴錄音轉(zhuǎn)為音樂符號(如 MIDI 格式)的任務(wù)。在人工智能領(lǐng)域,鋼琴轉(zhuǎn)譜被類比于音樂領(lǐng)域的語音識別任務(wù)。然而長期以來,在計算機音樂領(lǐng)域一直缺少一個大規(guī)模的鋼琴 MIDI 數(shù)據(jù)集。
近期,字節(jié)跳動發(fā)布了全球最大的古典鋼琴數(shù)據(jù)集 GiantMIDI-Piano [1]。在數(shù)據(jù)規(guī)模上,數(shù)據(jù)集不同曲目的總時長是谷歌 MAESTRO 數(shù)據(jù)集的 14 倍。
GiantMIDI-Piano 中前 100 位不同作曲家的曲目數(shù)量分布:

GiantMIDI-Piano 的特點是使用鋼琴轉(zhuǎn)譜技術(shù),通過計算機將音頻文件自動轉(zhuǎn)為 MIDI 文件,并通過該技術(shù)轉(zhuǎn)譜了大規(guī)模的 MIDI 數(shù)據(jù)集。研究者首先從開放的國際音樂數(shù)字圖書館 IMSLP 獲取了18,067位作曲家的143,701首作品名信息,并通過 YouTube 搜索到60,724個音頻。然后,研究者設(shè)計了基于音頻卷積神經(jīng)網(wǎng)絡(luò)(CNN)的鋼琴獨奏檢測算法,篩選出來自 2,786 位作曲家的 10,854 部鋼琴作品。最后,研究者開發(fā)并開源了一套高精度鋼琴轉(zhuǎn)譜系統(tǒng)(High-resolution Piano Transcription with Pedals by Regressing Precise Onsets and Offsets Times)[2],將所有音頻轉(zhuǎn)譜成 MIDI 文件,進而構(gòu)建了 GiantMIDI-Piano 數(shù)據(jù)庫。
GiantMIDI-Piano 數(shù)據(jù)集具備以下特點:
包含來自 2,784 位作曲家 10,854 首作品的 MIDI 文件。
包含 34,504,873 個音符。
所有的曲目都是不同的,MIDI 文件的總時長為 1,237 小時。
由高精度轉(zhuǎn)譜系統(tǒng)轉(zhuǎn)譜音頻而成。轉(zhuǎn)譜的 MIDI 文件包括音符的起始時間、力度和踏板信息。
GiantMIDI-Piano 的轉(zhuǎn)譜相對錯誤率為 0.094,在 Maestro 鋼琴數(shù)據(jù)集上的轉(zhuǎn)譜 F1 值為 96.72%。
所有 MIDI 文件都有統(tǒng)一的格式,文件名格式為「姓_名_曲目名_youtubeID.mid」。
包含作曲家國籍和出生年份信息。
數(shù)據(jù)集大小為 193 Mb。
使用許可為 CC BY 4.0。
項目地址:
https://github.com/bytedance/GiantMIDI-Piano
PaddleOCR 基于PaddlePaddle的出色多語言O(shè)CR工具包
PaddleOCR旨在打造一套豐富、領(lǐng)先、且實用的OCR工具庫,助力使用者訓(xùn)練出更好的模型,并應(yīng)用落地。

特性:
PPOCR系列高質(zhì)量預(yù)訓(xùn)練模型,準(zhǔn)確的識別效果
超輕量ppocr_mobile移動端系列:檢測(3.0M)+方向分類器(1.4M)+ 識別(5.0M)= 9.4M
通用ppocr_server系列:檢測(47.1M)+方向分類器(1.4M)+ 識別(94.9M)= 143.4M
支持中英文數(shù)字組合識別、豎排文本識別、長文本識別
支持多語言識別:韓語、日語、德語、法語
豐富易用的OCR相關(guān)工具組件
半自動數(shù)據(jù)標(biāo)注工具PPOCRLabel:支持快速高效的數(shù)據(jù)標(biāo)注
數(shù)據(jù)合成工具Style-Text:批量合成大量與目標(biāo)場景類似的圖像
支持用戶自定義訓(xùn)練,提供豐富的預(yù)測推理部署方案
支持PIP快速安裝使用
可運行于Linux、Windows、MacOS等多種系統(tǒng)

項目地址:
https://github.com/PaddlePaddle/PaddleOCR
paz Python中的分層感知庫,用于姿勢估計,對象檢測,實例分割,關(guān)鍵點估計,面部識別等。
Probabilistic 2D keypoints | 6D head-pose estimation | Object detection |
|
|
|
Emotion classifier | 2D keypoint estimation | Mask-RCNN (in-progress) |
|
|
|
3D keypoint discovery | Haar Cascade detector | 6D pose estimation |
|
|
|
Implicit orientation | Attention (STNs) | Eigenfaces |
|
|
|
以下模型在PAZ中實現(xiàn),可以使用您自己的數(shù)據(jù)進行訓(xùn)練:
任務(wù) | 模型 | 任務(wù) | 模型 |
目標(biāo)檢測 | SSD-512 SSD-300 | 6D姿態(tài)估計 | KeypointNet2D |
概率關(guān)鍵點估計 | Gaussian Mixture CNN | 情緒分類 | MiniXception |
檢測與分割 | MaskRCNN (in progress) | 關(guān)鍵點估計 | KeypointNet2D |
關(guān)鍵點估計 | HRNet | 注意力機制 | Spatial Transformers |
語義分割 | U-NET | 目標(biāo)檢測 | HaarCascades |
項目地址:
https://github.com/oarriaga/paz
vectorhub 使用最新模型將數(shù)據(jù)轉(zhuǎn)換為矢量

Vector Hub是一個用于發(fā)布,發(fā)現(xiàn)和使用最新模型以將數(shù)據(jù)轉(zhuǎn)換為向量的庫。(Text2Vec,Image2Vec,Video2Vec,F(xiàn)ace2Vec,Bert2Vec,Inception2Vec,Code2Vec,LegalBert2Vec等)。有很多方法可以從數(shù)據(jù)中提取向量。該庫旨在以簡單的方式引入所有最新模型,從而輕松地對數(shù)據(jù)進行矢量化處理。
Vector Hub提供:
從業(yè)人員進入門檻低(使用常用方法)
用3行代碼向量化豐富和復(fù)雜的數(shù)據(jù)類型,例如:文本,圖像,音頻等
檢索并找到有關(guān)模型的信息
一種輕松處理不同模型的依賴關(guān)系的簡便方法
安裝和編碼的通用格式(使用簡單的編碼方法)。
為了為從業(yè)人員提供一種簡便的方法來快速進行實驗,研究和構(gòu)建新的模型和特征向量,我們提供了一種通過編碼方法來獲得向量的簡化方法??绮煌美?域的數(shù)千種_____2Vec模型。Vectorhub使人們可以匯總他們的工作并與社區(qū)共享。
項目地址:
https://github.com/vector-ai/vectorhub
MedMNIST 醫(yī)學(xué)圖像分析的輕量級AutoML基準(zhǔn)
我們提出了MedMNIST,它是10個經(jīng)過預(yù)處理的醫(yī)學(xué)開放數(shù)據(jù)集的集合。 MedMNIST已標(biāo)準(zhǔn)化,可以在不需要背景知識的情況下對28×28的輕量圖像執(zhí)行分類任務(wù)。涵蓋醫(yī)學(xué)圖像分析中的主要數(shù)據(jù)模式,它在數(shù)據(jù)規(guī)模(從100到100,000)和任務(wù)(二進制/多類,有序回歸和多標(biāo)簽)方面是多種多樣的。 MedMNIST可用于醫(yī)學(xué)圖像分析中的教育目的,快速原型制作,多模式機器學(xué)習(xí)或AutoML。此外,MedMNIST分類十項全能旨在對所有10個數(shù)據(jù)集的AutoML算法進行基準(zhǔn)測試。

關(guān)鍵特性:
教育性的:我們的多模式數(shù)據(jù)來自具有知識共享(CC)許可的多個開放式醫(yī)學(xué)圖像數(shù)據(jù)集,易于用于教育目的。
標(biāo)準(zhǔn)化:將數(shù)據(jù)預(yù)處理為相同格式,無需用戶了解任何背景知識。
多樣化:多模式數(shù)據(jù)集涵蓋了各種數(shù)據(jù)規(guī)模(從100到100,000)和任務(wù)(二進制/多類,有序回歸和多標(biāo)簽)。
輕巧:28×28的小巧尺寸適合快速原型設(shè)計和試驗多模式機器學(xué)習(xí)和AutoML算法。
項目地址:
https://github.com/MedMNIST/MedMNIST
回顧精品內(nèi)容
推薦系統(tǒng)
1、干貨 | 基于用戶的協(xié)同過濾推薦算法原理和實現(xiàn)
2、超詳細丨推薦系統(tǒng)架構(gòu)與算法流程詳解
機器學(xué)習(xí)
自然語言處理(NLP)
1、AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下Transformer論文
2、Transformer強勢闖入CV界秒殺CNN,靠的到底是什么"基因"
計算機視覺(CV)
1、9個小技巧讓您的PyTorch模型訓(xùn)練裝上“渦輪增壓”...
GitHub開源項目:
1、火爆GitHub!3.6k Star,中文版可視化神器現(xiàn)身
2、兩次霸榜GitHub!這個神器不寫代碼也可以完成AI算法訓(xùn)練
3、登頂GitHub大熱項目 | 非監(jiān)督GAN算法U-GAT-IT大幅改進圖像轉(zhuǎn)換
每周推薦:
1、本周優(yōu)秀開源項目分享:無腦套用格式、開源模板最高10萬贊
七月在線學(xué)員面經(jīng)分享:
1、先工程后算法:美國加州材料博后辭職到字節(jié)40萬offer
2、 雙非應(yīng)屆生拿下大廠NLP崗40萬offer:面試經(jīng)驗與路線圖分享
3、轉(zhuǎn)行NLP拿下40萬offer:分享我面試中遇到的54道面試題(含參考答案)












