【干貨】本周AI領(lǐng)域優(yōu)秀開源項(xiàng)目和優(yōu)秀論文分享!
項(xiàng)目一:使用Cityscapes進(jìn)行語(yǔ)義分割的PyTorch代碼庫(kù)
項(xiàng)目二:PaddleX 『飛槳』深度學(xué)習(xí)全流程開發(fā)工
項(xiàng)目三:用于以向量化方式進(jìn)行時(shí)間序列平滑和離群值檢測(cè)的python庫(kù)
項(xiàng)目四:RecBole 統(tǒng)一,全面,高效的推薦庫(kù)
項(xiàng)目五:Hub TensorFlow / PyTorch最快的非結(jié)構(gòu)化數(shù)據(jù)集管理
semantic-segmentation-tutorial-pytorch 使用Cityscapes進(jìn)行語(yǔ)義分割的PyTorch代碼庫(kù)
項(xiàng)目地址:https://github.com/hoya012/semantic-segmentation-tutorial-pytorch
使用PyTorch的語(yǔ)義分割教程。基于2020 ECCV VIPriors Challange起始代碼,實(shí)現(xiàn)了語(yǔ)義分段代碼庫(kù)并添加了一些技巧。
下載數(shù)據(jù)集(來自CityScapes的MiniCity):
我們將使用Cityscapes的MiniCity數(shù)據(jù)集。此數(shù)據(jù)集用于2020 ECCV VIPriors挑戰(zhàn)。
數(shù)據(jù)集下載(Google驅(qū)動(dòng)器)
https://drive.google.com/file/d/1YjkiaLqU1l9jVCVslrZpip4YsCHHlbNA/view?usp=sharing 將數(shù)據(jù)集移動(dòng)到minicity文件夾中。
訓(xùn)練基線模型:
使用來自torchvision的DeepLabV3。
ResNet-50骨干網(wǎng),ResNet-101骨干網(wǎng)
使用4個(gè)RTX 2080 Ti GPU。(11GB x 4)
損失函數(shù):
嘗試了3種損失函數(shù)。
交叉熵?fù)p失
類加權(quán)交叉熵?fù)p失
焦點(diǎn)損失
可以使用--loss參數(shù)選擇損失函數(shù)。
歸一化層:
嘗試了4歸一化層。
批次歸一化(BN)
實(shí)例規(guī)范化(IN)
組歸一化(GN)
不斷發(fā)展的標(biāo)準(zhǔn)化(EvoNorm) 可以使用--norm參數(shù)選擇歸一化層。
增強(qiáng)技巧:
提出2種數(shù)據(jù)增強(qiáng)技術(shù)(CutMix,copyblob)


模型效果:

最終的單一模型結(jié)果是0.6069831962012341。在排行榜上排名第五。
PaddleX 『飛槳』深度學(xué)習(xí)全流程開發(fā)工
項(xiàng)目地址:https://github.com/PaddlePaddle/PaddleX
PaddleX 集成飛槳智能視覺領(lǐng)域圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割、實(shí)例分割任務(wù)能力,將深度學(xué)習(xí)開發(fā)全流程從數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練與優(yōu)化到多端部署端到端打通,并提供統(tǒng)一任務(wù)API接口及圖形化開發(fā)界面Demo。開發(fā)者無需分別安裝不同套件,以低代碼的形式即可快速完成飛槳全流程開發(fā)。

addleX 經(jīng)過質(zhì)檢、安防、巡檢、遙感、零售、醫(yī)療等十多個(gè)行業(yè)實(shí)際應(yīng)用場(chǎng)景驗(yàn)證,沉淀產(chǎn)業(yè)實(shí)際經(jīng)驗(yàn),并提供豐富的案例實(shí)踐教程,全程助力開發(fā)者產(chǎn)業(yè)實(shí)踐落地。
PaddleX提供三種開發(fā)模式,滿足用戶的不同需求:
Python開發(fā)模式:通過簡(jiǎn)潔易懂的Python API,在兼顧功能全面性、開發(fā)靈活性、集成方便性的基礎(chǔ)上,給開發(fā)者最流暢的深度學(xué)習(xí)開發(fā)體驗(yàn)。
前置依賴
paddlepaddle >= 1.8.4
python >= 3.6
cython
pycocotools
Padlde GUI模式:無代碼開發(fā)的可視化客戶端,應(yīng)用Paddle API實(shí)現(xiàn),使開發(fā)者快速進(jìn)行產(chǎn)業(yè)項(xiàng)目驗(yàn)證,并為用戶開發(fā)自有深度學(xué)習(xí)軟件/應(yīng)用提供參照。
PaddleX Restful:使用基于RESTful API開發(fā)的GUI與Web Demo實(shí)現(xiàn)遠(yuǎn)程的深度學(xué)習(xí)全流程開發(fā);同時(shí)開發(fā)者也可以基于RESTful API開發(fā)個(gè)性化的可視化界面
模塊說明:
數(shù)據(jù)準(zhǔn)備:兼容ImageNet、VOC、COCO等常用數(shù)據(jù)協(xié)議,同時(shí)與Labelme、精靈標(biāo)注助手、EasyData智能數(shù)據(jù)服務(wù)平臺(tái)等無縫銜接,全方位助力開發(fā)者更快完成數(shù)據(jù)準(zhǔn)備工作。
數(shù)據(jù)預(yù)處理及增強(qiáng):提供極簡(jiǎn)的圖像預(yù)處理和增強(qiáng)方法--Transforms,適配imgaug圖像增強(qiáng)庫(kù),支持上百種數(shù)據(jù)增強(qiáng)策略,是開發(fā)者快速緩解小樣本數(shù)據(jù)訓(xùn)練的問題。
模型訓(xùn)練:集成PaddleClas, PaddleDetection, PaddleSeg視覺開發(fā)套件,提供大量精選的、經(jīng)過產(chǎn)業(yè)實(shí)踐的高質(zhì)量預(yù)訓(xùn)練模型,使開發(fā)者更快實(shí)現(xiàn)工業(yè)級(jí)模型效果。
模型調(diào)優(yōu):內(nèi)置模型可解釋性模塊、VisualDL可視化分析工具。使開發(fā)者可以更直觀的理解模型的特征提取區(qū)域、訓(xùn)練過程參數(shù)變化,從而快速優(yōu)化模型。
多端安全部署:內(nèi)置PaddleSlim模型壓縮工具和模型加密部署模塊,與飛槳原生預(yù)測(cè)庫(kù)Paddle Inference及高性能端側(cè)推理引擎Paddle Lite 無縫打通,使開發(fā)者快速實(shí)現(xiàn)模型的多端、高性能、安全部署。
tsmoothie 用于以向量化方式進(jìn)行時(shí)間序列平滑和離群值檢測(cè)的python庫(kù)
項(xiàng)目地址:https://github.com/cerlymarco/tsmoothie
tsmoothie以快速有效的方式計(jì)算單個(gè)或多個(gè)時(shí)間序列的平滑度。
可用的平滑技術(shù)是:
指數(shù)平滑
具有各種窗口類型(常量,hanning,hamming,bartlett,blackman)的卷積平滑
使用傅立葉變換進(jìn)行頻譜平滑
多項(xiàng)式平滑
各種樣條平滑(線性,三次,自然三次)
高斯平滑
Binner平滑
LOWESS
各種季節(jié)性分解平滑(卷積,最低,自然三次樣條)
帶有可自定義組件(水平,趨勢(shì),季節(jié)性,長(zhǎng)期季節(jié)性)的卡爾曼平滑
tsmoothie提供了平滑處理結(jié)果的間隔計(jì)算。這對(duì)于識(shí)別時(shí)間序列中的異常值和異??赡芎苡杏谩?/span>
關(guān)于使用的平滑方法,可用的間隔類型為:
sigma間隔
置信區(qū)間
預(yù)測(cè)間隔
卡爾曼區(qū)間
tsmoothie可以執(zhí)行滑動(dòng)平滑方法來模擬在線使用??梢詫r(shí)間序列分成相等大小的片段,并分別對(duì)其進(jìn)行平滑處理。與往常一樣,此功能是通過WindowWrapper類以向量化的方式實(shí)現(xiàn)的。tsmoothie可以通過BootstrappingWrapper類來操作時(shí)間序列引導(dǎo)程序。
支持的引導(dǎo)程序算法為:
沒有重疊的塊引導(dǎo)程序
移動(dòng)塊引導(dǎo)程序
圓塊引導(dǎo)程序
固定式引導(dǎo)

RecBole 統(tǒng)一,全面,高效的推薦庫(kù)
項(xiàng)目地址:https://github.com/cerlymarco/tsmoothie
RecBole 是一個(gè)基于 PyTorch 實(shí)現(xiàn)的,面向研究者的,易于開發(fā)與復(fù)現(xiàn)的,統(tǒng)一、全面、高效的推薦系統(tǒng)代碼庫(kù)。我們實(shí)現(xiàn)了72個(gè)推薦系統(tǒng)模型,包含常見的推薦系統(tǒng)類別,如:
General Recommendation
Sequential Recommendation
Context-aware Recommendation
Knowledge-based Recommendation
我們約定了一個(gè)統(tǒng)一、易用的數(shù)據(jù)文件格式,并已支持 28 個(gè) benchmark dataset。用戶可以選擇使用我們的數(shù)據(jù)集預(yù)處理腳本,或直接下載已被處理好的數(shù)據(jù)集文件。

特色:
通用和可擴(kuò)展的數(shù)據(jù)結(jié)構(gòu) 我們?cè)O(shè)計(jì)了通用和可擴(kuò)展的數(shù)據(jù)結(jié)構(gòu)來支持各種推薦數(shù)據(jù)集統(tǒng)一化格式和使用。
全面的基準(zhǔn)模型和數(shù)據(jù)集 我們實(shí)現(xiàn)了72個(gè)常用的推薦算法,并提供了28個(gè)推薦數(shù)據(jù)集的格式化副本。
高效的 GPU 加速實(shí)現(xiàn) 我們針對(duì)GPU環(huán)境使用了一系列的優(yōu)化技術(shù)來提升代碼庫(kù)的效率。
大規(guī)模的標(biāo)準(zhǔn)評(píng)測(cè) 我們支持一系列被廣泛認(rèn)可的評(píng)估方式來測(cè)試和比較不同的推薦算法。
RecBole可以在以下幾種系統(tǒng)上運(yùn)行:
Linux
Windows 10
macOS X
RecBole需要在python 3.6或更高的環(huán)境下運(yùn)行。
RecBole要求torch版本在1.6.0及以上,如果你想在GPU上運(yùn)行RecBole,請(qǐng)確保你的CUDA版本或CUDAToolkit版本在9.2及以上。這需要你的NVIDIA驅(qū)動(dòng)版本為396.26或以上(在linux系統(tǒng)上)或者為397.44或以上(在Windows10系統(tǒng)上)。
Hub TensorFlow / PyTorch最快的非結(jié)構(gòu)化數(shù)據(jù)集管理
項(xiàng)目地址:https://github.com/activeloopai/Hub
新時(shí)代的的軟件需要新時(shí)代的數(shù)據(jù),而 Hub 提供這些數(shù)據(jù)。數(shù)據(jù)科學(xué)家與機(jī)器學(xué)習(xí)研究者常?;ㄙM(fèi)大量時(shí)間管理與預(yù)處理數(shù)據(jù),因而犧牲了訓(xùn)練模型的時(shí)間。為了改進(jìn)這一現(xiàn)狀,我們創(chuàng)造了 Hub 。我們將您可達(dá)PB量級(jí)的數(shù)據(jù)轉(zhuǎn)換為單個(gè)類numpy數(shù)組,將其存儲(chǔ)在云端,使您可以無縫地從任何設(shè)備訪問您的數(shù)據(jù)。Hub 使任何儲(chǔ)存在云端的數(shù)據(jù)類型(圖像、文本、音頻或視頻)像在本地服務(wù)器一樣能被快速使用。通過使用一致的數(shù)據(jù)集,您的小組可以一直保持同步。

特點(diǎn):
通過版本控制工具儲(chǔ)存和獲取大型數(shù)據(jù)集
像 Google Docs 一樣協(xié)作: 多個(gè)數(shù)據(jù)科學(xué)家不間斷地同時(shí)處理一組數(shù)據(jù)
同時(shí)從多個(gè)設(shè)備訪問
部署在任何地方 - 本地、Google Cloud、S3、Azure或是Activeloop (默認(rèn)——并且免費(fèi)!)
與您的機(jī)器學(xué)習(xí)工具整合, 比如 Numpy、Dask、Ray、PyTorch或TensorFlow
隨心所欲地創(chuàng)建任意大小的數(shù)組. 您甚至可以儲(chǔ)存 100k x 100k 大小的圖片!
樣本的形狀是動(dòng)態(tài)的. 因此您可以把不同大小的數(shù)組儲(chǔ)存在一個(gè)數(shù)組內(nèi)
無需冗長(zhǎng)的操作,用幾秒種即可可視化數(shù)據(jù)中的片段
訪問公共數(shù)據(jù):
用 Hub 訪問公共數(shù)據(jù)集僅僅需要幾行約定俗成的簡(jiǎn)單代碼。運(yùn)行這個(gè)片段就可以 numpy 數(shù)組的形式取得MNIST 數(shù)據(jù)集前1000張圖片。
訓(xùn)練模型:
加載數(shù)據(jù)并直接訓(xùn)練您的模型。Hub 已經(jīng)與 PyTorch 和 TensorFlow 整合,能以通俗的方式進(jìn)行格式轉(zhuǎn)換。
教程筆記本:
examples 目錄下包含許多示例和筆記本,它們可以讓你對(duì) Hub 有一個(gè)大致的了解。
notebook | 描述 |
圖片上傳 | 關(guān)于向 Hub 中上傳和儲(chǔ)存圖片的概述 |
數(shù)據(jù)幀上傳 | 關(guān)于向 Hub 上上傳和儲(chǔ)存數(shù)據(jù)幀的概述 |
音頻上傳 | 解釋了在 Hub 中處理音頻數(shù)據(jù)的方法 |
獲取遠(yuǎn)程數(shù)據(jù) | 解釋了如何獲取數(shù)據(jù) |
數(shù)據(jù)變換 | 簡(jiǎn)要地描述了如何使用 Hub 進(jìn)行數(shù)據(jù)變換 |
動(dòng)態(tài)張量 | 處理?yè)碛锌勺冃螤钆c大小的數(shù)據(jù) |
使用 Hub 進(jìn)行自然語(yǔ)言處理(NLP) | 針對(duì) CoLA 的 Fine Tuning Bert |
應(yīng)用場(chǎng)景:
衛(wèi)星和無人機(jī)成像: 利用可擴(kuò)展的航空數(shù)據(jù)流建造智能農(nóng)場(chǎng), 繪制印度的經(jīng)濟(jì)狀況, 與紅十字一起在肯尼亞抗擊沙漠蝗蟲
醫(yī)學(xué)圖像: 體積圖像:MRI, Xray
自動(dòng)駕駛汽車: 雷達(dá), 3D LIDAR, 點(diǎn)云, 語(yǔ)義分割, 視頻對(duì)象
零售: 自行結(jié)賬數(shù)據(jù)集
媒體: 圖像,視頻,音頻儲(chǔ)存
有許多數(shù)據(jù)集管理庫(kù)提供與 Hub 類似的功能。實(shí)際上,很多用戶都將 PyTorch 或 Tensorflow 的數(shù)據(jù)集遷移到了 Hub。以下是你在開始使用 Hub 后就會(huì)發(fā)現(xiàn)的一些驚人的不同點(diǎn):
數(shù)據(jù)是劃分為數(shù)據(jù)塊提供的,你可以從遠(yuǎn)程位置流傳輸這些數(shù)據(jù),而不是一次性將它全部下載下來
由于只需要評(píng)估必要部分的數(shù)據(jù)集,你可以立刻開始處理數(shù)據(jù)
你能夠保存那些無法整個(gè)被存儲(chǔ)在內(nèi)存里的數(shù)據(jù)
你可以在不同機(jī)器上,與數(shù)個(gè)其他用戶一起,在版本管理工具下合作管理數(shù)據(jù)集
你將能獲得那些能在數(shù)秒內(nèi)提升你對(duì)數(shù)據(jù)理解的工具,比如我們的可視化工具
你可以輕松地為幾個(gè)不同的訓(xùn)練庫(kù)準(zhǔn)備數(shù)據(jù)(例如,你可以為 PyTorch 和 Tensorflow 使用同一個(gè)數(shù)據(jù)集)
精品福利課程
回顧精品內(nèi)容
推薦系統(tǒng)
1、干貨 | 基于用戶的協(xié)同過濾推薦算法原理和實(shí)現(xiàn)
2、超詳細(xì)丨推薦系統(tǒng)架構(gòu)與算法流程詳解
機(jī)器學(xué)習(xí)
自然語(yǔ)言處理(NLP)
1、AI自動(dòng)評(píng)審論文,CMU這個(gè)工具可行嗎?我們用它評(píng)審了下Transformer論文
2、Transformer強(qiáng)勢(shì)闖入CV界秒殺CNN,靠的到底是什么"基因"
計(jì)算機(jī)視覺(CV)
1、9個(gè)小技巧讓您的PyTorch模型訓(xùn)練裝上“渦輪增壓”...
GitHub開源項(xiàng)目:
1、火爆GitHub!3.6k Star,中文版可視化神器現(xiàn)身
2、兩次霸榜GitHub!這個(gè)神器不寫代碼也可以完成AI算法訓(xùn)練
3、登頂GitHub大熱項(xiàng)目 | 非監(jiān)督GAN算法U-GAT-IT大幅改進(jìn)圖像轉(zhuǎn)換
每周推薦:
1、本周優(yōu)秀開源項(xiàng)目分享:無腦套用格式、開源模板最高10萬贊
七月在線學(xué)員面經(jīng)分享:
1、先工程后算法:美國(guó)加州材料博后辭職到字節(jié)40萬offer
