七大Github機(jī)器學(xué)習(xí)熱門項(xiàng)目
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
本文轉(zhuǎn)自|機(jī)器學(xué)習(xí)算法那些事
Pytorch-Transformers(NLP)
https://github.com/huggingface/pytorch-transformers
PyTorch-Transformers是最新的一系列最先進(jìn)的NLP庫(kù)。它打敗了之前各種NLP任務(wù)的基準(zhǔn)。我真正喜歡pytorch-transformers的是它包含PyTorch實(shí)現(xiàn),預(yù)訓(xùn)練模型權(quán)重和其他重要組件,可以幫助你快速入門。
你可能會(huì)覺得運(yùn)行復(fù)雜的模型需要巨大的計(jì)算能力。但是PyTorch-Transformers沒有這個(gè)問(wèn)題,使大多數(shù)人都可以建立最優(yōu)秀的NLP模型。
NeuralClassifer(NLP)
https://github.com/Tencent/NeuralNLP-NeuralClassifier
文本數(shù)據(jù)的多標(biāo)簽分類是一個(gè)相當(dāng)大的挑戰(zhàn)。當(dāng)我們處理早期的NLP問(wèn)題時(shí),我們通常會(huì)處理單一標(biāo)簽任務(wù)。該級(jí)別在實(shí)際數(shù)據(jù)上增加了幾個(gè)級(jí)別。
在多標(biāo)簽分類問(wèn)題中,實(shí)例或記錄可以具有多個(gè)標(biāo)簽,并且每個(gè)實(shí)例的標(biāo)簽數(shù)量不固定。
NeuralClassifier使我們能夠快速實(shí)現(xiàn)分層多標(biāo)簽分類任務(wù)的神經(jīng)模型。NeuralClassifier提供了我們熟悉的各種文本編碼器,如FastText,RCNN,Transformer編碼器等。

我們可以使用NeuralClassifier執(zhí)行以下分類任務(wù):
二進(jìn)制文本分類
多級(jí)文本分類
多標(biāo)簽文本分類
分層(多標(biāo)簽)文本分類
TDEngine(大數(shù)據(jù))
https://github.com/taosdata/TDengine

TDEngine在上個(gè)月的星星數(shù)超過(guò)了GitHub上所有其他的新項(xiàng)目。在不到一個(gè)月的時(shí)間內(nèi)收到了將近10000顆星。
TDEngine是一個(gè)用于下列領(lǐng)域的開源大數(shù)據(jù)平臺(tái):
物聯(lián)網(wǎng)(IoT)
聯(lián)網(wǎng)汽車
工業(yè)物聯(lián)網(wǎng)
IT基礎(chǔ)設(shè)施等等。
TDEngine提供了與數(shù)據(jù)工程相關(guān)的一整套任務(wù)。我們可以以超快的速度完成所有這些工作(處理查詢速度提高10倍,計(jì)算使用率為1/5)。
有一點(diǎn)目前需要注意,TDEngine僅支持在Linux上執(zhí)行。這個(gè)GitHub存儲(chǔ)庫(kù)包含了完整的文檔和帶有代碼的入門指南。
視頻對(duì)象刪除(CV)
https://github.com/zllrunning/video-object-removal
您是否操作過(guò)圖像數(shù)據(jù)?用于操作和處理圖像的計(jì)算機(jī)視覺技術(shù)非常先進(jìn),其中圖像物體檢測(cè)被認(rèn)為是成為計(jì)算機(jī)視覺專家的基本步驟。
但是操作視頻會(huì)怎么樣?當(dāng)我們需要在視頻中的對(duì)象周圍繪制邊界框時(shí),難度會(huì)提高幾個(gè)級(jí)別。對(duì)象的動(dòng)態(tài)特征使整個(gè)概念更加復(fù)雜。
所以,當(dāng)我看到這個(gè)GitHub存儲(chǔ)庫(kù)時(shí)非常高興。我們只需在視頻中的對(duì)象周圍繪制一個(gè)邊界框即可將它刪除。 真的非常容易!下面是該項(xiàng)目的一個(gè)例子:

Python自動(dòng)補(bǔ)全(編程)
https://github.com/vpj/python_autocomplete
你會(huì)喜歡上這個(gè)機(jī)器學(xué)習(xí)項(xiàng)目。作為數(shù)據(jù)科學(xué)家,我們的工作大多數(shù)就是圍繞著算法做實(shí)驗(yàn)。這是一個(gè)可以自動(dòng)完成簡(jiǎn)單的LSTM模型的Python代碼的項(xiàng)目。
下面灰色突出顯示的代碼是LSTM模型填寫的內(nèi)容(結(jié)果位于圖像的底部):

正如開發(fā)人員所說(shuō):
我們?cè)趐ython代碼中刪除注釋、字符串和空行后進(jìn)行訓(xùn)練和預(yù)測(cè)。在對(duì)python代碼進(jìn)行標(biāo)記化之后訓(xùn)練模型。它似乎比使用字節(jié)對(duì)編碼的字符級(jí)預(yù)測(cè)更有效。
如果你曾經(jīng)花費(fèi)或浪費(fèi)時(shí)間寫了很差的Python代碼,那么你可能需要它。它現(xiàn)在處于在非常早期的階段,所以還存在一些問(wèn)題。
tfpyth – TensorFlow to PyTorch to TensorFlow(編程)
https://github.com/BlackHC/tfpyth
TensorFlow和PyTorch都擁有強(qiáng)大的用戶社區(qū)。但令人難以置信的是PyTorch的使用率可能會(huì)在未來(lái)一兩年內(nèi)超越TensorFlow。這不是打擊TensorFlow,而是相當(dāng)可靠的。
因此,如果你使用TensorFlow編寫了一部分代碼并用PyTorch中編寫了另一部分代碼,并希望將兩者結(jié)合起來(lái)訓(xùn)練模型,那么tfpyth框架非常適合你。tfpyth最好的地方是不需要重寫之前的代碼。

這個(gè)GitHub存儲(chǔ)庫(kù)包含了一個(gè)結(jié)構(gòu)良好的示例,說(shuō)明了如何使用tfpyth。這絕對(duì)是TensorFlow與PyTorch之間的一種新的看法,不是嗎?
安裝tfpyth:
pythonpip install tfpyth
MedicalNet
https://github.com/Tencent/MedicalNet
將遷移學(xué)習(xí)與NLP聯(lián)系起來(lái)。當(dāng)我看到這個(gè)精彩的MedicalNet項(xiàng)目時(shí),我感到很激動(dòng)。

這個(gè)GitHub存儲(chǔ)庫(kù)包含了“Med3D: Transfer Learning for 3D Medical Image Analysis”論文的PyTorch實(shí)現(xiàn)。該機(jī)器學(xué)習(xí)項(xiàng)目將醫(yī)學(xué)數(shù)據(jù)集與不同的模態(tài),目標(biāo)器官和病理進(jìn)行聚合,以構(gòu)建相對(duì)較大的數(shù)據(jù)集。
眾所周知,深度學(xué)習(xí)模型通常需要大量的訓(xùn)練數(shù)據(jù)。因此,TenCent發(fā)布的MedicalNet是一個(gè)出色的開源項(xiàng)目,我希望很多人能夠繼續(xù)在它上面工作。MedicalNet的開發(fā)人員已經(jīng)發(fā)布了基于23個(gè)數(shù)據(jù)集的四個(gè)預(yù)訓(xùn)練模型。
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~

