DMTK微軟分布式機器學習工具包
DMTK 是微軟分布式機器學習工具包。
DMTK 包括以下幾個項目:
DMTK framework(Multiverso): 參數服務器架構的機器學習
LightLDA: 用于大規(guī)模主題模型的可擴展、快速、輕量級系統.
Distributed word embedding:文字嵌入分布式算法.
Distributed skipgram mixture: 多義文字嵌入分布式算法
DMTK (Dstributed Machine Learning Toolkit) 當前包括以下組件:
DMTK分布式機器學習框架:它由參數服務器和客戶端軟件開發(fā)包(SDK)兩部分構成。參數服務器在原有基礎上從性能和功能上都得到了進一步提升 ——支持存儲混合數據結構模型、接受并聚合工作節(jié)點服務器的數據模型更新、控制模型同步邏輯等??蛻舳塑浖_發(fā)包(SDK)支持維護節(jié)點模型緩存(與全局 模型服務器同步)、節(jié)點模型訓練和模型通訊的流水線控制、以及片狀調度大模型訓練等。
LightLDA:LightLDA是一種全新的用于訓練主題模型,計算復雜度與主題數目無關的高效算法。在其分布式實現中,我們做了大量的系統 優(yōu)化使得 LightLDA能夠在一個普通計算機集群上處理超大規(guī)模的數據和模型。例如,在一個由8臺計算機組成的集群上,可以在具有2千億訓練樣本(token) 的數據集上訓練具有1百萬詞匯表和1百萬個話題(topic)的LDA模型(約1萬億個參數),這種規(guī)模的實驗以往要在數千臺計算機的集群上才能運行。
分布式詞向量:詞向量技術近來被普遍地應用于計算詞匯的語義表示,它可以用作很多自然語言處理任務的詞特征。微軟為兩種計算詞向量的算法提供了高效的分步式實現:一種是標準的word2vec算法,另一種是可以對多義詞計算多個詞向量的新算法。
(部分介紹來自 IT168)
