streamDM用于 Spark Streaming 的數(shù)據(jù)挖掘
streamDM,是由華為諾亞方舟實驗室開源的使用 Spark Streaming 挖掘大數(shù)據(jù)的開源軟件。
大數(shù)據(jù)流學習
大數(shù)據(jù)流學習(Big Data stream learning)比批量或離線學習更富有挑戰(zhàn)性,因為數(shù)據(jù)在流動的過程中不太可能保持同一種分布。而且,數(shù)據(jù)流中的每一個樣本只能被處理一次,否則它們就需要占用內存進行總結,同時該學習算法也必須非常高效。
Spark Streaming
Spark Streaming 是核心 Spark API 的一個擴展,它能讓多個源的數(shù)據(jù)流處理成為可能。Spark 是一個可擴展可編程的框架,用于大規(guī)模分布式數(shù)據(jù)集(也稱為彈性分布式數(shù)據(jù)集(RDD))處理。Spark Streaming 接收輸入的數(shù)據(jù)流后將數(shù)據(jù)分批,再由 Spark 引擎處理,生成結果。
Spark Streaming 數(shù)據(jù)被編成一個 DStreams 序列,內在地表示成一個 RDD 序列。
包含以下方法:
在第一次開放的 StreamDM 中,我們部署了:
我們部署了以下數(shù)據(jù)生成器:
HyperplaneGenerator
RandomTreeGenerator
RandomRBFGenerator
RandomRBFEventsGenerator
我們部署了 SampleDataWriter:
它可以調取數(shù)據(jù)生成器創(chuàng)建樣本數(shù)據(jù)用于模擬和測試。后面我們將計劃開放:
分類:隨機森林
回歸:Hoeffding 回歸樹,Bagging,隨機森林
聚類:Clustree, DenStream
Frequent Itemset Miner:IncMine, IncSecMine
下一步
為了快速介紹一下 StreamDM 的運行,請打開 Getting Started 文件。StreamDM Programming Guide 展示了 StreamDM 的細節(jié)。完整的 API 文檔,可以參考這里:http://huawei-noah.github.io/streamDM/api/index.html。
部分內容轉載自機器之心
