DPark分布式計(jì)算框架
DPark 是 Spark 的 Python 克隆,是一個(gè)Python實(shí)現(xiàn)的分布式計(jì)算框架,可以非常方便地實(shí)現(xiàn)大規(guī)模數(shù)據(jù)處理和迭代計(jì)算。 DPark 由豆瓣實(shí)現(xiàn),目前豆瓣內(nèi)部的絕大多數(shù)數(shù)據(jù)分析都使用DPark 完成,正日趨完善。
示例代碼:
import dpark
file = dpark.textFile("/tmp/words.txt")
words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1))
wc = words.reduceByKey(lambda x,y:x+y).collectAsMap()
print wc
該代碼可以在本地和 Mesos 集群上運(yùn)行:
$ python wc.py $ python wc.py -m process $ python wc.py -m host[:port]
評(píng)論
圖片
表情
