PiFlow大數(shù)據(jù)流水線系統(tǒng)
PiFlow 是一個基于分布式計算框架Spark開發(fā)的大數(shù)據(jù)流水線系統(tǒng)。該系統(tǒng)將數(shù)據(jù)的采集、清洗、計算、存儲等各個環(huán)節(jié)封裝成組件,以所見即所得方式進行流水線配置。簡單易用,功能強大。它具有如下特性:
- 簡單易用:可視化配置流水線,實時監(jiān)控流水線運行狀態(tài),查看日志
- 功能強大:提供100+的數(shù)據(jù)處理組件, 包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等,同時集成了微生物領域的相關算法。
- 擴展性強:支持自定義開發(fā)數(shù)據(jù)處理組件
- 性能優(yōu)越:基于分布式計算引擎Spark開發(fā)
評論
圖片
表情
