Apache Griffin開(kāi)源數(shù)據(jù)質(zhì)量解決方案
Apache Griffin是一個(gè)應(yīng)用于分布式數(shù)據(jù)系統(tǒng)中的開(kāi)源數(shù)據(jù)質(zhì)量解決方案。在Hadoop, Spark, Storm等分布式系統(tǒng)中,提供了一整套統(tǒng)一的流程來(lái)定義和檢測(cè)數(shù)據(jù)集的質(zhì)量并及時(shí)報(bào)告問(wèn)題。
Apache Griffin填補(bǔ)了開(kāi)源世界里在大數(shù)據(jù)質(zhì)量領(lǐng)域的空白。就像空氣質(zhì)量,水和食品安全等無(wú)時(shí)不刻地在影響人類(lèi)的生命一樣,數(shù)據(jù)質(zhì)量在數(shù)據(jù)科學(xué)領(lǐng)域是至關(guān)重要的。在大數(shù)據(jù)時(shí)代,企業(yè)決策調(diào)整,商機(jī)發(fā)現(xiàn)等越來(lái)越依賴(lài)于大數(shù)據(jù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘,而數(shù)據(jù)質(zhì)量的保證是所有一切數(shù)據(jù)分析和數(shù)據(jù)挖掘的基礎(chǔ)。
系統(tǒng)架構(gòu):
核心優(yōu)勢(shì):
主要功能:
企業(yè)應(yīng)用:
Apache Griffin已經(jīng)部署在eBay的生產(chǎn)環(huán)境中,為eBay系統(tǒng)提供核心數(shù)據(jù)質(zhì)量檢測(cè)服務(wù)(例如:實(shí)時(shí)的個(gè)性化數(shù)據(jù)平臺(tái),Hadoop 數(shù)據(jù)集等),每天驗(yàn)證的記錄超過(guò)8億條,數(shù)據(jù)量約1.2PB。
團(tuán)隊(duì)成員:
Apache Griffin現(xiàn)在的團(tuán)隊(duì)成員全部來(lái)自eBay中國(guó)卓越技術(shù)中心,這又是一個(gè)由國(guó)人自主研發(fā)并貢獻(xiàn)出來(lái)的開(kāi)源項(xiàng)目。目前正在將Apache Griffin項(xiàng)目遷移到Apache社區(qū),我們非常歡迎熱心于開(kāi)源軟件的程序猿們,數(shù)據(jù)猿們參與進(jìn)來(lái),一起推動(dòng)Apache Griffin更快更好的發(fā)展,回饋給全球軟件開(kāi)發(fā)者們。
