<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Flink萬字干貨:4大發(fā)展方向,美團(tuán)、快手應(yīng)用實(shí)踐(PDF下載)

          共 9560字,需瀏覽 20分鐘

           ·

          2020-12-30 18:42


          作者:王峰(莫問)、梅源

          來源:Flink 中文社區(qū)(ID:gh_5efd76d10a8d)



          剩喜漫天飛玉蝶,不嫌幽谷阻黃鶯。2020 年是不尋常的一年,F(xiàn)link 也在這一年迎來了新紀(jì)元。


          12 月13 – 15 號(hào),2020 Flink Forward Asia(FFA)在春雪的召喚下順利拉開帷幕。Flink Forward Asia 是由 Apache 官方授權(quán),Apache Flink Community China 支持舉辦的會(huì)議。經(jīng)過兩年的不斷升級(jí)和完善,F(xiàn)link Forward Asia 已成為國內(nèi)最大的 Apache 頂級(jí)項(xiàng)目會(huì)議,是 Flink 開發(fā)者和使用者的年度盛會(huì)!


          今年由于疫情的原因,F(xiàn)link Forward Asia 首次采用線上線下雙線同步會(huì)議的形式,吸引了更多的參會(huì)者觀看討論,三天實(shí)際總參與人數(shù)(UV)超過 9.2 萬,單日最高觀看人數(shù)(UV)超過 4 萬。



          FFA 大會(huì)從社區(qū)發(fā)展,業(yè)內(nèi)影響力和 Flink 引擎生態(tài)這三方面總結(jié)了 Flink 過去一年內(nèi)的成績(jī)。


          社區(qū)方面,如上圖所示,根據(jù) Apache 基金會(huì)財(cái)年報(bào)告公布的各項(xiàng)核心指標(biāo)顯示,F(xiàn)link 在 2020 年蟬聯(lián) Apache 社區(qū)最活躍的項(xiàng)目。不僅如此,F(xiàn)link Github 的星數(shù)(代表項(xiàng)目受歡迎程度)和 Flink 的社區(qū)代碼貢獻(xiàn)者(contributor)數(shù)量在過去數(shù)年中一直保持年均 30%+ 的增長(zhǎng)。


          尤其值得一提的是 Flink 中文社區(qū)的繁榮發(fā)展:Flink 是當(dāng)前 Apache 頂級(jí)項(xiàng)目中唯一一個(gè)開通了中文郵件列表([email protected])的項(xiàng)目,且中文郵件列表的活躍度已超過英文郵件列表;Flink 的官方公眾號(hào)訂閱數(shù)超過 3 萬人,全年推送超過 200 篇和 Flink 技術(shù),生態(tài)以及實(shí)踐相關(guān)的最新資訊。


          此外,F(xiàn)link 官方中文學(xué)習(xí)網(wǎng)站也已經(jīng)正式開通:

          https://flink-learning.org.cn/


          收納了和 Flink 相關(guān)的學(xué)習(xí)資料,場(chǎng)景案例以及活動(dòng)信息,希望能對(duì) Flink 感興趣的同學(xué)有所助益。?



          在業(yè)界影響力方面,經(jīng)過幾年的發(fā)展,F(xiàn)link 已經(jīng)成為事實(shí)上的國內(nèi)外實(shí)時(shí)計(jì)算行業(yè)標(biāo)準(zhǔn),大部分主流科技公司均已采用 Flink 作為實(shí)時(shí)計(jì)算的技術(shù)方案。本屆 Flink Forward Asia 邀請(qǐng)到 40 多家一線國內(nèi)外公司參與分享 Flink 的技術(shù)探索和實(shí)踐經(jīng)驗(yàn),上圖列出了其中部分公司的 Logo。


          從圖中的 Logo 來看,Flink 技術(shù)已經(jīng)應(yīng)用到各行各業(yè),深入到我們的日常點(diǎn)滴生活中,從知識(shí)分享到在線教育;從金融服務(wù)到理財(cái)投資;從長(zhǎng)短視頻到在線直播;從實(shí)時(shí)推薦搜索到電商服務(wù)等等。


          從 Flink 引擎生態(tài)來看,2020 年,F(xiàn)link 在流計(jì)算引擎內(nèi)核,流批一體,擁抱 AI,云原生這四個(gè)主打方向上都取得了不錯(cuò)的成績(jī)。


          特別對(duì)于流批一體,今年發(fā)布的三個(gè)大版本(Flink-1.10 & 1.11 & 1.12)對(duì)流批一體進(jìn)一步作了升級(jí)和完善,并首次在阿里巴巴雙十一最核心的天貓營(yíng)銷活動(dòng)分析大屏場(chǎng)景中落地 [1]。經(jīng)歷過雙十一洗禮的流批一體將成為在業(yè)界大規(guī)模推廣的起點(diǎn),開創(chuàng)流批一體新紀(jì)元!


          本文將對(duì) Keynote 議題作一些簡(jiǎn)單的歸納總結(jié),拋磚引玉,感興趣的小伙伴們可以在官網(wǎng)找到相關(guān)主題視頻觀看直播回放。?



          01 主會(huì)場(chǎng)議題



          在主議題之前有兩個(gè)環(huán)節(jié)值得提一提。一是阿里巴巴集團(tuán)副總裁,阿里云智能計(jì)算平臺(tái)負(fù)責(zé)人,人工智能計(jì)算框架 Caffe 之父賈揚(yáng)清老師作為開場(chǎng)嘉賓,分享了他對(duì)開源與云的思考。


          他指出,開源讓云更標(biāo)準(zhǔn)化,而大數(shù)據(jù)和人工智能一體化則是必然趨勢(shì)。顯而易見地,作為頂級(jí)開源項(xiàng)目和實(shí)時(shí)計(jì)算標(biāo)準(zhǔn)的 Flink 在這個(gè)過程中承擔(dān)極其重要的角色。同時(shí)他也對(duì) Flink 如何在未來做到計(jì)算普惠化和數(shù)據(jù)智能化提出更多期待,讓 Flink 的小松果在各行各業(yè)的數(shù)據(jù)和智能融合中生根發(fā)芽!


          二是由阿里云天池平臺(tái)和 Intel 聯(lián)合舉辦的第二屆 Apache Flink 極客挑戰(zhàn)賽頒獎(jiǎng)典禮。此次挑戰(zhàn)賽聚焦防疫主題,在 Apache Flink 平臺(tái)上支持深度學(xué)習(xí)應(yīng)用,吸引了來自 14 個(gè)國家和地區(qū),705 所高校,1327 家企業(yè)的 3840 位選手,由揚(yáng)清,李文和湘雯頒獎(jiǎng)。



          言歸正傳,下面聊聊幾個(gè)主議題。?



          02 Flink as a Unified Engine?–– Now and Next


          主議題由 Apache Flink 中文社區(qū)發(fā)起人,阿里云智能實(shí)時(shí)計(jì)算和開放平臺(tái)負(fù)責(zé)人莫問老師開啟,主要介紹 Flink 社區(qū)在 2020 年取得的成果以及未來的發(fā)展方向,主要包括:流計(jì)算引擎內(nèi)核,流批一體,F(xiàn)link + AI 融合,云原生這四個(gè)方向。


          值得一題的是,他還特別分享了阿里巴巴作為 Flink 最大的使用者和推動(dòng)者,在流批一體雙十一核心業(yè)務(wù)場(chǎng)景落地的過程中的經(jīng)驗(yàn)和心得,相信對(duì)很多有類似需求的小伙伴們會(huì)有啟示。

          技術(shù)創(chuàng)新是開源項(xiàng)目持續(xù)發(fā)展的核心,所以首先第一個(gè)部分是 Flink 社區(qū)在流計(jì)算引擎內(nèi)核方面的創(chuàng)新分享:


          1)Unaligned Checkpoint


          我們知道 Flink 的一個(gè)最核心的部分是通過分布式全局輕量快照算法 [2, vldb17] 做 checkpoint 來保證強(qiáng)一致性 exactly once 語義。這個(gè)算法通過 task 之間 barrier 的傳遞使得每一個(gè) task 只需要對(duì)自己的狀態(tài)進(jìn)行快照;當(dāng) barrier 最終達(dá)到 sink 的時(shí)候,我們就會(huì)得到一個(gè)完整的全局快照(checkpoint)。


          但在數(shù)據(jù)反壓的情況下,barrier 無法流到 sink,會(huì)造成 checkpoint 始終無法完成。Unaligned Checkpoint 解決了反壓狀態(tài)下,checkpoint 無法完成的問題。在 unaligned checkpoint 的模式下,F(xiàn)link 可以對(duì)每個(gè) task 的 channel state 和 output buffer 也進(jìn)行快照,這樣 barrier 可以快速傳遞到 sink,使得 checkpoint 不受反壓影響。


          Unaligned checkpoint 和 aligned checkpoint(現(xiàn)有的 checkpoint 模式)可以通過 alignment timeout 自動(dòng)智能的切換,下圖給出了示意圖。?



          2)Approximate Failover –– 更加靈活的容錯(cuò)模式


          流計(jì)算內(nèi)核引擎部分的另一個(gè)提升是 Approximate 單點(diǎn) Failover。在強(qiáng)一致性 exactly once 語義下,單個(gè)節(jié)點(diǎn)的失敗會(huì)導(dǎo)致全部節(jié)點(diǎn)的重新啟動(dòng)和回滾。


          但對(duì)某些場(chǎng)景,特別是 AI 訓(xùn)練的場(chǎng)景,其實(shí)對(duì)語義一致性的要求并沒有那么高,反而對(duì)于可用性要求更高,所以社區(qū)引入了 Approximate Failover 的模式:?jiǎn)蝹€(gè)節(jié)點(diǎn)的失敗只會(huì)引起該失敗節(jié)點(diǎn)的重啟和恢復(fù),而整個(gè)數(shù)據(jù)流程是沒有中斷的。Approximate Failover 在 AI 訓(xùn)練和推薦場(chǎng)景下是強(qiáng)需求,快手和字節(jié)跳動(dòng)的分享中都有提到。


          3)Nexmark –– Streaming Benchmark


          目前的實(shí)時(shí)流計(jì)算并沒有行業(yè)內(nèi)公認(rèn)的 benchmark,為了填補(bǔ)這項(xiàng)空白,基于 NEXMark[3],F(xiàn)link 推出了第一版包含 16 個(gè) SQL Query 的 benchmark 工具? Nexmark。


          Nexmark 一大特點(diǎn)是方便易用,沒有外部系統(tǒng)依賴, 同時(shí)支持標(biāo)準(zhǔn)的? ANSI SQL。Nexmark 目前業(yè)已開源,可以用來比對(duì)不同流計(jì)算引擎之間的差異。


          https://github.com/nexmark/nexmark


          第二個(gè)重要的部分是流批一體,開頭提到 2020 年是流批一體的新紀(jì)元,為什么這么說呢,莫問老師從流批一體架構(gòu)演進(jìn),F(xiàn)link 批處理性能,以及業(yè)界流批一體數(shù)據(jù)生態(tài)這三個(gè)方面給出了答案。


          1)流批一體架構(gòu)演進(jìn)


          Flink-1.10 & 1.11 兩個(gè)大版本實(shí)現(xiàn)了 SQL & Table 層的流批一體化和解決生產(chǎn)可用性問題;剛剛發(fā)版的 Flink-1.12 解決了 DataStream 層的流批一體化;從 1.13 版本開始,F(xiàn)link 將逐步淘汰 DataSet 這套 API。在全新的流批一體架構(gòu)中,F(xiàn)link 完成了統(tǒng)一的流批表達(dá),統(tǒng)一的流批執(zhí)行,以及統(tǒng)一可插拔的 runtime 支持。


          分會(huì)場(chǎng)中的《基于 Flink DataStream API 的流批一體處理》有對(duì)這個(gè)部分更為詳細(xì)的介紹。?



          2)Batch 性能


          家比較關(guān)心的批的性能:經(jīng)過三個(gè)版本的迭代,以 TPC-DS 為基準(zhǔn),F(xiàn)link-1.12 比 Flink-1.9(去年的版本)提速 3 倍!數(shù)據(jù)量 10TB,20臺(tái) 64Core 機(jī)器的配置下,TPC-DS 運(yùn)行時(shí)間收斂到萬秒以內(nèi)。這意味著 Flink Batch 的性能已經(jīng)不亞于任何一個(gè)業(yè)界主流的 Batch 引擎了。


          3)流批一體數(shù)據(jù)生態(tài)


          莫問老師指出,流批一體不僅僅只是一個(gè)技術(shù)問題,它也對(duì)業(yè)界數(shù)據(jù)生態(tài)的演化也起到了深遠(yuǎn)的作用,比較典型的場(chǎng)景包括數(shù)據(jù)同步集成(數(shù)據(jù)庫里的數(shù)據(jù)同步到數(shù)倉中)和基于 Flink 流批一體的數(shù)倉架構(gòu)/數(shù)據(jù)湖架構(gòu)。


          傳統(tǒng)的數(shù)據(jù)同步集成采用全量增量定時(shí)合并的模式,而 Flink 流批一體混合 connector 可以實(shí)現(xiàn)全量增量一體化數(shù)據(jù)集成(讀取數(shù)據(jù)庫全量數(shù)據(jù)后,可以自動(dòng)切換到增量模式,通過 CDC 讀取 binlog 進(jìn)行增量同步),全量和增量之間無縫自動(dòng)切換,如下圖所示。?



          傳統(tǒng)的數(shù)倉架構(gòu)分別維護(hù)一套實(shí)時(shí)數(shù)倉和離線數(shù)倉鏈路,這樣會(huì)造成開發(fā)流程冗余(實(shí)時(shí)離線兩套開發(fā)流程),數(shù)據(jù)鏈路冗余(兩遍對(duì)數(shù)據(jù)的清洗補(bǔ)齊過濾),數(shù)據(jù)口徑不一致(實(shí)時(shí)和離線計(jì)算結(jié)果不一致)等問題。而 Flink 的流批一體數(shù)倉架構(gòu)將實(shí)時(shí)離線鏈路合二為一,可以完全的解決上述這三個(gè)問題。


          不僅于此,F(xiàn)link 的流批一體架構(gòu)和數(shù)據(jù)湖所要解決的問題(流批一體存儲(chǔ)問題)也完美契合。現(xiàn)在比較主流的數(shù)據(jù)湖解決方案 Iceberg,Hudi 和 Flink 都有集成。其中,F(xiàn)link + Iceberg 已有完整的集成方案;而 Flink + Hudi 的整合也在積極對(duì)接中。


          第三個(gè)大的方向是與 AI 的融合。莫問老師從語言層算法層大數(shù)據(jù)與 AI 一體化流程管理這三個(gè)方面總結(jié)了 2020 年 Flink 在 AI 融合方面的進(jìn)展。


          從語言層來講,F(xiàn)link 對(duì) AI 的主流開發(fā)語言 Python 的支持 PyFlink 逐步走向成熟:Flink 的 DataStream API 和 Table API 都已 Python 化,用戶可以用純 Python 語言開發(fā) Flink 程序;Flink SQL 中支持 Python UDF/UDTF;PyFlink 集成了常用的 Python 類庫如 Pandas,在 PyFlink 中可以直接調(diào)用 Pandas UDF/UDAF。


          從算法層面來看,去年開源的Alink (基于 Flink 的流批一體的傳統(tǒng)機(jī)器學(xué)習(xí)算法庫)新增了數(shù)十個(gè)開源算法,提供基于參數(shù)服務(wù)器的大規(guī)模分布式訓(xùn)練,訓(xùn)練過程與預(yù)測(cè)服務(wù)的銜接更加順暢。?


          https://github.com/alibaba/alink



          大數(shù)據(jù)與 AI 一體化流程管理也是一個(gè)很值得深入探討的問題,其背后的本質(zhì)問題是在離線學(xué)習(xí)實(shí)時(shí)化的大背景下,如何設(shè)計(jì)離線在線機(jī)器學(xué)習(xí)一體化的流程管理架構(gòu),以及該架構(gòu)如何與大數(shù)據(jù)工作流程相結(jié)合,實(shí)現(xiàn)大數(shù)據(jù)與機(jī)器學(xué)習(xí)全鏈路一體化的問題。


          這套完整的解決方案 Flink AI Extended 不僅支持深度學(xué)習(xí)引擎和 Flink 計(jì)算引擎的集成(TensorFlow / PyTorch on Flink),它的工作流(Flink AI Flow)也應(yīng)用了上述的一體化設(shè)計(jì)思想。


          目前 Flink AI Extended 也已經(jīng)開源:

          https://github.com/alibaba/flink-ai-extended


          此外,在分會(huì)場(chǎng)議題中有對(duì) Flink AI Extended 更詳細(xì)的討論和全流程 demo《基于 Flink 的在線機(jī)器學(xué)習(xí)系統(tǒng)架構(gòu)探討》,感興趣的同學(xué)可以找來看看并試用一下。


          此外還有一個(gè)重要的方向是 Flink 與云原生生態(tài) Kubernetes 的深度融合。Kubernetes 目前廣泛應(yīng)用在各種在線業(yè)務(wù)上,其生態(tài)本身發(fā)展也很快,可以給 Flink 在生產(chǎn)中提供更好的運(yùn)維能力。


          從 Flink-1.10 版本開始,F(xiàn)link 經(jīng)過三個(gè)版本的迭代,到 Flink-1.12,F(xiàn)link 已經(jīng)可以原生地運(yùn)行在 Kubernetes 之上,對(duì)接 K8S 的 HA 方案,并不再依賴 ZooKeeper,達(dá)到生產(chǎn)可用級(jí)別。同時(shí),F(xiàn)link 的 JobManager 可以和 K8S Master 直接通信,實(shí)現(xiàn)動(dòng)態(tài)擴(kuò)縮容,并支持對(duì) GPU 的資源調(diào)度。?



          接下來,莫問老師分享了 Flink 在阿里巴巴(Flink 最大的使用者和推動(dòng)者)的前世,今生和未來。


          • 2016 年,F(xiàn)link 在雙十一搜索推薦場(chǎng)景中首次亮相,并用 Flink 實(shí)現(xiàn)搜索推薦和在線學(xué)習(xí)全鏈路實(shí)時(shí)化。

          • 2017 年,F(xiàn)link 成為阿里巴巴集團(tuán)內(nèi)實(shí)時(shí)計(jì)算的標(biāo)準(zhǔn)解決方案。

          • 2018 年,F(xiàn)link 正式上云,使用 Flink 的實(shí)時(shí)數(shù)據(jù)解決方案更好的為中小企業(yè)服務(wù)。

          • 2019 年,阿里巴巴收購了 Flink 的初創(chuàng)公司 Ververica,并將 Blink 回饋給社區(qū),向國際化邁進(jìn)一步。

          • 到 2020 年,F(xiàn)link 已經(jīng)成為事實(shí)上的全球?qū)崟r(shí)計(jì)算標(biāo)準(zhǔn)。目前各大云廠商(阿里云,AWS)和大數(shù)據(jù)廠商(Cloudera)等均已將 Flink 內(nèi)置作為標(biāo)準(zhǔn)的云產(chǎn)品。

          • 到今年雙十一,F(xiàn)link 已包攬阿里內(nèi)部所有集團(tuán)(包括螞蟻,釘釘,菜鳥等)的全鏈路實(shí)時(shí)化解決方案,規(guī)模達(dá)到百萬級(jí) CPU Core。并且在資源沒有增長(zhǎng)的情況下,提高了一倍業(yè)務(wù)能力。今年雙十一的實(shí)時(shí)數(shù)據(jù)處理峰值更是達(dá)到?40 億條記錄/秒的新高。?



          莫問老師強(qiáng)調(diào),“全數(shù)據(jù)鏈路實(shí)時(shí)化”并不是終點(diǎn),阿里巴巴的目標(biāo)是“實(shí)時(shí)離線一體化”。


          2020 年,F(xiàn)link 迎來了實(shí)時(shí)離線流批一體的新紀(jì)元——首次在雙十一最核心場(chǎng)景天貓營(yíng)銷活動(dòng)分析大屏場(chǎng)景中落地,并帶來了巨大的收益:實(shí)時(shí)和離線邏輯業(yè)務(wù)的一體化使得數(shù)據(jù)結(jié)果天然保持一致;同時(shí)使得業(yè)務(wù)開發(fā)效率提升了 4-10 倍;流批任務(wù)的錯(cuò)峰調(diào)度使得資源成本節(jié)省了 1 倍,如上圖所示。


          在行業(yè)實(shí)踐分會(huì)場(chǎng)中的《流批一體技術(shù)在天貓雙 11 的應(yīng)用》對(duì)此有更詳盡的介紹,感興趣的同學(xué)可以參考一下。在行業(yè)內(nèi),字節(jié)跳動(dòng),美團(tuán),快手,知乎,小米,網(wǎng)易等都在探索 Flink 流批一體的落地。



          03 Flink 助力美團(tuán)數(shù)倉增量生產(chǎn)?


          第二場(chǎng)議題由美團(tuán)實(shí)時(shí)計(jì)算負(fù)責(zé)人鞠大升老師帶來,主要分享了 Flink 在美團(tuán)內(nèi)部的應(yīng)用。鞠大升老師首先分享了美團(tuán)數(shù)倉的整體架構(gòu)。如下圖所示。美團(tuán)數(shù)據(jù)架構(gòu)包括數(shù)據(jù)集成系統(tǒng)、數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)消費(fèi)和數(shù)據(jù)應(yīng)用四部分。


          Flink 主要應(yīng)用在? Kafka2Hive、實(shí)時(shí)數(shù)據(jù)處理、Datalink 等(圖中紅圈的部分),而他本次分享也主要集中在這幾個(gè)部分。


          Flink 在美團(tuán)的主要應(yīng)用場(chǎng)景包括實(shí)時(shí)數(shù)倉,實(shí)時(shí)分析;推薦搜索;風(fēng)控監(jiān)控;安全審計(jì)。這幾個(gè)應(yīng)用場(chǎng)景其實(shí)也是 Flink 現(xiàn)在的幾個(gè)最主流的應(yīng)用場(chǎng)景。在美團(tuán)的應(yīng)用場(chǎng)景中,F(xiàn)link 每天的峰值數(shù)據(jù)達(dá)到 1.8 億條記錄/s。



          美團(tuán)的分享有兩個(gè)比較有趣的部分,一是提出了“增量生產(chǎn)”這個(gè)概念。這其實(shí)和莫問老師提到的全量增量一體化數(shù)據(jù)集成異曲同工。但在這個(gè)概念里,增加了數(shù)據(jù)時(shí)效性,數(shù)據(jù)質(zhì)量和生產(chǎn)成本之間的權(quán)衡考量,也即如何在一個(gè)數(shù)倉業(yè)務(wù)中在滿足時(shí)效性的情況下能更有效的控制成本和提升數(shù)據(jù)質(zhì)量。


          二是美團(tuán)基于 Flink 架構(gòu)解決了分布式異構(gòu)數(shù)據(jù)源同步(Datalink)的問題。他們基于 Flink 的同步系統(tǒng)可以將同步任務(wù)通過 Task Manager 分散到集群中,使得整體架構(gòu)有很好的擴(kuò)展性;另一方面,離線和實(shí)時(shí)的同步任務(wù)可以都統(tǒng)一到 Flink 框架中,所以離線和實(shí)時(shí)所有同步的組件都可以共用。


          目前,美團(tuán)在數(shù)據(jù)處理這一層還沒有實(shí)現(xiàn)完全的流批統(tǒng)一,所以鞠大升老師表示,未來的目標(biāo)希望在數(shù)據(jù)處理以及數(shù)據(jù)存儲(chǔ)本身都能達(dá)到流批統(tǒng)一。?



          04 Apache Flink?在快手的過去、現(xiàn)在和未來?


          第三場(chǎng)議題由快手大數(shù)據(jù)架構(gòu)團(tuán)隊(duì)負(fù)責(zé)人趙健博老師帶來,主要分享了快手實(shí)時(shí)計(jì)算選型 Flink 的原因和 Flink 在快手內(nèi)部應(yīng)用的場(chǎng)景,以及快手在這些應(yīng)用場(chǎng)景內(nèi)的相關(guān)技術(shù)改進(jìn)。快手選型 Flink 的原因其實(shí)回答了為什么 Flink 能成為業(yè)界實(shí)時(shí)計(jì)算的標(biāo)準(zhǔn):


          1. 亞秒級(jí)的處理延遲,這對(duì)快手內(nèi)部的實(shí)時(shí)應(yīng)用是個(gè)硬性強(qiáng)需求;

          2. 豐富的窗口計(jì)算模式,自帶的標(biāo)準(zhǔn)化狀態(tài)存儲(chǔ)以及 Exactly Once 的強(qiáng)一致性保證能夠極大的簡(jiǎn)化業(yè)務(wù)開發(fā)和調(diào)試的復(fù)雜度;

          3. 流批一體架構(gòu)的演進(jìn)進(jìn)一步簡(jiǎn)化數(shù)據(jù)和業(yè)務(wù)架構(gòu)的復(fù)雜性。快手表示非常看好 Flink 流批一體在數(shù)據(jù)全場(chǎng)景落地。?



          快手使用 Flink 從 2017 年開始,從 0 到 1 今年已是第四個(gè)年頭,發(fā)展過程如上圖所示。快手使用 Flink 主要場(chǎng)景包括實(shí)時(shí) ETL 數(shù)據(jù)集成,實(shí)時(shí)報(bào)表,實(shí)時(shí)監(jiān)控,實(shí)時(shí)特征處理(AI),目前每天的峰值可以達(dá)到 6 億條記錄 /s。


          針對(duì)上述每一個(gè)場(chǎng)景快手都分享了很詳細(xì)的實(shí)例,特別是特征處理(Feature Processing/Engineering),在很多 AI 場(chǎng)景中還是很有代表性的。


          快手還分享了自研的狀態(tài)存儲(chǔ)(SlimBase)在其內(nèi)部的應(yīng)用。SlimBase 主要分為三層,State Interface 層,KV Cache 層和 File System(Distributed)層;其中 KV Cache 是讀操作能加速的關(guān)鍵。


          當(dāng) SlimBase KV Cache 層都被命中時(shí),SlimBase 相對(duì)于 RocksDB 有 3-9 倍的讀寫效率提升;而 Cache 層不能都被命中的情況下(需要訪問文件系統(tǒng)),讀性能有一些下降。除了 SlimBase,快手對(duì) Flink 的穩(wěn)定性(包括硬件故障,依賴服務(wù)異常,任務(wù)過載)和負(fù)載均衡方面都提出一些改進(jìn)的解決方案。


          分會(huì)場(chǎng)議題《快手基于 Apache Flink 的持續(xù)優(yōu)化實(shí)踐》對(duì)此有更詳細(xì)的介紹。


          對(duì)于未來的規(guī)劃,趙健博老師老師表示會(huì)推動(dòng) Flink 的流批一體在快手內(nèi)部落地,并結(jié)合 Flink 的流批一體推動(dòng) AI 數(shù)據(jù)流實(shí)時(shí)化以提升訓(xùn)練模型的迭代速度。隨著越來越多業(yè)務(wù)使用 Flink,快手對(duì) Flink 的穩(wěn)定性也提出更多的要求(比如快速 Failover 的能力),所以快手在這方面也會(huì)有更多的投入。?



          05 Stream is the New File?


          主議題的最后一場(chǎng)是由戴爾科技集團(tuán)軟件開發(fā)總監(jiān)滕昱老師帶來的流式存儲(chǔ)議題:Pravega。這個(gè)議題比較有趣的是討論了流式存儲(chǔ)的抽象 Stream Abstraction。傳統(tǒng)的文件系統(tǒng)對(duì)于流式存儲(chǔ)來說并不是一個(gè)好的抽象,原因:


          1. 文件的大小有限制,但是流式數(shù)據(jù)是持續(xù)注入的;

          2. 在持續(xù)的數(shù)據(jù)注入中對(duì)存儲(chǔ)的并發(fā)度也需要?jiǎng)討B(tài)調(diào)整,這就涉及到多個(gè)文件的維護(hù)和操作;

          3. 有序的流式數(shù)據(jù)的定位尋址問題在文件系統(tǒng)接口中也無法很好的被支持;

          4. 現(xiàn)在業(yè)界慣用的聯(lián)合使用消息隊(duì)列(Kafka)+ 文件系統(tǒng)的混合抽象也仍然沒有減輕應(yīng)用程序開發(fā)和維護(hù)的難度。?



          根據(jù)上述需求,Dell 科技集團(tuán)設(shè)計(jì)了基于 Stream Abstraction 的流式存儲(chǔ)系統(tǒng) Pravega。Pravega 將流存儲(chǔ)動(dòng)態(tài) scaling,動(dòng)態(tài) scaling 以后如何保證流數(shù)據(jù)邏輯上有序,流數(shù)據(jù)定位和尋址以及 checkpointing 等等一系列問題都封裝在 Stream abstraction 之下。


          在這種抽象之下,流式存儲(chǔ)可以和流式計(jì)算引擎無縫銜接,也給流式計(jì)算屏蔽了很多流存儲(chǔ)端的復(fù)雜性,從而使整個(gè)端到端僅一次性處理(exactly once)的 pipeline 被極大的簡(jiǎn)化(如上圖所示)。


          目前 Pravega 已經(jīng)是一個(gè) CNCF 開源項(xiàng)目,在 Pravega 最新一期官方 blog(https://blog.pravega.io/)中,Pravega 發(fā)布了基于 OpenMessaging Benchmark 對(duì)比 Kafka 和 Pulsar 的各項(xiàng)性能指標(biāo)。


          此外,Pravega 在分會(huì)場(chǎng)中有一場(chǎng)關(guān)于 Pravega Flink connector 的分享,《Pravega Flink connector 的過去,現(xiàn)在和未來》,感興趣的同學(xué)可以看一下。


          除了主會(huì)場(chǎng)阿里巴巴,美團(tuán),快手,Dell 科技集團(tuán)的分享,分會(huì)場(chǎng)由行業(yè)實(shí)踐,核心技術(shù),開源生態(tài),金融行業(yè),機(jī)器學(xué)習(xí)和實(shí)時(shí)數(shù)倉六個(gè)子議題超過 40?家企業(yè)機(jī)構(gòu)參與分享,包括天貓,字節(jié)跳動(dòng),亞馬遜,LinkedIn,愛奇藝,螞蟻,好未來,小米,微博,騰訊,知乎,京東,PingCAP,網(wǎng)易,360 等,后續(xù)會(huì)有更多的對(duì)分會(huì)場(chǎng)議題的專場(chǎng)分享文章,敬請(qǐng)期待!



          總結(jié)和感想


          沒有一個(gè)冬天不能逾越,沒有一個(gè)春天不會(huì)來臨。2020 年是不尋常的一年,雖然疫情肆虐,但是 Flink 社區(qū)在 2020 年持續(xù)繁榮,蟬聯(lián)最活躍的 Apache 項(xiàng)目;Flink 也成為了事實(shí)上的國內(nèi)外實(shí)時(shí)計(jì)算標(biāo)準(zhǔn)。過去一年,F(xiàn)link 在流計(jì)算引擎內(nèi)核,流批一體,AI融合,云原生這四個(gè)方向上都取得了不錯(cuò)的成績(jī),未來也會(huì)在這四個(gè)方向上繼續(xù)耕進(jìn)。


          2020 年是 Flink 的新紀(jì)元,流批一體首次在阿里巴巴雙十一最核心的業(yè)務(wù)場(chǎng)景中落地,這將是流批一體在業(yè)界大規(guī)模推廣的起點(diǎn)。未來可期,讓我們攜手共進(jìn),一起努力,把握好機(jī)遇共同迎接挑戰(zhàn),共創(chuàng)美好的 Flink 2021!


          [1] 40億條/秒!Flink流批一體在阿里雙11首次落地的背后

          [2, vldb17] [State Management in Apache Flink]

          {https://pdfs.semanticscholar.org/6fa0/917417d3c213b0e130ae01b7b440b1868dde.pdf}

          [3] [NEXMark – A Benchmark for Queries over Data]?

          {http://datalab.cs.pdx.edu/niagara/pstream/nexmark.pdf}


          ▼ 活動(dòng)推薦?▼


          12 月 13 日 -12 月 15 日,大數(shù)據(jù)領(lǐng)域頂級(jí)盛會(huì) Flink Forward Asia 2020 圓滿落幕!六大專場(chǎng)解讀 Flink 流批一體生產(chǎn)環(huán)境落地實(shí)踐、Flink 核心技術(shù)、實(shí)時(shí)數(shù)倉應(yīng)用、開源生態(tài)發(fā)展、機(jī)器學(xué)習(xí)及金融行業(yè)應(yīng)用等,點(diǎn)擊下方【
          閱讀原文】,載嘉賓分享 PDF 并觀看直播回放~??



          戳我,下載嘉賓分享 PDF!

          瀏覽 21
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  高潮毛片77777777毛片 | 免费a黄色电影 | 国产三级豆花 | 国产爱操逼女人 | 无码中文字幕 |