Flink Forward 2021中一些值得關(guān)注的動態(tài)

周末的時候看了Flink Forward 2021的回放。
朋友圈很多朋友都看了,觀眾人數(shù)第一天還挺多,第二天大家好像熱性消退,觀看人減少了很多。
OK,有幾個值得注意的點大家可以自己琢磨琢磨。
實時計算開始普及到各個傳統(tǒng)行業(yè)
這在2年前是非常不可思議的事情,實時計算領(lǐng)域這兩年發(fā)展火熱,主要就是Flink社區(qū)的大力推動。
阿里在這件事上也是下足了本錢,有一個很大的運營團隊推廣這個事情。阿里云上的產(chǎn)品也非常成熟。
這其中包含了各種銀行、保險、證券等非互聯(lián)網(wǎng)公司都對基于Flink的實時計算體系做了應(yīng)用和探索。

也就是說,實時計算這個技能已經(jīng)成了數(shù)據(jù)人的標配。不管你以前是做什么的,如果你還是數(shù)據(jù)開發(fā)方向,都要趕緊補上自己的這個技能點。
尤其是做傳統(tǒng)數(shù)據(jù)倉庫的讀者們,需要趕緊轉(zhuǎn)到以實時計算為主的方向上來,不要抱著原來的思維模式把精力投入在離線體系中。
Flink SQL化勢不可擋
整個數(shù)據(jù)開發(fā)領(lǐng)域SQL化已經(jīng)勢不可擋。
這到底是好事還是壞事?對公司、業(yè)務(wù)來說是好事,對開發(fā)人員來說就不一定了。你看程序員就喜歡干這種事,做出來的東西能干掉自己。

大家可以看到,這些公司的計算平臺都在向SQL化遷移,這些平臺的成熟未來會給業(yè)務(wù)開發(fā)人員帶來巨大的便利。
Flink ML
根據(jù)社區(qū)開發(fā)者的描述:
「我們設(shè)計了原生支持實時機器學習的算法接口,算法使用者可以更容易配置,組合和部署在線預(yù)測算法和在線學習算法。所設(shè)計的算法接口可以支持多輸入多輸出,以及將算法模塊以有向圖的方式進行組合使用。我們設(shè)計并實現(xiàn)了基于 DataStream 的迭代引擎,以取代基于 DataSet 的迭代引擎。針對各種算法的需求,我們設(shè)計了更容易使用的迭代引擎接口,為算法開發(fā)者優(yōu)化算法性能提供更豐富的接口選擇?!?/span>
「我們計劃按照新設(shè)計的算法接口以及迭代引擎,將阿里云研發(fā)多年的 Alink 算法庫改造并貢獻進入 Flink ML。通過將 Apache Flink 的強大社區(qū)生態(tài),技術(shù)領(lǐng)先的 Alink 算法庫,與新設(shè)計的算法接口結(jié)合在一起,我們希望做到優(yōu)勢互補,幫助 Flink ML 成為最容易使用的,覆蓋最多算法的,以及應(yīng)用最廣泛的流批一體機器學習算法庫。」
Flink的機器學習部分一直是短板,尤其是在和Spark這樣的框架相比之下。Alink雖然早早在Github開源,但是一直不溫不火。這次的更新代表Flink要開始蠶食Spark對算法領(lǐng)域的優(yōu)勢,未來會不會出現(xiàn)更多的 DataBricks 這樣的商業(yè)化公司,我們拭目以待。
流式數(shù)倉Streamhouse新勢力
阿里大佬們又開始整活了。
「Apache Flink 中文社區(qū)發(fā)起人、阿里巴巴開源大數(shù)據(jù)平臺負責人王峰(花名莫問)重點介紹了 Flink 在流批一體架構(gòu)演進和落地方面的最新進展,并提出了 Flink 下一步的發(fā)展方向——流式數(shù)倉(Streaming Warehouse,簡稱 Streamhouse)。正如主題演講標題"Flink Next, Beyond Stream Processing"所言,F(xiàn)link 要從 Stream Processing 走向 Streaming Warehouse 去覆蓋更大的場景,幫助開發(fā)者解決更多問題。而要實現(xiàn)流式數(shù)倉的目標,就意味著 Flink 社區(qū)要拓展適合流批一體的數(shù)據(jù)存儲,這是 Flink 今年在技術(shù)方面的一個創(chuàng)新,社區(qū)相關(guān)工作已經(jīng)在 10 月份啟動,接下來這會作為 Flink 社區(qū)未來一年的一個重點方向來推進?!?/span>
「Flink 可以讓當前業(yè)界主流數(shù)倉架構(gòu)再進階一層,實現(xiàn)真正端到端全鏈路的實時化分析能力,即:當數(shù)據(jù)在源頭發(fā)生變化時就能捕捉到這一變化,并支持對它做逐層分析,讓所有數(shù)據(jù)實時流動起來,并且對所有流動中的數(shù)據(jù)都可以實時查詢。再借助 Flink 完備的流批一體能力,使用同一套 API 就可以同時支持靈活的離線分析。這樣一來,實時、離線以及交互式查詢分析、短查詢分析等,就可以統(tǒng)一成一整套解決方案,成為理想中的 “流式數(shù)倉(Streaming Warehouse)”。」
基于此,F(xiàn)link孵化了一個項目叫做:Flink Dynamic Table。
Flink Dynamic Table(社區(qū)討論詳見 FLIP-188)可以理解為一套流批一體的存儲,并無縫對接 Flink SQL。原來 Flink 只能讀寫像 Kafka、HBase 這樣的外部表,現(xiàn)在用同一套 Flink SQL 語法就可以像原來創(chuàng)建源表和目標表一樣,創(chuàng)建一個 Dynamic Table。流式數(shù)倉的分層數(shù)據(jù)可以全部放到 Flink Dynamic Table 中,通過 Flink SQL 就能實時地串聯(lián)起整個數(shù)倉的分層,既可以對 Dynamic Table 中不同明細層的數(shù)據(jù)做實時查詢和分析,也可以對不同分層做批量 ETL 處理。
目前 Dynamic Table 第一個階段的實現(xiàn)方案已經(jīng)完成,社區(qū)也在圍繞這個方向展開更多討論。根據(jù)社區(qū)的規(guī)劃,未來的終態(tài)會實現(xiàn) Dynamic Table 的服務(wù)化,真正形成一套 Dynamic Table 的 Service,實現(xiàn)完全實時化的流批一體存儲。同時,F(xiàn)link 社區(qū)也正在討論將 Dynamic Table 作為 Flink 獨立子項目運營和發(fā)布,不排除后續(xù)將其完全獨立成為流批一體通用存儲項目發(fā)展。最終,利用 Flink CDC、Flink SQL、Flink Dynamic Table 就可以構(gòu)建一套完整的流式數(shù)倉,實現(xiàn)實時離線一體化的體驗。
好的,各位同學們,繼續(xù)卷起來吧。
Hi,我是王知無,一個大數(shù)據(jù)領(lǐng)域的原創(chuàng)作者。? 放心關(guān)注我,獲取更多行業(yè)的一手消息。

