<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          如何評(píng)估一項(xiàng)技術(shù)是否值得長(zhǎng)期投入?

          共 4317字,需瀏覽 9分鐘

           ·

          2020-09-09 22:53

          每個(gè)人的時(shí)間都是有限的,在有限的時(shí)間里選擇一項(xiàng)值得投入的技術(shù)會(huì)變得尤為重要。

          筆者從 2008 年開(kāi)始工作到現(xiàn)在也有 12 個(gè)年頭了,一路走來(lái)都在和數(shù)據(jù)打交道,做過(guò)很多大數(shù)據(jù)底層框架內(nèi)核的開(kāi)發(fā)(Hadoop,Pig,Hive,Tez,Spark),也做過(guò)多年上層數(shù)據(jù)計(jì)算框架(Livy, Zeppelin)以及數(shù)據(jù)應(yīng)用開(kāi)發(fā),包括數(shù)據(jù)處理,數(shù)據(jù)分析以及機(jī)器學(xué)習(xí)?,F(xiàn)在是 Apache Member 以及多個(gè) Apache 項(xiàng)目的 PMC 。2018 年加入阿里巴巴實(shí)時(shí)計(jì)算團(tuán)隊(duì)專(zhuān)注在 Flink 的研發(fā)。

          今天我想結(jié)合自己過(guò)去的職業(yè)經(jīng)歷來(lái)聊聊如何評(píng)估一項(xiàng)技術(shù)是否值得學(xué)習(xí)。我一直在大數(shù)據(jù)這個(gè)圈子,從最初的 Hadoop 到后來(lái)的 Hadoop 生態(tài)項(xiàng)目 Pig,Hive,Tez,然后又到新一代的計(jì)算引擎 Spark ,再到最近在做的 Flink ,大數(shù)據(jù)計(jì)算引擎貫穿我的整個(gè)職業(yè)生涯。我個(gè)人來(lái)說(shuō)是比較幸運(yùn)的,在每個(gè)階段都在做比較火的技術(shù),當(dāng)時(shí)更多的是憑著自己的興趣和直覺(jué)在選擇技術(shù)類(lèi)型。現(xiàn)在回過(guò)頭來(lái)看我覺(jué)得需要從下面 3 個(gè)大的緯度來(lái)評(píng)估一項(xiàng)技術(shù)是否值得學(xué)習(xí)。

          1.技術(shù)深度2.生態(tài)廣度3.進(jìn)化能力

          技術(shù)深度

          技術(shù)深度是指這項(xiàng)技術(shù)的根基是否扎實(shí),護(hù)城河是否夠?qū)拤蛏睿欠窈苋菀妆黄渌夹g(shù)所替代。通俗的來(lái)說(shuō)就是這項(xiàng)技術(shù)是否解決了其他技術(shù)所不能解決的有重要價(jià)值的問(wèn)題。這里有兩個(gè)要點(diǎn):

          ?這個(gè)問(wèn)題沒(méi)有人能解,是這項(xiàng)技術(shù)首先解決了這個(gè)問(wèn)題。?解決這個(gè)問(wèn)題能夠帶來(lái)重大價(jià)值。

          拿我職業(yè)生涯開(kāi)始階段學(xué)習(xí)的 Hadoop 為例。當(dāng)時(shí) Hadoop 剛出來(lái)的時(shí)候是一項(xiàng)革命性的技術(shù),因?yàn)楫?dāng)時(shí)除了 Google 宣稱(chēng)自己內(nèi)部有一套 GFS 和 MapReduce 系統(tǒng)外,業(yè)界其他公司都沒(méi)有一套完整的海量數(shù)據(jù)解決方案。而隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)量與日俱增,處理海量數(shù)據(jù)的能力迫在眉睫。Hadoop 的誕生正好解決了這一燃眉之急。

          隨著技術(shù)的發(fā)展, Hadoop 的處理海量數(shù)據(jù)能力的優(yōu)勢(shì)慢慢被人習(xí)慣,相反 Hadoop 存在的缺陷被人不斷詬病(性能差,MapReduce 編寫(xiě)復(fù)雜等等)。而這時(shí)候 Spark 應(yīng)運(yùn)而生,解決了 Hadoop MapReduce 計(jì)算引擎的頑疾。Spark 遠(yuǎn)超過(guò) Hadoop 的計(jì)算性能以及極其優(yōu)雅簡(jiǎn)單的 API 迎合了當(dāng)時(shí)用戶(hù)的需求,受到了廣大大數(shù)據(jù)工程師的熱捧。

          現(xiàn)在我在阿里巴巴從事的是關(guān)于 Flink 的研發(fā)工作,主要原因是我看到了工業(yè)界對(duì)實(shí)時(shí)性的需求以及 Flink 在實(shí)時(shí)計(jì)算這個(gè)領(lǐng)域的霸主地位。之前大數(shù)據(jù)遇到的最大挑戰(zhàn)在于數(shù)據(jù)規(guī)模大(所以大家會(huì)稱(chēng)之為“大數(shù)據(jù)”),經(jīng)過(guò)工業(yè)界多年的努力和實(shí)踐,規(guī)模大這個(gè)問(wèn)題基本已經(jīng)解決了。接下來(lái)幾年,更大的挑戰(zhàn)在于速度,也就是實(shí)時(shí)性。而大數(shù)據(jù)的實(shí)時(shí)性并不是指簡(jiǎn)單的傳輸數(shù)據(jù)或者處理數(shù)據(jù)的實(shí)時(shí)性,而是從端到端的實(shí)時(shí),任何一個(gè)步驟速度慢了,就影響整個(gè)大數(shù)據(jù)系統(tǒng)的實(shí)時(shí)性。

          在 Flink 看來(lái), Everything is stream 。Flink 的以 Stream 為核心的架構(gòu)是業(yè)界獨(dú)一無(wú)二的,由此而產(chǎn)生的性能優(yōu)越,高擴(kuò)展性,端到端 Exactly Once 等特性,更是使得 Flink 在流計(jì)算領(lǐng)域是當(dāng)之無(wú)愧的王者。

          目前主流的流計(jì)算引擎有 3 個(gè):Flink、Storm 和 SparkStreaming 。

          注:Spark Streaming 只能選擇搜索字詞,理論上這樣的對(duì)比是不嚴(yán)謹(jǐn)?shù)?。但作為趨?shì),我們更關(guān)注的是其變化曲線,實(shí)際影響應(yīng)該不大。

          從上面的 Google trends 曲線可以看出,F(xiàn)link 處在一個(gè)快速增長(zhǎng)期, Storm 的熱度在逐年下降,而 Spark Streaming 幾乎進(jìn)入了平臺(tái)期。這就證明了 Flink 在流計(jì)算領(lǐng)域的根基之深,目前來(lái)看還沒(méi)有誰(shuí)可以超越 Flink 在流計(jì)算領(lǐng)域的霸主地位。

          生態(tài)廣度

          一項(xiàng)技術(shù)只有技術(shù)深度是不夠的,因?yàn)橐豁?xiàng)技術(shù)只能專(zhuān)注于做好一件事情,如果要解決實(shí)際生活中的復(fù)雜問(wèn)題,必定要和其他技術(shù)整合聯(lián)動(dòng),這就要求這項(xiàng)技術(shù)具有足夠?qū)挼纳鷳B(tài)廣度。生態(tài)的廣度有 2 個(gè)緯度可以衡量:

          1.上下游生態(tài)。上下游生態(tài)指從數(shù)據(jù)流的角度來(lái)說(shuō)的數(shù)據(jù)上下游。2.垂直領(lǐng)域生態(tài)。垂直領(lǐng)域生態(tài)是指某個(gè)細(xì)分領(lǐng)域或者應(yīng)用場(chǎng)景的整合。

          當(dāng) Hadoop 剛出來(lái)的時(shí)候只有 2 個(gè)基本的組件:HDFS 和 MapReduce ,分別解決了海量存儲(chǔ)和分布式計(jì)算的問(wèn)題。但隨著發(fā)展,需要解決的問(wèn)題越來(lái)越復(fù)雜,HDFS 和 MapReduce 已經(jīng)不能很方便的解決一些復(fù)雜問(wèn)題,這時(shí)候 Hadoop 的其他生態(tài)項(xiàng)目應(yīng)運(yùn)而生,比如 Pig,Hive,HBase 等等從垂直領(lǐng)域生態(tài)這個(gè)角度解決了 Hadoop 不容易或者不能解決的問(wèn)題。

          Spark 亦是如此,一開(kāi)始的 Spark 是要替換原來(lái)的 MapReduce 計(jì)算引擎,后來(lái) Spark 發(fā)展了各種語(yǔ)言接口,各種上層框架,比如 Spark SQL,Spark Structured Streaming,MLlib,GraphX 等等,大大豐富了 Spark 的使用場(chǎng)景,擴(kuò)展了 Spark 的垂直領(lǐng)域生態(tài)。Spark 對(duì)各種 Data Source 的支持,更是讓 Spark 這個(gè)計(jì)算引擎和存儲(chǔ)結(jié)成了聯(lián)盟,建立了強(qiáng)大的上下游生態(tài)系統(tǒng),為端到端的解決方案奠定了基礎(chǔ)。

          我現(xiàn)在做的 Flink 項(xiàng)目的生態(tài)仍然處于起步階段,當(dāng)時(shí)我加入阿里巴巴正不僅僅是看到了 Flink 作為流計(jì)算引擎的霸主地位,更是因?yàn)榭吹搅?Flink 生態(tài)的機(jī)會(huì)。大家如果從我的職業(yè)生涯來(lái)看,會(huì)發(fā)現(xiàn)些許變化,我在從一開(kāi)始專(zhuān)注于大數(shù)據(jù)的核心框架層慢慢在往周邊生態(tài)項(xiàng)目發(fā)展。一個(gè)主要的原因是我對(duì)整個(gè)大數(shù)據(jù)行業(yè)的判斷:大數(shù)據(jù)上半場(chǎng)戰(zhàn)斗集中在底層框架,目前已經(jīng)接近尾聲,未來(lái)的底層大數(shù)據(jù)生態(tài)圈中將不再有那么多的新的技術(shù)和框架,每個(gè)細(xì)分領(lǐng)域都將優(yōu)勝劣汰,走向成熟,更加集中化。下半場(chǎng)戰(zhàn)斗的重點(diǎn)講從底層走向上層,走向生態(tài)。之前的大數(shù)據(jù)創(chuàng)新更偏向于 IAAS 和 PAAS ,未來(lái)你將看到更多 SAAS 類(lèi)型的大數(shù)據(jù)產(chǎn)品和創(chuàng)新。

          每次談到大數(shù)據(jù)的生態(tài),我都拿出上面這張圖。這張圖基本上把你日常需要處理的大數(shù)據(jù)場(chǎng)景都包括進(jìn)來(lái)。從最左邊的數(shù)據(jù)生產(chǎn)者,到數(shù)據(jù)收集,數(shù)據(jù)處理,然后再到數(shù)據(jù)應(yīng)用(BI + AI)。你會(huì)發(fā)現(xiàn) Flink 可以應(yīng)用在每一個(gè)步驟。不僅涉及到大數(shù)據(jù),也涉及到 AI ,但是 Flink 的強(qiáng)項(xiàng)在于流計(jì)算處理,在其他領(lǐng)域的生態(tài)仍在起步階段,我個(gè)人正在做的工作就是完善 Flink 在上面這張圖上端到端的能力。

          進(jìn)化能力

          一項(xiàng)技術(shù)如果技術(shù)深度和生態(tài)廣度都沒(méi)有問(wèn)題,那么至少說(shuō)明這項(xiàng)技術(shù)在當(dāng)下是值得學(xué)習(xí)的。但是投資一項(xiàng)技術(shù)還需要從時(shí)間這個(gè)緯度上考量。你肯定不希望自己學(xué)習(xí)的技術(shù)很快就被淘汰,每年都要去學(xué)習(xí)一項(xiàng)新技術(shù)。所以一項(xiàng)值得投資學(xué)習(xí)的技術(shù)必定需要具有持久的進(jìn)化能力。

          我最初學(xué)的 Hadoop 到現(xiàn)在已經(jīng) 10 多年了,現(xiàn)在仍然被廣泛使用著。雖然現(xiàn)在有很多公有云廠商在搶占 Hadoop 的市場(chǎng),但你不得不承認(rèn)如果一家公司要成立一個(gè)大數(shù)據(jù)部門(mén),第一件事恐怕就是建一個(gè) Hadoop 集群吧。當(dāng)我們現(xiàn)在談?wù)?Hadoop 的時(shí)候,他已經(jīng)不是當(dāng)初的 Hadoop 了,他更多的是 Hadoop 生態(tài)圈的統(tǒng)稱(chēng)。大家有空可以看看 Cloudera CPO Arun 的文章[1],我對(duì)其中的觀點(diǎn)非常認(rèn)同。

          Spark 項(xiàng)目就更不用多說(shuō)了。Spark 經(jīng)過(guò) 14,15 年爆發(fā),現(xiàn)在已經(jīng)進(jìn)入平穩(wěn)期。但是 Spark 仍在進(jìn)化,仍在擁抱變化。Spark on K8s 就是 Spark 擁抱云原生的最好佐證?,F(xiàn)在 Spark 社區(qū)炙手可熱的 Delta,MLFlow 更是 Spark 的強(qiáng)大的進(jìn)化能力的佐證。現(xiàn)在的 Spark 也不僅僅是當(dāng)年要取代 MapReduce 的那個(gè) Spark ,更多是一個(gè)適用于多種場(chǎng)景的通用計(jì)算引擎。

          我從 18 年加入阿里巴巴到現(xiàn)在差不多 1 年半時(shí)間,在這一年半的時(shí)間了,我正好見(jiàn)證了 Flink 的進(jìn)化能力。

          首先 Flink 經(jīng)過(guò)幾個(gè)大版本的發(fā)布,融入了 Blink 的大部分功能,將 Flink SQL 的能力提升了一大截。

          其次 Flink 對(duì) K8s 的支持,對(duì) Python 的支持,對(duì) AI 的支持都在向人們證明這 Flink 自身強(qiáng)大的進(jìn)化能力。

          小 Tips

          除了以上的 3 大維度,在這里我還想分享下我在評(píng)估一項(xiàng)新技術(shù)時(shí)候的一些小技巧。

          利用 Google trends。Google trends 能很好的反映一項(xiàng)技術(shù)的發(fā)展勢(shì)頭,上面提到的趨勢(shì)圖很好的比較了 3 大流計(jì)算引擎 Flink , Spark Streaming 和 Storm ,我們不難得出結(jié)論:Flink 是流計(jì)算領(lǐng)域的王者。

          查看 GitHub 上的 awesome。一項(xiàng)技術(shù)受歡迎的一個(gè)指標(biāo)是 GitHub 上的 awesome list,你可以看看這個(gè) awesome list 的 GitHub star 數(shù)。此外你可以抽一個(gè)周末的時(shí)間看看這個(gè) awesome list 上的內(nèi)容,因?yàn)樯厦婊旧鲜顷P(guān)于這項(xiàng)技術(shù)的精華內(nèi)容,通過(guò)這些內(nèi)容你大致可以判斷出這項(xiàng)技術(shù)的價(jià)值。

          看看技術(shù)網(wǎng)站上是否有一些技術(shù)布道者為這項(xiàng)技術(shù)背書(shū)(我個(gè)人經(jīng)常會(huì)看 medium.com)。技術(shù)圈里通常有這樣一群人,他們對(duì)技術(shù)很執(zhí)著,也很有品位。如果一項(xiàng)技術(shù)真的很好,那么就會(huì)有技術(shù)布道者無(wú)償?shù)臑檫@項(xiàng)技術(shù)背書(shū),分享如何這項(xiàng)技術(shù)的使用心得。

          總結(jié)

          每個(gè)人的時(shí)間都是有限的,在有限的時(shí)間里選擇一項(xiàng)值得投入的技術(shù)會(huì)變得尤為重要。

          以上是我對(duì)如何評(píng)估一項(xiàng)技術(shù)是否值得學(xué)習(xí)的一些思考,也算是對(duì)我自己事業(yè)生涯在技術(shù)選型方面的一個(gè)小小的總結(jié)和回顧,希望我的這些思考能對(duì)大家的職業(yè)生涯有所幫助。

          全文完!

          如果感覺(jué)本文有幫助,有勞轉(zhuǎn)發(fā)或點(diǎn)一下“在看”!讓更多人收獲知識(shí)!

          引用鏈接

          [1]?文章:?https://medium.com/@acmurthy/hadoop-is-dead-long-live-hadoop-f22069b264ac



          長(zhǎng)按識(shí)別下圖二維碼,關(guān)注公眾號(hào)「Doocs 開(kāi)源社區(qū)」,第一時(shí)間跟你們分享好玩、實(shí)用的技術(shù)文章與業(yè)內(nèi)最新資訊。



          瀏覽 32
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  在线亚洲人成电影网站色www | 99日韩在线| 香蕉视频在线观看网站资源 | 夜夜人妻国产香蕉 | 欧美在线视频播放 |