<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          為什么說數(shù)據(jù)治理的下一站是DataOps?

          共 7712字,需瀏覽 16分鐘

           ·

          2022-05-14 13:24

          來源:InfoQ
          根據(jù)信通院數(shù)據(jù),2019 年,我國數(shù)據(jù)產(chǎn)量總規(guī)模為 3.9ZB,同比增加 29.3%,占全球數(shù)據(jù)總產(chǎn)量(42 ZB)的 9.3%。而 IDC 中國預(yù)測,2025 年中國大數(shù)據(jù)產(chǎn)生量有望增長至 48.6 ZB,這已經(jīng)超過了 2019 年全球數(shù)據(jù)量的水平。這對大數(shù)據(jù)行業(yè)來說,既是機遇,也是挑戰(zhàn)。
          越來越大的數(shù)據(jù)量,加上數(shù)據(jù)敏感和脆弱等的特點,數(shù)據(jù)治理一直都是一個困擾企業(yè)發(fā)展的問題。有開發(fā)者表示,每個人都在談?wù)摂?shù)據(jù)治理,卻沒有人真正知道該怎么辦。
          —?01?
          數(shù)據(jù)治理有哪些難點?
          ?Q:在現(xiàn)在的企業(yè)數(shù)據(jù)治理上存在哪些痛點? 為什么會出現(xiàn)這些問題,以及當(dāng)前情況下是怎么解決的?
          A:數(shù)據(jù)治理和數(shù)據(jù)開發(fā)一直都是困擾著企業(yè)的難題。Google 最近發(fā)了一篇文章表示,雖然 Google 在 AI 算法上非常厲害,但如果大家都只想搞算法,沒人想去搞數(shù)據(jù),那算法是沒有用的。比如進來個臟數(shù)據(jù),算法一點用都沒有。但搞數(shù)據(jù)的工作,大家都認(rèn)為很“臟”、很費神,算法更高大上。
          數(shù)據(jù)的治理和數(shù)據(jù)質(zhì)量非常重要,整個數(shù)據(jù)開發(fā)流程也非常重要。算法是最后讓數(shù)據(jù)產(chǎn)生價值的很重要的一部分,但是如果沒有前面的準(zhǔn)備工作,那么數(shù)據(jù)質(zhì)量和數(shù)據(jù)開發(fā)效率就無法保證,后面算法也發(fā)揮不了作用。很多公司,包括 Google、Twitter 和 Facebook,他們的算法之所以有那么大的作用,就是因為他們數(shù)據(jù)的基礎(chǔ)架構(gòu)做得好,所以他們才能保證算法的有效性。
          那么這個難度在哪呢?現(xiàn)在,數(shù)據(jù)管理、治理工具和數(shù)據(jù)治理體系暫時還沒有一個成形的體系,所有公司的數(shù)據(jù)質(zhì)量、數(shù)據(jù)開發(fā)工具基本都是拿開源組件自己臨時搭建。
          整個數(shù)據(jù)的測試流程中,大家很少聽說數(shù)據(jù)有 CI/CD,數(shù)據(jù)有沒有 CI/CD?數(shù)據(jù)的 ETL 程序有沒有 CI/CD?數(shù)據(jù)開發(fā)完了在哪測試?能不能在生產(chǎn)數(shù)據(jù)上測試呢?如果程序是對的,那數(shù)據(jù)改變后我的程序語義還能夠保證它的正確性嗎?企業(yè)在實際生產(chǎn)時,這些問題都是在大規(guī)模使用數(shù)據(jù)時會經(jīng)常碰到。由于數(shù)據(jù)的使用,大家覺得大數(shù)據(jù)好像搞了很多年,但其實到現(xiàn)在大數(shù)據(jù)的基礎(chǔ)才逐漸成熟,大家也才意識到,數(shù)據(jù)組織后的數(shù)據(jù)質(zhì)量是更重要的。
          所以,我覺得現(xiàn)在正是將數(shù)據(jù)質(zhì)量、數(shù)據(jù)治理和整個數(shù)據(jù)開發(fā)體系的工具提到前臺的好時機。以前數(shù)據(jù)基礎(chǔ)還沒有成熟,提這個可能有點早,但現(xiàn)在越來越多的企業(yè),特別是頭部企業(yè)發(fā)現(xiàn)了這個問題。
          硅谷的很多公司,包括在國內(nèi)的頭部公司,他們早就遇到了這些問題,他們自己內(nèi)部肯定是有解決方案的。產(chǎn)品化的事情也有人在做,大家現(xiàn)在看到的開源工具里像 Spark、Kafka 都很成熟,做得都很好。但是,像 DataOps 這種跟企業(yè)的底層數(shù)據(jù)情況和數(shù)據(jù)的基礎(chǔ)架構(gòu)緊密相關(guān)的工具比較少,DataOps 工具剛剛出現(xiàn),現(xiàn)在也才獲得大家的關(guān)注。
          —?02?
          什么是 DataOps?
          ?Q:現(xiàn)在越來越多的技術(shù)和廠商都在產(chǎn)品中會提到 DataOps,但是可能目前大家對 DataOps 定義還沒有很統(tǒng)一的定義。那么,到底什么是 DataOps?為什么它現(xiàn)在會被很多企業(yè)青睞?
          A:DataOps 是從 DevOps 借鑒的一個理念。可以理解為 DataOps 是把 DevOps 的一些理念映射到了數(shù)據(jù)開發(fā)上,它們的很多觀點是可以一一對應(yīng)的,如開發(fā)及運維、云原生、微服務(wù)化、CI/CD,這些都可以在 DataOps 里找到,如果你的 DevOps 里沒有這些概念,就要考慮下你的開發(fā)流程是不是符合最佳實踐。
          但 DataOps 與 DevOps 也有區(qū)別。DataOps 是想處理數(shù)據(jù),而在 DevOps 里是不需要處理數(shù)據(jù)的,它主要是做應(yīng)用的開發(fā),應(yīng)用的 CI/CD、發(fā)布及運維。但就像剛才說的,DataOps 實際上屬于一個比較早期的概念,大家對它的解讀還是會有不一樣。
          在 DataOps 里面有很重要的一點,就是要處理數(shù)據(jù)的各種不可預(yù)知性。數(shù)據(jù)語義是一個難題,它沒辦法在 CI/CD 里被容易定義,不是沒有辦法,但很困難。之前大部分原生大數(shù)據(jù)組件開發(fā)時并沒有考慮到這個規(guī)范。
          DevOps 也經(jīng)過了很長一段時間的演變,像 Git 逐漸成為規(guī)范,微服務(wù)基本上都是標(biāo)準(zhǔn)的組件。大數(shù)據(jù)組件體系架構(gòu)特別多、選擇特別多,發(fā)展也特別快,現(xiàn)在的 Spark、流數(shù)據(jù),F(xiàn)link,卡夫卡,底層基本上也是 K8S、Hadoop 和 Hdefs,這些基本上可以形成標(biāo)準(zhǔn)化。那么,現(xiàn)在就是做 DataOps 一個比較好的時候。
          DataOps 的工作主要有五個方向:
          • 第一個是任務(wù)調(diào)度。主要包括云原生調(diào)度、容器的調(diào)度,這跟 DevOps 是一樣的。

          • 第二個是數(shù)據(jù)安全。數(shù)據(jù)安全以前基本不在 DataOps 的考慮范圍,也不在數(shù)據(jù)開發(fā)的范圍內(nèi),但現(xiàn)在數(shù)據(jù)安全很重要。

          • 第三個就是數(shù)據(jù)管理和數(shù)據(jù)門戶。大家可能會說原數(shù)據(jù)管理不都好多年了,但以前的原數(shù)據(jù)管理主要是針對關(guān)系型數(shù)據(jù)庫,關(guān)系型數(shù)據(jù)庫對原數(shù)據(jù)的管理相對容易,只要到數(shù)據(jù)庫里把原數(shù)據(jù)爬出來就可以。但現(xiàn)在有流數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),還有 TaiDB 等,各種各樣的原數(shù)據(jù)怎么樣去管理?血緣管理更復(fù)雜了。之前是幾個 SQL 之間的血緣管理,現(xiàn)在關(guān)系到各種各樣的查詢、各種各樣的系統(tǒng)、數(shù)據(jù)門戶跟 MapDatas 是一樣的。

          • 第四是數(shù)據(jù)檢測的可視化。DevOps 里有很多可監(jiān)測到的指標(biāo),數(shù)據(jù)層面也一樣。用多少資源、花多少時間、創(chuàng)造了多少價值,之前都是一個黑盒子,但 DataOps 的整個數(shù)據(jù)都是端到端的,相關(guān)指標(biāo)可觀測、可管理。

          • 第五就是集成開發(fā)。所有的工具必須是可集成的,不可能做一個工具負責(zé)血緣管理,再做一個工具負責(zé)調(diào)度。

          我認(rèn)為,DataOPS 里面必須具備這五個工具體系,如果你的 DataOps 體系里面缺了任何一個,我都覺得是不完善的。
          ?Q:DataOps 如何做持續(xù)測試?
          A:數(shù)據(jù)開發(fā)、數(shù)據(jù)程序的測試一直是老大難問題,甚至頭部大廠整套流程做下來也是現(xiàn)在非常困難的。現(xiàn)在 DevOps 里有一個很有意思的觀念,就是把集訓(xùn)資源的管理全部用 Code 來管理,大數(shù)據(jù)也一樣。美國有一個很火的公司叫 DTB,它是要把所有的 ETL(數(shù)據(jù)倉儲技術(shù))流程做成代碼管理,將 SQL 的所有轉(zhuǎn)換變量化、代碼化,將所有 ETL 程序間的關(guān)系、血緣全部用代碼的形式來進行管理。可以說,不只 SQL 是代碼,整個調(diào)度也都是代碼。所以,DBT 的整個 ETL 程序可以被放到 Git 里面。
          用戶可以在指定的 data ?source 的測試環(huán)境中可以測試,可以到 Data 生態(tài)環(huán)境中直接切換一個 Data ?source,將其變成生產(chǎn)環(huán)境,所以它允許支撐 ETL 流程的 CI/CD。將所有 ETL 程序之間的依賴全部代碼化,這就是 DTB 的一個思路。
          除了 ETL 之外,我們現(xiàn)在做的事就是把所有大數(shù)據(jù)組件里面的關(guān)系、程序全部代碼化,這是未來的必然趨勢。
          —?03?
          DataOps 與云原生數(shù)據(jù)中臺的關(guān)系
          ?Q:DataOps 與云原生數(shù)據(jù)中臺是什么樣的關(guān)系?他們目前各自的發(fā)展情況如何?
          A:國內(nèi)數(shù)據(jù)中臺也提了兩三年了,有成功的案例也有失敗的。我們在這方面也做了很多探索。我們的觀點是,數(shù)據(jù)中臺絕對要做,但 DataOps 是實現(xiàn)數(shù)據(jù)中臺的一個最好的方法論和工具體系。
          這跟 DevOps 是一樣的。一個業(yè)務(wù)系統(tǒng)可以使用 DevOps 方法來做,也可以使用傳統(tǒng)方法去做,兩種方法最后做成的業(yè)務(wù)系統(tǒng)可能都差不多,但這只是開始的時候差不多,后面的持續(xù)迭代、持續(xù)運維的時候,就能看出來 DevOps 的優(yōu)勢了。
          數(shù)據(jù)中臺也是一樣,它是給大家提供一個數(shù)據(jù)開發(fā)和運營的底座,開始你可以用各種各樣的方法去做一個數(shù)據(jù)平臺,但是后續(xù)迭代和不斷發(fā)展的時候,DataOps 就成為最合適的一種方法。
          DevOps 提倡的是賦能和自助,通過 CI/CD 持續(xù)發(fā)布,開發(fā)工程師自己來做運維測試,DataOps 也一樣,也是提供工具讓各個業(yè)務(wù)部門等數(shù)據(jù)使用者,能夠在中臺上拿到自己需要的功能。我們認(rèn)為這是 DataOps 和數(shù)據(jù)中臺的關(guān)系。
          ?Q:企業(yè)如何去做云原生數(shù)據(jù)平臺的改造?整個過程可能會面臨哪些問題?
          A:我覺得,現(xiàn)在云原生的數(shù)據(jù)中臺還是一個比較有挑戰(zhàn)性的課題,但也是個必然的趨勢。很多企業(yè)的數(shù)據(jù)平臺效率非常低,因為傳統(tǒng)大數(shù)據(jù)平臺使用的 Hadoop、卡夫卡等都不是在云原生的方式下開發(fā),資源使用效率低、管理復(fù)雜,但云原生會大大降低整個系統(tǒng)的管理復(fù)雜度,提高系統(tǒng)的使用效率和運營效率。
          這個過程中會面臨的困難,主要是人才問題。這個技能的門檻比較高,需要研發(fā)既懂云原生又懂新技術(shù),這樣的人才缺口還是挺大的。但這也有個好處就是,云原生產(chǎn)品的標(biāo)準(zhǔn)化程度比較高,這樣容易做出標(biāo)準(zhǔn)化的產(chǎn)品讓大家使用。
          舉個例子,以前裝一個大數(shù)據(jù)平臺需要直接面對底下的物理及虛擬機,但各種各樣的配置,不同的操作系統(tǒng)、環(huán)境和網(wǎng)絡(luò),所有這些都得去管理。K8S 的出現(xiàn)就讓大家不必再考慮所有的底層組件,只要跟云原生這個體系對接就可以了。這是一個很好的機會,所有的企業(yè)一定會看到,但這個過程肯定是需要時間的。
          ?Q:您之前多次提到過“數(shù)據(jù)中臺方法論”,這個方法論具體都包含哪些內(nèi)容?
          A:這個方法論的主要目的就是追求效率。我們國內(nèi)很多客戶的大數(shù)據(jù)平臺的資源使用率大概都是 15%-20%,但 Twitter 的自然使用率一般能達到 50%-60%,而且還有各種各樣的彈性擴展、自動容錯等云原生功能。
          了解這個之后,需要做到以下四點:
          第一,選擇合適的工具和平臺。這個是基礎(chǔ),選不到合適的架構(gòu)工具,也就不存在效率了,所以如何選擇合適的平臺工具很重要。
          第二,要有一個完善的頂層架構(gòu)設(shè)計。因為數(shù)據(jù)平臺要把大家的數(shù)據(jù)接進來,與業(yè)務(wù)系統(tǒng)對接起來才能產(chǎn)生效果。DevOps 分布式的開發(fā),集中式的管理,但這個集中式管理不是靠人,而是靠體系和工具。
          第三,業(yè)務(wù)驅(qū)動。為了大數(shù)據(jù)而大數(shù)據(jù)一般成功不了,一定是可以解決業(yè)務(wù)問題的才能走到最后,解決不了業(yè)務(wù)問題的數(shù)據(jù)平臺是偽命題。解決業(yè)務(wù)痛點之后,還要賦能業(yè)務(wù)。要把業(yè)務(wù)部門引入進來,不斷使用這個數(shù)據(jù)平臺,獲得業(yè)務(wù)部門認(rèn)可后這個東西才能走。
          第四,要有價值衡量體系。如何量化產(chǎn)生的價值,很困難但是也很重要。我們一般要求決策方、業(yè)務(wù)方,技術(shù)方和數(shù)據(jù)平臺等各方面職責(zé)明確,避免后面出現(xiàn)越來越多的問題。
          —?04?
          DataOps 的應(yīng)用
          ?Q:2018 年,高德納把 DataOps 納入了技術(shù)管理成熟體系曲線里面,DataOps 被正式接納和推廣。三年過去了,目前有什么成熟的應(yīng)用案例出來嗎?
          A:DataOps 在云原生出來之前就有,但可能沒有叫這個名字。頭條、騰訊等大廠們都有自己的一套 DataOps 體系,Twitter 等硅谷公司也有,那為什么現(xiàn)在才提出來?因為這個東西要產(chǎn)品化。雖然大廠都有 DataOps 體系,但是將近一百人的數(shù)據(jù)團隊,eBay 大概有三百多人,一般企業(yè)很難請得起這么多高薪的人才。
          現(xiàn)在 DataOps 火了是因為大家都需要,數(shù)據(jù)價值不是大廠獨有的。但橫梗在前的成本問題怎么解決?這就需要 DataOps 工具將數(shù)據(jù)價值開發(fā)平移化。為什么稱為云原生的 DataOps?因為只有云原生技術(shù)統(tǒng)一了各種各樣的硬件環(huán)境、開發(fā)環(huán)境、發(fā)布環(huán)境、運維流程等等之后,DataOps 才可以將聚焦在數(shù)據(jù)開發(fā)、數(shù)據(jù)監(jiān)控、數(shù)據(jù)管理、原數(shù)據(jù)和數(shù)據(jù)安全上。
          ?Q:您在 Twitter 的時候,一個主要職責(zé)就是讓公司所有的人避免重復(fù)開發(fā)數(shù)據(jù)組件。這個需求是在一個什么樣的背景下產(chǎn)生的?
          A:這個就是很重要的不要重復(fù)造輪子的問題。重新造輪子會造成資源消耗,然后減慢開發(fā)速度。要避免不重新造輪子,那么就必須知道現(xiàn)在有什么“輪子”,但很多企業(yè)并不知道自己有什么“輪子”。DataOps 很重要的一點就是原數(shù)據(jù)管理,它的原數(shù)據(jù)管理比原來的要更廣泛,它可以知道整個企業(yè)有什么樣的數(shù)據(jù)功能。
          更重要的是,企業(yè)重新造輪子,一旦兩個輪子造得不一樣,會把這個車開垮。我們原來做數(shù)據(jù)門戶,就要求所有的業(yè)務(wù)部門和數(shù)據(jù)分析師必須做統(tǒng)一的接口,然后發(fā)現(xiàn)有兩個部門就在重復(fù)造輪
          Q:DataOps 會有開源生態(tài)嗎?
          A:目前是逐漸成熟的過程中,還沒有成熟到大家都可以使用的端到端產(chǎn)品。
          我們之前公眾號有篇文章講到,硅谷的大概十幾家公司,每個公司都有自己的數(shù)據(jù)門戶和產(chǎn)品,但是沒有成熟的產(chǎn)品。今年 6 月份左右,Linking 將自己的數(shù)據(jù)門戶產(chǎn)品開源了,也有人在做血緣管理,但都是這兩年才起來的公司。這個生態(tài)在逐漸形成,但是遠遠沒有到達成熟的階段。
          Q:現(xiàn)在,DataOps 還解決不了哪些問題?
          A:我覺得,當(dāng)前 DataOps 沒辦法解決業(yè)務(wù)價值的挖掘問題。DataOps 實際是降低了數(shù)據(jù)使用門檻,讓更多的業(yè)務(wù)人員可以直接開發(fā)他們需要的數(shù)據(jù)并將這個開發(fā)成果給大家使用,這在以前必須要依賴數(shù)據(jù)科學(xué)家或者數(shù)據(jù)工程師。但是,如何把這些數(shù)據(jù)與業(yè)務(wù)結(jié)合起來、用數(shù)據(jù)去促進業(yè)務(wù),這不是 DataOps 能回答的問題。我們只是賦能,但是真正怎么樣讓你的數(shù)據(jù)去促進企業(yè)的業(yè)務(wù)發(fā)展,那一定需要企業(yè)懂自己的業(yè)務(wù)。
          —?05?
          數(shù)據(jù)行業(yè)人才缺乏
          Q:企業(yè)在使用 DataOps 的時候,應(yīng)該如何組建這樣的一個團隊呢?
          A:DataOps 工具并不是要取代數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家,或者 DBA 和數(shù)據(jù)分析師,它讓他們更有效率,我知道在座的不知道有多少是這個數(shù)據(jù)科學(xué)家,或者是數(shù)據(jù)工程師。
          除了 DBA,數(shù)據(jù)行業(yè)一般有三個比較重要的角色:數(shù)據(jù)工程師,負責(zé)搭建數(shù)據(jù)平臺;數(shù)據(jù)科學(xué)家,研究數(shù)據(jù)的潛在價值,用學(xué)習(xí)模型來形成用戶畫像、產(chǎn)品推薦或自動異常檢測等;數(shù)據(jù)分析師,更多從業(yè)務(wù)角度做數(shù)據(jù)分析。但是最近出現(xiàn)了一種職業(yè)叫機器學(xué)習(xí)工程師,他們的任務(wù)是提高算法效率,把數(shù)據(jù)科學(xué)家們開發(fā)的模型以生態(tài)化的形式,更高效地完成。
          Q:這些人對 DataOps 是什么態(tài)度呢?
          A:他們當(dāng)然歡迎。以前數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師發(fā)布任務(wù)時要依靠數(shù)據(jù)工程師幫他們寫 ETL 任務(wù),現(xiàn)在 DataOps 可以幫助他們自動完成。我們就是讓大家可以睡個好覺,讓每個人的聰明才智可以發(fā)揮在他最能發(fā)揮的地方,而不是整天吐槽后臺、吐槽系統(tǒng)。
          Q:數(shù)據(jù)管理這一類的崗位,人才供給情況怎樣?
          A:現(xiàn)在很缺,非常缺。這個行業(yè)需求本來就比較大,加上要做數(shù)字化轉(zhuǎn)型,同時門檻比較高,進入這個行業(yè)基本不愁找不到工作。同時這個行業(yè)里,經(jīng)驗非常重要,越有經(jīng)驗越吃香。中國美國都一樣,所有想做數(shù)據(jù)項目的第一個問題就是找不到人。

          —?06?
          數(shù)據(jù)安全還是要靠規(guī)范
          ?Q:中國和美國的大數(shù)據(jù)市場有哪些不同?
          A:我覺得現(xiàn)在的差別已經(jīng)不大了。現(xiàn)在國內(nèi)的新型企業(yè)很追求效率的追求,對先進的方法論也很認(rèn)可,這個跟美國的公司基本上沒有太多區(qū)別。雖然我也沒有太多接觸過美國的傳統(tǒng)企業(yè),但是美國傳統(tǒng)企業(yè)接觸這種理念其實也都比較緩慢。但國內(nèi)新興的企業(yè)、企業(yè)家們,都很認(rèn)可數(shù)據(jù)價值,認(rèn)可云原生理念,也認(rèn)可專業(yè)的企業(yè)服務(wù)。
          要說區(qū)別的話,主要還是體現(xiàn)在兩邊的商務(wù)模式上。在美國,數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家有很大的采購權(quán),幾萬美元、十幾萬美元產(chǎn)品都是實際做事的人來采購。但在中國,采購的決定權(quán)是從上往下的。這也是為什么美國的開源比中國的更賺錢,開源打的就是中間這層真正使用的人,他們可以直接報告說需要這個開源公司來提供服務(wù),上面一批就完了。但中國企業(yè)要申請個幾十萬的項目,就得從上往下批。
          ?Q:國內(nèi)市場發(fā)生了哪些變化?
          A:以前大家做大數(shù)據(jù)好像是因為這個是一個風(fēng)口,現(xiàn)在沒人是為了大數(shù)據(jù)而大數(shù)據(jù),大家都認(rèn)可了大數(shù)據(jù)真的能夠產(chǎn)生價值,沒有人會懷疑大數(shù)據(jù)的價值。但是大家對大數(shù)據(jù)怎么落地還不是很清楚。所以,我覺得如何做出更好的工具降低門檻,更快地產(chǎn)生數(shù)據(jù)價值是現(xiàn)在企業(yè)面臨的一個挑戰(zhàn)。
          這幾年,因為大家對云原生技術(shù)的認(rèn)可、對開源體系的擁抱,國內(nèi)的技術(shù)生態(tài)比以前更加有活力。大家尤其認(rèn)識到了開源對整個行業(yè)的推動作用,很多開源公司也取得了很好的成績。我們雖然現(xiàn)在沒有產(chǎn)品開源,但我們也有開源計劃,希望能夠為整個技術(shù)發(fā)展做一些貢獻。
          ?Q:去年的大數(shù)據(jù)藍皮書也顯示了一個數(shù)據(jù),中國的數(shù)字經(jīng)濟指數(shù)在 G20 國家中排名第一,但安全指數(shù)排到了 14。據(jù)您的觀察,目前國內(nèi)在數(shù)據(jù)安全治理方面存在哪些問題?
          A:數(shù)據(jù)安全費錢,不產(chǎn)生直接價值,一般企業(yè)都不愿意做這個事。比如要把幾千臺機器里面所有關(guān)系到用戶私有信息的數(shù)據(jù)集全部找出來,這件事產(chǎn)生不了任何積極價值,但它是非常重要的。Twitter 上市的時候,我負責(zé)做數(shù)據(jù)合規(guī)時,整個團隊花半年多的時間做數(shù)據(jù)治理,投入相當(dāng)大。
          這就一定需要用規(guī)范來要求企業(yè)數(shù)據(jù)必須合規(guī),這也是行業(yè)發(fā)展到一定階段需要處理的事情。數(shù)據(jù)不規(guī)范可能無法出國做生意,老百姓也就沒有安全感。
          對 DataOps 來說,企業(yè)可以直接把合規(guī)的規(guī)則實現(xiàn)在 DataOps 體系里,讓數(shù)據(jù)質(zhì)量等工具幫助企業(yè)完成一些合規(guī)檢查。但合規(guī)是與行業(yè)緊密相關(guān)的,比如銀行的數(shù)據(jù)要合規(guī),那么就會有專業(yè)團隊把銀監(jiān)會合規(guī)的標(biāo)準(zhǔn)轉(zhuǎn)換成 ETL 查詢工具,再轉(zhuǎn)成合規(guī)報告。所以,合規(guī)會納入到 DataOps 這個體系里面來,但是需要專業(yè)的團隊來做。
          ?Q:最近發(fā)布的《數(shù)據(jù)安全法》對大數(shù)據(jù)企業(yè)有什么影響?企業(yè)如何加固數(shù)據(jù)安全?
          A:我覺得是好事。所有的企業(yè)必須要注重自己的數(shù)據(jù)合規(guī)和數(shù)據(jù)使用方式。這對大數(shù)據(jù)企業(yè)來說是好事。
          傳統(tǒng)方式做數(shù)據(jù)合規(guī)管理比較困難。我們觀察到,很多企業(yè)使用的 Hadoop 是不安全的,因為一旦用了安全的 Hadoop,還得用安全的卡夫卡、安全的 Spark 等,所有的組件都要是安全化的,那么管理的復(fù)雜度要高很多。企業(yè)在建設(shè)之前,就應(yīng)該把數(shù)據(jù)安全、數(shù)據(jù)合規(guī)問題考慮進去,后面補課是比較困難的。
          ?Q:大數(shù)據(jù)行業(yè)現(xiàn)在面臨著哪些挑戰(zhàn)?未來的發(fā)展形勢如何?
          A:大數(shù)據(jù)還是需要規(guī)范,需要一把手的認(rèn)可和支持。現(xiàn)在很多企業(yè)的一把手知道數(shù)據(jù)的價值,但是不知道該招什么樣的人,該怎么樣去推進數(shù)據(jù)項目的落地,使其真正產(chǎn)生價值。國內(nèi)現(xiàn)在對數(shù)據(jù)平臺價值的衡量還是一個黑盒子,一個大數(shù)據(jù)平臺到底產(chǎn)生了多少價值沒有辦法衡量。所以一把手的思路和對整個數(shù)據(jù)架構(gòu)的規(guī)范體系建設(shè),決定了很多大數(shù)據(jù)平臺的發(fā)展。
          未來是 AI 的世界,AI 的底層就是數(shù)據(jù)。不管是個人成長還是公司的成長、企業(yè)的成長,基本上都是數(shù)據(jù)驅(qū)動,數(shù)據(jù)驅(qū)動讓生活更高效、生產(chǎn)更高效,放大個人價值。這是一個很值得投入的行業(yè)。

          推薦閱讀:

          世界的真實格局分析,地球人類社會底層運行原理

          不是你需要中臺,而是一名合格的架構(gòu)師(附各大廠中臺建設(shè)PPT)

          億級(無限級)并發(fā),沒那么難

          論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?

          華為干部與人才發(fā)展手冊(附PPT)

          企業(yè)10大管理流程圖,數(shù)字化轉(zhuǎn)型從業(yè)者必備!

          【中臺實踐】華為大數(shù)據(jù)中臺架構(gòu)分享.pdf

          華為的數(shù)字化轉(zhuǎn)型方法論

          華為如何實施數(shù)字化轉(zhuǎn)型(附PPT)

          超詳細280頁Docker實戰(zhàn)文檔!開放下載

          華為大數(shù)據(jù)解決方案(PPT)

          瀏覽 21
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中国婬乱a | 亚洲欧洲欧美日韩中文字幕 | 678五月丁香亚洲 | 天天干天天射天天日 | 日韩Va在线视频 |