人人婷婷,成年免费视频,99色在线,亚洲第97页,亚洲无码在线免费观看视频,国产日逼视频,蜜av在线,精品熟人一区二区三区四区

來源：InfoQ

根據(jù)信通院數(shù)據(jù)，2019 年，我國數(shù)據(jù)產(chǎn)量總規(guī)模為 3.9ZB，同比增加 29.3%，占全球數(shù)據(jù)總產(chǎn)量（42 ZB）的 9.3%。而 IDC 中國預(yù)測，2025 年中國大數(shù)據(jù)產(chǎn)生量有望增長至 48.6 ZB，這已經(jīng)超過了 2019 年全球數(shù)據(jù)量的水平。這對大數(shù)據(jù)行業(yè)來說，既是機遇，也是挑戰(zhàn)。

越來越大的數(shù)據(jù)量，加上數(shù)據(jù)敏感和脆弱等的特點，數(shù)據(jù)治理一直都是一個困擾企業(yè)發(fā)展的問題。有開發(fā)者表示，每個人都在談?wù)摂?shù)據(jù)治理，卻沒有人真正知道該怎么辦。

—?01?—

數(shù)據(jù)治理有哪些難點？

?Q：在現(xiàn)在的企業(yè)數(shù)據(jù)治理上存在哪些痛點? 為什么會出現(xiàn)這些問題，以及當(dāng)前情況下是怎么解決的？

A：數(shù)據(jù)治理和數(shù)據(jù)開發(fā)一直都是困擾著企業(yè)的難題。Google 最近發(fā)了一篇文章表示，雖然 Google 在 AI 算法上非常厲害，但如果大家都只想搞算法，沒人想去搞數(shù)據(jù)，那算法是沒有用的。比如進來個臟數(shù)據(jù)，算法一點用都沒有。但搞數(shù)據(jù)的工作，大家都認(rèn)為很“臟”、很費神，算法更高大上。

數(shù)據(jù)的治理和數(shù)據(jù)質(zhì)量非常重要，整個數(shù)據(jù)開發(fā)流程也非常重要。算法是最后讓數(shù)據(jù)產(chǎn)生價值的很重要的一部分，但是如果沒有前面的準(zhǔn)備工作，那么數(shù)據(jù)質(zhì)量和數(shù)據(jù)開發(fā)效率就無法保證，后面算法也發(fā)揮不了作用。很多公司，包括 Google、Twitter 和 Facebook，他們的算法之所以有那么大的作用，就是因為他們數(shù)據(jù)的基礎(chǔ)架構(gòu)做得好，所以他們才能保證算法的有效性。

那么這個難度在哪呢？現(xiàn)在，數(shù)據(jù)管理、治理工具和數(shù)據(jù)治理體系暫時還沒有一個成形的體系，所有公司的數(shù)據(jù)質(zhì)量、數(shù)據(jù)開發(fā)工具基本都是拿開源組件自己臨時搭建。

整個數(shù)據(jù)的測試流程中，大家很少聽說數(shù)據(jù)有 CI/CD，數(shù)據(jù)有沒有 CI/CD？數(shù)據(jù)的 ETL 程序有沒有 CI/CD？數(shù)據(jù)開發(fā)完了在哪測試？能不能在生產(chǎn)數(shù)據(jù)上測試呢？如果程序是對的，那數(shù)據(jù)改變后我的程序語義還能夠保證它的正確性嗎？企業(yè)在實際生產(chǎn)時，這些問題都是在大規(guī)模使用數(shù)據(jù)時會經(jīng)常碰到。由于數(shù)據(jù)的使用，大家覺得大數(shù)據(jù)好像搞了很多年，但其實到現(xiàn)在大數(shù)據(jù)的基礎(chǔ)才逐漸成熟，大家也才意識到，數(shù)據(jù)組織后的數(shù)據(jù)質(zhì)量是更重要的。

所以，我覺得現(xiàn)在正是將數(shù)據(jù)質(zhì)量、數(shù)據(jù)治理和整個數(shù)據(jù)開發(fā)體系的工具提到前臺的好時機。以前數(shù)據(jù)基礎(chǔ)還沒有成熟，提這個可能有點早，但現(xiàn)在越來越多的企業(yè)，特別是頭部企業(yè)發(fā)現(xiàn)了這個問題。

硅谷的很多公司，包括在國內(nèi)的頭部公司，他們早就遇到了這些問題，他們自己內(nèi)部肯定是有解決方案的。產(chǎn)品化的事情也有人在做，大家現(xiàn)在看到的開源工具里像 Spark、Kafka 都很成熟，做得都很好。但是，像 DataOps 這種跟企業(yè)的底層數(shù)據(jù)情況和數(shù)據(jù)的基礎(chǔ)架構(gòu)緊密相關(guān)的工具比較少，DataOps 工具剛剛出現(xiàn)，現(xiàn)在也才獲得大家的關(guān)注。

—?02?—

什么是 DataOps？

?Q：現(xiàn)在越來越多的技術(shù)和廠商都在產(chǎn)品中會提到 DataOps，但是可能目前大家對 DataOps 定義還沒有很統(tǒng)一的定義。那么，到底什么是 DataOps？為什么它現(xiàn)在會被很多企業(yè)青睞？

A：DataOps 是從 DevOps 借鑒的一個理念。可以理解為 DataOps 是把 DevOps 的一些理念映射到了數(shù)據(jù)開發(fā)上，它們的很多觀點是可以一一對應(yīng)的，如開發(fā)及運維、云原生、微服務(wù)化、CI/CD，這些都可以在 DataOps 里找到，如果你的 DevOps 里沒有這些概念，就要考慮下你的開發(fā)流程是不是符合最佳實踐。

但 DataOps 與 DevOps 也有區(qū)別。DataOps 是想處理數(shù)據(jù)，而在 DevOps 里是不需要處理數(shù)據(jù)的，它主要是做應(yīng)用的開發(fā)，應(yīng)用的 CI/CD、發(fā)布及運維。但就像剛才說的，DataOps 實際上屬于一個比較早期的概念，大家對它的解讀還是會有不一樣。

在 DataOps 里面有很重要的一點，就是要處理數(shù)據(jù)的各種不可預(yù)知性。數(shù)據(jù)語義是一個難題，它沒辦法在 CI/CD 里被容易定義，不是沒有辦法，但很困難。之前大部分原生大數(shù)據(jù)組件開發(fā)時并沒有考慮到這個規(guī)范。

DevOps 也經(jīng)過了很長一段時間的演變，像 Git 逐漸成為規(guī)范，微服務(wù)基本上都是標(biāo)準(zhǔn)的組件。大數(shù)據(jù)組件體系架構(gòu)特別多、選擇特別多，發(fā)展也特別快，現(xiàn)在的 Spark、流數(shù)據(jù)，F(xiàn)link，卡夫卡，底層基本上也是 K8S、Hadoop 和 Hdefs，這些基本上可以形成標(biāo)準(zhǔn)化。那么，現(xiàn)在就是做 DataOps 一個比較好的時候。

DataOps 的工作主要有五個方向：

第一個是任務(wù)調(diào)度。主要包括云原生調(diào)度、容器的調(diào)度，這跟 DevOps 是一樣的。
第二個是數(shù)據(jù)安全。數(shù)據(jù)安全以前基本不在 DataOps 的考慮范圍，也不在數(shù)據(jù)開發(fā)的范圍內(nèi)，但現(xiàn)在數(shù)據(jù)安全很重要。
第三個就是數(shù)據(jù)管理和數(shù)據(jù)門戶。大家可能會說原數(shù)據(jù)管理不都好多年了，但以前的原數(shù)據(jù)管理主要是針對關(guān)系型數(shù)據(jù)庫，關(guān)系型數(shù)據(jù)庫對原數(shù)據(jù)的管理相對容易，只要到數(shù)據(jù)庫里把原數(shù)據(jù)爬出來就可以。但現(xiàn)在有流數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)，還有 TaiDB 等，各種各樣的原數(shù)據(jù)怎么樣去管理？血緣管理更復(fù)雜了。之前是幾個 SQL 之間的血緣管理，現(xiàn)在關(guān)系到各種各樣的查詢、各種各樣的系統(tǒng)、數(shù)據(jù)門戶跟 MapDatas 是一樣的。
第四是數(shù)據(jù)檢測的可視化。DevOps 里有很多可監(jiān)測到的指標(biāo)，數(shù)據(jù)層面也一樣。用多少資源、花多少時間、創(chuàng)造了多少價值，之前都是一個黑盒子，但 DataOps 的整個數(shù)據(jù)都是端到端的，相關(guān)指標(biāo)可觀測、可管理。
第五就是集成開發(fā)。所有的工具必須是可集成的，不可能做一個工具負責(zé)血緣管理，再做一個工具負責(zé)調(diào)度。

我認(rèn)為，DataOPS 里面必須具備這五個工具體系，如果你的 DataOps 體系里面缺了任何一個，我都覺得是不完善的。

?Q：DataOps 如何做持續(xù)測試？

A：數(shù)據(jù)開發(fā)、數(shù)據(jù)程序的測試一直是老大難問題，甚至頭部大廠整套流程做下來也是現(xiàn)在非常困難的。現(xiàn)在 DevOps 里有一個很有意思的觀念，就是把集訓(xùn)資源的管理全部用 Code 來管理，大數(shù)據(jù)也一樣。美國有一個很火的公司叫 DTB，它是要把所有的 ETL（數(shù)據(jù)倉儲技術(shù)）流程做成代碼管理，將 SQL 的所有轉(zhuǎn)換變量化、代碼化，將所有 ETL 程序間的關(guān)系、血緣全部用代碼的形式來進行管理。可以說，不只 SQL 是代碼，整個調(diào)度也都是代碼。所以，DBT 的整個 ETL 程序可以被放到 Git 里面。

用戶可以在指定的 data ?source 的測試環(huán)境中可以測試，可以到 Data 生態(tài)環(huán)境中直接切換一個 Data ?source，將其變成生產(chǎn)環(huán)境，所以它允許支撐 ETL 流程的 CI/CD。將所有 ETL 程序之間的依賴全部代碼化，這就是 DTB 的一個思路。

除了 ETL 之外，我們現(xiàn)在做的事就是把所有大數(shù)據(jù)組件里面的關(guān)系、程序全部代碼化，這是未來的必然趨勢。

—?03?—

DataOps 與云原生數(shù)據(jù)中臺的關(guān)系

?Q：DataOps 與云原生數(shù)據(jù)中臺是什么樣的關(guān)系？他們目前各自的發(fā)展情況如何？

A：國內(nèi)數(shù)據(jù)中臺也提了兩三年了，有成功的案例也有失敗的。我們在這方面也做了很多探索。我們的觀點是，數(shù)據(jù)中臺絕對要做，但 DataOps 是實現(xiàn)數(shù)據(jù)中臺的一個最好的方法論和工具體系。

這跟 DevOps 是一樣的。一個業(yè)務(wù)系統(tǒng)可以使用 DevOps 方法來做，也可以使用傳統(tǒng)方法去做，兩種方法最后做成的業(yè)務(wù)系統(tǒng)可能都差不多，但這只是開始的時候差不多，后面的持續(xù)迭代、持續(xù)運維的時候，就能看出來 DevOps 的優(yōu)勢了。

數(shù)據(jù)中臺也是一樣，它是給大家提供一個數(shù)據(jù)開發(fā)和運營的底座，開始你可以用各種各樣的方法去做一個數(shù)據(jù)平臺，但是后續(xù)迭代和不斷發(fā)展的時候，DataOps 就成為最合適的一種方法。

DevOps 提倡的是賦能和自助，通過 CI/CD 持續(xù)發(fā)布，開發(fā)工程師自己來做運維測試，DataOps 也一樣，也是提供工具讓各個業(yè)務(wù)部門等數(shù)據(jù)使用者，能夠在中臺上拿到自己需要的功能。我們認(rèn)為這是 DataOps 和數(shù)據(jù)中臺的關(guān)系。

?Q：企業(yè)如何去做云原生數(shù)據(jù)平臺的改造？整個過程可能會面臨哪些問題？

A：我覺得，現(xiàn)在云原生的數(shù)據(jù)中臺還是一個比較有挑戰(zhàn)性的課題，但也是個必然的趨勢。很多企業(yè)的數(shù)據(jù)平臺效率非常低，因為傳統(tǒng)大數(shù)據(jù)平臺使用的 Hadoop、卡夫卡等都不是在云原生的方式下開發(fā)，資源使用效率低、管理復(fù)雜，但云原生會大大降低整個系統(tǒng)的管理復(fù)雜度，提高系統(tǒng)的使用效率和運營效率。

這個過程中會面臨的困難，主要是人才問題。這個技能的門檻比較高，需要研發(fā)既懂云原生又懂新技術(shù)，這樣的人才缺口還是挺大的。但這也有個好處就是，云原生產(chǎn)品的標(biāo)準(zhǔn)化程度比較高，這樣容易做出標(biāo)準(zhǔn)化的產(chǎn)品讓大家使用。

舉個例子，以前裝一個大數(shù)據(jù)平臺需要直接面對底下的物理及虛擬機，但各種各樣的配置，不同的操作系統(tǒng)、環(huán)境和網(wǎng)絡(luò)，所有這些都得去管理。K8S 的出現(xiàn)就讓大家不必再考慮所有的底層組件，只要跟云原生這個體系對接就可以了。這是一個很好的機會，所有的企業(yè)一定會看到，但這個過程肯定是需要時間的。

?Q：您之前多次提到過“數(shù)據(jù)中臺方法論”，這個方法論具體都包含哪些內(nèi)容？

A：這個方法論的主要目的就是追求效率。我們國內(nèi)很多客戶的大數(shù)據(jù)平臺的資源使用率大概都是 15%-20%，但 Twitter 的自然使用率一般能達到 50%-60%，而且還有各種各樣的彈性擴展、自動容錯等云原生功能。

了解這個之后，需要做到以下四點：

第一，選擇合適的工具和平臺。這個是基礎(chǔ)，選不到合適的架構(gòu)工具，也就不存在效率了，所以如何選擇合適的平臺工具很重要。

第二，要有一個完善的頂層架構(gòu)設(shè)計。因為數(shù)據(jù)平臺要把大家的數(shù)據(jù)接進來，與業(yè)務(wù)系統(tǒng)對接起來才能產(chǎn)生效果。DevOps 分布式的開發(fā)，集中式的管理，但這個集中式管理不是靠人，而是靠體系和工具。

第三，業(yè)務(wù)驅(qū)動。為了大數(shù)據(jù)而大數(shù)據(jù)一般成功不了，一定是可以解決業(yè)務(wù)問題的才能走到最后，解決不了業(yè)務(wù)問題的數(shù)據(jù)平臺是偽命題。解決業(yè)務(wù)痛點之后，還要賦能業(yè)務(wù)。要把業(yè)務(wù)部門引入進來，不斷使用這個數(shù)據(jù)平臺，獲得業(yè)務(wù)部門認(rèn)可后這個東西才能走。

第四，要有價值衡量體系。如何量化產(chǎn)生的價值，很困難但是也很重要。我們一般要求決策方、業(yè)務(wù)方，技術(shù)方和數(shù)據(jù)平臺等各方面職責(zé)明確，避免后面出現(xiàn)越來越多的問題。

—?04?—

DataOps 的應(yīng)用

?Q：2018 年，高德納把 DataOps 納入了技術(shù)管理成熟體系曲線里面，DataOps 被正式接納和推廣。三年過去了，目前有什么成熟的應(yīng)用案例出來嗎？

A：DataOps 在云原生出來之前就有，但可能沒有叫這個名字。頭條、騰訊等大廠們都有自己的一套 DataOps 體系，Twitter 等硅谷公司也有，那為什么現(xiàn)在才提出來？因為這個東西要產(chǎn)品化。雖然大廠都有 DataOps 體系，但是將近一百人的數(shù)據(jù)團隊，eBay 大概有三百多人，一般企業(yè)很難請得起這么多高薪的人才。

現(xiàn)在 DataOps 火了是因為大家都需要，數(shù)據(jù)價值不是大廠獨有的。但橫梗在前的成本問題怎么解決？這就需要 DataOps 工具將數(shù)據(jù)價值開發(fā)平移化。為什么稱為云原生的 DataOps？因為只有云原生技術(shù)統(tǒng)一了各種各樣的硬件環(huán)境、開發(fā)環(huán)境、發(fā)布環(huán)境、運維流程等等之后，DataOps 才可以將聚焦在數(shù)據(jù)開發(fā)、數(shù)據(jù)監(jiān)控、數(shù)據(jù)管理、原數(shù)據(jù)和數(shù)據(jù)安全上。

?Q：您在 Twitter 的時候，一個主要職責(zé)就是讓公司所有的人避免重復(fù)開發(fā)數(shù)據(jù)組件。這個需求是在一個什么樣的背景下產(chǎn)生的？

A：這個就是很重要的不要重復(fù)造輪子的問題。重新造輪子會造成資源消耗，然后減慢開發(fā)速度。要避免不重新造輪子，那么就必須知道現(xiàn)在有什么“輪子”，但很多企業(yè)并不知道自己有什么“輪子”。DataOps 很重要的一點就是原數(shù)據(jù)管理，它的原數(shù)據(jù)管理比原來的要更廣泛，它可以知道整個企業(yè)有什么樣的數(shù)據(jù)功能。

更重要的是，企業(yè)重新造輪子，一旦兩個輪子造得不一樣，會把這個車開垮。我們原來做數(shù)據(jù)門戶，就要求所有的業(yè)務(wù)部門和數(shù)據(jù)分析師必須做統(tǒng)一的接口，然后發(fā)現(xiàn)有兩個部門就在重復(fù)造輪

Q：DataOps 會有開源生態(tài)嗎？

A：目前是逐漸成熟的過程中，還沒有成熟到大家都可以使用的端到端產(chǎn)品。

我們之前公眾號有篇文章講到，硅谷的大概十幾家公司，每個公司都有自己的數(shù)據(jù)門戶和產(chǎn)品，但是沒有成熟的產(chǎn)品。今年 6 月份左右，Linking 將自己的數(shù)據(jù)門戶產(chǎn)品開源了，也有人在做血緣管理，但都是這兩年才起來的公司。這個生態(tài)在逐漸形成，但是遠遠沒有到達成熟的階段。

Q：現(xiàn)在，DataOps 還解決不了哪些問題？

A：我覺得，當(dāng)前 DataOps 沒辦法解決業(yè)務(wù)價值的挖掘問題。DataOps 實際是降低了數(shù)據(jù)使用門檻，讓更多的業(yè)務(wù)人員可以直接開發(fā)他們需要的數(shù)據(jù)并將這個開發(fā)成果給大家使用，這在以前必須要依賴數(shù)據(jù)科學(xué)家或者數(shù)據(jù)工程師。但是，如何把這些數(shù)據(jù)與業(yè)務(wù)結(jié)合起來、用數(shù)據(jù)去促進業(yè)務(wù)，這不是 DataOps 能回答的問題。我們只是賦能，但是真正怎么樣讓你的數(shù)據(jù)去促進企業(yè)的業(yè)務(wù)發(fā)展，那一定需要企業(yè)懂自己的業(yè)務(wù)。

—?05?—

數(shù)據(jù)行業(yè)人才缺乏

Q：企業(yè)在使用 DataOps 的時候，應(yīng)該如何組建這樣的一個團隊呢？

A：DataOps 工具并不是要取代數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家，或者 DBA 和數(shù)據(jù)分析師，它讓他們更有效率，我知道在座的不知道有多少是這個數(shù)據(jù)科學(xué)家，或者是數(shù)據(jù)工程師。

除了 DBA，數(shù)據(jù)行業(yè)一般有三個比較重要的角色：數(shù)據(jù)工程師，負責(zé)搭建數(shù)據(jù)平臺；數(shù)據(jù)科學(xué)家，研究數(shù)據(jù)的潛在價值，用學(xué)習(xí)模型來形成用戶畫像、產(chǎn)品推薦或自動異常檢測等；數(shù)據(jù)分析師，更多從業(yè)務(wù)角度做數(shù)據(jù)分析。但是最近出現(xiàn)了一種職業(yè)叫機器學(xué)習(xí)工程師，他們的任務(wù)是提高算法效率，把數(shù)據(jù)科學(xué)家們開發(fā)的模型以生態(tài)化的形式，更高效地完成。

Q：這些人對 DataOps 是什么態(tài)度呢？

A：他們當(dāng)然歡迎。以前數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師發(fā)布任務(wù)時要依靠數(shù)據(jù)工程師幫他們寫 ETL 任務(wù)，現(xiàn)在 DataOps 可以幫助他們自動完成。我們就是讓大家可以睡個好覺，讓每個人的聰明才智可以發(fā)揮在他最能發(fā)揮的地方，而不是整天吐槽后臺、吐槽系統(tǒng)。

Q：數(shù)據(jù)管理這一類的崗位，人才供給情況怎樣？

A：現(xiàn)在很缺，非常缺。這個行業(yè)需求本來就比較大，加上要做數(shù)字化轉(zhuǎn)型，同時門檻比較高，進入這個行業(yè)基本不愁找不到工作。同時這個行業(yè)里，經(jīng)驗非常重要，越有經(jīng)驗越吃香。中國美國都一樣，所有想做數(shù)據(jù)項目的第一個問題就是找不到人。

—?06?—

數(shù)據(jù)安全還是要靠規(guī)范

?Q：中國和美國的大數(shù)據(jù)市場有哪些不同？

A：我覺得現(xiàn)在的差別已經(jīng)不大了。現(xiàn)在國內(nèi)的新型企業(yè)很追求效率的追求，對先進的方法論也很認(rèn)可，這個跟美國的公司基本上沒有太多區(qū)別。雖然我也沒有太多接觸過美國的傳統(tǒng)企業(yè)，但是美國傳統(tǒng)企業(yè)接觸這種理念其實也都比較緩慢。但國內(nèi)新興的企業(yè)、企業(yè)家們，都很認(rèn)可數(shù)據(jù)價值，認(rèn)可云原生理念，也認(rèn)可專業(yè)的企業(yè)服務(wù)。

要說區(qū)別的話，主要還是體現(xiàn)在兩邊的商務(wù)模式上。在美國，數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家有很大的采購權(quán)，幾萬美元、十幾萬美元產(chǎn)品都是實際做事的人來采購。但在中國，采購的決定權(quán)是從上往下的。這也是為什么美國的開源比中國的更賺錢，開源打的就是中間這層真正使用的人，他們可以直接報告說需要這個開源公司來提供服務(wù)，上面一批就完了。但中國企業(yè)要申請個幾十萬的項目，就得從上往下批。

?Q：國內(nèi)市場發(fā)生了哪些變化？

A：以前大家做大數(shù)據(jù)好像是因為這個是一個風(fēng)口，現(xiàn)在沒人是為了大數(shù)據(jù)而大數(shù)據(jù)，大家都認(rèn)可了大數(shù)據(jù)真的能夠產(chǎn)生價值，沒有人會懷疑大數(shù)據(jù)的價值。但是大家對大數(shù)據(jù)怎么落地還不是很清楚。所以，我覺得如何做出更好的工具降低門檻，更快地產(chǎn)生數(shù)據(jù)價值是現(xiàn)在企業(yè)面臨的一個挑戰(zhàn)。

這幾年，因為大家對云原生技術(shù)的認(rèn)可、對開源體系的擁抱，國內(nèi)的技術(shù)生態(tài)比以前更加有活力。大家尤其認(rèn)識到了開源對整個行業(yè)的推動作用，很多開源公司也取得了很好的成績。我們雖然現(xiàn)在沒有產(chǎn)品開源，但我們也有開源計劃，希望能夠為整個技術(shù)發(fā)展做一些貢獻。

?Q：去年的大數(shù)據(jù)藍皮書也顯示了一個數(shù)據(jù)，中國的數(shù)字經(jīng)濟指數(shù)在 G20 國家中排名第一，但安全指數(shù)排到了 14。據(jù)您的觀察，目前國內(nèi)在數(shù)據(jù)安全治理方面存在哪些問題？

A：數(shù)據(jù)安全費錢，不產(chǎn)生直接價值，一般企業(yè)都不愿意做這個事。比如要把幾千臺機器里面所有關(guān)系到用戶私有信息的數(shù)據(jù)集全部找出來，這件事產(chǎn)生不了任何積極價值，但它是非常重要的。Twitter 上市的時候，我負責(zé)做數(shù)據(jù)合規(guī)時，整個團隊花半年多的時間做數(shù)據(jù)治理，投入相當(dāng)大。

這就一定需要用規(guī)范來要求企業(yè)數(shù)據(jù)必須合規(guī)，這也是行業(yè)發(fā)展到一定階段需要處理的事情。數(shù)據(jù)不規(guī)范可能無法出國做生意，老百姓也就沒有安全感。

對 DataOps 來說，企業(yè)可以直接把合規(guī)的規(guī)則實現(xiàn)在 DataOps 體系里，讓數(shù)據(jù)質(zhì)量等工具幫助企業(yè)完成一些合規(guī)檢查。但合規(guī)是與行業(yè)緊密相關(guān)的，比如銀行的數(shù)據(jù)要合規(guī)，那么就會有專業(yè)團隊把銀監(jiān)會合規(guī)的標(biāo)準(zhǔn)轉(zhuǎn)換成 ETL 查詢工具，再轉(zhuǎn)成合規(guī)報告。所以，合規(guī)會納入到 DataOps 這個體系里面來，但是需要專業(yè)的團隊來做。

?Q：最近發(fā)布的《數(shù)據(jù)安全法》對大數(shù)據(jù)企業(yè)有什么影響？企業(yè)如何加固數(shù)據(jù)安全？

A：我覺得是好事。所有的企業(yè)必須要注重自己的數(shù)據(jù)合規(guī)和數(shù)據(jù)使用方式。這對大數(shù)據(jù)企業(yè)來說是好事。

傳統(tǒng)方式做數(shù)據(jù)合規(guī)管理比較困難。我們觀察到，很多企業(yè)使用的 Hadoop 是不安全的，因為一旦用了安全的 Hadoop，還得用安全的卡夫卡、安全的 Spark 等，所有的組件都要是安全化的，那么管理的復(fù)雜度要高很多。企業(yè)在建設(shè)之前，就應(yīng)該把數(shù)據(jù)安全、數(shù)據(jù)合規(guī)問題考慮進去，后面補課是比較困難的。

?Q：大數(shù)據(jù)行業(yè)現(xiàn)在面臨著哪些挑戰(zhàn)？未來的發(fā)展形勢如何？

A：大數(shù)據(jù)還是需要規(guī)范，需要一把手的認(rèn)可和支持。現(xiàn)在很多企業(yè)的一把手知道數(shù)據(jù)的價值，但是不知道該招什么樣的人，該怎么樣去推進數(shù)據(jù)項目的落地，使其真正產(chǎn)生價值。國內(nèi)現(xiàn)在對數(shù)據(jù)平臺價值的衡量還是一個黑盒子，一個大數(shù)據(jù)平臺到底產(chǎn)生了多少價值沒有辦法衡量。所以一把手的思路和對整個數(shù)據(jù)架構(gòu)的規(guī)范體系建設(shè)，決定了很多大數(shù)據(jù)平臺的發(fā)展。

未來是 AI 的世界，AI 的底層就是數(shù)據(jù)。不管是個人成長還是公司的成長、企業(yè)的成長，基本上都是數(shù)據(jù)驅(qū)動，數(shù)據(jù)驅(qū)動讓生活更高效、生產(chǎn)更高效，放大個人價值。這是一個很值得投入的行業(yè)。

為什么說數(shù)據(jù)治理的下一站是DataOps？