大數(shù)據(jù)產(chǎn)業(yè)價(jià)值持續(xù)釋放,有效推動數(shù)字化轉(zhuǎn)型升級!

···約2600字,閱6分鐘···


英國牛津大學(xué)教授舍恩伯格在其所撰寫的《大數(shù)據(jù)時(shí)代》中表述,大數(shù)據(jù)時(shí)代是“已經(jīng)發(fā)生的未來”,而在這個(gè)已經(jīng)發(fā)生的未來里,人人都是參與者。
作為時(shí)代發(fā)展的必然產(chǎn)物,大數(shù)據(jù)正加速滲透進(jìn)我們的日常生活,完成對各傳統(tǒng)領(lǐng)域的顛覆。自互聯(lián)網(wǎng)大數(shù)據(jù)從上個(gè)世紀(jì)九十年代風(fēng)靡全球后,一直伴隨著人類的需求和使用而不斷的演進(jìn)和發(fā)展,未來,大數(shù)據(jù)產(chǎn)業(yè)將繼續(xù)穩(wěn)步快速增長,更加深刻的影響我們的生產(chǎn)和生活。
大數(shù)據(jù)時(shí)代的特點(diǎn)和市場規(guī)模大數(shù)據(jù)技術(shù)以開源為主,迄今為止,尚未形成絕對的技術(shù)壟斷,即便是IBM、甲骨文等行業(yè)巨擘,也同樣是集成了開源技術(shù)和該公司已有產(chǎn)品而已。開源技術(shù)對任何一個(gè)國家都是開放的,中國公司同樣可以分享開源的蛋糕,但是需要以更加開放的心態(tài)、更加開明的思想正確地對待開源社區(qū)。此外,中國的人口和經(jīng)濟(jì)規(guī)模決定了中國的數(shù)據(jù)資產(chǎn)規(guī)模冠于全球。
我國數(shù)據(jù)生產(chǎn)能力巨大,大數(shù)據(jù)資源極為豐富。今年,中國信息協(xié)會大數(shù)據(jù)分會與北京國潤互聯(lián)信息技術(shù)研究院共同發(fā)布了《2021—2022中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展報(bào)告》,《報(bào)告》預(yù)測,未來三年,中國大數(shù)據(jù)產(chǎn)業(yè)市場將保持12%以上的增速,到2023年整體規(guī)模將達(dá)到11522.5億元。從行業(yè)角度分析,互聯(lián)網(wǎng)、政府、金融和電信等幾大行業(yè)處于引領(lǐng)位置。
大數(shù)據(jù)市場預(yù)測大數(shù)據(jù)正超越信息技術(shù),使人們重新思考公司的戰(zhàn)略和組織結(jié)構(gòu),重新審視產(chǎn)業(yè)變遷的驅(qū)動因素,重新審視政府治理水平,甚至重新界定國家競爭的主戰(zhàn)場。

大數(shù)據(jù)技術(shù)發(fā)展趨勢
隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,其各個(gè)技術(shù)環(huán)節(jié)呈現(xiàn)出新的發(fā)展趨勢和挑戰(zhàn)。根據(jù)Gartner最新的分析可以看出,大數(shù)據(jù)主要有五大技術(shù)趨勢。
1、存儲計(jì)算分離
在傳統(tǒng)集群系統(tǒng)中,計(jì)算和存儲是緊密耦合的,以Hadoop為例,在傳統(tǒng)Hadoop的使用中,存儲與計(jì)算密不可分,而隨著業(yè)務(wù)的發(fā)展,常常會為了擴(kuò)存儲而帶來額外的計(jì)算擴(kuò)容,這其實(shí)就是一種浪費(fèi)。同理,只為了提升計(jì)算能力,也會帶來一段時(shí)期的存儲浪費(fèi),將計(jì)算和存儲分離,可以更好地應(yīng)對單方面的不足。
存儲計(jì)算分離是一種分層架構(gòu)思想,即將存儲能力和計(jì)算能力分開,各自服務(wù)化,通過高速網(wǎng)絡(luò)連接。以AWS的大護(hù)具架構(gòu)為例,底層統(tǒng)一采用S3存儲,存儲層上架設(shè)各種計(jì)算引擎比如HIVE、Spark、Flink等。
2、實(shí)時(shí)計(jì)算及實(shí)時(shí)數(shù)倉
實(shí)時(shí)計(jì)算一般是針對海量數(shù)據(jù)進(jìn)行的,要求通常為秒級。實(shí)時(shí)計(jì)算主要分為數(shù)據(jù)的實(shí)時(shí)入庫、數(shù)據(jù)的實(shí)時(shí)計(jì)算兩部分。以下為實(shí)時(shí)計(jì)算的主要應(yīng)用場景:
第一個(gè)場景是數(shù)據(jù)源實(shí)時(shí)、不間斷,要求用戶的響應(yīng)時(shí)間也是實(shí)時(shí)的。比如對于大型網(wǎng)站的流式數(shù)據(jù):網(wǎng)站的訪問PV/UV、用戶訪問了什么內(nèi)容、搜索了什么內(nèi)容等,實(shí)時(shí)的數(shù)據(jù)計(jì)算和分析可以動態(tài)實(shí)時(shí)地刷新用戶訪問數(shù)據(jù),展示網(wǎng)站實(shí)時(shí)流量的變化情況,分析每天各小時(shí)的流量和用戶分布情況。
另一個(gè)場景是數(shù)據(jù)量大且無法或沒必要預(yù)算,但要求對用戶的響應(yīng)時(shí)間是實(shí)時(shí)的。比如說:昨天來自每個(gè)省份不同性別的訪問量分布,昨天來自每個(gè)省份不同性別不同年齡不同職業(yè)不同名族的訪問量分布。
3、人工智能推動數(shù)據(jù)智能應(yīng)用
相比于傳統(tǒng)機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)提出了一種讓計(jì)算機(jī)自動學(xué)習(xí)產(chǎn)生特征的方法,并將特征學(xué)習(xí)融入建立模型的過程中,從而減少了人為設(shè)計(jì)特征引發(fā)的不完備。深度學(xué)習(xí)借助深層次神經(jīng)網(wǎng)絡(luò)模型,能夠更加智能地提取數(shù)據(jù)不同層次的特征,對數(shù)據(jù)進(jìn)行更加準(zhǔn)確、有效的表達(dá)。而且訓(xùn)練樣本數(shù)量越大,深度學(xué)習(xí)算法相對傳統(tǒng)機(jī)器學(xué)習(xí)算法就越有優(yōu)勢。

大數(shù)據(jù)與人工智能交叉
目前,深度學(xué)習(xí)已經(jīng)深入多個(gè)領(lǐng)域,并在圖像分類、語音識別、問答系統(tǒng)等應(yīng)用中獲得了重大突破,取得了成功的商業(yè)應(yīng)用。隨著越來越多的行業(yè)和領(lǐng)域逐步完善數(shù)據(jù)的采集和存儲,深度學(xué)習(xí)的應(yīng)用會更加廣泛。由于大數(shù)據(jù)應(yīng)用的復(fù)雜性,人工智能和大數(shù)據(jù)的融合將是一個(gè)持續(xù)發(fā)展趨勢。
4、技術(shù)趨勢,湖倉一體化
此前,阿里云正式推出大數(shù)據(jù)平臺的下一代架構(gòu)——“湖倉一體”,打通數(shù)據(jù)倉庫和數(shù)據(jù)湖兩套體系,讓數(shù)據(jù)和計(jì)算在湖與倉之間自由流動,從而構(gòu)建一個(gè)完整的、有機(jī)的、大數(shù)據(jù)技術(shù)生態(tài)體系。為企業(yè)提供兼具數(shù)據(jù)湖的靈活性和數(shù)據(jù)倉庫的成長性的新一代大數(shù)據(jù)平臺,降低企業(yè)構(gòu)建大數(shù)據(jù)平臺的整體成本。

大數(shù)據(jù)存在的三種形態(tài)
在數(shù)據(jù)湖架構(gòu)上建立數(shù)倉的嘗試并不成功,這表明數(shù)倉和數(shù)據(jù)湖有本質(zhì)的區(qū)別,在數(shù)據(jù)湖體系上很難建成完善的數(shù)倉。數(shù)據(jù)湖與數(shù)據(jù)倉庫兩者很難直接合并成一套系統(tǒng),基于融合兩者的思路進(jìn)行探索,阿里云提出下一代的大數(shù)據(jù)技術(shù)演進(jìn)方向:湖倉一體,即打通數(shù)據(jù)倉庫和數(shù)據(jù)湖兩套體系,讓數(shù)據(jù)和計(jì)算在湖和倉之間自由流動,從而構(gòu)建一個(gè)完整的有機(jī)的大數(shù)據(jù)技術(shù)生態(tài)體系。
在阿里云的構(gòu)想中,湖倉一體值得期待。湖和倉的數(shù)據(jù)/元數(shù)據(jù)無縫打通,且不需要用戶人工干預(yù);湖和倉有統(tǒng)一的開發(fā)體驗(yàn),存儲在不同系統(tǒng)的數(shù)據(jù),可以通過一個(gè)統(tǒng)一的開發(fā)/管理平臺操作;系統(tǒng)可以根據(jù)自動的規(guī)則決定哪些數(shù)據(jù)放在數(shù)倉,哪些保留在數(shù)據(jù)湖,進(jìn)而形成一體化。
5、大數(shù)據(jù)平臺融合云計(jì)算
云計(jì)算與大數(shù)據(jù)的發(fā)展路線必將交接、碰撞,而這已經(jīng)成為現(xiàn)實(shí)。大數(shù)據(jù)給人留下的印象:花錢多,靈活度低,令人頭疼的運(yùn)營管理等等。好在近年來,Modern Data Warehouse這個(gè)概念火了起來,利用云計(jì)算解釋了現(xiàn)代大數(shù)據(jù)存在的合理性。而隨著企業(yè)日新月異的數(shù)據(jù)需求和技術(shù)的進(jìn)步,更新的技術(shù)架構(gòu)層出不窮。
以DaaS為例,其既是Function-as-a-Service(FaaS)的一種,也是SaaS的自然延伸,最終目的都是盡可能遠(yuǎn)離IaaS以及服務(wù)本身的運(yùn)維,把資源最大限度地解放出來進(jìn)行業(yè)務(wù)功能的開發(fā),是目前大數(shù)據(jù)領(lǐng)域最接近這種serverless概念的產(chǎn)品,也許它會成為云時(shí)代最好的大數(shù)據(jù)平臺。

結(jié)語
總之,大數(shù)據(jù)技術(shù)的興起正完成對各傳統(tǒng)領(lǐng)域的顛覆。全球范圍內(nèi),運(yùn)用大數(shù)據(jù)推動經(jīng)濟(jì)發(fā)展、完善社會治理、提升政府服務(wù)和監(jiān)管能力正成為趨勢。各國已相繼制定實(shí)施大數(shù)據(jù)戰(zhàn)略性文件,大力推動大數(shù)據(jù)發(fā)展和應(yīng)用。從全球大數(shù)據(jù)發(fā)展的趨勢來看,大數(shù)據(jù)產(chǎn)業(yè)推動社會生產(chǎn)要素的網(wǎng)絡(luò)化共享、集約化整合、協(xié)作開發(fā)和高效利用,改變了傳統(tǒng)的生產(chǎn)方式和經(jīng)濟(jì)運(yùn)行機(jī)制,可顯著提升經(jīng)濟(jì)運(yùn)行水平和效率。
回顧2021年,在“后疫情時(shí)代”,數(shù)據(jù)已經(jīng)成了人們工作、生活中不可或缺的要素。人們的衣食住行,都因?yàn)閿?shù)據(jù)而改變、優(yōu)化,從而獲得更好的體驗(yàn)。
展望未來,中國大數(shù)據(jù)產(chǎn)業(yè)將繼續(xù)穩(wěn)步快速增長,技術(shù)創(chuàng)新能力不斷增強(qiáng),產(chǎn)業(yè)價(jià)值持續(xù)釋放,無論是政府、企業(yè),還是消費(fèi)者,數(shù)字化意識正進(jìn)一步增強(qiáng)。在相關(guān)產(chǎn)業(yè)政策、法律法規(guī)的支持和規(guī)范下,大數(shù)據(jù)產(chǎn)業(yè)將加速走向微觀細(xì)分領(lǐng)域,與行業(yè)應(yīng)用深度結(jié)合,有效推動數(shù)字化轉(zhuǎn)型與智能化升級。

