
導讀:數(shù)字化轉(zhuǎn)型要從根本上加強數(shù)據(jù)的可獲得性,圍繞我們構建的數(shù)據(jù)主題和對象豐富數(shù)據(jù)感知渠道。要追求更加實時、全面、有效、安全的數(shù)據(jù)獲取。
來源:大數(shù)據(jù)DT(ID:hzdashuju)隨著企業(yè)業(yè)務數(shù)字化轉(zhuǎn)型的推進,非數(shù)字原生企業(yè)對數(shù)據(jù)的感知和獲取提出了新的要求和挑戰(zhàn),原有信息化平臺的數(shù)據(jù)輸出和人工錄入能力已經(jīng)遠遠滿足不了企業(yè)內(nèi)部組織在數(shù)字化下的運作需求。企業(yè)需要構建數(shù)據(jù)感知能力,采用現(xiàn)代化手段采集和獲取數(shù)據(jù),減少人工錄入。數(shù)據(jù)感知能力架構如圖7-2所示。數(shù)據(jù)感知可分為“硬感知”和“軟感知”,面向不同場景?!坝哺兄敝饕迷O備或裝置進行數(shù)據(jù)的收集,收集對象為物理世界中的物理實體,或者是以物理實體為載體的信息、事件、流程等。而“軟感知”使用軟件或者各種技術進行數(shù)據(jù)收集,收集的對象存在于數(shù)字世界,通常不依賴物理設備進行收集。如圖7-3所示。數(shù)據(jù)采集方式主要經(jīng)歷了人工采集和自動采集兩個階段。自動采集技術仍在發(fā)展中,不同的應用領域所使用的具體技術手段也不同。基于物理世界的“硬感知”依靠的就是數(shù)據(jù)采集,是將物理對象鏡像到數(shù)字世界中的主要通道,是構建數(shù)據(jù)感知的關鍵,是實現(xiàn)人工智能的基礎。基于當前的技術水平和應用場景,我們將“硬感知”分為9類,每一類感知方式都有自身的特點和應用場景,如圖7-4所示。條形碼或者條碼是將寬度不等的多個黑條和空白,按一定的編碼規(guī)則排列,用以表達一組信息的圖形標識符,通常一維條形碼所能表示的字符集不過10個數(shù)字、26個英文字母及一些特殊字符,條碼字符集所能表示的字符個數(shù)最多為128個ASCII字符,信息量非常有限。二維碼是用某種特定的幾何圖形按一定規(guī)律在平面上分布的黑白相間的圖形,用來記錄數(shù)據(jù)符號信息。二維碼擁有龐大的信息攜帶量,能夠把使用一維條碼時存儲于后臺數(shù)據(jù)庫中的信息包含在條碼中,可以直接閱讀條碼得到相應的信息,并且二維碼還有錯誤修正及防偽功能,增加了數(shù)據(jù)的安全性。
磁卡是一種卡片狀的磁性記錄介質(zhì),利用磁性載體記錄字符與數(shù)字信息,用來保存身份信息。視使用基材的不同,可分為PET卡、PVC卡和紙卡三種;視磁層構造的不同,又可分為磁條卡和全涂磁卡兩種。磁卡的優(yōu)點是成本低,這是它容易推廣的原因,但缺點也比較明顯,例如卡的保密性和安全性較差,使用磁卡的應用系統(tǒng)需要有可靠的計算機系統(tǒng)和中央數(shù)據(jù)庫的支持。RFID(Radio Frequency Identification,無線射頻識別)是一種非接觸式的自動識別技術,通過無線射頻方式進行非接觸雙向數(shù)據(jù)通信,利用無線射頻方式對記錄媒體(電子標簽或射頻卡)進行讀寫,從而達到識別目標和數(shù)據(jù)交換的目的。基于特別業(yè)務場景的需求,在RFID的基礎上發(fā)展出了NFC(Near Field Communication,近場通信)。NFC本質(zhì)上與RFID沒有太大區(qū)別,在應用上的區(qū)別如下。- NFC的距離小于10cm,所以具有很高的安全性,而RFID距離從幾米到幾十米都有。
- NFC僅限于13.56MHz的頻段,與現(xiàn)有非接觸智能卡技術兼容,所以很多的廠商和相關團體都支持NFC。而RFID標準較多,難以統(tǒng)一,只能在特殊行業(yè)有特殊需求的情況下,采用相應的技術標準。
- RFID更多地被應用在生產(chǎn)、物流、跟蹤、資產(chǎn)管理上,而NFC則在門禁、公交、手機支付等領域發(fā)揮著巨大的作用。
OCR(Optical Character Recognition,光學字符識別)是指電子設備(例如掃描儀或者數(shù)碼相機)檢查紙上打印的字符,通過邊檢測暗、亮的模式確定其形狀,將其形狀翻譯成計算機文字的過程。如何除錯或利用輔助信息提高識別正確率,是OCR的重要課題。ICR(Intelligent Character Recognition,智能字符識別)是一種更先進的OCR。它植入了計算機深度學習的人工智能技術,采用語義推理和語義分析,根據(jù)字符上下文語句信息并結合語義知識庫,對未識別部分的字符進行信息補全,解決了OCR的技術缺陷。一個OCR識別系統(tǒng),從影像到結果輸出,須經(jīng)過影像輸入、影像預處理、文字特征抽取、比對識別,最后經(jīng)人工校正將認錯的文字更正,將結果輸出。目前OCR和ICR技術在業(yè)界有較為成熟的解決方案供應商,非數(shù)字原生企業(yè)不需要自行研發(fā)就可以完成相關技術的部署和數(shù)據(jù)的采集。圖像數(shù)據(jù)采集是指利用計算機對圖像進行采集、處理、分析和理解,以識別不同模式的目標和對象的技術,是深度學習算法的一種實踐應用。圖像數(shù)據(jù)采集的步驟如圖7-5所示。語音識別技術也被稱為自動語音識別(Automatic Speech Recognition,ASR),可將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如二進制編碼、字符序列或者文本文件。目前音頻數(shù)據(jù)采集技術在業(yè)界也有較為成熟的解決方案供應商,可以很便捷地通過解決方案供應商的技術,完成技術的部署和數(shù)據(jù)的采集。
采集來的聲音作為音頻文件存儲。音頻文件是指通過聲音錄入設備錄制的原始聲音,直接記錄了真實聲音的二進制采樣數(shù)據(jù),是互聯(lián)網(wǎng)多媒體中重要的一種文件。音頻獲取途徑包括下載音頻、麥克風錄制、MP3錄音、錄制計算機的聲音、從CD中獲取音頻等。視頻是動態(tài)的數(shù)據(jù),內(nèi)容隨時間而變化,聲音與運動圖像同步。通常視頻信息體積較大,集成了影像、聲音、文本等多種信息。視頻的獲取方式包括網(wǎng)絡下載、從VCD或DVD中捕獲、從錄像帶中采集、利用攝像機拍攝等,以及購買視頻素材、屏幕錄制等。傳感器是一種檢測裝置,能感受到被檢測的信息,并能將檢測到的信息按一定規(guī)律變換成信號或其他所需形式的信息輸出,以滿足信息的采集、傳輸、處理、存儲、顯示、記錄等要求。信號類型包括IEPE信號、電流信號、電壓信號、脈沖信號、I/O信號、電阻變化信號等。傳感器數(shù)據(jù)的主要特點是多源、實時、時序化、海量、高噪聲、異構、價值密度低等,數(shù)據(jù)通信和處理難度都較大。工業(yè)設備數(shù)據(jù)是對工業(yè)機器設備產(chǎn)生數(shù)據(jù)的統(tǒng)稱。在機器中有很多特定功能的元器件(閥門、開關、壓力計、攝像頭等),這些元器件接受工業(yè)設備和系統(tǒng)的命令開、關或上報數(shù)據(jù)。工業(yè)設備和系統(tǒng)能夠采集、存儲、加工、傳輸數(shù)據(jù)。工業(yè)設備目前應用在很多行業(yè),有聯(lián)網(wǎng)設備,也有未聯(lián)網(wǎng)設備。工業(yè)設備數(shù)據(jù)采集應用廣泛,例如可編程邏輯控制器(PLC)現(xiàn)場監(jiān)控、數(shù)控設備故障診斷與檢測、專用設備等大型工控設備的遠程監(jiān)控等。“硬感知”在非數(shù)字原生企業(yè)有廣闊的前景,因為在數(shù)字化時代,非數(shù)字原生企業(yè)大量存在的產(chǎn)線、流程工藝、實體貨物、物流設備等,都需要通過“硬感知”來實現(xiàn)數(shù)據(jù)的感知和采集。華為作為典型的非數(shù)字原生企業(yè),9類數(shù)據(jù)“硬感知”能力在各領域中都得到了一定的應用,并已發(fā)揮了實際的業(yè)務價值。如圖7-6所示,采用7種數(shù)據(jù)采集方式,支撐持續(xù)提升運營效率與消費者體驗。- 通過光線傳感器和溫度傳感器,自動調(diào)節(jié)窗簾、燈光,溫度隨環(huán)境改變,并與店門、窗簾、燈光、空調(diào)、屏幕、防盜系統(tǒng)聯(lián)動,打造智能綠色門店環(huán)境。
- 通過實物管理感知,樣機自動申報位置與狀態(tài),異常告警,自動上報消費者在門店體驗過程中的行為,結合消費者體驗情況優(yōu)化陳列、營銷設計、產(chǎn)品設計。
- 通過視頻感知客流與熱區(qū),管理門店各片區(qū)人流密度與停留時間,優(yōu)化陳列與營銷,實時調(diào)整服務人力與資源配置。
如圖7-7所示,站點主要在高層或者在野外環(huán)境中,勘測和日常維護難度都比較大,通過360度全景拍照和OCR,構建站點物理對象完整的圍欄尺寸、塔高、機房尺寸、設備尺寸、天線掛高、走線距離、天線的方位角、下傾角、扇區(qū)等數(shù)字鏡像,實現(xiàn)在數(shù)字化站點勘測規(guī)劃,現(xiàn)實站點直接施工,避免在現(xiàn)場反復勘測、設計調(diào)整。物理世界的“硬感知”是將物理對象構建到數(shù)字世界中的主要通道,是構建數(shù)據(jù)孿生的關鍵,而已經(jīng)存在于數(shù)字世界中的那些分散、異構信息,可通過“軟感知”能力來利用。目前“軟感知”比較成熟,并隨著數(shù)字原生企業(yè)的崛起而得到了廣泛的應用。我們將“軟感知”分為3類,如圖7-8所示。埋點是數(shù)據(jù)采集領域,尤其是用戶行為數(shù)據(jù)采集領域的術語,指的是針對特定用戶行為或事件進行捕獲的相關技術。埋點的技術實質(zhì),是監(jiān)聽軟件應用運行過程中的事件,當需要關注的事件發(fā)生時進行判斷和捕獲。埋點的主要作用是能夠幫助業(yè)務和數(shù)據(jù)分析人員打通固有信息墻,為了解用戶交互行為、擴寬用戶信息和前移運營機會提供數(shù)據(jù)支撐。在產(chǎn)品數(shù)據(jù)分析的初級階段,業(yè)務人員通過自有或第三方的數(shù)據(jù)統(tǒng)計平臺了解App用戶訪問的數(shù)據(jù)指標,包括新增用戶數(shù)、活躍用戶數(shù)等。這些指標能幫助企業(yè)宏觀地了解用戶訪問的整體情況和趨勢,從總體上把握產(chǎn)品的運營狀況,通過分析埋點獲取的數(shù)據(jù),制定產(chǎn)品改進策略。埋點技術在當前主要有以下幾類,每一類都有自己獨特的優(yōu)缺點,可以基于業(yè)務的需求,匹配使用。- 代碼埋點是目前比較主流的埋點方式,業(yè)務人員根據(jù)自己的統(tǒng)計需求選擇需要埋點的區(qū)域及埋點方式,形成詳細的埋點方案,由技術人員手工將這些統(tǒng)計代碼添加在想要獲取數(shù)據(jù)的統(tǒng)計點上。
- 可視化埋點通過可視化頁面設定埋點區(qū)域和事件ID,從而在用戶操作時記錄操作行為。
- 全埋點是在SDK部署時做統(tǒng)一的埋點,將App或應用程序的操作盡量多地采集下來。無論業(yè)務人員是否需要埋點數(shù)據(jù),全埋點都會將該處的用戶行為數(shù)據(jù)和對應產(chǎn)生的信息全采集下來。
日志數(shù)據(jù)收集是實時收集服務器、應用程序、網(wǎng)絡設備等生成的日志記錄,此過程的目的是識別運行錯誤、配置錯誤、入侵嘗試、策略違反或安全問題。在企業(yè)業(yè)務管理中,基于IT系統(tǒng)建設和運作產(chǎn)生的日志內(nèi)容,可以將日志分為三類。因為系統(tǒng)的多樣化和分析維度的差異,日志管理面臨著諸多的數(shù)據(jù)管理問題。- 操作日志,指系統(tǒng)用戶使用系統(tǒng)過程中的一系列的操作記錄。此日志有利于備查及提供相關安全審計的資料。
- 運行日志,用于記錄網(wǎng)元設備或應用程序在運行過程中的狀況和信息,包括異常的狀態(tài)、動作、關鍵的事件等。
- 安全日志,用于記錄在設備側發(fā)生的安全事件,如登錄、權限等。
網(wǎng)絡爬蟲(Web Crawler)又稱為網(wǎng)頁蜘蛛、網(wǎng)絡機器人,是按照一定的規(guī)則自動抓取網(wǎng)頁信息的程序或者腳本。搜索和數(shù)字化運營需求的興起,使得爬蟲技術得到了長足的發(fā)展,爬蟲技術作為網(wǎng)絡、數(shù)據(jù)庫與機器學習等領域的交匯點,已經(jīng)成為滿足個性化數(shù)據(jù)需求的最佳實踐。Python、Java、PHP、C#、Go等語言都可以實現(xiàn)爬蟲,特別是Python中配置爬蟲的便捷性,使得爬蟲技術得以迅速普及,也促成了政府、企業(yè)界、個人對信息安全和隱私的關注。“軟感知”主要面向產(chǎn)品持續(xù)運營提供服務,基于對產(chǎn)品日志、用戶行為的感知,改善產(chǎn)品功能。以華為內(nèi)部數(shù)據(jù)管理平臺為例(如圖7-9所示),數(shù)據(jù)管理平臺的數(shù)字化運營,需要識別用戶行為,進而提升運營效率與用戶數(shù)據(jù)消費的體驗。▲圖7-9 數(shù)據(jù)管理平臺用戶標簽通過對平臺埋點,捕捉用戶在界面上從數(shù)據(jù)定位到最終消費的瀏覽過程和停留時間等信息,并關聯(lián)用戶的部門、職位、所在地等信息,自動生成用戶畫像和數(shù)據(jù)畫像,確定細分用戶范圍,界定相同認知背景和業(yè)務場景的用戶,提供可識別的分類資產(chǎn)用于搜索,界定數(shù)據(jù)資產(chǎn)分類,面向不同用戶界定不同的資產(chǎn)范圍,減少匹配差異和搜索引擎復雜度,訓練搜索引擎和推薦算法,提供最優(yōu)數(shù)據(jù)推薦結果和排序位置。12類感知能力在企業(yè)中的應用,突破了原有人工維護數(shù)據(jù)的局限。但是不管是“軟感知”還是“硬感知”,產(chǎn)生的數(shù)據(jù)在沒有納入企業(yè)整體的數(shù)據(jù)管理體系情況下,如果只以獨立數(shù)據(jù)的形式存在,是無法應對復雜的企業(yè)數(shù)字化變革的。關于作者:華為公司數(shù)據(jù)管理部,作為集團層面的數(shù)據(jù)管理組織,主要負責公司數(shù)據(jù)工作的戰(zhàn)略規(guī)劃、路標舉措以及實施落地;數(shù)據(jù)從產(chǎn)生到消費全生命周期管理的治理框架、流程規(guī)范、方法和IT工具的制定與推行;公司級信息架構的設計和數(shù)據(jù)資產(chǎn)的治理維護;主持集團層面數(shù)據(jù)相關項目,推動以數(shù)據(jù)為核心的數(shù)字化轉(zhuǎn)型等工作。
本文摘編自《華為數(shù)據(jù)之道》,經(jīng)出版方授權發(fā)布。
延伸閱讀《華為數(shù)據(jù)之道》
點擊上圖了解及購買
轉(zhuǎn)載請聯(lián)系微信:DoctorData
推薦語:華為官方出品!這是一部從技術、流程、管理等多個維度系統(tǒng)講解華為數(shù)據(jù)治理和數(shù)字化轉(zhuǎn)型的著作。
PPT?|?讀書?|?書單?|?硬核?|?干貨?|?講明白?|?神操作大數(shù)據(jù)?|?云計算?|?數(shù)據(jù)庫?|?Python?|?可視化AI?|?人工智能?|?機器學習?|?深度學習?|?NLP5G?|?中臺?|?用戶畫像?|?1024?|?數(shù)學?|?算法?|?數(shù)字孿生據(jù)統(tǒng)計,99%的大咖都完成了這個神操作