<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ApacheCON Asia 2021清華大學軟件學院王建民:工業(yè)大數(shù)據(jù)軟件與開源創(chuàng)新

          共 5311字,需瀏覽 11分鐘

           ·

          2021-11-30 03:33


          演講人簡介

          ?

          王建民教授,清華大學軟件學院院長、大數(shù)據(jù)系統(tǒng)軟件國家工程實驗室執(zhí)行主任、清華大學大數(shù)據(jù)研究中心常務副主任,工業(yè)大數(shù)據(jù)系統(tǒng)與應用重點北京市重點實驗室主任。國家工業(yè)互聯(lián)網(wǎng)戰(zhàn)略咨詢專家委員會委員。主要研究領(lǐng)域:大數(shù)據(jù)與知識工程,包括非結(jié)構(gòu)化數(shù)據(jù)管理、業(yè)務過程與產(chǎn)品生命周期管理、數(shù)字版權(quán)與系統(tǒng)安全技術(shù)、數(shù)據(jù)庫測試技術(shù)等。

          ?
          以下內(nèi)容節(jié)選、翻譯自王建民老師于2021年8月在ApacheCON Asia 2021年會會場所做的《工業(yè)大數(shù)據(jù)軟件與開源創(chuàng)新》英文主題演講:

          很榮幸與各位分享我們在清華大學工業(yè)大數(shù)據(jù)軟件研究和開源實踐方面的工作。

          如今,大數(shù)據(jù)已經(jīng)不是一個新詞了,中國有很多互聯(lián)網(wǎng)行業(yè)的領(lǐng)導者,比如阿里巴巴、騰訊、百度、華為,他們都是大數(shù)據(jù)領(lǐng)域的強勢參與者,并且大多數(shù)是面向消費者的。但是,如果我們仔細觀察中國經(jīng)濟,就會發(fā)現(xiàn)中國在大數(shù)據(jù)應用的一些主要領(lǐng)域內(nèi)仍存在滯后——例如制造業(yè)、建筑業(yè)、運輸業(yè)等。當下,這些行業(yè)面臨著兩大挑戰(zhàn):缺乏對先進大數(shù)據(jù)技術(shù)有深刻理解的人才,以及現(xiàn)今提供的技術(shù)水平不足以解決他們手中的具體問題。然而,大數(shù)據(jù)同樣擁有許多新的關(guān)注領(lǐng)域,如人工智能、機器學習、數(shù)據(jù)科學等。

          我們的使命是為這些行業(yè)進行大數(shù)據(jù)技術(shù)和應用方面的創(chuàng)新。根據(jù)2011年麥肯錫全球機構(gòu)發(fā)布的大數(shù)據(jù)報告顯示,制造業(yè)的數(shù)據(jù)量甚至超過了金融業(yè)。工業(yè)大數(shù)據(jù)從何而來?第一個數(shù)據(jù)源是企業(yè)信息系統(tǒng),如CAD系統(tǒng)、PDM和PLM系統(tǒng)、ERP和CRM系統(tǒng)等(這些系統(tǒng)在上世紀六十年代就開始被企業(yè)所使用了)。第二個數(shù)據(jù)源是始于21世紀之初的工業(yè)物聯(lián)網(wǎng),如飛機、風力發(fā)電機等。工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)又稱機器設備數(shù)據(jù)或工況數(shù)據(jù),構(gòu)成了工業(yè)大數(shù)據(jù)的主體。第三種數(shù)據(jù)源是來自互聯(lián)網(wǎng)的跨領(lǐng)域數(shù)據(jù),如氣象、地理和環(huán)境數(shù)據(jù),這些數(shù)據(jù)在當今的人工智能時代很容易得到。


          工業(yè)大數(shù)據(jù)的第一數(shù)據(jù)源是企業(yè)信息系統(tǒng)。企業(yè)信息系統(tǒng)中的數(shù)據(jù)包含非結(jié)構(gòu)化數(shù)據(jù),如二維工程圖紙、三維零件模型、服務卡、業(yè)務文檔等,它們通常存儲在文件系統(tǒng)中;與此同時也包含結(jié)構(gòu)化數(shù)據(jù),如物料清單和零件項、產(chǎn)品非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)及其文件路徑,它們被存儲在關(guān)系DBMS中。

          依據(jù)PLM(Product Lifecycle Management,產(chǎn)品生命周期管理)理論,產(chǎn)品的設計和制造階段也稱生命周期的開始階段(Beginning of the Life, 下文簡稱BOL),產(chǎn)品的維護和服務階段也稱生命周期的中期階段(Middle of the Life,下文簡稱MOL)。為了滿足BOL數(shù)據(jù)與MOL數(shù)據(jù)之間的雙向連接要求,我們引入了中性BOM(Bill of Materials,產(chǎn)品結(jié)構(gòu)清單)結(jié)構(gòu),將設計制造階段的BOM與服務階段BOM有效協(xié)調(diào)在一起。中性BOM降低了不同生命周期BOM之間的關(guān)聯(lián)復雜度,在企業(yè)中得到了廣泛應用(如東方汽輪機有限公司等),并被作為國家標準進行發(fā)布。


          工業(yè)大數(shù)據(jù)的第二個數(shù)據(jù)源是來自工程設備或機械設備的工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)。為了使設備高效運行,我們需要盡可能多地收集、存儲和分析工況數(shù)據(jù)。原設備制造商(如三一重工、中聯(lián)重科)在機器中嵌入了許多傳感器。以挖掘機為例,其在建筑工地工作時,傳感器收集數(shù)據(jù)并通過Wifi和5G網(wǎng)絡將數(shù)據(jù)發(fā)送到云數(shù)據(jù)中心。這些數(shù)據(jù)記錄了機器設備的運行狀態(tài)。例如,當設備從一個工地移動到另一個工地時,我們會收集它們的速度、位置和燃料消耗量等數(shù)據(jù);當設備工作時,我們收集底盤角度、泵壓力等數(shù)據(jù)。假設一臺設備平均有500個傳感器,那么這10000臺工程設備每年就會產(chǎn)生500多億條記錄。

          如今,物聯(lián)網(wǎng)數(shù)據(jù)已經(jīng)成為工業(yè)大數(shù)據(jù)的主體,未來也依舊會在工業(yè)大數(shù)據(jù)的總量中占據(jù)主導地位。


          第三種數(shù)據(jù)源是來自互聯(lián)網(wǎng)和第三方的跨域數(shù)據(jù)。根據(jù)邁克爾·波特的文章,信息技術(shù)正在革新工業(yè)產(chǎn)品。在未來,大部分產(chǎn)品將接入互聯(lián)網(wǎng),成為智能產(chǎn)品。例如,農(nóng)業(yè)設備系統(tǒng)將與天氣數(shù)據(jù)系統(tǒng)、種子優(yōu)化系統(tǒng)和灌溉系統(tǒng)協(xié)同工作,這就意味著來自互聯(lián)網(wǎng)和第三方系統(tǒng)的數(shù)據(jù)將與企業(yè)數(shù)據(jù)和工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)進行集成和聚合。2013年6月起,我們與中國國家氣象中心合作建立了氣候大數(shù)據(jù)集成處理系統(tǒng)。目前,它管理著1073種非結(jié)構(gòu)化實時天氣數(shù)據(jù),其預測結(jié)果已被金風公司所使用——通過預測結(jié)冰時間并校正風機葉片對風角的數(shù)值,讓風力發(fā)電機得以平穩(wěn)運行并產(chǎn)生更多的電力。


          正如我們所看到的,工業(yè)大數(shù)據(jù)有三個來源:企業(yè)信息系統(tǒng)、工業(yè)物聯(lián)網(wǎng)和互聯(lián)網(wǎng),可用于四種應用場景:

          場景一,監(jiān)控和告警。工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)和跨域數(shù)據(jù)可用于設備工作狀態(tài)和社會事件的監(jiān)控,并可監(jiān)控異常報警,甚至對其進行閉環(huán)控制。

          場景二,查詢和搜索。ERP、PLM、SCM等企業(yè)信息系統(tǒng)中積累的數(shù)據(jù)具有較高的價值密度,是工業(yè)大數(shù)據(jù)的主數(shù)據(jù)。一方面,這些數(shù)據(jù)用于企業(yè)日常運營中的數(shù)據(jù)查詢和搜索任務。另一方面,在企業(yè)信息系統(tǒng)數(shù)據(jù)作為主數(shù)據(jù)的基礎之上,工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)和跨域數(shù)據(jù)被組織在一起,形成工業(yè)數(shù)據(jù)湖。

          場景三,加工與報表,也就是商業(yè)智能(Business Intelligence,下文簡稱BI)應用。存儲在數(shù)據(jù)湖的工業(yè)原始數(shù)據(jù)需要經(jīng)過加工轉(zhuǎn)換(將一個數(shù)據(jù)集轉(zhuǎn)換為另一個數(shù)據(jù)集),通常被轉(zhuǎn)換為關(guān)鍵績效指標(KPI)。處理結(jié)果將作為報告進行交付,這就是典型的BI應用場景。

          場景四,決策與預測、人工智能應用。如果說BI應用只是完成了數(shù)據(jù)集之間的轉(zhuǎn)化工作,那么AI應用所做的就是從數(shù)據(jù)集中提取知識——尤其是訓練數(shù)據(jù)集。如今,機器學習是人工智能應用的主流。因此,深度學習或遷移學習生成的神經(jīng)網(wǎng)絡可以應用于決策和預測工作。

          在以上的四大應用場景中,工業(yè)大數(shù)據(jù)生命周期可被劃分為收集、管理、處理、分析和應用五個階段。

          而在具體的工業(yè)大數(shù)據(jù)應用中,這五個階段可能相互交錯的。工業(yè)大數(shù)據(jù)軟件棧與大數(shù)據(jù)生命周期和DIKW金字塔(Data-to-Information-to-Knowledge-to-Wisdom Model,即數(shù)據(jù)-信息-知識-智慧)是一致的。考慮到數(shù)據(jù)五個階段的生命周期以及在四個場景下的應用,我們提出了一種新的大數(shù)據(jù)軟件架構(gòu)——清華數(shù)為(Tsinghua Dataway)。其中,我們研發(fā)了一些針對工業(yè)大數(shù)據(jù)需求的項目(下圖中的淺黃色方框),如IoTDB、TsClean、Flok、AnyLearn、AutoVis等等。由于時間有限,我將和大家分享其中的三個。



          第一個是數(shù)為框架(DWF),這是一個用于數(shù)據(jù)密集型應用程序的快速開發(fā)平臺。它有兩個目的:第一個是快速開發(fā),我們采用模型驅(qū)動的架構(gòu)來改變我們實現(xiàn)應用程序的方式——從傳統(tǒng)的硬編碼升級到輕量級配置,使得初級工程師也能夠以低代碼的方式來創(chuàng)建應用程序;第二個是大數(shù)據(jù)密集型應用程序,這意味著它有一個能讓不同的大數(shù)據(jù)組件(比如Hadoop和Spark)易于協(xié)作的底層模型,并將這些組件整合到應用程序中,因此用戶可以將這個框架作為數(shù)據(jù)總線、控制總線和交互總線來使用。

          DWF FloK是大數(shù)據(jù)處理的控制總線,負責管理大數(shù)據(jù)軟件組件之間的工作流程。眾所周知,CRISP-DM作為公認的工業(yè)大數(shù)據(jù)分析范式共包含有6步:業(yè)務理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建模、評估、部署。Flok支持通過拖拽操作符快速構(gòu)建(依照上述分析范式的)數(shù)據(jù)處理工作流,并擁有180多種內(nèi)置算法。



          第二個是AnyLearn,它是一個面向人工智能的機器學習系統(tǒng),也是一個云原生的系統(tǒng)。Anylearn是為工業(yè)領(lǐng)域的專家用戶構(gòu)建的,他們擁有豐富的行業(yè)知識,但不是機器學習方面的專家。Anylearn有多種用戶友好的GUI界面,如交互式Web界面,Jupyter Notebook和命令行。此外,論是在云上還是在邊緣上,Anylearn都能讓生產(chǎn)環(huán)境中部署模型變得很容易。最后,Anylearn將遷移學習能力作為其固有功能,適用于行業(yè)中眾多類似場景。

          Anylearn提供了面向不同領(lǐng)域的算法庫,比如天氣預報、風力預測以及我們團隊研發(fā)的遷移學習框架。Anylearn還為工業(yè)物聯(lián)網(wǎng)場景提供了可在安卓和實時Linux操作系統(tǒng)上運行的Anylearn邊緣推理引擎,ML模型的推理結(jié)果可以與狀態(tài)圖合并(例如,將業(yè)務規(guī)則和來自實時監(jiān)控的傳感器數(shù)據(jù)進行合并)。我們在實驗室搭建了一個由Anylearn和IoTDB支持的風力預測試驗臺,傳感器就安裝在我們學院東配樓樓頂。它通過一個由太陽能供電的樹莓派用IoTDB收集傳感器數(shù)據(jù),利用Anylearn作為引擎提供風力預測服務。風力預測的機器學習模型是在云端訓練的。
          ?


          第三個是一個時序數(shù)據(jù)庫管理系統(tǒng)——IoTDB。這個數(shù)據(jù)庫有三個不同的使用場景。首先,它可以用作終端設備中的一個數(shù)據(jù)文件,我們提供了高壓縮率和簡單的寫讀系統(tǒng)。其次,它可以作為車間級或工廠級的數(shù)據(jù)庫來使用。用作集中控制場景時功能更強大,如資產(chǎn)監(jiān)控和處理。最后,IoTDB原生支持Spark和Hadoop等大數(shù)據(jù)分析框架,使得行業(yè)更容易開展產(chǎn)業(yè)大數(shù)據(jù)分析,尤其是基于云計算的行業(yè)互聯(lián)網(wǎng)應用。

          IoTDB項目于2011年啟動,起源于幫助三一重工升級其三一企業(yè)控制中心系統(tǒng)(ECC),該系統(tǒng)監(jiān)控全球超過100,000臺設備。當時ECC系統(tǒng)將設備數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫中。然而,系統(tǒng)的性能不滿足如車載混凝土泵鎖定和柴油被盜檢測等應用的需求。在分析研究了這個應用后,我們發(fā)現(xiàn)有以下3個主要挑戰(zhàn),1)在工業(yè)物聯(lián)網(wǎng)應用場景中,時間序列的元數(shù)據(jù)是由終端設備定義的,即新的時間序列可能不需要經(jīng)過后端注冊即可出現(xiàn)。2)在工業(yè)物聯(lián)網(wǎng)場景中,我們應該盡可能接近現(xiàn)場處理數(shù)據(jù),這與L0到L4工廠層次結(jié)構(gòu)一致。3)來自于工業(yè)互聯(lián)網(wǎng)的數(shù)據(jù)通常是關(guān)于機器運行狀況的數(shù)據(jù),信號處理功能會被頻繁應用于這類物聯(lián)網(wǎng)數(shù)據(jù)集。


          從2015年開始,我們正式啟動IoTDB的新版本開發(fā);2017年我們在GitHub上開源了代碼;2018年11月,Apache軟件基金會接受IoTDB作為孵化器項目;20個月后,Apache IoTDB成為ASF的頂級項目。


          為什么要開源?如今,開源已經(jīng)成為了軟件行業(yè)及研究領(lǐng)域的創(chuàng)新范式。我們可以回想谷歌研發(fā)的安卓——一個移動操作系統(tǒng),TensorFlow——一個端到端的機器學習開源平臺,前者改變了移動互聯(lián)網(wǎng)世界,而后者使模型易于搭建和部署。此外,開源是高校對外進行技術(shù)輸出的一種有效手段,例如Spark——用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一分析引擎,Ray——高性能分布式執(zhí)行框架,它們都來自加州大學伯克利分校。最后,開源對新一代軟件人才來說是一種教育平臺,在這里他們可以接觸到來自現(xiàn)實生活應用的需求,培養(yǎng)出他們在學校里學不到的開發(fā)技能。

          說到開源的選擇,為什么選擇Apache?因為如果只是把代碼公布在Github上,可能最多就是自己玩一玩這個項目。眾所周知,Apache軟件基金會在過去20年中獲得了諸多成就,然而對我們更重要的是Apache的文化。比起代碼,他們更相信的是社區(qū)——這意味著一個健康的社區(qū)比良好的代碼更重要。而且,AFS有很好的行為規(guī)范,尊重社區(qū)中的每一個人。

          下面我來介紹一下我們的開源實踐,我負責教授高年級本科生的數(shù)據(jù)庫課程已經(jīng)有20年的時間,這個課程的目標是理解關(guān)系數(shù)據(jù)模型、SQL語言、數(shù)據(jù)庫設計方法、DBMS(數(shù)據(jù)庫管理系統(tǒng))結(jié)構(gòu)及其實現(xiàn)。本課程的項目作業(yè)之一是開發(fā)一個小型數(shù)據(jù)庫管理系統(tǒng)。我鼓勵學生從開源項目(以前在使用HSQL)中學習,并盡最大努力為他們所學習的開源項目做出貢獻。此外,在我們學院,軟件工程是一門非常重要的學科,這需要較強的實踐能力和實踐經(jīng)驗。學生參與開源項目之后,會很好地理解敏捷開發(fā)的本質(zhì)和SCRUM項目管理理念。他們還通過單元測試、集成測試和持續(xù)集成測試,積累了有關(guān)測試驅(qū)動的軟件開發(fā)框架的經(jīng)驗。當他們把代碼貢獻給社區(qū)時,還會用Sonar等檢查程序,并在源代碼中找出問題。

          開源平臺是一個非常重要的軟件工程培訓環(huán)境。在清華大學軟件學院,我們鼓勵學生和教師為開源軟件項目做出貢獻。自2018年起,我們學生獎學金的評選標準有了變化:不僅強調(diào)論文發(fā)表,還考慮學生對開源項目的貢獻,如為項目提交代碼(pull requests)、bug修復、提出新想法并被項目采納等。此外,我們還通過舉辦開源會議及分享會、高校間項目合作及演講等方式,積極宣傳開源文化。

          在演講的最后,我想強調(diào)的是:我們的使命是創(chuàng)新工業(yè)大數(shù)據(jù)技術(shù)和軟件工具以快速方便地創(chuàng)建應用。我們相信無論在中國還是全世界,工業(yè)大數(shù)據(jù)軟件及其應用在未來都是一項長期的工作;清華數(shù)為軟件棧是我們對這個方向的初步探索,也是我們開源之旅的起點。最后,我希望大家關(guān)注我們的“清華數(shù)為“項目,并邀請大家參與到Apache IoTDB項目的開發(fā)建設中來。


          來源:數(shù)學技術(shù)學習中心

          編輯:栗可昱


          瀏覽 80
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  青草超碰 | 午夜美女内射黄操操射精网站大胸操逼 | av在线青青草 | 国产精品 男同 | 18禁亚洲|