北航王建平:如何突破海量數(shù)據(jù)處理瓶頸?

破解海量數(shù)據(jù)處理瓶頸的出爐在哪里?
數(shù)字經(jīng)濟時代,打造強悍的數(shù)據(jù)底座,已經(jīng)成為行業(yè)共識,但是在面臨著海量且復雜文本數(shù)據(jù)處理時,很多行業(yè)和企業(yè)存在瓶頸,出路在哪里?
7月19日,在2022全國工業(yè)互聯(lián)網(wǎng)平臺賦能深度行(首站·寧波)暨第二屆未來智造大會上,北京航空航天大學國家科技資源共享服務工程技術(shù)研究中心副主任王建平拋出了上述疑問。
在王建平看來,當前,海量數(shù)據(jù)處理存在著兩大瓶頸。第一個瓶頸是技術(shù)路徑。他認為,互聯(lián)網(wǎng)出現(xiàn)后,信息大爆炸、數(shù)據(jù)成海量,但是復雜文本數(shù)據(jù)的處理,要完全擺脫人工,仍然十分困難,還是一個全球性的難題。盡管利用爬蟲、深度學習、NLP等技術(shù),機器能夠理解簡單文本的語義,但是對較復雜文本處理還到不了實用程度。
第二個瓶頸是經(jīng)濟成本。王建平表示,若針對海量數(shù)據(jù),采用人工方式處理,則存在經(jīng)濟性問題。一是個體網(wǎng)站獨立對海量文本數(shù)據(jù)人工處理的成本問題,二是數(shù)千萬獨立網(wǎng)站、APP、小程序的人工維護的社會成本和規(guī)模經(jīng)濟的問題。
事實上,當前很多企業(yè)采用人工智能處理海量數(shù)據(jù),都是后臺人工處理、前臺智能呈現(xiàn),清洗、標注的最后一步需要人工處理。王建平對當前海量復雜文本數(shù)據(jù)處理現(xiàn)狀直言不諱,借助爬蟲自動采集數(shù)據(jù)容易,但是爬蟲抓來的還是一堆垃圾,人工處理,技術(shù)上不可取、經(jīng)濟上高成本。以文本數(shù)據(jù)處理為例,國內(nèi)沒有一個文本數(shù)據(jù)的機器全自動處理解決方案,沒有一家大廠解決數(shù)據(jù)處理的最后一公里,數(shù)據(jù)庫數(shù)據(jù)處理成難題,網(wǎng)站、APP、小程序出現(xiàn)一堆僵尸。
那么出路在哪里?王建平指出,要研究出一套原創(chuàng)算法,抽象出一套底層的規(guī)則,擺脫對清洗、標注準確的大樣本、大素材的依賴、滿足規(guī)則自適應的需求。而且還要能夠基于云計算架構(gòu),為用戶構(gòu)建大數(shù)據(jù)平臺,實時賦能數(shù)據(jù),賦能算法、搜素引擎等技術(shù),降低用戶的技術(shù)門檻、維護成本。
依托北京航空航天大學國家工程技術(shù)中心,寧波、北京兩地分別組建了寧波優(yōu)策、國信科技兩家小創(chuàng)企業(yè),從事大數(shù)據(jù)、人工智能的算法、架構(gòu)研究。其中,寧波優(yōu)策主要從事產(chǎn)業(yè)政策、產(chǎn)業(yè)資訊大數(shù)據(jù)平臺開發(fā),國信科技專注于產(chǎn)業(yè)人才大數(shù)據(jù)開發(fā),基于國內(nèi)最先進的算法和架構(gòu),解決數(shù)據(jù)處理的最后一公里。
據(jù)介紹,上述兩家公司基于國內(nèi)最先進的理念、架構(gòu)、算法,開發(fā)了產(chǎn)業(yè)政策大數(shù)據(jù)平臺、產(chǎn)業(yè)資訊大數(shù)據(jù)平臺、產(chǎn)業(yè)人才大數(shù)據(jù)平臺和專業(yè)服務(科技服務)大數(shù)據(jù)平臺四大技術(shù)引擎和數(shù)據(jù)引擎,構(gòu)建產(chǎn)業(yè)公共服務生態(tài)平臺、產(chǎn)業(yè)大數(shù)據(jù)平臺和企業(yè)機構(gòu)官網(wǎng),形成自主的原創(chuàng)算法、知識體系、技術(shù)體系、產(chǎn)品體系和平臺體系。
產(chǎn)業(yè)政策大數(shù)據(jù)平臺是一個定制平臺的平臺,是一個定制引擎的引擎,系統(tǒng)部署數(shù)據(jù)監(jiān)控源超過20000個,匯聚產(chǎn)業(yè)政策數(shù)據(jù)量超過1500萬。該平臺采用原創(chuàng)算法,100%實現(xiàn)機器對政策的自動清洗,剔除非產(chǎn)業(yè)政策類信息,100%實現(xiàn)機器對政策分類、技術(shù)領(lǐng)域、技術(shù)專題等產(chǎn)業(yè)政策屬性的自動標記。用戶通過簡單的參數(shù)設(shè)置,以云模式獨立定制自己的區(qū)域、行業(yè)、主題類的產(chǎn)業(yè)政策大數(shù)據(jù)平臺,賦能實時數(shù)據(jù),賦能原創(chuàng)算法、搜索引擎等核心技術(shù)。
產(chǎn)業(yè)資訊大數(shù)據(jù)平臺是國內(nèi)唯一的產(chǎn)業(yè)資訊垂直搜素引擎,系統(tǒng)部署數(shù)據(jù)監(jiān)控源超過500個,匯聚產(chǎn)業(yè)資訊數(shù)據(jù)量超過300萬。與產(chǎn)業(yè)政策大數(shù)據(jù)平臺不同,該平臺通過爬蟲技術(shù),對資訊網(wǎng)站進行數(shù)據(jù)抓取,采用原創(chuàng)的核心算法,對數(shù)據(jù)進行自動清洗,剔除非產(chǎn)業(yè)資訊類數(shù)據(jù),100%實現(xiàn)了機器對產(chǎn)業(yè)資訊各類屬性的自動標記,打通數(shù)據(jù)處理的最后一公里。用戶可以按照數(shù)據(jù)的不同維度,實現(xiàn)垂直搜索、精準搜索、個性推送;基于算法和規(guī)則,通過數(shù)據(jù)源定制,自動形成產(chǎn)業(yè)專題。
產(chǎn)業(yè)人才大數(shù)據(jù)平臺能夠?qū)崟r監(jiān)測分析全國3000多所大專院校、6.5萬家科研高校院所、30余萬家高新技術(shù)企業(yè)中1000多萬高新技術(shù)人才;國外10000多所頂級的大學、院所和科研機構(gòu)大約2000多萬的外國專家和華人專家學者人才,這其中包括65萬的華人學者;大約2.5億的論文數(shù)據(jù),國內(nèi)專利庫1800萬專利數(shù)據(jù),還有各類政府的項目數(shù)據(jù)150萬。
王建平表示,目前上述幾大平臺已經(jīng)在全國積累了大量落地案例,獲得行業(yè)肯定。比如為寧波市政府定制推送全國產(chǎn)業(yè)政策大數(shù)據(jù)平臺;打造國家(寧波)工業(yè)互聯(lián)網(wǎng)公共服務生態(tài)平臺等。
作為2022全國工業(yè)互聯(lián)網(wǎng)平臺賦能深度行活動的首站,本次活動由寧波市人民政府、中國電子信息產(chǎn)業(yè)發(fā)展研究院、工業(yè)互聯(lián)網(wǎng)平臺創(chuàng)新合作中心主辦,以“深化平臺應用 加速數(shù)字發(fā)展”為主題,通過“六個一”活動,為工業(yè)互聯(lián)網(wǎng)平臺賦能數(shù)字化轉(zhuǎn)型搭建了官產(chǎn)學研用良好互動的建設(shè)性交流舞臺,全面展現(xiàn)了工業(yè)互聯(lián)網(wǎng)創(chuàng)新發(fā)展圖景。
點燃數(shù)字化澎湃動力:2022全國工業(yè)互聯(lián)網(wǎng)平臺賦能深度行寧波啟航
重磅:專著《數(shù)道:解碼數(shù)字化轉(zhuǎn)型之路》發(fā)布
百度副總裁李碩:從傳感器到大屏僅是開始,AI將深入場景創(chuàng)造數(shù)字化真價值


