<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          必看!重點(diǎn)高校教授帶你讀數(shù)據(jù)庫頂會(huì)論文

          共 4327字,需瀏覽 9分鐘

           ·

          2022-06-29 23:32

          俗話說得好,內(nèi)行看門道,外行看熱鬧。那么,如何才能快速達(dá)成從“看熱鬧”到“看門道”這一身份的轉(zhuǎn)換?

          答:讀論文,尤其是讀頂尖論文!一篇頂尖論文,要么代表在全球范圍內(nèi)對(duì)其研究領(lǐng)域的實(shí)驗(yàn)性、理論性或預(yù)測(cè)性有新的科研成果或創(chuàng)新見解,要么就是某種已知原理在應(yīng)用上取得了新突破。

          騰訊云數(shù)據(jù)庫近期舉辦了 DBTalk 論文在線解讀會(huì),針對(duì) 3 篇近期被 SIGMOD、WWW 數(shù)據(jù)庫頂會(huì)收錄的論文展開深度解讀,并邀請(qǐng)中國(guó)人民大學(xué)副教授張峰、華中科技大學(xué)副研究員劉渝專家對(duì)數(shù)據(jù)庫的現(xiàn)狀、未來挑戰(zhàn)、產(chǎn)學(xué)研協(xié)同等議題進(jìn)行深度探討。

          “數(shù)據(jù)庫是一個(gè)綜合系統(tǒng),其背后是發(fā)展了幾十年的數(shù)據(jù)庫理論。作為一名開發(fā)者來說,無論是為了克服工作上源源不斷的挑戰(zhàn),還是為了跟上時(shí)代最前沿的技術(shù),想要持續(xù)進(jìn)步,就需要掌握數(shù)據(jù)庫的基本原理和底層邏輯,對(duì)新技術(shù)永遠(yuǎn)抱有好奇心,學(xué)以致用并將在實(shí)踐中收獲的經(jīng)驗(yàn)進(jìn)行反哺。只有這樣,才能不被時(shí)代甩下車?!彬v訊云副總裁、騰訊云數(shù)據(jù)庫負(fù)責(zé)人林曉斌說。

          基于壓縮數(shù)據(jù)直接計(jì)算

          技術(shù)的數(shù)據(jù)庫系統(tǒng)研究


          中國(guó)人民大學(xué)副教授、博士生導(dǎo)師、騰訊犀牛鳥

          基金獲得者,張峰


          在數(shù)據(jù)壓縮的情況下直接對(duì)數(shù)據(jù)進(jìn)行計(jì)算,這個(gè)想法的提出最初來源于對(duì)節(jié)省時(shí)間、空間雙重維度的迫切需求。

          面對(duì)這種需求,中國(guó)人民大學(xué)數(shù)據(jù)工程與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室提出了壓縮數(shù)據(jù)直接計(jì)算技術(shù),并在論文《CompressDB: Enabling Efficient Compressed Data Direct Processing for Various Databases》中,詳細(xì)講述了如何將該項(xiàng)技術(shù)與數(shù)據(jù)庫做一個(gè)很好的融合,達(dá)到對(duì)多種數(shù)據(jù)庫產(chǎn)品進(jìn)行支撐的目的。

          要想使這項(xiàng)技術(shù)支持多種類型的數(shù)據(jù)庫,一種方案就是將該項(xiàng)技術(shù)集成到底層的存儲(chǔ)系統(tǒng)中,但是,這會(huì)產(chǎn)生三個(gè)技術(shù)壁壘:第一,在存儲(chǔ)系統(tǒng)中會(huì)面臨對(duì)數(shù)據(jù)塊的處理,復(fù)雜程度大大提升;第二,對(duì)于頻繁的增刪改查等操作,無法確保高效性;第三,如何利用磁盤和內(nèi)存特性上的差距也是一個(gè)挑戰(zhàn)。

          基于上述挑戰(zhàn),本研究開發(fā)了一個(gè)新的存儲(chǔ)引擎 CompressDB,其采用基于規(guī)則的壓縮技術(shù)并限制其規(guī)則生成深度,支持直接對(duì)壓縮數(shù)據(jù)進(jìn)行數(shù)據(jù)查詢和數(shù)據(jù)操作。與之前相比,這項(xiàng)系統(tǒng)從元素、規(guī)則和 DAG 三個(gè)維度都進(jìn)行了探索:在元素級(jí)別,實(shí)現(xiàn)了一種新的數(shù)據(jù)結(jié)構(gòu)——數(shù)據(jù)洞;在規(guī)則級(jí)別,為隨機(jī)更新啟用了有效的規(guī)則定位和規(guī)則拆分方案,可以實(shí)現(xiàn)快速確定數(shù)據(jù)的位置以及進(jìn)行拆分;在 DAG 級(jí)別,通過降低規(guī)則的層次以提高更新效率。

          CompressDB 系統(tǒng)包含三個(gè)模塊,分別是數(shù)據(jù)結(jié)構(gòu)模塊、壓縮模塊以及運(yùn)算模塊。


          其中,數(shù)據(jù)結(jié)構(gòu)模塊包含三種數(shù)據(jù)結(jié)構(gòu):blockHashTable 表示數(shù)據(jù)內(nèi)容到塊位置的映射關(guān)系,幫助系統(tǒng)快速定位到具體的數(shù)據(jù)塊;blockRefCount 記錄塊被引用次數(shù);blockHole 是更新操作引起的存儲(chǔ)空洞,當(dāng)數(shù)據(jù)塊周圍有 blockHole 時(shí)可進(jìn)行合并。至于壓縮模塊,它支持文件系統(tǒng)中的分層壓縮,能夠做到在壓縮數(shù)據(jù)上插入一條數(shù)據(jù),可以快速將其合并到壓縮文件里;最后是運(yùn)算模塊,可以將操作下推到文件系統(tǒng),對(duì)于一些系統(tǒng)沒有的 API ,可通過該模塊進(jìn)行開發(fā)、?實(shí)現(xiàn)。

          通過測(cè)試不同數(shù)據(jù)模型的數(shù)據(jù)庫,實(shí)驗(yàn)結(jié)果表明:CompressDB 系統(tǒng)在吞吐率和延遲上都能有 40% 左右的性能提升,在節(jié)省空間方面,CompressDB 系統(tǒng)可達(dá)到 1.81 倍的壓縮率。

          面向個(gè)性化需求的在線

          云數(shù)據(jù)庫混合調(diào)優(yōu)系統(tǒng)


          華中科技大學(xué)副研究員、互聯(lián)網(wǎng)+國(guó)賽金獎(jiǎng)項(xiàng)目“數(shù)據(jù)庫智能管家的創(chuàng)新與探索”指導(dǎo)老師,劉渝

          “在數(shù)據(jù)庫領(lǐng)域,數(shù)據(jù)庫管理系統(tǒng)是美國(guó)對(duì)中國(guó)禁運(yùn) 35 項(xiàng)“卡脖子”技術(shù)之一,如果我們想要彎道超車,可以在被譽(yù)為數(shù)據(jù)庫管理系統(tǒng)皇冠上的明珠——數(shù)據(jù)庫運(yùn)維上,占據(jù)一些技術(shù)競(jìng)爭(zhēng)戰(zhàn)略上的制高點(diǎn)?!比A中科技大學(xué)副研究員劉渝說。

          作為數(shù)據(jù)庫運(yùn)維主要工作之一的數(shù)據(jù)庫調(diào)參,在以往,需要由經(jīng)驗(yàn)特別豐富的數(shù)據(jù)庫管理員來完成。但隨著數(shù)字設(shè)備的發(fā)展,數(shù)據(jù)庫實(shí)際的增長(zhǎng)速度已經(jīng)遠(yuǎn)遠(yuǎn)超過了對(duì)數(shù)據(jù)庫管理員的培養(yǎng)速度,這意味著很多數(shù)據(jù)管理處于一種失控的狀態(tài)。因此,求助人工智能,采用智能運(yùn)維的方式是數(shù)據(jù)庫調(diào)參領(lǐng)域必然的發(fā)展趨勢(shì)。

          在這篇被 SIGMOD 錄取的論文《HUNTER: An Online Cloud Database Hybrid Tuning System for Personalized Requirements》中,其針對(duì)核心問題“如何在保證調(diào)優(yōu)效果的前提下顯著減少調(diào)優(yōu)時(shí)間,尤其是在線訓(xùn)練時(shí)間”提出了混合調(diào)優(yōu)系統(tǒng) Hunter。

          Hunter 包括控制器、樣本工廠、空間優(yōu)化器以及推薦器這四個(gè)模塊。


          首先,在控制器這一模塊,其主要的工作是克隆 CDB 實(shí)例,目的在于真實(shí)地反應(yīng)負(fù)載和性能之間的變化關(guān)系;其次,Hunter 的樣本工廠通過 Rules 模塊滿足用戶的調(diào)參需求從而定制專屬的訓(xùn)練樣本,并利用遺傳算法 GA,短時(shí)間內(nèi)就能收集到相對(duì)優(yōu)秀的訓(xùn)練樣本;第三,通過在空間優(yōu)化器中進(jìn)行指標(biāo)壓縮和旋鈕篩選,減少輸入,也就是訓(xùn)練數(shù)據(jù)的維度;最后,采用逐步放寬只壓測(cè)最優(yōu)配置的方式,拓展最優(yōu)解的尋找范圍,盡可能尋找全局最優(yōu)解。

          經(jīng)實(shí)際的對(duì)比效果,可以看出 Hunter 在獲得更優(yōu)吞吐量和延遲的基礎(chǔ)上,在所需時(shí)間上取得了近乎碾壓的效果,其在 20 個(gè)克隆實(shí)例的并發(fā)場(chǎng)景下,調(diào)優(yōu)時(shí)間僅需 2 小時(shí)。


          作為一個(gè)真正可以落地的數(shù)據(jù)庫調(diào)參系統(tǒng),Hunter 不僅可以適應(yīng)用戶的個(gè)性化需求,還可以進(jìn)行在線訓(xùn)練,并有著極高的效率與可信賴的結(jié)果。可以說它的出現(xiàn),對(duì)我國(guó)自治數(shù)據(jù)庫的發(fā)展,將產(chǎn)生極大的推力。

          可擴(kuò)展的圖神經(jīng)結(jié)構(gòu)搜索系統(tǒng)


          騰訊 TEG 機(jī)器學(xué)習(xí)平臺(tái)部 Angel Graph 團(tuán)隊(duì)?wèi)?yīng)用研究員、北京大學(xué)計(jì)算機(jī)系在讀博士生,張文濤

          目前,很多數(shù)據(jù)都是以圖結(jié)構(gòu)數(shù)據(jù)的形式存在,而圖神經(jīng)網(wǎng)絡(luò)(GNN)是一種利用深度學(xué)習(xí)直接對(duì)圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行學(xué)習(xí)的框架,它被廣泛用于多個(gè)場(chǎng)景,如推薦系統(tǒng)、異常檢測(cè)、數(shù)據(jù)庫診斷、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)等等。

          然而,現(xiàn)有的圖神經(jīng)網(wǎng)絡(luò)系統(tǒng)存在著兩個(gè)技術(shù)瓶頸:一方面,傳統(tǒng)的圖神經(jīng)網(wǎng)絡(luò)模型遵循 NMP 消息傳遞機(jī)制,可擴(kuò)展性較低。這是因?yàn)閷W(xué)術(shù)屆在設(shè)計(jì)這種執(zhí)行網(wǎng)絡(luò)結(jié)構(gòu)時(shí),更加關(guān)注這種模型的性能,以及在分布式場(chǎng)景下的計(jì)算或者通信;但當(dāng)這種機(jī)制面臨工業(yè)級(jí)大規(guī)模的圖數(shù)據(jù)的時(shí)候,分布式的方式就會(huì)導(dǎo)致數(shù)據(jù)存儲(chǔ)于不同的機(jī)器上。當(dāng)其通信時(shí),頻繁的聚合操作會(huì)產(chǎn)生非常高昂的通訊開銷。

          另一方面,現(xiàn)有的圖神經(jīng)網(wǎng)絡(luò)系統(tǒng)需要用戶針對(duì)特定圖數(shù)據(jù)和圖任務(wù)編寫代碼和訓(xùn)練流程,這就需要經(jīng)驗(yàn)豐富的專家來設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),門檻相對(duì)來說較高。

          那么,如何在兼顧 GNN 可擴(kuò)展性的同時(shí),設(shè)計(jì)出使用門檻低的圖神經(jīng)網(wǎng)絡(luò)系統(tǒng),是該領(lǐng)域當(dāng)下需要迫切解決的問題。

          在論文《PaSca: a Graph Neural Architecture Search System under the Scalable Paradigm》中,騰訊 TEG 機(jī)器學(xué)習(xí)平臺(tái)部 Angel Graph 團(tuán)隊(duì)?wèi)?yīng)用研究員、北京大學(xué)計(jì)算機(jī)系張文濤博士提出了一個(gè)端到端的大規(guī)模圖神經(jīng)結(jié)構(gòu)搜索系統(tǒng),它不需要人為定義網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練流程,當(dāng)接收到數(shù)據(jù)和優(yōu)化目標(biāo)之后,系統(tǒng)能夠自動(dòng)完成數(shù)據(jù)的處理、建模、以及訓(xùn)練流程,極大地降低了圖神經(jīng)網(wǎng)絡(luò)的使用門檻。


          其次,該論文又提出了一個(gè)新的圖神經(jīng)網(wǎng)絡(luò)建模范式——SGAP 建模范式。區(qū)別于現(xiàn)有的消息傳遞機(jī)制,SGAP 把建模的過程拆分成三個(gè)階段:前處理—訓(xùn)練—后處理,其中,消息聚合操作只存在于前處理和后處理中,大幅度降低了分布式場(chǎng)景下的通信開銷。


          在系統(tǒng)設(shè)計(jì)上,本文還提出了一個(gè)名為 PaSca 自動(dòng)化搜索系統(tǒng),來支持更簡(jiǎn)單和更高效的大規(guī)模圖學(xué)習(xí)。其包含了兩個(gè)模塊,分別是自動(dòng)化的搜索引擎以及分布式的評(píng)估引擎,前者的主要目標(biāo)是找到在 SGAP 建模范式下能同時(shí)兼容多個(gè)搜索目標(biāo)的可擴(kuò)展圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);后者則主要是用來高效評(píng)估被推薦的網(wǎng)絡(luò)結(jié)構(gòu)性能。

          最后在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,在分布式場(chǎng)景下的可擴(kuò)展性上,基于 SGAP 范式建模的 PaSca-APPNP 模型相比于基于 NMP 范式建模的 GraphSAGE 模型,能取得接近線性并且更加接近理想的加速比。



          圓桌討論:產(chǎn)學(xué)研協(xié)同,合作共贏


          通過上文的圖神經(jīng)網(wǎng)絡(luò)系統(tǒng)可以看出,工業(yè)界、學(xué)術(shù)界若互相割裂,必然會(huì)導(dǎo)致技術(shù)發(fā)展的落后。在對(duì)以上 3 篇論文進(jìn)行詳細(xì)的深度解讀后,幾位老師又聚在一起,共同探討數(shù)據(jù)庫領(lǐng)域未來的發(fā)展,其中就包括產(chǎn)學(xué)研協(xié)同問題。

          對(duì)此,劉渝老師認(rèn)為:從企業(yè)的角度看,更在乎的是當(dāng)下能夠?yàn)橛脩魩砟男├?;而從學(xué)術(shù)的角度來看,他們關(guān)注的可能是更長(zhǎng)遠(yuǎn)的問題,兩者之間是有一些矛盾的。所以要想把產(chǎn)學(xué)研協(xié)同這件事情做好,需要雙方相互理解,求同存異,共同進(jìn)步。

          而張文濤老師則以自身舉例,他說,“一方面,我在做學(xué)術(shù)研究的時(shí)候,可以近距離接觸公司內(nèi)部真實(shí)的數(shù)據(jù)以及業(yè)務(wù)的需求,會(huì)發(fā)現(xiàn)很多之前在實(shí)驗(yàn)室想象不到的新的問題。另一方面,我們將最新的技術(shù)研究帶到公司,幫助騰訊實(shí)際業(yè)務(wù)場(chǎng)景落地,不管是提升影響力,還是解決一些實(shí)際的業(yè)務(wù)問題,都給公司創(chuàng)造了效益。這是一個(gè)合作雙贏的良性循環(huán)的過程。”

          最后,張峰老師補(bǔ)充道,“數(shù)據(jù)庫技術(shù)發(fā)展要想做到產(chǎn)學(xué)研結(jié)合,一個(gè)很好的方式是聯(lián)合實(shí)驗(yàn)室,比如中國(guó)人民大學(xué)和騰訊公司,在 2019 年就簽訂了中國(guó)人民大學(xué)—騰訊聯(lián)合協(xié)同創(chuàng)新實(shí)驗(yàn)室。人民大學(xué)在國(guó)產(chǎn)數(shù)據(jù)庫基礎(chǔ)研究方面有著豐富的積累經(jīng)驗(yàn),而騰訊數(shù)據(jù)庫團(tuán)隊(duì)在應(yīng)用實(shí)踐上有豐富的經(jīng)驗(yàn)。在產(chǎn)學(xué)研的過程中,企業(yè)、高校是一個(gè)互相支撐的總體,在人才培養(yǎng)中,人民大學(xué)和騰訊公司聯(lián)手合作,采用校企聯(lián)合培養(yǎng)的機(jī)制培養(yǎng)數(shù)據(jù)庫的頂尖研發(fā)人員。


          寫在最后


          本次 DBTalk 的圓滿結(jié)束,除了讓更多開發(fā)者跨越語言障礙,學(xué)習(xí)頂尖數(shù)據(jù)庫技術(shù)外,還讓人看到了我國(guó)學(xué)者的實(shí)力。

          曾幾何時(shí),中國(guó)學(xué)者的論文在 SIGMOD 等頂會(huì)所占的比例不足 1%,而現(xiàn)在,隨著我國(guó)技術(shù)逐漸走出國(guó)門,我國(guó)學(xué)者也逐漸在各種國(guó)際數(shù)據(jù)庫頂會(huì)上大放異彩,比如今年,也是騰訊云數(shù)據(jù)庫的科研成果入選 SIGMOD、VLDB、ICDE 等數(shù)據(jù)庫國(guó)際頂會(huì)的第六年。相信經(jīng)過不斷的技術(shù)創(chuàng)新和理論證明,中國(guó)數(shù)據(jù)庫界會(huì)在 SIGMOD 等會(huì)議上發(fā)表更多的好文章。



          -- 更多精彩 --

          基于壓縮數(shù)據(jù)直接計(jì)算技術(shù),定義新型數(shù)據(jù)庫處理 | SIGMOD 2022入選論文解讀


          三篇論文入選國(guó)際頂會(huì)SIGMOD,厲害了騰訊云數(shù)據(jù)庫?


          點(diǎn)擊閱讀原文,了解更多優(yōu)惠

          瀏覽 93
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人在线观看毛片 | 久碰超碰| 欧美男人天堂网 | 精品 国产 | 91看片 白丝少萝自慰 |