<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          萬(wàn)物皆可embedding,AI 應(yīng)用神器 Milvus 登頂數(shù)據(jù)庫(kù)頂會(huì) SIGMOD

          共 3541字,需瀏覽 8分鐘

           ·

          2021-07-13 12:48

          點(diǎn)擊上方視學(xué)算法”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          AI 科技評(píng)論報(bào)道
          編輯 | 陳大鑫

          想象一下,一位計(jì)算神經(jīng)科學(xué)家正在引導(dǎo)數(shù)百只小老鼠在迷宮運(yùn)動(dòng),還用上了最新技術(shù)對(duì)實(shí)驗(yàn)對(duì)象的神經(jīng)元進(jìn)行成像。小白鼠們沒(méi)兜幾圈,TB級(jí)的視頻數(shù)據(jù)和大腦數(shù)據(jù)就產(chǎn)生了。

          接下來(lái),科學(xué)家還要把龐雜的圖像信息轉(zhuǎn)化成深度語(yǔ)義,計(jì)算數(shù)據(jù)之間的關(guān)系,做出關(guān)于行為如何被大腦控制的假設(shè),并進(jìn)行下一輪的驗(yàn)證工作。

          不僅僅是科研領(lǐng)域,隨著科技的高速發(fā)展,智能城市、電子商務(wù)等跟民生相關(guān)的社會(huì)場(chǎng)景都需要進(jìn)行海量動(dòng)態(tài)數(shù)據(jù)的預(yù)處理。這個(gè)時(shí)候,就需要用到能夠梳理數(shù)據(jù)關(guān)系的通用型基礎(chǔ)設(shè)施。

          在剛結(jié)束的數(shù)據(jù)管理國(guó)際頂會(huì) ACM SIGMOD/PODS(Special Interest Group on Management of Data)上,一款從非結(jié)構(gòu)化數(shù)據(jù)中挖掘隱式語(yǔ)義的神器——向量數(shù)據(jù)庫(kù)Milvus,就因強(qiáng)大的底層功能而被評(píng)委會(huì)相中。

          論文鏈接:

          https://www.cs.purdue.edu/homes/csjgwang/pubs/SIGMOD21_Milvus.pdf

          Milvus由創(chuàng)業(yè)公司Zilliz研發(fā),是頂級(jí)開(kāi)源基金會(huì) Linux 基金會(huì)旗下 Al 子基金LF Al的畢業(yè)項(xiàng)目,旨在降低非結(jié)構(gòu)化數(shù)據(jù)搜索的應(yīng)用門(mén)檻,并在不同部署環(huán)境下提供一致的使用體驗(yàn)。

          SIGMOD'21 評(píng)審委員對(duì) Milvus 給予了極高評(píng)價(jià):“此項(xiàng)研究成果突破性地實(shí)現(xiàn)了向量數(shù)據(jù)管理的通用系統(tǒng)設(shè)計(jì),在滿(mǎn)足動(dòng)態(tài)數(shù)據(jù)實(shí)時(shí)搜索的同時(shí),也能滿(mǎn)足實(shí)際業(yè)務(wù)中多樣化的查詢(xún)需求。作為一項(xiàng)開(kāi)源技術(shù),Milvus 被廣泛應(yīng)用于人工智能前沿領(lǐng)域,其試驗(yàn)性能大幅超越同類(lèi)向量檢索系統(tǒng),使得這篇論文極具啟發(fā)性和借鑒意義?!?/span>

          能造神器者,必有相應(yīng)心法,順應(yīng)天時(shí)、由心造境。AI 科技評(píng)論 采訪了負(fù)責(zé)此次論文工作的易小萌博士,一探Milvus團(tuán)隊(duì)的武功究竟。


          1

          天時(shí):AI時(shí)代,萬(wàn)物都在矩陣中

          1、AI 科技評(píng)論:當(dāng)初為何想到要做Milvus項(xiàng)目? 

          Milvus 項(xiàng)目是2018年啟動(dòng)的,當(dāng)時(shí)我們觀察到兩個(gè)趨勢(shì):

          一方面,非結(jié)構(gòu)化數(shù)據(jù)將成為信息的主要載體。

          另一方面,AI 模型將會(huì)是提取非結(jié)構(gòu)化數(shù)據(jù)內(nèi)在信息的關(guān)鍵計(jì)算手段?,F(xiàn)在看起來(lái),這兩方面趨勢(shì)已經(jīng)越來(lái)越明顯了。

          全世界每天有幾十萬(wàn)PB的非結(jié)構(gòu)化數(shù)據(jù)被產(chǎn)生出來(lái),這些數(shù)據(jù)經(jīng)過(guò)AI模型提取了豐富的信息(也就是人們常說(shuō)的embedding),但卻沒(méi)有一個(gè)底層基礎(chǔ)軟件能夠有效管理和分析這些embedding數(shù)據(jù)。

          AI 模型提取出的這些 embedding 都是向量化的表示,Milvus所管理的數(shù)據(jù)都是向量,進(jìn)行的運(yùn)算也基本是向量和矩陣運(yùn)算。我最喜歡的一個(gè)比喻是黑客帝國(guó)中的母體,本質(zhì)是一個(gè)巨大的向量和矩陣的集合,作為基座支撐上面各類(lèi)形態(tài)的AI。

          2、AI 科技評(píng)論:Milvus屬于數(shù)據(jù)庫(kù)和AI兩個(gè)領(lǐng)域的交叉工作,有遇到什么新問(wèn)題嗎?

          數(shù)據(jù)庫(kù)和AI兩個(gè)領(lǐng)域都挺不好搞的。數(shù)據(jù)庫(kù)領(lǐng)域很多工作,比如一致性協(xié)議,屬于那種 'you know everything but nothing works'。AI的話(huà)正好反過(guò)來(lái),'everything works but nobody knows why'。我們?cè)谶@個(gè)交叉領(lǐng)域就很不一樣了,'nothing works and nobody knows why'。

          發(fā)這篇論文主要是想把我們?cè)诜墙Y(jié)構(gòu)化數(shù)據(jù)分析與搜索領(lǐng)域摸到的一些東西分享出來(lái),也是想開(kāi)個(gè)坑,拉更多學(xué)術(shù)界和業(yè)界的朋友一起到這個(gè)坑里來(lái)探索,因?yàn)檫@個(gè)領(lǐng)域很新也很重要。

          3、AI 科技評(píng)論:Milvus團(tuán)隊(duì)正在結(jié)合AI做更深的探索,能否談?wù)剬?duì)于這個(gè)交叉領(lǐng)域的期待?

          在我們團(tuán)隊(duì)里有一句話(huà),萬(wàn)物皆可embedding。不過(guò)現(xiàn)在通過(guò)不同的AI模型所獲得的是一些相互獨(dú)立的 embedding 空間,是一系列信息孤島,這就好像wikipedia的每個(gè)詞條都是用一種不同的語(yǔ)言書(shū)寫(xiě)的。給出每個(gè)詞條的語(yǔ)義解釋能夠幫助解決不少問(wèn)題,但如果能將不同詞條的語(yǔ)義解釋關(guān)聯(lián)起來(lái),將會(huì)產(chǎn)生巨大的應(yīng)用價(jià)值。我們非常期待能打通這些embedding空間的相關(guān)技術(shù),也許是一些中間層的embedding空間,也許是一些中間層的神經(jīng)網(wǎng)絡(luò)模型。

          落實(shí)到具體的場(chǎng)景應(yīng)用上,我們期待看到綜合場(chǎng)景下搜索技術(shù)的突破。近幾年,隨著多模態(tài)學(xué)習(xí)技術(shù)的日益發(fā)展,同一事物在不同模態(tài)之間信息的關(guān)聯(lián)和互補(bǔ)關(guān)系得到了深入的研究。相比而言,目前的數(shù)據(jù)搜索模式相對(duì)單一,通常只能較好的解決單一模態(tài)下的數(shù)據(jù)搜索問(wèn)題,而如何對(duì)不同模態(tài)的數(shù)據(jù)進(jìn)行高效準(zhǔn)確的關(guān)聯(lián)搜索仍然是一個(gè)開(kāi)放性的問(wèn)題。解決這一問(wèn)題需要在算法、模型和系統(tǒng)層面上進(jìn)行深入的探索和分析。


          2

          心法:開(kāi)源,做有意義的系統(tǒng)工作

          4、AI 科技評(píng)論:Milvus團(tuán)隊(duì)多位骨干都有學(xué)術(shù)界的經(jīng)歷,為何會(huì)來(lái)到一個(gè)start-up?

          包括我在內(nèi)的多位研發(fā)團(tuán)隊(duì)成員都出自華中科技大學(xué)金海教授的實(shí)驗(yàn)室,我在讀博期間對(duì)金海教授講的“做有意義的系統(tǒng)工作”印象特別深刻。有意義的系統(tǒng)工作在學(xué)術(shù)界或工業(yè)界其實(shí)沒(méi)有很明顯的邊界,同時(shí)工業(yè)界近年來(lái)在研究領(lǐng)域的優(yōu)勢(shì)愈發(fā)明顯,依靠規(guī)模與場(chǎng)景兩個(gè)高地構(gòu)建了很多優(yōu)秀的系統(tǒng),比如谷歌的BigTable、GFS、MapReduce。

          早些年,很多領(lǐng)域都是學(xué)術(shù)界走在前面,但是在計(jì)算機(jī)系統(tǒng)領(lǐng)域有很多反轉(zhuǎn)的現(xiàn)象,不少經(jīng)典的方向都是工業(yè)界先開(kāi)坑,然后學(xué)術(shù)界在這個(gè)基礎(chǔ)上不斷完善。在學(xué)校的時(shí)候老師常常對(duì)我們說(shuō),讓自己快速成長(zhǎng)最好的辦法就是要跳出自己的“舒適區(qū)”。以我為例,逐漸熟悉了高校里面做研究的方式之后,就希望能夠到企業(yè)對(duì)自己進(jìn)行新一輪的錘煉。

          5、AI 科技評(píng)論:能否展開(kāi)談?wù)劇白鲇幸饬x的系統(tǒng)工作”?

          我在學(xué)校的研究方向比較偏理論,研究的內(nèi)容通常是在某些特定場(chǎng)景,在一定的假設(shè)條件下如何優(yōu)雅地解決一個(gè)問(wèn)題。在企業(yè)里面做事天然會(huì)從實(shí)際意義出發(fā),相比優(yōu)雅,我們的解決方法更需要的是健壯。所以,我們所說(shuō)的“做有意義的系統(tǒng)工作”,并不是指從 paper 產(chǎn)生paper,而是從實(shí)際的系統(tǒng)中抽象出來(lái)一些問(wèn)題,包括系統(tǒng)設(shè)計(jì)的框架、具體的優(yōu)化方案、最終目標(biāo),解決之后又重新應(yīng)用回系統(tǒng)中去。

          讀博那會(huì)兒,覺(jué)得最缺的是好問(wèn)題?,F(xiàn)在做Milvus這樣的開(kāi)源基礎(chǔ)軟件,研究和研發(fā)同時(shí)被用戶(hù)和社區(qū)推著快速迭代,值得解決的問(wèn)題太多了。很多時(shí)候,要抑制自己做研究的沖動(dòng),把資源投到項(xiàng)目的快速迭代上面去,這樣才能維護(hù)好問(wèn)題的源泉,也就是用戶(hù)和社區(qū)。從這個(gè)角度看,我覺(jué)得開(kāi)源社區(qū)在未來(lái)一定會(huì)和學(xué)術(shù)界有更多類(lèi)似的合作實(shí)踐。

          6、AI 科技評(píng)論:開(kāi)源社區(qū)和研究課題之間具體是怎樣的關(guān)系?

          開(kāi)源這套理念經(jīng)過(guò)了幾波發(fā)展,從早期的 “半宗教” 性質(zhì)到現(xiàn)在,融入了很多商業(yè)上的探索。最直接的就是開(kāi)源之后,與用戶(hù)和技術(shù)人員的接觸面積大幅提高。好的項(xiàng)目,從某種層面看,對(duì)好的問(wèn)題處于壟斷地位。開(kāi)源有助于把技術(shù)和場(chǎng)景兩方面的因素更加有效地糅合起來(lái),不斷碰撞,產(chǎn)生化學(xué)反應(yīng)。開(kāi)源社區(qū)和學(xué)術(shù)界,主要也是圍繞這些 “好的問(wèn)題”進(jìn)行互補(bǔ)。

          目前,我們?cè)谒伎既绾胃咝У亻_(kāi)源 “問(wèn)題”。在社區(qū)的活動(dòng)形式上也在做新的嘗試,希望把更多 “好的問(wèn)題” 暴露給學(xué)術(shù)界。

          7、AI 科技評(píng)論:總結(jié)一下,Milvus技術(shù)團(tuán)隊(duì)做項(xiàng)目的路徑和方法是什么?

          首先,要充分了解過(guò)去。 幾乎所有的創(chuàng)新性工作都是基于前人的基礎(chǔ)完成的,就算是在比較新的領(lǐng)域里面也是一樣。我們需要對(duì)現(xiàn)有技術(shù)有充分的了解,在此基礎(chǔ)之上審視我們所遇到的問(wèn)題,然后再尋找可能的解決方案。

          然后,需要有途徑去看未來(lái)。 總體而言,研究類(lèi)工作是面向未來(lái)的。未來(lái)場(chǎng)景是什么樣子、上層應(yīng)用對(duì)底層系統(tǒng)有哪些需求、痛點(diǎn)和難點(diǎn)是什么,這些都是需要仔細(xì)探討認(rèn)真推斷的。要做到這一點(diǎn),我們認(rèn)為最好的方法就是探索場(chǎng)景。只有從深度和廣度兩個(gè)方面擴(kuò)展對(duì)場(chǎng)景的理解,才能清楚各個(gè)場(chǎng)景下對(duì)系統(tǒng)能力最普遍最迫切的需求是什么,從而以場(chǎng)景為約束去塑造系統(tǒng)。

          最后,不要造了錘子找釘子。 開(kāi)發(fā)基礎(chǔ)軟件有時(shí)候就像是造錘子。如果等錘子造好了之后再去根據(jù)錘子的形狀去找能敲的釘子,也許就會(huì)發(fā)現(xiàn)其實(shí)有很多的釘子不太適合用這個(gè)錘子來(lái)敲。這個(gè)時(shí)候再想要調(diào)整錘子的形狀就比較困難了。我們應(yīng)該避免為了做系統(tǒng)而做系統(tǒng)的模式,而應(yīng)該看準(zhǔn)實(shí)際場(chǎng)景中的問(wèn)題。只有嘗試解決有價(jià)值的問(wèn)題,才能產(chǎn)生有價(jià)值的系統(tǒng)工作。


          點(diǎn)個(gè)在看 paper不斷!

          瀏覽 51
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本一级A片在线观看 | 91大神免费看 | 无码人妻精品一区二区三 | 黄色a电影 | 日本黄色电影在线观看 |