用同樣的Benchmark測(cè)試,Zilliz 急了?
3月15日,知乎用戶“幾點(diǎn)James”(Zilliz 合伙人和技術(shù)總監(jiān)欒小凡)對(duì)“零一萬物笛卡爾(Descartes)包攬權(quán)威榜單ANN-Benchmarks 6 項(xiàng)數(shù)據(jù)集評(píng)測(cè)第一名”發(fā)表了看法,稱“已經(jīng)有一年多沒關(guān)注這個(gè)排行榜(ANN-Benchmarks)了。主要是因?yàn)樗鼫y(cè)試的內(nèi)容與用戶的實(shí)際需求漸行漸遠(yuǎn)。”
然而欒小凡所謂 “一年多沒有關(guān)注” 這個(gè)ANN-Benchmarks的說法著實(shí)匪夷所思。就在短短幾周前,2月22日Zilliz官方發(fā)布了核心向量搜索引擎——Cardinal,使用的主要測(cè)試工具之一就是“ANN-Benchmarks”,這篇文章放出了五張ANN-Benchmarks離線測(cè)試的曲線圖,測(cè)試結(jié)果占了相當(dāng)大的篇幅。
感覺這是一個(gè)大型雙標(biāo)現(xiàn)場(chǎng)。同樣使用測(cè)試工具,同樣是進(jìn)行的自測(cè),自己測(cè)試時(shí)是一個(gè)“標(biāo)準(zhǔn)的性能測(cè)試工具”,幾周后別人發(fā)布的測(cè)試就變成 “很難作為生產(chǎn)環(huán)境性能優(yōu)化的實(shí)際指導(dǎo)”了?
兩家公司都測(cè)了ANN-Benchmarks
Zilliz 公然雙標(biāo)?
2月22日,Zilliz發(fā)布官方微信文章《2024 年,向量數(shù)據(jù)庫的性能卷到什么程度了?”》(https://mp.weixin.qq.com/s/4xx2U8Xyr1RetTkMtRrxyw)一文中稱“Zilliz Cloud 最近發(fā)布的核心向量搜索引擎 Cardinal,文章先是用了Zilliz 自制自評(píng)的 VectorDBBench,接著說明采用了 ANN-benchmarks”,介紹“ANN Benchmarks 是一個(gè)標(biāo)準(zhǔn)的性能測(cè)試工具,用于評(píng)估 ANNS 實(shí)現(xiàn),并在使用不同距離度量的幾個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上運(yùn)行”。
Zilliz對(duì)于測(cè)試結(jié)果進(jìn)行了展示,稱展示是“通過 ANN-benchmark GitHub 頁面上呈現(xiàn)的圖表結(jié)果,并添加一個(gè) Cardinal 曲線而生成的。”結(jié)論是“在所有性能測(cè)試中,Cardinal 的表現(xiàn)都十分出色。” 這,自家的合伙人和技術(shù)主管一年多沒關(guān)注?
到了三月,零一萬物對(duì)使用ANN-Benchmark測(cè)試笛卡爾(Descartes)在公號(hào)文章進(jìn)行了說明,它在文中稱,ANN-Benchmarks 是全球范圍內(nèi)最權(quán)威和常用的向量檢索技術(shù)性能評(píng)測(cè)榜單之一,經(jīng)評(píng)估其評(píng)測(cè)方式可以反應(yīng)大部份大模型向量數(shù)據(jù)庫所需要的主要能力,因此選用 ANN-Benchmarks 來驗(yàn)證自研向量數(shù)據(jù)庫搜索內(nèi)核的性能表現(xiàn)。
此外,零一萬物還對(duì)于開展的離線評(píng)測(cè)方法做了說明。從說明中可以看出,零一萬物先在 GitHub 按正規(guī)流程提交pull request,和組織方做了溝通,“組織方反饋近期不做線上評(píng)測(cè)更新”。然后技術(shù)人員才嚴(yán)格還原ANN-Benchmarks官方測(cè)試條件進(jìn)行了離線測(cè)試。
GitHub ANN-Benchmarks官方網(wǎng)站上
查不到Cardinal提交信息
求證了一下,零一萬物曾經(jīng)在 GitHub ANN-Benchmarks上提交了pull request 。在GitHub上,確實(shí)能夠查到笛卡爾 于 2月29日 "add algo descartes(01AI)" 的提交記錄。今天查詢時(shí),顯示當(dāng)前狀態(tài)還是“Open”。

截止到今天(3月18日),Zilliz官宣Cardinal的評(píng)測(cè)榜單成績后的25天,在GitHub上的Zilliz機(jī)構(gòu)主頁上,查找Cardinal,卻怎樣都搜不到相關(guān)信息。

梳理一下事件時(shí)間線,Zilliz為啥急了?
3月11日,零一萬物對(duì)外發(fā)布研發(fā)出基于全導(dǎo)航圖的新型向量數(shù)據(jù)庫 “笛卡爾(Descartes)”,稱其檢索內(nèi)核包攬了權(quán)威榜單 ANN-Benchmarks 6項(xiàng)數(shù)據(jù)集評(píng)測(cè)第一名。
榜單發(fā)布以后,被稱為“向量數(shù)據(jù)庫先鋒”的Zilliz創(chuàng)始人星爵在朋友圈進(jìn)行了回應(yīng),套用了一份容易讓人產(chǎn)生其他聯(lián)想的零一萬物的“寫作模版”,陰陽零一萬物,朋友圈也能看到這份回應(yīng)被Zilliz員工大量轉(zhuǎn)發(fā)。
隨后零一萬物聯(lián)合創(chuàng)始人、技術(shù)副總裁 Ethan戴宗宏發(fā)表朋友圈進(jìn)行回復(fù)。他說:“技術(shù)人應(yīng)該P(yáng)K的是技術(shù)指標(biāo)和性能表現(xiàn),專注于自身技術(shù)研發(fā)和選代,而不是打口水仗。”
3月15日,欒一凡再次發(fā)難,知乎上批判零一萬物發(fā)布的ANN-Benchmarks榜單結(jié)果,措辭激烈。零一萬物向量技術(shù)負(fù)責(zé)人王高飛進(jìn)行了實(shí)名回應(yīng)。
3月17日,零一萬物宣布開放笛卡爾向量數(shù)據(jù)庫搜索內(nèi)核,將技術(shù)成果回歸社區(qū),免費(fèi)商用。其稱笛卡爾向量數(shù)據(jù)庫定位專注于大模型場(chǎng)景,沒有作為單獨(dú)商業(yè)產(chǎn)品的計(jì)劃。
看完之后,有個(gè)感覺:榜單這事,有輸有贏很正常,下次再華山論劍就是。這么急,看來零一萬物確實(shí)動(dòng)到了Zilliz的蛋糕。不論兩家怎么斗,對(duì)于技術(shù)人員來說,誰向大家開放使用,并且能夠好用,誰就是好的。
