與元寶最推薦我采訪的公司對(duì)談——欒小凡眼中向量數(shù)據(jù)庫(kù)的“前世今生” | 數(shù)據(jù)猿專訪
原創(chuàng) 冷畫屏 | 2025-08-05 16:08
【數(shù)據(jù)猿導(dǎo)讀】 7月下旬,Zilliz CTO欒小凡接受了數(shù)據(jù)猿的采訪,筆者與欒總共同探討了向量數(shù)據(jù)庫(kù)的“前世今生”。

“向量數(shù)據(jù)庫(kù),新時(shí)代的數(shù)據(jù)庫(kù)母語(yǔ)。
筆者在騰訊元寶(選擇DeepSeek模型、勾選R1·深度思考、勾選自動(dòng)搜索)上輸入問(wèn)題:“我要針對(duì)向量數(shù)據(jù)庫(kù)做一次行業(yè)深度采訪,請(qǐng)幫我列出中國(guó)值得采訪的相關(guān)公司。”
騰訊元寶為我推薦了首選企業(yè),它開發(fā)了全球頂尖開源向量數(shù)據(jù)庫(kù),入選Forrester向量數(shù)據(jù)庫(kù)領(lǐng)導(dǎo)者象限,它是誰(shuí)?
7月下旬,Zilliz CTO欒小凡接受了數(shù)據(jù)猿的采訪,筆者與欒總共同探討了向量數(shù)據(jù)庫(kù)的“前世今生”。
向量數(shù)據(jù)庫(kù)之初:行之必然
大模型爆發(fā)之后,與之相關(guān)的全產(chǎn)業(yè)鏈都進(jìn)入了新的增長(zhǎng)期。數(shù)據(jù)作為大模型的養(yǎng)料,重要性不言而喻,隨著非結(jié)構(gòu)化數(shù)據(jù)的急劇增長(zhǎng),向量數(shù)據(jù)庫(kù)的價(jià)值更加凸顯。Zilliz作為領(lǐng)域內(nèi)的初代玩家,2018年就進(jìn)入向量數(shù)據(jù)庫(kù)賽道,2019年開源了第一款產(chǎn)品,最早期的Milvus1.0。當(dāng)時(shí)主要的目標(biāo)場(chǎng)景是搜索廣告推薦,屬于傳統(tǒng)互聯(lián)網(wǎng)領(lǐng)域。
欒小凡表示:不論大模型出不出現(xiàn),向量數(shù)據(jù)庫(kù)的價(jià)值都會(huì)被大家逐漸意識(shí)到,它一定會(huì)在某一個(gè)點(diǎn)爆發(fā),大模型的出現(xiàn)某種程度上推進(jìn)了這個(gè)進(jìn)程。
大模型的出現(xiàn)推動(dòng)了更多數(shù)據(jù)的產(chǎn)生及大家對(duì)數(shù)據(jù)的需求。大模型需要更多干凈的、有價(jià)值的數(shù)據(jù),數(shù)據(jù)本身是AI應(yīng)用非常大的護(hù)城河?;ヂ?lián)網(wǎng)的數(shù)據(jù)是有上限的,隨著生成式AI的發(fā)展,越來(lái)越多的數(shù)據(jù)會(huì)被生成出來(lái),未來(lái)我們可能會(huì)看到更加陡峭的的數(shù)據(jù)增長(zhǎng)曲線,向量數(shù)據(jù)庫(kù)的應(yīng)用場(chǎng)景也就會(huì)越來(lái)越多。
向量數(shù)據(jù)庫(kù)現(xiàn)狀:智慧藍(lán)海
數(shù)據(jù)的爆發(fā)來(lái)的比想象中更快,向量數(shù)據(jù)庫(kù)的價(jià)值在今天得到了充分的驗(yàn)證,儼然已是兵家必爭(zhēng)的藍(lán)海賽道。對(duì)于今天的向量數(shù)據(jù)庫(kù)本身及市場(chǎng),欒小凡分享了自己的觀點(diǎn)。
1.包裹在不可能三角下的召回率
向量數(shù)據(jù)庫(kù)采用模糊搜索的方式,對(duì)比傳統(tǒng)數(shù)據(jù)庫(kù)來(lái)說(shuō),召回率是一個(gè)非常重要的評(píng)判標(biāo)準(zhǔn)。欒小凡表示,提到召回率,就必須要先說(shuō)向量數(shù)據(jù)庫(kù)領(lǐng)域的不可能三角:在向量檢索這個(gè)領(lǐng)域里,性能、成本和精確度這三個(gè)指標(biāo)不可能同時(shí)滿足。
如果對(duì)性能有很高的要求,同時(shí)對(duì)召回率也有很高要求,那就要付出更多成本。反過(guò)來(lái)在成本恒定的情況下,用戶需要在性能和召回率之間去做取舍。
目前可以通過(guò)一些工程手段盡可能在這三者之間找到更好的折中。但向量數(shù)據(jù)庫(kù)本身不是100%準(zhǔn)確的,以量化算法為例,量化是把準(zhǔn)確的數(shù)據(jù)進(jìn)行壓縮,比如把一個(gè)精度較大的整數(shù)壓縮到更小的比特?cái)?shù),在壓縮的過(guò)程中一定會(huì)有部分精度的損失,但是我們可以做的是讓這個(gè)精度的損失越來(lái)越少。
2.支撐眾多行業(yè)的智慧底座
向量數(shù)據(jù)庫(kù)在眾多行業(yè)已被廣泛應(yīng)用,以智能駕駛為例,欒小凡表示,智能駕駛是一個(gè)數(shù)據(jù)體量非常大的行業(yè),它們有大量的視頻、圖片等數(shù)據(jù)。向量數(shù)據(jù)庫(kù)在智能駕駛領(lǐng)域最典型的應(yīng)用場(chǎng)景是幫助智能駕駛系統(tǒng)找到匹配的數(shù)據(jù)集進(jìn)行訓(xùn)練,提升它的訓(xùn)練效率。Zilliz基本與國(guó)內(nèi)所有頭部智能駕駛公司,如理想、蔚來(lái)等,都建立了良好的合作關(guān)系。
3.賽道愈發(fā)擁擠,頭部玩家的生存之道
Zilliz作為向量數(shù)據(jù)庫(kù)賽道的開創(chuàng)玩家,在行業(yè)爆發(fā)初期確實(shí)吃到了紅利。面對(duì)越來(lái)越多的競(jìng)爭(zhēng)對(duì)手,欒小凡表示,有時(shí)不僅是競(jìng)爭(zhēng),更是“左手打右手”的問(wèn)題。
很多公司用Zilliz的開源產(chǎn)品Milvus來(lái)與Zilliz企業(yè)版Zilliz Cloud競(jìng)爭(zhēng)。Zilliz的開源產(chǎn)品支持了眾多中國(guó)互聯(lián)網(wǎng)公司,部分國(guó)內(nèi)知名云廠商都是基于Milvus開源方案來(lái)構(gòu)建自己的向量數(shù)據(jù)庫(kù)方案。一方面Zilliz希望有更多用戶進(jìn)入到開源生態(tài)里,同時(shí)也一定要把付費(fèi)產(chǎn)品與開源產(chǎn)品做出差異化。目前在這條路上,Zilliz采用的是dual core路線,即:一個(gè)開源執(zhí)行引擎(KnowWhere),一個(gè)商業(yè)版執(zhí)行引擎(Cardinal)。商業(yè)版相對(duì)開源版本,其操作難度相對(duì)更低;性能更加領(lǐng)先;可以做到用戶0運(yùn)維投入。但兩者在接口和用戶體驗(yàn)上幾乎一致,可以無(wú)縫遷移。此外,開源版會(huì)承擔(dān)部分的技術(shù)預(yù)研功能,一些新能力也會(huì)最先在開源版本發(fā)布,在社區(qū)中聽取不同用戶意見,共同打磨。
Zilliz從day one開始就把自己定義為全球化數(shù)據(jù)庫(kù)公司。Zilliz總部設(shè)在美國(guó),但是在美國(guó)、中國(guó)、新加坡、歐洲全球各地均有員工分布。面對(duì)行業(yè)的持續(xù)內(nèi)卷,欒小凡表示要把內(nèi)卷變成外卷,比如,把中國(guó)的先進(jìn)生產(chǎn)力向全球輸出,把盤子做大,不可拘泥一隅;同時(shí)也把美國(guó)的先進(jìn)經(jīng)驗(yàn)向全球的其他團(tuán)隊(duì)輸出,共同進(jìn)步。同時(shí)要做到可以為用戶持續(xù)提供價(jià)值,市場(chǎng)的規(guī)則是優(yōu)勝劣汰,也許通過(guò)一些方式短期內(nèi)能獲取用戶,但這個(gè)事情并不可持續(xù),比如采用低價(jià)競(jìng)爭(zhēng)策略,最后會(huì)發(fā)現(xiàn)投入產(chǎn)出比不符合預(yù)期,因?yàn)楣咀罱K一定還是要獲取利潤(rùn)。
談到數(shù)據(jù)庫(kù)全球化,繞不過(guò)老大哥:PingCap。欒小凡認(rèn)為,PingCap是目前中國(guó)數(shù)據(jù)庫(kù)做全球化最成功的公司,它為大家指引的方向是非常清晰的。對(duì)于全球市場(chǎng)而言,尤其像美國(guó)這樣的市場(chǎng),它確實(shí)更大,整個(gè)產(chǎn)業(yè)鏈上下游所有人的利潤(rùn)都更加豐厚。
從Zilliz的經(jīng)驗(yàn)來(lái)講,首先要做到肉身全球化,人一定要去,人在不同的市場(chǎng)會(huì)用不同的角度思考,離中國(guó)市場(chǎng)更近,離中國(guó)的用戶更近,思考的就是中國(guó)的問(wèn)題;離美國(guó)的用戶更近,考慮的就是美國(guó)的問(wèn)題,其他地區(qū)也是一樣。
其次一定要有足夠的耐心和堅(jiān)持。Zilliz 2017年成立,到2023年商業(yè)化才正式啟動(dòng),中間很長(zhǎng)一段時(shí)間沒(méi)有一分錢營(yíng)收,前期花了大量時(shí)間投入到研發(fā)上,包括開源社區(qū)的運(yùn)營(yíng)。做全球化尤其如此,有時(shí)候做全球化,就像是古代的行軍打仗。我們既不能太過(guò)隨意的開啟一個(gè)市場(chǎng)/戰(zhàn)場(chǎng),因?yàn)檫@意味著不小的人力、資源、精力、時(shí)間的分配,可一旦下定決心,就不要很快放棄任何一個(gè)市場(chǎng),因?yàn)槿魏我粋€(gè)市場(chǎng)可能都需要6個(gè)月、 12個(gè)月甚至更長(zhǎng)時(shí)間才能看到回報(bào)。
向量數(shù)據(jù)庫(kù)未來(lái):智馭前沿
我們正處于AI快速爆發(fā)的時(shí)代,每時(shí)每刻都有新的科技成果現(xiàn)世。向量數(shù)據(jù)庫(kù)未來(lái)也將繼續(xù)作為不可或缺的船帆,為科技大航海保駕護(hù)航。
1.向量數(shù)據(jù)庫(kù)×大模型
面對(duì)如火如荼的AI浪潮,數(shù)據(jù)庫(kù)需要做出哪些改變來(lái)更好的適配AI?欒小凡認(rèn)為關(guān)鍵是要把搜索這件事情變得更加智能化。Zilliz在今年年初時(shí)嘗試把向量檢索與大模型生成結(jié)合起來(lái),當(dāng)時(shí)嘗試的技術(shù)路徑,部分業(yè)界人士把它稱為Agentic RAG,用大模型做一個(gè)Agent,與向量數(shù)據(jù)庫(kù)結(jié)合起來(lái)搜索,大模型來(lái)做一些查詢的擴(kuò)展、邏輯的延伸等,可以提升查詢質(zhì)量。Zilliz也開源了這款產(chǎn)品,在GitHub上收獲了近7000 star。
談到大模型的發(fā)展,欒小凡認(rèn)為這是一個(gè)變化非常快的市場(chǎng),沒(méi)有哪個(gè)模型可以保證絕對(duì)意義上的領(lǐng)先。中國(guó)有非常多優(yōu)秀的大模型團(tuán)隊(duì),DeepSeek、月之暗面、Mini Max、通義千問(wèn)等,幾家大模型發(fā)展都很快。
對(duì)于大家經(jīng)常提到的模型幻覺(jué)問(wèn)題,欒小凡表示思考得越多幻覺(jué)就越厲害,要想減少幻覺(jué),首先就需要更多的數(shù)據(jù),因?yàn)榛糜X(jué)本身其實(shí)是數(shù)據(jù)缺失的一種體現(xiàn)。但幻覺(jué)不見得完全是壞事,在某種程度上幻覺(jué)也是推理能力的延伸??梢岳斫鉃橐粋€(gè)思維活躍的人,基于已有的信息做出了推斷,這個(gè)事情并不是完全負(fù)面的,也會(huì)有一些正面收益。
模型真正的能力并不是背了多少本書,而是怎么利用已有的工具和知識(shí)解決沒(méi)有見過(guò)的問(wèn)題。
2.向量數(shù)據(jù)庫(kù)×Agent
Agent的爆發(fā)主要來(lái)源于模型能力的提升,其實(shí)Agent的概念由來(lái)已久,2023 年時(shí)已經(jīng)有人提出,但那時(shí)模型能力還沒(méi)有很強(qiáng)。Agent memory是當(dāng)下的一個(gè)熱點(diǎn)話題,它相當(dāng)于把Agent比作一個(gè)人,這個(gè)人做了很多事,有的產(chǎn)生了正面效果,有的則相反。Agent memory提供的能力就是記錄執(zhí)行過(guò)的步驟,在進(jìn)行下一步動(dòng)作時(shí),利用已有信息使判斷更加精確,不出現(xiàn)重復(fù)錯(cuò)誤。欒小凡表示Agent memory功能的實(shí)現(xiàn)也是基于向量數(shù)據(jù)庫(kù),有時(shí)也會(huì)使用一些圖數(shù)據(jù)庫(kù),這是目前數(shù)據(jù)庫(kù)與Agent的結(jié)合中較為典型的場(chǎng)景。
3.向量數(shù)據(jù)庫(kù)×工作替代
對(duì)于向量檢索自動(dòng)化替代人類基礎(chǔ)工作這一論斷,欒小凡認(rèn)為短期之內(nèi)還是很難,向量檢索可以幫助工作人員提高效率,但難以做到完全替代。以法律和醫(yī)療行業(yè)為例,它對(duì)準(zhǔn)確度的要求極高,帶有很強(qiáng)的行業(yè)屬性,通用的向量檢索方案很難做到完全替代。
由此我們又談?wù)摰搅水?dāng)下被熱烈討論的AI工作替代,欒小凡表示他對(duì)于這一言論既悲觀又樂(lè)觀。短期來(lái)講比較悲觀,AI替換一部分人這件事可能比我們預(yù)期的要更早,且它一旦發(fā)生就會(huì)很快,就像曾經(jīng)還有打字員這樣的職業(yè),現(xiàn)在已經(jīng)完全沒(méi)有了,是不是再過(guò)五到十年,司機(jī)這個(gè)職業(yè)也完全不存在了,他認(rèn)為極有可能。
但長(zhǎng)期來(lái)看又比較樂(lè)觀,這樣的發(fā)展趨勢(shì)可以讓人把自己的精力專注在更加有價(jià)值的事情上面,這對(duì)于人類的生產(chǎn)總值來(lái)講是一個(gè)提升,未來(lái)也許就不需要一周工作5天了,一周工作3天就可以。
需要指出的是,在AI工作替代場(chǎng)景中有一個(gè)問(wèn)題在當(dāng)前邏輯下并不成立,我們把AI當(dāng)作初級(jí)員工去讓它做很多事情,人類員工不需要做這些事,但如果不經(jīng)歷這些初級(jí)崗位,怎么去培養(yǎng)有經(jīng)驗(yàn)的資深人類員工呢?就像公司希望招聘到有經(jīng)驗(yàn)的員工可以立馬上手,但員工的經(jīng)驗(yàn)也需要經(jīng)歷從無(wú)到有的過(guò)程,這好像變成了一個(gè)先有雞還是先有蛋的問(wèn)題,暫時(shí)還無(wú)法回答。
我們今天所處的時(shí)代是一個(gè)充滿變革的時(shí)代,一個(gè)人借助AI的能力可以做10個(gè)人甚至100個(gè)人過(guò)去能做的事情,這也就意味著一定會(huì)有部分人被淘汰掉。欒小凡認(rèn)為作為普通人來(lái)說(shuō),一定要積極地?fù)肀I,學(xué)會(huì)運(yùn)用AI提升工作效率,朝著時(shí)代發(fā)展的方向邁步。
數(shù)據(jù)是現(xiàn)代科技發(fā)展的基礎(chǔ),數(shù)據(jù)庫(kù)則是穿越迭代的永恒軸心,托舉著每一次的時(shí)代躍遷。欒小凡表示要與時(shí)間交朋友,最終由時(shí)間來(lái)評(píng)判對(duì)錯(cuò)。時(shí)間沒(méi)有辜負(fù)當(dāng)年的深耕與堅(jiān)持,未來(lái)也會(huì)陪伴所有奮斗的人前進(jìn)。
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過(guò)的資訊
-
1西貝 × 思邁特聯(lián)合發(fā)布餐飲數(shù)智化方案
-
2搜索行業(yè)格局大變,IDC報(bào)告:夸克AI搜索
-
32025壽險(xiǎn)科技創(chuàng)新論壇成功舉辦
-
4小米瀏覽器接入豆包大模型;Manus宣布上
-
5科大訊飛發(fā)布AI法律助手"律小助";原螞
-
6滬上阿姨與數(shù)字螞力達(dá)成合作,率先應(yīng)用“
-
7WAIC 2025: Can We Govern AI Befo
-
8AI學(xué)會(huì)聞酒了?!這家公司居然在給機(jī)器長(zhǎng)
-
9金蝶亮相2025世界人工智能大會(huì) 全面展示
-
10無(wú)限光年亮相WAIC 2025:以可信AI全棧能
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
