為大模型添加記憶體,GBASE南大通用駛入向量賽道
原創(chuàng) Bugle-X | 2023-09-04 19:43
【數(shù)據(jù)猿導讀】 通過構建涵蓋數(shù)據(jù)管理全生命周期、全技術棧的數(shù)據(jù)產(chǎn)品體系,南大通用在自主研發(fā)的GBase系列數(shù)據(jù)庫基礎上推出場景化解決方案,為客戶量身定制數(shù)據(jù)庫產(chǎn)品和服務。據(jù)丁明峰介紹,南大通用的數(shù)據(jù)庫產(chǎn)品已在金融、電信等行業(yè)的核心系統(tǒng)實現(xiàn)規(guī)?;瘧?。

理解、生成、邏輯、記憶是人工智能的四大核心能力。
一段人類的日常對話通??梢苑纸鉃橐?、記憶、分析三個部分。計算機自然語言處理的解法,AI科學家歸納出一個CPV結構:以ChatGPT為代表的大模型承擔“分析”,Vector Database(向量數(shù)據(jù)庫)承擔“記憶”,Prompt(提示詞)承擔“引子”。
向量數(shù)據(jù)庫,正是計算機記憶體一般的存在。AI 2.0時代,一度落寞的向量數(shù)據(jù)庫又一次站在技術最前沿,成為數(shù)據(jù)庫廠商競相投入研發(fā)的對象。
向量數(shù)據(jù)庫,一個計算機超級大腦
向量數(shù)據(jù)庫處理和存儲音頻、視頻、圖像等非結構化數(shù)據(jù),通過向量嵌入實現(xiàn)相似度檢索、模糊匹配,輸出概率上最符合條件的答案,在大模型興起之前便已廣泛應用于以圖搜圖、哼歌識曲等場景。
作為一個超級記憶體,向量數(shù)據(jù)庫可以解決大模型預訓練成本高、無長期記憶、知識更新不足的問題,突破大模型在時間上、空間上的限制,加速大模型落地于行業(yè)場景。正因為如此,ChatGPT橫空出世之后,向量數(shù)據(jù)庫也火爆出圈,成為資本競逐的對象。
2023年4月,向量數(shù)據(jù)庫廠商Qdrant、Chroma、Weaviate、Pinecone相繼獲得融資,其中Pinecone融資1億美元。國內上市公司星環(huán)科技、云創(chuàng)數(shù)據(jù)也經(jīng)歷一波股價上漲。
7月,騰訊云正式發(fā)布向量數(shù)據(jù)庫Tencent Cloud VectorDB。9月,國產(chǎn)數(shù)據(jù)庫“老四家”之一的GBASE南大通用在天津軟博會期間發(fā)布向量數(shù)據(jù)庫GBase Cloud Vector DB。向量數(shù)據(jù)庫與大模型結合,正成為一個超級大腦,將AI 2.0時代引向深入。
GBase向量數(shù)據(jù)庫,支持大模型應用
南大通用的向量數(shù)據(jù)庫GBase Cloud Vector DB在GBase 8a集群架構的基礎上開發(fā),一方面繼承了GBase 8a高可用、高擴展性性、高安全性的特性,另一方面又通過存儲數(shù)據(jù)向量、使用相似度度量,實現(xiàn)向量數(shù)據(jù)庫的功能。
向量數(shù)據(jù)庫GBase Cloud Vector DB采用存算分離架構,各層均可獨立擴展,協(xié)調服務層擁有express引擎和向量引擎,存儲服務層增加向量類型和索引的存儲文件,計算服務層增加向量類型計算支持和向量類常用索引檢索算法。整個分布式集群系統(tǒng)既可支持業(yè)務職能、報表分析、決策支持等傳統(tǒng)分析業(yè)務,又可應對圖像處理、推薦系統(tǒng)、自然語言處理和機器學習等向量數(shù)據(jù)業(yè)務。
據(jù)南大通用董事長丁明峰介紹,向量數(shù)據(jù)庫GBase Cloud Vector DB可處理大規(guī)模高維度的向量數(shù)據(jù),支持2048維度以上浮點型向量數(shù)據(jù)的存儲和相似度檢索,可廣泛應用于自然語言處理、圖像檢索和視頻分析等使用場景。GBase Cloud Vector DB可與大模型結合,提升大模型的數(shù)據(jù)時效性,為大模型提供私域下的專業(yè)數(shù)據(jù),讓大模型擁有長期記憶儲存和專業(yè)領域知識。
南大通用,打進金融、電信核心系統(tǒng)
2004年成立的南大通用總部位于天津,是國內最早創(chuàng)立的獨立數(shù)據(jù)庫廠商之一,與達夢數(shù)據(jù)、人大金倉、神舟通用并稱為國產(chǎn)數(shù)據(jù)庫四朵金花。
經(jīng)過二十年的發(fā)展,南大通用一方面保持交易型數(shù)據(jù)庫、分析型數(shù)據(jù)庫的國內領先水平,另一方面又緊跟云化、分布式等技術演進趨勢,不斷推出數(shù)據(jù)庫產(chǎn)品。向量數(shù)據(jù)庫GBase Cloud Vector DB的推出,正是南大通用不斷創(chuàng)新、持續(xù)迭代的又一例證。
數(shù)據(jù)庫與操作系統(tǒng)、中間件并列為三大基礎軟件,是基礎軟件皇冠上的明珠。作為第一批國家級專精特新小巨人企業(yè),南大通用一直專注于數(shù)據(jù)庫基礎軟件研發(fā),產(chǎn)品核心技術、底層代碼自主可控。在國家信創(chuàng)產(chǎn)業(yè)迅猛發(fā)展的大背景下,南大通用與其它國產(chǎn)數(shù)據(jù)庫廠商一起,致力于國產(chǎn)軟件生態(tài)建設,加快重點行業(yè)的國產(chǎn)化替代。
通過構建涵蓋數(shù)據(jù)管理全生命周期、全技術棧的數(shù)據(jù)產(chǎn)品體系,南大通用在自主研發(fā)的GBase系列數(shù)據(jù)庫基礎上推出場景化解決方案,為客戶量身定制數(shù)據(jù)庫產(chǎn)品和服務。據(jù)丁明峰介紹,南大通用的數(shù)據(jù)庫產(chǎn)品已在金融、電信等行業(yè)的核心系統(tǒng)實現(xiàn)規(guī)模化應用。
文:Bugle-X / 數(shù)據(jù)猿
來源:數(shù)據(jù)猿