權威評測顯示:智慧芽AI Agent查新檢索能力遠超通用大模型
數(shù)據猿 | 2025-08-22 11:00
【數(shù)據猿導讀】 8月21日,AI驅動的科技創(chuàng)新和知識產權信息服務商智慧芽發(fā)表最新研究成果《一項研究:AI工具的查新檢索基準測試》。該研究針對真實專利工作場景下的查新檢索任務設計“PatentBench-查新檢索”評測基準,并對智慧芽“查新檢索AI Agent”、ChatGPT-o3(聯(lián)網搜索版)、DeepSeek-R1(聯(lián)網...

8月21日,AI驅動的科技創(chuàng)新和知識產權信息服務商智慧芽發(fā)表最新研究成果《一項研究:AI工具的查新檢索基準測試》。該研究針對真實專利工作場景下的查新檢索任務設計“PatentBench-查新檢索”評測基準,并對智慧芽“查新檢索AI Agent”、ChatGPT-o3(聯(lián)網搜索版)、DeepSeek-R1(聯(lián)網搜索版)三個AI工具開展了查新檢索能力的基準測試。
評測結果顯示,智慧芽"查新檢索AI Agent"在核心評估指標上顯著優(yōu)于ChatGPT-o3、DeepSeek-R1(兩者皆為聯(lián)網搜索版)為代表的通用AI工具,X檢出率和X召回率分別達到76%和32%,是通用AI工具的2-3倍。
"過去一段時間里,智慧芽在專利和研發(fā)場景推出了幾十款AI Agents工具,但大家都會問:如何驗證評估不同工具在專利查新檢索中的效率和能力?"智慧芽創(chuàng)始人兼CEO張濟徽表示,"今天公布的測試結果給出了關于AI工具專業(yè)能力的科學答案。我們期待讓大家更加客觀、直觀地看到專業(yè)AI工具如何幫助企業(yè)在知識產權工作中實現(xiàn)降本增效。"
專業(yè)評測驗證AI工具處理專利任務的真實性能
查新檢索是指針對某項技術方案或專利申請,系統(tǒng)檢索全球現(xiàn)有技術,以判斷其是否具備"新穎性"和"創(chuàng)造性"的專業(yè)檢索過程。由于專利工作橫跨法律、技術和商業(yè)三大交叉領域,具有極高的專業(yè)壁壘,通用的AI工具往往難以準確勝任專利場景中的復雜任務。
此次評測基于跨受理局并行審查的國際同族專利構建了高質量評測數(shù)據集。通過自研的權利要求一致性比對模型進行語義對齊與技術相似度評估,消除語言表述差異帶來的影響,確保測試的客觀性和準確性。評測以各受理局審查員在判斷新穎性與創(chuàng)造性時實際引用的關鍵X、Y類對比文獻作為評測的"基準答案",經過去重與標引規(guī)范化整合,形成一致且可復用的參考標準。本次評測精選了89個滿足嚴格要求的測試樣本,其中38.2%為中文文本,61.8%為英文文本,在IPC分類號上實現(xiàn)均勻分布,真實模擬現(xiàn)實中的查新檢索場景。
圖:89個測試樣本的專利文本語言、IPC分類號分布情況
在評估指標方面,本次評測采用"X檢出率"和"X查全率"兩大核心指標。“X檢出率”用以衡量AI工具能否檢索到X文獻的能力,其在專利審查階段尤為關鍵,審查員只需要找到少量X文獻即可快速判定某件專利申請是否缺乏“新創(chuàng)性”。在針對每個樣本的測試中,在TopK返回結果中,命中了“X文獻全集”中的任一X文獻,則記為“1”,未命中記為“0”,命中了X文獻的測試樣本數(shù)量的比例即為“X檢出率”。
圖:“PatentBench-查新檢索”的“X檢出率”計算公式
“X查全率”旨在衡量AI工具能否檢索到盡可能多的X文獻的能力,其在研發(fā)立項階段和專利申請前階段至關重要,無論是企業(yè)研發(fā)人員、專利人員還是外部專利代理師,都需要盡可能全面地找到X文獻,以指導技術方案的調整、權利要求書的撰寫,從而提高專利授權率。在整個測試數(shù)據集中,Top100返回結果中命中的X文獻數(shù)量占所有測試樣本中的X文獻總數(shù)量的比例,即為“X查全率”。
圖:“PatentBench-查新檢索”的“X查全率”計算公式
智慧芽查新檢索AI Agent評測表現(xiàn)領先通用大模型
研究顯示,智慧芽查新檢索AI Agent的“X檢出率”高達76%,是另外兩款通用AI工具的2倍以上,ChatGPT-o3(聯(lián)網搜索版)為32%、DeepSeek-R1(聯(lián)網搜索版)為9%。這意味著,所有89個測試樣本中,智慧芽在其中四分之三的測試樣本中都找到了至少1個X文獻。
圖:“X檢出率”評測結果
與此同時,智慧芽查新檢索AI Agent的“X查全率”為32%,甚至達到了另外兩款通用AI工具的3倍以上,ChatGPT-o3(聯(lián)網搜索版)為11%,DeepSeek-R1(聯(lián)網搜索版)為3%。這表明,在Top100返回結果中,智慧芽的Agent已能發(fā)現(xiàn)32%的正確答案,若結合后續(xù)人類專家的篩選,X文獻檢索結果將更加完整。
圖:“X查全率”評測結果
綜上表明,智慧芽查新檢索AI Agent在查新檢索場景中的評測表現(xiàn),遠遠超越通用大模型。盡管通用大模型具備強大的泛化推理能力,但在專利查新檢索這類高度專業(yè)化任務中仍存在顯著局限。專業(yè)領域AI工具的針對性發(fā)展,在專利垂直場景中展現(xiàn)出不可替代的必要性與應用價值。
專業(yè)工作交給專業(yè)AI
智慧芽查新檢索AI Agent之所以能夠達到上述基準測試結果的高水平,源于其垂直領域模型微調和RAG技術。該Agent對基礎開源大模型進行了系統(tǒng)化的專利領域專業(yè)知識微調,確保模型能夠深度理解專利技術語言和檢索邏輯。在此基礎上,Agent采用檢索增強生成(RAG)技術執(zhí)行高質量的檢索工作,將實時檢索能力與生成能力有機結合。通過這種技術組合,智慧芽Agent能夠準確捕獲文本中的關鍵技術特征,實施精密的檢索策略,并提供低幻覺的可靠結果,從而在專業(yè)查新檢索任務中展現(xiàn)出顯著優(yōu)于通用大模型的性能優(yōu)勢。
基于上述優(yōu)勢,對于在企業(yè)或專利代理機構從事專利申請相關工作的知識產權專業(yè)人士來說,智慧芽查新檢索AI Agent是一款能在保持準確性的同時成倍提高新穎性檢索效率的工具。通過在幾分鐘內完成傳統(tǒng)需要數(shù)小時的搜索、篩選和排序工作,專業(yè)人士可以將精力集中在更高價值的分析和決策上,實現(xiàn)從“3天重復性檢索工作”到“3小時高質量分析工作”的效率躍升。
此外,對于正在進行項目預研立項的企業(yè)研發(fā)團隊而言,“查新檢索AI Agent”可能是一個革命性的解決方案,通過在早期階段進行高效的查新檢索,從而顯著降低缺乏新穎性的風險,并最大限度地減少研發(fā)資源的潛在浪費,為研發(fā)工作流帶來巨大的轉變。
來源:數(shù)據猿