【金猿技術(shù)展】專利智能語(yǔ)義檢索——基于預(yù)訓(xùn)練的語(yǔ)義排序
原創(chuàng) 智慧芽 | 2021-12-21 21:46
【數(shù)據(jù)猿導(dǎo)讀】 本項(xiàng)目由智慧芽投遞并參與“數(shù)據(jù)猿年度金猿策劃活動(dòng)——2021大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新技術(shù)突破榜榜單及獎(jiǎng)項(xiàng)”評(píng)選。

通過(guò)深度學(xué)習(xí)、自然語(yǔ)言處理以及預(yù)訓(xùn)練語(yǔ)言模型等前沿人工智能技術(shù)的運(yùn)用,實(shí)現(xiàn)在海量全球多語(yǔ)言專利文本中進(jìn)行自動(dòng)化、智能化的數(shù)據(jù)分析與文本挖掘,進(jìn)一步實(shí)現(xiàn)深層次語(yǔ)義分析,為用戶提供更加精準(zhǔn)地語(yǔ)義檢索服務(wù)。
從不同的數(shù)據(jù)源入手,智慧芽進(jìn)行了細(xì)粒度地文本實(shí)體抽取、實(shí)體關(guān)聯(lián)、問(wèn)題關(guān)聯(lián)、領(lǐng)域關(guān)聯(lián)、特征選擇等方面的數(shù)據(jù)治理,通過(guò)領(lǐng)域語(yǔ)義圖譜、文本/圖片訓(xùn)練樣本和預(yù)訓(xùn)練模型等,通過(guò)自研機(jī)器翻譯引擎系統(tǒng),智慧芽打通了不同專利文本之間的語(yǔ)言壁壘,使得面向全球TB級(jí)專利文本的分析、檢索以及語(yǔ)義挖掘成為可能。
專利智能語(yǔ)義檢索系統(tǒng),主要在專利預(yù)訓(xùn)練語(yǔ)言模型的基礎(chǔ)上,基于DSSM架構(gòu)采用BERT孿生網(wǎng)絡(luò)來(lái)獲取文本的淺層語(yǔ)義信息,在檢索層面,采用傳統(tǒng)關(guān)鍵詞檢索以及向量檢索相結(jié)合的方式,既保證了檢索結(jié)果的覆蓋率,也保證了檢索結(jié)果的相關(guān)性。通過(guò)基于預(yù)訓(xùn)練語(yǔ)言模型的智能語(yǔ)義排序方法的應(yīng)用,智慧芽專利智能語(yǔ)義檢索系統(tǒng)取得了巨大的技術(shù)突破以及商業(yè)價(jià)值。
同時(shí),相關(guān)技術(shù)已經(jīng)獲得了專利授權(quán):CN112800779B。
技術(shù)說(shuō)明
智慧芽智能語(yǔ)義檢索系統(tǒng),包含了三個(gè)主要的技術(shù)環(huán)節(jié):(1)搭建面向?qū)@I(lǐng)域的多語(yǔ)言翻譯系統(tǒng);(2)搭建面向?qū)@谋镜膶?shí)體知識(shí)庫(kù);(3)搭建面向?qū)@I(lǐng)域的語(yǔ)義排序系統(tǒng)。通過(guò)深度學(xué)習(xí)、自然語(yǔ)言處理等AI技術(shù)的綜合應(yīng)用,實(shí)現(xiàn)了智能語(yǔ)義檢索系統(tǒng)各個(gè)環(huán)節(jié)的有序結(jié)合、相互依賴,同時(shí)又互為補(bǔ)充。
(1)搭建面向?qū)@I(lǐng)域的多語(yǔ)言翻譯系統(tǒng)
首先,在專利平行語(yǔ)料構(gòu)建階段,智慧芽深入挖掘了專利領(lǐng)域的可比語(yǔ)料,進(jìn)一步利用自研的句對(duì)齊算法構(gòu)建了千萬(wàn)級(jí)專利領(lǐng)域平行句對(duì),同時(shí),基于Transformer架構(gòu),我們通過(guò)引入專利詞典以及采用回譯等數(shù)據(jù)增強(qiáng)技術(shù),構(gòu)建了專利領(lǐng)域的多語(yǔ)言翻譯系統(tǒng),打通了不同語(yǔ)言專利文本的挖掘障礙。在實(shí)際翻譯系統(tǒng)上線階段,為了進(jìn)一步提升翻譯速度,同時(shí)減少顯卡的利用,我們進(jìn)一步優(yōu)化了Transformer的模型架構(gòu),從而保證了翻譯質(zhì)量的專業(yè)與速度。
(2)搭建面向?qū)@谋镜膶?shí)體知識(shí)庫(kù)
專利文本是一種非常專業(yè)的文本,但是其表述也有一定的專業(yè)性與隱晦性,通過(guò)綜合采用自研分詞系統(tǒng)、TextRank、依存句法分析、詞性標(biāo)注以及TransE等主流自然語(yǔ)言處理算法與模型,我們實(shí)現(xiàn)了對(duì)專利文本的智能化、自動(dòng)化解析,從而基于專利文本構(gòu)建了包含同義詞關(guān)系、上下位關(guān)系以及相似關(guān)系等專利實(shí)體關(guān)系的知識(shí)庫(kù)。更進(jìn)一步,依據(jù)專利文本的特點(diǎn),智慧芽基于BERT模型,自研了專利IPC/CPC分類系統(tǒng),同時(shí)擴(kuò)展了原始專利文本的IPC/CPC類別,針對(duì)用戶輸入的純文本信息,自動(dòng)預(yù)測(cè)其IPC/CPC分類號(hào)。通過(guò)以上技術(shù)的綜合應(yīng)用,我們保證了盡可能多的召回潛在專利候選集合。
(3)搭建面向?qū)@I(lǐng)域的語(yǔ)義排序系統(tǒng)
為了進(jìn)一步保證智慧芽智能語(yǔ)義檢索系統(tǒng)搜索結(jié)果的準(zhǔn)確性,智慧芽利用海量專利數(shù)據(jù)重新訓(xùn)練了面向?qū)@I(lǐng)域的預(yù)訓(xùn)練語(yǔ)言模型,同時(shí),為了更加深入地挖掘?qū)@谋局g的語(yǔ)義關(guān)系,在專利領(lǐng)域預(yù)訓(xùn)練語(yǔ)言模型的基礎(chǔ)上,我們利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)一步擴(kuò)展了專利文本的語(yǔ)義內(nèi)涵。最后,在數(shù)據(jù)采樣方面,我們基于DSSM架構(gòu)采用多LOSS融合的方式,使得排序模型的泛化能力更強(qiáng),從而保證了篇章語(yǔ)義關(guān)系挖掘的準(zhǔn)確性。在檢索工程優(yōu)化方面,為了保證搜索的實(shí)時(shí)性,智慧芽自研了向量檢索平臺(tái),同時(shí)對(duì)原有語(yǔ)義生成模型進(jìn)行了多模型融合與蒸餾。
在語(yǔ)義檢索的最終RANK部分,智慧芽采用實(shí)體檢索分?jǐn)?shù)與向量檢索分?jǐn)?shù)向融合的方式,同時(shí)嵌入LTR,保證了語(yǔ)義檢索結(jié)果的快、準(zhǔn)、全。
智慧芽一直行走在專利領(lǐng)域AI技術(shù)應(yīng)用與研究的最前沿,通過(guò)對(duì)專利智能語(yǔ)義檢索的深耕、打磨與上線,智慧芽獲得多項(xiàng)國(guó)家級(jí)資質(zhì)榮譽(yù),包括:世界知識(shí)產(chǎn)權(quán)組織第四批技術(shù)與創(chuàng)新支持中心(TISC)籌建機(jī)構(gòu)、第三批“全國(guó)知識(shí)產(chǎn)權(quán)服務(wù)品牌機(jī)構(gòu)”、“國(guó)家高新技術(shù)企業(yè)”、承擔(dān)科技部的“國(guó)家重點(diǎn)研發(fā)計(jì)劃”子課題任務(wù)等。
開(kāi)發(fā)團(tuán)隊(duì)
·帶隊(duì)負(fù)責(zé)人:屠昶旸
屠昶旸,智慧芽技術(shù)副總裁。擁有20多年高科技、互聯(lián)網(wǎng)行業(yè)從業(yè)經(jīng)驗(yàn),曾在思科、網(wǎng)迅等公司任職。
長(zhǎng)期從事為企業(yè)級(jí)用戶提供協(xié)作開(kāi)放云平臺(tái)的技術(shù)運(yùn)營(yíng)服務(wù),負(fù)責(zé)云平臺(tái)的技術(shù)運(yùn)營(yíng)和相關(guān)云管理軟件的開(kāi)發(fā)。
·團(tuán)隊(duì)其他重要成員:王為磊、王超超、夏宇彬
·隸屬機(jī)構(gòu):智慧芽
智慧芽(PatSnap)是科技創(chuàng)新情報(bào)SaaS服務(wù)商,聚焦科技創(chuàng)新情報(bào)和知識(shí)產(chǎn)權(quán)信息化服務(wù)兩大板塊。通過(guò)機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理(NLP)等人工智能技術(shù),智慧芽為遍布全球科技公司、高校和科研機(jī)構(gòu)、金融機(jī)構(gòu)等提供大數(shù)據(jù)情報(bào)服務(wù)。智慧芽圍繞科技創(chuàng)新與知識(shí)產(chǎn)權(quán)已經(jīng)構(gòu)建產(chǎn)品矩陣,旗下產(chǎn)品包括PatSnap全球?qū)@麛?shù)據(jù)庫(kù)、Innosnap知識(shí)產(chǎn)權(quán)管理系統(tǒng)、Insights英策專利分析系統(tǒng)、Discovery創(chuàng)新情報(bào)系統(tǒng)等。
智慧芽已經(jīng)服務(wù)全球50多個(gè)國(guó)家超1萬(wàn)家客戶,涵蓋了高校和科研院所、生物醫(yī)藥、化學(xué)、汽車、新能源、通信、電子等50多個(gè)高科技行業(yè)。國(guó)內(nèi)客戶包括清華大學(xué)、北京大學(xué)、中科院、中國(guó)石化、海爾、美的、小米、寧德時(shí)代、小鵬汽車、大疆、藥明康德、商湯科技、華大等;國(guó)際客戶包括麻省理工學(xué)院、牛津大學(xué)、陶氏化學(xué)、戴森、Spotify等。
相關(guān)評(píng)價(jià)
相信科技的力量能改變世界,我們看到智慧芽在大數(shù)據(jù)和人工智能上擁有全球領(lǐng)先的技術(shù)實(shí)力,這無(wú)疑是非常令人激動(dòng)的。創(chuàng)新和知識(shí)產(chǎn)權(quán)情報(bào)服務(wù)正在幫助全球創(chuàng)新能力邁上新臺(tái)階,能幫助全球更多企業(yè)創(chuàng)新發(fā)展,我們堅(jiān)信這一點(diǎn)。
管理合伙人 陳恂
——軟銀愿景基金(SoftBank Investment Advisers)
中國(guó)企業(yè)對(duì)創(chuàng)新和知識(shí)產(chǎn)權(quán)服務(wù)的需求正在迅速增長(zhǎng)。智慧芽作為這一領(lǐng)域的頭部廠商,深耕十多年,擁有對(duì)創(chuàng)新和知識(shí)產(chǎn)權(quán)領(lǐng)域前瞻性的洞察,積累了大數(shù)據(jù)和人工智能豐富的能力。
董事總經(jīng)理 姚磊文
——騰訊投資
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 【大會(huì)嘉賓】威馬汽車集團(tuán)戰(zhàn)2021-08-02
- 【大會(huì)嘉賓】聯(lián)通智慧足跡CM2021-08-02
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
不容錯(cuò)過(guò)的資訊
-
12021網(wǎng)易未來(lái)大會(huì)拉開(kāi)帷幕:打破邊界 探
-
2【金猿技術(shù)展】基于數(shù)據(jù)控制三維組態(tài)的方
-
32021智慧航旅領(lǐng)域最具商業(yè)合作價(jià)值企業(yè)盤(pán)
-
4【金猿案例展】某市衛(wèi)健委——城市大腦智
-
5【金猿案例展】某鞋履品牌——基于大數(shù)據(jù)
-
62021智能制造領(lǐng)域最具商業(yè)合作價(jià)值企業(yè)盤(pán)
-
7【金猿技術(shù)展】維智ST-AI ——全棧時(shí)空
-
8【金猿投【金猿投融展】數(shù)字冰雹——數(shù)字
-
9【金猿產(chǎn)品展】Quick Audience——一站
-
10數(shù)以智用 萬(wàn)象更新 | 2021 DIC首屆