【金猿技術(shù)展】一種基于詞嵌入的文本分類訓(xùn)練樣本擴(kuò)充方法——用于提高小樣本分類任務(wù)中自動擴(kuò)充數(shù)據(jù)的質(zhì)量
【數(shù)據(jù)猿導(dǎo)讀】 該技術(shù)由中新賽克投遞并參與“數(shù)據(jù)猿年度金猿策劃活動——2023大數(shù)據(jù)產(chǎn)業(yè)年度創(chuàng)新技術(shù)突破榜單及獎項”評選。

設(shè)計并實現(xiàn)了一種基于詞嵌入的文本分類訓(xùn)練樣本擴(kuò)充方法。本技術(shù)所述的基于詞嵌入的文本分類訓(xùn)練樣本擴(kuò)充方法發(fā)明了一種利用已有樣本數(shù)據(jù)來自動高效得擴(kuò)充已有樣本中樣本量偏小的類。該方法主要創(chuàng)新點(diǎn):一是利用文本外的詞來擴(kuò)展已有的訓(xùn)練樣本,使得新增樣本中的詞的表達(dá)更具豐富性;二是利用K最近鄰文本分類將基于詞嵌入所生成的候選樣本進(jìn)行篩選,剔除掉無關(guān)的、錯誤的候選訓(xùn)練樣本,獲得高概率的可用訓(xùn)練樣本,達(dá)到擴(kuò)充訓(xùn)練樣本的目的。
本技術(shù)的應(yīng)用價值在于緩解了簡單樣本擴(kuò)充和提高分類器算法效果不理想問題。文本分類是一種典型的有監(jiān)督學(xué)習(xí)問題,有監(jiān)督學(xué)習(xí)面臨的一個主要問題就是需要通過大量的人工標(biāo)記的訓(xùn)練樣本來進(jìn)行學(xué)習(xí)。然而在實際應(yīng)用中,獲得有標(biāo)簽的訓(xùn)練樣本通常需要耗費(fèi)巨大的人力物力,這就是所謂的“標(biāo)注瓶頸”。因此,有監(jiān)督學(xué)習(xí)所能獲得的有標(biāo)簽的訓(xùn)練樣本往往是有限的,它表現(xiàn)為訓(xùn)練樣本的數(shù)量有限,以及訓(xùn)練樣本所包含的信息不足。由于有限(數(shù)量和分布信息有限)的訓(xùn)練樣本不能很好地刻畫出數(shù)據(jù)的總體分布特性,因而導(dǎo)致學(xué)習(xí)得到的分類器泛化能力差,這就是所謂的“小樣本”問題。本技術(shù)正是針對這種“小樣本”問題所提出的一種有效解決方案。
本技術(shù)可以廣泛應(yīng)用于各類文本分類任務(wù)中,從而提高分類的精度。分類任務(wù)包括但不限于:情感分類、新聞主題分類、垃圾郵件過濾、產(chǎn)品評論分類、聊天意圖分類、健康疾病分類、政治傾向分類、法律文件分類等等。
技術(shù)說明
本技術(shù)具體實施例的詳細(xì)步驟如下:
第一步,獲取小樣本關(guān)鍵詞,構(gòu)建小樣本關(guān)鍵詞集合。如圖1所示,文本分類訓(xùn)練樣本集分為小樣本類和非小樣本類。小樣本類經(jīng)過關(guān)鍵詞提取獲得關(guān)鍵詞集合。本實施例中,獲取關(guān)鍵詞的方法采用PositionRank算法。PositionRank提取關(guān)鍵詞算法與TextRank算法相似,都是基于PageRank的圖關(guān)系計算詞的得分。用表示詞的重要性得分,其公式如下:
其中,表示阻尼因子,一般設(shè)為0.75;w表示圖的邊的權(quán)重,即詞之間的相似度;表示詞所有出向邊的權(quán)重和。詞的初始得分跟詞在文本中的位置成反比,跟詞頻成正比:
假定詞v在文本的第2、第3、第8位置出現(xiàn),則 =1/2+1/3+1/8。
如圖2所示,一篇文本分詞后,得到A、B、C、D 、E、F 6個詞,經(jīng)過PositionRank算法后,A、B、C、D、E、F各詞的權(quán)重分別為0.025、0.34、0.12、0.036、0.032、0.047,然后從該篇文本選3個關(guān)鍵詞,得到權(quán)重靠前的3個關(guān)鍵詞:B、C、F。實施中,每一篇文本所選取的關(guān)鍵詞個數(shù)與文本自身長度n有關(guān),用f(n)表示文本需要選取的關(guān)鍵詞個數(shù),其表達(dá)式如下:
第二步,將非小樣本類的所有文本分詞,隨機(jī)抽掉一半的詞,并從小樣本關(guān)鍵詞集合中有放回地隨機(jī)選取相應(yīng)數(shù)量的詞,替換非小樣本類文本中被抽掉的詞,形成新的語段。分詞算法采用中科院的ICTCLAS中文分詞實現(xiàn)。
第三步,用文本相似度計算新語段與已知訓(xùn)練樣本的K最近鄰。兩文本相似度采用DSSM模型計算。DSSM (Deep Structured Semantic Models)的原理是,通過搜索引擎里查詢和標(biāo)題的海量的點(diǎn)擊曝光日志,用 DNN (深度神經(jīng)網(wǎng)絡(luò))把查詢和標(biāo)題表達(dá)為低維語義向量,并通過 余弦距離來計算兩個語義向量的距離,最終訓(xùn)練出語義相似度模型該模型既可以用來預(yù)測兩個句子的語義相似度,又可以獲得某句子的低緯語義向量表達(dá)。
如圖3 K最近鄰算法分類新語段所示,訓(xùn)練樣本集包括3個類別:類1、類2、類3,在K=5時,與待分類新語段最相似的前5個類分別是類1、類1、類1、類2和類3,由于類1數(shù)量最多,所以把待分類新語段歸為類1。實施中,K的個數(shù)與小樣本量有關(guān),設(shè)定K=,其中是一個超參數(shù),根據(jù)經(jīng)驗來設(shè)定,表示下界取整,如。
第四步,將經(jīng)過K最近鄰分類后歸為小樣本類的新語段篩選出來,與文本分類訓(xùn)練樣本集合并,形成擴(kuò)充后的訓(xùn)練樣本集。
圖1文本分類訓(xùn)練樣本擴(kuò)充流程
圖2 基于PositionRank算法的關(guān)鍵詞抽取圖
圖3 K最近鄰算法分類新語段
★專利申請?zhí)?公開號:ZL 2019 11119076.5
開發(fā)團(tuán)隊
·帶隊負(fù)責(zé)人姓名:盧云川
盧云川,中新賽克副總兼大數(shù)據(jù)產(chǎn)品線總經(jīng)理。清華大學(xué)碩士,高級工程師,現(xiàn)任中新賽克大數(shù)據(jù)產(chǎn)品總經(jīng)理,中國數(shù)據(jù)庫專委會委員,中國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全威脅治理聯(lián)盟成員單位負(fù)責(zé)人,南京市人工智能行業(yè)協(xié)會副理事長。在電信、大數(shù)據(jù)、人工智能領(lǐng)域深耕20余年,擁有知識產(chǎn)權(quán)5項,主導(dǎo)并參與國家242信息安全專項、江蘇省戰(zhàn)略性新興專項等8項省部級科技項目。
團(tuán)隊其他重要成員姓名:張全、卓可秋
·隸屬機(jī)構(gòu):OceanMind海睿思/中新賽克
南京中新賽克科技有限責(zé)任公司(簡稱:中新賽克)成立于2007年,前身是中興通訊旗下子公司,現(xiàn)由深圳市創(chuàng)新投資集團(tuán)有限公司投資控股。公司于2017年在深交所掛牌上市,股票代碼:002912。
OceanMind 海睿思,是中新賽克旗下的大數(shù)據(jù)操作系統(tǒng)品牌。海睿思在業(yè)內(nèi)創(chuàng)新性提出系統(tǒng)化、線上化數(shù)據(jù)建設(shè)解決方案,重新定義企業(yè)數(shù)據(jù)工程,提供基于業(yè)務(wù)驅(qū)動、線上化、可視化、無縫銜接的數(shù)據(jù)建設(shè)服務(wù),即數(shù)據(jù)建設(shè)咨詢→成果落地→應(yīng)用建設(shè)→數(shù)據(jù)管理“四位一體”的數(shù)據(jù)建設(shè)一站式解決方案,成功解決企業(yè)咨詢方案難落實、咨詢成果難落地、數(shù)據(jù)應(yīng)用難建設(shè)、數(shù)據(jù)體系難運(yùn)營的四大難題,為企業(yè)數(shù)字化轉(zhuǎn)型保駕護(hù)航。同時提供數(shù)據(jù)中臺、智能數(shù)倉、主數(shù)據(jù)管理、指標(biāo)管理平臺及行業(yè)大數(shù)據(jù)業(yè)務(wù)分析應(yīng)用,緊扣企業(yè)經(jīng)營管理業(yè)務(wù)場景,深化運(yùn)營狀態(tài)可視、運(yùn)營過程可視和運(yùn)營風(fēng)控可視的理念,打造企業(yè)經(jīng)營管理數(shù)字化解決方案,不斷助力企業(yè)數(shù)字化轉(zhuǎn)型。
相關(guān)評價
中新賽克基于人工智能的審計檔案挖掘利用系統(tǒng),解決了一直以來我們應(yīng)用電子版審計檔案困難、檔案價值難以挖掘的問題,大大提升了我們利用海量已有檔案的效率,并在業(yè)內(nèi)形成了良好的示范效應(yīng)。
——聊城市審計局
電子數(shù)據(jù)科科長 宋鑫昌
中新賽克海睿思的智能搜功能,創(chuàng)新性的把自然語義能力加入到了全局?jǐn)?shù)據(jù)、資料的搜索中,使得我們可以高效的基于實體要素,迅速的、結(jié)構(gòu)化的提取原本分散在多個系統(tǒng)的數(shù)據(jù),并可自動生成報告,極大減少了我們?nèi)藛T搜集材料、編寫材料的工作量。
——中國能建江蘇省電力設(shè)計院
IT經(jīng)理 黃丕全
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
不容錯過的資訊
-
1數(shù)據(jù)資產(chǎn)入表攻略:數(shù)錢數(shù)到手軟的秘訣!
-
2百度回應(yīng)與四維圖新著作權(quán)案敗訴;螞蟻開
-
3【金猿人物展】數(shù)瀾科技聯(lián)合創(chuàng)始人白松:
-
4Xiaopeng Hutian split flying car
-
5H3c and Zhejiang Mobile will coop
-
6思必馳完成新一輪首期兩億元融資
-
7【金猿投融展】HashData——致力于降低企
-
8“華政數(shù)據(jù)法律研究中心數(shù)據(jù)流通交易實務(wù)
-
9Wu Yongqiao will become president
-
10【金猿案例展】智譜AI——基于全閃分布式
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
