京東鄭志彤:如何利用機器學(xué)習(xí)優(yōu)化數(shù)億條商品數(shù)據(jù)
謝海平 | 2017-09-07 14:02
【數(shù)據(jù)猿導(dǎo)讀】 商品數(shù)據(jù)質(zhì)量參差不齊。電商商品數(shù)據(jù)是多模態(tài)的,噪音多;其次,商家為了提高商品搜索率會使用大量詞匯描繪商品,容易造成詞語堆砌的現(xiàn)象,致使商品數(shù)據(jù)的錄入難以管理。

2017年7月21日-22日,由51CTO主辦的以人工智能為主題的WOTI2017全球創(chuàng)新技術(shù)峰會在北京富力萬麗酒店隆重舉行。峰會期間,30+AI明星,數(shù)十場圍繞人工智能主題的精彩演講與圓桌論壇緩緩揭開面紗。會后,記者采訪了京東商城基礎(chǔ)平臺部首席研究員鄭志彤,他為大家介紹機器學(xué)習(xí)在電商領(lǐng)域的場景化應(yīng)用。
京東的數(shù)據(jù)問題
京東擁有大量商品數(shù)據(jù),包括圖像、文本、視頻和語音。這些數(shù)據(jù)不僅是多模態(tài)的,而且是非結(jié)構(gòu)化的。目前,京東數(shù)據(jù)主要存在以下兩點不足:
商品數(shù)據(jù)質(zhì)量參差不齊。電商商品數(shù)據(jù)是多模態(tài)的,噪音多;其次,商家為了提高商品搜索率會使用大量詞匯描繪商品,容易造成詞語堆砌的現(xiàn)象,致使商品數(shù)據(jù)的錄入難以管理。
用戶反饋數(shù)據(jù)沒有得到有效利用。用戶在評價商品時,文字評論是負面評價,但是,星級評分卻是五分好評。在這種情況下,機器很難理解商品的真實好壞,因此就會接收不準(zhǔn)確的信息。如果不對評論區(qū)的信息進行清洗,用戶對商品的實際評價就難以被機器理解,也不利于后續(xù)商品的推薦。
機器學(xué)習(xí)在京東的應(yīng)用
為了構(gòu)建良好的商城生態(tài),京東利用機器學(xué)習(xí)技術(shù)從信息合規(guī)、商品基本屬性優(yōu)化、電商短文本理解、商品類目的自動識別、多場景信息獲取五個方面來逐步優(yōu)化并解決現(xiàn)階段存在的問題。
一、電商數(shù)據(jù)的信息合規(guī)
很多信息如果輸入不正確,就會違反廣告法或者價格法。例如,上圖中的“最高質(zhì)量標(biāo)準(zhǔn)”是違反廣告法的,下面的“第一步”雖然沒有違反,但”銷量第一“的用詞是違反的。從這個案例中,鄭志彤意識到,信息合規(guī)不僅僅要借助關(guān)鍵詞,還需考慮上下文的關(guān)系。于是,京東商城就做了上下文的文本分類,這使得無效審核下降73%。
價格合規(guī)方面,詳情頁里有價格信息,上圖的Banner中還有一個價格,兩個價格如果不一致就屬于不合規(guī)。為了提高審核效率,京東商城借助OCR(Optical Character Recognition)識別技術(shù)來實現(xiàn)價格合規(guī)。
京東端到端的通用字符串識別系統(tǒng)
如圖所示,通過CNN model獲得圖片的特征與基于大規(guī)模語料數(shù)據(jù)訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)的通用語言模型相結(jié)合,再通過基于時序分類(CTC)輸出。端到端的文本檢測與識別算法克服了傳統(tǒng)OCR魯棒性不足的問題,即使對于京東網(wǎng)站上各種壓縮失真和版面復(fù)雜的圖片,也能有很好的文字識別效果。
目前, OCR識別系統(tǒng)每天可以自動識別出數(shù)千個價格不一致的信息。同時,圖片文字識別出的語句通過文本合規(guī)后,能自動發(fā)現(xiàn)包含違禁語義的圖片。
第二、圖文不一致體驗
屬性間的不一致對上層系統(tǒng)影響巨大,搜索、推薦調(diào)用錯誤數(shù)據(jù),結(jié)果也會隨之錯誤。例如,一張圖片中女Model提著紅色手包,穿著白色上衣,藍色褲子,這種圖片直接識別不能分別得到三個主體的顏色分類。
而京東商城則是選用了一些成熟模型,在獲取一張圖片的屬性后,例如顏色、袖長、裙長、圖案,通過設(shè)定優(yōu)先識別規(guī)則,比如顏色,以此類推,逐漸識別商品的所有顏色分類。鄭志彤表示,“我們從圖片上抽取商品屬性主要覆蓋了四個一級品類,準(zhǔn)確率能到95%左右,規(guī)模大概是累計了兩億條以上的商品屬性和一億多條的SKU(Stock Keeping Unit)。”
第三、電商的短文本理解
京東的商家為了提高商品銷量,在商品命名時往往會使用大量無關(guān)詞語,這不利于商品數(shù)據(jù)的錄入與管理。因此,京東商城必須對商品的標(biāo)題進行分詞和重組。為了從源頭上解決詞匯堆積問題,據(jù)鄭志彤介紹,他們主要采用了如標(biāo)題分詞、實體命名識別、短文本理解、標(biāo)題重組等一系列的機器學(xué)習(xí)技術(shù)。
第四、類目自動識別
商品數(shù)量達數(shù)億條,又有近4000多條的三級類目分類,這使京東在早期錄入數(shù)據(jù)時耗費了大量人力。目前,京東商城主要采用了文本分類的方法,即文本被分到一個樹狀的類別圖里。早期,京東商城嘗試過基于字母級別的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)分類,然后又試過Word2vec,即Google開源的一款用于詞向量計算的工具、長短期記憶網(wǎng)絡(luò)(LSTM),通過大量的對比實驗,發(fā)現(xiàn)效果基本相當(dāng)。最后,京東商城自己編寫了最優(yōu)文本分類算法(BTC),實現(xiàn)了快速分類的效果,準(zhǔn)確率高達99%。
第五、多場景信息獲取
為了構(gòu)建完善的知識圖譜,用于搜索、商品控制、列表頁推薦、商家管理和對話系統(tǒng)等場景,在實現(xiàn)價格合規(guī)、圖文屬性的校驗,電商的短文本識別與類目自動識別后,還需要對多場景信息進行抽取,包括詳情頁OCR、客服聊天、用戶評論等信息。
詳情頁OCR。”我們在OCR里面做了很多探索,最初是用了CER(Contrasting Extremal Region)的方法,最近可能要使用物體檢測算法,結(jié)合CTC模型來分割識別。”鄭志彤說.
客服聊天。最初京東是做了一個Logistic回歸(LR)的分類,后來做了一些降維處理,再通過數(shù)據(jù)通信網(wǎng)絡(luò)(DCN)進行分類,降低了30%的錯誤率。
用戶評論。在京東商城中,有一些評論屬于無效信息,要進行清洗。還有一些星級評論評了一星,文本寫的是五星,所以星級評價是不準(zhǔn)確的。因此,京東商城通過語言模型,對評論進行關(guān)鍵詞的抽取與聚類,獲取頻次最高的短語以及評論內(nèi)容,同時,將意義不大的評論折疊在評論最后,使得用戶在購物時能看到真實有效的評論。
來源:36大數(shù)據(jù)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新