【金猿技術(shù)展】鏡像生成式神經(jīng)機(jī)器翻譯模型——MGNMT
原創(chuàng) 火山引擎 | 2021-01-06 21:07
【數(shù)據(jù)猿導(dǎo)讀】 該技術(shù)由火山引擎申報(bào)并參與“數(shù)據(jù)猿年度金猿策劃活動——2020大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新技術(shù)突破榜榜單及獎項(xiàng)”評選。

該技術(shù)由火山引擎申報(bào)并參與“數(shù)據(jù)猿年度金猿策劃活動——2020大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新技術(shù)突破榜榜單及獎項(xiàng)”評選。
背景和動機(jī):目前機(jī)器翻譯模型需要在大量的雙語平行數(shù)據(jù)上訓(xùn)練,從而得到不錯的性能。然而,在很多低資源的場景中,雙語平行數(shù)據(jù)是非常稀缺的,例如低資源的語向(如印地語-泰語)或低資源的領(lǐng)域場景(如社交網(wǎng)絡(luò)或小說)。在這樣的場景中,1)雙語平行數(shù)據(jù)非常珍貴,需要更高效地利用;2)由于雙語數(shù)據(jù)稀缺,如何能利用大規(guī)模的非平行的單語數(shù)據(jù)就非常重要。然而,目前的機(jī)器翻譯模型存在以下問題,阻礙了機(jī)器翻譯在上述低資源場景中的應(yīng)用:
目前機(jī)器翻譯模型將兩個方向分開進(jìn)行優(yōu)化,比如中文到英文和英文到中文是完全獨(dú)立的兩個模型。但是實(shí)際上,這兩個互為鏡像翻譯方向是高度相關(guān)的。如果能利用它們的相關(guān)性,可以讓它們在訓(xùn)練的時候相互促進(jìn)。
直覺上,如果你是中文和英文的 native speaker,你很自然地可以成為中英之間很好的 translator。語言模型可以從單語數(shù)據(jù)上學(xué)到豐富的單語知識(即 native speaker),而目前的機(jī)器翻譯模型沒有辦法直接地結(jié)合語言模型,因此不能夠利用到語言模型學(xué)到的單語知識。如果我們能讓翻譯模型和語言模型結(jié)合,它們就可以相互配合,在訓(xùn)練的時候可以利用單語數(shù)據(jù),在解碼的時候利用語言模型的單語知識。
因此,我們希望能有一個統(tǒng)一的模型,可以同時建模兩個翻譯方向的翻譯模型,以及兩個語言的語言模型,讓他們在訓(xùn)練和解碼的時候最大化對雙語數(shù)據(jù)和單語數(shù)據(jù)的有效利用。
應(yīng)用:MGNMT 通過鏡像生成方式,可以將兩個方向的翻譯融合到一個模型里面,互相促進(jìn)和提升,已經(jīng)廣泛應(yīng)用到火山翻譯項(xiàng)目中。
技術(shù)說明
1. 通過一個共享的隱變量,將兩個翻譯方向的翻譯模型和兩個語言的語言模型結(jié)合在同一個概率模型中。數(shù)學(xué)上非常優(yōu)雅,實(shí)踐中可以充分利用雙語平行數(shù)據(jù)和單語數(shù)據(jù)。
2. 兩個翻譯方向在訓(xùn)練的時候相互促進(jìn),帶來顯著提升。
訓(xùn)練時,通過隱變量建模了互為譯文的雙語數(shù)據(jù)的語義等價性,讓兩個翻譯方向的模型可以更好地利用雙語平行數(shù)據(jù);同時,通過隱變量作為中間橋梁,任意一方的單語數(shù)據(jù)都可以同時幫助到兩個翻譯方向的模型,從而也更好地利用了單語數(shù)據(jù)。
3. 語言模型和翻譯模型在解碼的時候相互協(xié)作,可以顯著提升翻譯質(zhì)量。
在解碼時,正向翻譯模型和目標(biāo)語言模型首先使用柱搜索(beam search)進(jìn)行協(xié)同解碼,得到多個候選譯文;隨后反向翻譯模型和源語言語言模型對候選譯文進(jìn)行排序,選擇出最忠實(shí)于原文語義的最佳譯文。
開發(fā)團(tuán)隊(duì)
●帶隊(duì)負(fù)責(zé)人:鄭在翔、周浩
鄭在翔,南京大學(xué)自然語言處理實(shí)驗(yàn)室在讀博士生,曾在英國愛丁堡大學(xué)自然語言處理組進(jìn)行一年的學(xué)術(shù)訪問,目前在字節(jié)跳動AI Lab 從事 NLP 研究。他的主要研究興趣為神經(jīng)機(jī)器翻譯、文本生成和深度生成模型,并以第一作者/主要作者在 ICLR、TACL、EMNLP、IJCAI、TASLP 等自然語言處理/機(jī)器學(xué)習(xí)的期刊會議上發(fā)表論文數(shù)篇。
周浩,字節(jié)跳動人工智能實(shí)驗(yàn)室研究員。周浩于2017年博士畢業(yè)于南京大學(xué),獲得南京大學(xué)優(yōu)秀博士論文和中國人工智能學(xué)會優(yōu)秀博士論文。他的研究方向包括機(jī)器學(xué)習(xí)及其在自然語言處理中的應(yīng)用。目前他主要關(guān)注將深度生成模型應(yīng)用在自然語言處理中,包括文本生成和深度文本表示學(xué)習(xí)。他曾多次擔(dān)任頂級會議的程序委員會成員,在相關(guān)會議包括ACL, EMNLP, NeurIPS, ICML和ICLR上發(fā)表論文40余篇,并多次在國內(nèi)外自然語言處理的頂級會議上做Tutorial報(bào)告。
●其他重要成員:鄭在翔、周浩、李磊
●隸屬機(jī)構(gòu):火山引擎
火山引擎是字節(jié)跳動旗下的數(shù)字服務(wù)與智能科技品牌,基于公司服務(wù)數(shù)億用戶的大數(shù)據(jù)、人工智能和基礎(chǔ)服務(wù)等技術(shù)能力,為企業(yè)提供系統(tǒng)化的全鏈路解決方案,助力企業(yè)務(wù)實(shí)地創(chuàng)新,給企業(yè)帶來持續(xù)、快速增長。
相關(guān)評價
ICLR 審稿意見滿分 (4.9%)
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1五大年度榜單&頒獎+產(chǎn)業(yè)圖譜+行業(yè)報(bào)告
-
2【金猿產(chǎn)品展】數(shù)字孿生城市智能運(yùn)營中心
-
3【金猿產(chǎn)品展】方云智能研發(fā)管理平臺——
-
4【金猿產(chǎn)品展】云從飛鳳機(jī)場業(yè)務(wù)應(yīng)用平臺
-
5開啟新篇章!CPG 2021:第六屆中國消費(fèi)
-
6安全服務(wù)與產(chǎn)品雙驅(qū)動,國舜股份完成數(shù)千
-
7【金猿投融展】及刻——用大數(shù)據(jù)為商業(yè)賦
-
8【金猿技術(shù)展】同盾科技知識聯(lián)邦技術(shù)——
-
9從產(chǎn)業(yè)圖譜看中國2020年數(shù)據(jù)智能行業(yè)的發(fā)
-
102020中國數(shù)據(jù)智能產(chǎn)業(yè)圖譜1.0版發(fā)布丨數(shù)