【金猿技術展】多語言預訓練框架——mRASP
原創(chuàng) 火山引擎 | 2021-01-09 17:09
【數據猿導讀】 該技術由火山引擎申報并參與“數據猿年度金猿策劃活動——2020大數據產業(yè)創(chuàng)新技術突破榜榜單及獎項”評選。

●問題
目前絕大多數AI 任務都是建立在數據的基礎之上的統(tǒng)計學習,模型的表現效果很大程度上依賴于數據的質量和數量。利用大量較易獲得的數據來預訓練模型,在具體應用場景再利用少量標注數據微調來實現實際場景可用的模型,已經成為NLP新的成功范式。不過,在多語言的機器翻譯中,通過預訓練再微調的范式還未取得普遍的成功。以前的NLP預訓練方式例如BERT、GPT訓練目標與翻譯關注的目標之間差距過大,不易直接使用。mRASP提出了全新的思路,利用多個語言已經積累的大量雙語平行語料,合并起來聯合訓練一個統(tǒng)一的模型,之后再基于此微調,讓預訓練和微調目標盡可能接近,這樣才能更大發(fā)揮預訓練模型作用。
●應用
mRASP模型支持通過預訓練技術、再在具體語種上微調,即可達到領先的翻譯效果,當前已應用于「火山翻譯」擴語種項目。
●技術優(yōu)勢
1. 通用性極強
a. 打破了資源場景的限制
不論平行雙語資源高低都能有提升。En->De wmt 2016測試集上達到了30.3 (tokenized BLEU), En->Fr wmt 2014測試集上達到了44.3 (tokenized BLEU)
b. 打破了語種的限制
任何語言的翻譯,無論是孟加拉語到古吉拉特語還是印地語到菲利賓語,基于mRASP 模型微調,新拓展的語種效果可期。即使是不包含在預訓練階段平行句對中的語向上微調,也能取得很大的提升。這類方向也稱作"Exotic Directions",在Exotic Directions上是否有效果,體現了 mRASP 是否具有很好的擴展性和泛化能力。
Exotic Directions分為四種情況:
1.Exotic Pair: 源語言和目標語言都經過了單獨的預訓練,但模型還沒有見過它們組成的雙語對;
2.Exotic Source: 模型在預訓練階段只見過目標端語言,源端語言完全沒見過;
3.Exotic Target: 模型在預訓練階段只見過源端語言,目標端語言完全沒見過;
4.Exotic Full: 模型在預訓練階段完全沒見過源端語言和目標端語言。
這四種未見語對情況下訓練機器翻譯都很難。當然其中難度最大的是最后一種,相當于要求只學習了中文和英語的人,讀少量拉丁語和印地語的句子就可以從拉丁語到印地語翻譯。
2. 模型簡單易復現,資源消耗低
僅使用了共1.1億對平行句對(由于同一對平行句對對兩個方向都適用,所以一共是2.2億個訓練樣本),詞表大小僅64k個bpe subword,相比于其它預訓練方法,動輒百億數據幾十層網絡,訓練難度更小,單機8卡不到一周在32個語言上就可以完成預訓練。當然在更多語言上的預訓練模型也可以簡單擴展獲得。
技術說明
mRASP 遵循了通用的預訓練-微調框架。預訓練階段,不同于傳統(tǒng)預訓練模型大量堆疊無監(jiān)督單語數據的方式,mRASP 另辟蹊徑,采用了多語言平行數據作為預訓練的主要目標,將幾十種語言的平行數據放到同一個模型進行聯合訓練。神經網絡結構采用Transformer,加上語言標識符(Language token)標識源語言和目標語言。為了保證不同語言的句子和詞語能嵌入到同一個空間,同一個意思的句子無論中文還是英文說得都應該是對應同一個向量表示,又引入了隨機替換對齊技術RAS,來制造更豐富的上下文。
●RAS:隨機替換對齊
一句中文的句子"我 愛 北京 天安門"中的"愛"有一定概率被替換成"aime"(法語),"北京"也有一定概率被替換成"Pékin"(法語),于是原句就可能會變成"我 aime Pékin 天安門"。訓練集中的一對平行句對可以變?yōu)閮蓪?甚至三對、四對,……):
我 愛 北京 天安門 ==> I love Beijing Tiananmen Square
我 aime Pékin 天安門 ==> I love Beijing Tiananmen Square
對模型來說,通過大量學習這樣的平行語料,它就會很自然地根據這種“人為制造”的“語境”學習到不同語言的同義詞之間的對應關系。實際上,這種基于平行詞典的隨機替換方法,拉近了不同語言的同義句在空間上的分布。在上例中,“愛”和"aime"(法語)計算出來的詞向量期望是盡可能接近的。
而在微調階段,只需要使用預訓練階段的參數作初始化,之后采用和傳統(tǒng)單向機器翻譯相同的訓練方法即可。因此使用mRASP并不需要掌握任何額外的技能。
開發(fā)團隊
●帶隊負責人:林澤輝、潘驍
林澤輝,2018年廈門大學本科畢業(yè),2018-2021年于復旦大學NLP組作為碩士生從事自然語言處理相關研究。2020年5月起作為實習生加入字節(jié)跳動,從事機器翻譯的研究。在實習期間,參加WMT機器翻譯大賽,并獲得德語->英語、德語->法語兩項第一;同時在自然語言處理頂級會議EMNLP上以一作發(fā)表一篇論文。
潘驍,2016年同濟大學本科畢業(yè),2016-2018年在法國巴黎高科高等電信學院攻讀工程師學位,2018年底加入字節(jié)跳動,初期負責英法翻譯模型的訓練,后來從事多語言翻譯相關研究,2020年參加WMT機器翻譯大賽,其參與的翻譯方向中,德語->英語、德語->法語兩項獲得第一。
●其他重要成員:林澤輝、潘驍、王明軒、封江濤、周浩、李磊
●隸屬機構:火山引擎
火山引擎是字節(jié)跳動旗下的數字服務與智能科技品牌,基于公司服務數億用戶的大數據、人工智能和基礎服務等技術能力,為企業(yè)提供系統(tǒng)化的全鏈路解決方案,助力企業(yè)務實地創(chuàng)新,給企業(yè)帶來持續(xù)、快速增長。
相關評價
所獲專利:一種翻譯模型的獲取方法、裝置、設備和存儲介質。
來源:數據猿
刷新相關文章
我要評論
活動推薦more >
- 2018 上海國際大數據產業(yè)高2018-12-03
- 2018上海國際計算機網絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術峰會2018”2018-06-14