【金猿技術(shù)展】文心ERNIE——基于知識增強的語義理解技術(shù)
原創(chuàng) 百度 | 2021-01-10 21:11
【數(shù)據(jù)猿導(dǎo)讀】 該技術(shù)由百度申報并參與“數(shù)據(jù)猿年度金猿策劃活動——2020大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新技術(shù)突破榜榜單及獎項”評選。

文心(ERNIE)是一個取得世界級突破的語義理解技術(shù)與平臺,依托百度的深度學習平臺飛槳打造,將機器理解語言的水平提升到新的高度,全面刷新了各項NLP任務(wù)的世界最好效果,取得了諸多權(quán)威語義評測比賽的世界冠軍。除語言理解外,提出的基于多流機制生成完整語義片段語言生成技術(shù)ERNIE-GEN、知識增強跨模態(tài)語義理解技術(shù)ERNIE-ViL等,均達到世界領(lǐng)先水平。
文心平臺基于領(lǐng)先的語義理解核心技術(shù),內(nèi)置百度自研業(yè)界效果領(lǐng)先的預(yù)訓(xùn)練模型集ERNIE和全面領(lǐng)先的算法集,將文本數(shù)據(jù)處理、基于深度學習的模型訓(xùn)練、模型評估和上線部署等NLP開發(fā)流程進行易用性封裝,為NLP開發(fā)者提供一整套效果領(lǐng)先、簡單易用、高效靈活的NLP模型開發(fā)服務(wù),文心平臺已廣泛應(yīng)用于金融、通信、教育、電商等行業(yè)。
技術(shù)說明
文心的核心技術(shù)優(yōu)勢在于,它開創(chuàng)性地將大數(shù)據(jù)預(yù)訓(xùn)練與多源豐富知識相結(jié)合,通過持續(xù)學習技術(shù),不斷吸收海量文本數(shù)據(jù)中詞匯、結(jié)構(gòu)、語義等方面的新知識,實現(xiàn)模型效果不斷進化,如同人類持續(xù)學習一樣。
文心在語言生成領(lǐng)域也取得突破,提出了業(yè)界首個基于多流機制生成完整語義片段的預(yù)訓(xùn)練語言生成技術(shù)ERNIE-GEN,該技術(shù)在各類語言生成任務(wù)上也顯著超越國際最好效果。
2020年7月,文心在多模態(tài)語義理解領(lǐng)域取得突破,提出了業(yè)界首個基于場景圖知識增強的多模態(tài)預(yù)訓(xùn)練模型ERNIE-ViL,在多項典型多模態(tài)任務(wù)上刷新世界最好效果。
自2019年3月誕生至今,文心已經(jīng)完成了3次重要迭代,并在多個公開權(quán)威語義評測中獲得了近十項世界冠軍。2019年12月,文心就在國際權(quán)威的通用語言理解評估基準 GLUE 上,首次突破90分,超過人類水平3個百分點,刷新榜單得分并獲得全球第一。2020年3月,在全球最大規(guī)模之一的語義評測 SemEval 2020上取得了5項世界冠軍。2020年7月,文心登頂視覺常識推理權(quán)威榜單 VCR。2020年7月9日,文心(ERNIE)獲世界人工智能大會(WAIC)最高獎項SAIL獎。
文心相關(guān)創(chuàng)新成果也被人工智能頂級學術(shù)會議 AAAI 2020和 IJCAI 2020收錄,并被全球頂級科技商業(yè)雜志《麻省理工科技評論》、德國光譜雜志,以及韓國 AITimes、日本 AI-SCHOLAR 等多國權(quán)威科技媒體官方報道。此次獲得 SAIL 獎,是對文心技術(shù)創(chuàng)新和應(yīng)用探索的再一次肯定。
開發(fā)團隊
●帶隊負責人:孫宇
●隸屬機構(gòu):百度
北京百度網(wǎng)訊科技有限公司是百度旗下公司,成立于2001年6月5日,公司人員規(guī)模為5000-9999人。
相關(guān)評價
百度預(yù)訓(xùn)練模型ERNIE超越微軟和谷歌獲得自然語言處理領(lǐng)域權(quán)威數(shù)據(jù)集GLUE最高分。GLUE測試的滿分為100分,人類的平均得分大概在87分左右,百度ERNIE則是在業(yè)界首次突破了90分。百度的成就能夠表明多樣化的貢獻參與將有助于推動人工智能研究。ERNIE采用了連續(xù)培訓(xùn)的方法,在培訓(xùn)新數(shù)據(jù)和新任務(wù)的同時又不會遺忘已經(jīng)積累的知識。如此,在不怎么需要人工干預(yù)的情況下,就能夠越來越好的執(zhí)行更廣泛的任務(wù)。
——全球頂級科技商業(yè)雜志《麻省理工科技評論》
2019年11月,ERNIE2.0論文《ERNIE 2.0: A Continual Pre-Training Framework for LanguageUnderstanding》被人工智能頂級會議AAAI錄用并被選為Oral展示。
2020年1月,推出首個基于多流(multi-flow)機制生成完整語義片段的預(yù)訓(xùn)練模型ERNIE-GEN,在摘要生成、問題生成、多輪問答等五個語言生成任務(wù)上刷新了SOTA效果。
2020年3月,在全球規(guī)模最大的語義評測比賽SemEval 2020中,ERNIE斬獲5項世界冠軍,囊括視覺媒體的關(guān)鍵文本片段挖掘、多語攻擊性語言檢測和混合語種的情感分析。
2020年4月,語言生成預(yù)訓(xùn)練模型ERNIE-GEN論文被人工智能頂級會議IJCAI錄用,在5個生成類任務(wù)上取得了SOTA效果。
2020年5月,基于知識增強的持續(xù)學習語義理解技術(shù)ERNIE榮獲《2020年度中國人工智能學會優(yōu)秀科技成果》。
2020年7月,發(fā)布ERNIE-ViL,首次將場景圖知識融入多模態(tài)預(yù)訓(xùn)練,刷新了5項多模態(tài)任務(wù)紀錄,并登頂權(quán)威榜單VCR。
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14