三角獸CTO亓超:AI&人機對話系統(tǒng)應用實踐
原創(chuàng) 亓超 | 2017-06-05 15:13
【數(shù)據(jù)猿導讀】 從目前來看,人工智能毫無疑問是目前科技領域中最火的話題,而人機對話作為人工智能的重要部分也備受關注。但與很多人的認知不同的是,人機對話并不是最近才有的新鮮概念,而是源于計算機初創(chuàng)時期的構想,之所以沒有廣泛的應用于眾多產(chǎn)品中最主要的原因是受包括語音、自然語言理解等在內...

數(shù)據(jù)猿線上公開課是由數(shù)據(jù)猿主辦,每期邀請一位大數(shù)據(jù)領域的實戰(zhàn)專家,分享大數(shù)據(jù)技術在各個產(chǎn)業(yè)中的最新應用,旨在搭建一個深度學習和交流的平臺。
本期邀請到的嘉賓是三角獸的CTO亓超,本期主題《AI&人機對話系統(tǒng)》。亓超——AI領域開放域聊天和chatbot頂尖專家,10年科研與工程經(jīng)驗。曾在佳能、騰訊、阿里,微軟及百度負責推薦算法和人機對話系統(tǒng)研發(fā)。2014年微軟小冰開放域聊天技術創(chuàng)始人,百度T8Lead,度秘聊天技術負責人,從零開始搭建微軟小冰和百度度秘人機交互系統(tǒng)。
以下為本期課程精華內容整理:
從目前來看,人工智能毫無疑問是目前科技領域中最火的話題,而人機對話作為人工智能的重要部分也備受關注。但與很多人的認知不同的是,人機對話并不是最近才有的新鮮概念,而是源于計算機初創(chuàng)時期的構想,之所以沒有廣泛的應用于眾多產(chǎn)品中最主要的原因是受包括語音、自然語言理解等在內的技術限制。
從人機對話最早被提出到現(xiàn)在,其發(fā)展經(jīng)歷了幾個階段:首先是2010年左右,由于語音技術實現(xiàn)了快速發(fā)展,涌現(xiàn)出了包括Siri在內的眾多語音軟件,而語音交互產(chǎn)品也迎來了第一個發(fā)展波峰。
但隨后由于用戶體驗差等原因行業(yè)又迎來了一輪低峰期,也造成了用戶對Siri等產(chǎn)品的粘性降低。之后隨著新的技術的發(fā)展升級以及更多數(shù)據(jù)的使用,人機對話又重新引起了人們的興趣,特別是AlphaGo與人類對戰(zhàn)之后,市面上隨后出現(xiàn)了小冰、度秘等產(chǎn)品,各大公司也紛紛推出了自己的Bot,比如亞馬遜推出的Echo,F(xiàn)acebook的Messenger等。
綜合來看,我們可以明顯看到人機對話作為一個技術驅動的行業(yè),其發(fā)展過程也與相關技術發(fā)展休戚相關。雖然經(jīng)歷了一些起伏,但總體還是朝著一個平穩(wěn)快速的方向發(fā)展。
目前來說,一個成熟的人機對話系統(tǒng)通常會包括三個部分:第一,聊天部分,類似于朋友間的信息分享;第二,服務或信息獲取,類似于用戶通過搜索引擎尋找自己需要的信息,比如訂票等;第三,主動推送,這也是機器“智能”的一個重要表現(xiàn),機器不能只是被動接受指令,也需要在合適的場景下有一些主動的行為。
從技術上來說,這三部分所涉及的主要是開放域聊天、任務驅動的多輪對話、中控決策三項核心技術。
所謂的開放域聊天就是不局限話題的聊天,即在用戶的 query 沒用明確的信息或服務獲取需求時系統(tǒng)做出的回應。開放域聊天在現(xiàn)有的人機對話系統(tǒng)中,主要起到拉近距離,建立信任關系,情感陪伴,順滑對話過程(例如在任務類對話無法滿足用戶需求時)和提高用戶粘性的作用。
任務驅動的多輪對話是用戶帶著明確的目的而來,希望得到滿足特定限制條件的信息或服務,例如:訂餐,訂票,尋找音樂、電影或某種商品,等等。因為用戶的需求可以比較復雜,可能需要分多輪進行陳述,用戶也可能在對話過程中不斷修改或完善自己的需求。此外,當用戶的陳述的需求不夠具體或明確的時候,機器也可以通過詢問、澄清或確認來幫助用戶找到滿意的結果。
中控決策,是由于線下需要對接的服務偏多的情況下,會形成一些需要決策的問題,比如當用戶提出一個詞“蘋果”時,機器到底是提供《蘋果》的電影服務還是提供水果電商購買服務或者蘋果手機的購買或者新聞服務,這就需要一個決策的管理系統(tǒng)根據(jù)上下文作出回答。
從更具體的技術角度來說,對話系統(tǒng)作為NLP(自然語言處理)的一個重要出口,集成了眾多技術,如圖一中最底層(第一層)是對話技術所倚賴的基礎技術,比如深度學習,是為了在表示好一句話的同時讓機器更好的理解;增強學習是在考慮到對話也是一個博弈的過程,需要動態(tài)調節(jié)、策略以及數(shù)據(jù)模型的需求;自然語言處理部分,由于中文沒有英文那么嚴謹?shù)恼Z法結構,尤其是在口語過程中,因此目前的NLP目前不會做深層的句法分析;
語義部分,就是話語本身代表的意義,比如用戶發(fā)出一個訂火車票的需求,機器就需要做兩件事情,第一是意圖的分析,第二是關鍵詞提取;信息檢索,對于無法結構化呈現(xiàn)的數(shù)據(jù)進行重排序;數(shù)據(jù)挖掘,很多數(shù)據(jù)都是純文本形式,假如要從電影的評論里提取電影的標簽來用于線上理解,那么線下就需要把這些數(shù)據(jù)變成結構化、半結構化的數(shù)據(jù)或者用深層的語義將其變成可以匹配的向量。
第二層是對話里的子模塊,是由最底層技術里的某幾部分組合而成。
語義理解(NLU),需要結合語義分析、自然語言處理等技術組合而成;決策過程,機器會參考用戶的歷史選擇以及當前的選擇偏好進行決策;
推薦系統(tǒng),機器會根據(jù)用戶以往感興趣的話題或其他內容進行對話,使對話過程持續(xù)下去;
知識庫,數(shù)據(jù)的支持建設;邏輯推理,目前機器都是根據(jù)知識庫的儲備進行推理,更深層的邏輯推理還停留在學術階段;
語料分類、標簽,除了尋求解決方法的類似性之外還會對用戶、問題、企業(yè)等進行分類處理方便后期推薦、排序;
情感分析,受益于自然語言理解技術的快速發(fā)展,情感分析不再局限于關鍵詞,而是根據(jù)語義分析挖掘出文本的淺層意義。
第三層是由技術的子模塊組成的子系統(tǒng),這些系統(tǒng)可以獨立或者存在于一些更大的系統(tǒng)里提供服務。
第四層和最后一層是對話系統(tǒng)對外提供API服務的封裝。
對話系統(tǒng)所涉及到的技術眾多,各項技術的發(fā)展也不一而足,那如何去評估一個對話系統(tǒng)就是一個值得關注的問題了。
根據(jù)對話系統(tǒng)的類型不同,具體的評估標準也會有所差異。對于聊天對話系統(tǒng)來說,單輪相關度、整體滿意度和用戶活躍度是其評估的三個主要標準;任務驅動的對話系統(tǒng)則是以意圖識別、語義解析、Policy策略和自然語言生成四部分為評估標準。
技術的發(fā)展最終需要走向落地應用,這樣其作用才會得到最大程度的發(fā)揮。目前三角獸依托自身對話系統(tǒng)方面的技術積累,已經(jīng)通過與To B類企業(yè)合作探索了不同領域的應用:
首先,企業(yè)服務領域,利用Bot應用提升獲取信息和獲取服務的用戶體驗,為企業(yè)增加用戶粘性、提高品牌和市場運營效率,主要應用在互聯(lián)網(wǎng)企業(yè)、傳統(tǒng)企業(yè)網(wǎng)站、媒體、金融。
Bot應用目前可以應用在兩個地方,第一種是針對企業(yè)微信、微博、官網(wǎng)和App,將語義技術植入到現(xiàn)有場景中,讓機器人擁有交互的功能。比如Bot應用接入App,光明網(wǎng)App在兩會期間推出的AI機器人小明就是由三角獸打造的。騰訊應用寶商店的App做成Bot也有三角獸支持。
第二種是用于企業(yè)售前和售后的智能客服,上文提到的和新世界集團的合作,是三角獸為新世界集團提供售前的導購助手,顧客可以問機器人較為復雜的問題,例如:我應該買個什么樣的生日禮物?這里有沒有適合兒童吃的東西?滿足用戶多元化需求。
其次,IOT,智能終端領域,是目前大家最好理解的一塊,相當于為智能硬件裝上大腦,讓機器聽懂人話并作出,滿足用戶直接和潛在的需求,提供陪伴、信息和服務。主要應用在智能家居、智能車載、智能手機、智能機器人、智能音箱方面。
比如前幾天新發(fā)布的錘子堅果Pro手機搭載的BigBang 功能和智能語義拖拽功能都使用了三角獸的語義技術。
另外三角獸針對垂直領域多輪對話的能力也輸出給了眾多客戶,比如聊天和音樂輸出給耳機、音箱,電影和問答輸出給智能電視,音樂和導航輸出給車載市場等等。
最后,泛娛樂,例如模仿人物性格,賦予游戲、動漫角色、虛擬偶像“生命”,以及明星偶像的機器“分身”,每個粉絲都能可以隨時與喜歡的角色互動。我們?yōu)镴IBO機器人做的中文系統(tǒng),就是打造了一個年輕的、邪萌的男性風格。
申請數(shù)據(jù)猿線上課程講師,可聯(lián)系Susie:15083112127(手機/微信)
來源:數(shù)據(jù)猿
刷新相關文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風險感知
-
7#榜樣的力量#內蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構建工業(yè)互聯(lián)網(wǎng)新