從學(xué)術(shù)角度論Uber的人工智能預(yù)測醉酒專利
【數(shù)據(jù)猿導(dǎo)讀】 Uber這套預(yù)測醉酒的人工智能專利模型,其架構(gòu)包括所需求的數(shù)據(jù)、算法和結(jié)果,數(shù)據(jù)方面主要包括用戶請求數(shù)據(jù)、用戶當(dāng)前活動(dòng)數(shù)據(jù)、用戶特征數(shù)據(jù)、行程特征等數(shù)據(jù)

近日公布的美國專利申請記錄顯示,Uber(優(yōu)步,類似滴滴打車)申請了一個(gè)非常有意思的專利,即用人工智能來識(shí)別醉酒乘客。Uber 申請的這項(xiàng)專利名為“Predicting User State Using Machine Learning”,即“以機(jī)器學(xué)習(xí)預(yù)測用戶狀態(tài)”,由 Uber 的信任和安全團(tuán)隊(duì)提交。在專利描述中,Uber稱他們將研發(fā)一個(gè)協(xié)調(diào)系統(tǒng),該系統(tǒng)使用關(guān)于過去在Uber上的行程和行為數(shù)據(jù)來訓(xùn)練計(jì)算機(jī)預(yù)測提交行程請求的用戶的狀態(tài)(原文提到:The system uses the data about past trips to train a computer model to predict a user state of a user submitting a trip request)。
簡單來說,Uber會(huì)根據(jù)用戶使用 Uber App 的方式來識(shí)別異常行為,預(yù)測用戶是否處于醉酒(不清醒)狀態(tài)。比如,假設(shè)周末的凌晨 1 點(diǎn),你站在酒吧街區(qū)域打車,輸入目的地時(shí)緩慢且多次出錯(cuò),跟平常工作日的雷厲風(fēng)行完全不一樣,那么系統(tǒng)將可以判定你處于不清醒狀態(tài)。
當(dāng)Uber的這套系統(tǒng)識(shí)別出“不清醒狀態(tài)”,這個(gè)系統(tǒng)將因此調(diào)整 Uber 所提供的服務(wù)。比如為這些用戶安排經(jīng)過培訓(xùn)、有相關(guān)經(jīng)驗(yàn)的司機(jī),并提前告知司機(jī)乘客的狀態(tài)。另外,還可以將上下車地點(diǎn)改在光線較足的地方,并關(guān)閉拼車功能保證安全等。而Uber在專利描述中稱,希望通過這個(gè)系統(tǒng),可以減少人身安全或嘴角、沖突等讓人不快的乘車體驗(yàn)。但這個(gè)模型如果使用不當(dāng),也會(huì)產(chǎn)生負(fù)面的影響,其中一個(gè)擔(dān)心是人工智能可能會(huì)被部分居心叵測的司機(jī)所利用。
數(shù)據(jù)顯示,過去 4 年里在美國至少有 103 名 Uber 司機(jī)被指控對(duì)乘客進(jìn)行性侵犯,其中不少受害者就是在醉酒情況下乘車的。目前,這項(xiàng)專利還未投入使用。
本文不打算從倫理道德來分析這個(gè)專利的影響,畢竟這個(gè)專利還沒有正式投入使用,本文只是從學(xué)術(shù)角度來研究模型實(shí)現(xiàn)的原理。下圖是整個(gè)模型的架構(gòu),包括所需求的數(shù)據(jù)、算法和結(jié)果。
模型整體的架構(gòu)如下:當(dāng)用戶輸入信息將乘坐請求(Request data,圖中1)生成到用戶設(shè)備(即手機(jī))中時(shí),系統(tǒng)同時(shí)收集關(guān)于用戶設(shè)備上的用戶活動(dòng)的信息(Current User Activity Data,圖中2),系統(tǒng)同時(shí)同步已經(jīng)自動(dòng)生成好的用戶畫像數(shù)據(jù)(User Profile,圖中3)?;A(chǔ)數(shù)據(jù)準(zhǔn)好了以后,并進(jìn)入特征工程模塊,即系統(tǒng)會(huì)基于數(shù)據(jù)用戶畫像數(shù)據(jù)(圖中3)和當(dāng)前用戶活動(dòng)數(shù)據(jù)(圖中2)構(gòu)建用戶特征數(shù)據(jù)(圖中4),同時(shí)實(shí)時(shí)收集行程特征數(shù)據(jù)(Trip Features,圖中5)。用戶特征數(shù)據(jù)和行程特征數(shù)據(jù)是特征工程中重要的兩類模型輸入(Input)。
我們重點(diǎn)分析重要的數(shù)據(jù)源:
1、“用戶請求數(shù)據(jù)”和“用戶當(dāng)前活動(dòng)數(shù)據(jù)”。“用戶請求數(shù)據(jù)”是指用戶在uber的個(gè)中使用請求數(shù)據(jù),這些數(shù)據(jù)生成“用戶當(dāng)前活動(dòng)數(shù)據(jù)”。“用戶當(dāng)前活動(dòng)數(shù)據(jù)”指用戶對(duì)手機(jī)用戶設(shè)備的輸入,以及用戶設(shè)備本身的移動(dòng)行為。用戶當(dāng)前活動(dòng)數(shù)據(jù)可以包括設(shè)備處理特性、接口交互特性和文本輸入特性數(shù)據(jù)。這些數(shù)據(jù)可能會(huì)通過手機(jī)中的運(yùn)動(dòng)傳感器、設(shè)備角度傳感器、GPS和內(nèi)置在屏幕中的觸摸傳感器等方式來收集。如設(shè)備處理特性數(shù)據(jù),包括用戶在請求提交時(shí)或接近該請求時(shí)的速度、用戶在請求時(shí)保持用戶設(shè)備的角度、設(shè)備移動(dòng)速度。文本輸入特性數(shù)據(jù)如用戶輸入文本的準(zhǔn)確性、選擇搜索結(jié)果之前被刪除的字符數(shù)等行為數(shù)據(jù)。接口交互特性數(shù)據(jù)如在生成uber行程單請求時(shí),用戶可以與多個(gè)用戶界面交互,例如設(shè)置行程的起始點(diǎn)位置、選擇行程的設(shè)置、輸入搜索字符串以確定行程的目的地等等;系統(tǒng)會(huì)采集用戶與這些接口交互的速度(例如,在特定輸入屏幕上的平均時(shí)間、交互之間的時(shí)間),以及用戶與搜索查詢接口的交互速度。
2、“用戶特征數(shù)據(jù)”,通過統(tǒng)計(jì)和分析“用戶畫像數(shù)據(jù)”和“當(dāng)前用戶活動(dòng)數(shù)據(jù)”而得來。“用戶特征數(shù)據(jù)”是特征工程的一個(gè)重要部分,目標(biāo)是構(gòu)建更有預(yù)測能力的變量。比如文本輸入速度以及文本輸入速度的變化率、用戶平均步行速度以及用戶平均步行速度的變化率、點(diǎn)擊行為速度和點(diǎn)擊行為速度的變化率等等。例如,用戶平均步行速度是指在過去的一段時(shí)間內(nèi)步行速度的平均值;而用戶平均步行速度的變化率,是指用戶在當(dāng)前一段時(shí)間內(nèi)的速度與用戶在過去一段時(shí)間內(nèi)的平均步行速度的比值。
3、“行程特征數(shù)據(jù)”。“行程特征數(shù)據(jù)”是從用戶請求數(shù)據(jù)提取出行特征的數(shù)據(jù),例如與請求的位置、地理和時(shí)間特征。行程特征可以包括用戶位置、天氣狀況、一天的時(shí)間和請求提交是在星期幾。某些行程特征由系統(tǒng)確定,而不是由請求數(shù)據(jù)確定,例如時(shí)間和星期幾、天氣條件等。
“用戶特征數(shù)據(jù)”和“行程特征數(shù)據(jù)”都是特征工程的兩類重要數(shù)據(jù)。特征工程中,構(gòu)建這兩類數(shù)據(jù)目標(biāo)是構(gòu)建更有預(yù)測能力的變量。我們利用這兩類數(shù)據(jù)的歷史數(shù)據(jù),通過監(jiān)督機(jī)器學(xué)習(xí)模型來對(duì)數(shù)據(jù)訓(xùn)練建模。所謂監(jiān)管學(xué)習(xí)就是給定一組學(xué)習(xí)樣本,每個(gè)樣本都有一組屬性和一個(gè)類別,這些類別是事先確定的,那么通過學(xué)習(xí)得到一個(gè)分類器,這個(gè)分類器能夠?qū)π鲁霈F(xiàn)的對(duì)象給出正確的分類,這樣的機(jī)器學(xué)習(xí)就被稱之為監(jiān)督學(xué)習(xí)。
Uber的專利中提到核心算法主要是分類算法如決策樹、支持向量機(jī)或神經(jīng)網(wǎng)絡(luò)。用戶狀態(tài)預(yù)測模型一旦建立了并通過相關(guān)的模型檢驗(yàn)后,即可以對(duì)實(shí)時(shí)的用戶數(shù)據(jù)進(jìn)行分析,并利用模型預(yù)測用戶的狀態(tài)是否為“清醒”狀態(tài)。
由于篇幅關(guān)系,本文對(duì)Uber專利提到的三個(gè)算法進(jìn)行原理性的介紹:
1、決策樹(decision tree)是一類常見的機(jī)器學(xué)習(xí)方法,目的是為了產(chǎn)生一棵泛化能力強(qiáng),即處理未見示例能力強(qiáng)的決策樹。決策樹學(xué)習(xí)是采用自頂向下的遞歸方法,其基本思想是以信息熵為度量構(gòu)造一棵熵值下降最快的樹;
2、支持向量機(jī)。支持向量機(jī)(Support Vector Machine,SVM)是一個(gè)常見的分類器,核心思路是通過構(gòu)造分割面將數(shù)據(jù)進(jìn)行分離,一個(gè)支持向量機(jī)構(gòu)造一個(gè)超平面,或在高或無限維空間,其可以用于分類;
3、神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的作用本質(zhì)上也是一個(gè)分類器,人工神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。人工神經(jīng)網(wǎng)絡(luò)由大量的節(jié)點(diǎn)(或稱神經(jīng)元)之間相互聯(lián)接構(gòu)成,每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激勵(lì)函數(shù)(activation function)。每兩個(gè)節(jié)點(diǎn)間的連接都代表一個(gè)對(duì)于通過該連接信號(hào)的加權(quán)值,稱之為權(quán)重,這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。目前神經(jīng)網(wǎng)絡(luò)算法已經(jīng)有幾十種,最近流行的深度學(xué)習(xí)也屬于神經(jīng)網(wǎng)絡(luò)的發(fā)展方向。
我們用一個(gè)簡單的示例來更直觀的闡述上述過程。在uber的專利文獻(xiàn)中提到一個(gè)例子,見以下表“用戶狀態(tài)預(yù)測模型數(shù)據(jù)示例”。
表格中,每一行代表一條用戶記錄數(shù)據(jù)。第一列是加密后的用戶ID,用來唯一區(qū)分每個(gè)用戶。第二列至第六列是用戶特征數(shù)據(jù)(User Features),包括用戶文本的輸入精度、用戶數(shù)據(jù)輸入速度、按鈕點(diǎn)擊行為、設(shè)備的角度、步行速度。第七至第八列是“行程特征數(shù)據(jù)(Trip Features)”,包括位置、時(shí)間和星期。值得大家注意的是,用戶特征數(shù)據(jù)和行程特征數(shù)據(jù)只是列了部分變量,并沒有列全,只是為了舉例方便。最后一列“異常狀態(tài)識(shí)別”是通過模型預(yù)測的用戶異常狀態(tài),1代表異常,0代表正常。正如上文提到,用戶的“異常狀態(tài)預(yù)識(shí)別”是通過基于用戶特征數(shù)據(jù)(User Features)和行程特征數(shù)據(jù)(Trip Features)進(jìn)行訓(xùn)練,通過有監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)算法(上文提到的三種算法),建立“用戶狀態(tài)識(shí)別預(yù)測模型”計(jì)算得出。
從預(yù)測結(jié)果我們可以看到,第一列用戶(用戶ID為28HQ5)為預(yù)測為異常用戶,即醉酒的可能性很大。第二列用戶(用戶ID為B24L9)為預(yù)測正常用戶。這兩位用戶的差異在于數(shù)據(jù)輸入精準(zhǔn)度(異常用戶精準(zhǔn)度更低)、按鈕點(diǎn)擊次數(shù)(異常用戶點(diǎn)擊次數(shù)更多)、設(shè)備角度(異常用戶角度更傾斜)、位置的差異、時(shí)間(異常用戶在凌晨兩點(diǎn)多打車)、星期的差異(異常用戶在周末)。從典型的用戶分析也能看到正常和異常用戶的用戶特征數(shù)據(jù)和行程特征數(shù)據(jù)有顯著的差異。
Uber通過其APP收集到的數(shù)據(jù),利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的是否處于醉酒狀態(tài)的預(yù)測,在其他領(lǐng)域也有非常多的應(yīng)用場景,包括保險(xiǎn)、交通安全、金融、安防等領(lǐng)域。在保險(xiǎn)領(lǐng)域,如果我們了解到某個(gè)用戶經(jīng)常酗酒,那么該用戶很可能出險(xiǎn)的概率就高,對(duì)于保險(xiǎn)公司來說,并不是最優(yōu)質(zhì)的客戶;在交通安全領(lǐng)域,暢想一下,相關(guān)的交通管理機(jī)構(gòu)聯(lián)合大型互聯(lián)網(wǎng)企業(yè)做用戶不清醒狀態(tài)的預(yù)測,如果某用戶醉酒的可能性很大,那么可以通過互聯(lián)網(wǎng)應(yīng)用來提醒該用戶酒后不要駕駛;在金融領(lǐng)域,以小額貸款為例,如果發(fā)現(xiàn)某個(gè)用戶老是醉酒,其征信得分應(yīng)該有所降低,貸款審核也應(yīng)該更加慎重。
參考專利文獻(xiàn):
Predicting User State Using MachineLearning,Poeppel; Scott; (Pittsburgh, PA) ; Letwin; Nicholas G.; (Pittsburgh,PA) ; Kelly; Sean J.; (Pittsburgh, PA), Uber Technologies, Inc
專利文獻(xiàn)鏈接:
http://appft.uspto.gov/netacgi/nph-Parser Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.html&r=3&p=1&f=G&l=50&d=PG01&S1=uber.AANM.&OS=aanm/uber&RS=AANM/uber
關(guān)于作者
傅志華,數(shù)據(jù)猿專欄專家,中國信息協(xié)會(huì)大數(shù)據(jù)分會(huì)理事,北京航空航天大學(xué)軟件學(xué)院大數(shù)據(jù)專業(yè)特聘教授,中科院管理學(xué)院MBA企業(yè)導(dǎo)師、首都經(jīng)貿(mào)大學(xué)統(tǒng)計(jì)學(xué)兼職教授、研究生導(dǎo)師。曾為360公司大數(shù)據(jù)中心總經(jīng)理以及騰訊社交網(wǎng)絡(luò)事業(yè)群數(shù)據(jù)中心總監(jiān)以及騰訊公司數(shù)據(jù)協(xié)會(huì)會(huì)長,在騰訊前為互聯(lián)網(wǎng)數(shù)據(jù)分析公司DCCI互聯(lián)網(wǎng)數(shù)據(jù)中心副總裁。目前任龍湖集團(tuán)AI研究院總負(fù)責(zé)人。
注:投稿請發(fā)送郵箱至tougao@datayuan.cn
來源:數(shù)據(jù)猿
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新