機器學習引領智慧金融,變革萬億規(guī)模實時支付風控模式
【數據猿導讀】 隨著我國銀行業(yè)全面開放和深化改革,互聯(lián)網金融的不斷發(fā)展以及電子銀行、手機銀行交易系統(tǒng)的全面鋪開,與這些全新業(yè)務模式相伴而生的欺詐風險也在頻繁發(fā)生。各類跨業(yè)務、跨條線的欺詐風險更是層出不窮。

本文為數據猿推出的“金融科技價值—數據驅動金融商業(yè)裂變”大型主題策劃活動(查看詳情)第一部分的文章/案例/產品征集部分;感謝 亞信數據 的投稿
來源:數據猿 作者:於今 常劍
隨著我國銀行業(yè)全面開放和深化改革,互聯(lián)網金融的不斷發(fā)展以及電子銀行、手機銀行交易系統(tǒng)的全面鋪開,伴隨這些全新業(yè)務模式而生的欺詐風險也在頻繁發(fā)生。各類跨業(yè)務、跨條線的欺詐風險更是層出不窮。這些欺詐問題,對銀行社會聲譽以及用戶財產安全都造成嚴重威脅。隨著大數據、云計算等技術的發(fā)展,也給金融領域各類新形態(tài)欺詐問題的解決帶來了新思路。
1、支付風控問題與現(xiàn)狀
金融行業(yè)經營是風險,只不過它往往以貨幣或者錢的形態(tài)表現(xiàn)出來。金融的本質就是對于風險的管理,其中比較重要的風險包括:市場風險、信用風險、操作風險、法律政策風險等等。金融業(yè)發(fā)展的歷程也是對于風險管理不斷明確深化的過程,著名的巴賽爾框架就是對金融風險管理方法和最佳實踐的系統(tǒng)性的總結??蚣苤袑鹑谛袠I(yè)方方面面的風險管理,都進行了一定程度的規(guī)范和量化。我國的銀行金融業(yè)也在央行的要求下,正在全面深化和落實巴塞爾風險管理框架。
隨著整個銀行支付網絡的電子化、全球化、移動化發(fā)展,支付中的欺詐風險也在不斷提高。請設想如下情景:我們有一位中國的持卡人,他的太太早上在網上用他的這張信用卡,支付了他家庭當月的電費。他們的孩子在美國求學,課余時間用這張信用卡的副卡在平板電腦上購買了一款游戲。而這位中國的持卡人是位商務人士,他正在澳洲出差,中午他在澳洲的一家飯店的POS機上用信用卡支付了午餐費用。面對這樣豐富的全球化支付場景,銀行面臨著一方面要盡量保護持卡人的賬戶資產不受損失,另一方面還要讓整個支付流程順暢進行,這樣一個兩難的挑戰(zhàn)。
技術挑戰(zhàn)與金融大數據
如何能精確判定哪些支付行為是合法的、哪些是金融欺詐行為,一直是個充滿挑戰(zhàn)的技術問題。眾所周知的信用卡盜刷犯罪,就是非常高發(fā)的一種金融欺詐形式,這類犯罪每年給持卡人和銀行造成的損失都非常大。欺詐行為是人類的發(fā)展過程一直存在的問題,而且欺詐者也對其金融欺詐的模式進行不斷演進。反欺詐檢測這個工作難做,大致有以下三方面的原因:
首先,消費者和欺詐者這兩方面的行為模式都變化很快。隨著互聯(lián)網和電子商務各種創(chuàng)新業(yè)務模式的發(fā)展,每天都有各種新的消費形式和消費渠道涌現(xiàn)。消費者正常的消費行為已經很難被簡單描述出來。與此同時,欺詐者也會根據這些新的發(fā)展,不斷改變調整自己的行為模式,已到達逃避檢查和規(guī)避法律制裁的目的。
其次,確切而完整的欺詐案件數據相比浩如煙海的正常消費數據來說非常少。這也有兩方面的原因,一方面,之前我國銀行對反欺詐工作的重要性可能認識不足,而且也沒有很好的系統(tǒng)來輔助支持這些欺詐案件信息的完整入庫;另一方面,很多人受到了欺詐行為的侵害而本身卻毫不知情。受害者可能是收到信用卡對賬單時,才知道有盜刷的交易存在。這也就造成了銀行方面很難及時發(fā)現(xiàn)一些新的欺詐問題的苗頭。我們還應該看到,想要真正完整確認一起欺詐案件,往往還是需要專業(yè)人員進行細致的線下調查,很多時候還需要和公安部門進行配合,這樣的成本往往很高。綜上這幾點原因,如何有效進行反欺詐檢測是一個復雜的、系統(tǒng)性的、富有挑戰(zhàn)性的問題。
與此同時,我們也要看到,在現(xiàn)代的支付環(huán)境下,金融欺詐檢測問題本質是一個大數據的問題。支付網絡的節(jié)點數往往是千萬甚至億級別的,整個支付流程所觸達的分布式系統(tǒng)更是數不勝數。每一個節(jié)點和系統(tǒng)都會不停地產生大量的數據。以一個比較著名的第三方支付平臺Paypal為例,每年Paypal平臺要處理50億筆支付請求,每秒鐘峰值達到300筆。全球有250萬個開發(fā)者,在利用Paypal平臺提供自身應用所需要的支付功能。Paypal的數據平臺所儲存的數據也到達42個PB。這樣的龐大數據量和支付場景實時性要求,顯然需要強有力的大數據平臺軟件和硬件的支持。
2、數據驅動的支付欺詐檢測
數據驅動模式想要成功要有三個必要的因素:
l )要強而有力地進行特征工程,提取和欺詐行為相關的特征因子,并輔以有效的機器學習算法和統(tǒng)計模型。
2) 要有高性能和高可延展性的大數據軟硬件平臺,以便在大數據環(huán)境下實現(xiàn)相關計算和模型算法。
3) 要有一個優(yōu)秀的團隊,團隊的組成包括數據科學家、大數據工程師、已經熟悉反欺詐實務的分析員和業(yè)務專家,大家共同配合才能做好這個事情。
除了上述三點之外,數據驅動方式最重要的因素顯然就是要有大量的數據,以支撐機器學習模型機建立的需要。
銀行產業(yè)數據的特點
在亞信提出的產業(yè)互聯(lián)的大背景下,每個行業(yè)都有其獨特而不可取代的核心數據,像銀行這樣關系國計民生的命脈行業(yè)更是如此。具體來說,銀行要掌握以下四大類核心信息:
首先,銀行非常了解他的客戶,特別是有貸款業(yè)務的客戶,銀行往往進行過非常詳細縝密的背景調查,其所掌握的客戶信息非常完整。
其次,銀行掌握整個金融網路中每一個賬戶的動態(tài),任何賬戶之間的資金流轉都在銀行嚴格的監(jiān)理之下進行。
第三,銀行掌握客戶的每一個交互操作,從賬戶余額查詢到賬戶密碼的更改、各種權限的設置,銀行都會一一記錄掌握。
最后也是最重要的,銀行了解每一個支付交易的支付場景,大到數額客觀的客戶投資,小到手機充值繳費,銀行了解每一筆支付的情景和詳細的上下文信息。這些銀行的核心信息,為廣泛提取風險行為特征提供了堅實的基礎。
圖1:風控模型系統(tǒng)架構
機器學習風控模型的系統(tǒng)架構
圖1展示了機器學習建模的系統(tǒng)架構和信息流程。圖左半部分是實時模型決策部分。它主要包含了特征服務,模型服務,和決策引擎三個部分。特征服務提取實時交易報文中的關鍵信息,產生實時的風險特征。
模型服務中包含已經訓練好的反欺詐預測模型,模型會使用特征服務提供的實時特征,以及離線分析系統(tǒng)利用歷史信息所提取的離線風險特征。這些離線特征是利用長時間周期數據計算而成的,往往包含用戶長期的行為信息。模型服務會對每一筆交易都做出欺詐風險預測。模型服務的預測結果會輸出到決策引擎,決策引擎會進行進一步的量化評分,以便觸發(fā)相應的風控動作,這一部分我會在后面更詳細的加以介紹。
在看到圖的右半部分,實時信息通過分布式的日志系統(tǒng)和大數據流處理平臺被積累到離線的數據平臺上,當然這些實時信息也會被用于實時監(jiān)測以了解整個系統(tǒng)運行的情況分析和建模系統(tǒng)利用離線數據平臺中的數據,進行特征的提取和模型的迭代訓練。模型迭代的頻率一般是每天一次。除了利用新獲取的信息訓練模型之外,模型迭代過程中的重要一步就是要對模型進行歷史數據的回測。通過數據了解模型的準確度,掌握可能得問題,以便進一步的調優(yōu)。這個過程需要用歷史數據大量的進行仿真回測,只有滿足系統(tǒng)性能要求的模型才會被推送到實時的生產系統(tǒng)中進行使用。
圖2:機器學習建模流程
圖2描述了利用機器學習進行建模的一般流程。首先,我們要對現(xiàn)有數據進行梳理和清洗。然后利用各種適當的統(tǒng)計計算方法,大量廣泛的提取和預測目標相關的特征信息。之后,再利用系統(tǒng)性的方法來對提取的特征進行進一步的篩選。經過這樣一個過程之后,準備好的數據特征就可以輸出到適當的機器學習算法中去進行模型訓練。訓練模型的時候,根據數據測試的效果,還要對一些先驗性的模型參數進行調整,使模型的預測性能到達最優(yōu)。最后,經過調優(yōu)的模型就可以用到生產系統(tǒng)去進行使用。當然,如果有新的數據或者新的特征提取思路,我們可以快速重復和迭代整個過程,不斷改進現(xiàn)有的模型。
數據探索與特征工程
數據處理流程中重要的第一步是對現(xiàn)有數據進行清洗和梳理?,F(xiàn)實中的數據往往不是完美的,而且不同類型的數據也有其自身特有的特征。比如,很多現(xiàn)實數庫中的記錄并不完整或者不準確,會出現(xiàn)漏填、錯填的情況,清洗時要選擇合適方法進行適當的補全或者更正。很多數據集本身是傾斜而不均勻的,比如在反欺詐中,好樣本的數量要遠遠多于壞樣本,經濟發(fā)達地區(qū)的交易記錄要遠多于欠發(fā)達地區(qū),這些因素在數據清洗時都要做適當的處理和調整。另外,很多類別性的離散數據也不能直接被機器學習的模型所使用,要先進行一定的轉換。數據梳理過程還包括結合大數據平臺數據處理的特性,設計合理的數據結構和算法來支持數據的快速存儲和調用。比如為了計算賬戶的行為特征,這就需要我們把大量無需的交易數據按賬戶號聚合,按交易時間排序。總之,數據的清洗和梳理工作為之后的特征提取和模型訓練打下堅實的基礎。
結合到反欺詐檢測這個具體情景,我把所用到的特征按其包含信息的層級有微觀到宏觀分為三大類:
粒度最細的是交易級別的特征,這些特征是需要在交易和支付發(fā)生的那個時間才能采集到的,比如交易的類別,支付的手段,交易的金額等等。這些信息非常重要是構成高層次特征的原子信息。
再上一層的是賬戶級別的特征,比如賬戶的交易頻率,賬戶的交易一般發(fā)生的時間段,等等。對于這些特征信息,我們往往需要回溯歷史,比如一周,一個月,甚至幾個月才能準確獲取。
最宏觀的特征是支付網絡級別的特征,如果我們把每一個賬戶看做一個節(jié)點,每一筆交易看做連接節(jié)點的邊,那么我們就可以構建一個涵蓋所有賬戶所有交易的支付網絡。
有了這個宏觀的網絡視圖,我們可以清晰的看到是否在短時間內有很多的賬戶向同一個賬戶來進行付款,如果有那么我們很可能要更進一步了解這個中心賬戶是否有正當的理由來支持這樣的行為特征。每一個級別的特征都會給反欺詐模型提供相應維度的信息,以便進行風險的綜合預測。
特征與模型選擇
隨著大數據和各類開源技術的發(fā)展,我們已經有了很多很強大的大數據的機器學習工具。選擇好適當的工具可以極大的提高工作的效率。在欺詐檢測的模型的建立過程中,我們選取了深度學習模型作為其中的一個主要算法。深度學習的概念源于人工神經網絡的研究。它模仿人腦的結構機制來解釋和學習數據。結構上他是由一層層的神經元網路組合而成。深度學習通過組合層次遞進的方式,用低層特征形成更加抽象的高層表示來提取和發(fā)現(xiàn)數據的內在聯(lián)系。近年來隨著并行計算技術的發(fā)展和一些理論上的重要突破,在很多的應用場景下,深度學習的效果相比傳統(tǒng)的機器學習算法有了非常大的提升,在視頻、圖像、音頻的理解和學習上有著非常廣泛的應用。
深度學習的優(yōu)點也是很明顯的,首先由于層次化的模型結構,使得模型本身帶有特征提取和特征選擇的功能特性,這一優(yōu)勢特性可以大大降低對于人工提取特征的依賴度,模型自身可以對基礎信息進行非線性的組合篩選,得到不能直觀想象但是有效的特征因子。另外,訓練好的深度學習模型往往可以表達為一系列的矩陣的運算,這使得他在生產系統(tǒng)中的運算效率極高,可以滿足很多實時系統(tǒng)的計算效率要求。
很多的機器學習算法都提供充足的參數空間,支持訓練任意復雜度的模型,以深度學習算法為例,我們可以自由的決定模型的深度也就是神經元網路的層數,每層的神經元數量,以及每個神經元的觸發(fā)函數等等。但需要注意的是模型過于簡單或者過于復雜都難以取得理想的預測準確度,然而這些模型參數的配置往往是先驗的,需要根據訓練出的模型在實際數據集上的性能判定優(yōu)劣。所以我們需要嘗試不同的參數組合,最終找到在一定的數據集特征下最優(yōu)的參數配置。
我們再次快速的回顧一下整個數據驅動建立欺詐檢測預測模型的流程。從左到右,我們從原始數據的清洗和梳理開始,到大量廣泛的提取相關特征并有效的進行篩選,在確定了機器學習算法后,我們就可以利用梳理好的特征數據進行模型訓練、參數選擇、性能回測等工作,最后得到可以用于生產系統(tǒng)的預測模型。
3、實時支付欺詐檢測系統(tǒng)
亞信數據硅谷人工智能研發(fā)中心團隊為實時金融欺詐提供了一整套完整的系統(tǒng)解決方案。之前著重介紹的基于機器學習風控模型只是其中的一個子系統(tǒng)。整個系統(tǒng)的實時部分設計完全基于大數據流處理平臺和高性能的實時數據庫,保證了高并發(fā)低延遲的實時響應能力。系統(tǒng)也提供全生命周期的金融欺詐檢測和防控功能,
除了欺詐檢測模型,這套系統(tǒng)還會進一步的進行風險的量化評分,以便觸發(fā)相應的風險控制策略。這也是之前講到的決策引擎的主要算法邏輯。風險量化評分考慮到欺詐風險和交易金額兩個因素,欺詐風險越大,交易所涉及的金額越多,風險評分就會越高。根據風控模型實時計算的交易風險評分,系統(tǒng)自動采取對應的策略。主要策略包括:交易放行、警告、短信提醒、加強驗證、人工坐席核實,直至自動交易阻斷??蛻舳绦膨炞C,客服坐席核實的結果也都會及時反饋到大數據分析系統(tǒng)的數據庫中,以供模型更新使用,使整個系統(tǒng)中的信息形成閉環(huán)。也使模型可以快速迭代更新,大大提高模型預測準確度。
總結一下,實時金融欺詐檢測系統(tǒng)主要提供了4個方面的能力:首先,引入數據驅動的風控模型,以機器學習為基礎,科學設定反欺詐規(guī)則,實現(xiàn)從數據到業(yè)務語言以及機器代碼的轉化。其次,實現(xiàn)了包括電子、手機、網銀等多渠道的全面數據接入,提供完善的欺詐案件記錄和處置的功能,填補事中風險管控工作的空白。第三,系統(tǒng)提供了優(yōu)化的交易風險處置,通過量化風險,觸發(fā)不同級別的防控策略,優(yōu)化系統(tǒng)效果和用戶體驗。最后,可以提供全面的報表和分析功能,實時監(jiān)控全局的風險情況,以便掌握信息。
作者簡介:
於今
澳大利亞新南威爾士大學計算機博士學位,亞信數據CTO,全面負責公司產品戰(zhàn)略、產品架構設計、人工智能核心算法打造和新產品孵化等工作;曾先后服務于中國最大的在線旅游社交平臺馬蜂窩,擔任技術副總裁兼首席架構師,以及在全球第二大廣告交易公司OpenX擔任技術副總裁兼首席架構師;於今也曾是一位創(chuàng)業(yè)家,分別創(chuàng)立過專注于社交大數據開發(fā)的Portaura公司和專注于電子商務搜索引擎的Martsoft公司。
常劍
亞信數據硅谷人工智能研發(fā)中心主任,賓夕法尼亞大學 (University Of Pennsylvania)計算機博士,清華大學本科。博士期間進行了大規(guī)模分布式系統(tǒng)的安全與信任問題的研究,專注于大數據和機器學習技術的研發(fā)工作。領導技術團隊與中信銀行成立業(yè)內第一個金融科技創(chuàng)新實驗室,進行支付欺詐防控,智能投顧等新產品的研發(fā),在醫(yī)療領域進行人工智能在各場景落地的探索研究。
作為整體活動的第二部分,2017年10月25日,數據猿還將在北京舉辦千人規(guī)模的“2017金融科技價值——數據驅動金融商業(yè)裂變”峰會【本次論壇詳情丨第一屆回顧丨第二屆回顧】并將在現(xiàn)場舉行文章、案例、產品的頒獎典禮。
來源:數據猿
刷新相關文章
我要評論
活動推薦more >
- 2018 上海國際大數據產業(yè)高2018-12-03
- 2018上海國際計算機網絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術峰會2018”2018-06-14