大數(shù)據(jù)時代的風(fēng)控需要面臨兩大挑戰(zhàn)
【數(shù)據(jù)猿導(dǎo)讀】 中國的征信體系尚不夠完善,尤其在大數(shù)據(jù)時代,怎樣在鋪天蓋地的數(shù)據(jù)中做好風(fēng)控。實際上,基于大數(shù)據(jù)風(fēng)控的土壤已經(jīng)比較成熟,互聯(lián)網(wǎng)可以為我們積累海量的原始數(shù)據(jù),這是大好機(jī)遇,擔(dān)同時還面臨著巨大挑戰(zhàn)

本篇文章只關(guān)注個人信用借款的風(fēng)控。抵押貸,企業(yè)貸不在討論范圍中。
1. 風(fēng)控的意義
何為風(fēng)控?字面含義就是對于風(fēng)險的控制從而使財務(wù)不受到損失。對于任何一家金融機(jī)構(gòu)(包括銀行,小貸,P2P等)來說,風(fēng)控的重要性超過流量、體驗、品牌這些人們熟悉的指標(biāo)。風(fēng)控做得好與壞直接決定了一家公司的生與死,而且其試錯成本是無窮大的,往往一旦發(fā)現(xiàn)風(fēng)控出了問題的時候就已經(jīng)無法挽回了。截止到2015年底,全國總共3000多家P2P平臺里超過三分之一已經(jīng)倒閉。這其中除了一部分明顯的自融欺詐外,大多數(shù)平臺垮掉的原因還是風(fēng)控不過關(guān)。
2. 風(fēng)控的核心
風(fēng)險控制需要做什么?與逾期率的絕對數(shù)值相比,對風(fēng)險的控制能力要重要得多。借款人需要享受合理的額度和借款成本。出借人需要能夠得到合理的風(fēng)險調(diào)整后的收益。達(dá)到這樣的目標(biāo)的核心是對每一筆借款違約概率的準(zhǔn)確預(yù)測。
借款人:基于借款人的風(fēng)險評估,優(yōu)質(zhì)的借款人能享受更低的借款成本和更高的額度。相對不那么優(yōu)質(zhì)的借款人則需要付出更高但還是合理的成本。最劣質(zhì)的借款人(甚至是欺詐借款人)則會被直接拒絕。
出借人:由于借款人承擔(dān)的利息成本是基于其風(fēng)險設(shè)置的,我們可以在大數(shù)上設(shè)定為未逾期的借款人所付出的利息減去逾期借款人帶來的本金損失后依舊能夠達(dá)到合理的收益水平。
滿足上述原則的過程我們稱為“風(fēng)險定價”。這可以作為所有金融的First Principle。
3. 國際上傳統(tǒng)的風(fēng)控方法
風(fēng)控的核心是要準(zhǔn)確預(yù)測每一筆借款違約概率。顯而易見,這需要量化的工具,也就是模型。假設(shè)x代表與借款人相關(guān)的各類數(shù)據(jù),y代表是否違約(1=違約,0=未違約),則我們需要找到一個函數(shù) f,使得f(x)=y。我們先介紹一下x,y,f在國外的情況。以美國為例。
x ,y:在美國,人們一般在上大學(xué)的時候就會擁有人生中第一張信用卡。這樣等到后續(xù)買房(房貸)買車(車貸)的時候,就已有了不短的信用歷史了。美國有3家征信公司(Equifax,Experian,TransUnion)?;旧纤秀y行,貸款,金融機(jī)構(gòu)都會上傳信用數(shù)據(jù)給這3家公司,包括借款,還款,逾期等數(shù)據(jù)。征信公司會對原始數(shù)據(jù)做清洗和處理,進(jìn)而產(chǎn)品化和商業(yè)化這些數(shù)據(jù)。這些提供數(shù)據(jù)的公司同時也是數(shù)據(jù)的使用方。 任何公司都可以買到脫敏的具體到個人的信用歷史數(shù)據(jù),用作分析和建模。由于征信公司能夠以處理完的字段形式輸出數(shù)據(jù),在美國,x一般是小而精的。小是指一般一個人的征信數(shù)據(jù)實際大小不大。精是指這類借款、還款、違約的歷史數(shù)據(jù),對于風(fēng)控建模來說,會是最有用的一塊數(shù)據(jù),因為歷史借貸信息實打?qū)嵉胤从沉艘粋€人的信用情況。
f:如果有了非常新鮮的魚,簡單地蒸一下就會非常美味。同樣的道理,由于大多數(shù)美國人已經(jīng)有了足夠的信用歷史數(shù)據(jù),通過這些數(shù)據(jù)來預(yù)測一個人未來的違約概率,這里所用到的模型也不用很復(fù)雜。一般情況下,簡單的決策樹和一些回歸類的模型已經(jīng)能夠解決90%以上的問題。非常有意思的是,類似FICO這樣的公司的商業(yè)模式就是提供生成f的能力,也就是基于3家征信公司提供的數(shù)據(jù),提供一個比較標(biāo)準(zhǔn)化的信用分給銀行和金融機(jī)構(gòu)。
如上所述,美國的征信體系包括了數(shù)據(jù)提供方(同時也是使用方),數(shù)據(jù)整理存儲方(3家征信公司),和提供數(shù)據(jù)分析解決方案的第三方(例如FICO)。整套體系經(jīng)過幾十年的演變進(jìn)化,已經(jīng)成為了一個生態(tài)。
4. 風(fēng)控機(jī)構(gòu)在大數(shù)據(jù)領(lǐng)域的探索
我們所說的“大數(shù)據(jù)”并非指絕對的樣本量的巨大,而是把常規(guī)的信貸征信數(shù)據(jù)以外的信息統(tǒng)一稱為“大數(shù)據(jù)”。目前看來,由于美國的征信生態(tài)體系已經(jīng)比較完善,其它非信貸類數(shù)據(jù)在風(fēng)控建模里的應(yīng)用實際上比較有限,在大多數(shù)情況下錦上添花多過雪中送炭。例如美國最大的P2P公司LendingClub早年曾經(jīng)嘗試只基于Facebook的社交數(shù)據(jù)來決定是否放貸。試了一段時間發(fā)現(xiàn)不行后,還是回到了征信數(shù)據(jù)為主,其它數(shù)據(jù)為輔的體系。目前LendingClub只考慮給FICO信用分640分以上的借款人放貸。
在美國,相比全面替代基于傳統(tǒng)征信數(shù)據(jù)的風(fēng)控模型,大數(shù)據(jù)能夠起到的作用可能更多的會在某個特定用戶群體上的性能優(yōu)化。例如,我們發(fā)現(xiàn)FICO分在580-600分這個區(qū)間的用戶的逾期率是15%。這是比較高的風(fēng)險,大多數(shù)銀行和貸款公司是不做這個群體的, 因為需要覆蓋這么高的風(fēng)險所需要的利率可能高于他們的業(yè)務(wù)允許范圍了。然而,15%的人違約的反面是85%的人還是會還錢的。 如果能夠通過技術(shù)手段利用一些征信數(shù)據(jù)以外的數(shù)據(jù),來提高這個群體里好人vs老賴的識別度,從平均15%違約率的群體里把相對比較好的借款人(比如違約率是5%)挑選出來,則這個群體瞬間就可以做了。已經(jīng)有一些公司看到了這樣的機(jī)會,也已經(jīng)開始利用大數(shù)據(jù)建模做這類銀行服務(wù)不到的客群了,比如最近比較火的ZestFinance。
5. 大數(shù)據(jù)風(fēng)控在中國的機(jī)遇
最近10年,以個人信用卡為代表的個人貸款業(yè)務(wù)在中國有了蓬勃的發(fā)展。我國的信用卡交易和風(fēng)控系統(tǒng)在初期大量借鑒了國外的經(jīng)驗。銀聯(lián)的第一代系統(tǒng)是與VISA合作完成的。國內(nèi)很多銀行的風(fēng)控流程和系統(tǒng)是從國外采購,很多風(fēng)控高管也是直接從國外銀行引進(jìn)的。
然而與國外相比,中國最大的差異在于征信體系的不完善。我們的人行征信系統(tǒng)覆蓋了8億人,但是可能只有3億左右是有信貸記錄的,剩下的無任何信貸記錄的,我們稱之為白戶。所以也不難理解,國內(nèi)銀行對于大部分非中高端用戶實際上是不愿意也沒有能力提供金融服務(wù)的。沒有征信數(shù)據(jù),那套國外搬過來的基于征信數(shù)據(jù)的方式方法就不管用了。
聰明的人馬上意識到,相比國外,由于中國的征信體系的不完善,基于大數(shù)據(jù)的風(fēng)控的土壤實際上更成熟,更有的做。這一點對于線上獲客的公司來說特別突出。相比傳統(tǒng)銀行和線下業(yè)務(wù)為主的平臺,線上獲客擁有以下優(yōu)勢:
互聯(lián)網(wǎng)可以提供每個借款人的龐大的、碎片化的、種類繁多的信息。這里面包括用戶提交的電子化信息(如身份證、營業(yè)執(zhí)照、房產(chǎn)證、學(xué)歷證、工資單、社保,銀行流水等),第三方權(quán)威機(jī)構(gòu)的查詢信息(如公民身份證查詢中心、教育部學(xué)歷中心、法院訴訟信息查詢中心等可查詢信息),還包括了海量的互聯(lián)網(wǎng)碎片數(shù)據(jù),如用戶的電商交易信息、微博等社交網(wǎng)絡(luò)數(shù)據(jù),百度搜索引擎數(shù)據(jù)等。說到底,All data is credit data.
互聯(lián)網(wǎng)的高效性和爆發(fā)性使我們能以較低的成本、較短的時間,積累大量的用戶數(shù)據(jù),為分析建模提供足夠的樣本量。
這種大樣本量、多維度、非結(jié)構(gòu)化的數(shù)據(jù)非常適合各類大數(shù)據(jù)分析處理和機(jī)器學(xué)習(xí)技術(shù)的運用。
6. 大數(shù)據(jù)風(fēng)控的挑戰(zhàn)
伴隨著機(jī)遇同樣也有挑戰(zhàn)。就像要有美味的菜肴,我們既需要好的材料,也需要好的廚師,當(dāng)前大數(shù)據(jù)在風(fēng)控中運用的挑戰(zhàn)主要還是在數(shù)據(jù)和人才這兩方面。
數(shù)據(jù)
記得我們前面所說的,風(fēng)控的核心就是能夠產(chǎn)生一個f(x),用來量化違約概率。理想情況下,最好f(x)=y。這里就有一個雞和蛋的問題。沒有足夠的y就做不了分析,所以除了一些很明顯的信息外,我們是不知道什么樣的x對于預(yù)測y會有幫助,也就是說在沒有足夠樣本之前是很難確定該收集哪些數(shù)據(jù)的。反過來,如果有y的樣本夠了,但一開始就沒有意識到應(yīng)該存哪些x,這些樣本的意義也會很有限。這個問題在那些幾乎沒有信貸記錄的白戶客群上尤其嚴(yán)重。最終的解決方法只有不停地做測試,收集x和y,迭代x。相對于資金成本,時間成本更大。例如下圖所示,用戶在網(wǎng)頁上填身份證的耗時實際上與這個人的風(fēng)險是相關(guān)的。很快的人很有可能是直接復(fù)制粘貼。而填的很慢的人很有可能是記不住自己的身份證號。這兩種情況下,欺詐的可能性都會高一些。
退一步說,就算我們事先知道應(yīng)該用什么樣的x,樣本特別是壞樣本的積累也是很難繞過的。了解建模的同學(xué)知道,越是復(fù)雜的模型(比如更多的變量),對于壞樣本(y=1)數(shù)量的要求也更高。如下圖所示,一般每增加一個模型字段,我們需要相匹配地增加至少100個y=1的樣本。
人才
除了數(shù)據(jù),在機(jī)器學(xué)習(xí)方面的人才缺口也是比較嚴(yán)重的。跟傳統(tǒng)征信數(shù)據(jù)的小而精不同的,大數(shù)據(jù)里的很多信息實際上只跟違約率有非常弱的,甚至有的時候接近于0的相關(guān)性。把這些多而雜的信息整合起來,做成一道好菜,是需要非常專業(yè)的機(jī)器學(xué)習(xí)方面的人才的。
過去的10年里,機(jī)器學(xué)習(xí)領(lǐng)域有了天翻地覆的發(fā)展。在機(jī)器能夠擊敗超一流圍棋高手的時代,讓機(jī)器基于海量的、人工根本來不及消化的數(shù)據(jù)來評估一個人借錢后是否會還錢,其可行性是很高的!不幸的是,量化信用評估領(lǐng)域在技術(shù)上的方式方法還是基本上停留在幾十年前的水平,早已跟不上當(dāng)前實時化、移動化、內(nèi)容包羅萬象的數(shù)據(jù)時代的節(jié)奏。非常簡單的表現(xiàn)就是,除了少有的例外,目前在金融特別是風(fēng)控的數(shù)據(jù)建模/數(shù)據(jù)研發(fā)的人才,無論是數(shù)量還是質(zhì)量,都遠(yuǎn)遠(yuǎn)落后于互聯(lián)網(wǎng)行業(yè)。可喜的是,業(yè)內(nèi)也已經(jīng)意識到了人才的匱乏所帶來的瓶頸。隨著行業(yè)的成熟和數(shù)據(jù)的積累,會有越來越多的高端數(shù)據(jù)人才加入這個行業(yè)。整個行業(yè)在基于大數(shù)據(jù)量化評估風(fēng)險的能力也會有一個爆發(fā)。
來源:大數(shù)據(jù)文摘
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重