遠離“E租寶”們 大數(shù)據(jù)團隊教你一分鐘識別跑路P2P
財經(jīng)時報 | 2016-02-24 09:58
【數(shù)據(jù)猿導(dǎo)讀】 2011年,整個中國的P2P公司才幾十家,截至2016年1月底,累計平臺已達到3917家,行業(yè)發(fā)展可謂迅猛異常。但眾所周知,P2P行業(yè)在高速發(fā)展的同時,問題平臺層出不窮,根據(jù)網(wǎng)貸之家的數(shù)據(jù),截至2016年1月底,累計問題平臺已達1351家。隨著觸目驚心的“E租寶”事件,周圍的小伙們一度“談P2P色...

作者一直關(guān)注P2P行業(yè)發(fā)展,積累了2000多家平臺的數(shù)據(jù),通過數(shù)據(jù)挖掘和機器學(xué)習(xí)的方法,對這些平臺進行了建模,在對整個P2P行業(yè)發(fā)展趨勢預(yù)測分析基礎(chǔ)上,還通過聚類和機器學(xué)習(xí)的方法預(yù)測了一批潛在跑路和倒閉的平臺。
在這里,作者結(jié)合當(dāng)時做的分析和預(yù)測,給大家簡要說幾個考察P2P平臺的關(guān)鍵維度,讓你1分鐘識別跑路平臺!
1.平臺待收金額
平臺待收金額代表了平臺上放貸人未收回欠款的總額。一般而言,運營良好的正規(guī)平臺待收余額波動較小,相對平穩(wěn),而年底較容易出現(xiàn)集中提現(xiàn)的情況,待收余額會有下降的趨勢。如圖1,是當(dāng)時我們對國內(nèi)300家主流P2P平臺待收余額走勢的預(yù)測。
圖1:對國內(nèi)300家主流P2P平臺待收余額走勢的預(yù)測
圖2:問題平臺待收余額走勢預(yù)測
如果待收余額大幅度下降,只減不增,則可能是平臺遇到了瓶頸,交易量下降。如果平臺只借不還或者拿新借款還舊借款,自然會出現(xiàn)待收余額只增不減的情況,如果這一數(shù)據(jù)在短時間內(nèi)迅速提升,則平臺很有可能是預(yù)備跑路的欺詐平臺,如圖2是當(dāng)時對問題平臺待收余額走勢的預(yù)測,波動較大。
舉例來說,當(dāng)我們在分析樣本平臺中盛金服的數(shù)據(jù)時,發(fā)現(xiàn)其數(shù)據(jù)與圖2預(yù)測的趨勢基本吻合。后來,事實證明,該平臺在2015年末出現(xiàn)提現(xiàn)困難,隨后人去樓空。
2.平臺新增借款
新增借款在很大程度上反應(yīng)了一段時間內(nèi)平臺的發(fā)展情況,穩(wěn)中有升比較正常,新增借款驟然增加,資金鏈斷裂、跑路風(fēng)險較大;驟然減少,自融、非法集資的幾率較大。
2015年12月,好借好貸被爆出存在自融嫌疑,且平臺76%借款來自同一借款人,其平臺新增借款趨勢與我們當(dāng)時預(yù)測的結(jié)果基本一致。
圖3:對國內(nèi)300家主流P2P平臺新增借款走勢的預(yù)測
圖4:問題平臺新增借款走勢
3.平臺投資金額
投資金額是平臺當(dāng)天的投資總額,一般而言,投資金額也是穩(wěn)中有升,如圖5所示。如果投資金額連續(xù)下降,則平臺倒閉的風(fēng)險很大,如圖6所示。包括中盛金服、好借好貸在內(nèi),以及2015年9月被爆提現(xiàn)困難的平臺沃資本,預(yù)測的數(shù)據(jù)維度走勢都與問題平臺走勢相符。
圖5:對國內(nèi)300家主流P2P平臺投資金額走勢的預(yù)測
圖6:問題平臺投資金額走勢
4.平臺投資人數(shù)
投資人數(shù)指的是平臺的活躍投資人,平臺投資人數(shù)如果如圖8的走勢一樣,出現(xiàn)連續(xù)下降的情況,那么平臺的資金鏈容易斷裂,倒閉風(fēng)險很大。不少問題平臺都符合這一趨勢,結(jié)果也均是大同小異,符合問題平臺趨勢的基本最后以跑路、倒閉出現(xiàn)提現(xiàn)困難等告終。
圖7:對國內(nèi)300家主流P2P平臺投資人數(shù)走勢的預(yù)測
圖8:問題平臺投資人數(shù)走勢
上面提到的四個指標(biāo)是辨識平臺風(fēng)險比較關(guān)鍵的幾個,當(dāng)然,在分析模型評價體系中,我們參考的維度不止這4個,在引入公司背景、股東信息/高管信息、經(jīng)營信息等信息的基礎(chǔ)上,我們還引入了平臺多個動態(tài)數(shù)據(jù)特征:
第一,建立評價指標(biāo)體系。
對平臺評價指標(biāo)的分析分為以下7個維度:
(1)借款指數(shù):過去90天借款總額/過去90天借款總?cè)藬?shù);
(2)流動指數(shù):未來90天待收總額/注冊資本金*100;
(3)待收余額:代表了平臺上放貸人未收回欠款的總額,如果這一數(shù)據(jù)在短時間內(nèi)迅速提升,則平臺很有可能是預(yù)備跑路的欺詐平臺。
(4)風(fēng)險準(zhǔn)備金
當(dāng)借款人無力還款或干脆跑路時,平臺會用自己的風(fēng)險準(zhǔn)備金對投資者做一定程度的賠付。因此,投資者需要注意風(fēng)險準(zhǔn)備金數(shù)額,考察其是否能有效減少自己的投資風(fēng)險。
可以用風(fēng)險準(zhǔn)備金與待收余額的比值與平臺的歷史還款逾期率相比較,如果比值大于逾期率,說明平臺的準(zhǔn)備金能夠起到風(fēng)險覆蓋的作用,反之則說明平臺無力真正意義上承擔(dān)壞賬風(fēng)險。
(5)地域指數(shù):當(dāng)季度平臺所在地區(qū)問題平臺數(shù)/該季度問題平臺總數(shù)*100(按省級行政單位)。
說明:地域負面指數(shù)越大,平臺所在地區(qū)問題平臺數(shù)量越大,地域性影響較大,投資人受輿論波及撤資可能越高。
(6)對于平臺上的活躍人數(shù)和平臺的待收金額,通過信息熵的方法分析平臺的確定性
(7)對于問題平臺的地域分析,按照地理位置的分布,建立起平臺的地理圖,利用圖的算法,分析區(qū)域的影響及問題平臺的集中程度。
因此,地域指標(biāo)衡量:地域指數(shù)=平臺所在地區(qū)問題平臺數(shù)/問題平臺總數(shù)×100(按省級行政單位)。
另外一些特征是這些特征的綜合,如均值、方差、特征之比、特征信息增益等。
第二,模型的整體預(yù)測情況及維度分析。
在建立了模型的評價指標(biāo)體系后,我們利用機器學(xué)習(xí)的方法進行預(yù)測。
1.首先,我們要選擇使用的模型。
我們選擇四種模型對我們的數(shù)據(jù)集分別進行訓(xùn)練:
(1)邏輯回歸(logit)
(2)分類回歸樹(CART)
(3)隨機森林(Random Forest)
(4)梯度提升樹(GBDT)
在一般的二分類中,由于邏輯回歸方法比較簡單易用,因此我們首先選擇它;由于分類回歸樹可以自動忽略對目標(biāo)變量沒貢獻的屬性,并且對存在缺損值的情況比較穩(wěn)健,因此作為第二個模型;隨機森林由于它的訓(xùn)練速度快,并且模型可以給出哪些特征比較重要,因此作為第三個模型;GBDT模型目前在工業(yè)界中是運用很多的一種算法,由于采用了提升的思想,其方法具有很好的泛化能力和準(zhǔn)確度,因此我們將其作為第四種模型。
2.對四種模型的預(yù)測結(jié)果進行比較分析。
(1)首先我們采用將準(zhǔn)確率和召回率結(jié)合起來的評估標(biāo)準(zhǔn)即F---measure
其中如下圖所示:橫坐標(biāo)代表準(zhǔn)確率,縱坐標(biāo)代表召回率
用TP(真正例),FP(假正例),FN(假負例)
準(zhǔn)確率:percision=TP/(TP+FP),也就是說預(yù)測出來的正例中有多少是真正的正例
召回率:recall=TP/(TP+FN),真正的正例有多少被正確的預(yù)測出來了
F—measure = 2*準(zhǔn)確率*召回率/(準(zhǔn)確率+召回率)
一般來說我們希望準(zhǔn)確率和召回率都越大越好,可以知道F1值越大,則模型越好。
(2)我們用AUC曲線對模型進行比較。
如下圖:橫坐標(biāo)代表FP, 縱坐標(biāo)代表TP
AUC是用FP與TP比例曲線下面的圖形面積衡量,曲線下面的面積越大,則模型越好。
通過以上比較分析可以看出:無論是采用F---measure還是采用AUC度量,GBDT模型的效果最佳,而最簡單的邏輯回歸效果較差,之所以GBDT的效果最佳是因為采用了boosting。
總結(jié):作為一個純技術(shù)宅男,寫這么多已不易。總結(jié)來說,作者通過積累的2000多家P2P平臺的數(shù)據(jù),通過數(shù)據(jù)挖掘和機器學(xué)習(xí)等方法,對部分平臺進行了建模分析預(yù)測,從而得出能幫助投資者做出判斷的單維度指標(biāo)和風(fēng)險分析預(yù)測模型。上文提到的單個維度指標(biāo)應(yīng)足以幫助普通投資者做出判斷,綜合多維度的分析和預(yù)測將更有效,當(dāng)然,如果能綜合運用我所描述的分析模型,預(yù)測和判斷將更為精準(zhǔn)。
來源:財經(jīng)時報
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重