百度商業(yè)安全部資深架構(gòu)師耿志峰:大數(shù)據(jù)如何驅(qū)動網(wǎng)絡(luò)反欺詐
【數(shù)據(jù)猿導(dǎo)讀】 百度商業(yè)安全部資深架構(gòu)師耿志峰在“CTO訓(xùn)練營”活動現(xiàn)場做了主題為“大數(shù)據(jù)驅(qū)動網(wǎng)絡(luò)反欺詐”的分享,分別從欺詐網(wǎng)頁、大數(shù)據(jù)分析挖掘和欺詐網(wǎng)頁檢測三部分展開演講

百度商業(yè)安全部資深架構(gòu)師耿志峰在由51CTO高招主辦的“CTO訓(xùn)練營”活動現(xiàn)場做了主題為“大數(shù)據(jù)驅(qū)動網(wǎng)絡(luò)反欺詐”的分享。其內(nèi)容主要圍繞大數(shù)據(jù)在欺詐方面如何應(yīng)用展開,分為什么是欺詐網(wǎng)頁、大數(shù)據(jù)分析挖掘和欺詐網(wǎng)頁檢測三部分。
耿志峰·百度商業(yè)安全部資深架構(gòu)師
耿志峰,百度商業(yè)安全部資深架構(gòu)師。2013年進(jìn)入百度,從事大數(shù)據(jù)安全方面的工作,在將大數(shù)據(jù)技術(shù)應(yīng)用在網(wǎng)址安全掃描、網(wǎng)絡(luò)反欺詐等方面,具有豐富的經(jīng)驗。
透過經(jīng)典案例深入了解欺詐網(wǎng)頁真面目
案例一: iCloud密碼泄漏。 在這起案件里,很多美國好萊塢巨星被騙。犯罪分子被擒獲后,發(fā)現(xiàn)其作案手法非常簡單,就是給受害者發(fā)電子郵件,告知他郵件里有很多鏈接,iCloud的密碼已泄漏,需要重置。具體第一步就是要受害者輸入原始密碼。結(jié)果可想而知,很多明星都輸入導(dǎo)致大規(guī)模事件。
案例二:假機(jī)票。 出行時,需要買火車票、飛機(jī)票。當(dāng)買不到時候,就會去百度搜索,看看有沒有別的購票途徑。這樣就很容易受到賣假機(jī)票網(wǎng)站的欺騙。
案例三:熱門節(jié)日中獎詐騙。 這有一個典型案例,我要上春晚節(jié)目,通知你中獎了需要交一定的保護(hù)費(fèi)費(fèi)就可以領(lǐng)取,之后就有很多人上當(dāng)受騙。
耿志峰表示,百度針對欺詐網(wǎng)頁做了相對應(yīng)的應(yīng)用。當(dāng)用戶在搜索網(wǎng)頁時候,疑似欺詐網(wǎng)頁大部分會屏蔽,少部分顯現(xiàn)出來的也會被標(biāo)注“風(fēng)險”。有些網(wǎng)站是用戶真實想要的,如說博彩,百度會把它顯示出來,但會告訴用戶這是一個風(fēng)險網(wǎng)站。風(fēng)險含義包括有詐騙、欺詐、釣魚,被黑、網(wǎng)頁亂碼和違法的。
什么是釣魚網(wǎng)站?就是未經(jīng)授權(quán),通過模仿第三方網(wǎng)站從而誘導(dǎo)用戶采取只有正規(guī)網(wǎng)站才能進(jìn)行的操作,屬于社會工程學(xué)的范疇。簡單來講,利用用戶對某些其他網(wǎng)站的一個信任,然后再盜取用戶個人的信息,如說銀行卡、銀行卡密碼,用戶名密碼等。
欺詐網(wǎng)站有哪些特點?有模板化、多宿主、時效性和游擊戰(zhàn)四大特點。
模板化??焖俜敝场?/p>
多宿主??赡艽嬖谟诓煌膰液偷貐^(qū)、不同的機(jī)房、不同的服務(wù)器、不同的網(wǎng)站。
時效性。數(shù)據(jù)顯示,釣魚網(wǎng)頁的平均存活時間為三天,絕大多數(shù)的有效時間少于1天。
游擊戰(zhàn)。不同地域不同時間段看到的內(nèi)容不同,不同時段出現(xiàn)的欺詐內(nèi)容不同。
耿志峰表示,做黑產(chǎn)的人會對人性研究加以研究,對技術(shù)研究較少。其發(fā)布的欺詐網(wǎng)站多為模板化,就是買一個模板,填一些內(nèi)容馬上生成或用機(jī)器去填寫達(dá)到快速繁殖的目的。還有很多人來百度做廣告,開始之前,會有非常嚴(yán)格的審查環(huán)節(jié)。這審查環(huán)節(jié)投入巨大精力,在審核時沒有任何問題,就是一個公司官網(wǎng)、ICP備案等都沒有任何問題。但是在特定的時段或者特定的地區(qū),如四川地區(qū)在晚上十二點時,內(nèi)容就會發(fā)生這樣那樣的變化,看到的完全不是之前審核的內(nèi)容,是一個動態(tài)的內(nèi)容。
欺詐網(wǎng)站有哪些分類?虛假信息和知名站點模仿兩大類。虛假信息,不去模仿或是投入技術(shù)手段做內(nèi)容,只發(fā)布虛假信息。如購物信息(藥品、商城)、中獎信息(節(jié)日中獎、游戲中獎)、 金融詐騙(小額貸款、信用卡)。知名站點模仿,如模仿京東官網(wǎng),賣一些東西,用戶付款后收錢不發(fā)東西。如火車票、飛機(jī)票,10086這些都非常典型。其他違法檢測(賭博、色情)
大數(shù)據(jù)特點有哪些?大數(shù)據(jù)如何分析挖掘?
什么是大數(shù)據(jù)?指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長和多樣化的信息資產(chǎn)。
大數(shù)據(jù)的特點。如上圖三V:數(shù)據(jù)量大、數(shù)據(jù)產(chǎn)生和傳輸?shù)母咚傩浴⒍鄻有浴?/p>
大數(shù)據(jù)信息挖掘
大數(shù)據(jù)分析挖掘。大數(shù)據(jù)只要應(yīng)用場景有哪些?可以用大數(shù)據(jù)做什么?耿志峰在演講中,主要提到如上圖三點。
了解現(xiàn)狀、把握規(guī)律,預(yù)測未來。 百度旅游熱點預(yù)測是典型的案例。在剛剛過去的五一非常紅,請求量特別大。大家五一想要該去哪兒,去頤和園還是去天安門,百度旅游就會告訴用戶根據(jù)以的經(jīng)驗或者最近趨勢,某個地區(qū)熱度會達(dá)到每立方米一千個人,最好不要去。還有谷歌預(yù)測和醫(yī)療類疾病診斷等也是經(jīng)典的應(yīng)用場景。
個性化的需求。 如在買東西時,逛淘寶會推薦很多店。如買過某件東西的人還買了什么。根據(jù)所買產(chǎn)品做從各個維度做對應(yīng)的推薦。
信息識別和過濾準(zhǔn)則。 垃圾郵件的過濾、虛假評論、刷單屬于這一范疇。百度錢包的拉新活動,給用戶一個鏈接,拿鏈接去邀請新同學(xué)注冊百度錢包。百度錢包就會返現(xiàn)50元。面對利益,就會有人刻意刷單,最高記錄顯示,某人一天就有幾十萬拉新經(jīng)歷。當(dāng)去建立時就可以利用大數(shù)據(jù),當(dāng)他在請求時,就可以知道其使用環(huán)境如是不是代理、是不是通過IP代理來、手機(jī)號在運(yùn)營商是不是真實存在、陶寶上有沒有號碼注冊機(jī),專門收驗證碼的,都可以把他找出來。
在欺詐網(wǎng)頁上如何應(yīng)用大數(shù)據(jù)的技術(shù)?
欺詐網(wǎng)頁檢測
欺詐網(wǎng)頁檢測模型需要四個流程。 收集:網(wǎng)址安全信息查詢服務(wù)、系統(tǒng):大規(guī)模數(shù)據(jù)處理架構(gòu)、引擎:大數(shù)據(jù)+機(jī)器學(xué)習(xí)/深度學(xué)習(xí)算法、運(yùn)營:數(shù)據(jù)分析和可視化。
收集,網(wǎng)址安全信息查詢服務(wù)。收集就是獲取任務(wù),數(shù)據(jù)來源主要有百度索引(不良或不好數(shù)據(jù)過濾掉)和API查詢(新浪微博、普通瀏覽器I國際國內(nèi)涉及反饋網(wǎng)頁信息的服務(wù)廠商)。百度有大容量KV數(shù)據(jù)庫(幾十億URL Link,近10萬的domain) ,每天會有百億級的有效查詢。還有來自搜索/設(shè)備/運(yùn)營商/社交等復(fù)雜的場景以及高并發(fā)、低延時。
網(wǎng)頁數(shù)據(jù)處理框架理架構(gòu)
系統(tǒng):大規(guī)模數(shù)據(jù)處理架構(gòu)。怎么樣來做快速處理的十幾億網(wǎng)頁的架構(gòu)呢? 針對大量數(shù)據(jù)源會先做合并、信息傳輸和存儲。生成任務(wù)后,輸入模型來提取,轉(zhuǎn)化成模型需要的方式,最終用模型來盡快來檢測,達(dá)到可視化呈現(xiàn)。
模型工作流程
模型是工作一個典型的storm,在實時計算方面會非常的有優(yōu)勢。存儲是HDFS。
引擎:大數(shù)據(jù)+機(jī)器學(xué)習(xí)/深度學(xué)習(xí)算法。怎么樣去鑒定它到底是不是一個欺詐網(wǎng)頁呢?
大數(shù)據(jù)+機(jī)器學(xué)習(xí)算法 神經(jīng)網(wǎng)絡(luò)設(shè)計示意圖
如上圖,是一個內(nèi)神經(jīng)網(wǎng)絡(luò)設(shè)計示意圖。 耿志峰表示,就是把眾多的原子拆分成非常細(xì)的緯度,把各個緯度進(jìn)行組合,這就是深度學(xué)習(xí)的精髓。通過反復(fù)組合,組合成一個有意義的組織,輸入到模型中訓(xùn)練。架構(gòu)引擎在設(shè)計時就是把原子緯度提出來,進(jìn)行合并,和基于訓(xùn)練數(shù)據(jù)基礎(chǔ)上的某個模型進(jìn)行合作,最后再輸入模型。
大數(shù)據(jù)+機(jī)器學(xué)習(xí)/深度學(xué)習(xí)算法的歷程
Rule Based(基于規(guī)則), 是最早的也是最有效的一個方法?;谝?guī)則的優(yōu)勢是上線快,準(zhǔn)確高,容易理解,但缺點是依賴于人,工作量比較大、容易受到干擾和召回低。侯選規(guī)則自動推導(dǎo),線性模型/樹模型進(jìn)行文本特征選擇、Word Embedding進(jìn)行特征詞擴(kuò)展和聚類、關(guān)聯(lián)規(guī)則和共現(xiàn)頻率進(jìn)行類目內(nèi)的規(guī)則發(fā)現(xiàn)。
Nearest Neighbor Based(基于相近), 就是從歷史挖掘高質(zhì)量具有代表性的樣本,提取框架和文本特征,進(jìn)行相似度特征匹配。優(yōu)點是上線速度快,準(zhǔn)確率高高。仿冒類效果較好,但關(guān)鍵詞規(guī)則不能較好的表達(dá)仿冒特征、結(jié)構(gòu)和內(nèi)容相似。
Model Based(基于模型), 對大量數(shù)據(jù)進(jìn)行挖掘,提供和清洗訓(xùn)練樣本,針對億級別的訓(xùn)練樣本,提取擴(kuò)展千萬的特征。之后利用大規(guī)模機(jī)器學(xué)習(xí)和深度學(xué)習(xí)平臺進(jìn)行模型訓(xùn)練,深度神經(jīng)網(wǎng)絡(luò)優(yōu)化的多分類模型,這中間用到Paddle/Caffe框架來處理一些問題。優(yōu)點是有準(zhǔn)召率高、預(yù)測效率高、善于發(fā)現(xiàn)新模型、從海量數(shù)據(jù)中總結(jié)規(guī)律、模型非常穩(wěn)定、還有能力同時應(yīng)對多個分類。
Topological Based(基于拓?fù)?, 針對圖論進(jìn)行檢測,利用URL間跳轉(zhuǎn)關(guān)系構(gòu)造有向圖,獲得千萬節(jié)點,億級邊。這樣就可以更抽象和高層的視角把握黑產(chǎn)規(guī)律。優(yōu)點是掌握黑產(chǎn)品質(zhì)的規(guī)律,讓受攻擊的影響降到最小。可以分析欺詐的源頭,對惡意URL傳播源頭進(jìn)行定位,對 惡意種子節(jié)點標(biāo)注,對惡意的網(wǎng)站進(jìn)行排名。
運(yùn)營:數(shù)據(jù)分析和可視化。運(yùn)營的意義在于把信息鑒定出來,對某個網(wǎng)址對全局進(jìn)行了解,如某個地域網(wǎng)站更容易是一個欺詐網(wǎng)頁。 數(shù)據(jù)分析 就是對100M黑樣本的樣本庫進(jìn)行建設(shè)和完善,對離線數(shù)據(jù)挖掘,發(fā)現(xiàn)樣本、特征歸類。建立Ad-hoc查詢接口,完成友好交互界面。對欺詐進(jìn)行分布,如地域分布、用戶人群、時間序列分析(預(yù)警)等。 數(shù)據(jù)可視化呈現(xiàn) 是科學(xué)與藝術(shù)的完美結(jié)合,是建立在數(shù)據(jù)分析的基礎(chǔ)上。在大數(shù)據(jù)環(huán)境下輔助探索和理解問題,使得 統(tǒng)計結(jié)果如趨勢、分布等得到很好的展示。樣本可以聚類呈現(xiàn),如惡意網(wǎng)頁地域分布、域名所在地、受害用戶所在地等。
演講接近尾聲時,耿志峰表示,我們的生活方式越來越多,導(dǎo)致欺詐的手段層出不窮。大數(shù)據(jù)能夠有助于我們把握規(guī)律,進(jìn)行合理預(yù)測,做到安全智能化。當(dāng)然副作用也很明顯就是隱私問題。其實最有效的方法還是網(wǎng)民自己提高安全意識。
來源:51CTO系統(tǒng)頻道
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重