小米宋強(qiáng):生態(tài)化大數(shù)據(jù)平臺(tái)的深度應(yīng)用實(shí)踐
【數(shù)據(jù)猿導(dǎo)讀】 在小米商業(yè)產(chǎn)品部技術(shù)總監(jiān)宋強(qiáng)看來,最好的技術(shù)提升在實(shí)踐中,離開了業(yè)務(wù)實(shí)踐,空談系統(tǒng)架構(gòu)和算法優(yōu)化都是沒有意義的

記者:請(qǐng)介紹下自己和目前從事的工作,以及關(guān)注哪些技術(shù)領(lǐng)域?
宋強(qiáng):我是宋強(qiáng),2014年加入小米,目前在小米商業(yè)產(chǎn)品部擔(dān)任架構(gòu)師和研發(fā)主管,主要負(fù)責(zé)小米自有流量和移動(dòng)網(wǎng)盟業(yè)務(wù)的變現(xiàn),包括系統(tǒng)架構(gòu)、算法策略和數(shù)據(jù)平臺(tái)相關(guān)的工作。之前在微軟中國(guó)必應(yīng)廣告部門從事大數(shù)據(jù)分析、反作弊相關(guān)工作。再之前在IBM中國(guó)開發(fā)中心從事數(shù)據(jù)庫(kù)和查詢優(yōu)化相關(guān)的工作。我個(gè)人比較關(guān)注的技術(shù)包括分布式高并發(fā)的系統(tǒng)架構(gòu)、海量數(shù)據(jù)分析與處理、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等。
記者:依托于強(qiáng)大的 MIUI 系統(tǒng)、2億手機(jī)用戶和完善的生態(tài)鏈布局,小米在過去幾年積累了海量用戶數(shù)據(jù)。那么與社交網(wǎng)絡(luò)、搜索和游戲等網(wǎng)站相比,小米的用戶流量有哪些特點(diǎn)?
宋強(qiáng):小米是一家硬件公司,也是一家移動(dòng)互聯(lián)網(wǎng)公司,但我更愿意把小米看成一家大數(shù)據(jù)公司。硬件方面,在過去幾年中,小米一共售出了超過兩億部手機(jī)和1500萬臺(tái)電視和盒子,另外路由器和手環(huán)等生態(tài)鏈產(chǎn)品的銷量也非常好。軟件方面,深受用戶喜歡的 MIUI 是一個(gè)深度定制的安卓系統(tǒng)。依托于強(qiáng)大的硬件銷量和 MIUI 等軟件系統(tǒng),小米在過去幾年積累了大量的用戶數(shù)據(jù),包括 APP 使用、搜索、購(gòu)物、社交、娛樂等。小米是一家真正的大數(shù)據(jù)公司,小米的大數(shù)據(jù)和其他公司相比,最大的特點(diǎn)和優(yōu)勢(shì)是“全生態(tài)、多樣性”。
記者:在時(shí)下這個(gè)業(yè)務(wù)變更頻繁的背景下,可否為我們分享下小米大數(shù)據(jù)的實(shí)踐經(jīng)驗(yàn)?
宋強(qiáng):小米大數(shù)據(jù)在小米多個(gè)業(yè)務(wù)中得到了充分的應(yīng)用和實(shí)踐。首先是廣告營(yíng)銷,通過點(diǎn)擊預(yù)估算法提升廣告收入,通過營(yíng)銷 DMP 幫助廣告主進(jìn)行精準(zhǔn)營(yíng)銷等等。其次,大數(shù)據(jù)在小米金融業(yè)務(wù)中也廣泛應(yīng)用,包括風(fēng)控和征信分析、反欺詐等。在搜索和推薦業(yè)務(wù)中,大數(shù)據(jù)對(duì)各種算法的提升也起到了至關(guān)重要的作用,包括查詢理解、相關(guān)性模型和點(diǎn)擊預(yù)估等。
記者:目前小米廣告大數(shù)據(jù)已發(fā)展較為成熟,您覺得未來會(huì)朝著哪些趨勢(shì)發(fā)展?
宋強(qiáng):未來的趨勢(shì)應(yīng)該是更加智能化。首先是算法的智能化,隨著機(jī)器學(xué)習(xí)和人工智能的進(jìn)一步發(fā)展,大數(shù)據(jù)的價(jià)值將得到更加充分的挖掘。其次是營(yíng)銷的智能化,通過多維立體的用戶標(biāo)簽數(shù)據(jù),從性別、年齡等基礎(chǔ)數(shù)據(jù),到 APP 使用頻次和時(shí)長(zhǎng)、運(yùn)動(dòng)軌跡、手機(jī)信號(hào)等數(shù)據(jù)形成的興趣標(biāo)簽,再到精準(zhǔn)的時(shí)間、位置、場(chǎng)景化標(biāo)簽,幫助廣告主進(jìn)行更加智能化的廣告營(yíng)銷。
記者:數(shù)據(jù)應(yīng)用場(chǎng)景是數(shù)據(jù)商業(yè)化過程中重要的方面之一。小米的廣告大數(shù)據(jù)有哪些應(yīng)用場(chǎng)景?
宋強(qiáng):小米廣告大數(shù)據(jù)的應(yīng)用場(chǎng)景有很多,首先是廣告算法優(yōu)化,包括點(diǎn)擊率預(yù)估、反作弊、用戶體驗(yàn)優(yōu)化、廣告主 ROI 優(yōu)化等多個(gè)方向。其次是營(yíng)銷 DMP,小米的營(yíng)銷 DMP 通過整合媒體、投放平臺(tái)以及廣告主的各方數(shù)據(jù),使用大數(shù)據(jù)技術(shù)對(duì)用戶的特征進(jìn)行挖掘,為廣告主提供了20多個(gè)維度、上百個(gè)標(biāo)簽的實(shí)時(shí)用戶畫像管理。
記者:與搜索的基礎(chǔ)架構(gòu)相比廣告平臺(tái)要求更高的實(shí)時(shí)性反饋,小米廣告平臺(tái)的架構(gòu)是怎樣的?
宋強(qiáng):小米廣告平臺(tái)負(fù)責(zé)小米應(yīng)用商店、瀏覽器、一點(diǎn)資訊、小米電視等全線軟硬件幾十個(gè)業(yè)務(wù)的變現(xiàn)。支持應(yīng)用游戲下載、信息流、搜索、開屏、視頻貼片、電視畫報(bào)等十余種主流和創(chuàng)新的移動(dòng)廣告形式??偟恼f來,小米廣告的業(yè)務(wù)比較復(fù)雜和多樣化,小米廣告平臺(tái)的架構(gòu)也是隨著業(yè)務(wù)的發(fā)展不斷的迭代和優(yōu)化。
目前整個(gè)系統(tǒng)架構(gòu)包括接入層、服務(wù)層、算法層和存儲(chǔ)層。接入層負(fù)責(zé)流量的接入、管理、配置和運(yùn)營(yíng)。服務(wù)層是廣告檢索的核心,包含廣告選取、過濾、排序等核心邏輯,主要的服務(wù)有廣告交易平臺(tái)、效果和排期廣告服務(wù)等。算法層負(fù)責(zé)點(diǎn)擊率預(yù)估、預(yù)算平滑、精準(zhǔn)定向等算法,存儲(chǔ)層則是各種廣告和用戶數(shù)據(jù)訪問層。
廣告平臺(tái)架構(gòu)在演化過程中,我們一直秉承以下幾個(gè)思路:
首先,架構(gòu)為業(yè)務(wù)服務(wù),每一次架構(gòu)的迭代都是業(yè)務(wù)驅(qū)動(dòng)的。我們的團(tuán)隊(duì)也是按照業(yè)務(wù)進(jìn)行劃分的,每個(gè)業(yè)務(wù)團(tuán)隊(duì)有明確的目標(biāo),通過目標(biāo)驅(qū)動(dòng)架構(gòu)的微調(diào)和迭代,也許架構(gòu)并不是完美的但卻是最有效的。
其次,業(yè)務(wù)邏輯配置化+公共邏輯服務(wù)化。不同廣告業(yè)務(wù)在產(chǎn)品形態(tài)、素材規(guī)格、競(jìng)價(jià)方式方面會(huì)有所不同并且會(huì)隨著時(shí)間不斷變化,架構(gòu)必須足夠靈活來支持業(yè)務(wù)的變化和差異化。通過資源管理平臺(tái)對(duì)廣告位進(jìn)行自動(dòng)化的管理,使得業(yè)務(wù)邏輯配置化。同時(shí),不同業(yè)務(wù)總是有一些共性的需求,通過對(duì)公共邏輯的模塊化和服務(wù)化,減少耦合和重復(fù)建設(shè),提高系統(tǒng)的穩(wěn)定性和可靠性。
記者:準(zhǔn)確的廣告點(diǎn)擊率預(yù)估可以提高真實(shí)的廣告點(diǎn)擊率,增加收益。能否為我們?cè)敿?xì)介紹下小米的點(diǎn)擊預(yù)估實(shí)踐?
宋強(qiáng):點(diǎn)擊預(yù)估是廣告算法的核心,我們的點(diǎn)擊預(yù)估工作大部分時(shí)間都是在做特征挖掘和模型優(yōu)化。特征挖掘更像是一門藝術(shù),需要熟悉業(yè)務(wù),更需要靈感。算法工程師每天的工作就是搜腸刮肚找出跟用戶點(diǎn)擊廣告相關(guān)的信號(hào)。大部分可能是弱信號(hào),組合起來才能發(fā)揮威力。模型則是兵器庫(kù),過去兩年我們嘗試了離線 LR,在線 FTRL,非線性模型 FM 和 GBDT,以及正在實(shí)驗(yàn)中的深度模型等,有很多收獲,也碰到了很多坑。由于小米廣告的業(yè)務(wù)比較多,我這里分別介紹應(yīng)用分發(fā)、搜索和信息流廣告的點(diǎn)擊預(yù)估工作。
應(yīng)用分發(fā):移動(dòng)互聯(lián)網(wǎng)發(fā)展到今天,應(yīng)用推廣仍然是效果廣告主的首要訴求。依托于小米應(yīng)用商店、瀏覽器和小米視頻等 app,應(yīng)用分發(fā)成為了小米廣告平臺(tái)收入的重要組成部分,算法優(yōu)化則是不斷提升收入的利器。
特征工程方面,我們嘗試了以下幾大類的特征:用戶特征(人口屬性、系統(tǒng)信息等)、廣告特征(id、類別、位置等)、用戶行為特征(app 歷史安裝、近期下載、近期使用等)、用戶廣告行為特征(廣告的曝光、點(diǎn)擊、下載等)、組合特征(用戶特征 X 廣告特征等)。其中,用戶行為特征被證明為最有效,這也是和業(yè)務(wù)/產(chǎn)品形態(tài)最最密切相關(guān)的特征。模型方面,從最開始的 LR 到天級(jí)的 FTRL,再到小時(shí)級(jí)的 FTRL,效果逐步提升。
搜索:這里的搜索指的也是應(yīng)用搜索,主要依托于應(yīng)用商店和瀏覽器龐大的搜索流量進(jìn)行變現(xiàn)。在模型優(yōu)化方面,最初的模型是一個(gè)純文本相關(guān)性的模型,主要考慮搜索關(guān)鍵詞和廣告文本(包括 app 的名稱、描述等)的相關(guān)性。接著我們嘗試了行為相關(guān)性模型,主要是基于協(xié)同過濾的思想來計(jì)算兩個(gè)app的相似性(item-based)。今年開始正式采用了點(diǎn)擊率模型,收入也是取得了大幅度的增長(zhǎng)。
特征工程方面,和應(yīng)用分發(fā)類似,也是這么幾大類的特征。需要重點(diǎn) highlight 的是搜索上下文特征在搜索場(chǎng)景最有效,比如搜索關(guān)鍵詞、搜索自然結(jié)果及分類、搜索來源等。
信息流:信息流廣告起源于 Facebook,在國(guó)內(nèi)多家廣告平臺(tái)取得成功(如今日頭條,微博等)。信息流的廣告形式有大圖、小圖、組圖等形式,廣告類型包括應(yīng)用分發(fā)、H5 和視頻等。競(jìng)價(jià)方式也是多種多樣,CPC/CPD/CPM/CPT 要啥有啥。小米信息流廣告的主要載體是一點(diǎn)資訊和瀏覽器,也是我剛進(jìn)小米之后接手的第一塊業(yè)務(wù)。
信息流廣告的算法優(yōu)化和應(yīng)用分發(fā)類似,也有一些不同的地方。信息流廣告的素材更新頻繁,廣告數(shù)量也比較多。反應(yīng)到模型方面,小時(shí)級(jí)的 FTRL 模型比天級(jí)模型有大幅度的提升。
記者:時(shí)下機(jī)器學(xué)習(xí)、人工智能等新技術(shù)越發(fā)火爆,小米毋庸置疑也應(yīng)用了這些技術(shù)。請(qǐng)問小米應(yīng)用的機(jī)器學(xué)習(xí)反作弊功能是怎樣實(shí)現(xiàn)的?
宋強(qiáng):首先,移動(dòng)端的作弊和刷量現(xiàn)象非常嚴(yán)重。據(jù)統(tǒng)計(jì),70%的推廣渠道存在刷量作弊行為。移動(dòng)端的作弊手段也是多種多樣,主要表現(xiàn)在:
刷機(jī):通過特殊的刷機(jī)軟件,篡改手機(jī)的環(huán)境參數(shù),如 IMEI/MAC 等,模擬多用戶下載、激活和使用。
模擬器:通過虛擬機(jī)軟件(bluestacks,Virtual Box 等)自動(dòng)運(yùn)行腳本,模擬用戶點(diǎn)擊、下載、激活、留存等數(shù)據(jù)。
程序化點(diǎn)擊:通過雇傭或者劫持的方式,利用大量真實(shí)設(shè)備進(jìn)行程序化的點(diǎn)擊、下載、激活等。
反作弊的關(guān)鍵技術(shù):
設(shè)備真?zhèn)巫R(shí)別:一般是通過 SDK 的方式采集硬件信息,為每臺(tái)設(shè)備生成唯一的設(shè)備 id,后續(xù)即使刷量者對(duì)設(shè)備的硬件信息進(jìn)行修改,唯一的設(shè)備 id 也不會(huì)變。市場(chǎng)上有多家公司提供了類似的解決方案,比如數(shù)盟、量江湖、maxent 等。小米與其中幾家公司有緊密的合作,并且自己也開發(fā)了一套基于硬件標(biāo)識(shí)的設(shè)備真?zhèn)巫R(shí)別方案。
用戶行為分析:不管是哪種作弊手段,都是有規(guī)律可循的,通過大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)一定能找到蛛絲馬跡(正所謂“魔高一尺,道高一丈”,“天網(wǎng)恢恢,疏而不漏”……)。比如用戶 IP 分布異常、機(jī)型分布異常、點(diǎn)擊率異常、下載激活時(shí)間間隔異常、留存率和使用時(shí)長(zhǎng)異常等等。作弊的仿真度越高,異常特征就越不明顯,對(duì)應(yīng)的反作弊技術(shù)和代價(jià)也就越高。
記者:對(duì)于服務(wù)商而言用戶體驗(yàn)非常關(guān)鍵,基于廣告大數(shù)據(jù)的小米在用戶體驗(yàn)優(yōu)化上做了哪些努力?
宋強(qiáng):首先,用戶體驗(yàn)優(yōu)化的目標(biāo)是通過減少?gòu)V告展現(xiàn)來提升用戶體驗(yàn),但這里有兩個(gè)問題需要解決:用戶體驗(yàn)的指標(biāo)是什么?如何平衡廣告收入和用戶體驗(yàn)?對(duì)于用戶體驗(yàn),不同的產(chǎn)品有不同的定義:下滑率,搜索次數(shù),頁(yè)面點(diǎn)擊率等。為了簡(jiǎn)化優(yōu)化目標(biāo),我們挑選了以下幾個(gè)對(duì)于大部分產(chǎn)品都適用的指標(biāo):主要指標(biāo)是留存率和日活率,次要指標(biāo)是使用次數(shù)和時(shí)長(zhǎng)。
用戶體驗(yàn)?zāi)P途C合考慮了幾個(gè)方面的因素來決定廣告最終是否展現(xiàn)給用戶:首先是廣告質(zhì)量分模型。最簡(jiǎn)單的質(zhì)量分模型只考慮廣告效果,比如 CTR,RankScore(綜合考慮 CTR/CVR 和出價(jià)的廣告排序分?jǐn)?shù))等?;谶@些數(shù)據(jù)可以做簡(jiǎn)單的“斷尾計(jì)劃”(也就是對(duì)于 CTR 或者 RankScore 做一個(gè)閾值控制)。這種方案實(shí)現(xiàn)簡(jiǎn)單,但效果一般。目前我們正在實(shí)驗(yàn)用戶容忍度模型和用戶影響力模型,以后有機(jī)會(huì)再展開來講。
記者:為了獲取真實(shí)可用的數(shù)據(jù)從而提升收益,小米提出了廣告主 ROI 算法模型。那么能否詳細(xì)介紹下這一模型?
宋強(qiáng):點(diǎn)擊預(yù)估模型的優(yōu)化目標(biāo)是 eCPM 和收入,但是廣告主的投放目標(biāo)是 ROI,兩個(gè)目標(biāo)是不完全一致的。另外,不同的廣告主對(duì)于 R 的定義也不一樣,有的是激活/留存(新聞資訊),有的是用戶注冊(cè)(金融理財(cái)),有的是下單/消費(fèi)(電商購(gòu)物)。
廣告主 ROI 優(yōu)化牽涉兩方面的工作:數(shù)據(jù)收集和模型優(yōu)化。
數(shù)據(jù)收集:廣告數(shù)據(jù)的完整生命周期包括曝光、點(diǎn)擊、下載、激活、留存、注冊(cè)、消費(fèi)等。其中曝光/點(diǎn)擊/下載是發(fā)生在流量方的數(shù)據(jù),可以很容易獲取并用于點(diǎn)擊預(yù)估模型,提升廣告收入。激活和留存是廣告主 app 的使用數(shù)據(jù),通過 MIUI 系統(tǒng)可以獲取。注冊(cè)和消費(fèi)則是廣告主 app 內(nèi)部使用數(shù)據(jù),很難通過系統(tǒng)的方式獲取,需要和廣告主進(jìn)行數(shù)據(jù)合作。
模型優(yōu)化:以激活率模型為例,可以結(jié)合 CTR 模型進(jìn)行,通過激活數(shù)據(jù)修改 CTR 模型的正樣本來調(diào)整點(diǎn)擊預(yù)估結(jié)果。也可以單獨(dú)訓(xùn)練激活率模型,然后在廣告排序中同時(shí)考慮 CTR 和 CVR。
記者:前面講了很多大數(shù)據(jù)在廣告算法中的應(yīng)用,能否總結(jié)一下經(jīng)驗(yàn)?
宋強(qiáng):我們的算法團(tuán)隊(duì)在過去將近兩年的時(shí)間里,從點(diǎn)擊預(yù)估開始,逐步拓展到反作弊、用戶體驗(yàn)優(yōu)化、廣告主 ROI 優(yōu)化、智能出價(jià)、預(yù)算平滑等方向。取得了一些成績(jī),也踩過了很多坑。由于人力有限,我們的算法工作絕大部分時(shí)間都是在特征工程和模型優(yōu)化兩方面,我這里就圍繞這兩塊做一些經(jīng)驗(yàn)總結(jié):
特征工程:首先,和業(yè)務(wù)本身相關(guān)的行為特征是最有效的,比如“用戶在商店的安裝列表”相比用戶屬性(比如年齡性別),對(duì)點(diǎn)擊預(yù)估更有效。其次,保持?jǐn)?shù)據(jù)的“原汁原味”,二次加工反而容易丟失信息。比如將用戶的歷史瀏覽加工成用戶的靜態(tài)興趣分布,還不如直接用原始的歷史瀏覽有效。最后,組合特征才能發(fā)揮最大威力。
模型優(yōu)化:首先,不要輕易放棄線性模型,通過適當(dāng)?shù)慕M合特征一般來說效果會(huì)非常好。離線實(shí)驗(yàn)了 FM 等非線性模型,效果并不明顯。其次,線性模型+深度模型可能是未來的方向,比如 Google 最近的 Wide&Deep Learning,我們正在線下實(shí)驗(yàn),已經(jīng)看到一些效果。
記者:您在分布式系統(tǒng)架構(gòu)、大數(shù)據(jù)分析、數(shù)據(jù)庫(kù)和查詢優(yōu)化方面都有著豐富的經(jīng)驗(yàn),可否分享下您學(xué)習(xí)新知識(shí)或技能的方法?以及在日常生活中是通過哪些方式來提升個(gè)人技能的?
宋強(qiáng):我個(gè)人對(duì)技術(shù)比較有熱情,以前學(xué)習(xí)新知識(shí)和提升技術(shù)的主要方式就是看書和寫代碼,現(xiàn)在有一部分時(shí)間花在了團(tuán)隊(duì)管理上面,但仍然保持著“學(xué)習(xí)-實(shí)踐-交流”這樣一種方式來不斷提升自己的技術(shù)。
學(xué)習(xí):活到老學(xué)到老,主動(dòng)學(xué)習(xí)仍然是獲取新知識(shí)最重要的方式。現(xiàn)在技術(shù)的發(fā)展日新月異,每天都有新的東西出來。當(dāng)然不需要也沒有精力都去學(xué),但是和業(yè)務(wù)相關(guān)的技術(shù),我一般都會(huì)花一些時(shí)間去了解和學(xué)習(xí)。
實(shí)踐:最好的技術(shù)提升在實(shí)踐中,離開了業(yè)務(wù)實(shí)踐,空談系統(tǒng)架構(gòu)和算法優(yōu)化都是沒有意義的。我每天會(huì)花大量的時(shí)間和同事一起討論系統(tǒng)設(shè)計(jì)并進(jìn)行代碼 review,讓自己保持對(duì)業(yè)務(wù)和技術(shù)的敏感性。
交流:我們團(tuán)隊(duì)內(nèi)部定期會(huì)有技術(shù)交流,比如 druid 實(shí)時(shí)數(shù)據(jù)分析,redis 優(yōu)化等。我們團(tuán)隊(duì)有很多技術(shù)大牛,他們對(duì)技術(shù)非常熱衷并樂于分享,每次技術(shù)交流都讓我受益匪淺。另外,我也參加一些業(yè)界的技術(shù)交流,向大牛學(xué)習(xí)的同時(shí)也分享自己的一些經(jīng)驗(yàn)。
來源:CSDN
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新