大數(shù)據(jù)應(yīng)用案例:電信用戶分群精準(zhǔn)畫(huà)像的7個(gè)步驟
【數(shù)據(jù)猿導(dǎo)讀】 數(shù)據(jù)分析師不僅僅是呆板的技術(shù)人員,而且能溝通協(xié)調(diào)、整合資源的多面手。工作中最困難的還是數(shù)據(jù)源的采集和結(jié)構(gòu)化數(shù)據(jù)的獲取,本文重點(diǎn)以電信用戶為案例,給大家詳細(xì)分析電信用戶分群精準(zhǔn)畫(huà)像的7個(gè)步驟

本期我們有幸采訪到的嘉賓名叫蘭錦池,2012年碩士畢業(yè),概率論與數(shù)理統(tǒng)計(jì)專業(yè),崇尚概率論和統(tǒng)計(jì)學(xué)解決問(wèn)題的思想,喜愛(ài)折騰各種實(shí)際數(shù)據(jù),愿意跟數(shù)據(jù)挖掘模型死磕。
現(xiàn)在他是一名資深數(shù)據(jù)挖掘工程師,主要負(fù)責(zé)用戶行為分析和精準(zhǔn)營(yíng)銷相關(guān)工作;曾做過(guò)某電信省公司的手機(jī)用戶行為價(jià)值分群、手機(jī)終端升級(jí)概率預(yù)測(cè)模型、用戶流失預(yù)警模型等。
在蘭錦池看來(lái),工作中最困難的還是數(shù)據(jù)源的采集和結(jié)構(gòu)化數(shù)據(jù)的獲取,比如曾經(jīng)做用戶的手機(jī)上網(wǎng)行為畫(huà)像,需要采集手機(jī)上網(wǎng)日志數(shù)據(jù),并轉(zhuǎn)化為興趣點(diǎn)數(shù)據(jù)。需要數(shù)據(jù)分析獅提出數(shù)據(jù)需求、采集規(guī)則、計(jì)算口徑等非常詳細(xì)的方案,期間還得與業(yè)務(wù)和數(shù)據(jù)采集部門(mén)深入合作。簡(jiǎn)而言之,就是,數(shù)據(jù)分析獅不僅僅是呆板的技術(shù)人員,而且能溝通協(xié)調(diào)、整合資源的多面手。
本期,他帶來(lái)了一個(gè)電信用戶分群案例,與大家分享。
1、業(yè)務(wù)問(wèn)題背景
某省電信運(yùn)營(yíng)商e8套餐(寬帶+固話)升級(jí)e9(寬帶+固話+手機(jī))的主要業(yè)務(wù)目標(biāo)為針對(duì)e8客戶加裝電信C網(wǎng)號(hào)碼并購(gòu)買(mǎi)手機(jī),升級(jí)為e9融合套餐或e9自主套餐用戶。即,通過(guò)電信的自身的寬帶客戶資源,進(jìn)行精準(zhǔn)電話營(yíng)銷,促使用戶購(gòu)買(mǎi)手機(jī),從而提升電信在手機(jī)市場(chǎng)的占有率。
2、數(shù)據(jù)理解:e8升e9的數(shù)據(jù)理解
3、確定分析對(duì)象
本環(huán)節(jié)關(guān)鍵點(diǎn):
縮小分析基礎(chǔ)客戶群范圍,從表中238萬(wàn)寬帶客戶中篩選出24萬(wàn)符合業(yè)務(wù)目標(biāo)的e8客戶,作為數(shù)據(jù)挖掘的基礎(chǔ)客戶群
具體步驟:
常用的數(shù)據(jù)挖掘基礎(chǔ)客戶群篩選維度如下:
- 客戶群篩選,如寬帶客戶、手機(jī)客戶、固話客戶
- 套餐大類篩選:如e8、e9、樂(lè)享
- 特定業(yè)務(wù)規(guī)則篩選:如活動(dòng)對(duì)客戶網(wǎng)齡、套餐檔位的限定
- 互斥協(xié)議等篩選:根據(jù)活動(dòng)規(guī)則,對(duì)已有互斥協(xié)議的客戶進(jìn)行篩選
分析對(duì)象篩選流程:
以e8升e9為例,根據(jù)前期業(yè)務(wù)和數(shù)據(jù)理解,本次挖掘的基本目標(biāo)客戶為e8用戶,且在同賬戶下無(wú)C網(wǎng)手機(jī)。
具體數(shù)據(jù)樣本選取路徑如下:
注,具體操作方法:
- e8客戶篩選操作:選擇客戶“套餐類型”字段為“e8”的客戶
- e8客戶無(wú)C網(wǎng)手機(jī)篩選過(guò)程:將所有e8客戶的ACC_ID字段與“CDMA單月寬表”進(jìn)行關(guān)聯(lián),能關(guān)聯(lián)出C網(wǎng)號(hào)碼的即視為同賬戶下有C網(wǎng)手機(jī)。形成241243數(shù)據(jù)樣本。
4、變量篩選
以e8升e9案例中變量處理為例,具體篩選流程如下:
- 通過(guò)對(duì)67個(gè)字段明顯無(wú)關(guān)字段初步篩選后獲得18個(gè)主要字段。
- 此后,需根據(jù)字段理解對(duì)有明顯相關(guān)性的變量進(jìn)行篩選合并,如下面表格中的紅色字段,寬帶上行流量、寬帶下行流量和寬帶總流量三個(gè)字段存在明顯的關(guān)聯(lián)關(guān)系,因此根據(jù)業(yè)務(wù)需求可直接只選擇寬帶總流量進(jìn)行分析即可。
- 對(duì)于不確定是否有相關(guān)性的部分字段,可通過(guò)SPSS中“輸出”模塊中的“統(tǒng)計(jì)量”節(jié)點(diǎn)進(jìn)行相關(guān)性判斷。通常分析相關(guān)性結(jié)果大于0.666以上可基本判斷相關(guān)性較強(qiáng)。例如:寬帶使用流量字段與其他字段進(jìn)行關(guān)聯(lián)性分析,發(fā)現(xiàn)與寬帶使用時(shí)長(zhǎng)存在較強(qiáng)的相關(guān)性,因此這兩個(gè)個(gè)字段可選擇其中一個(gè)作為輸入變量即可。
- 最終確定模型的10個(gè)主要輸入變量。
5、決策樹(shù)模型的建立
(1)選擇模型輸入變量
根據(jù)數(shù)據(jù)準(zhǔn)備階段字段篩選結(jié)果選擇了9個(gè)字段作為模型輸入變量。CHAID節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)變量和預(yù)測(cè)變量設(shè)置,見(jiàn)下截圖。
(2)模型輸出結(jié)果
運(yùn)行CHAID決策樹(shù)節(jié)點(diǎn)后,Modeler會(huì)根據(jù)樣本數(shù)據(jù)和輸入變量訓(xùn)練決策樹(shù)模型。雖然輸入了9個(gè)變量但是CHAID決策樹(shù)節(jié)點(diǎn)訓(xùn)練的模型最終生成決策樹(shù)所選擇的變量只有5個(gè),分別是寬帶在網(wǎng)時(shí)長(zhǎng)(PD_PROM_FEE)、固話通話時(shí)長(zhǎng)(VO_MOU_FIX_AVG)、固話ARPU(MB_FIX_ARPU_AVG)、寬帶在網(wǎng)時(shí)長(zhǎng)(PD_BB_TENURE)、寬帶流量(VO_BB_VOL)。可以看出,這5個(gè)變量在都是具有重要業(yè)務(wù)含義的字段,基本符合建模目標(biāo)。
(3)決策樹(shù)輸出的初步結(jié)果
下圖,是決策樹(shù)模型輸出的結(jié)果,樹(shù)狀結(jié)構(gòu)末端的每個(gè)“葉子”,代表一個(gè)細(xì)分用戶群體。這個(gè)決策樹(shù)結(jié)果共有17個(gè)“葉子”節(jié)點(diǎn)。
6、模型調(diào)優(yōu)
e8升級(jí)e9模型中,決策樹(shù)模型驗(yàn)證調(diào)優(yōu)流程如下:
初步結(jié)果判定:
決策樹(shù)結(jié)果共有17個(gè)“葉子”節(jié)點(diǎn),用戶細(xì)分群體偏多,部分群體的規(guī)模小,占比不足5%,因此需要根據(jù)各葉子節(jié)點(diǎn)的特征,對(duì)決策樹(shù)的“葉子”進(jìn)行修剪合并。
比如,上圖中的節(jié)點(diǎn)1(套餐檔位<=68元的用戶),這個(gè)節(jié)點(diǎn)中的類別“1”用戶占比僅0.56%,較全樣本的整體類別“1”占比0.786%較低,說(shuō)明套餐檔位<=68元的用戶都是質(zhì)量較差的部分,加裝3G手機(jī)的可能性較低。從選取營(yíng)銷目標(biāo)用戶的角度,對(duì)這類用戶不需要進(jìn)行深入分析,因此可以把該節(jié)點(diǎn)下面的三層節(jié)點(diǎn)都剪裁合并。
模型的調(diào)整和優(yōu)化—子模型的建立
如果認(rèn)為決策樹(shù)的某個(gè)子節(jié)點(diǎn)對(duì)應(yīng)的決策樹(shù)規(guī)則不符合業(yè)務(wù)邏輯,則可選擇該決策樹(shù)節(jié)點(diǎn)下的樣本再建立一個(gè)子模型,從新選擇新的變量。
比如,對(duì)上述決策樹(shù)模型的結(jié)果,在套餐檔位為80~98元且寬帶在網(wǎng)時(shí)長(zhǎng)13個(gè)月以上的樣本分了四個(gè)子節(jié)點(diǎn),但是這四個(gè)節(jié)點(diǎn)的類別“1”占比并沒(méi)有遞增或者遞減的規(guī)律,這在業(yè)務(wù)邏輯上很難解釋。因此可針對(duì)該條件(套餐檔位為80~98元且寬帶在網(wǎng)時(shí)長(zhǎng)13個(gè)月以上)的樣本數(shù)據(jù),再單獨(dú)建立一個(gè)決策樹(shù)模型。
決策樹(shù)子模型的建立可參見(jiàn)如下截圖。首先,利用Modeler的樣本選擇節(jié)點(diǎn),選擇套餐檔位為80~98元且寬帶在網(wǎng)時(shí)長(zhǎng)13個(gè)月以上的樣本數(shù)據(jù);然后,在決策樹(shù)模型的節(jié)點(diǎn)選擇輸入變量時(shí),不要選擇寬帶在網(wǎng)時(shí)長(zhǎng)的字段,即調(diào)整輸入變量;這樣Modeler會(huì)根據(jù)新選擇的樣本和輸入變量建立一個(gè)新的決策樹(shù)模型(見(jiàn)下圖)。這就建立了一個(gè)更具有業(yè)務(wù)解釋性的決策樹(shù)子模型。
7、模型結(jié)果解釋
具體分群的數(shù)據(jù)結(jié)果如下:
根據(jù)三個(gè)主要判斷分群有效的原則,選擇提升倍數(shù)在1.3以上、客戶群規(guī)模占比5%以上的群體作為主要目標(biāo)客戶,一共4個(gè)客戶群。上述的群劃分規(guī)則即建模變量。
通過(guò)決策樹(shù)模型篩選出目標(biāo)用戶群后,需要進(jìn)一步根據(jù)不同細(xì)分目標(biāo)群體的消費(fèi)行為特征來(lái)推測(cè)客戶的主要業(yè)務(wù)需求。此時(shí)需要根據(jù)e8升e9的業(yè)務(wù)目標(biāo),選擇主要的字段來(lái)刻畫(huà)客戶特征。通常對(duì)客戶群各變量的均值來(lái)進(jìn)行描述,具體如下:
因此,具體客戶特征總結(jié)描述如下:
來(lái)源:CDA數(shù)據(jù)分析師
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書(shū)》重