預(yù)測(cè)性客戶分析之推薦觸達(dá)客戶的最佳渠道(Part 2)
TalkingData | 2018-03-08 08:00
【數(shù)據(jù)猿導(dǎo)讀】 企業(yè)如何獲取客戶?他們需要遵循哪些步驟?首先,企業(yè)需要識(shí)別他們的市場(chǎng)以及潛在客戶。然后,企業(yè)需要通過合適的廣告或優(yōu)惠來觸達(dá)潛在客戶,這需要有效和高效的溝通渠道

你會(huì)變成我的客戶嗎
企業(yè)如何獲取客戶?他們需要遵循哪些步驟?
首先,企業(yè)需要識(shí)別他們的市場(chǎng)以及潛在客戶。企業(yè)需要識(shí)別他們并且將他們作為潛在客戶。然后,企業(yè)需要通過合適的廣告或優(yōu)惠來觸達(dá)潛在客戶,這需要有效和高效的溝通渠道。企業(yè)應(yīng)該吸引潛在客戶去訪問在線站點(diǎn)并且查看他們產(chǎn)品和服務(wù)。
當(dāng)潛在客戶對(duì)產(chǎn)品發(fā)生興趣時(shí),企業(yè)應(yīng)該讓客戶參與進(jìn)來,回答他們的問題,并且給出報(bào)價(jià)來協(xié)助他們購(gòu)買產(chǎn)品。
高傾向潛客
我們有一個(gè)產(chǎn)品,例如一個(gè)高端的筆記本電腦。誰是更有可能購(gòu)買我們產(chǎn)品的客戶?是那些有家庭和體面收入的中年人?還是那些收入比較低的大學(xué)生?這個(gè)推論是基于他們的人口統(tǒng)計(jì)學(xué)特性得來的。所有營(yíng)銷部門面臨的第一個(gè)巨大挑戰(zhàn)就是識(shí)別出更有可能購(gòu)買產(chǎn)品的潛在客戶。
這個(gè)用例的目標(biāo)是給我們營(yíng)銷部門識(shí)別出的潛在客戶生成一個(gè)購(gòu)買傾向評(píng)分。傾向評(píng)分可以是二進(jìn)制表示的0或者1,或者可以更好一些,它可以是個(gè)從0到1中的連續(xù)數(shù)值。我們需要使用什么樣的數(shù)據(jù)呢?在這個(gè)階段,唯一可用的數(shù)據(jù)集是潛在客戶的人口統(tǒng)計(jì)學(xué)特性,比如年齡、薪水、家庭等屬性。
關(guān)于事件,這些潛在客戶可能已經(jīng)參與或還沒參與到我們企業(yè)的任何活動(dòng)當(dāng)中,因此事件數(shù)據(jù)變?yōu)榱丝蛇x的數(shù)據(jù)。使用它的一種方式是用二進(jìn)制的標(biāo)識(shí),比如潛客是否瀏覽過我們的網(wǎng)站:
-
他/她是否回復(fù)過我們的電子郵件?
-
他/她是否對(duì)我們的企業(yè)或者產(chǎn)品發(fā)過推文?
當(dāng)然,所有這些歷史數(shù)據(jù)都會(huì)打上過去活動(dòng)最終效果的標(biāo)簽。我們?cè)撌褂檬裁礃拥乃惴▉韲L試?我們可以使用回歸來生成一個(gè)傾向評(píng)分或者使用樸素貝葉斯分類來給出一個(gè)轉(zhuǎn)化為購(gòu)買的可能性。
理想情況下,我們希望得分在0和1之間。用這個(gè)模型來對(duì)我們的潛在客戶進(jìn)行評(píng)分。然后營(yíng)銷部門可以整理這個(gè)清單,根據(jù)分?jǐn)?shù)將其清除或根據(jù)分?jǐn)?shù)生成一個(gè)top X的列表。
那么這樣做的價(jià)值是什么呢?我們可以定期執(zhí)行此用例,或者當(dāng)我們的市場(chǎng)部準(zhǔn)備了一個(gè)潛在客戶列表。我們使用以前的數(shù)據(jù)來建立傾向模型,然后基于該模型,我們?yōu)槊總€(gè)潛在客戶生成一個(gè)分?jǐn)?shù)。然后,我們的營(yíng)銷部門將使用這些信息想潛在客戶提供優(yōu)惠和促銷。
推薦觸達(dá)的最佳渠道
一旦我們有一個(gè)潛在客戶名單,我們需要決定如何與他們進(jìn)行最佳的溝通。有多種渠道可供使用,例如電話、電子郵件、手機(jī)、互聯(lián)網(wǎng)或者社交媒體上的定向廣告。
但不同的人對(duì)不同的媒體有不同的反應(yīng)。有人喜歡關(guān)注他收到的營(yíng)銷電子郵件,總會(huì)點(diǎn)擊并閱讀;有的人則相反,他會(huì)將這些電子郵件過濾到垃圾文件夾中;也有人傾向于在網(wǎng)頁瀏覽中點(diǎn)擊基于其近期搜索推送的彈窗廣告。
這個(gè)用例的目標(biāo)是推薦聯(lián)系潛在客戶的最佳渠道。很多媒介以這種方式去鎖定客戶,因?yàn)檫@樣能夠獲得最高的關(guān)注度并且獲得最高的投入產(chǎn)出比。那我們?cè)撌褂檬裁磾?shù)據(jù)呢?與潛客相關(guān)的數(shù)據(jù)最為常見,我們還應(yīng)該使用以往成功的營(yíng)銷活動(dòng)的數(shù)據(jù),在這些營(yíng)銷活動(dòng)中,我們通過特定渠道、觸達(dá)了特定潛在客戶并實(shí)現(xiàn)了潛客轉(zhuǎn)化。
這些數(shù)據(jù)告訴我們哪些人通過哪些渠道轉(zhuǎn)化。利用這些數(shù)據(jù),我們可以構(gòu)建一個(gè)模型去預(yù)測(cè)未來潛客的觸達(dá)渠道,隨后用這個(gè)模型對(duì)潛客的未來行為進(jìn)行預(yù)測(cè)。
我們將要使用什么算法呢?這是一個(gè)經(jīng)典的分類問題,因此我們會(huì)采用以前的相關(guān)算法去實(shí)驗(yàn)其精確度。我們利用過去的數(shù)據(jù)構(gòu)建了一個(gè)模型,為每個(gè)潛在的客戶推薦一個(gè)進(jìn)行觸達(dá)的媒介。
那么這么做的價(jià)值是什么呢?我們將會(huì)使用過去的數(shù)據(jù)去構(gòu)建一個(gè)分類模型,用這個(gè)模型去對(duì)每個(gè)潛在客戶預(yù)測(cè)最佳的觸達(dá)渠道。這將會(huì)幫助我們的營(yíng)銷團(tuán)隊(duì)去設(shè)置針對(duì)性的活動(dòng),幫助他們通過特定的渠道觸達(dá)特定的潛在客戶。
按照訪客購(gòu)買傾向提供聊天
我們有網(wǎng)上的銷售代表隨時(shí)準(zhǔn)備與訪問者建立聯(lián)系,并且吸引客戶購(gòu)買我們的產(chǎn)品。但是通常我們有太多的網(wǎng)站訪問者,而且他們大部分是只看不買的人。我們希望我們的銷售代表只與那些真正想要購(gòu)買的訪客進(jìn)行聊天,我們不想浪費(fèi)我們銷售代表的時(shí)間。
想象一下,客戶比較產(chǎn)品,例如筆記本電腦。這意味著他/她做了決策嗎?他/她開始閱讀商品評(píng)論,他對(duì)購(gòu)買是認(rèn)真的嗎?他/她正在查看我們的售后保證條款,這意味著他/她做了決策嗎?我們?nèi)绾闻袛嗄兀?/p>
這個(gè)用例的目標(biāo)是根據(jù)客戶在我們網(wǎng)站上的實(shí)時(shí)行為,反復(fù)預(yù)測(cè)一個(gè)客戶的購(gòu)買傾向。當(dāng)客戶在我們網(wǎng)站進(jìn)行活動(dòng)時(shí),我們想要持續(xù)計(jì)算和修正傾向得分。這個(gè)用例的數(shù)據(jù)源是潛客的屬性數(shù)據(jù)以及潛在客戶在訪問我們網(wǎng)站時(shí)進(jìn)行的活動(dòng)數(shù)據(jù),包括他檢出的產(chǎn)品,他的相關(guān)行為。例如,是否查看過評(píng)論?比較過商品?對(duì)售后保障是否有興趣?這些是通過在瀏覽器上的網(wǎng)頁點(diǎn)擊事件來衡量的。
我們需要使用每個(gè)潛在客戶過去每次的訪問數(shù)據(jù),以及訪問的最終結(jié)果,比如他是否進(jìn)行了購(gòu)買。
樸素貝葉斯將會(huì)是最適合的算法,因?yàn)樗峁┝艘粋€(gè)概率分?jǐn)?shù)。我們會(huì)使用過去的數(shù)據(jù),包括客戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)、網(wǎng)站行為數(shù)據(jù),利用樸素貝葉斯算法構(gòu)建一個(gè)傾向性模型。然后我們使用這個(gè)傾向性模型去預(yù)測(cè)我們現(xiàn)在網(wǎng)站的訪問者的購(gòu)買傾向性。那么,這么做的價(jià)值是什么呢?我們基于過去的數(shù)據(jù)構(gòu)建一個(gè)離線模型去根據(jù)一個(gè)客戶在網(wǎng)站的行為建立一個(gè)傾向分。
當(dāng)一個(gè)新的潛客訪問我們的網(wǎng)站時(shí),網(wǎng)站點(diǎn)擊事件會(huì)被持續(xù)收集。每次當(dāng)一個(gè)新的事件被收集時(shí),例如查看評(píng)論或者比較商品,模型會(huì)根據(jù)收集到的數(shù)據(jù)進(jìn)行運(yùn)行而重新計(jì)算一個(gè)傾向分。當(dāng)傾向分達(dá)到特定的閾值時(shí),在線商店可以做出決定去觸發(fā)聊天,這是我們可以通過原型來驗(yàn)證的東西。
我將會(huì)給大家展示如何用Python實(shí)現(xiàn)這個(gè)用例。
我們將會(huì)實(shí)現(xiàn)實(shí)時(shí)預(yù)測(cè)我們網(wǎng)站訪問用戶的傾向評(píng)分的用例。當(dāng)訪問者到我們的網(wǎng)站時(shí),他們開始瀏覽產(chǎn)品并且檢出不同的鏈接。我們想要做的是基于他們的活動(dòng),實(shí)時(shí)預(yù)測(cè)他們的傾向評(píng)分,決定我們是否需要提供他們?cè)诰€聊天。
如下是客戶瀏覽的樣例數(shù)據(jù):
這個(gè)數(shù)據(jù)包含不同用戶過去的所有的會(huì)話的信息,它包含一個(gè)session id,以及一系列的布爾型變量,這些變量將會(huì)變?yōu)槲覀兊奶卣髯兞俊_@些布爾型變量是根據(jù)訪客的行為而生成的1或者0。
images的含義是訪問者是否瀏覽過產(chǎn)品的圖片,reviews代表訪問者是否真正瀏覽過產(chǎn)品的評(píng)論。類似的,我們有FAQ、specs、shipping、bought_together、comparison of products等等屬性。最終,有一個(gè)目標(biāo)變量,代表著訪客最終是否購(gòu)買了產(chǎn)品或者沒有購(gòu)買產(chǎn)品。這將會(huì)是我們用戶構(gòu)建這個(gè)模型的數(shù)據(jù)集。
在真實(shí)世界,如果我們想要獲得真正高精度的預(yù)測(cè),我們需要一個(gè)非常巨大的數(shù)據(jù)集。我們從輸入一系列python庫,以及輸入browsing.csv到一個(gè)叫做prospect_data的dataframe開始。
`from pandas import Series, DataFrame
import pandas as pd
import numpy as np
import os
import matplotlib.pylab as plt
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report
import sklearn.metrics
prospect_data = pd.read_csv("browsing.csv")
prospect_data.dtypes`
然后我們會(huì)看一下數(shù)據(jù)類型,確認(rèn)數(shù)據(jù)是否被正確裝載。
SESSION_ID int64
IMAGES int64
REVIEWS int64
FAQ int64
SPECS int64
SHIPPING int64
BOUGHT_TOGETHER int64
COMPARE_SIMILAR int64
VIEW_SIMILAR int64
WARRANTY int64
SPONSORED_LINKS int64
BUY int64
dtype: object
這份數(shù)據(jù)包含用戶在他瀏覽網(wǎng)站過程中點(diǎn)擊的不同的鏈接的信息。這是用于構(gòu)建模型的過去的數(shù)據(jù)。
-
Session ID:瀏覽web會(huì)話的唯一ID。
-
Buy:潛在用戶在結(jié)束時(shí)是否購(gòu)買了商品。
-
其他列: 0或者1表示潛在用戶是否訪問了特定的頁面或者進(jìn)行了特定的活動(dòng)。
#對(duì)數(shù)據(jù)進(jìn)行匯總統(tǒng)計(jì)分析
prospect_data.describe()
為此,我們將在這個(gè)課程中使用純粹的測(cè)試條方法,我們將按照70/30的比例進(jìn)行分割。我們會(huì)檢查比例大小是否與我們預(yù)期的一致,350比150應(yīng)該是正確的。緊接著,我們將進(jìn)入模型構(gòu)建過程。我們使用sklearn庫中含有的naive_bayes算法——高斯naive_bayes。我們首先創(chuàng)建naive_bayes分類器,然后使用擬合方法構(gòu)建模型,將其應(yīng)用于訓(xùn)練預(yù)測(cè)分析以及訓(xùn)練目標(biāo)中。
進(jìn)行關(guān)聯(lián)分析
prospect_data.corr()[‘BUY’]
SESSION_ID 0.026677
IMAGES 0.046819
REVIEWS 0.404628
FAQ -0.095136
SPECS 0.009950
SHIPPING -0.022239
BOUGHT_TOGETHER -0.103562
COMPARE_SIMILAR 0.190522
VIEW_SIMILAR -0.096137
WARRANTY 0.179156
SPONSORED_LINKS 0.110328
BUY 1.000000
Name: BUY, dtype: float64
觀察上邊的關(guān)聯(lián)信息,我們可以看到一些特征比如REVIEWS、BRO_TOGETHER、COMPARE_SIMILIAR、WARRANTY 和SPONSORED_LINKS與目標(biāo)變量有一定的關(guān)聯(lián)性。我們將會(huì)減少特征去使用這些變量。
#Drop columns with low correlation
predictors = prospect_data[[‘REVIEWS’,’BOUGHT_TOGETHER’,’COMPARE_SIMILAR’,’WARRANTY’,’SPONSORED_LINKS’]]
targets = prospect_data.BUY
訓(xùn)練和測(cè)試分片
我們現(xiàn)在將把數(shù)據(jù)按照70:30切分為訓(xùn)練集和測(cè)試機(jī),去構(gòu)建和驗(yàn)證模型。
pred_train, pred_test, tar_train, tar_test = train_test_split(predictors, targets, test_size=.3)
print( “Predictor?—?Training : “, pred_train.shape, “Predictor?—?Testing : “, pred_test.shape )
Predictor - Training : (350, 5) Predictor - Testing : (150, 5)
構(gòu)建模型和檢查準(zhǔn)確度
from sklearn.naive_bayes import GaussianNB
classifier=GaussianNB()
classifier=classifier.fit(pred_train,tar_train)
predictions=classifier.predict(pred_test)
#Analyze accuracy of predictions
sklearn.metrics.confusion_matrix(tar_test,predictions)
array([[76, 18],
[24, 32]])
sklearn.metrics.accuracy_score(tar_test, predictions)
0.71999999999999997
我們可以做一個(gè)概率預(yù)測(cè)來顯示一個(gè)潛在客戶購(gòu)買產(chǎn)品的概率,而不是做一個(gè)Yes/No的預(yù)測(cè)。
pred_prob=classifier.predict_proba(pred_test)
pred_prob[0,1]
0.35088586866049354
如上的概率可以理解為有35%的可能性這個(gè)潛在客戶會(huì)購(gòu)買產(chǎn)品。
實(shí)時(shí)預(yù)測(cè)
現(xiàn)在模型已經(jīng)構(gòu)建好了,讓我們將它用在實(shí)時(shí)預(yù)測(cè)上。當(dāng)我們的客戶開始一個(gè)個(gè)訪問我們的頁面時(shí),我們收集訪問的列表然后用它來計(jì)算概率。當(dāng)每一個(gè)點(diǎn)擊進(jìn)來時(shí),我們都會(huì)做預(yù)測(cè)。
潛在客戶剛剛來到我們的網(wǎng)站,因此沒有有用的點(diǎn)擊。讓我們計(jì)算他的概率,傳遞的數(shù)組應(yīng)該包含REVIEWS、BOUGHT_TOGETHER、COMPARE_SIMILAR、WARRANTY和SPONSORED_LINKS的值,所以這個(gè)數(shù)字在開始所有的值都是0。
browsing_data = np.array([0,0,0,0,0]).reshape(1, -1)
print(“New visitor: propensity :”,classifier.predict_proba(browsing_data)[:,1]
New visitor: propensity : [ 0.03961746]
因此最初的概率是4%。現(xiàn)在假設(shè)客戶在相似的商品做了比較,數(shù)組的值中包含了一個(gè)1,因此新的概率將會(huì)是:
browsing_data = np.array([0,0,1,0,0]).reshape(1, -1)
print(“After checking similar products: propensity :”,classifier.predict_proba(browsing_data)[:,1] )
After checking similar products: propensity : [ 0.09898671]
概率值上升到了接近10%。緊接著,他查看了評(píng)論。
browsing_data = np.array([1,0,1,0,0]).reshape(1, -1)
print(“After checking reviews: propensity :”,classifier.predict_proba(browsing_data)[:,1] )
After checking reviews: propensity : [ 0.57538836]
這個(gè)時(shí)候概率值超過了50%。我們可以設(shè)置一個(gè)觸發(fā)我們和客戶聊天的閾值。我們持續(xù)地將這個(gè)概率與之進(jìn)行比較,去決定我們是否需要彈出對(duì)話框。
這個(gè)例子告訴我們?nèi)绾螌?shí)時(shí)地利用預(yù)測(cè)分析,去決定一個(gè)潛客是否具有高的轉(zhuǎn)化傾向,從而給銷售代表彈出一個(gè)對(duì)話框。
所以,請(qǐng)記住,當(dāng)這些人繼續(xù)進(jìn)來時(shí),傾向是否總是上升并不重要,它甚至可能會(huì)下降,這一切都取決于數(shù)據(jù)是如何。 這樣,我們可以隨時(shí)決定何時(shí)提供聊天窗口。
作者:Ryan Aminollahi
譯者:TalkingData研發(fā)副總裁 閆志濤
來源:TalkingData
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新