預測性客戶分析之借助聚類和預測分析優(yōu)化售后服務（Part 4）

客戶分析售后模型

TalkingData | 2018-03-10 08:00

【數(shù)據(jù)猿導讀】本篇是這個系列文章的最后一個部分，將要說明的重點案例是利用聚類分析對售后問題進行分組，對不同分組進行分析，進而采取針對性的優(yōu)化或者行動

本篇是這個系列文章的最后一個部分，將要說明的重點案例是利用聚類分析對售后問題進行分組，對不同分組進行分析，進而采取針對性的優(yōu)化或者行動。

如果你讀過以前的幾篇文章，你知道在故事中，顧客X已經(jīng)購買了一臺筆記本電腦?，F(xiàn)在想象一下，他正嘗試在家里設(shè)置這臺電腦。在設(shè)置的時候，他發(fā)現(xiàn)該電腦無法與無線鍵盤正常連接。他認為自己搞砸了設(shè)置并試圖找到解決辦法：他瀏覽產(chǎn)品網(wǎng)站查看是否有任何自助視頻可幫助他找出原因，但他并沒找到任何有用的信息。然后他打電話給公司，得到了一個自動提示讓他提供所有的信息。

他在接下來的15分鐘排隊等候，最終，他排到了一位客戶代表，客戶代表再次要求他提供所有信息。正如你可以想象的那樣，X變得更加惱火?？蛻舸碓诼牭剿膯栴}后，通過電話向他提供了一些指示，但X無法理解并按照步驟來操作。他要求提供現(xiàn)場幫助，但客戶代表拒絕了他，說他的保修不包含現(xiàn)場服務。X感覺非常沮喪，開始考慮再也不從這家供應商購買任何東西。

這是因低質(zhì)量服務和支持而感到沮喪的無數(shù)顧客中的一個例子。在今天的互聯(lián)網(wǎng)世界中，更換供應商只需點擊一下鼠標即可。企業(yè)需要更努力、更聰明地保持現(xiàn)有客戶的滿意度，并且通過他們的推薦獲得新的客戶?？蛻舴樟鞒虖臑榭蛻籼峁┙换ミx項開始，從網(wǎng)站自助、電子郵件到電話支持，今天的支持中心運行在全方位的各種渠道上。

一旦客戶發(fā)起聯(lián)系，企業(yè)就需要為他們提供優(yōu)質(zhì)的服務：詢問最少的問題并迅速解決問題。

這就要求企業(yè)不僅要了解客戶，還要了解客戶當前問題發(fā)生的背景以及與客戶交互的整個過程。企業(yè)需要讓客戶感覺到企業(yè)真正了解并關(guān)心他的問題。

今天的客戶服務世界已經(jīng)開始轉(zhuǎn)向使用交互式語音和聊天機器人的自助服務和自動化的時代。

這些自動化的服務需要智能地預測客戶正在經(jīng)歷的事情，并能理解客戶問題，提供快速的解決方案。預測性分析肯定會對客戶服務領(lǐng)域有所幫助。

預測客戶發(fā)起聯(lián)系的目的

讓我們思考一下前面做錯了什么。假定客戶X在銷售階段已經(jīng)將自己的電話號碼提供給了公司，客戶支持難道不應該通過他的呼叫ID自動識別他嗎？

客戶X在筆記本電腦交付給他兩天之內(nèi)打電話，是否意味著這通電話非常有可能與這次購買有關(guān)呢？在第一次電話過程中，客戶支持針對他的筆記本電腦鍵盤問題創(chuàng)建了一個問題記錄，并且給了他一些建議。

然而，過了兩個小時之后他又打電話過來，客戶支持能否推測到他的第二個電話非常有可能與第一個問題記錄有關(guān)系？這個用例的目標是建立一個預測模型，這個預測模型可以預測客戶聯(lián)系企業(yè)的可能性原因。知道這個原因可以幫助企業(yè)快速將客戶對接到能解決相應問題的人那里，從而讓問題在第一次交互時得到解決。這個用例中的數(shù)據(jù)是過去的所有客戶和企業(yè)之間的交易數(shù)據(jù)。

這些數(shù)據(jù)包含銷售的交易信息，包括產(chǎn)品、狀態(tài)以及交付的詳細數(shù)據(jù)。我們將來也會使用客戶與企業(yè)以往聯(lián)系的數(shù)據(jù)。對于每一次聯(lián)系，我們會使用原因、處理這次聯(lián)系的客戶代表、時長、根本原因、解決方案、狀態(tài)等數(shù)據(jù)。這是一個分類問題，因此前面我們使用過的算法就比較適合。讓目標分類的數(shù)量小于10是非常重要的。

將要使用的算法會被用來產(chǎn)生預測目的模型，我們將會使用銷售交易和與以前的聯(lián)系相關(guān)的數(shù)據(jù)去產(chǎn)生這個模型，并將用模型預測客戶聯(lián)系的目的。行動計劃如下：這個分類模型會離線進行構(gòu)建，當一個客戶通過電話或者聊天工具聯(lián)系企業(yè)時，使用呼叫者ID或者用戶ID去識別客戶，然后使用算法去預測這次呼叫的原因。如果預測呼叫的原因是上一次的購買，則通過IVR回答客戶“您好，請問您是因最近購買的筆記本電腦有問題而需要幫助嗎”。客戶一定會感到非常高興，因為企業(yè)能夠猜測他的問題，盡管這不一定是真正的原因。

客戶分析_售后_模型-1

這恰當?shù)乇砻髁宋覀兝斫馑⑶抑浪诮?jīng)歷什么困難。

尋找不滿意的客戶

一個企業(yè)該如何發(fā)現(xiàn)他的客戶對于企業(yè)的產(chǎn)品或者服務是滿意還是不滿意呢？

第一，不滿意的客戶通常會對調(diào)查問卷進行反饋。仔細想一下，因為X先生對服務以及產(chǎn)品感到不滿意，他通常更愿意花時間去填寫調(diào)查問卷和發(fā)泄。但是Y女士則未必會如此。

第二，通常僅僅有10%的客戶會對調(diào)查進行反饋。那么企業(yè)如何能夠識別出那些沉默的、想要或者已經(jīng)轉(zhuǎn)移到其他企業(yè)的客戶呢？這個用例的目標是構(gòu)建一個模型，這個模型能夠預測企業(yè)的所有用戶的滿意度，不管這個用戶是否填寫了調(diào)查問卷。構(gòu)建這個模型的數(shù)據(jù)是從那些真實的已填寫調(diào)查問卷的客戶中得來的。

這份數(shù)據(jù)包括客戶的人口統(tǒng)計學數(shù)據(jù)以及用戶歷史行為數(shù)據(jù)，包括與公司之間的事件和交易數(shù)據(jù)以及結(jié)果。特別需要指出的是，這些數(shù)據(jù)包括缺陷、退貨、客戶支持的記錄、解決問題的時間以及呼叫服務電話的次數(shù)，這些數(shù)據(jù)構(gòu)成了特征變量。目標變量是從調(diào)查問卷得來的度的分數(shù)。比較典型的是這個分數(shù)是從0到5或者是從0到10的有一位到兩位小數(shù)的數(shù)字。

如果分數(shù)是離散的值，比如1、2、3、4、5，那么我們可以使用Gordon分類來處理。在我們的用例中，我們假定分數(shù)值是連續(xù)的，因此我們將會使用線性回歸算法。利用人口統(tǒng)計學和歷史的數(shù)據(jù)，構(gòu)建一個可以用來預測客戶滿意度分數(shù)的線性回歸方程。這個用例的行動計劃是：利用真正回答了調(diào)查問卷的客戶的數(shù)據(jù)構(gòu)建一個預測模型，來預測客戶滿意度分數(shù)。我們需要將調(diào)查數(shù)據(jù)進行規(guī)范化，從而去掉可能會影響整體模型的異常值，然后我們將模型應用到所有客戶，來發(fā)現(xiàn)客戶的滿意度評分。

客戶分析_售后_模型-2

然后我們的客戶支持團隊得到一個最不滿意的客戶列表，可以去主動聯(lián)系這些客戶，詢問他們使用產(chǎn)品的感受和問題或者最終給他們一些折扣。

將問題進行類型分組

客戶支持團隊每天在處理不同的問題，有些問題會被經(jīng)常問到并且簡單直接，技術(shù)工程師甚至可以在客戶解釋完問題之前就能給出解決方案。另外一些問題則不那么常見并且比較復雜，需要多次的電話溝通以及現(xiàn)場服務才能解決。一個網(wǎng)絡連接問題是非常容易診斷的，但是診斷一個筆記本電腦的藍屏問題則要困難得多。實際上人力資源成本是非常高的，因此企業(yè)需要找到優(yōu)化使用人力資源的方法。

這包含對一些問題提供在線幫助，包括對技術(shù)支持團隊更嚴格的培訓或者對復雜問題建立新的專家職位。為了幫助企業(yè)做這些決策，需要基于相似的屬性對問題進行分組。這是這個用例的目標，對于一個問題類型列表，企業(yè)需要識別邏輯的問題分組，從而使用它們?nèi)ラ_發(fā)優(yōu)化那些消耗最少人力資源的解決方案。

這個用例的數(shù)據(jù)，是從技術(shù)支持團隊記錄下來的問題庫數(shù)據(jù)中得到的問題統(tǒng)計數(shù)據(jù)。問題數(shù)據(jù)按照問題類型做匯總。特征數(shù)據(jù)是解決問題的平均時間、平均電話的次數(shù)、替換率等等。既然我們要創(chuàng)建邏輯分組，我們將要使用K-Means聚類算法或者相關(guān)的一些變種算法。通過多次采用不同的K值進行試驗來衡量出一個最佳的分組數(shù)量。

利用問題統(tǒng)計數(shù)據(jù)，我們能夠?qū)⑾嗨频膯栴}進行分組。行動計劃如下：當問題類型已經(jīng)被分組，我們將會分析每個分組去發(fā)現(xiàn)分組里邊的相似性，比如解決問題花了更長的時間或者非常低的發(fā)生率。然后我們就可以得出優(yōu)化解決方案的計劃，例如在我們的網(wǎng)站上提供自幫助、在YouTube提供視頻或者對這個問題領(lǐng)域的技術(shù)人員做更好的培訓。

客戶分析_售后_模型-3

作為一個企業(yè)，我們想要達到客戶支持的效率和有效性的最大化。這個用例幫助我們達到這個目標。

問題分組用例

我們?nèi)绾文軌驅(qū)⑾嗨频膯栴}分組到不同的問題類型，然后在組里對它們進行分析來判斷是否有任何模式，緊接著采取某些行動去解決效率和有效性問題？

客戶分析_售后_模型-4

載入數(shù)據(jù)集

In [1]:

%matplotlib inline

from pandas import Series, DataFrame
import pandas as pd
import numpy as np
import os
import matplotlib.pylab as plt
from sklearn.model_selection import train_test_split
from sklearn.cluster import KMeans
import sklearn.metrics

raw_data = pd.read_csv("issues.csv")
raw_data.dtypes

Out [1]:

PROBLEM_TYPE object
COUNT int64
AVG_CALLS_TO_RESOLVE float64
AVG_RESOLUTION_TIME int64
REOCCUR_RATE float64
REPLACEMENT_RATE float64
dtype: object

這個數(shù)據(jù)集對于每個唯一的問題類型有一條記錄，每個類型包含一些度量值，例如總量，解決問題平均電話次數(shù)，解決問題平均時常等等。

raw_data.head()

客戶分析_售后_模型-5

將數(shù)據(jù)分到不同的相似聚類組中

現(xiàn)在我們將會使用K-Means聚類去根據(jù)屬性將數(shù)據(jù)聚類到不同的組當中。首先，我們需要決定分組的最優(yōu)的數(shù)量，為此，我們采用膝部法來測試確定什么時候這個膝狀發(fā)生。（參照https://datasciencelab.wordpress.com/2013/12/27/finding-the-k-in-k-means-clustering/）

In [3]:

clust_data = raw_data.drop("PROBLEM_TYPE",axis=1)

#Finding optimal no. of clusters
from scipy.spatial.distance import cdist
clusters=range(1,10)
meanDistortions=[]

for k in clusters:
model=KMeans(n_clusters=k)
model.fit(clust_data)
prediction=model.predict(clust_data)
meanDistortions.append(sum(np.min(cdist(clust_data, model.cluster_centers_, 'euclidean'), axis=1)) / clust_data.shape[0])

#plt.cla()
plt.plot(clusters, meanDistortions, 'bx-')
plt.xlabel('k')
plt.ylabel('Average distortion')
plt.title('Selecting k with the Elbow Method')

客戶分析_售后_模型-6

Out [3]:

觀察那些點，我們發(fā)現(xiàn)膝狀發(fā)生在cluster=3的時候，這是聚類的最佳的數(shù)量，因此我們在實際操作中將會設(shè)置聚類的數(shù)量是3。然后我們在原始的數(shù)據(jù)集上添加聚類的ID。

In [4]:

#Optimal clusters is 3
final_model=KMeans(3)
final_model.fit(clust_data)
prediction=final_model.predict(clust_data)

#Join predicted clusters back to raw data
raw_data["GROUP"] = prediction
print("Groups Assigned : \n")
raw_data[["GROUP","PROBLEM_TYPE"]]
Groups Assigned :

客戶分析_售后_模型-7

對分組進行分析

我們現(xiàn)在可以做一系列的箱型圖去看這些不同組在不同的特征變量上的差異。我們從count先開始。

In [5]:

plt.cla()
plt.boxplot([[raw_data["COUNT"][raw_data.GROUP==0]],
[raw_data["COUNT"][raw_data.GROUP==1]] ,
[raw_data["COUNT"][raw_data.GROUP==2]] ],
labels=('GROUP 1','GROUP 2','GROUP 3'))

Out[5]:

{'boxes': [,
,
],
'caps': [,
,
,
,
,
],
'fliers': [,
,
],
'means': [],
'medians': [,
,
],
'whiskers': [,
,
,
,
,
]}

客戶分析_售后_模型-8

我們可以看到在不同的分組中問題的數(shù)量有明顯的區(qū)別。
接下來我們看解決問題的平均電話數(shù)量。

In [6]:

#Now for Avg. Calls to resolve
plt.cla()
plt.boxplot([[raw_data["AVG_CALLS_TO_RESOLVE"][raw_data.GROUP==0]],
[raw_data["AVG_CALLS_TO_RESOLVE"][raw_data.GROUP==1]] ,
[raw_data["AVG_CALLS_TO_RESOLVE"][raw_data.GROUP==2]] ],
labels=('GROUP 1','GROUP 2','GROUP 3'))

Out[6]:

{'boxes': [,
,
],
'caps': [,
,
,
,
,
],
'fliers': [,
,
],
'means': [],
'medians': [,
,
],
'whiskers': [,
,
,
,
,
]}

客戶分析_售后_模型-9

Group 2基本上不需要任何時間就能解決，這表明問題是非常簡單和直接的。企業(yè)需要去看看這些問題然后給客戶提供一個自服務的路徑（產(chǎn)品幫助、在線幫助）而不是浪費客戶代表的時間。

In [7]:

plt.cla()
plt.boxplot([[raw_data["REOCCUR_RATE"][raw_data.GROUP==0]],
[raw_data["REOCCUR_RATE"][raw_data.GROUP==1]] ,
[raw_data["REOCCUR_RATE"][raw_data.GROUP==2]] ],
labels=('GROUP 1','GROUP 2','GROUP 3'))

Out[7]:

{'boxes': [,
,
],
'caps': [,
,
,
,
,
],
'fliers': [,
,
],
'means': [],
'medians': [,
,
],
'whiskers': [,
,
,
,
,
]}

客戶分析_售后_模型-10

Group 2有非常高的復發(fā)率，這些問題需要進行分析去看看產(chǎn)品質(zhì)量如何改進以防止這些問題再次發(fā)生。

In [8]:

plt.cla()
plt.boxplot([[raw_data["REPLACEMENT_RATE"][raw_data.GROUP==0]],
[raw_data["REPLACEMENT_RATE"][raw_data.GROUP==1]] ,
[raw_data["REPLACEMENT_RATE"][raw_data.GROUP==2]] ],
labels=('GROUP 1','GROUP 2','GROUP 3'))

Out[8]:

{'boxes': [,
,
],
'caps': [,
,
,
,
,
],
'fliers': [,
,
],
'means': [],
'medians': [,
,
],
'whiskers': [,
,
,
,
,
]}

客戶分析_售后_模型-11

Group 1具有非常廣的替換率，它不能給出任何實際可以操作的模式。

Group 2沒有任何的替換，這是非常棒的?，F(xiàn)在看到的組級別的一些傾向，我們可以基于這些分析做一些組級別的決策。例如Group 2呼叫了很多次，但是解決基本不需要花時間，因此我們可以對Group 2利用自服務。Group 1則不同，呼叫的次數(shù)少，但是花了很多的時間去解決，并且有很高的替換率以及復發(fā)率，我們可能需要去看看產(chǎn)品是否有問題或者已修復問題是否還在發(fā)生。

這就是我們?nèi)绾卫镁垲惡皖A測分析去將我們的問題進行分組，然后基于組進行分析。

作者：Ryan Aminollahi

原文：https://towardsdatascience.com/predictive-customer-analytics-part-iv-ab15843c8c63

譯者：TalkingData研發(fā)副總裁閆志濤

來源：TalkingData

收藏分享

聲明：數(shù)據(jù)猿尊重媒體行業(yè)規(guī)范，相關(guān)內(nèi)容都會注明來源與作者；轉(zhuǎn)載我們原創(chuàng)內(nèi)容時，也請務必注明“來源：數(shù)據(jù)猿”與作者名稱，否則將會受到數(shù)據(jù)猿追責。