?

国产精品高潮呻吟久久AV无码,在线观看亚洲糸列,888奇米亚洲影视四色,中文字幕动漫精品第1页,国产大屁股视频免费区,半夜他强行挺进了我的体内,免费看国产曰批40分钟,国产女人片最新视频,要做AV在线播放,欧美韩日精品一区二区三区

百分點技術大咖:你離精準銷售預測還有多遠?

【數(shù)據猿導讀】 大數(shù)據變得越來越重要,其核心應用預測也成為互聯(lián)網行業(yè)以及產業(yè)變革的重要力量。我們可以看到,利用大數(shù)據進行預測幾乎成為所有領域的關鍵,不管是科技、商業(yè)、財經、體育賽事,還是政治大選

百分點技術大咖:你離精準銷售預測還有多遠?

ArchSummit全球架構師峰會剛剛結束,這場秉承“實踐第一、案例為主”原則的論壇匯聚了很多行業(yè)大咖總結在行業(yè)應用中的最新實踐,百分點數(shù)據科學家唐新春分享了《基于機器學習對銷售預測的研究》,結合實踐案例講解在探索精準銷售預測之路的四個坑。沒到現(xiàn)場的可以在這里學到干貨了。

大數(shù)據變得越來越重要,其核心應用預測也成為互聯(lián)網行業(yè)以及產業(yè)變革的重要力量。我們可以看到,利用大數(shù)據進行預測幾乎成為所有領域的關鍵,不管是科技、商業(yè)、財經、體育賽事,還是政治大選。

其中,跟企業(yè)業(yè)務相關的銷售預測,是完善客戶需求管理、指導運營以提高企業(yè)利潤為最終目的商業(yè)問題,因而更為復雜。

單純從模型角度來說,做到精準預測很容易,但是結合業(yè)務提高企業(yè)利潤卻很難。預測精確性是核心痛點:離精準預測還有多遠?

我們很有必要對銷售預測及其分析方法進行全面且深入的了解,結合實踐中的幾個坑來分析,試圖達到精準預測這個終極目標。

第一個坑:機器學習的幻想

機器學習是一個常用的預測類分析法,它可以從海量數(shù)據中挖據出規(guī)律。但機器學習不是萬能的,一方面,機器學習具有應用場景局限性。銷售預測要結合業(yè)務場景,還要和供應鏈對接,目的不是為提高銷量,而是為增加企業(yè)利潤而做。

舉個栗子,ZARA銷售預測為服裝業(yè)界所稱道,還沒有第二家超越它。細細看來,ZARA的產品可以粗略分為兩種: 基本款和時裝,對應的,ZARA在它的新貨構成中,65%計劃生產,35%機動調整。

基本款例如白T恤、男襯衣、男女西裝等,款式很少變化而且需求比較穩(wěn)定。這類產品對應上述的“基礎性產品”的概念。只要有足夠的安全庫存,這類產品基本不會缺貨。應為這種產品建立以降低成本為目標的庫存策略。

但這35%之前是靠遍布全歐洲的買手來提供創(chuàng)意、設計,而現(xiàn)在這一切則依靠大數(shù)據預測來實現(xiàn)。

新款時裝推出的時候,并沒有以往的銷售數(shù)據,產品的需求是相對難以預測的。如果ZARA盲目給新產品預備大量的貨,有可能新產品其實并不受歡迎導致嚴重滯銷;相反,備貨過少,則可能造成嚴重缺貨而失去大量銷售額。要解決這個困境,比博弈更靠譜的方法就是提高供應鏈的快速反應能力。

除了設計外,非常關鍵的一點是:ZARA全部自營店的管理方針,可以做到從設計、數(shù)據采集、到鋪貨完全貫徹以客戶導向,將前后端緊密相連(O2O),通過銷售數(shù)據隨時調整生產運營的手法。

另一方面,機器學習關注的與銷售有關的相關因素,利用各因素之間的相關性對未來銷售進行預測,而不是基于因果關系。

比如,2009年Google通過搜索引擎里面的關鍵詞檢索日志的時間序列數(shù)據,成功預測了流感爆發(fā)的時間和規(guī)模。Google并不是利用流感產生的原因等相關數(shù)據,而是跟流感爆發(fā)的相關性數(shù)據,比如人們對“流感”的搜索頻率等。但是到了2012年,發(fā)生了一些變化,是因為將搜索數(shù)據進行了過度關聯(lián)。

同樣,基于機器學習對商品的銷量的預測,是利用與商品銷量相關的數(shù)據集來完成預測,其預測結果無法告知客戶:通過調整什么樣的參數(shù)可以使銷量增加,因為這是因果分析的范疇。

第二個坑:忽略數(shù)據是銷售預測的核心

1.無數(shù)據或數(shù)據質量低,會影響模型預測效果。業(yè)界流行一句話:沙子進來沙子出,金子進來金子出。對數(shù)據要進行收集,搜集除已有數(shù)據之外的額外信息(比如天氣、地點、節(jié)假日、金融政策、風俗等),再在搜集的數(shù)據基礎上進行預處理。

2.同時也是模型選擇的先決條件,先數(shù)據,后模型。對于一些客戶想先把算法的效果給他們看的要求只能說“臣妾做不到啊!”

比如百分點在一個電商預測模型中,梳理出六大維度70多個指標。再比如Zara的每款產品都有標簽,哪個門店售賣、什么時間賣的、是不是會員賣的、賣的什么類型的衣服都有詳細的產品明細,這樣對于他們后續(xù)作分析是很有幫助的,例如哪個時間段購買的人最多,哪幾個衣服放在一起比較好賣,哪個地段哪個款式比較受歡迎(是不是跟周邊的寫字樓or住宅樓有關系)等等一切,這些都可以通過數(shù)據直接看到。

第三個坑:LOST在算法里,與業(yè)務匹配的模型才是好模型

算法問題要回歸到業(yè)務問題,作為指導建模的理論基礎?,F(xiàn)在的預測模型都是場景性、定制化開發(fā)的,尚未出現(xiàn)一個成熟的產品,都要先結合業(yè)務測試,再選模型。但每個模型都用一遍也會浪費大量的時間和精力,這里根據經驗推薦一些適合的方法。

(1)ARIMA,一般應用在股票和電商銷量領域。

ARIMA模型是指將非平穩(wěn)時間序列轉化為平穩(wěn)時間序列,然后將結果變量做自回歸(AR)和自平移(MA)。

(2)邏輯回歸,是在線性回歸的基礎上套用了邏輯函數(shù),主要用于分類和回歸問題。

(3)決策樹,由內結點和葉結點所組成的樹形結構,用于分類或回歸問題,一般有三個部分組成:特征選擇、決策樹生成和決策樹剪枝。

原理簡介:

Ø 通過訓練數(shù)據,形成if-then規(guī)則集合

Ø 由根節(jié)點到葉節(jié)點的每一條路徑構成規(guī)則

Ø 對結果變量有主要解釋作用的特征會先分裂形成規(guī)則

Ø 回歸樹用平方誤差最小化準則,節(jié)結點為單元內數(shù)值的平均值

優(yōu)點:

Ø 可擬合非線性規(guī)律,計算復雜度較低

缺點:

Ø 容易出現(xiàn)過擬合

(4)隨機森林:

用隨機的方式建立一個森林,森林由很多決策樹組成,隨機森林的每一棵決策樹之間是沒有關聯(lián)的。在得到森林之后,當有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應該屬于哪一類(對于分類算法),然后看看哪一類被選擇最多,就預測這個樣本為那一類;

原理簡介:

Ø 是包含多個回歸樹的組合器

Ø 輸出的數(shù)值是由個別樹輸出的數(shù)值的平均而定

優(yōu)點:

Ø 準確度高

Ø 訓練速度快

Ø 容易做出并行算法

Ø 可處理大量變量并評估變量重要性

缺點:

Ø 在噪聲較大的數(shù)據上會有過擬合問題

(5)xgboost:

xgboost的全稱是eXtreme Gradient Boosting。它是Gradient Boosting Machine(GBM是一個加性回歸模型,通過boosting迭代的構造一組弱學習器)的一個c++實現(xiàn)。創(chuàng)建之由為受制于現(xiàn)有庫的計算速度和精度,xgboost最大的特點在于,它能夠自動利用CPU的多線程進行并行,同時在算法上加以改進提高了精度。不同于傳統(tǒng)的GBDT方式,只利用了一階的導數(shù)信息,xgboost對損失函數(shù)做了二階泰勒展開,并在目標函數(shù)之外加入了正則項整體求最優(yōu)解,用以權衡目標函數(shù)的下降和模型的復雜程度,避免過擬合。

原理簡介:

Ø 是基于傳統(tǒng)的GBDT上做了一些優(yōu)化的開源工具包,目前有python,R,Java版。

優(yōu)點:

Ø 高速準確

Ø 可移植,可以自己定義假設函數(shù)

Ø 可容錯

(6)神經網絡:神經網絡是指模型生物神經網絡,用于分類和回歸問題。通常包含有:輸入層、隱藏層和輸出層。

原理簡介:

Ø 是利用一系列非線性回歸,將預測變量映射到結果變量的一種方法。

優(yōu)點:

Ø 準確度高

Ø 訓練速度快

Ø 并行處理能力強

缺點:

Ø 需要大量的參數(shù)

Ø 不能觀察學習的過程,對結果難以解釋

(7)支持向量回歸(SVR)

SVR最本質與SVM類似,都有一個margin,只不過SVM的margin是把兩種類型分開,而SVR的margin是指里面的數(shù)據不會對回歸有任何幫助。

原理簡介:

是通過尋求結構化風險最小來提高學習泛化能力,實現(xiàn)經驗風險和置信范圍最小化,從而達到獲得良好統(tǒng)計規(guī)律的目的

優(yōu)點:

可以解決小樣本情況下的機器學習問題

可以解決高維、非線性問題

缺點:

對非線性問題沒有通用解決方案,對核函數(shù)的選擇非常敏感

第四個坑:評價效果唯銷量論

評估效果不能只看銷量,要綜合考慮,需要參考業(yè)務對接、預測精度、模型可解釋性和產業(yè)鏈整體能力等因素綜合考慮;不能簡單作為企業(yè)利潤增加的唯一標準。我們的經驗是,預測結果僅作為參考一個權重值,還需要專家意見,按照一定的權重來計算。

專家預測法: 由專家根據他們的經驗和判斷能力對待定產品的未來銷售進行判斷和預測,通常有三種不同的形式:

(1)個別專家法:分別向每位專家征求對本企業(yè)產品未來銷售情況的個人意見,然后將這些意見再加以綜合分析,確定預測值。

(2)將專家分成小組:運用專家們的集體智慧進行判斷預測的方法。

(3)德爾菲法:它采用函詢的方式,征求各方面專家的意見,各專家在互不通氣的情況下,根據自己的觀點和方法進行預測,然后由企業(yè)把各個專家的意見匯集在一起,通過不記名方式反饋給各位專家,請他們參考別人的意見修正本人原來的判斷,如此反復數(shù)次,最終確定預測結果。

四、總結:

銷售預測的方法選擇取決于:預測的目的、預測的期數(shù)(根據預測時間的長短,可以分為短期預測、中期預測和長期預測。

從上圖可以看出,在此案例中,xgboost和隨機森林算法模型的預測效果較好,其中運用xgboost方法預測某商品的銷量,其可視化圖形如下:

可以看出,銷量的預測值的趨勢已經基本與真實銷量趨勢保持一致,但是在預測期較長的區(qū)間段,其預測值與真實值之間的差別較大。除了以上列舉的一些預測方法,百分點已經在嘗試使用更復雜的模型來做銷售預測,如HMM、深度學習(Long Short-Term Memory網絡)等;同時,也需要考慮到模型的可解釋性、模型的可落地性和可擴展性、避免“黑箱”預測;還在嘗試采用混合的機器學習模型,比如GLM+SVR,ARIMA + NNET等。

最后,銷售預測幾乎是商業(yè)智能研究的終極問題,縱使通過機器學習算法模型能夠提高測試集的預測精度,但是對于未來數(shù)據集的預測,想做到精準預測以使企業(yè)利潤最大化,還需要考慮機器學習模型之外的企業(yè)本身因素。比如,企業(yè)的整體供應鏈能力等,如何將企業(yè)因素加入到機器學習模型之中,是未來預銷售預測的一個難點與方向。因此,要想解決銷售預測終極問題還有一段路要走。

作者介紹

唐新春 百分點數(shù)據科學家,清華大學碩士學歷,曾負責完成中國某兵器研究院的大型激光器相關算法的研發(fā)項目,在加入百分點之前,曾在生物信息公司中負責生物大數(shù)據的分析和數(shù)據挖掘;在百分點負責在金融領域的征信模塊開發(fā)、銷售預測領域預測模型研究,以及零售類用戶畫像的研發(fā)等工作?,F(xiàn)研究興趣為運用機器學習、數(shù)據挖掘等技術在產業(yè)界的落地實踐,為不同行業(yè)提供大數(shù)據服務。


來源:百分點

聲明:數(shù)據猿尊重媒體行業(yè)規(guī)范,相關內容都會注明來源與作者;轉載我們原創(chuàng)內容時,也請務必注明“來源:數(shù)據猿”與作者名稱,否則將會受到數(shù)據猿追責。

刷新相關文章

旅游交通大數(shù)據——大眾旅游時代的“富礦”
旅游交通大數(shù)據——大眾旅游時代的“富礦”
#榜樣的力量#疾控AI分析平臺WDCIP——以科技力量貢獻“大數(shù)據”智慧丨數(shù)據猿新冠戰(zhàn)“疫”公益策劃
#榜樣的力量#疾控AI分析平臺WDCIP——以科技力量貢獻“大數(shù)...
張涵誠:大數(shù)據招商平臺可推動地方供給側改革
張涵誠:大數(shù)據招商平臺可推動地方供給側改革

我要評論

精品欄目

返回頂部