百度資深數(shù)據(jù)技術(shù)專家畢然:企業(yè)如何利用數(shù)據(jù)創(chuàng)造營銷價(jià)值
畢然 | 2016-04-12 15:57
【數(shù)據(jù)猿導(dǎo)讀】 人人都在講大數(shù)據(jù),對于企業(yè)來講,你知道數(shù)據(jù)分析能為企業(yè)帶來哪些價(jià)值嗎?公司到底有哪些業(yè)務(wù)可以和大數(shù)據(jù)相結(jié)合呢?百度自身數(shù)據(jù)技術(shù)專家畢然將在本文中給大家重點(diǎn)分享企業(yè)如何利用數(shù)據(jù)創(chuàng)造營銷價(jià)值

Q1:企業(yè)為什么要做數(shù)據(jù)分析,公司的業(yè)務(wù)哪些方面可以跟大數(shù)據(jù)進(jìn)行接合?
畢然:有人認(rèn)為:“數(shù)據(jù)分析不是一項(xiàng)有難度和價(jià)值的技術(shù)工作”,我認(rèn)為這是非常嚴(yán)重的誤解。在我的視野中,目前國內(nèi)很多企業(yè)的技術(shù)團(tuán)隊(duì)不太重視數(shù)據(jù)分析。主要原因在于數(shù)據(jù)分析的能力很難評價(jià),數(shù)據(jù)分析的能力不只是掌握統(tǒng)計(jì)知識和算法模型,更多是對業(yè)務(wù)產(chǎn)品的認(rèn)知、看法與判斷,這是很難量化的。據(jù)我所知,著名咨詢公司做一個(gè)數(shù)據(jù)分析項(xiàng)目,如果是3人力×3個(gè)月的投入規(guī)模,平均市場價(jià)格在千萬左右。而他們主要產(chǎn)出只是一份100頁左右的分析報(bào)告(PPT),在報(bào)告中也僅用簡單的統(tǒng)計(jì),從多個(gè)角度解讀業(yè)務(wù)和數(shù)據(jù),并提出建議方案。如果數(shù)據(jù)分析真的是那么簡單,市場價(jià)格為何如此之高,并且有這么多企業(yè)愿意花錢做數(shù)據(jù)分析項(xiàng)目?可見數(shù)據(jù)分析是物有所值。
Q2:從上面的市場價(jià)格,可以從側(cè)面看出數(shù)據(jù)分析被企業(yè)認(rèn)可。那么,數(shù)據(jù)分析價(jià)值具體體現(xiàn)在哪里?
畢然:數(shù)據(jù)技術(shù)有兩個(gè)分支:數(shù)據(jù)分析和數(shù)據(jù)建模。這兩點(diǎn)是很多企業(yè)“數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)”發(fā)展模式的核心,在業(yè)務(wù)發(fā)展的不同階段提供不同方面的價(jià)值。
●數(shù)據(jù)分析對企業(yè)的巨大價(jià)值體現(xiàn)在業(yè)務(wù)發(fā)展的前期(探索期)或階段性改進(jìn)期(顛覆期)。
●當(dāng)探索和變革業(yè)務(wù)模式時(shí),企業(yè)需要數(shù)據(jù)分析去明確業(yè)務(wù)中的問題、機(jī)遇及解決方案。
●企業(yè)最大的成本是決策成本,而數(shù)據(jù)分析是提高企業(yè)決策能力的關(guān)鍵。
●當(dāng)業(yè)務(wù)模式相對成熟時(shí),企業(yè)則需要數(shù)據(jù)建模來提升業(yè)務(wù)效率,減少運(yùn)營成本等。
兩者在不同階段的互相配合,才能使得業(yè)務(wù)的發(fā)展實(shí)現(xiàn)良性的循環(huán),不斷上升。
大數(shù)據(jù)時(shí)代,業(yè)務(wù)推進(jìn)的兩大動(dòng)力
Q3:如何快速搭建數(shù)據(jù)分析框架,建立方法論,數(shù)據(jù)分析的常用工具有哪些?
畢然:《紅樓夢》一書中有一段“黛玉教香菱寫詩”的篇章十分經(jīng)典,它道出了做好數(shù)據(jù)分析的“個(gè)中三味”。
黛玉道:“詞句究竟還是末事,第一是立意要緊。若意趣真了,連詞句不用修飾自是好的,這叫做‘不以詞害意’。”
香菱道:“我只愛陸放翁的‘重簾不卷留香久,古硯微凹聚墨多’,說的真切有趣。”
黛玉道:“斷不可看這樣的詩。你們因不知詩,所以見了這淺近的就愛,一入了這個(gè)格局,再學(xué)不出來的。你只聽我說,你若真心要學(xué),我這里有《王摩詰全集》,你且把他的五言律一百首細(xì)心揣摩透熟了,然后再讀一百二十首老杜的七言律,次之再李青蓮的七言絕句讀一二百首。肚子里先有了這三個(gè)人做了底子,然后再把陶淵明、應(yīng)、劉、謝、阮、庾、鮑等人的一看,你又是這樣一個(gè)極聰明伶俐的人,不用一年工夫,不愁不是詩翁了。”
——摘自《紅樓夢》
寫詩的立意與辭藻
黛玉提出了學(xué)詩的一個(gè)重要觀點(diǎn),要先學(xué)立意(格局)而不是辭藻(技巧)。陸游的詩不是不好,而是他早期的風(fēng)格偏“藻繪”(注:色彩華麗)。這并不是貶低陸游,每個(gè)人的詩作都有自己的風(fēng)格和美感。但如果初學(xué)者??催@樣的詩句,很容易過于追求修辭技巧,而忽略了詩的本質(zhì)是為了抒發(fā)思想和情感。黛玉推薦的王維、杜甫、李白,無一不是以詩言志、詩句中有深刻內(nèi)涵的典范。
同理,做好數(shù)據(jù)分析與學(xué)寫詩文一樣,真正的關(guān)鍵在技巧(統(tǒng)計(jì)技術(shù))之外,而在于對業(yè)務(wù)的觀察、思考與感悟,即分析的思路。
四者的關(guān)系如下圖所示。“業(yè)務(wù)調(diào)研”是數(shù)據(jù)分析的起點(diǎn),也是獲取分析思路的基礎(chǔ),但需要兼具深度和廣度的“創(chuàng)新思考”,才能獲取更獨(dú)到的分析思路。分析思路也可以認(rèn)為是統(tǒng)計(jì)數(shù)據(jù)的角度,完成數(shù)據(jù)統(tǒng)計(jì)后,需要“邏輯推理”來保證從數(shù)據(jù)到結(jié)論判斷的正確性。最后,用“可行建議”來保證分析結(jié)論的落地執(zhí)行,產(chǎn)生可量化的業(yè)績。這就是數(shù)據(jù)分析從業(yè)務(wù)中來,回業(yè)務(wù)中去的完成過程。
數(shù)據(jù)分析4個(gè)關(guān)鍵點(diǎn)的關(guān)系
一份優(yōu)秀的分析報(bào)告,最終呈現(xiàn)的統(tǒng)計(jì)方法一定要簡單清晰(make it simple),切忌喧賓奪主。如果報(bào)告的閱讀者需要花80%的精力來搞清楚統(tǒng)計(jì)方法,而不是理解分析結(jié)論,這份報(bào)告就失敗了。
Q4:從上面的分析中,我們看到,想做好數(shù)據(jù)分析比較復(fù)雜,所以,能否請你總結(jié)下,做好數(shù)據(jù)分析最基本的的流程是什么?
畢然:我認(rèn)為做好數(shù)據(jù)分析如寫好詩一樣,在于立意而不是技術(shù)。下面逐一展開講解“業(yè)務(wù)調(diào)研”、“創(chuàng)新思考”、“邏輯推理”和“可行建議”這四個(gè)關(guān)鍵。
業(yè)務(wù)調(diào)研和創(chuàng)新思考決定了“分析主題”的高低和“方案思路”的好壞;邏輯推理決定了從統(tǒng)計(jì)數(shù)據(jù)得出的“分析報(bào)告”是否可信;可行建議決定了分析報(bào)告的“業(yè)務(wù)落地”效果。做好這四個(gè)關(guān)鍵。才能確保數(shù)據(jù)分析項(xiàng)目的每個(gè)步驟都卓有成效,最終產(chǎn)生業(yè)務(wù)改進(jìn)。
數(shù)據(jù)分析的流程和關(guān)鍵點(diǎn)的作用位置
理解大數(shù)據(jù)價(jià)值,首先要明確“大數(shù)據(jù)”中“大”意味著什么?數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)分析、數(shù)據(jù)挖掘都是上個(gè)世紀(jì)就存在的學(xué)科,為何到了這個(gè)世紀(jì),這些學(xué)科紛紛戴上“大”的帽子,煥發(fā)出嶄新的生命力呢?大數(shù)據(jù)中的“大”有三個(gè)突出的經(jīng)濟(jì)價(jià)值。
價(jià)值1:大數(shù)據(jù)使“精細(xì)刻畫”變成了可能
精細(xì)刻畫指用很多特征來描述一種關(guān)系。因?yàn)槿绻占降臉颖玖亢苌伲蜔o法用較多的特征來細(xì)分樣本。因?yàn)槁涞矫總€(gè)細(xì)分格子中的樣本數(shù)過少使統(tǒng)計(jì)結(jié)論不置信,如“海淀區(qū)西二旗6~10歲的女童喜歡男性旅游鞋”的結(jié)論。雖然該結(jié)論很荒謬,但這種細(xì)致描述的方法還是很有價(jià)值的。市場細(xì)分意味著差異化需求,其中隱藏了巨大的商機(jī)。如果能夠獲取足夠大的樣本量,可以支撐更細(xì)致的結(jié)論,而不用擔(dān)心置信性。
這是“大數(shù)據(jù)”的第一個(gè)價(jià)值:有了“大數(shù)據(jù)”,一切統(tǒng)計(jì)模型都變得極其個(gè)性化。
如醫(yī)療領(lǐng)域的場景,當(dāng)醫(yī)生遇到新病人時(shí),一方面根據(jù)自己所學(xué)的理論知識進(jìn)行分析,另一方面也會和以往接觸過的病例進(jìn)行比對。如果之前遇見過與新病人很像的病例,當(dāng)時(shí)的治療方案已經(jīng)被印證效果良好,醫(yī)生會給出相近的診療方案。但每個(gè)醫(yī)生見過的病例是有限的。如果找不到完全一致的病例,就只能參考一些部分相似的病例,診療方案效果大概率會打折扣。這也是老中醫(yī)比年輕中醫(yī)受歡迎、一線城市的知名醫(yī)院比小城市的醫(yī)院更受歡迎的原因之一,因?yàn)榍罢呓?jīng)歷過更多的病例。大數(shù)據(jù)的價(jià)值類似于收集到足夠多的病例,對于每一個(gè)病人,均可以找到數(shù)量眾多的相似病例,那么對新病人的病情分析和治療方案會準(zhǔn)確、有效得多。
很多互聯(lián)網(wǎng)企業(yè)都在業(yè)務(wù)中使用這樣細(xì)致刻畫的模型,比如搜索引擎的廣告點(diǎn)擊率預(yù)估、電商網(wǎng)站的推薦系統(tǒng)等等,這些模型將一次查詢或一次推薦的場景刻畫的非常細(xì)致,甚至用成千上萬維度的特征來描述規(guī)律(如:買了某本書并團(tuán)購了某場電影票的年輕女性高概率會購買某件商品)。這種精細(xì)的刻畫沒有大數(shù)據(jù)的支持幾乎是不可能的,沒有大數(shù)據(jù)我們只能得到“女性喜歡A,男性喜好B”這樣很粗略的統(tǒng)計(jì)規(guī)律。
大樣本使大特征成為可能,大特征使大樣本發(fā)揮價(jià)值。
——大數(shù)據(jù)時(shí)代
大數(shù)據(jù)使得“統(tǒng)計(jì)科學(xué)”的重心發(fā)生了變化。經(jīng)典統(tǒng)計(jì)學(xué)更多探討“如何從抽樣的個(gè)體樣本推斷整體數(shù)據(jù)的統(tǒng)計(jì)結(jié)論”;而大數(shù)據(jù)時(shí)代,討論的主題則是“如何尋找合適的維度切分整體數(shù)據(jù),以便更好的推斷個(gè)體行為”。
價(jià)值2:大數(shù)據(jù)使“智能學(xué)習(xí)”變成可能
人類基于觀測數(shù)據(jù)探索世間規(guī)律,共經(jīng)歷了四個(gè)階段。
基于觀測數(shù)據(jù)探索規(guī)律所經(jīng)歷的四個(gè)階段
(注釋:階段3中的圖像圖片來自于Andrew Ng的報(bào)告《Machine Learning and AI via Brain simulations》第39頁)
階段1 規(guī)律=全部領(lǐng)域知識(用數(shù)學(xué)公式表示),數(shù)據(jù)用于啟發(fā)思路和驗(yàn)證假說:科學(xué)家根據(jù)觀察到的現(xiàn)象提出假說(表達(dá)規(guī)律的數(shù)學(xué)公式),然后收集實(shí)驗(yàn)數(shù)據(jù)來驗(yàn)證假說。
典型如牛頓第二定律F=ma,物體的加速度與所受外力正比,與物體質(zhì)量成反比。在生活中時(shí)有體會,推動(dòng)一個(gè)物體,使用的力氣越大,它的加速越快;該物體越沉重(需排除摩擦力的干擾),它加速的越慢。相信大家對中學(xué)含有小車、砝碼與滑輪的物理實(shí)驗(yàn)記憶猶新。這個(gè)階段,數(shù)據(jù)在人類學(xué)習(xí)的過程中,主要起“啟發(fā)科學(xué)家設(shè)計(jì)假說的思路”和“驗(yàn)證假說有效性”的作用。
階段2 規(guī)律=大部分領(lǐng)域知識+小部分統(tǒng)計(jì)學(xué)習(xí):人類將某個(gè)領(lǐng)域的知識梳理清楚,留下小部分內(nèi)容交給機(jī)器基于數(shù)據(jù)來學(xué)習(xí)。
典型如自然語言處理(NLP)中的語法解析,首先由人類總結(jié)出語法規(guī)則,根據(jù)語法規(guī)則解析某句話,如“he drive down the street in the car“,這句話既可以解析成“他開車穿過街道”,也可以解析成“他穿過車?yán)锏慕值?rdquo;,兩種方式均滿足語法規(guī)則)。但前者是人類在該語境中習(xí)慣的表達(dá)方法,而后者則不是。哪個(gè)解析結(jié)果更符合語境,可以交由機(jī)器解決,它通過語料庫(大量資料、文獻(xiàn)、對話的文本記錄),判斷前者出現(xiàn)(被使用)的概率更高。最終,人類總結(jié)的語法規(guī)則和機(jī)器在語法規(guī)則上建立的統(tǒng)計(jì)模型一起完成了語法解析的任務(wù)。
階段3 規(guī)律=小部分領(lǐng)域知識+大部分統(tǒng)計(jì)學(xué)習(xí):機(jī)器學(xué)習(xí)越來越智能,越來越多的領(lǐng)域知識不再需要人類梳理和總結(jié),而可以通過機(jī)器自動(dòng)學(xué)到。
典型如近些年火熱的深度學(xué)習(xí)模型,進(jìn)一步減少了機(jī)器學(xué)習(xí)對領(lǐng)域知識的依賴。在圖像處理的人臉識別問題中,通過深層次的神經(jīng)網(wǎng)絡(luò),可以自動(dòng)學(xué)習(xí)出從像素到邊界、從邊界到部位、再從部位到人臉的深層次圖像內(nèi)涵,不再依賴人類的梳理總結(jié)。但網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)和非線性變換的函數(shù),依然需要人類基于圖像處理領(lǐng)域的特點(diǎn)去設(shè)定,所以不能說全部脫離領(lǐng)域知識。
階段4 規(guī)律=全部統(tǒng)計(jì)學(xué)習(xí)。
曾看過一篇科研報(bào)道,當(dāng)一個(gè)人的聽覺細(xì)胞全部壞死后,部分視覺細(xì)胞開始承擔(dān)聽覺的功能。這說明人腦細(xì)胞的學(xué)習(xí)能力并不受領(lǐng)域知識結(jié)構(gòu)的限制。人類從遠(yuǎn)古到現(xiàn)今,沒有其他生命告訴人類世間的規(guī)律和道理。但我們從零開始,一代代的探索和積累,形成了對這個(gè)宇宙中各種規(guī)律的認(rèn)知。如果機(jī)器有一天能夠完全不帶任何假設(shè)(前置的領(lǐng)域知識)的學(xué)習(xí),它就真正具備人類的學(xué)習(xí)能力了。機(jī)器可以自動(dòng)探索世界,代替人類做科學(xué)研究。
這四個(gè)階段的演變過程是統(tǒng)計(jì)學(xué)習(xí)越來越智能的過程,所需的數(shù)據(jù)量也由少變多。驗(yàn)證一個(gè)規(guī)律,只需要采集少量實(shí)驗(yàn)數(shù)據(jù)點(diǎn)即可。而在領(lǐng)域知識(假設(shè))越來越少的情況下,統(tǒng)計(jì)學(xué)習(xí)則要承擔(dān)更多的探索,需要的數(shù)據(jù)量也越來越多。
所以,大數(shù)據(jù)帶來的第二個(gè)價(jià)值,是使“智能學(xué)習(xí)”變?yōu)榭赡堋V挥袛?shù)據(jù)量足夠大,機(jī)器才能減少對領(lǐng)域知識的依賴,更加智能的學(xué)習(xí)。
注釋:使用機(jī)器學(xué)習(xí)領(lǐng)域的專業(yè)術(shù)語“越強(qiáng)大的模型,意味著越寬泛的假設(shè)空間,需要越多的數(shù)據(jù)樣本,否則模型會過擬合”。
價(jià)值3:數(shù)據(jù)疊加的價(jià)值是非線性增長:1+1>2
前兩種價(jià)值也可以這樣理解:單一種類的數(shù)據(jù)量增多,可以捕捉更加細(xì)致的規(guī)律(關(guān)系Y-X,Y與X的可能數(shù)量增多)和更加復(fù)雜的規(guī)律(Y-X之間的關(guān)系復(fù)雜)。此外,隨著數(shù)據(jù)種類的增多,信息會交織在一起,提供更豐富的內(nèi)涵。
在移動(dòng)互聯(lián)網(wǎng)與可穿戴設(shè)備興起的今天,幾乎每個(gè)人的生活都會在網(wǎng)絡(luò)上留下印記:個(gè)人數(shù)據(jù)、搜索數(shù)據(jù)、電商數(shù)據(jù)、社交數(shù)據(jù)、地圖數(shù)據(jù),如果將這些數(shù)據(jù)整合在一起,幾乎可以完整的描繪一個(gè)人,他的所見所想、所需所求。
可見,在營銷領(lǐng)域,利用大數(shù)據(jù)可以讓企業(yè)主更精準(zhǔn)的找到目標(biāo)受眾,而在“智能學(xué)習(xí)”、非線性增長領(lǐng)域也發(fā)揮著重要價(jià)值。
來源:九枝蘭
刷新相關(guān)文章
我要評論
活動(dòng)推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重