第四范式創(chuàng)始人兼CEO戴文淵:人工智能=大數(shù)據(jù)+機(jī)器學(xué)習(xí)
戴文淵 | 2016-03-23 15:47
【數(shù)據(jù)猿導(dǎo)讀】 戴文淵,遷移學(xué)習(xí)全球領(lǐng)軍學(xué)者,近日在智能化研討大會(huì)中,他向大家分享了人工智能的發(fā)展歷史,以及,未來(lái)人工智能會(huì)朝著哪方面發(fā)展。戴文淵表示,人工智能的發(fā)展離不開(kāi)大數(shù)據(jù)和機(jī)器學(xué)習(xí)

3月19日,創(chuàng)新工場(chǎng)聯(lián)合中泰證券舉辦了智能化研討大會(huì)第一期:人工智能(AI),邀請(qǐng)了行業(yè)內(nèi)最頂尖的專家人才,從產(chǎn)業(yè)邏輯,一二級(jí)市場(chǎng)投資邏輯深入淺出分享行業(yè)內(nèi)的發(fā)展趨勢(shì)及關(guān)鍵節(jié)點(diǎn),并探討一二級(jí)市場(chǎng)龐大的投資機(jī)會(huì)。 第四范式創(chuàng)始人兼CEO戴文淵分享了他的觀點(diǎn)。
戴文淵(第四范式創(chuàng)始人兼CEO,第四范式已獲得創(chuàng)新工場(chǎng)投資)
戴文淵,遷移學(xué)習(xí)全球領(lǐng)軍學(xué)者。2009-2013年就職于百度,是百度廣告變現(xiàn)算法的核心負(fù)責(zé)人,百度鳳巢的總架構(gòu)師,是最年輕的百度高級(jí)科學(xué)家。曾指導(dǎo)百度鳳巢在線營(yíng)銷系統(tǒng)、百度大腦等多個(gè)重量級(jí)核心產(chǎn)品, 使百度變現(xiàn)能力4年提升8倍,他的技術(shù)團(tuán)隊(duì)是百度2010年至2012年變現(xiàn)能力持續(xù)超華爾街預(yù)期的核心驅(qū)動(dòng)力。2012年獲得百度最高獎(jiǎng)(百萬(wàn)美元獎(jiǎng))。2013-2014年就職華為,任華為諾亞方舟實(shí)驗(yàn)室主任科學(xué)家 。2005年曾獲得ACM國(guó)際大學(xué)生程序設(shè)計(jì)競(jìng)賽世界總冠軍。
內(nèi)容預(yù)告
1,AI技術(shù)能提供三種能力:一是預(yù)測(cè)未來(lái)、二是數(shù)據(jù)集成、三是終生學(xué)習(xí);
2,對(duì)于評(píng)價(jià)預(yù)測(cè)未來(lái)的能力,我認(rèn)為最重要的有三點(diǎn),一個(gè)細(xì)(細(xì)分人群),一個(gè)叫快(快速?zèng)Q策),一個(gè)叫變(動(dòng)態(tài)變化);
3,人的智能和機(jī)器的智能的差別在處理細(xì)節(jié)信息能力;
4,AI有待改善的地方在于它還不能指導(dǎo)人的工作。
以下為演講原文:
謝謝大家,今天下午和大家分享一下這個(gè)領(lǐng)域最近比較熱點(diǎn)的,甚至是更早,早到幾十年前這么一路走過(guò)來(lái)的經(jīng)歷。實(shí)際上最近的兩周對(duì)我們來(lái)說(shuō)有一個(gè)很大的利好,就是我們終于不用再去跟別人解釋我們是什么樣的大數(shù)據(jù)公司。剛才汪華也介紹了說(shuō)我們公司是個(gè)大數(shù)據(jù)公司,其實(shí)這件事情對(duì)我們來(lái)說(shuō)是很頭疼的事情,假如我們?nèi)ジ蛻粽f(shuō)我們是一家大數(shù)據(jù)的公司,他們會(huì)問(wèn)你們和百分點(diǎn)什么區(qū)別,然后我們要去解釋百分點(diǎn)是賣給你數(shù)據(jù)的,我們是在數(shù)據(jù)中為你帶來(lái)業(yè)務(wù)機(jī)制,然后他又會(huì)問(wèn)你們和星環(huán)的差別是什么,我們又要去解決新環(huán)是給你儲(chǔ)存數(shù)據(jù)的一家公司,我們是給你從數(shù)據(jù)里面挖掘價(jià)值。然后我們現(xiàn)在終于可以解釋他們都是大數(shù)據(jù)公司,我們是人工智能公司。
今天主要會(huì)介紹這么幾個(gè)部分。第一部分是歷史,可以看到人工智能一路是怎么走過(guò)來(lái)的。第二部分看看我們現(xiàn)在做到的,以及不能做到的相關(guān)部分。第三部分是人工智能未來(lái)會(huì)往哪方面發(fā)展。
1、以史為鑒,人工智能的科學(xué)發(fā)展
其實(shí)智能是什么東西,人類一直在探索。這個(gè)挺有意思,比如說(shuō)智能手機(jī)很有智能嗎?iwatch是智能嗎?現(xiàn)在又說(shuō)無(wú)人駕駛汽車是智能。在科學(xué)領(lǐng)域智能這個(gè)概念探索了很多年,因?yàn)榭茖W(xué)家特別喜歡定義這些東西。最早定義智能的是這位科學(xué)家,圖靈,圖靈最重要的成就是發(fā)明了圖靈機(jī)。他特別感興趣圖靈機(jī)將來(lái)能體現(xiàn)怎樣的智能,所以他提出一個(gè)概念叫圖靈測(cè)試。圖靈測(cè)試是什么概念?他認(rèn)為計(jì)算機(jī)智能發(fā)展到最高境界時(shí),如果設(shè)置一道墻,讓一個(gè)人和一臺(tái)計(jì)算機(jī)在墻后面,另一個(gè)人在墻的前面問(wèn)問(wèn)題,墻后的人和計(jì)算機(jī)分別回答,如果無(wú)法區(qū)分回答問(wèn)題的哪個(gè)是人哪個(gè)是計(jì)算機(jī)的話,那么計(jì)算機(jī)就通過(guò)了圖靈測(cè)試。當(dāng)時(shí)圖靈認(rèn)為人工智能最高境界就是讓人區(qū)分不出來(lái)哪個(gè)是計(jì)算機(jī),哪個(gè)是人。當(dāng)然圖靈測(cè)試到今天來(lái)看,已經(jīng)是個(gè)偽命題了。比方說(shuō)我們不是區(qū)分不出來(lái)AlphaGo和李世石,而是看誰(shuí)下得好,誰(shuí)是AlphaGo。
圖靈之后又有一些別的科學(xué)家提出AI相關(guān)的概念,比方說(shuō)Marvin Minsky,他其實(shí)是真正的深度學(xué)習(xí)的鼻祖,只不過(guò)他當(dāng)時(shí)提出來(lái)的概念叫做神經(jīng)網(wǎng)絡(luò),不叫深度學(xué)習(xí)。1970年,他提出三到八年內(nèi)我們將會(huì)得到一臺(tái)具有人的平均智商的機(jī)器。并且他也踐行了這個(gè)工作,但最后失敗了。他做出來(lái)的那個(gè)神經(jīng)網(wǎng)絡(luò)遠(yuǎn)沒(méi)有達(dá)到人的平均智能。
為什么失敗?我們回過(guò)頭去看。人的大腦其實(shí)也是個(gè)由神經(jīng)元組成的網(wǎng)絡(luò),如果我們把計(jì)算機(jī)的神經(jīng)元接起來(lái)做一個(gè)神經(jīng)網(wǎng)絡(luò)。那么是不是我們做到神經(jīng)元數(shù)量超過(guò)大腦時(shí),機(jī)器智能就能超過(guò)人了?最后發(fā)現(xiàn)一個(gè)問(wèn)題,即便擁有一個(gè)和人腦一樣的神經(jīng)網(wǎng)絡(luò),當(dāng)你沒(méi)有能力去訓(xùn)練這個(gè)網(wǎng)絡(luò)的時(shí)候,其實(shí)仍然無(wú)法獲得智能。就好象我們自己的小孩,剛出生的時(shí)候,他的腦細(xì)胞數(shù)量就和成人差不多了,但是那時(shí)他沒(méi)有學(xué)過(guò)東西,所以他的智力水平是達(dá)不到成人水平的。這是回過(guò)頭去看這個(gè)事情為什么失敗,但是這個(gè)事情過(guò)程造成的影響就是“神經(jīng)網(wǎng)絡(luò)”這個(gè)概念臭了。到2005年的時(shí)候,給神經(jīng)網(wǎng)絡(luò)平反的時(shí)候,沒(méi)有人再敢說(shuō)它叫神經(jīng)網(wǎng)絡(luò)了,于是又給它起了一個(gè)新的名字叫深度學(xué)習(xí)。
另外更激進(jìn)H. A. Simon,他認(rèn)為二十年內(nèi),機(jī)器將能完成人能做的一切工作。這都是建立在當(dāng)時(shí)的判斷。這些失敗的結(jié)果就是我們把神經(jīng)網(wǎng)絡(luò)打入冷宮至少三十年。
在這之后,七八十年代提出了一個(gè)方向叫做智能來(lái)自專家,即專家系統(tǒng)。就是要設(shè)計(jì)一個(gè)系統(tǒng),這個(gè)系統(tǒng)的前端服務(wù)于客戶,后端有一個(gè)知識(shí)庫(kù)。這個(gè)知識(shí)庫(kù)是怎么來(lái)的?從專家的腦子里來(lái)。假設(shè)這是一個(gè)醫(yī)學(xué)的知識(shí)庫(kù),那我們應(yīng)該去找世界上最好的醫(yī)學(xué)專家,把他大腦里的知識(shí)寫到知識(shí)庫(kù)里面,寫成一系列的規(guī)則。然后這個(gè)系統(tǒng)將來(lái)就能更好的服務(wù)于人。當(dāng)時(shí)設(shè)想挺好,比如一個(gè)人類的醫(yī)學(xué)專家可以看病,那我找一百個(gè)專家把他的知識(shí)都寫到這個(gè)機(jī)器里面,是不是應(yīng)該比一個(gè)人更好。按理這個(gè)邏輯是對(duì)的,但最后這個(gè)方向也失敗了。為什么失敗了?因?yàn)榘l(fā)現(xiàn)專家自己都不知道自己會(huì)什么。我們發(fā)現(xiàn)一個(gè)專家可能掌握的知識(shí)有一百分,他能總結(jié)的知識(shí)是十分,問(wèn)題在于他表達(dá)不出來(lái)。很多時(shí)候醫(yī)生要看到這個(gè)病人才知道應(yīng)該如何去醫(yī)。
其實(shí)既是人的缺點(diǎn),也是人工智能的缺點(diǎn)。現(xiàn)在神經(jīng)網(wǎng)絡(luò)有一個(gè)缺陷,我們發(fā)現(xiàn)比如說(shuō)AlphaGo會(huì)下圍棋,但是它不能復(fù)盤,它下的每一步都說(shuō)不出為什么這么下。人和機(jī)器的神經(jīng)網(wǎng)絡(luò)都有這個(gè)問(wèn)題,我們擁有的技能,很多時(shí)候是沒(méi)有辦法表達(dá)出來(lái)的。專家系統(tǒng)基本上到90年代的時(shí)候就被死刑,認(rèn)為它永遠(yuǎn)都達(dá)不到人的智能水平。
再后來(lái),也提出一些新的方向,Rodney Brooks他提出智能來(lái)自于本能,他認(rèn)為智能不是一個(gè)集中式地集中在大腦,每個(gè)細(xì)胞都有智能,所以他去制造這種機(jī)器人,這個(gè)機(jī)器人完全沒(méi)有大腦,身體的每個(gè)部分在控制這個(gè)機(jī)器往哪里走。他制造了大量的機(jī)器人,這些機(jī)器人被應(yīng)用到了美軍的作戰(zhàn)或者說(shuō)一些危機(jī),例如廠房失火時(shí)把重要的東西拿出來(lái)。但畢竟來(lái)說(shuō),他們還是離人的智能水平差很遠(yuǎn)。
第一次讓人們感覺(jué)到人的智力可能玩不過(guò)機(jī)器是深藍(lán)。深藍(lán)現(xiàn)在來(lái)看其實(shí)是一個(gè)暴力搜索的方法,在國(guó)際象棋領(lǐng)域打敗了國(guó)際象棋的第一卡斯帕羅夫。深藍(lán)為什么能做到?是因?yàn)閲?guó)際象棋棋盤比較局限,所以我們通過(guò)暴力搜索的方式,我們可以讓深藍(lán)往前推25步,而卡斯帕羅夫據(jù)分析能推22步。
深藍(lán)雖然說(shuō)在國(guó)際象棋比賽中打敗了世界冠軍,但是人們還是不相信計(jì)算機(jī)能夠打敗人類。最簡(jiǎn)單的方式就是圍棋,甚至不要說(shuō)打敗世界冠軍了,在95年的時(shí)候他們甚至還下過(guò)我。
其實(shí)一個(gè)決定性的時(shí)刻是在2005年的時(shí)候,有位學(xué)者提出神經(jīng)網(wǎng)絡(luò)是有用的,甚至神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練很多層,當(dāng)我們把層數(shù)增加到十層、十一層的時(shí)候,他能夠達(dá)到一個(gè)過(guò)去做不到的效果。比方說(shuō)過(guò)去機(jī)器視覺(jué)被認(rèn)為幾乎是不可行的,當(dāng)我們把神經(jīng)網(wǎng)絡(luò)做的很深很深的時(shí)候,確實(shí)會(huì)發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)能表現(xiàn)出一些人的視覺(jué)認(rèn)知過(guò)程,剛才汪華也展示了一張圖。圖中我們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)可以學(xué)出人的眼睛、鼻子這些器官,這和人認(rèn)知圖像的過(guò)程非常像。
那么為什么會(huì)在這個(gè)時(shí)候把這個(gè)技術(shù)拿出來(lái)?其實(shí)最重要的原因并不是說(shuō)又發(fā)明了一個(gè)新的技術(shù),而是說(shuō)這個(gè)時(shí)代到這個(gè)時(shí)候,一方面是我們的計(jì)算能力提升,我們把神經(jīng)網(wǎng)絡(luò)做大做深需要很強(qiáng)的計(jì)算能力。到了這個(gè)05年、06年,我們的計(jì)算機(jī)計(jì)算成本下降到一個(gè)臨界點(diǎn)。另外一方面隨著互聯(lián)網(wǎng)公司的興起,我們積累了大量的數(shù)據(jù),過(guò)去我們用來(lái)訓(xùn)練人臉的數(shù)據(jù)只有幾百上千張圖片,不足以把神經(jīng)網(wǎng)絡(luò)訓(xùn)練好,現(xiàn)在我們?cè)诰W(wǎng)上可以輕而易舉的獲得到至少百萬(wàn)級(jí)甚至千萬(wàn)級(jí)的人臉圖片,所以基于這些圖片我們訓(xùn)練一個(gè)很深的神經(jīng)網(wǎng)絡(luò)模型,能夠遠(yuǎn)遠(yuǎn)好于過(guò)去的人臉識(shí)別效果。
就整個(gè)框架來(lái)說(shuō),重點(diǎn)有兩個(gè):一個(gè)是技術(shù),機(jī)器學(xué)習(xí),另外一個(gè)是大數(shù)據(jù)。機(jī)器學(xué)習(xí)技術(shù),說(shuō)實(shí)話早就已經(jīng)出來(lái)了。其實(shí)是各個(gè)領(lǐng)域的發(fā)展,包括互聯(lián)網(wǎng)的發(fā)展帶來(lái)了大數(shù)據(jù)出現(xiàn),包括計(jì)算代價(jià)的降低,方方面面的條件都成熟了,造成了我們現(xiàn)在能夠看到的IBM沃森能夠在智能問(wèn)答領(lǐng)域戰(zhàn)勝人類最強(qiáng)的選手,像谷歌的機(jī)器人能夠在圍棋戰(zhàn)勝人類最強(qiáng)的選手。這是一個(gè)時(shí)代帶來(lái)的結(jié)果,并非黑科技的出現(xiàn)。
圍棋只是一個(gè)特定的領(lǐng)域,如果考慮商業(yè)應(yīng)用,還需要積累大量的商業(yè)領(lǐng)域的數(shù)據(jù)。所以很重要的是,我們需要積累大量有意義的數(shù)據(jù),如果沒(méi)有大數(shù)據(jù)的支撐,無(wú)法把人工智能給訓(xùn)練出來(lái)。我們需要各行各業(yè)的服務(wù),在服務(wù)里面去產(chǎn)生數(shù)據(jù)。這個(gè)事情對(duì)于中國(guó)來(lái)說(shuō)是巨大的機(jī)會(huì)。因?yàn)樵谥袊?guó)人口基數(shù)是最大的,中國(guó)做一個(gè)活動(dòng)能夠獲得的數(shù)據(jù)量是海外很多地方不具備的。
我自己有一個(gè)深刻的感受,我在香港服務(wù)過(guò)PCCW,這是香港最大的運(yùn)營(yíng)商,他們能給我們提供的數(shù)據(jù)量是兩百萬(wàn)用戶所產(chǎn)生的數(shù)據(jù),而在中國(guó)我們服務(wù)于一個(gè)福建的運(yùn)營(yíng)商就能夠獲得兩千萬(wàn)用戶的數(shù)據(jù)??赡茉诤芏嗳丝磥?lái),福建移動(dòng)影響力遠(yuǎn)遠(yuǎn)小于PCCW,但是放在大數(shù)據(jù)人工智能的時(shí)代,哪怕是中國(guó)一個(gè)省所能提供的有意義的數(shù)據(jù)也是巨量的,這些數(shù)據(jù)能夠在商業(yè)領(lǐng)域?yàn)槲覀儎?chuàng)造價(jià)值。
2、人工智能可以/不可以做什么?對(duì)經(jīng)營(yíng)與生活的實(shí)際影響?
第二部分是關(guān)于AI技術(shù)提供什么樣的價(jià)值。首先是預(yù)測(cè)未來(lái)的能力。我們基于過(guò)去積累大量有意義的大數(shù)據(jù),可以自動(dòng)分析總結(jié),去預(yù)測(cè)未來(lái)會(huì)發(fā)生的事情。當(dāng)你知道未來(lái)有三條路可以走,你就預(yù)測(cè)走每條路的結(jié)果,選擇最好的路去走。未來(lái)兩個(gè)方向,一個(gè)是數(shù)據(jù)集成的能力,怎么能夠讓各行各業(yè)產(chǎn)生的數(shù)據(jù)融合起來(lái),共同去發(fā)揮價(jià)值。最后一個(gè)是最終能夠達(dá)到最高的境界,叫做終生學(xué)習(xí)。
首先是預(yù)測(cè)未來(lái),我們發(fā)現(xiàn)很多領(lǐng)域的應(yīng)用,背后的原理都是預(yù)測(cè)。比方說(shuō)搜索引擎,當(dāng)你在搜索引擎輸入一個(gè)關(guān)鍵詞,現(xiàn)在假設(shè)有一千一萬(wàn)個(gè)候選網(wǎng)頁(yè),我需要去預(yù)測(cè),把每個(gè)網(wǎng)頁(yè)推薦給你,滿意的概率是多少,然后推薦給你最滿意的網(wǎng)頁(yè)。這個(gè)滿意度可以用一些指標(biāo)來(lái)度量,比如點(diǎn)擊率、瀏覽時(shí)長(zhǎng)等。
同樣的道理,風(fēng)險(xiǎn)管控做的是什么?當(dāng)你過(guò)來(lái)申請(qǐng)一筆貸款的時(shí)候,我要去預(yù)測(cè)你還不上的概率是多少。然后選擇最大概率能還上錢的人,我把錢借給他。
至于推薦引擎,就是預(yù)測(cè)我推薦給你的東西,你采納的概率是多少。
以上種種的應(yīng)用看上去業(yè)務(wù)方向是差別很大,但是背后所有的能力都可以歸結(jié)到預(yù)測(cè)的能力。
如果我們要去衡量什么叫好的預(yù)測(cè)能力,我認(rèn)為最重要的有三點(diǎn):一個(gè)叫細(xì),一個(gè)叫快,一個(gè)叫變。先解釋細(xì)。比如說(shuō)我現(xiàn)在要精準(zhǔn)的找到目標(biāo)客戶,這個(gè)圖中有一個(gè)大的客群。其中橘黃色是我想要找到的客戶。我過(guò)去有些專家的經(jīng)驗(yàn),用一兩條規(guī)則去篩選,最后選擇這樣的客群作為目標(biāo)客戶,我們會(huì)發(fā)現(xiàn)這里面錯(cuò)誤其實(shí)是很多的。如果說(shuō)我們對(duì)人群劃分的更細(xì),就可以更精準(zhǔn)的找到目標(biāo)人群。精細(xì),這是預(yù)測(cè)能力的第一個(gè)方面。
第二個(gè)方面,我們會(huì)發(fā)現(xiàn)AI跟時(shí)代有關(guān)系。隨著科技的發(fā)展,信息的傳遞速度越來(lái)越快,比如古代傳一封書信要十天半個(gè)月以上,到后來(lái)書信通過(guò)郵局?jǐn)?shù)天可以送到,IT信息化以后,辦理業(yè)務(wù)的時(shí)效性基本縮短到T+1的時(shí)間,到了互聯(lián)網(wǎng)時(shí)代,我們對(duì)信息的時(shí)效性要求提升到分鐘級(jí)、秒級(jí)。信息傳遞速度的加快,對(duì)于做預(yù)測(cè)能力或者說(shuō)決策能力的時(shí)效性要求也會(huì)大幅度提升。所以我們也會(huì)要求我們的AI系統(tǒng)要隨著信息的變化,過(guò)去我們是T+1,現(xiàn)在是T加幾分鐘,T加幾秒的變化。
我們知道隨著時(shí)間的變化,無(wú)論是時(shí)代的變遷,還是政策的變化,我們的環(huán)境是一直在改變。如果我們用一個(gè)過(guò)去的模型去預(yù)測(cè)未來(lái),當(dāng)你的環(huán)境變了,決策就會(huì)有問(wèn)題。我們?cè)趯?shí)踐過(guò)程中曾發(fā)現(xiàn)這樣一個(gè)問(wèn)題,在百度鳳巢廣告,如果有兩個(gè)星期我們不更新AI模型,最后帶來(lái)的收入下降是14%,基本上平均每天下降1%。于是,我們需要盡可能做到至少每天更新一次AI模型,甚至做到每小時(shí)、半小時(shí)以內(nèi)更新一次。
我們可以對(duì)比一下,人的智能和機(jī)器的智能,差別在哪里?人受限于精力,不可能把所有的信息都能夠覆蓋到。通常我們認(rèn)為什么是好的決策者?好的決策者應(yīng)該特別能抓主干,能夠抓大放小,這都是人的優(yōu)點(diǎn)。有個(gè)領(lǐng)域叫做BI,Business Intelligence。BI就是一個(gè)典型的基于數(shù)據(jù)的抓大放小的思路,我們拿到大量數(shù)據(jù)統(tǒng)計(jì)結(jié)果,分析數(shù)據(jù)抽出最主要的結(jié)論交給團(tuán)隊(duì)去執(zhí)行,這里面會(huì)丟失掉大量的細(xì)枝末節(jié)的信息。
過(guò)去認(rèn)為這種細(xì)枝末節(jié)的信息是沒(méi)有價(jià)值的,但是放在機(jī)器上,因?yàn)闆](méi)有精力的限制,不需要抓大放小。比方說(shuō)一家大銀行一年有幾百億交易,過(guò)去我們主要看一些城市的交易分布,或者行業(yè)的交易分布,但是我們不會(huì)去分析一家店或者一個(gè)pos機(jī)的交易情況。但是當(dāng)數(shù)據(jù)量大到一定的程度,我們發(fā)現(xiàn)哪怕你看一個(gè)pos機(jī),一年數(shù)據(jù)量也是成千上萬(wàn)的,你完全可以分析細(xì)到一個(gè)pos機(jī)的情況,針對(duì)一個(gè)pos機(jī)的行為,甚至一個(gè)pos在某一個(gè)時(shí)間段,比如七點(diǎn)到八點(diǎn)之間的行為,給設(shè)計(jì)不一樣的決策,這是AI能夠做到。人在目前來(lái)說(shuō)做這個(gè)事情不是智商不夠,而是精力不夠,AI能在精力上補(bǔ)充人很大的一部分能力。所以現(xiàn)在這個(gè)階段我們要做一個(gè)AI系統(tǒng),去作為人的補(bǔ)充。很重要的是我們要開(kāi)發(fā)人覆蓋不到的細(xì)枝末節(jié)的部分。而這部分我們認(rèn)為是大數(shù)據(jù)里面80%以上的信息,過(guò)去人做分析的時(shí)候只看到了20%的頭部信息。
我可以分享一下我們現(xiàn)在能做到的一些case,首先是消費(fèi)金融領(lǐng)域。這是一個(gè)招商銀行信用卡交易分期的case,信用卡的交易有一段時(shí)間免息期,如果在賬單前你把錢還上,對(duì)于一家信用卡公司來(lái)說(shuō)是虧本的,那信用卡公司怎么盈利呢?我們發(fā)現(xiàn)有30%的客戶會(huì)做分期,分期就會(huì)產(chǎn)生利息,信用卡公司其實(shí)是用這部分利息來(lái)盈利的。所以一家信用卡公司如果要做營(yíng)銷,增加它的盈利,最重要的是增加它的分期交易。有一種方式是主動(dòng)營(yíng)銷來(lái)獲得更多的分期交易。我們做的是,基于每天數(shù)十萬(wàn)的信用卡的交易,更精準(zhǔn)的定位哪些客戶是更有概率去做分期的,然后選擇更有概率做分期的客戶做營(yíng)銷,最后在同等情況下提升60%的收益。
我們與招商銀行一起設(shè)計(jì)了一個(gè)新的思路。過(guò)去他們?cè)趺词褂脭?shù)據(jù)?他們會(huì)從系統(tǒng)里面去收集一些數(shù)據(jù)。收集數(shù)據(jù)的時(shí)候,一個(gè)最頭疼的問(wèn)題是不知道要收集哪些的數(shù)據(jù),這時(shí)候往往需要做規(guī)劃,什么數(shù)據(jù)要收,什么數(shù)據(jù)不要收,然后再把收的數(shù)據(jù)拿來(lái)看看能分析出什么結(jié)果,最后再看發(fā)揮什么作用。由于層層衰減,到最后產(chǎn)生價(jià)值的時(shí)候,往往已經(jīng)衰減得很厲害了。我們提出,不應(yīng)該先討論要收什么數(shù)據(jù),應(yīng)該先討論的是要完成什么目標(biāo)。你的目標(biāo)是什么?交易分期業(yè)務(wù)的目標(biāo)是希望能夠提升交易分期的收入。然后我們把這個(gè)收入目標(biāo)去做分解,交易分期我們是用短信主動(dòng)營(yíng)銷,我們把它拆解成:短信的發(fā)送量*短信的響應(yīng)率*分期費(fèi)率。然后,目標(biāo)被確定為提升短信的響應(yīng)率。在這個(gè)基礎(chǔ)上我們認(rèn)為我們需要去預(yù)測(cè)給它發(fā)送短信的成功率,我們需要有一個(gè)短信成功率預(yù)測(cè)的模型。這個(gè)模型確定以后,我們基于這個(gè)模型去分析需要什么數(shù)據(jù)。
即便確定下來(lái)需要的數(shù)據(jù),這個(gè)時(shí)候我們?nèi)匀徊恢肋@些數(shù)據(jù)到底有還是沒(méi)有,但是我們先把這個(gè)數(shù)據(jù)需求規(guī)劃出來(lái),然后再反過(guò)來(lái)從各個(gè)系統(tǒng)里面去找哪些系統(tǒng)里面有這些數(shù)據(jù),最后把這些數(shù)據(jù)找出來(lái)。我們找到了2 TB數(shù)據(jù),在里面設(shè)計(jì)出了超過(guò)五千萬(wàn)特征。最后我們建立了這個(gè)模型,它能夠在一個(gè)短信還沒(méi)發(fā)出去之前,更精準(zhǔn)的預(yù)測(cè),這個(gè)短信發(fā)出去的成功概率。我會(huì)選擇成功概率最大的一些短信進(jìn)行發(fā)送,最后與過(guò)去的專家模型相比,我們的模型能夠多定位68.6%的分期交易,提升61.7%的手續(xù)費(fèi)。
所以從整個(gè)思路來(lái)說(shuō),首先是從目標(biāo)出發(fā),到需要去建立什么模型,再到需要什么樣的數(shù)據(jù),再到各個(gè)系統(tǒng)里面去尋找數(shù)據(jù)——這樣的一個(gè)過(guò)程?;陬愃频乃悸肺覀冞€做了很多其他的case,比如說(shuō)信用卡的賬單分期模型,信用卡的汽車貸款精準(zhǔn)營(yíng)銷模型,例如賬單分期我們提升28%的收入,汽車分期能夠提升百分之二三百的收入。
第二個(gè)case不是我們做的,是我們公司一個(gè)聯(lián)合創(chuàng)始人在加入我們公司之前做的一個(gè)案子。相信大家都很熟悉,叫做今日頭條。今日頭條要干什么事?要給每個(gè)人推薦不一樣的閱讀,每個(gè)人看到的都是自己想看到的內(nèi)容。同樣是從目標(biāo)出發(fā),我們要定義的是,你看到的新聞,什么叫好,什么叫不好。當(dāng)時(shí)定義了很多指標(biāo),比方說(shuō)點(diǎn)擊率、閱讀時(shí)長(zhǎng)、收藏率、轉(zhuǎn)化率、用戶抱怨量。然后我們那個(gè)聯(lián)合創(chuàng)始人做的是什么事情呢?他建立各種各樣的模型,當(dāng)你過(guò)來(lái)今日頭條訪問(wèn)的時(shí)候,就可以預(yù)測(cè)給你推這個(gè)新聞的點(diǎn)擊率是多少,閱讀時(shí)長(zhǎng)是多少,收藏率是多少,轉(zhuǎn)發(fā)率是多少,用戶抱怨量是多少。基于這些預(yù)測(cè)指標(biāo),可以得到一個(gè)綜合的打分,基于這個(gè)分?jǐn)?shù)推薦閱讀。個(gè)性化是怎么做到的?個(gè)性化的背后的原理其實(shí)也是預(yù)測(cè)能力。就是說(shuō)我要基于不同的人的情況去預(yù)測(cè),給不同人推薦新聞、商品、或者其他對(duì)象,你喜歡的概率是多少。
來(lái)源:創(chuàng)新工場(chǎng)
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書》重