大數(shù)據(jù)研究專家龔才春:不以預(yù)測為目的的大數(shù)據(jù)都是耍流氓
【數(shù)據(jù)猿導(dǎo)讀】 龔才春,中國大數(shù)據(jù)研究專家,中國互聯(lián)網(wǎng)協(xié)會大數(shù)據(jù)工作委員會委員,在中科院研究所、百度、阿里、騰訊等互聯(lián)網(wǎng)企業(yè)均做過大數(shù)據(jù)研究工作。在對大數(shù)據(jù)的看法上,龔才春表示,不以預(yù)測為目的的大數(shù)據(jù)都是耍流氓,很多的大數(shù)據(jù)都是瞎扯,跟大數(shù)據(jù)一毛錢關(guān)系都沒有

最近與幾位互聯(lián)網(wǎng)行業(yè)的CIO在探討一些關(guān)于大數(shù)據(jù)的問題,互聯(lián)網(wǎng)公司應(yīng)該是國內(nèi)最早研究并應(yīng)用大數(shù)據(jù)成果的行業(yè)。但面對全國鋪天蓋地的大數(shù)據(jù)熱炒,這幾位CIO只是淡定地說:“沒有應(yīng)用價值或者不能幫助實現(xiàn)應(yīng)用價值一切都是空談。”什么是大數(shù)據(jù)?百度詞條給過一些解釋,但大家的解讀各異,我們有必要做些正本清源的工作。
龔才春,中國大數(shù)據(jù)研究專家,中國互聯(lián)網(wǎng)協(xié)會大數(shù)據(jù)工作委員會委員,在中科院研究所、百度、阿里、騰訊等互聯(lián)網(wǎng)企業(yè)均做過大數(shù)據(jù)研究工作。龔才春直言不諱:“很多的大數(shù)據(jù)都是瞎扯,跟大數(shù)據(jù)一毛錢關(guān)系都沒有。”
上圖為:中國大數(shù)據(jù)研究專家龔才春
龔才春從大數(shù)據(jù)產(chǎn)生,大數(shù)據(jù)概念,大數(shù)據(jù)思維,以及可能的趨勢和應(yīng)用四個方面進(jìn)行了分析和闡述。
大數(shù)據(jù)產(chǎn)生
隨著信息存儲、信息分析、信息傳送能力的不斷提升,使得目前無論有多強的處理能力,便能產(chǎn)生多少數(shù)據(jù),有多大的存儲空間,數(shù)據(jù)便能占據(jù)多大的存儲空間,技術(shù)為數(shù)據(jù)的產(chǎn)生提供了前提。此外,互聯(lián)網(wǎng)也為大數(shù)據(jù)提供了環(huán)境。
云計算則給大數(shù)據(jù)提供了一個契機(jī),數(shù)據(jù)開始從PC上,從個人的移動硬盤上慢慢往云端存儲,只有云端數(shù)據(jù)經(jīng)過統(tǒng)一存儲,統(tǒng)一分析,統(tǒng)一挖掘才有可能。因此,云計算推進(jìn)了大數(shù)據(jù)的歷程。
物聯(lián)網(wǎng)加速了大數(shù)據(jù)的發(fā)展,包括人與人,人與物,物與物的鏈接,手上戴的手環(huán),讓人與物聯(lián)接;車聯(lián)網(wǎng),讓這輛汽車跟那輛汽車聯(lián)接,實現(xiàn)物與物的聯(lián)接。當(dāng)任何物體都能產(chǎn)生數(shù)據(jù)的時候,數(shù)據(jù)量自然特別龐大。
摩爾定律同樣適用于大數(shù)據(jù)領(lǐng)域,即最近兩年產(chǎn)生的數(shù)據(jù)是過去人類歷史上產(chǎn)生數(shù)據(jù)的總和,也就是18個月到兩年的時間內(nèi),便會實現(xiàn)世界數(shù)據(jù)量的翻番。
社交網(wǎng)絡(luò)的推動, Internet是一個真真事實客觀存在的網(wǎng)絡(luò),一個客觀存在的世界。距離的虛擬化只是物理距離的虛擬化,社會網(wǎng)絡(luò)繼承了人類特有的情緒特性,當(dāng)社交網(wǎng)絡(luò)讓機(jī)器有了人類的情感,將變得非??膳?。
舉個例子,如果想與已經(jīng)去世的外婆吃個飯聊個天,在未來是否有可能實現(xiàn)?龔才春認(rèn)為,這是有可能實現(xiàn)的:“如果把人的一生全部數(shù)字化,通過大數(shù)據(jù)分析、處理和挖掘,完全可以預(yù)測我在某種情況下我說了什么話,我的外婆會回答什么話,這時候人類的情緒喜怒悲樂,這些情緒也有可能傳遞給一臺機(jī)器。”
麥肯錫給大數(shù)據(jù)的定義是大小超過常規(guī)數(shù)據(jù)庫工具的數(shù)據(jù),但什么叫常規(guī)數(shù)據(jù)庫工具這是沒有定義的。超過數(shù)據(jù)處理能力的數(shù)據(jù)就叫大數(shù)據(jù)嗎?自然也不一定。因此,從大數(shù)據(jù)的屬性上分析會更加合理。
大數(shù)據(jù) 滿足4V+1C
大數(shù)據(jù)必須同時滿足4V+1C這五個條件才能稱之為大數(shù)據(jù)。
首先是Volume,一定要求體量特別大,比如前階段有人將重慶馬拉松做成了一個大數(shù)據(jù)研究,得出的結(jié)論一半是重慶人,一半是外地人,這不能稱之為大數(shù)據(jù),一共只有兩萬多人參加了重慶的馬拉松,這個體量不夠大。但林彪當(dāng)年打遼沈戰(zhàn)役的時候,用十萬人攻打國民黨的二十萬人,并用這十萬人包圍了一個小村子,就把敵將最好的指揮官給抓住。就是基于林彪每次打完賬之后,就會讓人匯報繳獲的機(jī)槍、步槍、沖鋒槍、手槍等情況,那次小規(guī)模的戰(zhàn)役之后,他發(fā)現(xiàn)當(dāng)時繳獲的手槍比例特別高,所以林彪才得出那個地方是敵對指揮所的結(jié)論。在那個年代,這就是典型的大數(shù)據(jù)應(yīng)用,但20萬數(shù)據(jù)到現(xiàn)在就不行了。也就是數(shù)據(jù)體量大小與時間有關(guān)。數(shù)據(jù)體量與當(dāng)時的技術(shù)及應(yīng)用場景有關(guān)系。
第二、Variety,要求數(shù)據(jù)類型多,重慶的馬拉松比賽類型很簡單,從這點分析也不是大數(shù)據(jù)。一個大數(shù)據(jù)任務(wù),一定要有各種各樣類型的數(shù)據(jù)在一塊處理,包括文本的,格式化的,非格式化的,視頻的、音頻的等等。
第三、Velocity,今天的大數(shù)據(jù)在明天就不一定是大數(shù)據(jù),同時,數(shù)據(jù)還應(yīng)該是動態(tài)的,比如中國有14億人口的大數(shù)據(jù),如果這個數(shù)據(jù)不適時更新,今年處理不了14億數(shù)據(jù),明年就有可能處理。
第四、Value,即數(shù)據(jù)價值, Value應(yīng)具有兩個特性,一個是商業(yè)價值高,另外,價值密度低。大數(shù)據(jù)就是在金礦上去淘金,金礦上淘金就滿足這兩個條件,淘金一定有商業(yè)價值,因為黃金很貴重,此外,價值密度特別低。因為一個金礦,這個金礦也許有上萬噸的金沙,但是里面也許只有幾百公斤的黃金,所以,它的價值密度特別低。
第五、Complex,需要足夠復(fù)雜才能稱之為大數(shù)據(jù),如果腦袋拍一拍就知道,也一定不是大數(shù)據(jù)。比如說武漢大學(xué)男生最浪漫,因為經(jīng)常給女性買玫瑰,這個因果關(guān)系如此簡單,自然也不是大數(shù)據(jù)。
所以大家在市場上見到的所謂大數(shù)據(jù)研究結(jié)論,其實都不是大數(shù)據(jù),因為它不能同時滿足這五個特點。
大數(shù)據(jù)思維
大數(shù)據(jù)思維包括以下幾種:
第一、全體思維,或者全樣思維。若想知道洞庭湖有多少魚,先買一萬條魚對一萬條魚做一個標(biāo)記,放到洞庭湖,然后一個月之后撈起來,得到一萬條魚,這就是在小數(shù)據(jù)年代的抽樣,再例如人口普查,也都是利用了抽樣統(tǒng)計的原理。但是現(xiàn)在因為技術(shù)足夠強大,可以全過程實時的把所有數(shù)據(jù)都采集過來。
第二、容易錯誤思維,這個世界沒有完美的事情,所有的數(shù)據(jù)都有錯誤,都有不完美,都有虛假。在這種情況下,小數(shù)據(jù)年代采用的是數(shù)據(jù)清洗,大數(shù)據(jù)時代,不必再清廷,因為不完美的數(shù)據(jù),錯誤的數(shù)據(jù),甚至虛假的數(shù)據(jù)更能夠反映它本來的面貌,它就是一種客觀存在。
第三、相關(guān)關(guān)系不再是因果關(guān)系。這世界上可能比較少存在絕對的因果關(guān)系,比如以前認(rèn)為天鵝就是白色的,但是后來發(fā)現(xiàn)澳大利亞有黑天鵝,因果關(guān)系弱,相關(guān)關(guān)系才是這個世界上的普遍關(guān)系,因此,需要樹立相關(guān)關(guān)系的思維方式。
不以預(yù)測為目的的大數(shù)據(jù)都是耍流氓
龔才春說:“不以預(yù)測為目的的大數(shù)據(jù)都是耍流氓”。研究表明,世界有94%的事情是可以完全預(yù)測的。奧斯卡有48個獎項,通過對電影上影期間大家對這個電影的評價預(yù)測系統(tǒng),最后預(yù)測對了奧斯卡獎每個獎項的最后得主,這就是大數(shù)據(jù)的威力。
此外,算法也許比你自己更了解你。比如某個職位的匹配,大家都認(rèn)為HR最專業(yè),結(jié)果發(fā)現(xiàn)機(jī)器找首選人的準(zhǔn)確率是HR尋找侯選率準(zhǔn)確率的120%。一個HR一天只能發(fā)出一萬個邀約,而邀約機(jī)器人則能夠發(fā)出兩萬多個。
世界上第一個大數(shù)據(jù)成功的商業(yè)應(yīng)用是機(jī)票價格的預(yù)測。而亞馬遜在這方面的研究也有較大突破。比如在家忽然想吃新疆大棗,便在亞馬遜上下單,五分鐘后送貨上門。這樣的場景已有可能實現(xiàn),因為下單的時候亞馬遜快遞已經(jīng)到樓下了。這便是因為預(yù)測,因為對用戶數(shù)據(jù)足夠了解,對和田大棗每年的銷售數(shù)據(jù)足夠了解,對這個片區(qū)這個樓有多少人有多大的概率會吃和田大棗,都已經(jīng)做好了預(yù)算,所以這就是大數(shù)據(jù)的魅力,不以預(yù)測為目的的大數(shù)據(jù)都是耍流氓!
來源:企業(yè)網(wǎng)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重