百度高級(jí)經(jīng)理劉占亮:大數(shù)據(jù)的“能”與“不能
劉占亮 | 2016-02-22 14:53
【數(shù)據(jù)猿導(dǎo)讀】 在近日舉辦的bit沙龍上。各行專業(yè)人士針對大數(shù)據(jù)領(lǐng)域發(fā)表了他們的看法。大數(shù)據(jù)為什么這么受歡迎?百度高級(jí)經(jīng)理劉占亮也在bit沙龍上以“大數(shù)據(jù)的能與不能”為題發(fā)表了自己獨(dú)特的觀點(diǎn)與想法

大數(shù)據(jù)為什么能?
大家都在講現(xiàn)在是大數(shù)據(jù)的時(shí)代,我認(rèn)為大數(shù)據(jù)時(shí)代,實(shí)際上它有這兩點(diǎn):
1.一個(gè)是這么多年的IT技術(shù)的發(fā)展,大量的新技術(shù)使得現(xiàn)在數(shù)據(jù)的收集和分享變的非常容易,得益于互聯(lián)網(wǎng)和各種各樣的傳感器,我們能把物理世界的信號(hào)變成數(shù)字世界的信號(hào),我們才能用計(jì)算機(jī)和互聯(lián)網(wǎng)處理它。因?yàn)槲覀冇袛?shù)據(jù)了,所以我們才用大數(shù)據(jù)的方法。
2. 數(shù)據(jù)越多,我們越不需要模型,怎么理解呢?就像小學(xué)的時(shí)候做數(shù)學(xué)題,這個(gè)題我做過,我還需要推導(dǎo)一遍嗎,直接把答案寫了就行了。數(shù)據(jù)越多,我越不需要模型,就是覆蓋度和精準(zhǔn)的問題。如果對下來將要面臨的事件和問題,我有足夠的樣本覆蓋,其實(shí)我可以直接從歷史上拿過來之前東西的判斷或者是結(jié)論定就好了。
傳統(tǒng)方法和大數(shù)據(jù)方法有什么不一樣嗎?
傳統(tǒng)方法是什么樣的,我拿來一個(gè)新的樣本。我把這個(gè)樣本就某種程度做一個(gè)特征表示。再就是利用我們之前見過的小數(shù)據(jù)訓(xùn)練模型進(jìn)行判斷得出結(jié)論。
大數(shù)據(jù)的方法,是什么呢?是拿來一個(gè)新樣本,我根本沒有什么模型。我查找擁有這么多大數(shù)據(jù)里面,以及我當(dāng)前面臨的新樣本,哪一個(gè)最像,我把最像的拿出來或者完全相同的,它就是我的結(jié)論。我們在大數(shù)據(jù)的算法里面,最重要的算法只有一個(gè)。
我認(rèn)為大數(shù)據(jù)是在現(xiàn)代社會(huì)已經(jīng)掌握了海量數(shù)據(jù)收集、存儲(chǔ)和處理技術(shù)之上所產(chǎn)生的以群體智慧來進(jìn)行判斷和預(yù)測的能力。
它反應(yīng)一個(gè)內(nèi)在含義是什么呢?
1.傳統(tǒng)經(jīng)驗(yàn)主義的復(fù)活,經(jīng)驗(yàn)主義大于理性主義,我知道這個(gè)事情是什么,它就是什么。你不要跟說背后的緣由是什么。
2.數(shù)據(jù)遠(yuǎn)比模型重要,模型可能是錯(cuò)的,但是數(shù)據(jù)畢竟是發(fā)生的事情。數(shù)據(jù)在大數(shù)據(jù)里面是最重要的一樣?xùn)|西。
3.相關(guān)關(guān)系大于因果關(guān)系,我可能真的不知道這個(gè)事情,它到底是怎么一回事。但是只要能夠?qū)ξ业念A(yù)測,對我的判斷能夠有作用,我覺得從可用性的角度上來說,它就已經(jīng)足夠了。
基于這三點(diǎn),對于我們做大數(shù)據(jù)的數(shù)據(jù)平臺(tái)來說,我認(rèn)為你能夠把這些數(shù)據(jù)拿過來,并且做處理,是要大于你這個(gè)平臺(tái)的??赡苣氵x用合適的平臺(tái)或者是自己從頭開始打造,但是遠(yuǎn)遠(yuǎn)沒有數(shù)據(jù)重要。
模型真的沒有用嗎?大數(shù)據(jù)什么解決不了?
其實(shí)有兩個(gè)很現(xiàn)實(shí)的問題,數(shù)據(jù)總是不夠,遠(yuǎn)遠(yuǎn)沒有一個(gè)夠的時(shí)候。因?yàn)闀r(shí)間永遠(yuǎn)是往前的,哲學(xué)上來說,人是不可能同時(shí)邁進(jìn)同一條河流的。即使是時(shí)間不太敏感的時(shí)候,數(shù)據(jù)也還總是不夠。
有兩種情況。第一種是機(jī)器翻譯里面所有可能的句子,我覺得這個(gè)樣本空間可能太大了。我做過一個(gè)統(tǒng)計(jì),我們做數(shù)據(jù)分析或者說做搜索引擎,我們會(huì)從互聯(lián)網(wǎng)上把所有最新的新聞或者是最新的語料抓過來,進(jìn)行分句切詞做處理,我能不能進(jìn)行壓縮,我別把句子的原文存下來,我把這個(gè)句子算一個(gè)ID,每次只有新的句子才入到數(shù)據(jù)庫里面。結(jié)果我發(fā)現(xiàn),現(xiàn)在每天晚上新產(chǎn)生的,我拿新聞的語料為例,其實(shí)它節(jié)省不了什么空間。說明什么呢?說明每一條的句子都在歷史上從來沒有出現(xiàn)過,句子是非常長尾的。所以機(jī)器翻譯的句子里面,所有的句子其實(shí)也是很不可能窮盡的。
再舉一個(gè)例子,這個(gè)可能跟我們?nèi)祟愖鲅芯炕蛘咦詣?dòng)求解學(xué)生考試題目,這個(gè)事情大數(shù)據(jù)可以解決嗎?反正我個(gè)人對這塊持悲觀態(tài)度。比如說我用大數(shù)據(jù)的方法解一道方程組,大家想一下,我們就拿簡單的一解方程來說,加減乘除,五個(gè)運(yùn)算數(shù),左邊等于右邊,大家算一算每個(gè)位置上可以出現(xiàn)多少東西,乘起來的樣本量有多大。樣本空間在實(shí)時(shí)的變化,對于搜索引擎來講,它其實(shí)也是在變化的。對于查詢結(jié)果的排序中,其實(shí)每天都會(huì)有新的查詢和網(wǎng)頁出現(xiàn),怎么來解決?
所以說有一些問題,我認(rèn)為用大數(shù)據(jù)的方法永遠(yuǎn)也解決不了,本質(zhì)上是這樣的問題,你的空間永遠(yuǎn)是無限往外擴(kuò)張的,你不可能能夠收集來足夠稠密的數(shù)據(jù)。所以你只能靠猜或者我們就認(rèn)為宇宙是這樣一個(gè)模型,它靠這個(gè)模型來預(yù)測。樣本空間確實(shí)很大,這個(gè)時(shí)候模型有非常關(guān)鍵的作用。模型它可以跟數(shù)據(jù)結(jié)合,可以提供適當(dāng)泛化,但是這個(gè)又帶來新的問題。怎么結(jié)合呢?結(jié)合到何種程度,這些都是具體的問題。
然后回到主題。我認(rèn)為界定好大數(shù)據(jù)的方向以后,怎么做大數(shù)據(jù)相關(guān)的東西,可能這個(gè)領(lǐng)域比較窄。
大數(shù)據(jù)應(yīng)用開放的流程應(yīng)該是什么樣的?
1. 你需要明確問題的數(shù)據(jù)類型和樣本空間。
2. 對于這個(gè)問題,你收集到盡可能多或者是足夠多的相關(guān)數(shù)據(jù)覆蓋這樣的空間。大家注意不要太在意數(shù)據(jù)的質(zhì)量和格式。
3. 選擇或者是自己來搭建合適我這個(gè)問題和對這個(gè)問題處理的大數(shù)據(jù)平臺(tái),針對我們目前的應(yīng)用,對數(shù)據(jù)進(jìn)行一些預(yù)處理。比如說格式的轉(zhuǎn)換、抽取、數(shù)據(jù)的集成,其實(shí)數(shù)據(jù)集成是特別關(guān)鍵的東西,多元的數(shù)據(jù)它們的特征是非常不一樣的,怎么把它融合在一起,是非常重要的問題。因?yàn)槲覀儾辉谝鈹?shù)據(jù)的質(zhì)量和格式,我們要注意特別做到數(shù)據(jù)質(zhì)量的控制。接下來就是處理數(shù)據(jù),結(jié)果的解讀和應(yīng)用。這是我認(rèn)為標(biāo)準(zhǔn)的大數(shù)據(jù)應(yīng)用流程。
數(shù)據(jù)在哪兒?
這是我之前給研究界講的,所以有些東西是切合他們的應(yīng)用來的。其實(shí)有很多類的數(shù)據(jù),數(shù)據(jù)從有社會(huì)以來,大家一直在收集,比如說最多的還是在政府權(quán)威機(jī)構(gòu),統(tǒng)計(jì)局的宏觀數(shù)據(jù)、行業(yè)數(shù)據(jù),尤其是歷史的數(shù)據(jù)。金融機(jī)構(gòu)的交易數(shù)據(jù)等等各種各樣的數(shù)據(jù)。其實(shí)我們在這樣的場合,大家討論的可能是互聯(lián)網(wǎng)的數(shù)據(jù)或者是商業(yè)社會(huì)里面的數(shù)據(jù)。
我分了幾類:
1.第一類是人能看的數(shù)據(jù),不管是新聞、論壇、微博、微信等等,其實(shí)就是傳統(tǒng)的搜索引擎公司,它們利用他們的爬蟲技術(shù)收取到的技術(shù),這個(gè)數(shù)據(jù)非常大,不管是Google或者是百度,所有的數(shù)據(jù)是整個(gè)互聯(lián)網(wǎng)的冰山一角,大量的數(shù)據(jù)都還沒有被搜到。一些大型的互聯(lián)網(wǎng)公司私有數(shù)據(jù),比如說業(yè)務(wù)數(shù)據(jù)、用戶行為數(shù)據(jù)。向用戶購買商品的行為,雖然你在淘寶上抓回來更多,但是更多的還是在阿里內(nèi)部。大家社交的行為數(shù)據(jù)更多的還應(yīng)該在騰訊內(nèi)部。大家都在看什么、搜什么的數(shù)據(jù)實(shí)際上在百度內(nèi)部,這個(gè)有很高的壁壘和門檻,大家很難拿到。
2.第二類除此之外,還有一個(gè)角色就是運(yùn)營商,運(yùn)營商的數(shù)據(jù)也是非常豐富的。因?yàn)樗械牧髁慷夹枰獜倪\(yùn)營商走,我了解到一些運(yùn)營商公司,他們也在做相關(guān)的大數(shù)據(jù)事情。但是現(xiàn)在有很多公司已經(jīng)不想讓運(yùn)營商或者是中間環(huán)節(jié)獲得,具體內(nèi)容包里面是什么東西已經(jīng)拿不到的,運(yùn)營商就拿不到用戶的查詢詞了。
關(guān)于大數(shù)據(jù)我們做這樣一個(gè)東西,可能遇到的挑戰(zhàn),我認(rèn)為最主要的挑戰(zhàn)是思維方式。其實(shí)數(shù)據(jù)是產(chǎn)生于一個(gè)領(lǐng)域,還在原來的領(lǐng)域里面應(yīng)用,你可能永遠(yuǎn)是小的應(yīng)用。怎么把它腦洞大開應(yīng)用到完全不同創(chuàng)新創(chuàng)造型的領(lǐng)域,我認(rèn)為它的價(jià)值就出來了。
總結(jié)來說,著重領(lǐng)域知識(shí),利用好計(jì)算機(jī)技術(shù),再加上大數(shù)據(jù)思維,我覺得這是做出好的大數(shù)據(jù)應(yīng)用的前提。
來源:以太創(chuàng)業(yè)專欄
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書》重