硅谷教父皮埃羅:創(chuàng)造大數(shù)據(jù)領(lǐng)域“殺手級”應(yīng)用
牛金霞 | 2016-03-09 15:49
【數(shù)據(jù)猿導(dǎo)讀】 大數(shù)據(jù)可以應(yīng)用的更廣泛,最讓人津津樂道的是預(yù)測未來。比如,可以用大數(shù)據(jù)預(yù)測大氣污染什么時(shí)候會到達(dá)一個(gè)危險(xiǎn)的水平,在那之前就采取措施;可以預(yù)測犯罪活動最有可能在哪里、在什么時(shí)候集中爆發(fā),進(jìn)而提前部署警力;也已有不少銀行已經(jīng)在使用一種類似大數(shù)據(jù)分析的系統(tǒng)來決定是否要給顧客...

萬物都是一面鏡子,物體之間彼此反射,每個(gè)念頭、每個(gè)行為亦如是。現(xiàn)實(shí)之下是一個(gè)不停旋轉(zhuǎn)的滿是鏡子的大廳,存在就是某事的鏡像而已,存在就是萬事萬物的鏡像而已。
————皮埃羅
用中國古人的思維,創(chuàng)造大數(shù)據(jù)領(lǐng)域的“殺手級”應(yīng)用?
“中國唐宋時(shí)期的思維方法毫不過時(shí),如今中國在大數(shù)據(jù)時(shí)代尋求一種全新的‘大數(shù)據(jù)思維’時(shí)不妨回溯歷史,重新發(fā)現(xiàn)自己獨(dú)有的處理復(fù)雜社會問題的方法”。
大數(shù)據(jù)領(lǐng)域的“殺手級”應(yīng)用還未出現(xiàn)
記者:中國在過去的一年出現(xiàn)了一股“大數(shù)據(jù)熱”,阿里巴巴為首的企業(yè)提出了“從IT時(shí)代到DI時(shí)代”以及“一切業(yè)務(wù)數(shù)據(jù)化、一切數(shù)據(jù)業(yè)務(wù)化”的口號。這是否意味著大數(shù)據(jù)應(yīng)用全面商業(yè)化時(shí)代的來臨?
皮埃羅:全球范圍內(nèi)都在掀起一股大數(shù)據(jù)應(yīng)用的熱潮。如今的硅谷應(yīng)該被重新命名為“數(shù)據(jù)谷”,權(quán)威機(jī)構(gòu)預(yù)測,到2020年將有200到300億個(gè)網(wǎng)絡(luò)連接裝置,這意味著我們每年都會產(chǎn)生比之前200,000年更多的數(shù)據(jù)。在硅谷,人們將數(shù)據(jù)稱之為新的“石油”,石油可以產(chǎn)出汽油和電力,而“數(shù)據(jù)石油”一旦提煉出來,將會產(chǎn)生無人駕駛汽車(運(yùn)用GPS數(shù)據(jù)和交通數(shù)據(jù))、無人機(jī)、可穿戴設(shè)備等等。石油和數(shù)據(jù)之間的不同在于,石油的產(chǎn)品無法再產(chǎn)出更多石油,而數(shù)據(jù)的產(chǎn)品(無人駕駛汽車、無人機(jī)和可穿戴設(shè)備等)卻能產(chǎn)出更多的數(shù)據(jù)。
然而,頗讓人失望的是,我們并不知道該拿這些正在“大爆炸”的數(shù)據(jù)怎么辦。大都數(shù)情況下我們會做“數(shù)據(jù)分析”,但數(shù)據(jù)分析至少從60年代就開始了,這有什么新鮮呢?不過是通過對數(shù)據(jù)的分析試圖發(fā)現(xiàn)事物之間隱藏的規(guī)律性或潛在的問題,然后優(yōu)化整個(gè)流程,最終賺更多的錢而已。
自計(jì)算機(jī)被發(fā)明后迄今,讓人汗顏的是,數(shù)據(jù)分析最主要的應(yīng)用還是使大公司利潤最大化。比如,大家提到大數(shù)據(jù)最有名的應(yīng)用案例時(shí)都會提到亞馬遜和阿里巴巴的“推薦引擎”,即通過分析其他消費(fèi)者的數(shù)據(jù)來建議你該買什么;再比如,頻繁被提到的關(guān)于大數(shù)據(jù)的故事還有美國最大零售連鎖店之一的塔吉特(Target),它讓一個(gè)父親意外的發(fā)現(xiàn)自己還是高中生的女兒懷孕了,這一度讓大數(shù)據(jù)聲名顯赫。事實(shí)上,塔吉特的算法識別購買系統(tǒng)特別關(guān)注準(zhǔn)媽媽們,唯一的原因就是想要給她們推送特別促銷廣告,這就是我們能用大數(shù)據(jù)對孕婦做的事情?
記者:如今中國很多中小企業(yè)也在積極構(gòu)建自己的大數(shù)據(jù)系統(tǒng),比如服裝企業(yè)用數(shù)據(jù)分析實(shí)現(xiàn)個(gè)性化生產(chǎn)和銷售,或者制造水杯的企業(yè)考慮將杯子內(nèi)置傳感器,再增加一個(gè)APP,將其變成智能水杯。
皮埃羅:沒錯,但這些商家用數(shù)據(jù)分析做的也只是銷售更多的產(chǎn)品,或者決定到底該發(fā)布哪種廣告。這就是我們能對海量數(shù)據(jù)所做的事情?太有限了吧?可以說,大數(shù)據(jù)的真正“殺手級”應(yīng)用還沒有被發(fā)明出來。
我們先來看下大數(shù)據(jù)目前的現(xiàn)狀。誰在產(chǎn)生大部分?jǐn)?shù)據(jù)?機(jī)器。又是誰在閱讀大數(shù)據(jù)?不管你相信與否,網(wǎng)上大約30%的“讀者”都是機(jī)器人,而非人類,甚至連世界新聞大多數(shù)都是被機(jī)器人閱讀的。
未來,數(shù)據(jù)的主要讀者將是機(jī)器人。大數(shù)據(jù)世界的真實(shí)圖景是:機(jī)器產(chǎn)生數(shù)據(jù),機(jī)器閱讀數(shù)據(jù),并帶來一個(gè)以機(jī)器為中心的數(shù)據(jù)世界。這也是為什么大數(shù)據(jù)迄今為止唯一有用的應(yīng)用是數(shù)據(jù)分析,因?yàn)闄C(jī)器最擅長數(shù)學(xué)和統(tǒng)計(jì),卻不擅長理解人類世界。我們還沒有“大數(shù)據(jù)”領(lǐng)域真正偉大的“殺手級”應(yīng)用,正是因?yàn)槭菣C(jī)器,而非人類在“閱讀”這些數(shù)據(jù)。
大數(shù)據(jù)時(shí)代需要的不僅是“數(shù)據(jù)分析”
記者:的確如此,最近幾年來,很多制造業(yè)企業(yè)紛紛建立了智能工廠,由于機(jī)器與機(jī)器的連接產(chǎn)生并收集了大量的數(shù)據(jù),但到底能用這些數(shù)據(jù)做什么,到底如何挖掘數(shù)據(jù)的價(jià)值還讓很多人困惑。目前為止,很多人還是寄希望于數(shù)據(jù)分析,足夠精巧的數(shù)據(jù)分析總能帶來很大改變吧?
皮埃羅:大數(shù)據(jù)時(shí)代必然要求數(shù)據(jù)分析能力的不斷提高。如今,在很多大學(xué)里,計(jì)算和統(tǒng)計(jì)方法、可視化分析方法等都在不斷改善和提升。但這些復(fù)雜的方法只是為了一個(gè)簡單的目的,即讓快速計(jì)算變得更便宜,因?yàn)榇髷?shù)據(jù)分析通常費(fèi)用昂貴。
數(shù)據(jù)分析能力的快速提升確實(shí)讓人驚嘆,起初人們破譯人類基因組需要花上10年時(shí)間,現(xiàn)在卻有創(chuàng)業(yè)者能在不到一天的時(shí)間里就完成。這種能力也受到越來越多的重視,比如,斯坦福大學(xué)最受計(jì)算機(jī)系本科生歡迎的教材是《大規(guī)模數(shù)據(jù)挖掘》。這本書的第二版已經(jīng)在2014年由劍橋大學(xué)出版(詳見http://www.mmds.org/ )。也就是說,沒有任何秘密,任何人都可以使用書中的方法來分析大數(shù)據(jù)。
但是,一種新的數(shù)學(xué)方法并不能給我們帶來更有用的大數(shù)據(jù)應(yīng)用,最多只能帶來更便宜的數(shù)據(jù)分析。原因很簡單:數(shù)學(xué)家們并不了解世界上的重大問題。要解決大的問題,仍然需要一種跨學(xué)科的方法,需要一種不僅僅只有“數(shù)據(jù)分析”的應(yīng)用。
再比如,大數(shù)據(jù)分析比較典型的方法是尋找數(shù)據(jù)之間的相關(guān)性。典型的邏輯是,如果你跟許多拖欠信用卡貸款的人擁有幾乎一樣的購買記錄,很可能你也會跟他們一樣拖欠貸款。在技術(shù)層面,數(shù)據(jù)分析會試圖將這種關(guān)聯(lián)性建立模型。不過我們也就此又回到了大多數(shù)的數(shù)據(jù)都是被機(jī)器閱讀和分析這個(gè)話題中。
數(shù)據(jù)分析會存在哪些問題呢?數(shù)個(gè)世紀(jì)以來,我們早就發(fā)現(xiàn)“假設(shè)—形成”這個(gè)方法有一個(gè)弱點(diǎn):在大量數(shù)據(jù)中發(fā)現(xiàn)相關(guān)性并不難,難的是理解其中的因果關(guān)系。比如,如果有人發(fā)現(xiàn),昨天在意大利都靈所有患上流感的人都穿著黑白相間的汗衫,這并不意味著這種汗衫引起了流感,或者賣這種汗衫的人就是傳染源,這很有可能意味著這些患上流感的人都是尤文圖斯足球俱樂部的球迷,因?yàn)檫@個(gè)俱樂部的官方球服就是黑白相間的汗衫。
都靈一半的人口都是尤文圖斯足球俱樂部的球迷,從來不踢足球也對足球毫不了解的數(shù)學(xué)家們很可能會得出錯誤的結(jié)論,一個(gè)對足球一無所知的機(jī)器分析出來的結(jié)果很可能錯的更離譜。相反,一位了解都靈的人會很快意識到這種數(shù)據(jù)上的相關(guān)性并不直接包含因果關(guān)系,而會推測這場流感是在尤文圖斯球隊(duì)昨天踢球的體育場爆發(fā)的。
這種數(shù)據(jù)之間因果關(guān)系難以判定的問題隨著統(tǒng)計(jì)學(xué)誕生就存在了,然而,當(dāng)我們面臨的數(shù)據(jù)量特別大的時(shí)候,這個(gè)問題就顯得尤其棘手,因?yàn)榇罅繑?shù)據(jù)中的數(shù)據(jù)偶然相關(guān)性也是巨大的。
大數(shù)據(jù)時(shí)代我們當(dāng)然需要更好的數(shù)學(xué)家,但我們同樣需要來自各個(gè)學(xué)科的學(xué)者們。畢竟,解決人類社會的問題并不是一場數(shù)學(xué)競賽。
大數(shù)據(jù)在醫(yī)藥生物領(lǐng)域尤其有用
記者:那您認(rèn)為大數(shù)據(jù)應(yīng)該關(guān)注和解決哪些“大問題”?您更看好它在哪個(gè)領(lǐng)域的應(yīng)用?
皮埃羅:大數(shù)據(jù)可以應(yīng)用的更廣泛,最讓人津津樂道的是預(yù)測未來。比如,可以用大數(shù)據(jù)預(yù)測大氣污染什么時(shí)候會到達(dá)一個(gè)危險(xiǎn)的水平,在那之前就采取措施;可以預(yù)測犯罪活動最有可能在哪里、在什么時(shí)候集中爆發(fā),進(jìn)而提前部署警力;也已有不少銀行已經(jīng)在使用一種類似大數(shù)據(jù)分析的系統(tǒng)來決定是否要給顧客貸款。
總的來說,我認(rèn)為,大數(shù)據(jù)預(yù)測在醫(yī)藥生物領(lǐng)域特別有用。因?yàn)檫@個(gè)領(lǐng)域的數(shù)據(jù)實(shí)際上是無窮盡的,可惜的是我們甚至都沒有將已有數(shù)據(jù)儲存下來。人類基因組包含數(shù)十億堿基對,我們目前對這些堿基對到底在人類基因中發(fā)揮什么作用,又是如何相互作用導(dǎo)致了疾病實(shí)在是所知甚少。但是,我們有80億人生活在這個(gè)星球上,這是一個(gè)巨大的潛在數(shù)據(jù)庫。大數(shù)據(jù)預(yù)測可以幫助我們找到哪些基因組合會帶來疾病,而哪些組合又會帶來強(qiáng)大的免疫力。比如,有些人對瘧疾免疫。我們就可以專門研究這些人體內(nèi)基因組中的堿基對的分布情況,找出其中的奧秘。
斯坦福大學(xué)曾舉行了一個(gè)名為“生物醫(yī)學(xué)領(lǐng)域的大數(shù)據(jù)”的年度峰會,峰會提出的口號就是“數(shù)據(jù)科學(xué)將重塑21世紀(jì)人類健康”。谷歌也曾按照地區(qū)搜索和預(yù)測流感的爆發(fā),它還發(fā)起了一個(gè)研究世界范圍內(nèi)基因數(shù)據(jù)分布情況,進(jìn)而預(yù)測疾病的項(xiàng)目。(詳見https://www.dnastack.com)。 非常可惜的是,很多項(xiàng)目需要一些特定的大數(shù)據(jù)才能給公眾提供有用的應(yīng)用,但這些數(shù)據(jù)卻掌握在一些不愿意向研究者開放數(shù)據(jù)庫的公司手里。此外,我們身邊觸手可及的數(shù)據(jù)也可以提供很多有用的信息,但被我們“浪費(fèi)”掉了。比如,斯隆基金會正在贊助這樣一個(gè)大數(shù)據(jù)項(xiàng)目,該項(xiàng)目專門收集人們在火車站的機(jī)器觸摸屏上留下的微生物信息,因?yàn)檫@些微生物可以讓我們知道該城市人們的健康狀況。
大數(shù)據(jù)帶來商業(yè)合作大趨勢
記者:大數(shù)據(jù)解決大問題確實(shí)需要廣泛的合作,這是否意味著大數(shù)據(jù)領(lǐng)域的“殺手級應(yīng)用”也會在合作中誕生,而不僅僅是幾個(gè)大公司之間的游戲?
皮埃羅:確實(shí)如此。大公司確實(shí)對大數(shù)據(jù)的應(yīng)用做出了很大的貢獻(xiàn)。谷歌和臉書作為世界上屈指可數(shù)的兩個(gè)大數(shù)據(jù)公司,其貢獻(xiàn)主要是實(shí)現(xiàn)了實(shí)時(shí)處理海量數(shù)據(jù)的能力。
我們簡單回顧一下大公司在處理大數(shù)據(jù)上的技術(shù)史。谷歌的團(tuán)隊(duì)由杰夫•迪安(Jeff Dean)和桑杰·格瑪沃爾特(Sanjay Ghemawat)(約2004年)領(lǐng)導(dǎo)。他們開發(fā)了并行、分布式算法MapReduce,可以對大量、多種類的服務(wù)器機(jī)群提供極大的擴(kuò)展能力,解決了公司管理數(shù)十億搜索查詢數(shù)據(jù)以及與其他用戶交互的實(shí)際問題。
臉書的團(tuán)隊(duì)則開發(fā)了Cassandra(一套開源分布式非關(guān)系型數(shù)據(jù)庫系統(tǒng))。這個(gè)系統(tǒng)利用了亞馬遜和谷歌的技術(shù),解決了臉書的數(shù)據(jù)管理問題。臉書在2008年將其贈送給了阿帕奇開源社區(qū)。喬納森·埃利斯(Jonathan Ellis) and 馬特·派菲兒(Matt Pfeil)與2010年在加州圣克拉拉成立了DataStax公司。該公司使用Cassandra并把它發(fā)展成把它變成能夠與甲骨文競爭的關(guān)鍵任務(wù)數(shù)據(jù)庫管理系統(tǒng),在業(yè)內(nèi)數(shù)一數(shù)二。
2005年,一位雅虎的工程師道格·卡丁(Doug Cutting),以及邁克·卡夫拉(Mike Cafarella)開發(fā)了MapReduce服務(wù)以及一個(gè)分布式文件系統(tǒng)(HDFS)。從2006年以后我們稱之為Hadoop,用于在機(jī)群服務(wù)器上存儲和處理大量的數(shù)據(jù)集。Hadoop曾經(jīng)在雅虎內(nèi)部使用并最終變成另一個(gè)阿帕奇的開源框架。此后,隨著Hadoop成為行業(yè)標(biāo)準(zhǔn),出現(xiàn)了不少以它為基礎(chǔ)的大數(shù)據(jù)創(chuàng)業(yè)公司。于此同時(shí),谷歌也開發(fā)了自己的大數(shù)據(jù)服務(wù)引擎Dremel(2010年對外宣布,實(shí)際上2006年就已在內(nèi)部使用)。
目前,我們確實(shí)還沒有大數(shù)據(jù)領(lǐng)域的“蘋果手機(jī)”或“臉書”之類的殺手級應(yīng)用。但切記,相關(guān)的軟件已經(jīng)有了,而且是免費(fèi)的。大數(shù)據(jù)的最大使用者谷歌和臉書已經(jīng)將他們的大數(shù)據(jù)基礎(chǔ)設(shè)施做成了面向公眾的開源軟件,包括臉書開發(fā)的Cassandra以及谷歌的諸多大數(shù)據(jù)技術(shù)服務(wù)。此外,其他不少由美國高?;蛘邪l(fā)的大數(shù)據(jù)分析軟件也都是開源的。
為什么呢?因?yàn)槲覀兿胍絹碓蕉嗟膭?chuàng)業(yè)者在大數(shù)據(jù)領(lǐng)域探索和試驗(yàn),甚至連大公司也希望更多的小公司能夠參與進(jìn)來。我們想要看一下是否有人能發(fā)明大數(shù)據(jù)領(lǐng)域的“殺手級應(yīng)用”。
大公司將它們的大數(shù)據(jù)服務(wù)作為開源平臺面向公眾釋放的信號是,即便競爭最激烈的商業(yè)領(lǐng)域也更看重合作而非競爭,這也是未來商業(yè)的大勢所趨。
中國有潛力創(chuàng)造全新的大數(shù)據(jù)思維
記者:很多人認(rèn)為,大數(shù)據(jù)時(shí)代最重要的是培養(yǎng)“大數(shù)據(jù)思維”,這可能也是產(chǎn)生大數(shù)據(jù)“殺手級”應(yīng)用的必要條件,您認(rèn)為這是一種怎樣的思維方式? 我們又該如何培養(yǎng)?
皮埃羅:毫無疑問,大數(shù)據(jù)時(shí)代確實(shí)需要一種全新的思維方式。因?yàn)閿?shù)據(jù)有著多種多樣的來源,任何一個(gè)專家(無論是人類還是機(jī)器)都不可能吸收所有的數(shù)據(jù),這仍舊要求具有跨學(xué)科的方法。
1930年代,有兩個(gè)人在美國開創(chuàng)了“大科學(xué)”,麻省理工學(xué)院的范內(nèi)瓦·布什(Vannevar Bush,二戰(zhàn)時(shí)期美國最偉大的科學(xué)家和工程師之一)和歐內(nèi)斯特·勞倫斯(Ernest Orlando Lawrence,美國著名物理學(xué)家、1939年諾貝爾物理學(xué)獎得主)。雖然兩人合作的動機(jī)來自戰(zhàn)爭,受益的卻是和平時(shí)期的社會。
布什和勞倫斯意識到,解決大問題需要很多不同的頭腦:“大科學(xué)”正是將不同學(xué)科的科學(xué)家們聚集在一起。這種“大科學(xué)”方法給我們帶來了很多影響深遠(yuǎn)的發(fā)明,比如核能和互聯(lián)網(wǎng)??梢哉f,“大科學(xué)”就是“大數(shù)據(jù)”的最早應(yīng)用,區(qū)別是數(shù)據(jù)當(dāng)時(shí)都存在于不同科學(xué)家們的大腦里,但當(dāng)時(shí)和現(xiàn)在使用的方法必須是相似的,即為了能用大數(shù)據(jù)解決大問題,我們需要一種跨學(xué)科的方法來創(chuàng)造、創(chuàng)新。
這樣跨學(xué)科的研究機(jī)構(gòu)已經(jīng)在不斷涌現(xiàn)。比如,哈佛大學(xué)量化社會科學(xué)研究所主任蓋瑞·金(Gary King)就召集和組建了一個(gè)由社會學(xué)家、經(jīng)濟(jì)學(xué)家、物理學(xué)家、律師、心理學(xué)家等組成的研究團(tuán)隊(duì)。你可以從網(wǎng)站上看到他們目前的陣容組成:http://www.iq.harvard.edu/team-profiles。伯克利大學(xué)也建立了數(shù)據(jù)科學(xué)研究所(BIDS),成員中同樣有人種志學(xué)者、神經(jīng)系統(tǒng)科學(xué)家、社會學(xué)家、經(jīng)濟(jì)學(xué)家、物理學(xué)家、生物學(xué)家以及心理學(xué)者們,甚至還包括一位地震學(xué)家。
用大數(shù)據(jù)解決大問題實(shí)際上還有更早的例子,古代中國。我認(rèn)為,當(dāng)今中國也最有潛力創(chuàng)造全新的大數(shù)據(jù)思維模型,因?yàn)橹袊藥装倌昵熬鸵呀?jīng)發(fā)明并使用了這種思維。唐宋時(shí)期,理想的“君子”一定是一位跨學(xué)科的學(xué)者,他必須同時(shí)是政治家、歷史家、作家、畫家、詩人、書法家……他需要學(xué)習(xí)所有的經(jīng)典書籍??梢哉f,中國早就創(chuàng)造了一種“多任務(wù)處理思維”,唐宋時(shí)期的讀書人能夠肩負(fù)起解決社會大問題的責(zé)任,正是由于他從不同的領(lǐng)域吸收了足夠多的知識。
有人會問,書法到底跟解決社會大問題有什么關(guān)系?當(dāng)然有,它在無形中塑造著你的頭腦和精神,使你更有智慧。而只要擁有一個(gè)足夠智慧的大腦,不管面臨什么問題,你總能找到正確的解決方案。
我認(rèn)為,中國唐宋時(shí)期的思維方法毫不過時(shí),如今中國在“大數(shù)據(jù)時(shí)代”尋求一種全新的“大數(shù)據(jù)思維”時(shí)不妨回溯歷史,重新發(fā)現(xiàn)自己獨(dú)有的處理復(fù)雜社會問題的方法。
來源:《浙商》雜志
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重