數(shù)據(jù)堂創(chuàng)始人齊紅威:我們要成為大數(shù)據(jù)行業(yè)的中石化
齊宏偉 | 2016-11-07 10:10
【數(shù)據(jù)猿導(dǎo)讀】 提到數(shù)據(jù)資源運(yùn)營(yíng),齊紅威絕對(duì)是行業(yè)的先行者。他創(chuàng)建的數(shù)據(jù)堂,從2011年開(kāi)始做數(shù)據(jù)資源運(yùn)營(yíng)。經(jīng)過(guò)五年發(fā)展,數(shù)據(jù)堂成為這一領(lǐng)域的龍頭企業(yè),進(jìn)行了很多探索和嘗試。齊紅威對(duì)數(shù)據(jù)資源運(yùn)營(yíng)有很深的理解,創(chuàng)業(yè)之前從事多年的數(shù)據(jù)分析工作

提到數(shù)據(jù)資源運(yùn)營(yíng),齊紅威絕對(duì)是行業(yè)的先行者。他創(chuàng)建的數(shù)據(jù)堂,從2011年開(kāi)始做數(shù)據(jù)資源運(yùn)營(yíng)。經(jīng)過(guò)五年發(fā)展,數(shù)據(jù)堂成為這一領(lǐng)域的龍頭企業(yè),進(jìn)行了很多探索和嘗試。齊紅威對(duì)數(shù)據(jù)資源運(yùn)營(yíng)有很深的理解,創(chuàng)業(yè)之前從事多年的數(shù)據(jù)分析工作。
博士畢業(yè)后,齊紅威去了NEC中國(guó)研究院,一待就是8年,主要工作是幫客戶做商業(yè)智能解決方案。做的是數(shù)據(jù)分析的活兒,卻經(jīng)常為沒(méi)有數(shù)據(jù)而發(fā)愁。
離開(kāi)NEC后,齊紅威有兩個(gè)創(chuàng)業(yè)選擇。一個(gè)是像其他公司那樣做解決方案、數(shù)據(jù)應(yīng)用、數(shù)據(jù)挖掘等,另一個(gè)是做數(shù)據(jù)資源運(yùn)營(yíng),解決當(dāng)年遇到的問(wèn)題。他選擇了后者,創(chuàng)建數(shù)據(jù)堂這家公司。
近期,愛(ài)分析對(duì)齊紅威進(jìn)行專訪,訪談中,齊紅威針對(duì)數(shù)據(jù)堂的發(fā)展歷程、如何挖掘數(shù)據(jù)價(jià)值、大數(shù)據(jù)行業(yè)未來(lái)發(fā)展趨勢(shì)以及數(shù)據(jù)交易可行性等方面,深入闡述了自己的看法。愛(ài)分析節(jié)選其中精彩內(nèi)容,與各位分享。
要?jiǎng)?chuàng)建大數(shù)據(jù)行業(yè)的中石化
愛(ài)分析:當(dāng)初是如何決定創(chuàng)建數(shù)據(jù)堂這家公司?
齊紅威:我們2011年開(kāi)始做這個(gè)事情。最早核心創(chuàng)始團(tuán)隊(duì)主要來(lái)自NEC中國(guó)研究院。我們?cè)贜EC做了8年,就干了一件事情:幫金融機(jī)構(gòu)、汽車廠商和電信運(yùn)營(yíng)商做商業(yè)智能解決方案。
在做項(xiàng)目的過(guò)程中,我們遇到一個(gè)很大的問(wèn)題,幫這些大客戶做解決方案的時(shí)候都需要數(shù)據(jù),但是又找不到這些數(shù)據(jù)。例如,我們當(dāng)時(shí)給豐田做大陸客戶對(duì)車以及各部件的口碑分析,這很大程度依賴用戶評(píng)論數(shù)據(jù),沒(méi)有數(shù)據(jù)做不了。但豐田公司沒(méi)有數(shù)據(jù),我們當(dāng)時(shí)就跟汽車之家、愛(ài)卡汽車等網(wǎng)站合作,通過(guò)網(wǎng)站論壇上的帖子找到用戶評(píng)價(jià)。
我們?cè)?010年開(kāi)始籌劃數(shù)據(jù)堂這件事,但最開(kāi)始不知道要做什么。討論了大半年,才開(kāi)始明確下來(lái),數(shù)據(jù)這件事會(huì)有機(jī)會(huì),把數(shù)據(jù)源整合處理好,給別人提供服務(wù)。
數(shù)據(jù)堂這個(gè)模式,我們叫數(shù)據(jù)資源運(yùn)營(yíng)商,有點(diǎn)像數(shù)據(jù)領(lǐng)域的中石化。我們分三個(gè)階段:首先,從不同領(lǐng)域、行業(yè)獲取原始數(shù)據(jù);然后把這些數(shù)據(jù)加工處理、分析整合,做成標(biāo)準(zhǔn)化產(chǎn)品;最后,將這些產(chǎn)品做成標(biāo)準(zhǔn)化接口,如API、SDK,以這種標(biāo)準(zhǔn)數(shù)據(jù)接口的形式提供給做數(shù)據(jù)應(yīng)用的企業(yè)。從這個(gè)角度來(lái)看,我們的定位很像中石化——收集原油,加工為成品油,通過(guò)加油站進(jìn)行服務(wù)。
齊紅威:坦率來(lái)講,我們?cè)诎l(fā)展過(guò)程中,有的路走得比較順,有的路出現(xiàn)小失誤,做了些調(diào)整。對(duì)創(chuàng)業(yè)公司來(lái)講,不可能一開(kāi)始就走得很順,肯定會(huì)進(jìn)行調(diào)整。但是,這一路走來(lái),我們的基本理念沒(méi)變。
我們第一天就選定了做數(shù)據(jù)資源這件事,這是我們的初衷。當(dāng)時(shí)還沒(méi)有大數(shù)據(jù)概念,到2011年底開(kāi)始有大數(shù)據(jù)概念,直到2013年,大數(shù)據(jù)還停留在概念層面。好多客戶不明白數(shù)據(jù)有價(jià)值,有數(shù)據(jù)源的不愿意或者沒(méi)有清晰的模式將數(shù)據(jù)提供給別人,數(shù)據(jù)使用方也沒(méi)有清晰的模式讓數(shù)據(jù)產(chǎn)生價(jià)值,使數(shù)據(jù)對(duì)其業(yè)務(wù)產(chǎn)生支撐。
因此,在2011年,我們找第三方去合作開(kāi)發(fā)數(shù)據(jù)不是件容易事。產(chǎn)業(yè)還沒(méi)發(fā)展到那一步,但我們覺(jué)得這件事可以開(kāi)始布局,又不想依賴第三方,所以我們切入的第一個(gè)領(lǐng)域是人工智能。
選擇AI領(lǐng)域有兩個(gè)原因:第一,我們都是做AI算法出身的,對(duì)AI領(lǐng)域比較懂;第二,AI很多數(shù)據(jù)是不依賴第三方的,我們通過(guò)眾包這種形式,是可以采集到大量數(shù)據(jù)的。
回過(guò)頭來(lái)看這件事,當(dāng)時(shí)選擇AI領(lǐng)域做切入點(diǎn)是正確的。在當(dāng)年,AI領(lǐng)域?qū)?shù)據(jù)的需求已經(jīng)很高了,到現(xiàn)在是一個(gè)爆發(fā)階段。
AI這個(gè)領(lǐng)域,特別是垂直應(yīng)用,如語(yǔ)音識(shí)別、無(wú)人駕駛等,之所以現(xiàn)在到了商用階段。是因?yàn)橛腥c(diǎn)支撐:
一. 計(jì)算能力有很大提升。我讀博的時(shí)候,沒(méi)有這種分布式架構(gòu)的,當(dāng)時(shí)有并行計(jì)算,但那種很難落地。如果沒(méi)有這樣一個(gè)模型可以同時(shí)連上萬(wàn)臺(tái)機(jī)器,是處理不了大規(guī)模數(shù)據(jù)的?,F(xiàn)在有了Hadoop等分布式技術(shù)體系,處理大規(guī)模數(shù)據(jù)的速度變快很多。
二. 算法的提升。從本質(zhì)上來(lái)說(shuō),現(xiàn)在這些算法與過(guò)去沒(méi)有太大區(qū)別?,F(xiàn)在最流行的深度學(xué)習(xí),本質(zhì)上與過(guò)去的神經(jīng)網(wǎng)絡(luò)沒(méi)有太大區(qū)別。我們之前用神經(jīng)網(wǎng)絡(luò)的效果不是很好,關(guān)鍵原因是神經(jīng)網(wǎng)絡(luò)需要有足夠多的數(shù)據(jù)去支撐,可以把每一個(gè)節(jié)點(diǎn)模擬出來(lái)。我們之前只能計(jì)算幾百個(gè)節(jié)點(diǎn)參數(shù),而現(xiàn)在深度學(xué)習(xí)可以計(jì)算幾十億個(gè)參數(shù)。
三. 數(shù)據(jù)量的提升。例如之前語(yǔ)音識(shí)別是采集幾百人的發(fā)音樣本,我們現(xiàn)在做是幾十萬(wàn)人的發(fā)音樣本,數(shù)據(jù)規(guī)??赡苁荘B級(jí)數(shù)據(jù),這么大的數(shù)據(jù)量會(huì)大大優(yōu)化參數(shù)的效果。
我們要做的就是采集語(yǔ)音、采集圖像。以無(wú)人駕駛為例,我們?yōu)楹芏嗍澜缰能噺S提供數(shù)據(jù),其中很大一部分?jǐn)?shù)據(jù)是道路上所有交通標(biāo)識(shí)牌。有了這些數(shù)據(jù),所有做無(wú)人駕駛的廠商都是我們的客戶。目前,我們?cè)贏I領(lǐng)域的數(shù)據(jù)可以應(yīng)用到無(wú)人駕駛、人臉識(shí)別、智能家居、人機(jī)交互、安防監(jiān)控、智能電商等領(lǐng)域。
我們采取眾包形式來(lái)采集數(shù)據(jù),主要是考慮到數(shù)據(jù)量很大,包括幾十萬(wàn)人的數(shù)據(jù),需要這些眾包人員幫我們采集;另一方面,這個(gè)領(lǐng)域的數(shù)據(jù)需要多樣性,覆蓋面均勻,效果才好。
2014年切入其他行業(yè),積累四類數(shù)據(jù)源
愛(ài)分析:數(shù)據(jù)堂經(jīng)過(guò)這幾年發(fā)展,目前積累了哪些數(shù)據(jù)?
齊紅威:從2014年開(kāi)始,我們開(kāi)始布局其他領(lǐng)域。大數(shù)據(jù)概念開(kāi)始落地,很多企業(yè)已經(jīng)對(duì)大數(shù)據(jù)已經(jīng)有較深的認(rèn)識(shí),機(jī)會(huì)慢慢出來(lái)了。像征信、交通等行業(yè),有數(shù)據(jù)源的企業(yè)開(kāi)始愿意合作了,認(rèn)識(shí)到數(shù)據(jù)價(jià)值。
當(dāng)時(shí)我們調(diào)研了20多個(gè)行業(yè),如農(nóng)業(yè)、化工、鋼鐵、交通、醫(yī)療、征信等。我們最先選擇征信、風(fēng)控作為切入點(diǎn),銀行是最早感知到數(shù)據(jù)價(jià)值的,他們對(duì)數(shù)據(jù)依賴也很大。之后我們拓展到了營(yíng)銷和交通。
切入哪個(gè)行業(yè)是要根據(jù)市場(chǎng)發(fā)展需求,是一步步來(lái)的,不是隨便決定的。有些行業(yè)數(shù)據(jù)量很大,但是非常分散,整合數(shù)據(jù)的代價(jià)太高,即使整合了數(shù)據(jù),那些企業(yè)對(duì)數(shù)據(jù)也基本在嘗試階段,這樣就產(chǎn)生不了大規(guī)模收益。
金融這部分我們整合了兩類數(shù)據(jù),一類是用戶的,一類是企業(yè)的。
目前我們整合的數(shù)據(jù),成規(guī)模的有2000多套,加上AI領(lǐng)域和其他途徑收集的數(shù)據(jù),一共是45000套,一套數(shù)據(jù)是可以解決用戶一個(gè)需求,數(shù)據(jù)總規(guī)模超過(guò)2PB。
愛(ài)分析:這些數(shù)據(jù)都是通過(guò)什么方式獲得的?
齊紅威:我們把數(shù)據(jù)分為四大類。
一類是純線下數(shù)據(jù),這類數(shù)據(jù)在現(xiàn)實(shí)世界中不是成規(guī)模存在的,需要一點(diǎn)點(diǎn)采集上來(lái)。這類數(shù)據(jù)都是通過(guò)眾包采集上來(lái)的。
第二類是行業(yè)數(shù)據(jù),全國(guó)有3000多萬(wàn)家企業(yè),企業(yè)在經(jīng)營(yíng)過(guò)程中會(huì)產(chǎn)生很多數(shù)據(jù),數(shù)據(jù)對(duì)于企業(yè)是副產(chǎn)品,我們與這些企業(yè)合作,去創(chuàng)造價(jià)值。如全國(guó)40多家城市出租車實(shí)時(shí)位置數(shù)據(jù),這是與出租車公司合作獲得的,出租車位置數(shù)據(jù)可以用于地圖實(shí)時(shí)路況分析。企業(yè)愿意合作是我們保證企業(yè)數(shù)據(jù)源安全,產(chǎn)生價(jià)值后利益共享。
第三類是政府?dāng)?shù)據(jù),政府有獨(dú)特?cái)?shù)據(jù),我們現(xiàn)在也跟國(guó)家部委有合作。和政府機(jī)關(guān)合作,他們會(huì)擔(dān)心合作方的身份,我們數(shù)據(jù)堂從成立以來(lái),就是一個(gè)純內(nèi)資公司,同時(shí)我們也是這一領(lǐng)域做得最好的公司,容易獲得政府機(jī)關(guān)的認(rèn)可。
第四類是互聯(lián)網(wǎng)數(shù)據(jù),這部分?jǐn)?shù)據(jù)是大家都能得到的,這些公開(kāi)數(shù)據(jù)價(jià)值有限,噪音比較大。因此,我們的主要數(shù)據(jù)源是前三類。
只做數(shù)據(jù)資源運(yùn)營(yíng),不碰數(shù)據(jù)應(yīng)用
愛(ài)分析:那么數(shù)據(jù)堂對(duì)外提供哪些服務(wù)?
齊紅威:我們不做數(shù)據(jù)應(yīng)用,通俗地講,我們是個(gè)面粉加工廠。我們整合五谷雜糧,做成標(biāo)準(zhǔn)的面粉。我們不做數(shù)據(jù)應(yīng)用的事情,主要有兩個(gè)原因。一方面,如果做垂直應(yīng)用的話,個(gè)性化太強(qiáng);另一方面,我們做應(yīng)用的話,身份就不中立了,與其他做應(yīng)用企業(yè)就產(chǎn)生競(jìng)爭(zhēng)關(guān)系。
愛(ài)分析:數(shù)據(jù)堂的收費(fèi)模式是什么樣的?
齊紅威:目前整個(gè)行業(yè)收費(fèi)模式都是差不多的,無(wú)非是兩類:第一種,將數(shù)據(jù)做成解決方案,以解決方案的形式收費(fèi);第二種,提供標(biāo)準(zhǔn)化API接口,按數(shù)據(jù)使用量付費(fèi)。我們也就是這兩大類,不過(guò)我們也在探索新的商業(yè)模式。
未來(lái)大數(shù)據(jù)行業(yè)會(huì)有聚集效應(yīng),三大原因致數(shù)據(jù)交易無(wú)法成行
愛(ài)分析:大數(shù)據(jù)行業(yè)未來(lái)會(huì)出現(xiàn)中心化么?
齊紅威:大數(shù)據(jù)行業(yè)聚集效應(yīng)會(huì)越來(lái)越強(qiáng),吸附性很強(qiáng),這種發(fā)展路徑特別像淘寶。淘寶實(shí)際做的是平臺(tái),并沒(méi)有任何產(chǎn)品。大數(shù)據(jù)行業(yè)的問(wèn)題是有數(shù)據(jù)的一方,數(shù)據(jù)種類非常單一,需要和更多領(lǐng)域的結(jié)合才能發(fā)揮更大的價(jià)值。數(shù)據(jù)獲取并非難事,關(guān)鍵是如何整合,將各個(gè)數(shù)據(jù)源打通,這才有價(jià)值。
愛(ài)分析:有些垂直行業(yè),如征信,因一些政策限制,存在行業(yè)壁壘,這會(huì)導(dǎo)致各行業(yè)間市場(chǎng)無(wú)法打通,整個(gè)產(chǎn)業(yè)會(huì)按行業(yè)劃分么?
齊紅威:以電商為例,從2003年-2005年,國(guó)內(nèi)電商只有卓越和當(dāng)當(dāng),大家也看不懂市場(chǎng)空間有多大。但到2006-2008年,涌現(xiàn)出很多電商,其中有很多是垂直電商、區(qū)域電商。但到現(xiàn)在,已經(jīng)基本發(fā)展成熟,能看出整個(gè)行業(yè)在進(jìn)行最后整合,可能最后就剩下兩家獨(dú)家:B2B和B2C。
大數(shù)據(jù)行業(yè)也是類似,2011年我們剛開(kāi)始做的時(shí)候,投資人也覺(jué)得這市場(chǎng)空間不大。到現(xiàn)在出現(xiàn)很多大數(shù)據(jù)公司,有區(qū)域、垂直行業(yè)的,我認(rèn)為未來(lái)發(fā)展趨勢(shì)會(huì)類似電商行業(yè)。
愛(ài)分析:您怎么看待數(shù)據(jù)交易這件事?
齊紅威:自始至終我都沒(méi)提過(guò)交易這件事,因?yàn)槲矣X(jué)得數(shù)據(jù)交易做不起來(lái),主要有三大原因:
第一,數(shù)據(jù)這種商品,和其他有形商品是不一樣的,甚至和論文、專利、商標(biāo)這些無(wú)形資產(chǎn)也不一樣。有一個(gè)大問(wèn)題,數(shù)據(jù)的所有權(quán)沒(méi)辦法確定,還有巨大的隱私問(wèn)題、安全問(wèn)題無(wú)法解決。這些問(wèn)題沒(méi)有解決的情況下,數(shù)據(jù)是無(wú)法交易的。比如說(shuō),微博、微信的數(shù)據(jù)到底應(yīng)該是誰(shuí)的?這是無(wú)法回答的。
第二,原始數(shù)據(jù)提供方提供的是原油、小麥,而數(shù)據(jù)需求方需要的是成品油、面粉,需求方拿到原始數(shù)據(jù)是不知道如何使用的。這時(shí)候需要數(shù)據(jù)堂這樣的中間平臺(tái),將原始數(shù)據(jù)進(jìn)行加工處理、分析挖掘,產(chǎn)生的結(jié)果是可以交易的。因此,交易的是結(jié)果,不是原始數(shù)據(jù)。
第三,一定是多種數(shù)據(jù)融合的數(shù)據(jù)才會(huì)有價(jià)值,單一數(shù)據(jù)的價(jià)值有限,需要這樣的平臺(tái)將多種數(shù)據(jù)整合在一起,比如:征信,光靠基本身份信息是無(wú)法評(píng)估信用的,需要把在線交易等多種數(shù)據(jù)整合起來(lái),才能評(píng)估個(gè)人信用。
基于上述三點(diǎn),我們從來(lái)不提數(shù)據(jù)交易,我們也不做數(shù)據(jù)交易,早年我們倒是提過(guò)數(shù)據(jù)共享這個(gè)詞。
來(lái)源:愛(ài)分析
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新