【視頻&PPT】《數(shù)據(jù)猿巔峰思享會》之Cloudera劉賀鋒:我們眼中的大數(shù)據(jù)生態(tài)環(huán)境
kate | 2016-05-16 18:57
【數(shù)據(jù)猿導(dǎo)讀】 在這次的上海《數(shù)據(jù)猿巔峰思享會》上,Cloudera Sr Partner Alliance Mgr.劉賀鋒分享的內(nèi)容主題為“大數(shù)據(jù)環(huán)境”,同時,也歡迎大家下載PPT

今天我們?yōu)榇蠹規(guī)淼氖恰稊?shù)據(jù)猿巔峰思享會》第四位分享嘉賓Cloudera Sr Partner Alliance Mgr.劉賀鋒分享的精彩內(nèi)容(前三位分享嘉賓為謝軍、王濤、張夏天)。
劉賀鋒現(xiàn)為Cloudera Sr Partner Alliance Mgr.曾在英特爾有超過10年的工作經(jīng)驗,其對數(shù)據(jù)研究和數(shù)據(jù)解決方案有豐富的經(jīng)驗。
(劉賀鋒46分鐘完整分享視頻)
索取劉賀鋒完整PPT的正確姿勢:關(guān)注數(shù)據(jù)猿官方微信(datayuancn)并在后臺回復(fù)關(guān)鍵詞“劉賀鋒”即可
以下為數(shù)據(jù)猿編輯整理的內(nèi)容:
Strata+Hadoop大會每年召開四次,是由O’Reilly與Cloudera聯(lián)合主辦。Cloudera作為東道主,今年將會在中國舉辦Strata大會,屆時我們也會在北京、上海開展一系列的活動。除了這個峰會之外,我們在業(yè)界的影響力還體現(xiàn)在:
一,市場份額大,我們在整個Hadoop市場所占的份額最大,業(yè)務(wù)營收占整個市場的60%以上。其中,第二名占20%—25%,第三名占10—15%,三家市場總占有率超過95%。所以,Hadoop市場基本已被我們?nèi)夜戏滞戤?,其他平臺的軟件廠商幾乎沒有市場空間了。
二,技術(shù)領(lǐng)先,我們每年都會在Strata大會發(fā)布一系列新的技術(shù)產(chǎn)品。比如,去年我們推出的新產(chǎn)品Record Service,就會把Data Mask放在Record Service這一底層解決數(shù)據(jù)脫敏問題。另外,新產(chǎn)品Kudu還可以實現(xiàn)數(shù)據(jù)的可讀可寫。
三,生態(tài)完整,Cloudera的生態(tài)包括上、下游產(chǎn)業(yè)鏈中的硬件、軟件、服務(wù)、實施等一整套服務(wù),是全球大數(shù)據(jù)最大的生態(tài)公司。我們推出的市場策略與紅帽公司非常類似,紅帽做操作系統(tǒng),我們是做大數(shù)據(jù)的操作系統(tǒng),但是不做應(yīng)用。其中有文件系統(tǒng)和計算引擎,而且還會提供API和各種各樣的接口。
從整個大數(shù)據(jù)生態(tài)中可以看出,技術(shù)的演進都是螺旋式上升。比如,對于已有40年歷史的關(guān)系型數(shù)據(jù)庫來說,最早時,所有數(shù)據(jù)都放在文件中,然后發(fā)展到有一個文件系統(tǒng),再發(fā)展到有數(shù)據(jù)庫、分布式數(shù)據(jù)庫、MPP、Hadoop,其發(fā)展過程中出現(xiàn)的很多問題,只有新技術(shù)才能解決,老技術(shù)會無力解決。
大數(shù)據(jù)生態(tài)環(huán)境
每年的Strata+Hadoop大會都是由Hadoop的創(chuàng)始人Doug Cutting主持。Doug Cutting是在2003—2004年寫出Hadoop,他被我們尊稱為Hadoop之父。
Hadoop發(fā)展到現(xiàn)在,變化非常大。十年以前,只有HDFS和MapReduce,而今天,以Cloudera為例,其整個CDH(Cloudera distribution of hadoop)有25種開源組件,有企業(yè)版和免費版之分。對于使用企業(yè)版的客戶來說,產(chǎn)品會經(jīng)過測試,客戶完全不用擔(dān)心售后支持,而且會受到全方位的保護。而對于大學(xué)生這類普通用戶,就可以使用免費版。
如今,全球超過百分之七八十的客戶都在用免費版CDH,真正用企業(yè)版的相對比較少。如果產(chǎn)品全部閉源,只推出商業(yè)版,便可以實現(xiàn)利益最大化。但公司并沒有這樣做,說明其更希望能夠發(fā)揮一些價值,讓更多的人熟悉并掌握大數(shù)據(jù)平臺Hadoop。
而對于現(xiàn)在想做開源社區(qū)的創(chuàng)業(yè)者來說,如果一個項目的背后有大佬支持,最好不要再做這一領(lǐng)域。比如Hadoop背后有英特爾支撐。
如何做好大數(shù)據(jù)?
大數(shù)據(jù)時時刻刻出現(xiàn)在我們生活中,也在改變著各行各業(yè)。如果按照數(shù)據(jù)的結(jié)構(gòu)種類劃分,大數(shù)據(jù)可以劃分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù);按照數(shù)據(jù)源劃分,大數(shù)據(jù)可以劃分為IOT數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、實驗數(shù)據(jù),當(dāng)然也有傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉中的數(shù)據(jù)。
經(jīng)常會有客戶問我們,如何用大數(shù)據(jù)解決自己企業(yè)的問題,解決自己用戶的需求。現(xiàn)在很多產(chǎn)業(yè)都是如此,發(fā)現(xiàn)需求后就去做產(chǎn)品,生產(chǎn)完以后卻不知道賣給誰,也不知道周圍的市場在哪。所以,對于任何一個企業(yè)來說,了解客戶和渠道是其本質(zhì)需求。
針對這種市場打造產(chǎn)品要基于數(shù)據(jù)驅(qū)動,比如每個月的產(chǎn)品生產(chǎn)量是多少,貨要發(fā)到哪里,這些需要根據(jù)數(shù)據(jù)模型和過去的市場變化做出預(yù)測和決策。另外,一定要安全合規(guī)。對于我們公司來說,使用免費版的客戶不付錢,所以我們需要依靠企業(yè)版賺錢才能發(fā)展壯大。
購買企業(yè)版的客戶有錢有數(shù)據(jù),需要的是技術(shù)方面的支持。以國內(nèi)做的最好的金融客戶——銀聯(lián)、陸金所和保險公司為例,數(shù)據(jù)和技術(shù)對他們來說非常關(guān)鍵,像日志分析、反洗錢、反欺詐、風(fēng)控,這些核心應(yīng)用都會架設(shè)在Hadoop上。
同時,這些金融客戶對安全性要求非常高,因為某些問題處在美國這種法律健全的國家甚至?xí)欣为z之災(zāi),所以有些應(yīng)用不得不做,安全合規(guī)便成為其剛性需求,這就需要我們與合作伙伴一起為客戶做全方位的保護。
我們發(fā)現(xiàn)客戶會經(jīng)歷以下階段。數(shù)據(jù)是企業(yè)的核心資產(chǎn),所以客戶會把數(shù)據(jù)收集起來,然后再做簡單的數(shù)據(jù)分析。其中,有一些高級分析工具能夠解決結(jié)構(gòu)化處理問題,還有大部分用戶常用的百度、Google搜索等應(yīng)用也可以做數(shù)據(jù)分析。除了這些歷史數(shù)據(jù)處理工具以外,更多的新型數(shù)據(jù)分析工具也在不斷涌現(xiàn),以后可以做數(shù)據(jù)模型和分析平臺。比如關(guān)鍵字索引,可以寫程序、腳本、Spark語言,甚至可以做流失計算。比如股票數(shù)據(jù)每天都會有,攝像頭每時每刻都在拍視頻,如果這些數(shù)據(jù)可以做實時分析,其最大價值就會被挖掘?qū)崿F(xiàn)。
拿我們在上海做的套牌車查詢舉例。如果同一個車牌在同一時間內(nèi)出現(xiàn)在兩個地方,那么其中有一個就是假的。這種套牌車查詢,說起來簡單,但做起來很難。因為上海有太多攝像頭和數(shù)據(jù),要實時抓住同一時間內(nèi)出現(xiàn)在兩個地方的套牌車很不容易,對方很有可能會以自己的車轉(zhuǎn)移過地點為借口逃脫。對于這種實時性要求很高的情況,我們可以用流失計算的方式解決。
以前知道Hadoop的人很少,有些人把累積起來的關(guān)系型數(shù)據(jù)庫稱為大數(shù)據(jù),這種說法不完全正確。而Clouder的做法是,隨著用戶案例越來越多,我們把有共性的東西抽取出來做成一個平臺,這就是我們的操作系統(tǒng)。
任何產(chǎn)業(yè)都是如此,離客戶越近,錢會越多,變化也會越來越多。離客戶越遠(yuǎn),越能發(fā)現(xiàn)其共性,然后就會做成平臺,所以,操作系統(tǒng)公司很重要。而且和渠道公司是一個好漢三個幫的狀態(tài),對于客戶來說都是不可或缺的。
開源的生態(tài)環(huán)境
從整個產(chǎn)業(yè)生態(tài)圈來看,有些公司提供開源,也有很多公司自己開發(fā)應(yīng)用,完全閉源。不管是開源還是閉源,都要遵從國際標(biāo)準(zhǔn),而且每個標(biāo)準(zhǔn)跟要求都不一樣。我們遵從的是Hadoop所在開源社區(qū)的標(biāo)準(zhǔn),包括Spark在內(nèi)的幾百個項目,也都遵從開源的標(biāo)準(zhǔn),因為開源是行業(yè)發(fā)展的趨勢。
舉個例子,今年臺灣的大數(shù)據(jù)市場非?;鸨?,有一個廠商告訴我,他們以前被微軟或者IBM廠商綁架太久了,因為沒有別的選擇而無法擺脫。但現(xiàn)在他們看到微軟、IBM都主動使用新的開源技術(shù)后,發(fā)現(xiàn)自己也可以使用,所以完全能夠擺脫了。目前臺灣的機會非常多,連最大的臺積電都成為了我們的客戶。
從現(xiàn)狀來看,開源是潮流趨勢,符合社會的發(fā)展方向。比如IT巨頭微軟就是,現(xiàn)在也要擁抱開源。我們也很重視開源,這是我們的立身之本。同時,因為開源產(chǎn)品太多,任何人都可以貢獻或者使用,所以大家非常自由,然而過于靈活就會造成混亂,為了對其進行約束,Clouder提供了行業(yè)標(biāo)準(zhǔn):
我們的企業(yè)版產(chǎn)品和免費版產(chǎn)品都是圍繞核心CDH所做,其中大部分產(chǎn)品都開源,也有部分企業(yè)版的高級功能不開源。因為如果被競爭對手直接拷貝,我們會完全沒有辦法,同時無法再與IBM這種公司PK。無論是大公司還是小公司,只要大家能夠共同接受,那么都會遵循這個標(biāo)準(zhǔn)。
如何做好開源社區(qū)?
我認(rèn)為,在開源社區(qū)里面保持互動非常重要。如果是一家小公司,拿來主義很容易,對產(chǎn)品稍微改動就可以去賣,也節(jié)約了開發(fā)成本。但這里面會出現(xiàn)很多問題,因為改的東西越多,差的會越來越多,而且如果走錯了就會出現(xiàn)碎片化,跟主流的脫節(jié)也會越來越遠(yuǎn),并且會導(dǎo)致此方面的維護越來越重,到最后會成為今天阿里或百度面臨的問題。
阿里和百度五六年前就在用Hadoop,但因其改了很多東西,所以后來不得不重寫。因為,即便這些公司很厲害,也一定不會超過全球程序員的智慧,所以,其產(chǎn)品也不如主流產(chǎn)品。那么,對于中小企業(yè)來說更是如此,在開源社區(qū)里邊與主流保持同步非常重要。
在開源社區(qū)里混,有兩個指標(biāo)可以作為衡量標(biāo)準(zhǔn),首先你要有一些代碼,另外,你寫的代碼其實是會說話的,而不是你付了錢,成為其中的會員就完事,以為能混的很好。
社區(qū)里邊相對來說還是比較公平的,如果你寫的好,能被別人認(rèn)可并接受,那么你的地位就會上升。
如果從種類的角度去看生態(tài)環(huán)境,那就是上面有硬件,中間有數(shù)據(jù)庫,周圍還有SI,這是全球生態(tài)的版圖。但這個情況在國內(nèi)卻不一樣,95%的廠商或者軟件都在做系統(tǒng)集成,因為在國內(nèi)做軟件產(chǎn)品幾乎賺不到錢,廠商首先要解決的就是生存問題,如果沒法生存就更談不上發(fā)展。以前閉源是這樣,現(xiàn)在開源更是如此。
國內(nèi)的下面是硬件,上面如果按照行業(yè)劃分,主要是與行業(yè)內(nèi)的集成商合作,他們會把我們的產(chǎn)品帶到其方案中,進而推出一些應(yīng)用。周圍有一些服務(wù)商,他們可以做咨詢,也可以做后期維護類的工作。因為我們是做開源的,所以我們知道開放式架構(gòu)非常重要,那么對于合作伙伴,我們就會提供非常全面的接口和生態(tài)。
我們有一百多個合作伙伴,我們會為其提供各種各樣的開發(fā)級和應(yīng)用級接口。同時,我們的界面可以直接嵌到合作伙伴開發(fā)的應(yīng)用程序中,大大降低了其開發(fā)成本。比如,如果有一家廠商的產(chǎn)品經(jīng)過了平臺驗證,那么它的產(chǎn)品會同時出現(xiàn)在我們?nèi)蚬倬W(wǎng)上。
最后,講一個題外話。我經(jīng)常看同人卦方面的東西,“同事”、“同人”就是從同人卦里面來的,我們是志同道合的一幫人,就是同人。同人可以分為三個層次:
第一個層次是同人云,比如,自己家親戚很團結(jié);
第二個層次是同人于宗,比如,雖然這個人不是親戚,但卻是同學(xué)、校友,我們把這叫做宗派,比“家”的圈子更大一些;
最高層次是同人于野,意思是,雙方?jīng)]有任何利益或關(guān)系上的連接,完全是為了感興趣的一件事情團結(jié)在一起,就是我們以前所說的統(tǒng)一戰(zhàn)線。
現(xiàn)在大數(shù)據(jù)生態(tài)圈類似處于同人同宗的階段。只有大家共同努力,才能讓大數(shù)據(jù)滲透到生活的點點滴滴。生態(tài)圈里面有做底層平臺的,有做應(yīng)用的,也有做實施的,大家都非常重要,一起努力才能為客戶提供完整的解決方案,也才能把國內(nèi)的生態(tài)環(huán)境打造的更加完善、健康。
延伸閱讀
【視頻&PPT】《數(shù)據(jù)猿巔峰思享會》之雅捷股份CTO謝軍:Hadoop的企業(yè)應(yīng)用以及GPU數(shù)據(jù)庫
【視頻&PPT】《數(shù)據(jù)猿巔峰思享會》之巨杉數(shù)據(jù)庫CTO王濤:大數(shù)據(jù)和數(shù)據(jù)庫的未來趨勢
【視頻&PPT】《數(shù)據(jù)猿巔峰思享會》之TalkingData首席數(shù)據(jù)科學(xué)家張夏天:硅谷Al/ML技術(shù)公司掠影
【綜合回顧&視頻】《數(shù)據(jù)猿巔峰思享會》之2016 Strata+Hadoop World
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重