【視頻&PPT】《數(shù)據(jù)猿巔峰思享會》之巨杉數(shù)據(jù)庫CTO王濤:大數(shù)據(jù)和數(shù)據(jù)庫的未來趨勢
kate | 2016-05-11 14:49
【數(shù)據(jù)猿導(dǎo)讀】 在去年的Strata+Hadoop World大會中,巨杉數(shù)據(jù)庫作為唯一的中國參展商在大會上做了展覽和演講,在本次《數(shù)據(jù)猿巔峰思享會》現(xiàn)場,王濤以“大數(shù)據(jù)和數(shù)據(jù)庫的未來趨勢”為主題再次分享了自己在大會上的所見、所想

王濤,SequoiaDB巨杉數(shù)據(jù)庫創(chuàng)始人兼CTO,曾在IBM 工作多年且為DB2核心研發(fā)團(tuán)隊(duì)成員
數(shù)據(jù)猿分享了上一篇雅捷股份CTO謝軍(Hadoop的企業(yè)應(yīng)用以及GPU數(shù)據(jù)庫)的精彩分享后,得到了大數(shù)據(jù)圈內(nèi)朋友的廣泛關(guān)注與支持,今天我們接著為大家放送《數(shù)據(jù)猿巔峰思享會》第二位(其他兩位:張夏天、劉賀鋒)做報告的專家SequoiaDB巨杉數(shù)據(jù)庫創(chuàng)始人兼CTO王濤的精彩內(nèi)容。
在去年的Strata+Hadoop World大會中,巨杉數(shù)據(jù)庫作為唯一的中國參展商在大會上做了展覽和演講,也接受了媒體的采訪。王濤認(rèn)為把自己的產(chǎn)品帶到國外展覽,對于產(chǎn)品的推廣很有意義,至少可以引起國外主流媒體的關(guān)注。此次思享會中,王濤分享的主題是“大數(shù)據(jù)和數(shù)據(jù)庫的未來趨勢”。
(王濤42分鐘完整分享視頻)
索取王濤完整PPT的正確姿勢:關(guān)注數(shù)據(jù)猿官方微信(datayuancn)并在后臺回復(fù)關(guān)鍵詞“王濤”即可
開源軟件的生態(tài)模式
現(xiàn)在大部分基礎(chǔ)軟件都已開源,很多公司的文化也都是開源文化,從整體來說,開源的做法現(xiàn)在也已經(jīng)不單單是為了跟大家分享,而是為一起促進(jìn)行業(yè)技術(shù)的發(fā)展。2005年以后所有做開源軟件的公司基本都獲得了VC投資的,這是行業(yè)內(nèi)一個比較明顯的現(xiàn)象。
開源軟件的發(fā)展可以分成兩大類:
一是開源軟件的商業(yè)化;
二是商業(yè)軟件的開源化。
開元軟件的商業(yè)化
開源技術(shù)一出生就在市場上站住了腳跟,但緊接著就會有一些人想要提供更好的服務(wù),打造更牛的產(chǎn)品,進(jìn)而成立公司深耕產(chǎn)品,這一類產(chǎn)品叫做開源軟件商業(yè)化。
純開源軟件設(shè)計初衷和商業(yè)軟件完全不一樣,正常商業(yè)軟件要的是平衡,尤其是廣泛適用性、兼容性等方面。通常,一上來就開源的軟件目的只是為了解決某個特定情況下的棘手問題,其設(shè)計理念是千招會不如一招靈?;陂_源軟件的底子打造出來的商業(yè)軟件,除非能把產(chǎn)品理念完全改變,否則思路還是會按照以前的方向走。
比如,有些軟件的做法是,在軟件上封裝一些功能,與社區(qū)共同成長。一方面社區(qū)可以不停的提高自己的軟件,同時這些功能會隨著社區(qū)版本的迭代而迭代。其特點(diǎn)是與主流的兼容性很強(qiáng),但自身特點(diǎn)相對比較薄弱。比如社區(qū)有10個功能,可以直接在上面添加到11或者12個功能,不需要完全改寫。
這種軟件的服務(wù)模式大多是被集成商集成到解決方案里,去滿足某個需求,所以對于軟件自身來說,無法主導(dǎo)自己的發(fā)展。
另外一些軟件的做法是,基于軟件拉一個分支,自己獨(dú)立發(fā)展。其特點(diǎn)是不考慮相互兼容,與主流脫節(jié),不管以后添加什么功能,都很難集成進(jìn)去。優(yōu)點(diǎn)是自身有特點(diǎn),可能會做主流無法做的事情。
這種方式發(fā)展下去,可以主導(dǎo)分支,未來會向真正的商業(yè)軟件邁進(jìn),目標(biāo)是成為真正的軟件廠商。但這種方式對于做開源軟件的公司來說發(fā)展會很難:
一、 想要確保對軟件永久的控制會很難;
二、因?yàn)樵瓉碥浖钠放朴绊懥艽?,所以,大部分用戶兩年以后還是會認(rèn)原本的軟件,而不認(rèn)可新的分支版本。
所以,拉分支單干的方式在開源軟件商業(yè)化里是很難走的一條路。除非團(tuán)隊(duì)的服務(wù)能力特別強(qiáng),能夠完全掌握整個軟件,比如,出現(xiàn)問題后可以快速修復(fù)完善。
商業(yè)軟件開源化
這種軟件本質(zhì)還是一個傳統(tǒng)的商業(yè)軟件,只是以開源的模式去運(yùn)營,來擴(kuò)大自己的品牌影響力。其類型特點(diǎn)會保持傳統(tǒng)企業(yè)的特點(diǎn),比如:高品質(zhì)、高度平衡、通用性較強(qiáng),但不會聚焦于特定的某一方面。
這種開源情況,廠商會永遠(yuǎn)主導(dǎo)發(fā)展方向,也會提供比較優(yōu)秀的售后服務(wù),這跟開源軟件商業(yè)化運(yùn)營有本質(zhì)區(qū)別。
從數(shù)據(jù)庫領(lǐng)域來看,在未來一段時間,從開源、閉源角度來說兩者其實(shí)是并存的,因?yàn)樗鼛Ыo客戶的利益不一樣。但是它不會一統(tǒng)市場,會有一些開源的玩家進(jìn)入。
我們認(rèn)為開源產(chǎn)品的社區(qū)加企業(yè)版會成為未來的趨勢,純粹做開源的模式是無法持久的,然而若想收取用戶費(fèi)用,只有為用戶提供更多的價值才行。比如,企業(yè)版增加運(yùn)維功能,社區(qū)版削減功能,以后基本會是這種運(yùn)營模式去發(fā)展。
強(qiáng)調(diào)一下,單純打包開源軟件是無法成為一個廠商的。比如,有些人想做開源軟件的項(xiàng)目,會先從網(wǎng)上下載源代碼,再包一個界面,然后說這是自己做的新產(chǎn)品。這里面有一個誤區(qū),首先被拷出來的源代碼軟件除非自身是雷鋒式的開源,后面沒有任何廠商才可以。因?yàn)榈灿袕S商,就會為了盈利而去限制別的玩家進(jìn)入。
對于廠商來說,如何建設(shè)開源生態(tài)?首先,要構(gòu)建社區(qū),擴(kuò)展最終用戶,包括增大社區(qū)的文檔、市場、驅(qū)動和解決方案。而對于產(chǎn)品研發(fā)方面,企業(yè)會嚴(yán)格把控產(chǎn)品的發(fā)展方向,大家不會允許其他廠商進(jìn)入。廠商會使用強(qiáng)強(qiáng)聯(lián)合的模式去合作,互相彌補(bǔ)對方的短板,而不會獨(dú)自一家從頭做到尾。
數(shù)據(jù)庫的發(fā)展
說起大數(shù)據(jù),很多人會把它與數(shù)據(jù)庫劃等號,還有一些人把Hadoop作為大數(shù)據(jù)技術(shù)的總稱。從狹義來講,Hadoop可以分為分布式的文件系統(tǒng)和調(diào)度系統(tǒng)。文件系統(tǒng)是HDFS,調(diào)度系統(tǒng)是YARN。從廣義上來講Hadoop就是大數(shù)據(jù)的代名詞。
從技術(shù)層面來說,數(shù)據(jù)湖才是描述大數(shù)據(jù)更好的方式。數(shù)據(jù)湖擁有全量的用戶屬性,它會把所有數(shù)據(jù)存進(jìn)去,然后根據(jù)這些數(shù)據(jù)進(jìn)行挖掘。
數(shù)據(jù)湖分為兩部分:一部分是操作域,另一部分是分析域。除了大數(shù)據(jù)分析以外,數(shù)據(jù)湖還包括海量數(shù)據(jù)的實(shí)時查詢、調(diào)用、交互式檢索和影像存儲。
從廣義的大數(shù)據(jù)生態(tài)來說,包括可視化數(shù)據(jù),數(shù)據(jù)集成,還有傳統(tǒng)狹義上的Hadoop生態(tài)圈,以及分布式數(shù)據(jù)庫。
分布式數(shù)據(jù)庫經(jīng)歷了幾代的發(fā)展,其中最早的Share everything是主機(jī)的DB2,它上面有幾個不同的數(shù)據(jù)庫實(shí)例,使用同樣的數(shù)據(jù),高速網(wǎng)絡(luò)打通,然后移植性控制,中間是用網(wǎng)絡(luò)來完成的。而Share Nothing的架構(gòu)相反,它的做法是把整個數(shù)據(jù)切成不同的小塊,每個小塊放在不同的節(jié)點(diǎn),讓每個節(jié)點(diǎn)擁有自己的數(shù)據(jù)。
傳統(tǒng)數(shù)據(jù)庫一定要基于外置存儲,而新型的分布式數(shù)據(jù)庫是基于PC服務(wù)器,再加上內(nèi)置盤,不能使用高端存儲。
新型分布式數(shù)據(jù)庫有兩大分支,一個分支是NoSQL,一個分支是NewSQL。兩者的目標(biāo)一致,都是為企業(yè)提供好的數(shù)據(jù)庫管理軟件,只是方式不一樣,前者是從底向上的設(shè)計,后者是從頂向下的設(shè)計。
NoSQL會先把底層的存儲、通訊都搭好,然后是計算。NewSQL的做法是基于已有的關(guān)系型數(shù)據(jù)庫的框架去修改存儲,然后滿足分布式的需要。
去年底,美國做了一個研究,結(jié)論是未來NewSQL會與NoSQL合并,越來越多的NewSQL開始支持NoSQL, 而NoSQL也會向NewSQL靠攏。我們認(rèn)為五年之內(nèi)NoSQL和NewSQL可能會成為歷史名詞,大家會認(rèn)為是新一代的分布式數(shù)據(jù)庫,具體是NoSQL還是NewSQL,每個廠商可能都會有自己API特性和SQL特性。
從整個大數(shù)據(jù)基礎(chǔ)軟件的發(fā)展來看,未來會殊途同歸,會從傳統(tǒng)的關(guān)系型數(shù)據(jù)產(chǎn)生分支,通過操作系統(tǒng)方式進(jìn)行。其實(shí)所謂的文件系統(tǒng)加分布式調(diào)度就是Hadoop,Hadoop自己不做上層建筑,核心是分布式調(diào)度和分布式操作系統(tǒng),數(shù)據(jù)庫在這個層面走的方向就是MPP數(shù)據(jù)庫,第三個是重建分布式架構(gòu),專注于存儲引擎的建議。三者目標(biāo)都是為了企業(yè)做成熟的管理軟件,未來都會統(tǒng)一,將會變成分布式數(shù)據(jù)管理系統(tǒng)。
很多人問,分布式數(shù)據(jù)庫的未來將會是什么樣的?會不會消亡?我認(rèn)為十年內(nèi)不會,至少與IBM的主機(jī)一樣,在很多全球500強(qiáng)企業(yè)里還會再用,比如說DB2,現(xiàn)在很多銀行還再用它。關(guān)系型的數(shù)據(jù)庫的Oracle不會死亡,會成為存量市場,但會逐漸萎縮。
新型數(shù)據(jù)庫的NoSQL和NewSQL,兩者會在接下來短短幾年時間內(nèi)產(chǎn)生較大融合,SQL和Hadoop會成為另一個分支,主要是做分析為主,分布式數(shù)據(jù)庫將會是更加通用化的場景,包括OLTP和一些分布式的事務(wù)、高性能的讀取、高并發(fā)都是數(shù)據(jù)庫支持的。SQL—on—Hadoop將會局限在低并發(fā)企業(yè)內(nèi)部的分析。
分布式數(shù)據(jù)庫的應(yīng)用場景
我們做的歷史數(shù)據(jù)查詢平臺產(chǎn)品,把企業(yè)內(nèi)部的冷數(shù)據(jù)、熱數(shù)據(jù)、溫數(shù)據(jù)拷貝出來,放在數(shù)據(jù)庫管理集群里面,這套集群并不是取代現(xiàn)有的任何集群,而是一個旁路系統(tǒng),可以把原本離線的數(shù)據(jù)在線化,滿足大家的需求。很多典型的應(yīng)用場景,我們都可以滿足。
比如,司法機(jī)關(guān)想在銀行查詢用戶兩年前登錄網(wǎng)銀后做了什么,這些請求如果使用傳統(tǒng)數(shù)據(jù)庫,就需要到很多不同的數(shù)據(jù)庫把數(shù)據(jù)抽出來,然后進(jìn)行手工關(guān)聯(lián)。現(xiàn)在,所有的歷史數(shù)據(jù)都可以在線化,相當(dāng)于把新系統(tǒng)作為一個旁路系統(tǒng),不會影響任何已有的業(yè)務(wù)系統(tǒng),所有的業(yè)務(wù)系統(tǒng)都可以把數(shù)據(jù)移到旁路系統(tǒng),在里面做業(yè)務(wù),從安全角度考慮,這肯定是需要的。
另外就是影像平臺,以前用EMC或者IBM做存儲時,擴(kuò)展性、成本都會有問題,現(xiàn)在有了大數(shù)據(jù)分布式技術(shù),傳統(tǒng)的做法使用Oracle加上EMC的存儲,變更到分布式數(shù)據(jù)庫存儲里,就可以用高性價比的方案做長期保存,不用每段時間歸檔一次,可以做快速檢索或簡單分析。我們在幾家銀行都已經(jīng)完成了這種部署。
模塊架構(gòu),底層都是使用分布式數(shù)據(jù)庫,上面長出很多的服務(wù),包括版本控制、動態(tài)標(biāo)簽、歸檔、數(shù)據(jù)管理等等,這些都可以使用數(shù)據(jù)庫內(nèi)部的一些原數(shù)據(jù)管理,外加存儲機(jī)制去滿足需求。
延伸閱讀:
【視頻&PPT】《數(shù)據(jù)猿巔峰思享會》之雅捷股份CTO謝軍:Hadoop的企業(yè)應(yīng)用以及GPU數(shù)據(jù)庫
【總回顧】《數(shù)據(jù)猿巔峰思享會》之2016 Strata+Hadoop World
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重