【精彩回顧】《數(shù)據(jù)猿巔峰思享會(huì)》之2016 Strata+Hadoop World
Kate | 2016-05-06 11:54
【數(shù)據(jù)猿導(dǎo)讀】 數(shù)據(jù)猿在上海舉辦的《巔峰思享會(huì)》上邀請(qǐng)了參與過Strata+Hadoop World(SHW)大會(huì)的4位中國大數(shù)據(jù)頂級(jí)專家,為大家分享了自己在大會(huì)上的所見、所感,為大數(shù)據(jù)行業(yè)同仁帶來一場(chǎng)大佬級(jí)的思想碰撞盛宴

全球頂尖的大數(shù)據(jù)領(lǐng)域技術(shù)峰會(huì)2016 Strata+Hadoop World(SHW)剛剛在美國加利福尼亞圣何塞召開,眾多優(yōu)秀的數(shù)據(jù)科學(xué)家、分析師和創(chuàng)新企業(yè)高管在大會(huì)分享了大數(shù)據(jù)、機(jī)器學(xué)習(xí)、人工智能相關(guān)領(lǐng)域的最新研究成果和實(shí)踐案例。
4月28日,數(shù)據(jù)猿在上海舉辦的《巔峰思享會(huì)》上邀請(qǐng)了參與過SHW 大會(huì)的4位大數(shù)據(jù)頂級(jí)專家,為大家分享了自己在大會(huì)的所見、所感。
【完整視頻回放請(qǐng)點(diǎn)擊這里(http://www.getteks.net/zhibo.htm)】
雅捷股份CTO謝軍:Hadoop的企業(yè)應(yīng)用及GPU數(shù)據(jù)庫
雅捷股份CTO及首席數(shù)據(jù)科學(xué)家謝軍于2016年參加了Strata+Hadoop World和英偉達(dá)GTC兩個(gè)世界級(jí)頂尖大數(shù)據(jù)盛會(huì),本次思享會(huì)中,他以Hadoop企業(yè)應(yīng)用以及GPU數(shù)據(jù)庫為主題分享了自己的觀點(diǎn),以下為數(shù)據(jù)猿節(jié)選整理的現(xiàn)場(chǎng)精彩觀點(diǎn):
SHW大會(huì)每天大概有200場(chǎng)匯報(bào),整個(gè)會(huì)場(chǎng)上老牌的帝國主義幾乎悉數(shù)退場(chǎng)。今年的IBM也只是其某個(gè)部門參會(huì),而不是以整個(gè)公司的名義出現(xiàn)。另外,互聯(lián)網(wǎng)巨頭 Facebook、eBay也有做現(xiàn)場(chǎng)報(bào)告,但沒有參加展覽。
今年的大會(huì),推廣大數(shù)據(jù)基礎(chǔ)軟件以及存儲(chǔ)的力度也不是很大了,大數(shù)據(jù)的基礎(chǔ)技術(shù)體系已建立,這個(gè)階段的架構(gòu)工作基本已結(jié)束。即使是一家大銀行也僅用6個(gè)月的時(shí)間就可以從原來的平臺(tái)移到新的Hadoop平臺(tái),所以在未來,更多的機(jī)會(huì)是在應(yīng)用端。
未來,有兩個(gè)領(lǐng)域的應(yīng)用可能會(huì)出現(xiàn)參天大樹級(jí)企業(yè),擁有巨大的機(jī)會(huì),一是HPC(高性能計(jì)算),第二個(gè)是人工智能。我建議大家不要再信哪個(gè)技術(shù)體系了,那不是本質(zhì),不是根本,目前的行業(yè)狀態(tài)是要走到應(yīng)用中,提高應(yīng)用水平是很多業(yè)務(wù)的核心。
在第二個(gè)GTC大會(huì)上,也給了我很多啟發(fā)跟思考,我認(rèn)為未來GPU領(lǐng)域?qū)?huì)非常熱門,需要咱們行業(yè)內(nèi)的CTO特別關(guān)注。
GPU是在一塊板卡上有幾千個(gè)核,一個(gè)普通商業(yè)機(jī)的板卡上大概有4900個(gè)核并行,內(nèi)部走線非常寬,最新的卡內(nèi)部走線帶寬是4.96,非???。所以我認(rèn)為,這個(gè)技術(shù)不光給人耳目一新的感覺,還有可能引起一次爆發(fā)。
從這次大會(huì)來看,GPU的應(yīng)用主要集中在自動(dòng)駕駛、VR和人工智能等領(lǐng)域,由一小塊GPU帶動(dòng)一個(gè)大集群,特別高效。
同時(shí)我也關(guān)注到,英偉達(dá)做了類似于服務(wù)器的DGX—1,里面配了8塊最好的卡,這樣一個(gè)服務(wù)器的計(jì)算能力相當(dāng)于250臺(tái)最先進(jìn)的傳統(tǒng)服務(wù)器,粗略估計(jì),至少比Hadoop的能力強(qiáng)200倍,網(wǎng)絡(luò)技術(shù)是NVLINK技術(shù),也比P100快8倍,搭載了7個(gè)TBDSSD,特別強(qiáng)大。
SequoiaDB巨杉數(shù)據(jù)庫創(chuàng)始人兼CTO王濤:大數(shù)據(jù)和數(shù)據(jù)庫的未來趨勢(shì)
王濤曾在北美IBM 工作多年且為DB2核心研發(fā)團(tuán)隊(duì)成員。此次思享會(huì)中,王濤分享的主題是“大數(shù)據(jù)和數(shù)據(jù)庫的未來趨勢(shì)”,以下為數(shù)據(jù)猿節(jié)選整理的現(xiàn)場(chǎng)精彩觀點(diǎn):
現(xiàn)在大部分基礎(chǔ)軟件都已開源,大部分公司的文化也都是開源文化。從整體來說,開源的做法已經(jīng)不單單是為了跟大家分享,現(xiàn)在基本所有的基礎(chǔ)軟件公司都已不再免費(fèi)。2005年以后所有做開源軟件的公司基本都是VC投資的,這是行業(yè)內(nèi)一個(gè)比較明顯的現(xiàn)象。
開源軟件的發(fā)展可以分成兩大類:一是開源軟件的商業(yè)化;二是商業(yè)軟件的開源化。
開元軟件的商業(yè)化,開源技術(shù)一出生就在市場(chǎng)上站住了腳跟,但緊接著就會(huì)有一些人想要提供更好的服務(wù),打造更牛的產(chǎn)品,進(jìn)而成立公司深耕產(chǎn)品,這一類產(chǎn)品叫做開源軟件商業(yè)化。
純開源軟件設(shè)計(jì)初衷和商業(yè)軟件完全不一樣,正常商業(yè)軟件要的是平衡,尤其是廣泛適用性、兼容性等方面。通常,一上來就開源的軟件目的只是為了解決某個(gè)特定情況下的棘手問題,其設(shè)計(jì)理念是千招會(huì)不如一招靈。
商業(yè)軟件開源化,對(duì)基于開源軟件的底子打造出來的商業(yè)軟件而言,除非把整個(gè)產(chǎn)品理念完全改變,否則思路還是會(huì)沿著以前的方向走,這是很多人面臨的一個(gè)大問題。這種類型的軟件本質(zhì)還是一個(gè)傳統(tǒng)的商業(yè)軟件,只是用開源的模式運(yùn)作,擴(kuò)大自己的品牌影響力,其類型特點(diǎn)會(huì)保持傳統(tǒng)企業(yè)的特點(diǎn),比如:高品質(zhì)、高度平衡、通用性較強(qiáng)等方面,但不會(huì)聚焦于特定某一方面。
這樣的開源情況,廠商會(huì)永遠(yuǎn)主導(dǎo)發(fā)展方向,也會(huì)提供比較優(yōu)秀的售后服務(wù),這跟開源軟件商業(yè)化運(yùn)營(yíng)有本質(zhì)區(qū)別。
從數(shù)據(jù)庫領(lǐng)域來看,在未來一段時(shí)間,從開源、閉源角度來說兩者其實(shí)是并存的,因?yàn)樗鼛Ыo客戶的利益不一樣。但是它不會(huì)一統(tǒng)市場(chǎng),會(huì)有一些開源的玩家進(jìn)入。
從整個(gè)大數(shù)據(jù)基礎(chǔ)軟件的發(fā)展來看,未來會(huì)殊途同歸,會(huì)從傳統(tǒng)的關(guān)系型數(shù)據(jù)產(chǎn)生分支,通過操作系統(tǒng)方式進(jìn)行。其實(shí)所謂的文件系統(tǒng)加分布式調(diào)度就是Hadoop,Hadoop自己不做上層建筑,核心是分布式調(diào)度和分布式操作系統(tǒng)。數(shù)據(jù)庫在這個(gè)層面走的方向就是NPP數(shù)據(jù)庫,第三個(gè)是重建分布式架構(gòu),專注于存儲(chǔ)引擎的建議。三者目標(biāo)都是為了企業(yè)做成熟的管理軟件,未來都會(huì)統(tǒng)一,將會(huì)變成分布式數(shù)據(jù)管理系統(tǒng)。
很多人問,分布式數(shù)據(jù)庫的未來將會(huì)是什么樣的?會(huì)不會(huì)消亡?我認(rèn)為十年內(nèi)不會(huì),至少與IBM的主機(jī)一樣,在很多全球500強(qiáng)企業(yè)里還會(huì)再用,比如說DB2,現(xiàn)在很多銀行還再用它。關(guān)系型的數(shù)據(jù)庫的Oracle不會(huì)死亡,會(huì)成為存量市場(chǎng),但會(huì)逐漸萎縮。
新型數(shù)據(jù)庫的NoSQL和NewSQL,兩者會(huì)在接下來短短幾年時(shí)間內(nèi)產(chǎn)生較大融合,SQL和Hadoop會(huì)成為另一個(gè)分支,主要是做分析為主,分布式數(shù)據(jù)庫將會(huì)是更加通用化的場(chǎng)景,包括OLTP和一些分布式的事務(wù)、高性能的讀取、高并發(fā)都是數(shù)據(jù)庫支持的。SQL—on—Hadoop將會(huì)局限在低并發(fā)企業(yè)內(nèi)部的分析。
TalkingData首席數(shù)據(jù)科學(xué)家張夏天:硅谷Al/ML技術(shù)公司掠影
張夏天曾在IBM研究院、騰訊數(shù)據(jù)平臺(tái)部、華為諾亞方舟實(shí)驗(yàn)室任職,其對(duì)大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘有深入的研究和實(shí)踐經(jīng)驗(yàn)。本次思享會(huì)中,張夏天分享的主題是“硅谷Al/ML技術(shù)公司掠影”,以下為數(shù)據(jù)猿節(jié)選整理的現(xiàn)場(chǎng)精彩觀點(diǎn):
今年參加Strata大會(huì)的公司可謂百花齊放,我發(fā)現(xiàn)一個(gè)很大的特點(diǎn),就是有很多公司在做別人看起來比較低檔的數(shù)據(jù)整合。另外,也有很多公司做分析,例如HTO公司就是一個(gè)例子,HTO整個(gè)核心產(chǎn)品全都是開源的,但是它提供商業(yè)化的支持和服務(wù),算是開源軟件商業(yè)化模式。還有很多其他的閉源平臺(tái)公司出現(xiàn),他們主要提供機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具。
我認(rèn)為從本質(zhì)上來說,開源軟件商業(yè)化的工具以前并非完全沒有,很經(jīng)典的商業(yè)化分析軟件其實(shí)有很多年了,目前市場(chǎng)上新的分析軟件基本上都是創(chuàng)業(yè)公司在做,產(chǎn)品有很多亮點(diǎn),這同時(shí)也預(yù)示了未來很多更細(xì)分領(lǐng)域的發(fā)展趨勢(shì)。
首先,提供的軟件及平臺(tái)能夠整合多種工具。會(huì)上的很多公司也都基本上都不再是從輪子造起了,所有模型都是去整合不同的開源工具,甚至可以整合商業(yè)軟件,包括SAAS都有能力整合。這樣就突破了局限性,讓大家可以使用的工具變得非常多樣,這是我看到的發(fā)展趨勢(shì)。
還有很多公司提高高效建模能力可視化,它不僅展示精美,而且可以支持各種各樣的圖表,甚至可以在圖表上做交互式數(shù)據(jù)分析。這樣就變得不只是看結(jié)果的工具了,而是可以作為真正分析互動(dòng)的工具提供給客戶。
另外,很多企業(yè)基本上都是每家只做一個(gè)分析工具或者服務(wù),通過幾個(gè)模型處理就形成這種完整的服務(wù)流程。
還有一塊,每家的支持確實(shí)做的比較好,模型和實(shí)驗(yàn)結(jié)果的管理。這個(gè)平臺(tái)跑任何實(shí)驗(yàn),做任何模型都會(huì)把結(jié)果記錄下來,模型本身是什么樣的,模型測(cè)試的結(jié)果都會(huì)全部記錄下來,可以很好的做歸檔。我覺得這也是一個(gè)非常好的功能。
還有簡(jiǎn)化模型部署這一領(lǐng)域?,F(xiàn)在這些平臺(tái)基本都支持一個(gè)功能,可以直接粘貼到部署的工程里邊去,大大簡(jiǎn)化了工作內(nèi)容。不但支持代碼導(dǎo)出,而且按一兩個(gè)鍵就可以在平臺(tái)上直接使用,部署完后可以在多科環(huán)節(jié)下運(yùn)行,非常棒。
Cloudera劉賀鋒:大數(shù)據(jù)生態(tài)環(huán)境
劉賀鋒曾在英特爾工作10多年,對(duì)數(shù)據(jù)研究和提供數(shù)據(jù)解決方案有豐富的經(jīng)驗(yàn),他在本次思享會(huì)中分享了大數(shù)據(jù)生態(tài)環(huán)境相關(guān)內(nèi)容。以下為數(shù)據(jù)猿節(jié)選整理的現(xiàn)場(chǎng)精彩觀點(diǎn):
我認(rèn)為,在開源社區(qū)里面保持互動(dòng)非常重要,如果走錯(cuò)了就會(huì)出現(xiàn)碎片化,自己去做的話,跟主流的脫節(jié)會(huì)越來越遠(yuǎn),差的越來越多,導(dǎo)致最后想回來都不能回來,所以開源社區(qū)里邊跟主流保持同步非常重要。
在開源社區(qū)里混,有兩個(gè)指標(biāo)可以作為衡量標(biāo)準(zhǔn),首先你要有一些代碼,另外,你寫的代碼其實(shí)是會(huì)說話的,而不是你付了錢,成為其中的會(huì)員就完事,以為能混的很好。
如果從種類的角度去看生態(tài)環(huán)境,那就是上面有硬件,中間有數(shù)據(jù)庫,周圍還有SI,這是全球生態(tài)的版圖。但這個(gè)情況在國內(nèi)卻不一樣,95%的廠商或者軟件都在做系統(tǒng)集成,因?yàn)樵趪鴥?nèi)做軟件產(chǎn)品幾乎賺不到錢,廠商首先要解決的就是生存問題,如果沒法生存就更談不上發(fā)展。以前閉源是這樣,現(xiàn)在開源更是如此。
現(xiàn)在的生態(tài)圈可能還處于同仁同宗的階段。如果有一天大數(shù)據(jù)已經(jīng)無處不在,滲透到生活的點(diǎn)點(diǎn)滴滴時(shí),就需要大家共同努力。有底層做平臺(tái)的,有做應(yīng)用的,也有做實(shí)施的,并不是說哪個(gè)比哪個(gè)更重要,而是需要大家一起為客戶提供解決方案,同時(shí)也把國內(nèi)的生態(tài)環(huán)境打造的更完善更健康。
現(xiàn)場(chǎng)交流互動(dòng)——大咖答題
四位專家各自分享完后,現(xiàn)場(chǎng)進(jìn)入了提問環(huán)節(jié),四位專家在現(xiàn)場(chǎng)做了深度交流和溝通。
現(xiàn)場(chǎng)嘉賓:我想問問GPU計(jì)算哪種應(yīng)用比較合適?因?yàn)橄鄬?duì)于Hadoop集群來說,CPU會(huì)少一些,某些應(yīng)用會(huì)不會(huì)更適合?
謝軍:
目前來看,原來的服務(wù)器級(jí)別都轉(zhuǎn)向卡級(jí)別了,沒有任何人還會(huì)用原來的16核做工作,也不會(huì)用250臺(tái)的集群做,電量都受不了,著名的AlphaGo就是英偉達(dá)的K80。其次用的比較多的是自動(dòng)駕駛,現(xiàn)在英偉達(dá)的產(chǎn)品比較多,出了一款大概只有70瓦公司的M40,性能非常好,功率要降到1/4了。另外我們也在做系列產(chǎn)品,是在阿姆系列上做的,整個(gè)功率只有10瓦左右,我們現(xiàn)在在機(jī)載上用的很多,發(fā)出一個(gè)炮彈都是智能的。
張夏天:我想問王總,我去年看了6個(gè)數(shù)據(jù)庫的存儲(chǔ)、開源和閉源的公司,今天我看到這里邊至少有4家都是通用型這一層的公司,依你們來看,你們?cè)谶@一層中想把通用層工具做到性能的極致化,還是往上走一點(diǎn),還是往下跟其他層的資源調(diào)度相關(guān)?
王濤:
這是企業(yè)的商業(yè)模式問題。我認(rèn)為兩者的趨勢(shì)是,如果要往上做,除非能做出很牛的數(shù)據(jù)模型,所有人都要遵照這個(gè)模型??梢援a(chǎn)品化,不然到最后就會(huì)變成項(xiàng)目公司,這對(duì)投資者來說也沒有任何興趣。如果往下做,維持在平臺(tái)的這層肯定離應(yīng)用比較遠(yuǎn)。
這一方面,我們真正在做業(yè)務(wù)時(shí)肯定要選取幾個(gè)平衡點(diǎn)。首先,要從大數(shù)據(jù)里面找到最適合你,并且用戶最有興趣的產(chǎn)品下手。另外,努力說服用戶,讓用戶找開發(fā)商一起合作。從一個(gè)產(chǎn)品公司的角度來說這是比較好的做法。如果要想從上到下都自己做,那肯定來自于定制化的東西,然后就會(huì)變成主頁,到最后會(huì)成為外包公司。具體如何選擇很重要,上面不能什么都碰,也不能什么都不碰。
現(xiàn)場(chǎng)提問:剛才提到很多計(jì)算要往端走,端有一個(gè)好處是計(jì)算字眼比較多,但是怎么解決這個(gè)矛盾呢?
張夏天:
我們公司目前有一些東西會(huì)往這個(gè)方向走,比如情景識(shí)別、行為識(shí)別,做一些基于手機(jī)傳感器數(shù)據(jù)方面的嘗試。這樣就需要把一些能力往前置,因?yàn)閭鞲衅髁魈螅總鞯椒?wù)器上,不管電量還是帶寬都是完全不可接受的,只能說把模型直接部署在前端。我們最終想知道的是這個(gè)設(shè)備處于什么狀態(tài),如何來的并不是最關(guān)心的。所以這個(gè)事情可以在端完成。
現(xiàn)場(chǎng)提問:我們?cè)谡麄€(gè)云的架構(gòu)上不再用傳統(tǒng)的數(shù)據(jù)庫嗎?
劉賀鋒:
我們公司創(chuàng)始人說原來他們推出這個(gè)公司的產(chǎn)品最早不打算專注大數(shù)據(jù),而是專注于云。今年公司的發(fā)展方向是云,我們是所有發(fā)行廠商里唯一全支持的,就是微軟、Google的東西等等,我們有專門的組件幫助你在各種各樣的云環(huán)境里部署。
謝軍:虛擬化的東西也支持?
劉賀鋒:
我們不做虛擬化,我們?nèi)虻氖矍叭タ蛻裟抢镒鲅菔?,不帶機(jī)器,全部是用AWS的機(jī)器,然后有自己的虛擬機(jī)環(huán)節(jié)給大家演示。
注:以上就是數(shù)據(jù)猿節(jié)選整理的2016Strata+Hadoop World巔峰思享會(huì)中四位大數(shù)據(jù)專家分享的行業(yè)干貨,在接下來的幾天中,小編會(huì)陸續(xù)為大家放送各個(gè)專家詳細(xì)精彩的視頻回放與全程文字實(shí)錄,敬請(qǐng)期待吧!
曬曬更健康,歡迎勾搭數(shù)據(jù)猿一起玩活動(dòng)
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書》重