星環(huán)科技創(chuàng)始人兼CTO孫元浩:后Hadoop時(shí)代,分布式計(jì)算已成為主流計(jì)算方式
孫元浩 | 2017-02-03 08:30
【數(shù)據(jù)猿導(dǎo)讀】 從發(fā)展趨勢(shì)來(lái)看,后Hadoop時(shí)代又回到了解決大數(shù)據(jù)的4個(gè)V上。另外,分布式計(jì)算已經(jīng)被證明比傳統(tǒng)技術(shù)更加高效、更具有性價(jià)比的方案,逐漸成為了主流的計(jì)算方式

來(lái)源:數(shù)據(jù)猿 作者:孫元浩
本文為數(shù)據(jù)猿年關(guān)策劃活動(dòng)《大數(shù)據(jù)的2016,我的2016》系列稿件,感謝本文作者 星環(huán)科技創(chuàng)始人兼CTO 孫元浩 先生的投稿。
敬請(qǐng)期待2月16日,由數(shù)據(jù)猿與中歐商學(xué)院、騰訊視頻共同舉辦的高端領(lǐng)袖線下演講欄目中歐微論壇之《超聲波》。
一、Hadoop十年發(fā)展史
從2006年開(kāi)始算起, Hadoop已經(jīng)有十年的發(fā)展歷史。Hadoop之父Doug Cutting主導(dǎo)的Apache Nutch項(xiàng)目是Hadoop軟件的源頭。該項(xiàng)目始于2002年,而直到2006年,Hadoop才逐漸形成一套完整而獨(dú)立的軟件。我們簡(jiǎn)單的梳理了下從Hadoop誕生到如今這十年的重大事件:
2006年:Hadoop誕生;
2008年:Hadoop成為Apache頂級(jí)項(xiàng)目;同年Cloudera成立,致力于將Hadoop在互聯(lián)網(wǎng)之外的企業(yè)得到應(yīng)用;
2009年:Spark出現(xiàn);Yahoo使用4000節(jié)點(diǎn)的集群運(yùn)行Hadoop;
2011年:Hortonworks作為第一個(gè)Hadoop商用版發(fā)行,緊接著MapR也發(fā)布了發(fā)行版;
2013年:Greenplum發(fā)布了Hadoop版本,同年星環(huán)科技成立;
2014年:星環(huán)發(fā)布了下一代Hadoop發(fā)行版Transwarp Data Hub(TDH)。
二、大數(shù)據(jù)技術(shù)的軟件棧
大數(shù)據(jù)技術(shù)發(fā)展至今天已經(jīng)出現(xiàn)了多項(xiàng)新技術(shù),下圖基本上涵蓋了主要的新技術(shù)。我們把這些技術(shù)分為五層:
存儲(chǔ)引擎層:分布式文件系統(tǒng)、分布式大表、搜索引擎、分布式緩存、消息隊(duì)列、分布式協(xié)作服務(wù);
資源框架層:YARN、Mesos和Kubernetes三者之間類似于演變的關(guān)系,YARN和Mesos都借鑒了Google的Borg和Omega;未來(lái)基于容器技術(shù)的資源管理框架Kubernetes將有可能取代前兩者;
通用計(jì)算引擎層:其中MapReduce和Tez技術(shù)將逐漸退出舞臺(tái),Spark將成為主流的通用計(jì)算引擎,如星環(huán)的引擎已經(jīng)全面采用Spark技術(shù);
領(lǐng)域級(jí)引擎層:SQL批處理、交互式分析、實(shí)時(shí)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、圖分析引擎、流處理引擎。其中SQL批處理是當(dāng)前成熟度最高的引擎,具備逐漸取代傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的潛力。各公司都有拿手產(chǎn)品,比如Cloudera Impala、Transwarp Inceptor。
分析管理工具層:ETL數(shù)據(jù)裝載工具、Workfolow工作流開(kāi)發(fā)工具、數(shù)據(jù)質(zhì)量管理工具、可視化報(bào)表工具、機(jī)器學(xué)習(xí)建模工具、統(tǒng)計(jì)挖掘開(kāi)發(fā)工具和資源管理工具。
這五層構(gòu)成了如今的大數(shù)據(jù)技術(shù)軟件棧。和三年前相比,存儲(chǔ)引擎層、資源管理框架層和通用計(jì)算引擎層逐漸趨于穩(wěn)定。而領(lǐng)域級(jí)引擎和分析管理工具正處于蓬勃發(fā)展的勢(shì)態(tài),不斷有大量的新的引擎出現(xiàn)。
三、發(fā)展趨勢(shì)
1. 分布式計(jì)算已經(jīng)逐漸成為主流計(jì)算方式
以30TB數(shù)據(jù)的復(fù)雜分析基準(zhǔn)測(cè)試TPC-DS為例,過(guò)去只有像Teradata這樣的產(chǎn)品才能夠成功跑完如此高數(shù)據(jù)量的benchmark。而現(xiàn)在星環(huán)的TDH這類基于Hadoop的計(jì)算引擎也能夠在幾個(gè)小時(shí)內(nèi)成功處理。不僅如此,當(dāng)數(shù)據(jù)量增大至100TB或更大時(shí),TDH依舊能夠成功完成。
這意味著基于Hadoop的計(jì)算引擎能夠像傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品一樣完成大量數(shù)據(jù)的批處理工作,分布式計(jì)算已經(jīng)被證明比傳統(tǒng)技術(shù)更加高效、更具有性價(jià)比的方案。
2. 交互式分析技術(shù)日益成熟
過(guò)去希望通過(guò)批處理改造成適用于交互式分析,在實(shí)際應(yīng)用中這樣的技術(shù)思路并不能達(dá)到預(yù)期效果。通過(guò)這兩年的實(shí)踐發(fā)現(xiàn),借助Cube技術(shù)可以顯著提升OLAP性能。通過(guò)TPC-H基準(zhǔn)測(cè)試可以看到,如果預(yù)先建好Cube,系統(tǒng)性能可以得到50-500倍的提升。
當(dāng)然,建造Cube需要花費(fèi)一定的成本,所以這種技術(shù)適用于需要固定報(bào)表并提供簡(jiǎn)單靈活自助分析的應(yīng)用場(chǎng)景——具備準(zhǔn)實(shí)時(shí)的交互式分析技術(shù)。
3. 數(shù)據(jù)分析算法逐漸豐富,工具普及化
數(shù)據(jù)分析包括數(shù)據(jù)預(yù)覽、預(yù)處理、特征工程、模型訓(xùn)練和模型上生產(chǎn)這五個(gè)步驟。目前數(shù)據(jù)分析的算法已經(jīng)有很多了,但是特征工程和算法選擇問(wèn)題沒(méi)有得到解決。人們花費(fèi)大量的時(shí)間用于數(shù)據(jù)清洗和特征選擇上,缺乏自動(dòng)化選擇特征指標(biāo)工具,現(xiàn)在可以用深度學(xué)習(xí)進(jìn)行特征選擇。
目前有很多創(chuàng)業(yè)公司進(jìn)行算法自動(dòng)化選擇,他們會(huì)用各種算法將數(shù)據(jù)跑一遍,選擇最優(yōu)算法。第三個(gè)問(wèn)題是得到分析結(jié)果并完成預(yù)測(cè)后,缺乏有效的工具進(jìn)行反饋和調(diào)整。
4. 融合事件驅(qū)動(dòng)和批處理引擎
過(guò)去流處理技術(shù)分為兩大流派,一是事件驅(qū)動(dòng)方式,一次處理一個(gè)事件,優(yōu)點(diǎn)是延時(shí)低,缺點(diǎn)是開(kāi)發(fā)難度比較高。Spark streaming進(jìn)行了調(diào)整,他設(shè)計(jì)了微批次模式,一次處理一批數(shù)據(jù),缺點(diǎn)是延時(shí)長(zhǎng),至少也有幾百毫秒。
隨著應(yīng)用需求的復(fù)雜化,對(duì)低延時(shí)和復(fù)雜編程模型的需求在不斷增加,這就需要有一個(gè)融合的引擎,底層是事件驅(qū)動(dòng)引擎, 接口是批處理編程模型,星環(huán)花了一年半的時(shí)間解決了這個(gè)問(wèn)題,通過(guò)對(duì)引擎的重構(gòu),改造成了事件驅(qū)動(dòng)的計(jì)算模型,大幅度降低了延時(shí),同時(shí)支持SQL語(yǔ)言批處理編程模型。這樣就能夠?qū)Ψ浅?fù)雜的環(huán)境下進(jìn)行實(shí)時(shí)處理,例如智能風(fēng)機(jī)的自動(dòng)監(jiān)控和運(yùn)維、金融反欺詐等場(chǎng)景。
四、2016年是Hadoop技術(shù)大規(guī)模應(yīng)用的戰(zhàn)略轉(zhuǎn)折點(diǎn)
從發(fā)展趨勢(shì)來(lái)看,后Hadoop時(shí)代又回到了解決大數(shù)據(jù)的4個(gè)V上:Volume、Variety、Velocity和Value這四個(gè)方向上面:
數(shù)據(jù)量(Volume):當(dāng)前處理的數(shù)據(jù)中80%以上依舊是結(jié)構(gòu)化數(shù)據(jù)。隨著Hadoop對(duì)SQL語(yǔ)言支持的成熟度不斷提升,以及對(duì)深度學(xué)習(xí)等新技術(shù)的良好支持,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域會(huì)被新技術(shù)取代和顛覆。
數(shù)據(jù)類型(Variety):過(guò)去主要是存儲(chǔ)非機(jī)構(gòu)化數(shù)據(jù),如今深度學(xué)習(xí)技術(shù)的興起,可以很好地處理視頻、圖像、語(yǔ)音等非結(jié)構(gòu)化數(shù)據(jù)。隨著硬件技術(shù)的發(fā)展,特別是GPU等技術(shù)發(fā)展,可以采用混合架構(gòu)提升計(jì)算能力,特別是圖像處理能力。
速度(Velocity):融合了批處理和流處理的新興技術(shù),提供了強(qiáng)大易用的低延時(shí)實(shí)時(shí)計(jì)算能力,將逐漸取代現(xiàn)有的流處理技術(shù)。
價(jià)值(Value):數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、圖計(jì)算等產(chǎn)品和工具的日益普及,降低了使用門檻,使得普通的業(yè)務(wù)人員能夠很快的進(jìn)行自助式分析建模,從數(shù)據(jù)中發(fā)現(xiàn)價(jià)值,真正體現(xiàn)出大數(shù)據(jù)的意義。
硅谷的VC在2011預(yù)測(cè):十年內(nèi)傳統(tǒng)的數(shù)據(jù)庫(kù)會(huì)被大數(shù)據(jù)替代,Hadoop及其生態(tài)系統(tǒng)將重構(gòu)數(shù)據(jù)處理市場(chǎng)。如今大數(shù)據(jù)產(chǎn)業(yè)鏈日益繁榮,包括大數(shù)據(jù)平臺(tái)軟件、分析軟件模型可視化工具等、大數(shù)據(jù)應(yīng)用軟件、專業(yè)服務(wù)及定制化這四大部分。
大數(shù)據(jù)平臺(tái)軟件有Cloudera、星環(huán)科技、Hortonworks等廠家,以上的分析軟件、模型可視化工具等這一層的玩家有上百個(gè)。至于應(yīng)用層中每個(gè)行業(yè)都有其深入的應(yīng)用,玩家更是數(shù)量巨多。
2016年是Hadoop技術(shù)大規(guī)模應(yīng)用的戰(zhàn)略轉(zhuǎn)折點(diǎn)。前兩年,大家更多的是談?wù)摵脱芯窟@項(xiàng)技術(shù),或者處于試用階段。但是在2016年,很多大型客戶已經(jīng)在其核心業(yè)務(wù)上使用Hadoop技術(shù)。例如恒豐銀行已經(jīng)采用Hadoop技術(shù)構(gòu)造其數(shù)據(jù)倉(cāng)庫(kù),有些銀行在基于星環(huán)的產(chǎn)品構(gòu)建全行風(fēng)險(xiǎn)預(yù)警系統(tǒng)。這標(biāo)志著Hadoop技術(shù)已經(jīng)深入到行業(yè)中。
Wikibon在2016年初預(yù)測(cè),未來(lái)十年Hadoop市場(chǎng)將達(dá)到900億美金的規(guī)模。未來(lái)五年市場(chǎng)將保持30%的增長(zhǎng)速度。無(wú)論是市場(chǎng)需求還是新技術(shù)的發(fā)展都將處于飛速發(fā)展的階段。
關(guān)于作者:
孫元浩,星環(huán)科技創(chuàng)始人兼CTO。畢業(yè)于南京大學(xué)計(jì)算機(jī)系,2003年加入英特爾,曾是英特爾亞太研發(fā)有限公司數(shù)據(jù)中心軟件部亞太區(qū)CTO,2013年創(chuàng)辦星環(huán)科技,致力于Hadoop之上的高效計(jì)算引擎和數(shù)據(jù)分析算法的研發(fā)。
孫元浩帶領(lǐng)團(tuán)隊(duì)研發(fā)企業(yè)級(jí)Hadoop發(fā)行版,除了對(duì)原有組件進(jìn)行了穩(wěn)定性改造,Transwarp Data Hub(TDH)更是重新設(shè)計(jì)了企業(yè)數(shù)據(jù)平臺(tái)的架構(gòu),在實(shí)時(shí)計(jì)算、分布式事物、離線批處理業(yè)務(wù)、分布式的數(shù)據(jù)挖掘、企業(yè)數(shù)據(jù)安全等多方面做出重大革新。
注:本文由 孫元浩 投稿數(shù)據(jù)猿發(fā)布。
歡迎更多大數(shù)據(jù)企業(yè)、愛(ài)好者投稿數(shù)據(jù)猿,來(lái)稿請(qǐng)直接投遞至:tougao@datayuan.cn
更多大咖干貨,請(qǐng)小主“親啟”
TalkingData首席布道師鮑忠鐵:我眼中的大數(shù)據(jù)產(chǎn)業(yè)2016年終總結(jié)
普丘信息系統(tǒng)COO陳濤:智能零售行業(yè)客戶數(shù)據(jù)應(yīng)用的思考與實(shí)踐
易觀CTO郭煒:大數(shù)據(jù)也進(jìn)入了下半場(chǎng),業(yè)務(wù)與算法是重中之重
博雅大數(shù)據(jù)學(xué)院院長(zhǎng)歐高炎:人才是大數(shù)據(jù)產(chǎn)業(yè)生存和發(fā)展的命脈
神策數(shù)據(jù)創(chuàng)始人兼CEO桑文鋒:采集缺失折射數(shù)據(jù)建設(shè)之殤
睿碼科技執(zhí)行董事王海婷:大數(shù)據(jù)在治理霧霾方面有很多事可做
薪人薪事聯(lián)合創(chuàng)始人呂恒:數(shù)據(jù)化是創(chuàng)業(yè)者對(duì)抗熵增的最佳實(shí)踐
勤智數(shù)碼董事長(zhǎng)廖昕:做好政務(wù)大數(shù)據(jù)工作還需“一網(wǎng)一生態(tài)”
艾媒咨詢創(chuàng)始人兼CEO張毅:大數(shù)據(jù)和云計(jì)算將成為AI硬件的核心技術(shù)支柱
微瑞思創(chuàng)CTO周像金:大數(shù)據(jù)需求方、供給方及從業(yè)者走過(guò)的2016
中科院方向東博士:生命大數(shù)據(jù)開(kāi)始進(jìn)入尋常百姓生活
華院(上海)CEO唐岳嵐:未來(lái),RTB在大數(shù)據(jù)智能化營(yíng)銷領(lǐng)域?qū)⒋笥凶鳛?/span>
【友盟+】CDO 李丹楓:機(jī)器為人可為的能力越來(lái)越強(qiáng),但應(yīng)用的發(fā)力點(diǎn)還在為人所不可為
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新