Hadoop工具引發(fā)的改變和提升:讓數(shù)據(jù)倉庫遷移更輕松
【數(shù)據(jù)猿導讀】 即便進入Hadoop時代已經(jīng)有些年頭了,將任務遷移至分布式平臺并非易事。能夠找出哪些任務在不給大量開發(fā)人員帶來麻煩的情況下進行遷移,有助于數(shù)據(jù)管理人員做出最佳選擇

從高成本數(shù)據(jù)倉庫將任務卸載有時被看做是Hadoop商用集群的首要目標。遷移提取、轉(zhuǎn)換、加載(ETL)、查詢以及報告工作并不能顯著改變商業(yè)模式,但它可能會抑制數(shù)據(jù)倉庫的增長和成本。
但是,即便進入Hadoop時代已經(jīng)有些年頭了,將任務遷移至分布式平臺并非易事。能夠找出哪些任務在不給大量開發(fā)人員帶來麻煩的情況下進行遷移,有助于數(shù)據(jù)管理人員做出最佳選擇。
一款來自Cloudera公司的Hadoop工具Navigator Optimizer可能是個不錯的選擇。它源于該公司在2015年收購的Xplain.io,這家公司試圖將某些與SQL類似的數(shù)據(jù)庫優(yōu)化功能引入Hadoop。該產(chǎn)品于今夏開始正式供應。
“該工具可以讓人們查看那些正在其他平臺上運行的查詢,并可以查看它們將會如何在我們的Hadoop環(huán)境中表現(xiàn),” Conversant的一名軟件工程經(jīng)理Peter Wojciechowski說,而Conversant是一家數(shù)字營銷公司,它通過對大量數(shù)據(jù)的處理來呈現(xiàn)個性化的廣告。
Conversant在查詢中的表現(xiàn)
Conversant最初是將Hadoop用作數(shù)據(jù)的第一著陸點,之后通過Pivotal Greenplum數(shù)據(jù)倉庫進行處理以用于分析。團隊使用Navigator已經(jīng)能夠?qū)⒛承┤蝿者w移至Hadoop和Apache Hive數(shù)據(jù)倉庫以及Impala SQL查詢環(huán)境。
“如今,核心的ETL和某些大型處理工作是在一個Hadoop集群上進行的,”Wojciechowski說,高度迭代的處理工作對于Hadoop來說是不錯的目標,但Greenplum并未被取代。在他的公司里,Greenplum仍擔當著重要的分析責任。但現(xiàn)在,其使用則更為精煉。
Wojciechowski說,“以前,Greenplum負責了所有的工作負載,但并不是所有工作負載都與其契合?,F(xiàn)在,有了該工具,我們就能更加游刃有余,例如,我們可以判斷什么才是適合在Hive中運行的。”
通過使用Optimizer,Wojciechowski和他的團隊能夠說出在Hive和Impla中查詢將會如何更好的執(zhí)行,這就如同是接受在新環(huán)境中查詢是如何執(zhí)行的指導是一樣的。Hadoop工具在生產(chǎn)中還有著進一步的應用。Optimizer與Navigator協(xié)同工作會幫助你判斷如何將工作負載查詢進行分組,這樣就能發(fā)現(xiàn)更多的重復并更有效的對集群進行利用,”他說。
像Navigator Optimizer之類的技術(shù)有助于揭示數(shù)據(jù)連接,這是一個SQL常見的特性,而它會對Hadoop造成阻礙,451 Research的分析師James Curtis如是說。“Navigator會在將任務遷移至Impala或Hive之前對已有工作進行分析,并對需要重做的連接數(shù)量進行估計,”他說。
對于該工具在任務遷移中的作用他表示認同,但他強調(diào)對查詢的優(yōu)化遠比僅用于遷移有著更廣泛的使用。“對于那些擁有數(shù)以千計查詢的公司來說,優(yōu)化查詢并不是瑣碎的工作,”Curtis說。
改變和提升
像Cloudera Navigator套件之類產(chǎn)品的可用性可以覆蓋包括所有最困難遷移任務中的一項:即將主框架數(shù)據(jù)遷移至Hadoop生態(tài)系統(tǒng)。
為此,主框架和Hadoop數(shù)據(jù)轉(zhuǎn)換公司Syncsort表示,它正在和Cloudera合作,通過將Navigator連接至其工具來追蹤傳統(tǒng)來源的數(shù)據(jù)沿襲以改善數(shù)據(jù)治理。這些傳統(tǒng)來源不僅限于主框架,而是包括運行在中端系統(tǒng)上的數(shù)據(jù)倉庫。
對于將關(guān)系型數(shù)據(jù)倉庫任務遷移至Hadoop來說,Cloudera并不是可以提供工具唯一廠商,這一領域是十分活躍的。
對于他們來說,獨立的Hadoop分銷競爭對手Hortonworks和MapR Technologies Inc.會提供相關(guān)的Hadoop工具,包括基于Apache Calcite的SQL優(yōu)化工具,而Apache Calcite是一款包括了一個SQL解析器和查詢規(guī)劃器的開源項目,而它剛剛迎來它的第一個生日。
而且,數(shù)據(jù)管理服務公司Bitwise最近推出了Hydrograph,這是一款旨在簡化卸載ETL工作負載到Hadoop和其他大數(shù)據(jù)框架的工具。Bitwise的軟件是與客戶Capital One一起開發(fā)的,它基于的開發(fā)環(huán)境使用了XML接口,因此任務可以遷移至不同的Hadoop框架,例如從MapReduce到Tez,只需要少量重新配置。
如果這些Hadoop工具能夠讓遷移設計更上一層樓并不斷探索試錯,則會改善對Hadoop的提升。對于企業(yè)中Hadoop和它的生態(tài)系統(tǒng)組件來說,在平臺上高效地獲取數(shù)據(jù)倉庫工作仍是一項重要步驟。
來源:網(wǎng)絡大數(shù)據(jù)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新