Hadoop工具如何形成SAP Hana的大數(shù)據(jù)平臺
搜狐科技 | 2017-07-25 10:28
【數(shù)據(jù)猿導(dǎo)讀】 自2008年以來,SAP Hana一直是領(lǐng)先的數(shù)據(jù)庫管理系統(tǒng)之一。它比許多其他數(shù)據(jù)庫管理解決方案能夠更有效地處理數(shù)據(jù),主要是因為它可以使用一些最先進的hadoop工具。

自2008年以來,SAP Hana一直是領(lǐng)先的數(shù)據(jù)庫管理系統(tǒng)之一。它比許多其他數(shù)據(jù)庫管理解決方案能夠更有效地處理數(shù)據(jù),主要是因為它可以使用一些最先進的hadoop工具。沒有Hadoop,大多數(shù)SAP Hana數(shù)據(jù)庫將是相對無用的。訪問大多數(shù)數(shù)據(jù)集將是困難的,特別是在它們存儲原始數(shù)據(jù)的時候。
為什么Hadoop是SAP Hana的骨干
邁克爾·考克斯和戴維·埃爾斯沃斯在1997年發(fā)表的“數(shù)據(jù)可視化應(yīng)用控制需求調(diào)查”一文中提出了大數(shù)據(jù)這一術(shù)語。然而,大數(shù)據(jù)的應(yīng)用直到最近才變得真正可行。
這個問題與存儲容量無關(guān)。云計算的進步地指數(shù)級增加了人們存儲數(shù)據(jù)的能力。然而,在存儲數(shù)據(jù)后,訪問數(shù)據(jù)是另一個問題。大多數(shù)數(shù)據(jù)提取工具可以從存儲數(shù)TB數(shù)據(jù)的數(shù)據(jù)陣列中獲取。據(jù)數(shù)據(jù)科學(xué)中心稱,它將一些應(yīng)用的數(shù)據(jù)可訪問性提高了109%。
許多數(shù)據(jù)已經(jīng)以非結(jié)構(gòu)化格式存儲,這可能難以提取,開發(fā)Hadoop來使流程更容易。
一些SAP Hana解決方案允許用戶存儲高達4.6TB的數(shù)據(jù)。然而,數(shù)據(jù)通常以不同的文件類型存儲,這些文件類型很難以一致的格式提取和組織。Hadoop使得這個過程更加簡單容易。
SAP Hana如何與Hadoop集成
將SAP Hana與Hadoop集成可以使訪問遠(yuǎn)程數(shù)據(jù)集群變得更加容易。但是,設(shè)置是一個耗時的過程。第一步是設(shè)置和安裝集群??蚣芸梢酝ㄟ^幾種方式構(gòu)建:
·內(nèi)部部署群集本地集群模型是處理需要少于50個節(jié)點的特定位置的項目的理想選擇。
·基于云計算的群集。如果用戶需要在大型地理位置進行協(xié)調(diào),或者需要超過50個節(jié)點,那么基于云計算的群集就會更好。
確定正確的群集后,用戶將需要創(chuàng)建一個測試環(huán)境。Cloudera Director是其中一個更好的模型。
執(zhí)行幾個測試模擬后,用戶可以使用Hadoop來訪問SAPHana智能數(shù)據(jù)。
使用Hadoop與SAP Hana有什么好處
SAP Hana管理員使用Hadoop有很多原因。許多人選擇在HANA上使用SAPUI5,因為它具有特殊的Hadoop基礎(chǔ)設(shè)施。
成本效益
據(jù)戴爾EMC公司介紹,成本效益是整合Hadoop和SAP Hana的主要原因之一。其成本節(jié)省取決于存儲的數(shù)據(jù)量,而不管數(shù)據(jù)是否是結(jié)構(gòu)化的,非結(jié)構(gòu)化,還是半結(jié)構(gòu)化的。
“VMAX所有閃存陣列通常由各種存儲組,SAP ANA生產(chǎn)和非生產(chǎn)數(shù)據(jù)庫以及非SAP Hana工作負(fù)載組成,每個都具有自己的存儲弦CR。因此,整個系統(tǒng)CR是各種底層存儲組比率的組合。通過工作負(fù)載的正常組合,您可以看到大約2:1的系統(tǒng)CR。該比例可能會更高或更低,具體取決于工作負(fù)載組合。當(dāng)內(nèi)聯(lián)壓縮與其他VMAXAllFlash節(jié)省空間的功能(如虛擬配置,零空間回收和節(jié)省空間的快照)相結(jié)合時,可實現(xiàn)4:1的總體效率。
快速響應(yīng)時間
響應(yīng)時間,可擴展性和可靠性之間存在權(quán)衡。Hadoop優(yōu)先考慮快速響應(yīng)時間,因此它是管理員需要緊急訪問數(shù)據(jù)的應(yīng)用程序的理想選擇。對于可擴展性更為關(guān)注的應(yīng)用程序,Hadoop可能不太可取。
用戶將需要首先概述其優(yōu)先級。然而,由于大多數(shù)SAP Hana用戶的優(yōu)先權(quán)是大多數(shù)權(quán)宜之計,因此Hadoop通常是他們的解決方案。
批處理和挖掘原始數(shù)據(jù)
使用更原始的大數(shù)據(jù)提取工具難以獲取原始數(shù)據(jù)。Hadoop使它更容易,這是SAP ana應(yīng)用程序中廣泛使用的主要原因之一。
實體Hadoop框架是SAP ana應(yīng)用程序的關(guān)鍵
當(dāng)用戶設(shè)置SAP Hana數(shù)據(jù)環(huán)境時,幾乎總是需要將其與Hadoop進行集成。否則訪問非結(jié)構(gòu)化數(shù)據(jù)將是非常困難的。
來源:搜狐科技
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新