?

国产精品高潮呻吟久久AV无码,在线观看亚洲糸列,888奇米亚洲影视四色,中文字幕动漫精品第1页,国产大屁股视频免费区,半夜他强行挺进了我的体内,免费看国产曰批40分钟,国产女人片最新视频,要做AV在线播放,欧美韩日精品一区二区三区

HPCC系統(tǒng),一個(gè)端到端的數(shù)據(jù)湖管理方案

【數(shù)據(jù)猿導(dǎo)讀】 如今,大多數(shù)企業(yè)都意識(shí)到,在快速變化的市場(chǎng)環(huán)境中,數(shù)據(jù)是持續(xù)創(chuàng)新和保持競(jìng)爭(zhēng)力的根本。我們面臨的一個(gè)核心挑戰(zhàn)是數(shù)據(jù)集變得更龐大更復(fù)雜,這導(dǎo)致傳統(tǒng)的關(guān)系型數(shù)據(jù)存儲(chǔ)系統(tǒng)(如數(shù)據(jù)倉(cāng)庫(kù))已無法快速響應(yīng)不斷變化的業(yè)務(wù)需求

HPCC系統(tǒng),一個(gè)端到端的數(shù)據(jù)湖管理方案

作者:Roger Dev,律商聯(lián)訊風(fēng)險(xiǎn)信息公司,高級(jí)架構(gòu)師

前言:

如今,大多數(shù)企業(yè)都意識(shí)到,在快速變化的市場(chǎng)環(huán)境中,數(shù)據(jù)是持續(xù)創(chuàng)新和保持競(jìng)爭(zhēng)力的根本。我們面臨的一個(gè)核心挑戰(zhàn)是數(shù)據(jù)集變得更龐大更復(fù)雜,這導(dǎo)致傳統(tǒng)的關(guān)系型數(shù)據(jù)存儲(chǔ)系統(tǒng)(如數(shù)據(jù)倉(cāng)庫(kù))已無法快速響應(yīng)不斷變化的業(yè)務(wù)需求。

精勵(lì)聯(lián)訊母公司律商聯(lián)訊風(fēng)險(xiǎn)信息有限公司(以下簡(jiǎn)稱“律商聯(lián)訊”)認(rèn)為這一問題很大程度上是因?yàn)橄蜿P(guān)系型數(shù)據(jù)存儲(chǔ)中添加新數(shù)據(jù)和訪問路徑都非常困難,耗時(shí)且通常成本很高。隨著企業(yè)越來越多的使用非結(jié)構(gòu)化信息,比如來自物聯(lián)網(wǎng)設(shè)備、互聯(lián)網(wǎng)和社交媒體的數(shù)據(jù),導(dǎo)致這個(gè)問題變得更加嚴(yán)重,因?yàn)殛P(guān)系型數(shù)據(jù)庫(kù)根本不是為處理這些信息而設(shè)計(jì)的。精勵(lì)聯(lián)訊將與律商聯(lián)訊介紹系列文章,著重于國(guó)際大數(shù)據(jù)技術(shù)在保險(xiǎn)行業(yè)的一些研究心得,包括HPCC系統(tǒng)、數(shù)據(jù)關(guān)聯(lián)方法、數(shù)據(jù)質(zhì)量管理工具等等。

這篇文章將聚焦為了克服這一挑戰(zhàn),許多組織——包括一些世界上最大的公司——正在使用一種行之有效的替代方案:數(shù)據(jù)湖。數(shù)據(jù)湖支持非常龐大、復(fù)雜和多樣化的數(shù)據(jù)集,并且很容易容納新的數(shù)據(jù)集,比如物聯(lián)網(wǎng)數(shù)據(jù)。IT團(tuán)隊(duì)可以使用數(shù)據(jù)湖快速開發(fā)新的應(yīng)用程序來支持不斷變化的業(yè)務(wù)需求,從而為企業(yè)中所有用戶提供使用高復(fù)雜性數(shù)據(jù)的能力。與關(guān)系數(shù)據(jù)庫(kù)相比,使用數(shù)據(jù)湖的成本較低且更容易擴(kuò)展。簡(jiǎn)而言之,數(shù)據(jù)湖可以提升對(duì)業(yè)務(wù)團(tuán)隊(duì)和外部客戶的響應(yīng)能力,降低成本,提高可擴(kuò)展性。

什么是數(shù)據(jù)湖?

數(shù)據(jù)湖是一個(gè)分布式的數(shù)據(jù)存儲(chǔ)系統(tǒng),可以存儲(chǔ)企業(yè)的所有數(shù)據(jù),包括文本、圖像等非結(jié)構(gòu)化數(shù)據(jù)及傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)中存儲(chǔ)的表格化的結(jié)構(gòu)數(shù)據(jù)。數(shù)據(jù)湖可存儲(chǔ)來自任何來源的數(shù)據(jù),包括物聯(lián)網(wǎng)傳感器、博客、社交媒體以及應(yīng)用程序。數(shù)據(jù)湖通常分布在有并行處理數(shù)據(jù)能力的服務(wù)器集群上;您可以通過簡(jiǎn)單地向集群里添加節(jié)點(diǎn)來擴(kuò)充數(shù)據(jù)湖的大小和提升性能。

數(shù)據(jù)湖的一個(gè)關(guān)鍵特征是,數(shù)據(jù)處理與提煉的所有階段的過程數(shù)據(jù)都可以保留——從原始的傳入數(shù)據(jù)到增值處理后可應(yīng)用的數(shù)據(jù)。開發(fā)人員和用戶可以在數(shù)據(jù)處理增值過程中的任何階段使用數(shù)據(jù)。

HPCC系統(tǒng)_端到端_數(shù)據(jù)湖管理_數(shù)據(jù)猿-1

數(shù)據(jù)湖相對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的最大優(yōu)勢(shì)在于,它可使企業(yè)更快速、更輕松地響應(yīng)不斷變化的市場(chǎng)需求。此外,隨著數(shù)據(jù)量的增長(zhǎng),數(shù)據(jù)湖更容易擴(kuò)展。這些優(yōu)勢(shì)源于數(shù)據(jù)湖數(shù)據(jù)存儲(chǔ)和訪問方式與數(shù)據(jù)倉(cāng)庫(kù)有本質(zhì)的不同。

數(shù)據(jù)倉(cāng)庫(kù)先存儲(chǔ)從業(yè)務(wù)應(yīng)用程序收集來的數(shù)據(jù),然后用于分析和生成管理報(bào)表?;陉P(guān)系數(shù)據(jù)庫(kù)保存高度結(jié)構(gòu)化的數(shù)據(jù),并針對(duì)特定的應(yīng)用程序和數(shù)據(jù)查詢進(jìn)行了優(yōu)化。通常數(shù)據(jù)倉(cāng)庫(kù)僅保存支持這些應(yīng)用程序所需的數(shù)據(jù),數(shù)據(jù)庫(kù)的結(jié)構(gòu)從一開始就確定。IT團(tuán)隊(duì)必須先將原始數(shù)據(jù)轉(zhuǎn)換為模式匹配的數(shù)據(jù)后才能導(dǎo)入數(shù)據(jù)庫(kù)中。

由于該模式需要集中設(shè)計(jì)和管理,這使數(shù)據(jù)庫(kù)很難將新結(jié)構(gòu)的數(shù)據(jù)添加到數(shù)據(jù)庫(kù)中來適應(yīng)新的業(yè)務(wù)需求。隨著業(yè)務(wù)的增長(zhǎng),數(shù)據(jù)結(jié)構(gòu)會(huì)變得越來越復(fù)雜。除非模式中提供了開發(fā)人員需要的數(shù)據(jù),并且提供了訪問路徑,否則開發(fā)人員無法構(gòu)建新的應(yīng)用程序。如果在數(shù)據(jù)尚不存在的時(shí)候,就需要對(duì)現(xiàn)有數(shù)據(jù)庫(kù)結(jié)構(gòu)進(jìn)行擴(kuò)展,就需要啟動(dòng)一個(gè)耗時(shí)冗長(zhǎng)的項(xiàng)目,還可能因?yàn)閷?duì)數(shù)據(jù)庫(kù)結(jié)構(gòu)的改變而影響到使用該數(shù)據(jù)的其他應(yīng)用程序,在開發(fā)過程中引發(fā)非常昂貴的依賴性問題。

此外,數(shù)據(jù)倉(cāng)庫(kù)通常只包含可用于應(yīng)用程序的最終數(shù)據(jù),從而導(dǎo)致開發(fā)人員和用戶無法利用原始數(shù)據(jù)或轉(zhuǎn)換過程中產(chǎn)生的階段性數(shù)據(jù)。

相比之下,對(duì)于數(shù)據(jù)湖,企業(yè)的所有原始的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)都以簡(jiǎn)單的原生數(shù)據(jù)格式導(dǎo)入到數(shù)據(jù)湖中。原始數(shù)據(jù)逐步豐富和轉(zhuǎn)換為特定應(yīng)用程序所需要的增強(qiáng)數(shù)據(jù)集。每次對(duì)數(shù)據(jù)進(jìn)行提煉增強(qiáng)時(shí),新生成的數(shù)據(jù)層都會(huì)保留在數(shù)據(jù)湖中,不丟失任何數(shù)據(jù)。不同的開發(fā)人員可能出于不同的目的而產(chǎn)生了許多這樣的數(shù)據(jù)層。實(shí)際上,這些數(shù)據(jù)不斷演變,不存在“最終形態(tài)”的概念。

數(shù)據(jù)管理的職能之一是使所有這些數(shù)據(jù)層都可被發(fā)現(xiàn)和重復(fù)使用,向開發(fā)人員和用戶提供足夠信息,使其理解這些數(shù)據(jù)層的內(nèi)容及生成方式,并記錄數(shù)據(jù)集之間的轉(zhuǎn)換過程。

數(shù)據(jù)湖如何實(shí)現(xiàn)對(duì)業(yè)務(wù)的更快響應(yīng)

采用數(shù)據(jù)湖對(duì)于提升快速響應(yīng)不斷變化的業(yè)務(wù)需求的能力具有深遠(yuǎn)的意義。開發(fā)人員可以輕松快速創(chuàng)建新的應(yīng)用程序,因?yàn)樗麄兛梢栽L問數(shù)據(jù)湖內(nèi)的所有數(shù)據(jù),并且可以根據(jù)需要?jiǎng)?chuàng)建新的擴(kuò)展數(shù)據(jù)和訪問路徑,無需事前預(yù)期設(shè)計(jì)所有數(shù)據(jù)需求和使用方式。

大量開發(fā)人員可以根據(jù)自己對(duì)數(shù)據(jù)使用的需求,并行開發(fā),避免不必要的依賴關(guān)系。因此他們可以快速創(chuàng)建很多新的應(yīng)用。新的應(yīng)用可以訪問到數(shù)據(jù)湖的任何地方,訪問任何數(shù)據(jù)層,包括其他應(yīng)用生成的原始數(shù)據(jù)和中間過程數(shù)據(jù)。

數(shù)據(jù)湖如何提供更強(qiáng)的可擴(kuò)展性

數(shù)據(jù)湖的硬件架構(gòu)與典型的數(shù)據(jù)倉(cāng)庫(kù)相比有很大不同。數(shù)據(jù)倉(cāng)庫(kù)通常運(yùn)行在高性能和高集中冗余存儲(chǔ)陣列(例如RAID)上,擴(kuò)展存儲(chǔ)成本非常昂貴,并且該體系結(jié)構(gòu)有存儲(chǔ)帶寬和存儲(chǔ)空間的局限性。而數(shù)據(jù)湖分布在相對(duì)廉價(jià)的服務(wù)器和存儲(chǔ)集群中,因此可以通過添加硬件節(jié)點(diǎn)以相對(duì)較低的成本逐步擴(kuò)展。

數(shù)據(jù)湖管理的步驟,挑戰(zhàn)和解決方案是什么

管理數(shù)據(jù)湖包括三個(gè)主要方面:

1. 數(shù)據(jù)獲取和增強(qiáng):數(shù)據(jù)導(dǎo)入和轉(zhuǎn)換以供不同應(yīng)用程序使用

2. 數(shù)據(jù)交付:將數(shù)據(jù)供應(yīng)給企業(yè)內(nèi)多部門的用戶使用

3. 數(shù)據(jù)管理:對(duì)數(shù)據(jù)湖中內(nèi)容進(jìn)行管理和分類,以便開發(fā)人員和其他用戶可以看到數(shù)據(jù)湖中的內(nèi)容并在應(yīng)用中使用數(shù)據(jù)

HPCC系統(tǒng)_端到端_數(shù)據(jù)湖管理_數(shù)據(jù)猿-2

因?yàn)閿?shù)據(jù)湖可以管理非常龐大的數(shù)據(jù)集,來支持眾多用戶,所以這些步驟中的每一步都可能帶來挑戰(zhàn)。成功的數(shù)據(jù)湖需要能夠迅速攝取和增強(qiáng)大量數(shù)據(jù),能夠支持多個(gè)開發(fā)團(tuán)隊(duì)進(jìn)行快速并行開發(fā),并能夠快速擴(kuò)容來提升企業(yè)內(nèi)大量用戶訪問時(shí)的性能。

HPCC系統(tǒng)_端到端_數(shù)據(jù)湖管理_數(shù)據(jù)猿-3

HPCC系統(tǒng)是律商聯(lián)訊自主研發(fā)的一個(gè)功能完整﹑高性能﹑低成本﹑久經(jīng)實(shí)時(shí)生產(chǎn)應(yīng)用考驗(yàn)的大數(shù)據(jù)平臺(tái)。HPCC系統(tǒng)采用一種功能強(qiáng)大的聲明性編程語(yǔ)言(ECL)來定義批量計(jì)算引擎Thor和實(shí)時(shí)交付引擎ROXIE中的操作,從而加速并簡(jiǎn)化應(yīng)用開發(fā)過程。在您定義了所需數(shù)據(jù)來源,數(shù)據(jù)轉(zhuǎn)換操作和目標(biāo)數(shù)據(jù)格式后,ECL可以自行決定如何完成這項(xiàng)工作。ECL可以在用戶無感的情況下完成海量數(shù)據(jù)的并行計(jì)算和復(fù)雜的算法優(yōu)化。

總結(jié)

數(shù)據(jù)湖使具有大型復(fù)雜數(shù)據(jù)集的企業(yè)能夠更快地響應(yīng)不斷變化的業(yè)務(wù)需求。與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)相比,數(shù)據(jù)湖對(duì)業(yè)務(wù)團(tuán)隊(duì)和外部客戶具有更強(qiáng)大的響應(yīng)能力,更低的成本,更高的可擴(kuò)展性,還可以容納范圍更廣的數(shù)據(jù),包括來自物聯(lián)網(wǎng)設(shè)備的數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

HPCC 系統(tǒng)是一個(gè)成熟的數(shù)據(jù)湖解決方案。HPCC系統(tǒng)是一個(gè)高性能的開源平臺(tái),它已在生產(chǎn)環(huán)境中使用了十多年,可以方便地?cái)U(kuò)容以支持大量用戶和非常大的數(shù)據(jù)集,從而使企業(yè)能夠充分利用大數(shù)據(jù)贏得競(jìng)爭(zhēng)優(yōu)勢(shì)。


來源:精勵(lì)聯(lián)訊

聲明:數(shù)據(jù)猿尊重媒體行業(yè)規(guī)范,相關(guān)內(nèi)容都會(huì)注明來源與作者;轉(zhuǎn)載我們?cè)瓌?chuàng)內(nèi)容時(shí),也請(qǐng)務(wù)必注明“來源:數(shù)據(jù)猿”與作者名稱,否則將會(huì)受到數(shù)據(jù)猿追責(zé)。

刷新相關(guān)文章

#榜樣的力量#尋找新冠戰(zhàn)“疫”,中國(guó)數(shù)據(jù)智能產(chǎn)業(yè)先鋒力量丨數(shù)據(jù)猿公益策劃
#榜樣的力量#尋找新冠戰(zhàn)“疫”,中國(guó)數(shù)據(jù)智能產(chǎn)業(yè)先鋒力量丨數(shù)...
數(shù)據(jù)猿專欄專家張涵誠(chéng):大數(shù)據(jù)管理局的現(xiàn)狀分析和未來發(fā)展展望
數(shù)據(jù)猿專欄專家張涵誠(chéng):大數(shù)據(jù)管理局的現(xiàn)狀分析和未來發(fā)展展望
紫光云公司入選數(shù)據(jù)猿「“新冠戰(zhàn)疫”—— 中國(guó)數(shù)據(jù)智能產(chǎn)業(yè)最具社會(huì)責(zé)任感企業(yè)」榜單
紫光云公司入選數(shù)據(jù)猿「“新冠戰(zhàn)疫”—— 中國(guó)數(shù)據(jù)智能產(chǎn)業(yè)最具...

我要評(píng)論

返回頂部