Spark PMC成員Ram Sriharsha:Spark如何簡化大數(shù)據(jù)工作
央廣網(wǎng) | 2016-05-13 16:04
【數(shù)據(jù)猿導(dǎo)讀】 為期三天的2016中國云計(jì)算技術(shù)大會在北京舉行,Databricks,Spark開源棧PM,Spark PMC成員 Ram Sriharsha主要給大家分享了“Spark 2.0概覽”的主題演講。他表示,Spark相當(dāng)于扮演了一個編譯器的角色,希望能夠簡化利用大數(shù)據(jù)的工作...

央廣網(wǎng)科技5月13日消息,今天,為期三天的2016中國云計(jì)算技術(shù)大會”(Cloud Computing Technology Conference 2016,簡稱CCTC 2016)在北京舉行。本次大會以“技術(shù)與應(yīng)用、趨勢與實(shí)踐”為主題,共論云計(jì)算技術(shù)實(shí)踐與發(fā)展趨勢。
Databricks,Spark開源棧PM,Spark PMC成員 Ram Sriharsha帶來《Spark 2.0概覽》的主題演講。他解釋說:“Spark既是一種統(tǒng)一的引擎,又是擁有一個框架的基礎(chǔ)。大家所使用的Spark,在一些平臺上可以進(jìn)行迭代,允許數(shù)據(jù)收集之后再進(jìn)行分析,這就構(gòu)成了數(shù)據(jù)來源,因此現(xiàn)在Spark可以運(yùn)行在很多的平臺之上。”
Ram Sriharsha表示,因?yàn)?a class="link-bottom" href="http://www.getteks.net/search?q=大數(shù)據(jù)" target="_blank" rel="nofollow">大數(shù)據(jù)難以利用,所以Spark的目的就是希望簡化基礎(chǔ)設(shè)施管理。Databricks希望能夠使用Spark集群,實(shí)現(xiàn)一鍵部署。“Spark相當(dāng)于扮演了一個編譯器的角色,希望能夠簡化利用大數(shù)據(jù)的工作。”
以下為演講實(shí)錄:
Ram Sriharsha給大家介紹一下Spark,它的路線圖,且在大數(shù)據(jù)中面臨著什么樣的挑戰(zhàn),同時,Spark又能夠幫助我們?nèi)绾螒?yīng)對這樣的一些挑戰(zhàn)。
在2012年的時候Ram Sriharsha提出來,關(guān)于在Spark方面是怎么來做的問題,并且在那一年Spark達(dá)到了成熟的階段,Ram Sriharsha認(rèn)為Spark它是一種分布式的數(shù)據(jù)群,是一種引擎。首先,大家看到這個要實(shí)施非常容易,但是在具體的組織方面非常的復(fù)雜,在這兒的整合非常的不錯,大家看到它能夠進(jìn)行很好的競爭,這是2012年的情況。
現(xiàn)在我們再回到2016年,至今已經(jīng)經(jīng)歷了很長一段時間,現(xiàn)在的路線圖是這樣的,大約在2012年的時候達(dá)到成熟期,之后Databricks有了孵化器,2014年Spark1.0版本發(fā)布,這讓大家可以很迅速地進(jìn)行拓展,在Spark上有很多工作可以做。
在具體實(shí)施方面,Databricks有一些具體項(xiàng)目,它能拓展一些編碼,2015年當(dāng)時Databricks也引入了Spark的DataFrames Tungsten ML Pipelines,再看一下2016年推出的Spark2.0,它允許開發(fā)人員做什么樣的工作呢,這一方面可能感興趣的人非常多,先看一下Spark現(xiàn)在的意義是什么,它既是一種統(tǒng)一的引擎,又是擁有一個框架的基礎(chǔ)。大家所使用的Spark,在一些平臺上可以進(jìn)行一些迭代,你們可以進(jìn)行數(shù)據(jù)收集,再對數(shù)據(jù)進(jìn)行分析,這一切構(gòu)成了數(shù)據(jù)來源,因此現(xiàn)在Spark可以運(yùn)行在很多的平臺之上。
今年Ram Sriharsha覺得對Spark來說是一個非常了不起的一年,因?yàn)镈atabricks有了一些關(guān)于大數(shù)據(jù)數(shù)據(jù)開發(fā)的項(xiàng)目,Databricks進(jìn)行了很多的計(jì)算,同時在去年Databricks也推出新的語言支持,在行業(yè)當(dāng)中進(jìn)行了推廣,它的增長非常地迅猛,但是大家看一下現(xiàn)在的情況。
大家再看一下Spark的Committer,從2014年到2015年的12月,在全球Spark的發(fā)展都非常迅猛,對Sparker來說十分開心。因?yàn)樵絹碓蕉嗟拈_發(fā)者使用Spark,他們的積極性非常高,有很多人一直在關(guān)注Spark的演變,它提供一些創(chuàng)新性和顛覆性的平臺。
看一下具體的Spark應(yīng)用,可以把它分為以下幾種:
第一就是企業(yè)智能,在BI方面也包括機(jī)器的學(xué)習(xí)。
第二是有關(guān)主性發(fā)展,越來越多讓大家看到時時性的應(yīng)用。
因此大家可以看到Spark應(yīng)用的范圍是非常廣泛的,總之 Ram Sriharsha覺得Spark的應(yīng)用非常了不起,而且是在短時間之內(nèi)讓整個行業(yè)對Spark有了非常高的認(rèn)知,并且大家把它當(dāng)做一種非常好的工具和技術(shù)。
Spark幾乎能做所有的事情,當(dāng)然對Spark來說它增長的空間也非常大。原因就是大家至今還沒有完全解決大數(shù)據(jù)所帶來的挑戰(zhàn),在接下來這幾年當(dāng)中,開發(fā)者可以發(fā)現(xiàn)在過去幾年大數(shù)據(jù)運(yùn)用起來困難很大,這一方面后面的講師會提很多內(nèi)容,總之大數(shù)據(jù)實(shí)在是太復(fù)雜了,而且基礎(chǔ)架構(gòu)管理也非常不好用,另外可以看到對于Spark方面人員的技能技巧可能也不充分,我們?nèi)狈@方面的人才,我們需要彌補(bǔ)這方面的空白,并且Spark編程也非常的困難。
最后一個挑戰(zhàn)就是Spark可拓展性是非常好的,但是要進(jìn)一步的進(jìn)行拓展,可能還是比較困難的,需要一些專門的技能技巧,之后我會介紹這一方面具體的工作,剛才所提到的都是開發(fā)者所面臨的大數(shù)據(jù)的挑戰(zhàn),必須加以解決。
由于對基礎(chǔ)架構(gòu)方面的管理非常困難,比如說設(shè)置一個典型的大數(shù)據(jù)的集群,你必須要進(jìn)行以下幾方面設(shè)置,對于PLC必須雇傭?qū)I(yè)專家,對他們進(jìn)行培訓(xùn)才能夠進(jìn)行設(shè)置,這對于管理層來說確實(shí)是一個很大的負(fù)擔(dān),而現(xiàn)在Ram Sriharsha告訴大家,在Databricks的論壇上,你們可以非常輕松地解決這個問題,因?yàn)閷park來說,你只需點(diǎn)擊一下就可以進(jìn)行設(shè)置,能夠幫助你來降低在基礎(chǔ)架構(gòu)管理方面巨大的成本,可以把他們的工作量減少,另外Ram Sriharsha也告訴大家怎么進(jìn)行Spark應(yīng)用。
接下來Databricks在管理方面做了很多工作,大家現(xiàn)在進(jìn)行設(shè)置非常容易,在Cloud,Ram Sriharsha剛才提到了一個問題是要找到相關(guān)的人才很困難,Databricks的解決方案就是培養(yǎng)人才,Databricks設(shè)置了一些相關(guān)的學(xué)術(shù)項(xiàng)目,大家都可以參加,Databricks可以把信息推到很多人面前,你可以參與到Databricks的課程培訓(xùn)當(dāng)中,Databricks做了很多事情,以確保能夠培養(yǎng)人才。
接下來的兩個問題是編程非常困難,同時要進(jìn)行拓展也很困難,實(shí)際上關(guān)于編程的困難,指的是在數(shù)據(jù)科學(xué)和大數(shù)據(jù)之間有一個脫節(jié),有的時候大家所提的是大數(shù)據(jù)的工程,但如果提到數(shù)據(jù)科學(xué)的時候,可能你就不太熟悉。有很多的技術(shù)是需要非常高的數(shù)據(jù)速度進(jìn)行運(yùn)作,比如說我們提高到了TB或者PB速度的時候,這時候就必須要使用Spark,怎么能把速度的缺憾得以彌補(bǔ),怎么提升速率,這里的缺點(diǎn)你不可能一下子就達(dá)到,于是需要讓大家學(xué)一種全新的語言?或者是說Databricks可以給大家彌補(bǔ)空白?Spark的用戶如何進(jìn)行拓展,而數(shù)據(jù)中心使用了大部分的數(shù)據(jù),在這個時候大家可以來使用一些文檔,但是對開發(fā)者來講希望Databricks能夠給大家提供更多的數(shù)據(jù)集,它們用起來更加方便。
所以怎么來間接擴(kuò)展呢?對于Spark的使用可以采用幾種方法:第一創(chuàng)造一種API,用盡可能簡單的語言表達(dá),并且確保在數(shù)據(jù)中心里面,它可以有不同的語言去選擇,同時也要確保這個平臺依然是有效的,也就是說它需要這個平臺上面運(yùn)行,必須在框架里面去處理,而且它們進(jìn)行任務(wù)操作的時候沒有太多的障礙。
另一個就是說要對于一些小的數(shù)據(jù)工具進(jìn)行無縫整合,開發(fā)者需要有能夠使用小數(shù)據(jù)的工具,所以Spark創(chuàng)建了一些模型,可以進(jìn)行各種分析,有的時候你可能不見得需要特別大規(guī)模的擴(kuò)展模式,當(dāng)然有時候你需要根據(jù)自己的體系的要求來進(jìn)行擴(kuò)展,所以說種靈活性很重要。
剛才提到要創(chuàng)建一個盡可能簡單的API,你就需要去了解到底在計(jì)算機(jī)里面應(yīng)該怎樣去描述,所以說你可以進(jìn)行一些簡單的設(shè)計(jì),但是如果還想要進(jìn)一步的優(yōu)化,之前我們所提到的DataFrames,Spark從這里邊學(xué)了很多,可以讓Spark和DataFrames結(jié)合,它可以讓開發(fā)者用同樣的語言,也可以更好地應(yīng)對競爭,所以說Spark在這方面的交互性非常好,但是Databricks也比較關(guān)注它的安全性,所以在整個的環(huán)境下,如何在同樣的要求下又能夠?qū)崿F(xiàn)它的靈活性?
這就需要Spark的Static數(shù)據(jù)集,你可以創(chuàng)建一個數(shù)據(jù)集,可以用一些過濾器或者是一些應(yīng)用,你可以得到一個專門用于你的用途的編程,而且這是非常有利的,你在DataFrames上也可以這樣做,如果你需要更大的安全性你可以有不同的選擇,也就是說他可以讓你盡可能的簡單,同時又可以覆蓋各種不同的可選的需求。
還有一點(diǎn),就是用不同的語言都可以去結(jié)合,這都是有很多的技術(shù),Spark可以把你的語言變成自己比較喜歡的語言,這也是一種開發(fā)者經(jīng)常會用到的計(jì)算方式,一般來說他跟現(xiàn)在所用的模塊都比較類似,而且很多人都比較熟悉這樣的模式,所以沒有太多關(guān)于操作方面的障礙,你也可以把他進(jìn)行分配,如果這個數(shù)據(jù)中心只是想進(jìn)行競爭,你必須要讓它變的特別簡單,他們用同樣的計(jì)算方法去實(shí)現(xiàn)你的目標(biāo),你不需要用兩種不同的算法去做,所以他可以支持多種語言,比如說Kmeans可以被培訓(xùn)用Spark,他在這里面選擇的語言是Path,一旦他接受了培訓(xùn)模式,就可以保存到系統(tǒng)里面,Path這個模式也是一樣的,后續(xù)是默認(rèn)這個語言來進(jìn)行計(jì)算,所以你不需要再去用兩種不同的算法去做自己的工作,也就是說使用不同語言的人都可以去利用這樣的工具。另外一點(diǎn),希望除了一些模式以外,希望能將這個模式序列化,也就是說你有這個能力可以去把他們部署在不同的地方。
Databricks可以盡可能的建立一種簡單表達(dá)的數(shù)據(jù)集整合,而且各種不同的語言的算法都可以進(jìn)行綁定,而且可以進(jìn)行一致性可擴(kuò)展的執(zhí)行,且可以和一些小數(shù)據(jù)工具來進(jìn)行配合。
另外一個就是怎么能夠把擴(kuò)展能力盡可能的加強(qiáng),這也是大家比較關(guān)注的問題,所以說還是要回到最初的最基本的東西,因?yàn)槟阆胍氖前堰@個速度提升數(shù)量級,你要是想特別快,比如說想提高十倍,你不可能只是依賴于原來的方法,也許能優(yōu)化6%、2%,但是如果說你想達(dá)到100%或者99%就很難再依賴于傳統(tǒng)的方法。
你必須要從根本上來做一些變化,你就需要看一下你怎么能夠更好的去快速解讀這些數(shù)據(jù),比如某一個數(shù)據(jù)集的話,你需要進(jìn)行一個過濾,基本上我們的代碼類似這樣,然后我們可以進(jìn)行進(jìn)一步的升級處理,絕大多數(shù)的數(shù)據(jù)庫使用的也是迭代模型。
下一件事情就是說要去了解我們下一步會產(chǎn)生的是什么,比如說過濾器會去進(jìn)行輸入的過濾,如果說有一個應(yīng)屆畢業(yè)生,讓他在十分鐘之內(nèi)在Java里面執(zhí)行這個查詢,對比一下這個查詢和另外一種查詢方式之間不同的區(qū)別,你可以看到基本上最后的表現(xiàn)會有這樣的一個差距,可以看到用傳統(tǒng)的方法和新的方法是不太一樣的,為什么一個剛畢業(yè)的學(xué)生就能夠打敗一個擁用30年經(jīng)驗(yàn)的研究人員,是因?yàn)槠鋵?shí)這里面有很多虛擬的功能,而且在內(nèi)存之內(nèi)調(diào)動數(shù)據(jù),而且它可以更好地去進(jìn)行編碼。
Whole-stage Codegen,它就像是一個關(guān)于整個排序的操作人員,要了解整個執(zhí)行和運(yùn)行的順序是怎樣的,那在這里面最大的一個挑戰(zhàn)就是——Spark的路線圖,現(xiàn)在其實(shí)可以看到,主要是因?yàn)榇髷?shù)據(jù)特別難以去利用,所以Spark的目的就是希望簡化基礎(chǔ)設(shè)施的管理,現(xiàn)在基礎(chǔ)設(shè)施的管理非常難,Databricks希望能夠使用Spark的集群,實(shí)現(xiàn)一鍵部署,而且現(xiàn)在的人才比較有限,編程也是比較難的。另外擴(kuò)展的能力也是比較難去實(shí)現(xiàn)的,所以說Spark相當(dāng)于扮演了一個編譯器的角色,希望能夠簡化那些利用大數(shù)據(jù)的工作,這就是Ram Sriharsha給大家簡單介紹的Spark的發(fā)展方向和運(yùn)行的目的,謝謝。
來源:央廣網(wǎng)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重