Spark PMC成員Ram Sriharsha：Spark如何簡化大數(shù)據(jù)工作

Spark PMC 大數(shù)據(jù) Spark

央廣網(wǎng) | 2016-05-13 16:04

【數(shù)據(jù)猿導(dǎo)讀】為期三天的2016中國云計(jì)算技術(shù)大會在北京舉行，Databricks,Spark開源棧PM，Spark PMC成員 Ram Sriharsha主要給大家分享了“Spark 2.0概覽”的主題演講。他表示，Spark相當(dāng)于扮演了一個編譯器的角色，希望能夠簡化利用大數(shù)據(jù)的工作...

Spark PMC成員Ram Sriharsha：Spark如何簡化大數(shù)據(jù)工作

央廣網(wǎng)科技5月13日消息，今天，為期三天的2016中國云計(jì)算技術(shù)大會”(Cloud Computing Technology Conference 2016，簡稱CCTC 2016)在北京舉行。本次大會以“技術(shù)與應(yīng)用、趨勢與實(shí)踐”為主題，共論云計(jì)算技術(shù)實(shí)踐與發(fā)展趨勢。

Databricks,Spark開源棧PM，Spark PMC成員 Ram Sriharsha帶來《Spark 2.0概覽》的主題演講。他解釋說：“Spark既是一種統(tǒng)一的引擎，又是擁有一個框架的基礎(chǔ)。大家所使用的Spark，在一些平臺上可以進(jìn)行迭代，允許數(shù)據(jù)收集之后再進(jìn)行分析，這就構(gòu)成了數(shù)據(jù)來源，因此現(xiàn)在Spark可以運(yùn)行在很多的平臺之上。”

Ram Sriharsha表示，因?yàn)?a class="link-bottom" href="http://www.getteks.net/search?q=大數(shù)據(jù)" target="_blank" rel="nofollow">大數(shù)據(jù)難以利用，所以Spark的目的就是希望簡化基礎(chǔ)設(shè)施管理。Databricks希望能夠使用Spark集群，實(shí)現(xiàn)一鍵部署。“Spark相當(dāng)于扮演了一個編譯器的角色，希望能夠簡化利用大數(shù)據(jù)的工作。”

以下為演講實(shí)錄：

Ram Sriharsha給大家介紹一下Spark，它的路線圖，且在大數(shù)據(jù)中面臨著什么樣的挑戰(zhàn)，同時，Spark又能夠幫助我們?nèi)绾螒?yīng)對這樣的一些挑戰(zhàn)。

在2012年的時候Ram Sriharsha提出來，關(guān)于在Spark方面是怎么來做的問題，并且在那一年Spark達(dá)到了成熟的階段，Ram Sriharsha認(rèn)為Spark它是一種分布式的數(shù)據(jù)群，是一種引擎。首先，大家看到這個要實(shí)施非常容易，但是在具體的組織方面非常的復(fù)雜，在這兒的整合非常的不錯，大家看到它能夠進(jìn)行很好的競爭，這是2012年的情況。

現(xiàn)在我們再回到2016年，至今已經(jīng)經(jīng)歷了很長一段時間，現(xiàn)在的路線圖是這樣的，大約在2012年的時候達(dá)到成熟期，之后Databricks有了孵化器，2014年Spark1.0版本發(fā)布，這讓大家可以很迅速地進(jìn)行拓展，在Spark上有很多工作可以做。

在具體實(shí)施方面，Databricks有一些具體項(xiàng)目，它能拓展一些編碼，2015年當(dāng)時Databricks也引入了Spark的DataFrames Tungsten ML Pipelines，再看一下2016年推出的Spark2.0，它允許開發(fā)人員做什么樣的工作呢，這一方面可能感興趣的人非常多，先看一下Spark現(xiàn)在的意義是什么，它既是一種統(tǒng)一的引擎，又是擁有一個框架的基礎(chǔ)。大家所使用的Spark，在一些平臺上可以進(jìn)行一些迭代，你們可以進(jìn)行數(shù)據(jù)收集，再對數(shù)據(jù)進(jìn)行分析，這一切構(gòu)成了數(shù)據(jù)來源，因此現(xiàn)在Spark可以運(yùn)行在很多的平臺之上。

今年Ram Sriharsha覺得對Spark來說是一個非常了不起的一年，因?yàn)镈atabricks有了一些關(guān)于大數(shù)據(jù)數(shù)據(jù)開發(fā)的項(xiàng)目，Databricks進(jìn)行了很多的計(jì)算，同時在去年Databricks也推出新的語言支持，在行業(yè)當(dāng)中進(jìn)行了推廣，它的增長非常地迅猛，但是大家看一下現(xiàn)在的情況。

大家再看一下Spark的Committer，從2014年到2015年的12月，在全球Spark的發(fā)展都非常迅猛，對Sparker來說十分開心。因?yàn)樵絹碓蕉嗟拈_發(fā)者使用Spark，他們的積極性非常高，有很多人一直在關(guān)注Spark的演變，它提供一些創(chuàng)新性和顛覆性的平臺。

看一下具體的Spark應(yīng)用，可以把它分為以下幾種：

第一就是企業(yè)智能，在BI方面也包括機(jī)器的學(xué)習(xí)。

第二是有關(guān)主性發(fā)展，越來越多讓大家看到時時性的應(yīng)用。

因此大家可以看到Spark應(yīng)用的范圍是非常廣泛的，總之 Ram Sriharsha覺得Spark的應(yīng)用非常了不起，而且是在短時間之內(nèi)讓整個行業(yè)對Spark有了非常高的認(rèn)知，并且大家把它當(dāng)做一種非常好的工具和技術(shù)。

Spark幾乎能做所有的事情，當(dāng)然對Spark來說它增長的空間也非常大。原因就是大家至今還沒有完全解決大數(shù)據(jù)所帶來的挑戰(zhàn)，在接下來這幾年當(dāng)中，開發(fā)者可以發(fā)現(xiàn)在過去幾年大數(shù)據(jù)運(yùn)用起來困難很大，這一方面后面的講師會提很多內(nèi)容，總之大數(shù)據(jù)實(shí)在是太復(fù)雜了，而且基礎(chǔ)架構(gòu)管理也非常不好用，另外可以看到對于Spark方面人員的技能技巧可能也不充分，我們?nèi)狈@方面的人才，我們需要彌補(bǔ)這方面的空白，并且Spark編程也非常的困難。

最后一個挑戰(zhàn)就是Spark可拓展性是非常好的，但是要進(jìn)一步的進(jìn)行拓展，可能還是比較困難的，需要一些專門的技能技巧，之后我會介紹這一方面具體的工作，剛才所提到的都是開發(fā)者所面臨的大數(shù)據(jù)的挑戰(zhàn)，必須加以解決。

由于對基礎(chǔ)架構(gòu)方面的管理非常困難，比如說設(shè)置一個典型的大數(shù)據(jù)的集群，你必須要進(jìn)行以下幾方面設(shè)置，對于PLC必須雇傭?qū)I(yè)專家，對他們進(jìn)行培訓(xùn)才能夠進(jìn)行設(shè)置，這對于管理層來說確實(shí)是一個很大的負(fù)擔(dān)，而現(xiàn)在Ram Sriharsha告訴大家，在Databricks的論壇上，你們可以非常輕松地解決這個問題，因?yàn)閷park來說，你只需點(diǎn)擊一下就可以進(jìn)行設(shè)置，能夠幫助你來降低在基礎(chǔ)架構(gòu)管理方面巨大的成本，可以把他們的工作量減少，另外Ram Sriharsha也告訴大家怎么進(jìn)行Spark應(yīng)用。

接下來Databricks在管理方面做了很多工作，大家現(xiàn)在進(jìn)行設(shè)置非常容易，在Cloud，Ram Sriharsha剛才提到了一個問題是要找到相關(guān)的人才很困難，Databricks的解決方案就是培養(yǎng)人才，Databricks設(shè)置了一些相關(guān)的學(xué)術(shù)項(xiàng)目，大家都可以參加，Databricks可以把信息推到很多人面前，你可以參與到Databricks的課程培訓(xùn)當(dāng)中，Databricks做了很多事情，以確保能夠培養(yǎng)人才。

接下來的兩個問題是編程非常困難，同時要進(jìn)行拓展也很困難，實(shí)際上關(guān)于編程的困難，指的是在數(shù)據(jù)科學(xué)和大數(shù)據(jù)之間有一個脫節(jié)，有的時候大家所提的是大數(shù)據(jù)的工程，但如果提到數(shù)據(jù)科學(xué)的時候，可能你就不太熟悉。有很多的技術(shù)是需要非常高的數(shù)據(jù)速度進(jìn)行運(yùn)作，比如說我們提高到了TB或者PB速度的時候，這時候就必須要使用Spark，怎么能把速度的缺憾得以彌補(bǔ)，怎么提升速率，這里的缺點(diǎn)你不可能一下子就達(dá)到，于是需要讓大家學(xué)一種全新的語言?或者是說Databricks可以給大家彌補(bǔ)空白?Spark的用戶如何進(jìn)行拓展，而數(shù)據(jù)中心使用了大部分的數(shù)據(jù)，在這個時候大家可以來使用一些文檔，但是對開發(fā)者來講希望Databricks能夠給大家提供更多的數(shù)據(jù)集，它們用起來更加方便。

所以怎么來間接擴(kuò)展呢?對于Spark的使用可以采用幾種方法：第一創(chuàng)造一種API，用盡可能簡單的語言表達(dá)，并且確保在數(shù)據(jù)中心里面，它可以有不同的語言去選擇，同時也要確保這個平臺依然是有效的，也就是說它需要這個平臺上面運(yùn)行，必須在框架里面去處理，而且它們進(jìn)行任務(wù)操作的時候沒有太多的障礙。

另一個就是說要對于一些小的數(shù)據(jù)工具進(jìn)行無縫整合，開發(fā)者需要有能夠使用小數(shù)據(jù)的工具，所以Spark創(chuàng)建了一些模型，可以進(jìn)行各種分析，有的時候你可能不見得需要特別大規(guī)模的擴(kuò)展模式，當(dāng)然有時候你需要根據(jù)自己的體系的要求來進(jìn)行擴(kuò)展，所以說種靈活性很重要。

剛才提到要創(chuàng)建一個盡可能簡單的API，你就需要去了解到底在計(jì)算機(jī)里面應(yīng)該怎樣去描述，所以說你可以進(jìn)行一些簡單的設(shè)計(jì)，但是如果還想要進(jìn)一步的優(yōu)化，之前我們所提到的DataFrames，Spark從這里邊學(xué)了很多，可以讓Spark和DataFrames結(jié)合，它可以讓開發(fā)者用同樣的語言，也可以更好地應(yīng)對競爭，所以說Spark在這方面的交互性非常好，但是Databricks也比較關(guān)注它的安全性，所以在整個的環(huán)境下，如何在同樣的要求下又能夠?qū)崿F(xiàn)它的靈活性?

這就需要Spark的Static數(shù)據(jù)集，你可以創(chuàng)建一個數(shù)據(jù)集，可以用一些過濾器或者是一些應(yīng)用，你可以得到一個專門用于你的用途的編程，而且這是非常有利的，你在DataFrames上也可以這樣做，如果你需要更大的安全性你可以有不同的選擇，也就是說他可以讓你盡可能的簡單，同時又可以覆蓋各種不同的可選的需求。

還有一點(diǎn)，就是用不同的語言都可以去結(jié)合，這都是有很多的技術(shù)，Spark可以把你的語言變成自己比較喜歡的語言，這也是一種開發(fā)者經(jīng)常會用到的計(jì)算方式，一般來說他跟現(xiàn)在所用的模塊都比較類似，而且很多人都比較熟悉這樣的模式，所以沒有太多關(guān)于操作方面的障礙，你也可以把他進(jìn)行分配，如果這個數(shù)據(jù)中心只是想進(jìn)行競爭，你必須要讓它變的特別簡單，他們用同樣的計(jì)算方法去實(shí)現(xiàn)你的目標(biāo)，你不需要用兩種不同的算法去做，所以他可以支持多種語言，比如說Kmeans可以被培訓(xùn)用Spark，他在這里面選擇的語言是Path，一旦他接受了培訓(xùn)模式，就可以保存到系統(tǒng)里面，Path這個模式也是一樣的，后續(xù)是默認(rèn)這個語言來進(jìn)行計(jì)算，所以你不需要再去用兩種不同的算法去做自己的工作，也就是說使用不同語言的人都可以去利用這樣的工具。另外一點(diǎn)，希望除了一些模式以外，希望能將這個模式序列化，也就是說你有這個能力可以去把他們部署在不同的地方。

Databricks可以盡可能的建立一種簡單表達(dá)的數(shù)據(jù)集整合，而且各種不同的語言的算法都可以進(jìn)行綁定，而且可以進(jìn)行一致性可擴(kuò)展的執(zhí)行，且可以和一些小數(shù)據(jù)工具來進(jìn)行配合。

另外一個就是怎么能夠把擴(kuò)展能力盡可能的加強(qiáng)，這也是大家比較關(guān)注的問題，所以說還是要回到最初的最基本的東西，因?yàn)槟阆胍氖前堰@個速度提升數(shù)量級，你要是想特別快，比如說想提高十倍，你不可能只是依賴于原來的方法，也許能優(yōu)化6%、2%，但是如果說你想達(dá)到100%或者99%就很難再依賴于傳統(tǒng)的方法。

你必須要從根本上來做一些變化，你就需要看一下你怎么能夠更好的去快速解讀這些數(shù)據(jù)，比如某一個數(shù)據(jù)集的話，你需要進(jìn)行一個過濾，基本上我們的代碼類似這樣，然后我們可以進(jìn)行進(jìn)一步的升級處理，絕大多數(shù)的數(shù)據(jù)庫使用的也是迭代模型。

下一件事情就是說要去了解我們下一步會產(chǎn)生的是什么，比如說過濾器會去進(jìn)行輸入的過濾，如果說有一個應(yīng)屆畢業(yè)生，讓他在十分鐘之內(nèi)在Java里面執(zhí)行這個查詢，對比一下這個查詢和另外一種查詢方式之間不同的區(qū)別，你可以看到基本上最后的表現(xiàn)會有這樣的一個差距，可以看到用傳統(tǒng)的方法和新的方法是不太一樣的，為什么一個剛畢業(yè)的學(xué)生就能夠打敗一個擁用30年經(jīng)驗(yàn)的研究人員，是因?yàn)槠鋵?shí)這里面有很多虛擬的功能，而且在內(nèi)存之內(nèi)調(diào)動數(shù)據(jù)，而且它可以更好地去進(jìn)行編碼。

Whole-stage Codegen，它就像是一個關(guān)于整個排序的操作人員，要了解整個執(zhí)行和運(yùn)行的順序是怎樣的，那在這里面最大的一個挑戰(zhàn)就是——Spark的路線圖，現(xiàn)在其實(shí)可以看到，主要是因?yàn)榇髷?shù)據(jù)特別難以去利用，所以Spark的目的就是希望簡化基礎(chǔ)設(shè)施的管理，現(xiàn)在基礎(chǔ)設(shè)施的管理非常難，Databricks希望能夠使用Spark的集群，實(shí)現(xiàn)一鍵部署，而且現(xiàn)在的人才比較有限，編程也是比較難的。另外擴(kuò)展的能力也是比較難去實(shí)現(xiàn)的，所以說Spark相當(dāng)于扮演了一個編譯器的角色，希望能夠簡化那些利用大數(shù)據(jù)的工作，這就是Ram Sriharsha給大家簡單介紹的Spark的發(fā)展方向和運(yùn)行的目的，謝謝。

來源：央廣網(wǎng)

收藏分享

聲明：數(shù)據(jù)猿尊重媒體行業(yè)規(guī)范，相關(guān)內(nèi)容都會注明來源與作者；轉(zhuǎn)載我們原創(chuàng)內(nèi)容時，也請務(wù)必注明“來源：數(shù)據(jù)猿”與作者名稱，否則將會受到數(shù)據(jù)猿追責(zé)。