Bossie Awards：開源大數(shù)據(jù)工具最佳列表

大數(shù)據(jù) 開源大數(shù)據(jù) 數(shù)據(jù)庫

韓卿 | 2016-09-23 11:53

【數(shù)據(jù)猿導(dǎo)讀】一年一度由世界知名科技媒體InfoWorld評(píng)選的Bossie Awards于2016年9月21日公布，評(píng)選了最佳大數(shù)據(jù)工具獎(jiǎng)，最佳大數(shù)據(jù)應(yīng)用獎(jiǎng)，最佳網(wǎng)絡(luò)與安全獎(jiǎng)等多個(gè)獎(jiǎng)項(xiàng)

一年一度由世界知名科技媒體InfoWorld評(píng)選的Bossie Awards于2016年9月21日公布，評(píng)選了最佳大數(shù)據(jù)工具獎(jiǎng)，最佳大數(shù)據(jù)應(yīng)用獎(jiǎng)，最佳網(wǎng)絡(luò)與安全獎(jiǎng)等多個(gè)獎(jiǎng)項(xiàng)。

在最佳開源大數(shù)據(jù)工具獎(jiǎng)中，Google的TensorFlow和Beam無可置疑的入選，同時(shí)也有Spark，Elasticsearch，Impala，Kylin，Kafka，Zeppelin等市場(chǎng)熱點(diǎn)，同時(shí)有很多新興的項(xiàng)目入選，例如SlamData等。而繼2015年獲獎(jiǎng)后， Apache Kylin 再一次入選2016年度最佳開源大數(shù)據(jù)工具獎(jiǎng)，足以證明Apache Kylin在全球的影響力，這也是唯一來自中國的獲獎(jiǎng)項(xiàng)目。

Bossie Awards科技媒體InfoWorld針對(duì)開源軟件頒發(fā)的年度獎(jiǎng)項(xiàng)，根據(jù)這些軟件對(duì)開源界的貢獻(xiàn)，以及在業(yè)界的影響力評(píng)判獲獎(jiǎng)對(duì)象，由InfoWorld編輯獨(dú)立評(píng)選，目前已經(jīng)連續(xù)近十年，是IT屆最具影響力和含金量獎(jiǎng)項(xiàng)之一。

The best open source big data tools

大數(shù)據(jù)，快數(shù)據(jù)，表中數(shù)據(jù)，數(shù)據(jù)這個(gè)那個(gè)盡可能嘗試不同的詞語組合，但很難簡單建立聯(lián)系。處理大量數(shù)據(jù)的問題是很多且不同的，并且沒有一個(gè)工具可以搞定所有－即使Spark也不行。在這幾年Bossies大獎(jiǎng)中，你將發(fā)現(xiàn)最新的，最佳的解決方案以利用大規(guī)模集群來索引和搜索，圖處理，流處理，結(jié)構(gòu)化查詢，分布式OLAP及機(jī)器學(xué)習(xí)等。基于大量的處理器以及海量的RAM－人多好辦事。

Spark

Spark是一個(gè)分布式內(nèi)存處理框架，使用Scala編寫，正在吞噬大數(shù)據(jù)世界?；?.0版本的發(fā)布，其將繼續(xù)保持優(yōu)勢(shì)。除了在實(shí)現(xiàn)SQL及性能增強(qiáng)的特性外，Spark2.0 將DataFrame近一步標(biāo)準(zhǔn)化，提供了新的結(jié)構(gòu)化流式API(Structured Streaming APIs), 及全新的并改進(jìn)的SparkSession。

從批處理的RDD轉(zhuǎn)向不再限制的DataFrame標(biāo)志著一個(gè)轉(zhuǎn)變，Structured Streaming將使得特定類型的流式場(chǎng)景（比如獲取數(shù)據(jù)變化：CDC，及直接修：update-in-place）更加易于實(shí)現(xiàn) ——并且允許在DataFrame里基于時(shí)間列進(jìn)行windowing從而取代了僅支持時(shí)間到達(dá)的流式處理方式。這是Spark Streaming長時(shí)間的痛，特別是與競(jìng)爭對(duì)手進(jìn)行對(duì)比的時(shí)候，例如Apache Flink及Apache Beam。Spark 2.0治愈了這個(gè)傷口。如果你還沒有學(xué)習(xí)Spark，是時(shí)候?qū)W習(xí)了。

– Andrew C. Oliver

Beam

Google的Beam ，一個(gè)Apache孵化器項(xiàng)目，給予我們一個(gè)在處理引擎改變時(shí)不再重寫代碼的機(jī)會(huì)。在Spark剛出現(xiàn)的時(shí)候都認(rèn)為這也許是我們編程模型的未來，但如果不是呢？此外，如果你對(duì)Google的DataFlow的性能及擴(kuò)展特性有興趣，你可以在Beam里編寫程序并且在DataFlow，Spark，或者即使在Flink里運(yùn)行他們。

我們是多么的喜歡編寫一次到處運(yùn)行的主意以致于不管失敗了多少次（看著你呢，Scott McNealy，譯者按，其曾為Sun首席執(zhí)行官，這句話最早來自Java的宣傳語），我們會(huì)買單的。即使Beam不支持開發(fā)者特性例如REPL，但它為你提供了一個(gè)偉大的方式使得你的代碼可以面向未來的分布式計(jì)算邏輯并且在哪一天運(yùn)行它。

– Andrew C. Oliver

TensorFlow

Google開源的他們機(jī)器學(xué)習(xí)的秘密武器。不管你想做文本識(shí)別，圖像識(shí)別，自然語言處理，或者其他類似的復(fù)雜的機(jī)器學(xué)習(xí)應(yīng)用，TensorFlow也許是你搜索的第一個(gè)答案。

TensorFlow使用C++編寫卻支持使用Python編碼。此外，它提供了一個(gè)方便的方式在GPU和CPU上同時(shí)運(yùn)行分布式及為并行優(yōu)化過的代碼。這將成為我們不斷探討的下一個(gè)大數(shù)據(jù)工具。

– Andrew C. Oliver

Solr

來自重量級(jí)Hadoop供應(yīng)商，包括Hortonworks，Cloudera及MapR的選擇，Apache Solr為企業(yè)帶來了可信任的成熟的搜索引擎技術(shù)。Solr基于Apache Lucene引擎，兩個(gè)項(xiàng)目有很多共同的貢獻(xiàn)者。你可以在眾多商業(yè)本后發(fā)現(xiàn)Solr，例如Instagram，Zappos，Comcast及DuckDuckGo等。

Solr包括SolrCloud，其利用Apache ZooKeeper來創(chuàng)建穩(wěn)定的，分布式搜索及索引解決方案以應(yīng)對(duì)分布式系統(tǒng)常見的問題例如network split-brain等。隨著可靠性的提升，SolrCloud能夠基于需求擴(kuò)容或縮減，而且其足夠成熟以應(yīng)對(duì)在幾百億文檔之間進(jìn)行海量查詢的需求。

– Ian Pointer

Elasticsearch

Elasticsearch, 也是一個(gè)基于Apache Lucene的開源分布式搜索引擎，它專注在提供REST APIs和支持JSON文檔等更現(xiàn)代的理念。有效的集群可擴(kuò)展機(jī)制使得我們能夠以很低的運(yùn)維成本處理G級(jí)別到P級(jí)別的數(shù)據(jù)。

作為ELK技術(shù)棧（Elasticsearch，Logstash，以及Kibana，均為Elasticsearch的創(chuàng)建者Elastic公司開發(fā)）的一部分，Elasticsearch已經(jīng)成為日志分析領(lǐng)域的殺手級(jí)應(yīng)用，成為Splunk的開源替代者。包括Netflix，F(xiàn)acebook，Microsoft，Linkedin等公司，均為日志處理基礎(chǔ)設(shè)施運(yùn)維著大規(guī)模的Elasticsearch集群。同時(shí)，ELK技術(shù)棧也在拓展它的領(lǐng)域，包括欺詐檢測(cè)及領(lǐng)域相關(guān)的業(yè)務(wù)分析等應(yīng)用，在整個(gè)企業(yè)范圍內(nèi)廣泛地使用Elasticsearch技術(shù)。

– Ian Pointer

SlamData

學(xué)習(xí)SlamData對(duì)我而言是一個(gè)很長的旅程。為什么你用MongoDB來做為你的分析解決方案？那是一個(gè)操作性數(shù)據(jù)庫。然而，SlamData的Jeff Carr說服了我，看上去并不瘋狂。有非常多的新公司及年輕的開發(fā)者正在MongoDB上孕育。如果你有一個(gè)MongoDB數(shù)據(jù)庫并需要基本的分析，你需要?jiǎng)?chuàng)建一整個(gè)Hadoop或者其他的基礎(chǔ)架構(gòu)來構(gòu)建報(bào)表嗎？

在數(shù)據(jù)存儲(chǔ)上有太多的為了報(bào)表而做的ETL！于直接從復(fù)制節(jié)點(diǎn)上出報(bào)表相差甚遠(yuǎn)且非常不容易。SlamData是一個(gè)基于SQL的引擎可以原生的訪問MongoDB，而不像MongoDB自己的解決方案，SlamDta不是將所有數(shù)據(jù)塞進(jìn)PostgreSQL并叫它BI連接器?，F(xiàn)在核心技術(shù)已經(jīng)開源，我想我們可以期待更多的公司將會(huì)采用。

– Andrew C. Oliver

Impala

Apache Impala是Cloudera的SQL on Hadoop引擎。如果你在使用Hive，Impala是一個(gè)簡單的方式為你的查詢提升性能而不需要你重新思考你該做任何事情。基于列的，分布式的，大規(guī)模并行處理系統(tǒng)，Impala比Hive on Spark組合更加成熟。即使不經(jīng)過多少調(diào)優(yōu)，Impala也能提升你的性能，而且我敢打賭在投入同樣的精力下其將比Tez有更好的結(jié)果。如果你需要為在HDFS上一些文件提供SQL，Impala將可能是你的最好的選擇。

– Andrew C. Oliver

Kylin

如果你要做多維立方體分析并且你希望使用現(xiàn)代的大數(shù)據(jù)框架，那么Kylin將是你的目標(biāo)。如果你從未聽說過OLAP 立方體，那么考慮在RDBMS上的一些表以一對(duì)多的關(guān)系存在，有一個(gè)計(jì)算的字段需要依據(jù)來自不同表的其他字段。你可以使用SQL來查詢并進(jìn)行計(jì)算，但天哪，太慢了！更何況如果有更多的關(guān)系及需要計(jì)算的字段呢？不同于兩個(gè)平的表，想象他們是一個(gè)立方體的兩個(gè)面用一些塊組成并且每個(gè)塊都是一個(gè)值（可能是預(yù)先計(jì)算好的）。甚至你可以有N個(gè)維度–仍然叫做立方體但比文字意義上的立方體有更多的面。Kylin確實(shí)不是第一個(gè)實(shí)現(xiàn)分布式OLAP的技術(shù)，但卻是第一個(gè)構(gòu)建在現(xiàn)代技術(shù)上的，這也是今天你可以下載并在你喜愛的云上部署的解決方案。

– Andrew C. Oliver

譯者按：Apache Kylin是唯一一個(gè)來自中國的Apache軟件基金會(huì)頂級(jí)項(xiàng)目。

Kafka

Kafka絕對(duì)是分布式消息發(fā)布與訂閱的行業(yè)標(biāo)準(zhǔn)了。什么時(shí)候能發(fā)布1.0？沒人知道，但它已經(jīng)用在了一些全球最大規(guī)模的系統(tǒng)中。Kafka的消息是可靠的，這點(diǎn)和其他消息系統(tǒng)一致，但又大多數(shù)早期同類系統(tǒng)不同，它的提交日志是分布式的。更進(jìn)一步，Kafka的分區(qū)的流概念支持更高的數(shù)據(jù)加載以及更多的客戶端連接。然而諷刺的是，不管Kafka的這些能力多么讓人印象深刻，它竟然可以如此簡單地安裝和配置，這絕對(duì)是大數(shù)據(jù)以及消息領(lǐng)域的特殊意外。

– Andrew C. Oliver

StreamSets

打個(gè)比喻，你有很多圓形的數(shù)據(jù)，要放入方型的洞里。也許這些數(shù)據(jù)保存在文件中（比如網(wǎng)站日志），或許在Kafka的流中。有很多做法可以處理這類問題，但我可以更輕松地讓StreamSets替我做這些事，而且看起來它比其它解決方案更完整（比如NiFi）。它有健壯的，不斷發(fā)展中的連接器（比如HDFS，Hive，Kafka，Kinesis），有REST API，以及監(jiān)控?cái)?shù)據(jù)流動(dòng)的易用的GUI?？雌饋?，它們真的能最終解決這個(gè)問題！

– Andrew C. Oliver

Titan

圖形數(shù)據(jù)庫理應(yīng)讓整個(gè)世界為之燃燒，直到人們開始認(rèn)識(shí)到，做真正有用的圖形并不一定意味著必須要按圖的方式保存數(shù)據(jù)。Titan從某種程度上來說減小了這之間的差異。假如您有一套復(fù)雜的圖數(shù)據(jù)庫，使用了各種硬件設(shè)備，底層使用了可插拔的存儲(chǔ)，但最終不得不轉(zhuǎn)向分布式的列式存儲(chǔ)。與其它圖形數(shù)據(jù)庫相比，Titan的架構(gòu)是水平擴(kuò)展的(scale out)，而不是向上擴(kuò)展(scale up)。相比于嚴(yán)格的圖形分析框架，Titan可以提供更好的性能（如Giraph），也不需要使用大量內(nèi)存資源或時(shí)間來重算圖形（如GraphX）。更不用提它還具備更好的數(shù)據(jù)完整性的潛力。

– Andrew C. Oliver

Zeppelin

也許你是一個(gè)開發(fā)者，只想從Hive生成一個(gè)漂亮的圖形；或者你是一個(gè)數(shù)據(jù)科學(xué)家，想要一個(gè)數(shù)據(jù)記事本（Notebook），Zeppelin會(huì)非常適合。它使用現(xiàn)在非常流行的Notebook概念，用IPython編寫，允許你生成標(biāo)簽、嵌入代碼、執(zhí)行對(duì)Spark和其它引擎的查詢，并生成文本、表格或圖表的形式輸出。Zeppeline仍然缺乏一些類似DataBricks產(chǎn)品的功能和多用戶功能，但它正在取得穩(wěn)步進(jìn)展。如果您使用的Spark工作，Zeppelin是屬于你的工具包。

– Andrew C. Oliver

譯者簡介：韓卿｜Luke Han

Kyligence 聯(lián)合創(chuàng)始人兼CEO

Apache Kylin 聯(lián)合創(chuàng)始人，項(xiàng)目管理委員會(huì)主席（PMC Chair）

Apache 軟件基金會(huì)會(huì)員(ASF Member)

Microsoft MVP

來源：極客頭條

收藏分享

聲明：數(shù)據(jù)猿尊重媒體行業(yè)規(guī)范，相關(guān)內(nèi)容都會(huì)注明來源與作者；轉(zhuǎn)載我們?cè)瓌?chuàng)內(nèi)容時(shí)，也請(qǐng)務(wù)必注明“來源：數(shù)據(jù)猿”與作者名稱，否則將會(huì)受到數(shù)據(jù)猿追責(zé)。