国产精品高潮呻吟久久AV无码,在线观看亚洲糸列,888奇米亚洲影视四色,中文字幕动漫精品第1页,国产大屁股视频免费区,半夜他强行挺进了我的体内,免费看国产曰批40分钟,国产女人片最新视频,要做AV在线播放,欧美韩日精品一区二区三区

數(shù)據(jù)科學家的崛起聽4位專家解讀2015大數(shù)據(jù)技術(shù)進展

2015 大數(shù)據(jù) 技術(shù)進展

杜小芳 | 2016-01-11 14:32

【數(shù)據(jù)猿導讀】 2015年被稱作大數(shù)據(jù)元年，整個IT技術(shù)領(lǐng)域發(fā)生了許多深刻而又復雜的變化。今天韓卿、盧億雷、董西成和梁堰波4位互聯(lián)網(wǎng)行業(yè)的專家專業(yè)解讀2015那年大數(shù)據(jù)技術(shù)進展史，并一同展望2016年大數(shù)據(jù)的發(fā)展情況

在關(guān)鍵技術(shù)進展部分，從大數(shù)據(jù)生態(tài)圈眾多技術(shù)中選取了Hadoop、Spark、Elasticsearch和Apache Kylin四個點，分別請了四位專家：Hulu的董西成、明略數(shù)據(jù)的梁堰波、精碩科技的盧億雷、eBay的韓卿，來為大家解讀2015里的進展。

4位專家解讀2015大數(shù)據(jù)技術(shù)進展

【回顧2015】

1，關(guān)鍵技術(shù)進展：

Hadoop：

Hadoop作為大數(shù)據(jù)平臺中最基礎(chǔ)與重要的系統(tǒng)，在2015年提高穩(wěn)定性的同時，發(fā)布了多個重要功能與特性，這使得Hadoop朝著多類型存儲介質(zhì)和異構(gòu)集群的方向邁進了一大步。

HDFS

HDFS 之前是一個以磁盤單存儲介質(zhì)為主的分布式文件系統(tǒng)。但隨著近幾年新存儲介質(zhì)的興起，支持多存儲介質(zhì)早就提上了日程。如今，HDFS 已經(jīng)對多存儲介質(zhì)有了良好的支持，包括 Disk、Memory 和 SSD 等，對異構(gòu)存儲介質(zhì)的支持，使得 HDFS 朝著異構(gòu)混合存儲方向發(fā)展。目前HDFS支持的存儲介質(zhì)如下：

ARCHIVE：高存儲密度但耗電較少的存儲介質(zhì)，通常用來存儲冷數(shù)據(jù)。

DISK：磁盤介質(zhì)，這是HDFS最早支持的存儲介質(zhì)。

SSD：固態(tài)硬盤，是一種新型存儲介質(zhì)，目前被不少互聯(lián)網(wǎng)公司使用。

RAM_DISK ：數(shù)據(jù)被寫入內(nèi)存中，同時會往該存儲介質(zhì)中再(異步)寫一份。

YARN

YARN作為一個分布式數(shù)據(jù)操作系統(tǒng)，主要作用是資源管理和資源調(diào)度。在過去一年，YARN新增了包括基于標簽的調(diào)度、對長服務(wù)的支持、對 Docker 的支持等多項重大功能。

基于標簽的調(diào)度，使得 YARN 能夠更好地支持異構(gòu)集群調(diào)度。它的基本思想是，通過打標簽的方式為不同的節(jié)點賦予不同的屬性，這樣，一個大的Hadoop集群按照節(jié)點類型被分成了若干個邏輯上相互獨立(可能交叉)的集群。這種集群跟物理上獨立的集群很不一樣，用戶可以很容易地通過動態(tài)調(diào)整 label，實現(xiàn)不同類型節(jié)點數(shù)目的增減，這具有很好的靈活性。

對長服務(wù)的支持，使得YARN逐漸變?yōu)橐粋€通用資源管理和調(diào)度系統(tǒng)。目前，YARN既支持像類似 MapReduce，Spark 的短作業(yè)，也支持類似 Web Service，MySQL 這樣的長服務(wù)。支持長服務(wù)是非常難的一件事情，YARN 需要解決以下問題：服務(wù)注冊、日志滾動、ResourceManager HA、NodeManager HA(NM 重啟過程中，不影響 Container)和 ApplicationMaster 永不停止，重啟后接管之前的 Container。截止2.7.0版本，以上問題都已經(jīng)得到了比較完整的解決。

對Docker的支持，使得YARN能夠為上層應(yīng)用提供更好的打包、隔離和運行方式。YARN通過引入一種新的ContainerExecutor，即DockerContainerExecutor，實現(xiàn)了對Docker的支持，但目前仍然是alpha版本，不建議在生產(chǎn)環(huán)境中使用。

HBase

在 2015 年，HBase 迎來了一個里程碑——HBase 1.0 release，這也代表著 HBase 走向了穩(wěn)定。 HBase新增特性包括：更加清晰的接口定義，多 Region 副本以支持高可用讀，F(xiàn)amily 粒度的 Flush以及RPC 讀寫隊列分離等。

spark：

2015年的Spark發(fā)展很快，JIRA數(shù)目和PR數(shù)目都突破了10000，contributors數(shù)目超過了1000，可以說是目前最火的開源大數(shù)據(jù)項目。這一年Spark發(fā)布了多個版本，每個版本都有一些亮點：

2014年12月，Spark 1.2發(fā)布引入ML pipeline作為機器學習的接口。

2015年3月，Spark 1.3發(fā)布引入了DataFrame作為Spark的一個核心組件。

2015年6月，Spark 1.4發(fā)布引入R語言作為Spark的接口。R語言接口在問世一個多月之后的調(diào)查中就有18%的用戶使用。

2015年9月，Spark 1.5發(fā)布。Tungsten項目第一階段的產(chǎn)出合并入DataFrame的執(zhí)行后端，DataFrame的執(zhí)行效率得到大幅提升。

2016年1月，Spark 1.6發(fā)布引入Dataset接口。

Spark目前支持四種語言的接口，除了上面提到的R語言的使用率以外，Python的使用率也有很大提升，從2014年的38%提升到2015年的58%;而Scala接口的使用率有所下降，從84%下降到71%。同時Spark的部署環(huán)境也有所變化，51%的部署在公有云上，48% 使用standalone方式部署，而在YARN上的只有40%了?？梢奡park已經(jīng)超越Hadoop，形成了自己的生態(tài)系統(tǒng)。而在形成Spark生態(tài)系統(tǒng)中起到關(guān)鍵作用的一個feature就是外部數(shù)據(jù)源支持，Spark可以接入各種數(shù)據(jù)源的數(shù)據(jù)，然后把數(shù)據(jù)導入Spark中進行計算、分析、挖掘和機器學習，然后可以把結(jié)果在寫出到各種各樣的數(shù)據(jù)源。到目前為止Spark已經(jīng)支持非常多的外部數(shù)據(jù)源，像Parquet/JSON/CSV/JDBC/ORC/HBase/Cassandra/Mongodb等等。

上面這些調(diào)查數(shù)據(jù)來自美國，中國的情況有所區(qū)別，但是還是有一定的借鑒意義的。國內(nèi)的Spark應(yīng)用也越來越多：騰訊的Spark規(guī)模到了8000+節(jié)點，日處理數(shù)據(jù)1PB+。阿里巴巴運行著目前最長時間的Spark Job：1PB+數(shù)據(jù)規(guī)模的Spark Job長達1周的時間。百度的硅谷研究院也在探索Spark+Tachyon的應(yīng)用場景。

Spark MLlib的ALS算法已經(jīng)在很多互聯(lián)網(wǎng)公司用于其推薦系統(tǒng)中。基本上主流的互聯(lián)網(wǎng)公司都已經(jīng)部署了Spark平臺并運行了自己的業(yè)務(wù)。上面說的更多的互聯(lián)網(wǎng)的應(yīng)用，實際上Spark的應(yīng)用場景有很多。在Databricks公司的調(diào)查中顯示主要應(yīng)用依次是：商務(wù)智能、數(shù)據(jù)倉庫、推薦系統(tǒng)、日志處理、欺詐檢測等。

除了互聯(lián)網(wǎng)公司以外，傳統(tǒng)IT企業(yè)也把Spark作為其產(chǎn)品的一個重要組成。IBM在今年6月的Spark summit期間宣布重點支持Spark這個開源項目，同時還開源了自己的機器學習系統(tǒng)SystemML并推進其與Spark的更好合作。美國大數(shù)據(jù)巨頭Cloudera，Hortonworks和MapR都表示Spark是其大數(shù)據(jù)整體解決方案的核心產(chǎn)品?？梢灶A見Spark是未來若干年最火的大數(shù)據(jù)項目。

在深度學習方面2015年可謂非常熱鬧，如Google開源其第二代機器學習系統(tǒng)TensorFlow，F(xiàn)acebook開源Torch和人工智能硬件服務(wù)器Big Sur等等。Spark社區(qū)也不甘落后，在1.5版本中發(fā)布了一個神經(jīng)網(wǎng)絡(luò)分類器MultiplayerPerceptronClassifier作為其深度學習的雛形。雖然這個模型還有很多地方需要優(yōu)化，大家不妨嘗試下，畢竟它是唯一一個基于通用計算引擎的分布式深度學習系統(tǒng)。

除了現(xiàn)在非?；鸬纳疃葘W習，在傳統(tǒng)統(tǒng)計和機器學習領(lǐng)域，Spark這一年也有非常大的變化，包括GLM的全面支持，SparkR GLM的支持，A/B test，以及像WeightesLeastSquares這樣的底層優(yōu)化算法等。

Elasticsearch：

Elasticsearch 是一個可伸縮的開源全文搜索和分析引擎。它可以快速地存儲、搜索和分析海量數(shù)據(jù)。Elasticsearch 基于成熟的 Apache Lucene 構(gòu)建，在設(shè)計時就是為大數(shù)據(jù)而生，能夠輕松的進行大規(guī)模的橫向擴展，以支撐PB級的結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的處理。Elasticsearch生態(tài)圈發(fā)展狀態(tài)良好，整合了眾多外圍輔助系統(tǒng)，如監(jiān)控Marvel，分析Logstash，安全Shield等。近年來不斷發(fā)展受到廣泛應(yīng)用，如Github、StackOverflow、維基百科等，是數(shù)據(jù)庫技術(shù)中倍受關(guān)注的一匹黑馬。

Elasticsearch在今年下半年發(fā)布了2.0版本，性能提升不少，主要改變?yōu)椋?/p>

Pipeline Aggregation

流式聚合，像管道一樣，對聚合的結(jié)果進行再次聚合。原來client端需要做的計算工作，下推到ES，簡化 client代碼，更容易構(gòu)建強大的查詢。

Query/Filter 合并

取消filters，所有的filter語句自動轉(zhuǎn)換為query語句。在上下文語義是query時，進行相關(guān)性計算;上下文語義是filter時，簡單排除b不匹配的doc，像現(xiàn)在的filter所做的一樣。這個重構(gòu)以為著所有的query執(zhí)行會以最有效的順序自動優(yōu)化。例如，子查詢和地理查詢會首先執(zhí)行一個快速的模糊步驟，然后用一個稍慢的精確步驟截斷結(jié)果。在filter上下文中，cache有意義時，經(jīng)常使用的語句會被自動緩存。

可配置的store compression

存儲的field，例如_source字段，可以使用默認的LZ4算法快速壓縮，或者使用DEFLATE算法減少index size。對于日志類的應(yīng)用尤其有用，舊的索引庫在優(yōu)化前可以切換到best_compression。

Hardening

Elasticsearch運行于 Java Security Manager之下，在安全性上標志著一個巨大的飛躍。Elasticsearch難于探測，黑客在系統(tǒng)上的影響也被嚴格限制。在索引方面也有加強： indexing請求ack前，doc會被fsync，默認寫持久化所有的文件都計算checksum，提前檢測文件損壞所有的文件rename操作都是原子的(atomic)，避免部分寫文件對于系統(tǒng)管理員來講，一個需求較多的變化是，可以避免一個未配置的node意外加入Elasticsearch集群網(wǎng)絡(luò)：默認綁定localhost only， multicast也被移除，鼓勵使用unicast。

Performance and Resilience

除上所述，Elasticsearch和Lucene還有很多小的變化，使其更加穩(wěn)定可靠，易于配置，例如：

默認doc value，帶來更少的heap usage，filter caching 更多使用 bitsets type mappings 大清理，更安全可靠，無二義性 cluster stat 使用diff進行快速變化傳播，帶來更穩(wěn)定的大規(guī)模集群

Core plugins

官方支持的core plugins同時發(fā)布，和Elasticsearch核心使用相同的版本號。

Marvel 2.0.0 free to use in production

Marvel免費。

Apache Kylin：

Apache Kylin是一個開源的分布式分析引擎，提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規(guī)模數(shù)據(jù)，最初由eBay Inc. 開發(fā)并貢獻至開源社區(qū)。最初于2014年10月1日開源，并于同年11月加入Aapche孵化器項目，并在一年后的2015年11月順利畢業(yè)成為Apache頂級項目，是eBay全球貢獻至Apache軟件基金會(ASF)的第一個項目，也是全部由在中國的華人團隊整體貢獻至Apache的第一個項目。

在eBay，已經(jīng)上線兩個生產(chǎn)環(huán)境平臺，有著諸多的應(yīng)用，包括用戶行為分析、點擊分析、商戶分析、交易分析等應(yīng)用，最新的Streaming分析項目也已經(jīng)上線。目前在eBay平臺上最大的單個cube包含了超過1000億的數(shù)據(jù)，90%查詢響應(yīng)時間小于1.5秒，95%的查詢響應(yīng)時間小于5秒。同時Apache Kylin在eBay外部也有很多的用戶，包括京東、美團、百度地圖、網(wǎng)易、唯品會、Expedia、Expotional等很多國內(nèi)外公司也已經(jīng)在實際環(huán)境中使用起來，把Apache Kylin作為他們大數(shù)據(jù)分析的基礎(chǔ)之一。

過去的一年多是Apache Kylin發(fā)展的重要的一年：

2014年10月1日，Kylin 代碼在github.com上正式開源

2014年11月25日，正式加入Apache孵化器并正式啟用Apache Kylin作為項目名稱

2015年6月10日，Apache Kylin v0.7.1-incubating發(fā)布，這是加入Apache后的第一個版本，依據(jù)Apache的規(guī)范作了很多修改，特別是依賴包，license等方面，同時簡化了安裝，設(shè)置等，并同時提供二進制安裝包

2015年9月6日，Apache Kylin v1.0-incubating正式發(fā)布，增強了SQL處理，提升了HBase coprocessor 的性能，同時提供了Zeppelin Interpreter等

2015年9月16日，Apache Kylin與Spark，Kafka，Storm，H2O，F(xiàn)link，Elasticsearch，Mesos等一起榮獲InfoWorld Bossie Awards 2015：最佳開源大數(shù)據(jù)工具獎，這是業(yè)界對Kylin的認可

2015年11月18日，Apache Kylin正式畢業(yè)成為Apache頂級項目

2015年12月15日，Apache Kylin v1.2正式發(fā)布，這是升級為頂級項目后的第一個版本，提供了對Excel，PowerBI，Tableau 9等的支持，對高基維度增強了支持，修復了多個關(guān)鍵Bug等

2016年，Apache Kylin將迎來重要的2.x版本，該版本對底層架構(gòu)和設(shè)計作了重大重構(gòu)，提供可插拔的設(shè)計及Lambda架構(gòu)，同時提供對歷史數(shù)據(jù)查詢，Streaming及Realtime查詢等，同時在性能，任務(wù)管理，UI等各個方面提供增強。

同時，過去一年也是社區(qū)發(fā)展的重要一年，在過去一年內(nèi)發(fā)展了來自eBay，美團，京東，明略數(shù)據(jù)，網(wǎng)易等眾多committer，社區(qū)每天的討論也是非常熱鬧。社區(qū)提交了很多新特性和Bug修復，包括來自美團的不同HBase寫入，來自京東的明細數(shù)據(jù)查詢，來自網(wǎng)易的多Hive源等多個重大特性為Apache Kylin帶來了巨大的增強。

社區(qū)合作

在開源后的一年時間內(nèi)，Apache Kylin也和其他社區(qū)建立了良好的合作關(guān)系，Apache Calcite作為Kylin 的SQL引擎被深入的整合進來，我們也向Calcite提交了很多改進和修復，Calcite的作者，Julian Hyde也是Kylin的mentor。HBase是Kylin的存儲層，在實際運維中，我們碰到過無數(shù)問題，從可靠性到性能到其他各個方面，Kylin社區(qū)和HBase社區(qū)積極合作解決了絕大部分關(guān)鍵問題。另外，現(xiàn)在越來越多的用戶考慮使用Apache Zeppelin作為前端查詢和展現(xiàn)的工具，為此我們開發(fā)了Kylin Interperter并貢獻給了Zeppelin，目前可以直接從最新版的Zeppelin代碼庫中看到這塊。同樣，我們也和其他各個社區(qū)積極合作，包括Spark，Kafka等，為構(gòu)建和諧的社區(qū)氛圍和形成良好合作打下了堅實的基礎(chǔ)。

技術(shù)發(fā)展

技術(shù)上，這一年來Apache Kylin主要在以下幾個方面：

Fast Cubing

在現(xiàn)在的版本中，Cube的計算依賴MapReduce，并且需要多個步驟的MR Job來完成計算，且MR Job的多少和維度相關(guān)，越多的維度會帶來更多的MR job。而每一次MR job的啟停都需要等待集群調(diào)度，并且MR job之間的數(shù)據(jù)需要多次在HDFS落地和傳輸，從而導致消耗了大量的集群資源。為此我們引入了一種新的算法：Fast Cubing。一個MapReduce即可完成Cub的計算，測試結(jié)果表明整個Cubing的時間可以降低30～50%左右，網(wǎng)絡(luò)傳輸可以下降5倍，這在超大規(guī)模數(shù)據(jù)集的計算上帶來了客觀的性能改進。

Streaming OLAP

Kylin作為一個預計算系統(tǒng)，不可避免的有著數(shù)據(jù)刷新延遲的限制，這在大部分用戶案例中并不是問題，但隨著業(yè)務(wù)和技術(shù)的發(fā)展，Streaming甚至Realtime的需求越來越高。2015年Kylin的主要發(fā)展都在Streaming OLAP上，為了支持低延遲的數(shù)據(jù)刷新，從整體的架構(gòu)和設(shè)計上都做了相當大的重新設(shè)計，目前已經(jīng)可以支持從Kafka讀取數(shù)據(jù)并進行聚合計算的能力，同時提供SQL接口為前端客戶端提供標準的訪問接口，數(shù)據(jù)延遲已經(jīng)可以做到分鐘級別。

Spark Cubing

Spark作為MapReduce的一種替代方案一直在社區(qū)中被問及Kylin是否可以支持直接使用Spark來作為計算。為此我們在2015年下半年實現(xiàn)了同樣算法的Spark Cubing引擎，目前還在測試中。

可插拔架構(gòu)

為了更廣泛的可擴展性，并支持如上各種新特性，Kylin在2.x的代碼中引入了可插拔架構(gòu)和設(shè)計，從而解決了對特定技術(shù)的依賴問題。在新的設(shè)計中，數(shù)據(jù)源可以從Hive，SparkSQL等各種SQL on Hadoop技術(shù)讀取，并支持Kafka;在計算引擎方面，除了MapReduce方面的Fast Cubing外，實現(xiàn)了Spark Cubing，Streaming Cubing等多種計算框架，并為將來其他計算框架留下了擴展接口;在存儲上，HBase目前依然是唯一的存儲層，但在上層設(shè)計中已經(jīng)很好的進行了抽象，很容易可以擴展到其他Key-Value系統(tǒng)。

2，大數(shù)據(jù)與機器學習

機器學習是數(shù)據(jù)分析不可缺少的一部分。機器學習被贊譽為大數(shù)據(jù)分析和商務(wù)智能發(fā)展的未來，成功的機器學習項目依賴于很多因素，包括選擇正確的主題，運行環(huán)境，合理的機器學習模型，最重要的是現(xiàn)有的數(shù)據(jù)，大數(shù)據(jù)為機器學習提供了很好的用武之地。

機器學習正很快從一個被很少人關(guān)注的技術(shù)主題轉(zhuǎn)變?yōu)楸缓芏嗳耸褂玫墓芾砉ぞ?。?yōu)秀的算法，大數(shù)據(jù)和高性能的計算資源的條件的滿足使得機器學習快速發(fā)展，機器學習在今年第一次進入Gartner技術(shù)成熟曲線的報告中，已直接越過了期望鵬展期的高峰，進入大數(shù)據(jù)一樣的應(yīng)用期;而機器學習也是報告中第一個出現(xiàn)的技術(shù)。2015年是機器學習豐收年，發(fā)生了很多令人矚目的大事。

各大巨頭開源：

2015年1月，F(xiàn)acebook開源前沿深度學習工具“Torch”。

2015年4月，亞馬遜啟動其機器學習平臺Amazon Machine Learning，這是一項全面的托管服務(wù)，讓開發(fā)者能夠輕松使用歷史數(shù)據(jù)開發(fā)并部署預測模型。

2015年11月，谷歌開源其機器學習平臺TensorFlow。

同一月，IBM開源SystemML并成為Apache官方孵化項目。

同時，微軟亞洲研究院將分布式機器學習工具DMTK通過Github開源。DMTK由一個服務(wù)于分布式機器學習的框架和一組分布式機器學習算法組成，可將機器學習算法應(yīng)用到大數(shù)據(jù)中。

2015年12月，F(xiàn)acebook開源針對神經(jīng)網(wǎng)絡(luò)研究的服務(wù)器“Big Sur”，配有高性能圖形處理單元(GPUs)，轉(zhuǎn)為深度學習方向設(shè)計的芯片。

大公司不僅是用開源社區(qū)來增強自己的機器學習工具，而且也會以收購來提升自身的機器學習實力。如IBM于今年3月收購了AIchemyAPI，AIchemyAPI能夠利用深度學習人工智能，搜集企業(yè)、網(wǎng)站發(fā)型的圖片和文字等來進行文本識別和數(shù)據(jù)分析。

此外，2015年不僅僅是關(guān)于大公司的，利用機器學習的各種創(chuàng)業(yè)公司也占了同等地位。比如EverString完成B輪融資，該公司利用企業(yè)內(nèi)部銷售數(shù)據(jù)，和不斷主動挖掘分析全球新聞數(shù)據(jù)，社交媒體等外部數(shù)據(jù)，通過機器學習自動建立量化客戶模型，為企業(yè)預測潛在客戶。

3，數(shù)據(jù)科學家的崛起

大數(shù)據(jù)需要數(shù)據(jù)分析，數(shù)據(jù)分析需要人才。數(shù)據(jù)科學是早就存在的詞匯，而數(shù)據(jù)科學家卻是近年來突然出現(xiàn)的新詞。在Google、Amazon、Quora、Facebook等大公司的背后，都有一批數(shù)據(jù)科學專業(yè)人才，將大量數(shù)據(jù)變?yōu)榭砷_發(fā)有價值的金礦。在大數(shù)據(jù)時代，數(shù)據(jù)科學家等分析人才的需求在激增。

據(jù)相關(guān)報告，國內(nèi)大數(shù)據(jù)人才缺口目前已達百萬，一名高級數(shù)據(jù)挖掘工程師月薪高達30K-50K。招聘網(wǎng)站上的每天都會產(chǎn)生大量的大數(shù)據(jù)相關(guān)職位需求。據(jù)拉勾網(wǎng)提供的統(tǒng)計來看，從2014年到2015年，IT行業(yè)關(guān)于大數(shù)據(jù)的崗位需求增長了2.4倍。人才培養(yǎng)迫在眉睫。復旦大學于今年成立了全國首個大數(shù)據(jù)學院。阿里云于年底宣布新增30所合作高校，開設(shè)云計算大數(shù)據(jù)專業(yè),計劃用3年時間培養(yǎng)5萬名數(shù)據(jù)科學家。各知名大學也將數(shù)據(jù)科學設(shè)為碩士課程。

無論是國內(nèi)還是國外，數(shù)據(jù)科學都是目前炙手可熱的研究領(lǐng)域，數(shù)據(jù)科學家、數(shù)據(jù)分析師都是非?；鸨穆毼?，幾乎所有的產(chǎn)業(yè)都需要數(shù)據(jù)科學家來從大量的數(shù)據(jù)中挖掘有價值的信息。大數(shù)據(jù)分析領(lǐng)域的專屬首席級別頭銜也愈發(fā)多見。美國政府今年任命了DJ Patil作為政府的首席數(shù)據(jù)科學家(Chief Data Scientist)，這也是美國政府內(nèi)部首次設(shè)立“數(shù)據(jù)科學家”這個職位。

【展望2016】

Hadoop。對于 HDFS，會朝著異構(gòu)存儲介質(zhì)方向發(fā)展，尤其是對新興存儲介質(zhì)的支持;對于 YARN，會朝著通用資源管理和調(diào)度方向發(fā)展，而不僅僅限于大數(shù)據(jù)處理領(lǐng)域，在加強對 MapReduce、Spark等短類型應(yīng)用支持的同時，加強對類似Web Service 等長服務(wù)的支持;

對于Hbase，將會花費更多精力在穩(wěn)定性和性能方面，正嘗試的技術(shù)方向包括：對于 HDFS 多存儲介質(zhì)的使用;減少對 ZooKeeper 的使用以及通過使用堆外內(nèi)存緩解Java GC的影響。

Spark 2.0預計明年三四月份發(fā)布，將會確立以DataFrame和Dataset為核心的體系架構(gòu)。同時在各方面的性能上會有很大的提升。

Apache Kylin 2.0即將發(fā)布，隨著各項改進的不斷完善，該版本將在2016年在OLAP on Hadoop上更進一步!

ElasticSearch開源搜索平臺，機器學習，Data graphics，數(shù)據(jù)可視化在2016年會更加火熱。

大數(shù)據(jù)會越來越大，IOT、社交媒體依然是一個主要的推動因素。

大數(shù)據(jù)的安全和隱私會持續(xù)受到關(guān)注。

專家介紹：

董西成就職于Hulu，專注于分布式計算和資源管理系統(tǒng)等相關(guān)技術(shù)?！禜adoop 技術(shù)內(nèi)幕：深入解析 MapReduce 架構(gòu)設(shè)計與實現(xiàn)原理》和《Hadoop 技術(shù)內(nèi)幕：深入解析 YARN 架構(gòu)設(shè)計與實現(xiàn)原理》作者，dongxicheng.org 博主。

梁堰波明略數(shù)據(jù)技術(shù)合伙人，開源愛好者，Apache Spark項目核心貢獻者。北京航空航天大學計算機碩士，曾就職于Yahoo!、美團網(wǎng)、法國電信從事機器學習和推薦系統(tǒng)相關(guān)的工作，在大數(shù)據(jù)、機器學習和分布式系統(tǒng)領(lǐng)域具備豐富的項目經(jīng)驗。

盧億雷精碩科技(AdMaster)技術(shù)副總裁兼總架構(gòu)師，大數(shù)據(jù)資深專家，CCF(中國計算學會)大數(shù)據(jù)專委委員，北航特聘教授。主要負責數(shù)據(jù)的采集、清洗、存儲、挖掘等整個數(shù)據(jù)流過程，確保提供高可靠、高可用、高擴展、高性能系統(tǒng)服務(wù)，提供Hadoop/HBase/Storm/Spark/ElasticSearch等離線、流式及實時分布式計算服務(wù)。對分布式存儲和分布式計算、超大集群、大數(shù)據(jù)分析等有深刻理解及實踐經(jīng)驗。有超過10年云計算、云存儲、大數(shù)據(jù)經(jīng)驗。曾在聯(lián)想、百度、Carbonite工作，并擁有多篇大數(shù)據(jù)相關(guān)的專利和論文。

韓卿(Luke Han) eBay全球分析基礎(chǔ)架構(gòu)部(ADI) 大數(shù)據(jù)平臺產(chǎn)品負責人，Apache Kylin 副總裁，聯(lián)合創(chuàng)始人，管理和驅(qū)動著Apache Kylin的愿景，路線圖，特性及計劃等，在全球各地不同部門中發(fā)展客戶，開拓內(nèi)外部合作伙伴及管理開源社區(qū)等，建立與大數(shù)據(jù)廠商，集成商及最終用戶的聯(lián)系已構(gòu)建健壯的Apache Kylin生態(tài)系統(tǒng)。在大數(shù)據(jù)，數(shù)據(jù)倉庫，商務(wù)智能等方面擁有超過十年的工作經(jīng)驗。

來源：InfoQ

收藏分享

聲明：數(shù)據(jù)猿尊重媒體行業(yè)規(guī)范，相關(guān)內(nèi)容都會注明來源與作者；轉(zhuǎn)載我們原創(chuàng)內(nèi)容時，也請務(wù)必注明“來源：數(shù)據(jù)猿”與作者名稱，否則將會受到數(shù)據(jù)猿追責。