數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的工具和語言最新動態(tài)
【數(shù)據(jù)猿導(dǎo)讀】 2014年分析、數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)的主要工具有四種:R、Python、SQL和SAS,而2017年達(dá)到了五種,分別是Python、R、SQL、Saprk和Tensorflow。RapidMiner以33%左右的使用率占據(jù)著數(shù)據(jù)挖掘/數(shù)據(jù)科學(xué)中最流行的通用平臺前列,這和2016年幾乎完全一樣。...

第18屆年度KDnuggets軟件投票又一次受到了分析、數(shù)據(jù)科學(xué)界和軟件生產(chǎn)商的熱情參與。與去年相似,約有2900人參與了此次投票。最近幾年,Python的使用增長率一直比R快,到今年,Python終于以微弱的優(yōu)勢超過了R的使用率 (52.6% Vs 52.1%)。然而最大的驚喜應(yīng)該是深度學(xué)習(xí)工具的廣泛共享和使用。2017年深度學(xué)習(xí)有32%的使用率,而在2016年只有18%,2015年9%。谷歌Tensorflow迅速成為深度學(xué)習(xí)平臺的領(lǐng)頭者,以20.2%的使用率領(lǐng)先于其他平臺。它去年的使用率只有6.8%,但在今年它進(jìn)入了使用工具的前10名。2014年分析、數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)的主要工具有四種:R、Python、SQL和SAS,而2017年達(dá)到了五種,分別是Python、R、SQL、Saprk和Tensorflow。RapidMiner以33%左右的使用率占據(jù)著數(shù)據(jù)挖掘/數(shù)據(jù)科學(xué)中最流行的通用平臺前列,這和2016年幾乎完全一樣。
我們注意到,許多軟件廠商都鼓勵自己的用戶投票給自己,但所有的軟件廠商都有平等的機會這么做,因此這并不違反KDnuggets準(zhǔn)則。我們沒有看到任何機器自動投票或只投給一個工具的情形。
Spark增長到約23%,在Hadoop體系中保持前10位的領(lǐng)先地位。
除了TensorFlow外,在頂端也出現(xiàn)了另一個新工具Anaconda,有22%的使用率。
分析、數(shù)據(jù)科學(xué)、機器學(xué)習(xí)領(lǐng)域使用率居前的工具
表1:分析/數(shù)據(jù)科學(xué)領(lǐng)域2015-2017年KDnuggets 投票結(jié)果對比
上圖展示了前11名的結(jié)果,每一個實用工具的支持票數(shù)都超過了500。在上表中 ,”2017%Usage”是今年使用這個工具的投票者百分比, “%Change 2017 Vs 2016″ 是與2016年使用情況的對比,這里用綠色和紅色高亮表示改變超過5%以上的情況,”% alone” 是只使用當(dāng)前工具的投票者占比。每個投票者工具平均使用數(shù)為6.1,和2016年6.0相比幾乎沒有變化 。對比于 2016年 KDnuggets分析/數(shù)據(jù)科學(xué)票選結(jié)果,前11名中新晉的工具是Anaconda和Tensorflow。
各個區(qū)域的參與度如下:
• 美國/加拿大(41.5%)
• 歐洲(35.5%)
• 亞洲(10.1%)
• 拉丁美洲(6.5%)
• 非洲/中東地區(qū)(3.8%)
• 澳大利亞/新西蘭(2.7%)
趨勢新工具在調(diào)查中有超過2%的使用率是• Keras(9.5%)• PyCharm(9%)
• 微軟R(4.3%)
• IBM DSX(3.0%)
• PyTorch(3.0%)
• Teradata(2.4 %)
下表列出了在2017年里使用增長率超過20%且使用率至少達(dá)到2%的工具,這其中包括5個深度學(xué)習(xí)工具和4個Microsoft工具。
表2:使用率增長最快的分析/數(shù)據(jù)科學(xué)工具
DataRobot 雖然使用率不足2%,但它從2016年的0.5%增長到了2017年的1.9%。我們注意到,在2016年中至少有2%使用率的工具中,有22個使用量在增加,27個處于下降階段。這表明,數(shù)據(jù)科學(xué)平臺市場仍然沒有被整合起來。下表展示了在2016年至少有2%的使用率,但在2017年使用率至少減少了20%的工具。Turi和Salford在最近被收購,Perl和Octave被Python和R打敗,RapidInsight也許是沒有提醒其用戶投票給自己,QlikView很可能輸給了Tableau,C4.5可以算是過時技術(shù)了。有趣的是,Hadoop體系的的開源工具里,針對于MLlib和其他免費開源分析/數(shù)據(jù)挖掘工具的使用量也在減少。
表3:使用率下降最快的分析/數(shù)據(jù)科學(xué)工具
深度學(xué)習(xí)工具今年深度學(xué)習(xí)工具的使用率躍升到32%,2016年只有18%,2015年的9%。谷歌Tensorflow是占主導(dǎo)地位的平臺,取代了去年的領(lǐng)導(dǎo)者Theano / Pylearn2。排名前列的工具有:
• Tensorflow,20.2%使用率
• Keras,9.5%
• Theano,5.8%
• Other Deep Learning Tools,4.8%
• Mirrosoft CNTK,3.4%
• Caffe,3.1%
• PyTorch,3.0%
• DL4J 2.2%
• MxNet,1.8%
• Torch,1.2%
• Lasagne,0.9%
Hadoop的/大數(shù)據(jù)工具我們已經(jīng)簡化了Hadoop體系下的針對于Hadoop/Spark類工具的的分類。Hadoop下的商業(yè)/開源工具、SQL和Spark的使用率占到了33%。這比2016年的39%略低,但2016年很多工具都被劃分為大數(shù)據(jù)工具。2015年,Spark/Hadoop的工具使用率為29%。在2017年的大數(shù)據(jù)工具的使用是:• Spark,22.7%
• Hadoop 開源工具,15.0%
• Hadoop SQL,10.3%
• Hadoop 商業(yè)工具 7.6%
Python、Java、Unix,scala大受歡迎 而C/C ++,Perl,Julia,F(xiàn)#,Clojure和Lisp下降。以下是按投票排名的主要編程語言:• Python,52.6%的使用率(2016年45.8%)
• R,52.1%(2016年49.0%),增長6%
• SQL,34.9%(35.5%),下跌2%
• Java,13.8%(16.8%),下跌18%
• Unix Shell/ AWK / GAWK,9.6%(10.4%),下跌7%
• C / C ++,6.3%,(7.3%),下跌13%
• Perl,1.7%,(2.3%),下跌27%
• Julia,1.1%(1.1%),無變化
Python不斷學(xué)習(xí)競爭對手Julia,持續(xù)增長,然而Julia的使用率卻令人驚訝地保持了不變。
來源:36大數(shù)據(jù)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新