英特爾大數(shù)據技術中心總監(jiān)馬子雅:硬件和數(shù)據平臺最終為了應用,為了數(shù)據分析
【數(shù)據猿導讀】 隨著物聯(lián)網和大數(shù)據的發(fā)展,客戶已經不再滿足于只是有一個終端的分析應用的解決方案,怎么樣實時的把數(shù)據收集和最終的需求更好地實時的結合在一塊兒,這是未來的發(fā)展趨勢

在物聯(lián)網和大數(shù)據時代,如何將物聯(lián)網和終端的數(shù)據分析進行更多的結合?怎樣實現(xiàn)數(shù)據收集和商業(yè)決定的實時結合?怎么樣提升機器學習模塊的可擴展性,更快的縮短機器學習的周期?如何把大數(shù)據平臺和最終機器學習模塊無縫結合?種種這些,都是企業(yè)面臨的困惑和必須解決的難題。在英特爾&Cloudera數(shù)據分析媒體溝通會上,筆者有幸采訪了英特爾公司軟件與服務事業(yè)部副總裁/系統(tǒng)技術和優(yōu)化部門大數(shù)據技術總監(jiān)馬子雅女士,并針對這些問題進行提問和交流。
一、英特爾硬件技術讓大數(shù)據機組性提高7倍
眾所周知,大數(shù)據的發(fā)展速度非???,越來越多的企業(yè)開始利用大數(shù)據獲取商業(yè)價值。在談到大數(shù)據發(fā)展過程中遇到的難題時,馬子雅女士表示,大數(shù)據是未來最有希望的一個產業(yè),目前90%的數(shù)據量都是過去兩三年時間產生的,到2020年有500億互聯(lián)設備,會產生10000 GB的數(shù)據量。
隨著物聯(lián)網和大數(shù)據的發(fā)展,客戶已經不再滿足于只是有一個終端的分析應用的解決方案,怎么樣實時的把數(shù)據收集和最終的需求更好地實時的結合在一塊兒,這是未來的發(fā)展趨勢。談到挑戰(zhàn),馬子雅女士認為,一個是原始數(shù)據的收集和海量數(shù)據的收集,怎么樣能進行實時的分析?另外一個是什么樣的數(shù)據在客戶端,什么樣的數(shù)據到數(shù)據中心進行實時的分析處理?英特爾在大數(shù)據方面已經做了很多年,最終目標是希望任何大數(shù)據用戶能夠在英特爾的平臺上獲得最好的數(shù)據洞察力,實現(xiàn)最快最便捷的數(shù)據分析速度。為了實現(xiàn)這一目標,英特爾在硬件方面做了很多的創(chuàng)新。
她表示,在硬件上英特爾無論是從網絡、存儲還是運算等各個方面,對很多的大數(shù)據項目進行了優(yōu)化,保證他們能夠在英特爾的平臺上實現(xiàn)性能的大幅度提升。過去幾個月,英特爾推出了至強E7 v4處理器,它是進行實時分析最快的處理器。此外,還推出了至強E5 v4,它能夠使大數(shù)據的機組非常容易得擴展開來。除了處理器之外,英特爾推出了存儲的3D XPoint,這是最新的非易失性存儲技術,性能提升相當明顯。馬子雅女士表示,客戶通過遷移到新一代英特爾的硬件技術上,大數(shù)據的機組性能能夠整整提高7倍。
馬子雅女士還通過一個案例對英特爾硬件性能進行了詳細的介紹。中國比較大的互聯(lián)網公司已經部署了大的Spark機組,我們只需要在他們原有硬盤的基礎上,為每個服務器加上一個英特爾的SSD的存儲,整個機組性能可以提升20%。在此基礎上,我們又開發(fā)部署了Hierarchical storage management Solution,層次性存儲軟件,可以再次提升大數(shù)據機組性能,最后使得整個性能提升達到70%。最終,這個客戶以比較低的成本取得了類似于內存緩存的性能。
二、英特爾把大部分源代碼都貢獻給了開源
談到硬件的發(fā)展對于大數(shù)據的軟件、對于大數(shù)據的生態(tài)系統(tǒng)能帶來什么幫助呢?馬子雅女士表示,大數(shù)據領域受開源影響比較大,無論是Hadoop生態(tài)系統(tǒng)還是Spark生態(tài)系統(tǒng),受到開源的影響力很大。在過去幾年時間里,英特爾與開源做了很多合作,最近也推出了一些開源項目,比如TAP,Trusted Analytics Platform,它是用來加速基于云的分析應用程序的開發(fā)。
英特爾做這些工作是希望看到大數(shù)據的用戶能夠在英特爾的平臺上有非常好的用戶體驗,包括從分析應用、到機器學習都能夠有比較好的用戶體驗。所以我們和很多業(yè)界同行、客戶有很多的合作關系,比如從Hadoop相關的項目、Spark相關的項目、包括SQL,包括存儲、云結合方面都做了很多工作,重點是添加性能、改善它的穩(wěn)定性、可擴展性、提升性能、提升數(shù)據的保護等等。在機器學習方面,尤其是幫助客戶擴大機器學習模塊的可擴展性方面,達到10倍至70倍,并且可以縮短機器學習的周期達到8倍。另外,英特爾把大部分源代碼都貢獻給了開源。
馬子雅女士表示,在傳統(tǒng)的Hadoop里面,我們?yōu)榱嘶謴涂赡艿臄?shù)據丟失或者數(shù)據故障,通常把每個數(shù)據塊存儲三次,這就直接帶來了多于200%的存儲消耗。英特爾和Cloudera在開源共同主導開發(fā)了一個項目HDFS Erasure Coding,就是刪除編碼這個項目。這個項目可以把存儲成本降低整整一半,并且把編碼器、解碼器的性能提升30倍,即使和新的JAVA解碼器和編碼器相比性能也提升了6倍,主要是利用了英特爾硬件了的硬件指令AVX、AVX2、SSE以及在此基礎上優(yōu)化的存儲加速庫。
三、硬件和數(shù)據平臺最終為了應用
談及英特爾未來一段的軟件研發(fā)投入是否主要傾向于至強融核(Xeon Phi)平臺,馬子雅女士表示,英特爾目前大部分工作都在至強平臺上,隨著深度學習、機器學習在大數(shù)據分析應用領域占的比重越來越大,英特爾在過去兩年的時間里更多的人員投入到這方面的研發(fā),包括軟件和硬件我們都放了很多,比如說至強融核(Xeon Phi),這是一個主要的硬件趨勢。另外就是FPGA,英特爾剛剛收購了Altara,這是一個大手筆的投資,是重要的機器學習的平臺,我們會爭取讓它們有統(tǒng)一接口。另外,我們希望用戶在原來跑深度學習、機器學習在至強上,可以無縫的放在至強融核(Xeon Phi)、FPGA上,這都是未來努力的方向。
關于目前很多大數(shù)據公司提到的大數(shù)據性能已經做到了怎樣的一個狀態(tài),馬子雅女士表示,大數(shù)據的基準測試的標準化是非常重要的一個方向,英特爾在這方面引領了業(yè)界的基準測試的標準化,尤其是制定了Big Bench、High Bench的測試標準,我們希望通過這樣的標準幫助業(yè)界更精準的了解大數(shù)據在微觀以及端到端的性能。
她強調,無論是硬件還是數(shù)據平臺,最終還是為了應用,為了做數(shù)據分析。在分析應用方面,英特爾跟很多的客戶和合作伙伴進行了合作,加速他們的分析應用,包括機器學習在英特爾平臺上的部署。例如零售行業(yè)通過機器學習對客流行為做出一些分析,為未來做一些預測。
談到機器學習的痛點,馬子雅女士表示,機器學習模塊的可擴展性不夠高,最多只能分析幾十萬或者上百萬的樣本,預測不夠精準,這是很頭痛的事情。針對這些存在的問題,英特爾做了許多領先的工作,我們幫助很多企業(yè),包括京東、奇虎360,我們把他們的機器學習的模塊可擴展性提高10倍,比如京東現(xiàn)在可以10倍的細致地分析它的客流行為。如果你到京東的網頁,它會給你更個人化、更有針對性的產品推介,所以它的業(yè)務效率現(xiàn)在比以前有很大的提高。
在支付產業(yè),英特爾為合作客戶提供了一個完整的端到端的機器學習的流水線,從一開始的機器學習樣本的收集、存儲、管理,在此基礎上建立管理特征。用這些特征對機器學習的模塊進行培訓,把大數(shù)據平臺和最終機器學習模塊無縫結合,尤其是Spark、Hadoop和機器學習模塊無縫結合,幫助支付企業(yè)實現(xiàn)流水線,使它的卷積神經網絡收斂速度提高30倍,主要通過對硬件、軟件的優(yōu)化,幫助這些支付企業(yè)更精準的進行防欺詐。
談到英特爾在未來的方向,馬子雅女士表示,英特爾希望把物聯(lián)網和終端的數(shù)據分析進行更多的結合,尤其是物聯(lián)網越來越發(fā)展的情況下,怎么樣把數(shù)據收集和商業(yè)決定實時結合在一塊兒。另外就是怎么樣提升機器學習模塊的可擴展性,怎么更快的縮短機器學習的周期,這都是未來的方向。
來源:51CTO
刷新相關文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據產業(yè)高2018-12-03
- 2018上海國際計算機網絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術峰會2018”2018-06-14