【視頻&PPT】《數(shù)據(jù)猿巔峰思享會》之TalkingData首席數(shù)據(jù)科學(xué)家張夏天:硅谷Al/ML技術(shù)公司掠影
Kate | 2016-05-12 19:02
【數(shù)據(jù)猿導(dǎo)讀】 張夏天在《數(shù)據(jù)猿巔峰思享會》上坦言,此次美國之行,除了參加Strata+Hadoop大會以外,還有一個目的是去大數(shù)據(jù)技術(shù)的發(fā)源地——硅谷學(xué)習(xí)。本次思享會中,張夏天分享的主題是“硅谷Al/ML技術(shù)公司掠影”

今天我們?yōu)榇蠹規(guī)淼氖恰稊?shù)據(jù)猿巔峰思享會》第三位分享嘉賓TalkingData首席數(shù)據(jù)科學(xué)家張夏天的精彩內(nèi)容。(第四位嘉賓為劉賀鋒,前兩位分別為謝軍、王濤)
張夏天,TalkingData首席數(shù)據(jù)科學(xué)家,曾在IBM研究院、騰訊數(shù)據(jù)平臺部、華為諾亞方舟實驗室任職,其對大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)、數(shù)據(jù)挖掘有深入的研究和實踐經(jīng)驗。
TalkingData是國內(nèi)領(lǐng)先的獨立第三方移動數(shù)據(jù)服務(wù)平臺。張夏天在會上坦言,TalkingData發(fā)展到現(xiàn)在積累了很多數(shù)據(jù),同時,在做數(shù)據(jù)整理、加工、挖掘時技術(shù)上遇到很多挑戰(zhàn),所以此次美國之行,除了參加Strata+Hadoop大會以外,還有一個目的是去大數(shù)據(jù)技術(shù)的發(fā)源地——硅谷學(xué)習(xí)。本次思享會中,張夏天分享的主題是“硅谷Al/ML技術(shù)公司掠影”。
(張夏天50分鐘完整分享視頻)
索取張夏天完整PPT的正確姿勢:關(guān)注數(shù)據(jù)猿官方微信(datayuancn)并在后臺回復(fù)關(guān)鍵詞“張夏天”即可
Spark演進方向:由1.6版本升級到2.0版本,計算性能提升10倍
此次美國前行,我們拜訪的不只是一些大公司,還去了很多小公司,并做了技術(shù)方面的交流,其中與Databricks公司交流最多。Databricks公司的一個中國人給我們介紹了整個Spark未來演進的方向:未來幾個月內(nèi),Spark會由1.6版本升級到2.0版本,計算性能也會提升10倍。
交流中得知,Spark進步如此大的原因是,他們把Spark當做一種思想,通過對代碼編譯層級優(yōu)化執(zhí)行,獲得高度的提升。未來粗密度的IDD模型會逐漸淡化,處理結(jié)構(gòu)時不需要處理IDD大模塊,而是處理一列即可。
我們對此很感興趣,因為TalkingData接觸Spark非常早,當Spark在國內(nèi)受到質(zhì)疑,還沒有形成大規(guī)模應(yīng)用時,TalkingData的數(shù)據(jù)平臺就已經(jīng)從Hadoop遷到了Spark。同時,我們做的機器學(xué)習(xí)和數(shù)據(jù)挖掘工作,都是基于Spark做的。
兩三年前,公司的硬件資源非常有限,當我們發(fā)現(xiàn)使用Spark比使用Hadoop節(jié)省很多計算資源的時候,就堅持使用Spark?,F(xiàn)在知道了Spark的發(fā)展路線后,更讓我們堅定了信心。
大數(shù)據(jù)平臺發(fā)展趨勢
今年參加Strata大會的公司可謂百花齊放,我發(fā)現(xiàn)一個很大的特點是,有很多公司在做別人看起來比較低檔的數(shù)據(jù)整合。另外,也有很多公司做分析,例如HTO公司就是一個例子,HTO整個核心產(chǎn)品全都是開源的,但是它提供商業(yè)化的支持和服務(wù),算是開源軟件商業(yè)化模式。還有很多其他的閉源平臺公司出現(xiàn),他們主要提供機器學(xué)習(xí)和數(shù)據(jù)挖掘工具。
我認為從本質(zhì)上來說,開源軟件商業(yè)化的工具以前并非完全沒有,很經(jīng)典的商業(yè)化分析軟件其實有很多年了,目前市場上新的分析軟件基本上都是創(chuàng)業(yè)公司在做,產(chǎn)品有很多亮點,這同時也預(yù)示了未來很多更細分領(lǐng)域的發(fā)展趨勢。
首先,提供的軟件及平臺能夠整合多種工具。會上的很多公司也都基本上都不再是從輪子造起了,所有模型都是去整合不同的開源工具,甚至可以整合商業(yè)軟件,包括SAAS都有能力整合。這樣就突破了局限性,讓大家可以使用的工具變得非常多樣,這是我看到的發(fā)展趨勢。
另外是高效的分析建模能力。以DataRobot公司為代表,其做數(shù)據(jù)科學(xué)和機器學(xué)習(xí)時,強調(diào)自動化過程。只要選定一個數(shù)據(jù)和一列,再按一個鍵,機器就會自動挑選出最好的模型。具體來說,每個模型有不同的參數(shù)組合,組合出來后會是上千種模型,包括幾種不同的算法,甚至深度學(xué)習(xí)模型都集成在里面。然后后臺會通過分布式架構(gòu)去訓(xùn)練,接著會對所有模型進行排序,還可以查看到每個模型的狀態(tài),這樣就會變得非常的高效和自動化。
其實對于機器學(xué)習(xí),里面很多問題純粹依靠人去調(diào)參會很浪費時間,但DataRobot強調(diào)依靠機器,完全自動化。現(xiàn)在機器計算比人的成本更低,降低了工具使用門檻,同時,極大的提高了建模分析效率,這對專業(yè)人士來說很有幫助。因為機器不只是能給出結(jié)果,包括模型分析,模型可視化都會有。如果還想用手工調(diào),便可以站在很高的機械調(diào)整基礎(chǔ)之上再做人工調(diào)整,而不是從一開始很低的水平去調(diào),這樣便極大的加快了人工的工作。
還有很多公司提高高效建模能力可視化,它不僅展示精美,而且可以支持各種各樣的圖表,甚至可以在圖表上做交互式數(shù)據(jù)分析。比如這里邊展示出來的幾種不同的點,可以被鼠標圈選,然后再做進一步分析。這樣就變得不只是看結(jié)果的工具了,而是可以作為真正分析互動的工具提供給客戶。
另外,很多企業(yè)基本上都是每家只做一個分析工具或者服務(wù),通過幾個模型處理就形成這種完整的服務(wù)流程。
還有一塊,對模型和實驗結(jié)果的管理,每家的支持確實做的比較好。這個平臺做任何實驗,做任何模型都會把結(jié)果記錄下來,模型本身是什么樣的,模型測試的結(jié)果都會全部記錄下來,可以很好的做歸檔。我覺得這也是一個非常好的功能。
簡化模型部署領(lǐng)域也是,具體來說,一個模型出來后,需要對其進行部署,然后在應(yīng)用環(huán)境下使用。原來的Saas、Strata都有部署的功能,但不是很方便,因為很多遵循了Pmmll(預(yù)測模型標準),這樣訓(xùn)練一個模型后變成一個Slm,再解析Slm時,有些商業(yè)會支持,但很多公司不一定會使用這種商用模型。所以,對模型進行部署成了一個難題。
現(xiàn)在這些平臺基本都支持一個功能,可以直接粘貼到部署的工程里邊去,大大簡化了工作內(nèi)容。不但支持代碼導(dǎo)出,而且按一兩個鍵就可以在平臺上直接使用,部署完后可以在多科環(huán)節(jié)下運行,非常棒。
再從美國數(shù)據(jù)平臺發(fā)展的趨勢來看,其思想和產(chǎn)品讓人印象深刻。我在Strata大會看到的Anaconda公司,也是做數(shù)據(jù)科學(xué)平臺,但與其他公司有很大不同。他們完全固守在Python上面,用Python與其他所有的東西分庭抗禮。但因為Python安裝很麻煩,所以他們把很多與數(shù)據(jù)分析、機器學(xué)習(xí)相關(guān)的包集合在一起,做成了一個集成安裝。
另外,因為原來Python有很多包是支持單機運行,并不支持其他算法,所以他們公司的資深操作人員把很多關(guān)鍵庫改寫了,能夠完全支持并行化的執(zhí)行,這樣就突破了Python單機只能處理小規(guī)模的問題。這也是我看到可視化做的最好,并且很有意思的一家公司。
人工智能Novumnd公司:計算能力和應(yīng)用廣度做到極致
我們還去拜訪過專業(yè)做人工智能的公司——Novumnd,這家公司是由百度出來的吳韌老師創(chuàng)立,現(xiàn)在公司有二十多人,吳韌老師說,他從百度出來以后,華爾街有很多金融公司請他用深度學(xué)習(xí)技術(shù)做量化投資,雖然那樣會很掙錢,可他并不只想做掙錢的事情。
我發(fā)現(xiàn)硅谷有很多技術(shù)公司很有理想,他們不只是想掙錢,更希望能夠去改變世界。
在交流中得知,Novumnd公司現(xiàn)在有兩個發(fā)展方向:
一,做深度學(xué)習(xí)一體機。因為他們在算法上有很深的積累,所以想要把算法與硬件結(jié)合,而不只是做硬件產(chǎn)品?,F(xiàn)在深度學(xué)習(xí)的計算能力要求非常高,而且隨著數(shù)據(jù)量的增加以及網(wǎng)絡(luò)結(jié)構(gòu)的構(gòu)造越來越復(fù)雜,其對計算量的要求也會越來越多。這種情況下每一點計算資源都很珍貴,所以把每一點計算資源利用起來就非常關(guān)鍵。
吳韌老師認為,人使用的門檻都可以克服,做出來的東西好用與否并不是最重要的,能夠把算法和硬件很好的結(jié)合在一起,讓硬件的計算能力發(fā)揮到極致,并最大限度的提升效率,達到最好的效果才是關(guān)鍵。這也是他想做這件事情的方向。
二,嵌入式做法。深度學(xué)習(xí)一體機的做法確實比以前有了很大進步,比如圖像識別、語音識別,但其并不能把人工智能的問題完全解決。若想變得無所不能,不能只關(guān)注服務(wù)器,而且如果把所有數(shù)據(jù)都放在服務(wù)器處理,帶寬等各方面的壓力會使終端計算壓力非常大,所以就需要往前延伸,前置到各個終端,包括智能手機和智能設(shè)備,也可以提高計算效率。同時,實驗結(jié)果證明,有些決策確實可以在終端做,不是必須要用服務(wù)器才能做最后的決策。所以,Novumnd公司其次是要以嵌入式方向去做。
吳韌老師還在業(yè)余時間做了一個NovuGO,我們也在現(xiàn)場感受了一下。TalkingData的崔曉波先生在國內(nèi)的圍棋水平是業(yè)余五段,當他看到NovuGO時就想與其對戰(zhàn),當時與崔總對戰(zhàn)的僅是一臺筆記本,沒有任何其他GPU集群的計算,若與AlphaGo和李世石對戰(zhàn)時相比,計算能力只有其三萬分之一,但對戰(zhàn)結(jié)果下來,崔總認為NovuGO已有業(yè)余三四段的水平了。
吳老師說,這畢竟不是他們的主業(yè),他們只是把之前做圖樣識別的經(jīng)驗簡單的移植到圍棋框架中,就取得了這種效果,而且在某些層面上比AlphaGo一些參數(shù)還要高。AlphaGo的精度是52%,而NovuGO精度達到了56%,高了幾個點,當時蠻震驚的。
Numenta公司:突破智能臨界點
我們在Strata大會上還與Numenta公司做了交流,這個公司也很有意思。創(chuàng)始人是杰弗瑞.霍德斯(Jeff Hawkins),公司是做神經(jīng)網(wǎng)絡(luò)的,因為背離了人工智能的原理,霍德斯認為接下去的路走不通了。于是,他盡可能參照人腦的皮質(zhì)去做,因為皮質(zhì)能產(chǎn)生人智力結(jié)構(gòu)的設(shè)計和學(xué)習(xí)框架。霍德斯把這套東西叫做皮質(zhì)學(xué)習(xí),我看了一下,確實與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)區(qū)別很大,里面很多是基于神經(jīng)元運行的簡單規(guī)則,基本沒有數(shù)學(xué)算法類的東西,這樣就對計算力的要求降低很多。
這家公司在2005年成立,目前應(yīng)用主要集中在異常檢測方面,包括證券市場走勢的異常檢測、IT系統(tǒng)運行的檢測,還有用戶在網(wǎng)絡(luò)上流氓行為的檢測,甚至人出行軌跡的日常檢測等。我看了一個視頻,一個程序訓(xùn)練很短的時間以后,不需要任何監(jiān)督信息,就可以判斷出哪些行為正常,哪些行為不正常。
我認為上面這兩家公司代表了兩個不同的發(fā)展路徑。Novumnd公司走的是主流方向,其想在計算能力和應(yīng)用廣度方面做到極致。而Numenta公司另辟蹊徑,想要突破智能的臨界點。
最后講下TalkingData在數(shù)據(jù)科學(xué)方面所做的工作。首先是Product Applications方面的工作,我們作為一個數(shù)據(jù)平臺,不僅會提供數(shù)據(jù),還會提供很多數(shù)據(jù)服務(wù),比如數(shù)據(jù)挖掘、數(shù)據(jù)技術(shù)、數(shù)據(jù)算法,包括定位算法的研究我們都在做。
其次是應(yīng)用層。應(yīng)用層是支撐公司內(nèi)部產(chǎn)品的應(yīng)用,比如DMP的產(chǎn)品,會解決內(nèi)部自動分層、自動人群擴大的需求。另外,房地產(chǎn)領(lǐng)域、金融領(lǐng)域、零售領(lǐng)域都有這種應(yīng)用案例,有些是幫人選址,有些是做人群篩選、人群擴大等各種問題。這是目前TalkingData所做的幾個方面。
其中做的比較好的是我們的自研算法。雖然,我們當時轉(zhuǎn)移到了Spark平臺,但并不能滿足我們的需求。比如,做人群擴大算法時,訓(xùn)練模型在10億級別,三百萬的維度訓(xùn)練,現(xiàn)在甚至是一千萬的維度訓(xùn)練,當時用五六個小時都不能做出一個模型,所以我們很用心的去做算法,算法層面便優(yōu)化了很多,不僅速度快,而且比最新版本內(nèi)置的算法的速度和精度都要好很多。比如,現(xiàn)在的Logisic Regression十分鐘就可以完成集散。
Spark并不是非常適合的平臺,但如果要改造它,投入會很大。同時我們希望做人群擴大計算能夠?qū)崟r,幾分鐘之內(nèi)就會有反饋。所以,我們基于Spark做了一套引擎,又開發(fā)了新的算法實踐,使其能夠做到一百秒以內(nèi)完成大規(guī)模的計算,速度非???。其實我們用到的資源非常有限,基本是用十臺服務(wù)器去做,且是基于Spark去做的,而Spark在調(diào)度方面浪費了很多時間,如果我們自己能夠?qū)懸惶缀玫目蚣?,那么,計算時間有望壓縮到十秒以內(nèi)。
算法做出來以后,可以應(yīng)用于廣告預(yù)測,比如在房地產(chǎn)領(lǐng)域可以幫助客戶優(yōu)化戶外廣告牌的布局、線下的推廣方案,在零售行業(yè)的宏觀選址等方面,我們也都有實際應(yīng)用案例。
延伸閱讀
【視頻&PPT】《數(shù)據(jù)猿巔峰思享會》之雅捷股份CTO謝軍:Hadoop的企業(yè)應(yīng)用以及GPU數(shù)據(jù)庫
【視頻&PPT】《數(shù)據(jù)猿巔峰思享會》之巨杉數(shù)據(jù)庫CTO王濤:大數(shù)據(jù)和數(shù)據(jù)庫的未來趨勢
【總回顧】《數(shù)據(jù)猿巔峰思享會》之2016 Strata+Hadoop World
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重