作為Alphago“背后的男人”,黃文堅如何看待人工智能和大數(shù)據(jù)?
明略數(shù)據(jù) | 2016-07-27 13:45
【數(shù)據(jù)猿導(dǎo)讀】 黃文堅,明略數(shù)據(jù)挖掘負(fù)責(zé)人&技術(shù)合伙人,TensorFlow Top 30 Contributor。著名的AlphaGo有很多算法就是用Tensorflow的算法進(jìn)行訓(xùn)練后得到的,從某種意義上說,黃文堅也可以算作“AlphaGo戰(zhàn)勝李世石”背后的男人(之一)。對于人工智能,黃文堅認(rèn)為很快就會產(chǎn)生巨大商業(yè)價值和社會價...

黃文堅 明略數(shù)據(jù)挖掘負(fù)責(zé)人&技術(shù)合伙人本 科碩士畢業(yè)于香港科技大學(xué)電子計算機(jī)工程系。碩士的研究工作獲MobiCom最佳移動應(yīng)用技術(shù)獎,并獲兩項美國專利及一項中國專利。參加阿里巴巴大數(shù)據(jù)推 薦算法大賽,于7000多支隊伍中獲得前10名。畢業(yè)后工作于阿里巴巴搜索算法部門。后加入明略數(shù)據(jù),現(xiàn)任明略數(shù)據(jù)挖掘組Leader、技術(shù)合伙人之一, 負(fù)責(zé)公司的算法建模工作。TensorFlow Top 30 Contributor. 興趣領(lǐng)域包括深度學(xué)習(xí)及量化交易。
最近一段時間讓黃文堅略感郁悶的是,由于經(jīng)常要去見客戶,而且還有好幾個大的項目同時在做,他在谷歌最新人工智能學(xué)習(xí)開源社區(qū)Tensorflow的contributor排名,已經(jīng)略降到22名,而一個月前他的排名還是在Top 20之內(nèi)。著名的AlphaGo有很多算法就是用Tensorflow的算法進(jìn)行訓(xùn)練后得到的,從某種意義上說,黃文堅也可以算作“AlphaGo戰(zhàn)勝李世石”背后的男人(之一),雖然他自己并不愿意這么形容。
作為一個人工智能和深度學(xué)習(xí)的從業(yè)者,黃文堅非??春米约赫谧龅氖虑?。尤其在AlphaGo4:1大勝李世石后,他更加堅信自己從事的工作真的是恰逢其時。在他看來,未來包括像駕駛、收銀、保潔等一些簡單的服務(wù)性勞動都將被機(jī)器和算法來替代。“這一塊如果實(shí)現(xiàn)的話,以后整個就業(yè)形勢可能就會有一個很大的改變。只有真正需要人腦,就是機(jī)器做不了的工作會保留下來。”
在人工智能領(lǐng)域,黃文堅認(rèn)為很快就會產(chǎn)生巨大商業(yè)價值和社會價值的應(yīng)用。“搭上一班大車,這個領(lǐng)域的發(fā)展趨勢會特別好。”
黃文堅在Tensorflow的contributor排名從阿里巴巴大賽到阿里巴巴“大師”2014年夏天,在香港科技大學(xué)攻讀電子計算機(jī)工程碩士的黃文堅即將畢業(yè),原計劃準(zhǔn)備繼續(xù)讀博的他,在暑期報名參加了阿里巴巴大數(shù)據(jù)推薦算法大賽。當(dāng)時參加這個比賽的初衷,黃文堅坦言是為了感受真正的大數(shù)據(jù)是怎么運(yùn)作的。“有很多聲稱數(shù)據(jù)量的公司,可能都沒有達(dá)到幾T的量級,而阿里有幾十上百PB的數(shù)據(jù)量,五六千臺服務(wù)器,可以真實(shí)的感受到這個大數(shù)據(jù)平臺運(yùn)作方式,還有這個數(shù)量級上的準(zhǔn)確分析和數(shù)據(jù)挖掘,這是非常吸引我的。”阿里這屆比賽吸引了全球教育機(jī)構(gòu)超過7000支隊伍參加,黃文堅所在的隊伍“大師威武”最終脫穎而出,在“準(zhǔn)確率”和“召回率”兩項核心指標(biāo)的評判下獲得了前10名的的好成績。“大師威武”隊中其實(shí)只有他自己一名隊員。
比賽的前十名都受邀獲得了阿里面試的機(jī)會,本來黃文堅想去做更喜歡的推薦算法,不過來自天貓搜索部的面試官和他只聊了一次,就把他招入了自己的部門。就這樣,“大師威武”就正式加入了阿里。在搜索部門期間,黃文堅做了兩個比較大的項目,一個是搜索個性化排序,還有一個基于以圖搜圖的推薦。黃文堅當(dāng)時的部門叫天貓搜索算法組,有將近20人,所有和天貓搜索排序相關(guān)業(yè)務(wù)都是他們來做。黃文堅剛開始負(fù)責(zé)的是個性化搜索項目的算法部分,“因為算法這個東西,幾個人在一起只能商量一下算法特征,但中間的模型優(yōu)化和調(diào)試,只能靠一個人,不是像軟件工程那樣可以并行化。”搜索個性化排序的項目進(jìn)行了有半年的時間,上線之后用戶點(diǎn)擊率和轉(zhuǎn)化率提升明顯,而且在瀏覽體驗性上有顯著改善。通常搜索出來都是很相近的爆款,有了個性推薦,可以看到一些自己可能更喜歡的小眾一點(diǎn)的商品。在這背后是黃文堅和同事們所做的“用戶畫像”,包括性別、年齡、購買力、風(fēng)格偏好等等幾百個特征維度,這些特征維度之間會形成組成,又形成幾十萬個高維度組合,最終產(chǎn)生的數(shù)據(jù)量是十幾億條真實(shí)點(diǎn)擊和提升了3%的購買轉(zhuǎn)化率。
在黃文堅看來,阿里的總體文化還是比較寬松開放的,并沒有刻意提倡所謂的“狼性”。“當(dāng)然有重要事情的時候,我們都會堅守,比如雙11。我們的算法要在雙11中發(fā)揮效率,監(jiān)控和修復(fù)必須通宵堅守。”那一年的雙11讓黃文堅印象深刻,整個阿里杭州園區(qū)大概有3萬人,僅僅同事們自己買的東西,把一棟特別大的樓的大廳全部堆滿了,大概半個多月后才把所有快遞拿完。
大數(shù)據(jù)的掘金者在阿里工作一年后,黃文堅從杭州回到北京,加入明略數(shù)據(jù)。一方面是可以方便照顧北京的父母,另一方面可以接觸更先進(jìn)的技術(shù)。創(chuàng)業(yè)公司比較自由,可以通過自身的情況和方法使用一些更新、更先進(jìn)的工具和組件。“在這邊我們有專用的服務(wù)器,可以讓我們訓(xùn)練精度很高的神經(jīng)網(wǎng)絡(luò),這可能是只有在創(chuàng)業(yè)公司才有時間和精力讓你去嘗試。”黃文堅表示。在明略黃文堅負(fù)責(zé)公司大部分?jǐn)?shù)據(jù)挖掘項目的工作,面向的客戶如很多銀行、保險公司、制造業(yè)公司。“他們會有一些大量數(shù)據(jù)不知道怎么用,我們就幫助他挖掘。”
在服務(wù)一家保險公司時,對方期望能做到30%的復(fù)購準(zhǔn)確率,最終的結(jié)果達(dá)到了50%。“客戶非常非常滿意,大大超過他們的期望。”讓黃文堅印象最深的數(shù)據(jù)挖據(jù)的案例是一個高鐵制造業(yè)客戶,在世界任何一個國家,高速鐵路的安全性和故障率都有非常嚴(yán)格的要求,一旦出現(xiàn)宕機(jī)或者其他故障就會造成非常嚴(yán)重的損失。有數(shù)據(jù)表明,如果一輛高鐵在鐵軌上出現(xiàn)故障,每一分鐘的損失都將達(dá)到數(shù)十萬元級別。黃文堅和同事們所做的事情是,根據(jù)高鐵上幾百路傳感器信號,在完全無法了解這個信號含義的情況下,將它們放到一個深度學(xué)習(xí)的模型中,進(jìn)行故障分類和預(yù)測,最終準(zhǔn)確率超過90%。預(yù)測發(fā)生類型的故障只是第一步,第二步是預(yù)測故障什么時候能發(fā)生。“例如我們預(yù)測接下來一天某些故障類型隱患可能會比較高,接下來就要精確預(yù)測,比如提前15分鐘或者半小時的預(yù)報,而不是概率上的風(fēng)險預(yù)測。”
黃文堅作為數(shù)據(jù)挖掘團(tuán)隊的負(fù)責(zé)人,由于項目的需求,因此會去見客戶。一方面談要用客戶的數(shù)據(jù)做什么內(nèi)容,另一方就是實(shí)際到客戶的服務(wù)器上進(jìn)行數(shù)據(jù)挖掘和分析,還有評測上線等工作。去見客戶時必須著正裝,但在日常,技術(shù)出身的他還是習(xí)慣于穿T恤。“現(xiàn)在有三分之一的時間在見客戶,有一半時間做項目,剩下六分之一時間是在指導(dǎo)其他同事技術(shù)性的問題。”和公司其他部門一樣,黃文堅也會鼓勵他的同事參加一些比賽,包括像他之前參加過的阿里的推薦算法比賽,包括國外的比賽,或者是鼓勵他們在開源社區(qū)提交代碼,做一些技術(shù)上的提升。“這可能不一定直接對公司帶來價值,但是我們希望同事們在技術(shù)上是最優(yōu)秀的。”
AlphaGo和人工智能的黃金時代今年2月,黃文堅加入了谷歌最新人工智能學(xué)習(xí)開源社區(qū)Tensorflow ,成為其中一名contributor,而他的排名曾經(jīng)長時間位居Top20。Tensorflow是去年11月才開源的一個深度學(xué)習(xí)平臺,僅僅七八個月的時間,就已經(jīng)在GitHub官網(wǎng)上獲得接近3萬的star(點(diǎn)贊、持續(xù)關(guān)注),這個star的數(shù)量比其他開源社區(qū)的總和還要多。黃文堅對谷歌的技術(shù)水平非常信賴,所以當(dāng)Tensorflow出來后,全球的程序員和從事數(shù)據(jù)挖掘的研究從業(yè)者都反響強(qiáng)烈,著名的AlphaGo系統(tǒng)有很多算法就是用Tensorflow的算法進(jìn)行訓(xùn)練后得到的。在AlphaGo3月份和李世石開始五番旗比賽之前,黃文堅覺得AlphaGo獲勝難度很大,畢竟圍棋的難度非常大,AlphaGo能贏一盤不錯了,但是最終結(jié)果反而是出乎意料的,就是碾壓性的獲勝。最終AlphaGo獲勝后,黃文堅更加堅信自己從事的工作真的是恰逢其時。“搭上一班大車,這個領(lǐng)域的發(fā)展趨勢會特別好。”
黃文堅認(rèn)為,圍棋更多還是一個象征意義,其商業(yè)價值并不是很大。未來包括像自動駕駛、一些簡單的服務(wù)性勞動都將被機(jī)器和算法來替代。“這一塊如果實(shí)現(xiàn)的話,以后整個就業(yè)形勢可能就會有一個很大的改變。只有真正需要人腦,就是機(jī)器做不了的工作會保留下來。”在人工智能深度學(xué)習(xí)領(lǐng)域,黃文堅認(rèn)為會有三個應(yīng)用會很快產(chǎn)生巨大的商業(yè)價值和社會價值。第一個是自動駕駛。這個自不必多說,包括谷歌和其他很多公司都已經(jīng)走到了商業(yè)化前夕。第二個是用深度學(xué)習(xí)和機(jī)器學(xué)習(xí)做基因精確診斷。如果能提前將基因做檢測,預(yù)測風(fēng)險,會大大降低患某種癌癥或者其他疾病的風(fēng)險。“在這種情況下,深度學(xué)習(xí)可以發(fā)揮作用。我們可以把全球60億人所有基因和患病史做一個統(tǒng)計性的風(fēng)險分析,這關(guān)系到醫(yī)療健康,一定會有非常大的前景。”第三個是使用深度學(xué)習(xí)做量化交易。事實(shí)上美國現(xiàn)在70%的交易,都是程序化的交易。“深度學(xué)習(xí)是一個很好的點(diǎn),因為量化交易直接跟錢接觸,只要算法運(yùn)作的準(zhǔn),就可以在二級市場中獲利。”
黃文堅評價自己是一個追求很遠(yuǎn)很大計劃,但會慢慢分析一步一步去做的人。“我最開始讀研時的想法,是想通過自己的研究來做出一些技術(shù)上的貢獻(xiàn)。但是后面改變了想法,先通過工作有了一定的資金,再投入到研究,這樣就可以雇傭更多的人來做這方面的工作。我覺得這樣帶來的價值更多一點(diǎn),就暫時放棄了學(xué)術(shù)研究這條路。”對于人工智能未來會發(fā)展成什么樣,業(yè)界和輿論界都有非常激烈的爭論。一派認(rèn)為發(fā)展人工智能是非常危險的,代表人物包括馬斯克、蓋茨和霍金;一派以扎克伯格以及谷歌內(nèi)部從事實(shí)際應(yīng)用深度學(xué)習(xí)的科學(xué)家為代表,他們認(rèn)為這種可能性很小。而黃文堅說自己處于兩派之間,但他認(rèn)為很多年之后,人工智能一定會超越人類。他舉了一個最極端的例子:未來計算機(jī)通過神經(jīng)網(wǎng)絡(luò)有了一些自我意識,給“他”攝像頭、聽覺、觸覺,還有一些記憶后,“他”就具備規(guī)劃自己未來事情的能力,可以思考更復(fù)雜的問題,開始逐漸更像人,最終的結(jié)果就產(chǎn)生了一種新的生命形態(tài)。 “但如果真到那一天也沒什么可惜的,因為人類畢竟也只是生物進(jìn)化過程中的一部分。”黃文堅說。
來源:明略數(shù)據(jù)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重