明略數(shù)據(jù)吳明輝:人工智能的核心一定是大數(shù)據(jù)
吳明輝 | 2016-09-01 13:31
【數(shù)據(jù)猿導(dǎo)讀】 對(duì)于很多開(kāi)發(fā)人員而言,大數(shù)據(jù)應(yīng)用的開(kāi)發(fā)尚未上手,人工智能又已經(jīng)泛濫,當(dāng)前大數(shù)據(jù)公司也逐漸向人工智能靠攏。是否人工智能將成為應(yīng)用的必要屬性?開(kāi)發(fā)人員應(yīng)當(dāng)如何透過(guò)現(xiàn)象直面技術(shù)本質(zhì)并充實(shí)自身的技能

日前,明略數(shù)據(jù)董事長(zhǎng)吳明輝接受CSDN記者專訪,基于他的教育背景與創(chuàng)業(yè)實(shí)踐解析了大數(shù)據(jù)與人工智能的技術(shù)脈絡(luò),以及明略數(shù)據(jù)面向人工智能技術(shù)的最新布局,包括對(duì)未來(lái)研發(fā)重點(diǎn)的思考。何去何從,開(kāi)發(fā)人員可以從中得到啟發(fā)。
在吳明輝看來(lái),人工智能最核心的是需要有大量的數(shù)據(jù)支持,不管是機(jī)器學(xué)習(xí)訓(xùn)練還是其他算法優(yōu)化。最近獲得的2億元人民幣B輪融資的明略數(shù)據(jù),將在基礎(chǔ)層繼續(xù)專注于數(shù)據(jù)挖掘和存儲(chǔ)/清洗/治理等方向的研發(fā),在業(yè)務(wù)層要求駐場(chǎng)科學(xué)家深入客戶一線,實(shí)現(xiàn)業(yè)務(wù)需要的智能性,把企業(yè)數(shù)據(jù)的價(jià)值真正變現(xiàn)。
吳明輝,明略數(shù)據(jù)董事長(zhǎng)。畢業(yè)于北京大學(xué)數(shù)學(xué)系,取得學(xué)士學(xué)位后又免試保送北大人工智能實(shí)驗(yàn)室,于2007年獲得計(jì)算機(jī)軟件與理論碩士學(xué)位,研究方向?yàn)樯锾卣髯R(shí)別,包括指紋掌紋識(shí)別、靜脈識(shí)別等。在大學(xué)期間開(kāi)始創(chuàng)辦自己的軟件公司。2006年創(chuàng)辦大數(shù)據(jù)營(yíng)銷技術(shù)公司秒針系統(tǒng),2014年創(chuàng)辦明略數(shù)據(jù)。
人工智能的核心是數(shù)據(jù)支持
今天看來(lái),機(jī)器智能主要來(lái)自于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的訓(xùn)練結(jié)果,尤其深度學(xué)習(xí)對(duì)感知智能及自然語(yǔ)言處理的精度提升貢獻(xiàn)巨大,同時(shí)也對(duì)(標(biāo)識(shí))數(shù)據(jù)極為渴求。為解決一些缺乏數(shù)據(jù)的領(lǐng)域而生的遷移學(xué)習(xí)方法,前提也是存在一個(gè)相關(guān)領(lǐng)域的能夠提供用于初始訓(xùn)練的數(shù)據(jù)。
人工智能專業(yè)出身的吳明輝很早就相信數(shù)據(jù)基礎(chǔ)的作用,他甚至認(rèn)為沒(méi)有數(shù)據(jù)的場(chǎng)景不可能實(shí)現(xiàn)人工智能。所以,以實(shí)現(xiàn)人工智能的應(yīng)用為目標(biāo),他在最初創(chuàng)業(yè)時(shí)卻瞄準(zhǔn)產(chǎn)生和處理高質(zhì)量數(shù)據(jù)。吳明輝表示,明略數(shù)據(jù)專注于數(shù)據(jù)本身的挖掘,在公司成立早期就希望把大數(shù)據(jù)往人工智能方向去應(yīng)用,不管是做大數(shù)據(jù),還是做數(shù)據(jù)本身的挖掘,以及利用挖掘數(shù)據(jù)去做人工智能的訓(xùn)練樣本,因?yàn)榇髷?shù)據(jù)和人工智能之間的關(guān)系非常緊密。
吳明輝在研究生時(shí)的專業(yè)方向是人工智能里比較特殊的行業(yè)生物特征識(shí)別,包括指紋掌紋識(shí)別和靜脈識(shí)別等,同今天火爆的人臉識(shí)別一樣,都屬于圖像處理領(lǐng)域。雖然計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)大熱,明略數(shù)據(jù)沒(méi)有改變技術(shù)策略的意思。吳明輝認(rèn)為,數(shù)據(jù)準(zhǔn)備的不足,是當(dāng)前企業(yè)應(yīng)用人工智能/機(jī)器學(xué)習(xí)的主要挑戰(zhàn)。例如無(wú)人車也需要大量的試車數(shù)據(jù)不斷地測(cè)試算法。在整個(gè)采訪過(guò)程中,他也一直強(qiáng)調(diào),“先要把數(shù)據(jù)處理,數(shù)據(jù)處理不好任何事都無(wú)從談起。”他認(rèn)為,當(dāng)前應(yīng)該花更多的時(shí)間從互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)找到合適的數(shù)據(jù)并清洗干凈,用來(lái)實(shí)現(xiàn)人工智能。
當(dāng)然,有了數(shù)據(jù),還需要把好的算法應(yīng)用在數(shù)據(jù)上,同時(shí)在業(yè)務(wù)場(chǎng)景上面形成反饋系統(tǒng)——如果沒(méi)有一個(gè)很好的應(yīng)用形式,只有原始的數(shù)據(jù),最后不一定能形成自我改進(jìn)的更新?lián)Q代的能力,如AlphaGo在全世界每年公開(kāi)的有限的9段棋手棋譜之外,還要自我PK無(wú)數(shù)輪形成大量的反饋,然后從中尋找輸贏的原因改進(jìn)。
目前人工智能/機(jī)器學(xué)習(xí)算法在工業(yè)界里應(yīng)用比較好的領(lǐng)域,也是用戶量很大,有大量的學(xué)習(xí)樣本和訓(xùn)練數(shù)據(jù),并且具有重復(fù)性,在應(yīng)用的過(guò)程中能夠給出算法的評(píng)價(jià),能形成閉環(huán),不斷地改進(jìn)優(yōu)化。例如搜索排序算法、電子商務(wù)推薦算法,有自己數(shù)據(jù)的閉環(huán);如科大訊飛的語(yǔ)音識(shí)別,也是由科大訊飛語(yǔ)音輸入法收集識(shí)別錯(cuò)誤的數(shù)據(jù),形成一個(gè)閉環(huán)。
所以,一開(kāi)始的核心是準(zhǔn)備數(shù)據(jù),后期的核心就是創(chuàng)造應(yīng)用。吳明輝表示,未來(lái)的研發(fā)模式一定是協(xié)作的、開(kāi)源的模式,人工智能算法將不是什么神奇的事。
明略數(shù)據(jù)的研發(fā)路線
吳明輝詳細(xì)介紹了明略數(shù)據(jù)的定位、策略和研發(fā)重心。他的目標(biāo)很簡(jiǎn)單,就是首先幫助客戶把數(shù)據(jù)都做好準(zhǔn)備,利用這些數(shù)據(jù)給各行各業(yè)實(shí)現(xiàn)人工智能,當(dāng)然在這個(gè)過(guò)程中也要用一些人工智能的算法。
聚焦垂直領(lǐng)域
吳明輝表示,目前數(shù)據(jù)挖掘的市場(chǎng)更大,明略數(shù)據(jù)的定位是在各個(gè)不同的企業(yè)里去應(yīng)用,從底層的數(shù)據(jù)存儲(chǔ)/清洗/治理到上層的關(guān)聯(lián)關(guān)系挖掘,以及后面的機(jī)器學(xué)習(xí),都要聚焦在幾個(gè)垂直的領(lǐng)域,全套的服務(wù),既有大數(shù)據(jù)又有人工智能——所有想做人工智能的客戶,第一件事情肯定是把數(shù)據(jù)弄好。他解釋說(shuō),企業(yè)級(jí)服務(wù)如果不能聚焦在垂直領(lǐng)域,最后就變成一個(gè)純粹的企業(yè)級(jí)軟件,從目前的趨勢(shì)來(lái)看,最后的競(jìng)爭(zhēng)對(duì)手就不是市場(chǎng)和企業(yè),而是開(kāi)源社區(qū),這不是一個(gè)靠譜的商業(yè)模式,至少在中國(guó)如此。
明略數(shù)據(jù)聚焦的垂直領(lǐng)域,最重要的方向是公共安全,其他領(lǐng)域還包括金融、稅務(wù),制造業(yè)領(lǐng)域等——明略的目標(biāo)是要在公安領(lǐng)域?qū)崿F(xiàn)最牛的警察,在金融領(lǐng)域?qū)崿F(xiàn)最牛的風(fēng)險(xiǎn)控制師、審貸員,在醫(yī)療領(lǐng)域?qū)崿F(xiàn)最牛的醫(yī)生……吳明輝介紹,在制造業(yè)已經(jīng)有為某大型制造企業(yè)基于設(shè)備數(shù)據(jù)和深度學(xué)習(xí)做故障的檢測(cè)和預(yù)測(cè)的初步探索。吳明輝表示,這雖然是最簡(jiǎn)單的工作,但是最后的目標(biāo)會(huì)非常令人興奮。
以數(shù)據(jù)治理為核心
明略數(shù)據(jù)現(xiàn)階段的研發(fā)重心,吳明輝表示還在數(shù)據(jù)治理,其中又比較專注關(guān)聯(lián)數(shù)據(jù)挖掘——目前企業(yè)有各種各樣的散亂的數(shù)據(jù)存在不同的系統(tǒng)里,明略數(shù)據(jù)要把它們聯(lián)系起來(lái),并把那些顯性的和隱性的關(guān)聯(lián)關(guān)系挖掘出來(lái),比如在公安系統(tǒng),把存在不同系統(tǒng)里的酒店數(shù)據(jù)、航班數(shù)據(jù)、通訊數(shù)據(jù)、地圖數(shù)據(jù)等連起來(lái),根據(jù)某幾個(gè)人經(jīng)常一同出行,通過(guò)算法推斷出他們是同事或者朋友。吳明輝認(rèn)為,把數(shù)據(jù)治理好并做關(guān)聯(lián)關(guān)系的挖掘,把數(shù)據(jù)真的連接起來(lái),會(huì)對(duì)將來(lái)人工智能的實(shí)現(xiàn)有巨大的幫助。
吳明輝也舉例介紹了具體的人工智能技術(shù)在這個(gè)過(guò)程中的應(yīng)用。比如人工智能里面很重要的自動(dòng)分類,在處理公安局的數(shù)據(jù)時(shí),需要對(duì)案件筆錄文檔做分類、聚類各種分析。所以目前的工作雖然還沒(méi)有到真正的把最終的智能展現(xiàn)出來(lái),但是也在向著人工智能的目標(biāo)前進(jìn)。
明略數(shù)據(jù)B輪融資之后,研發(fā)方向仍然專注這些領(lǐng)域,當(dāng)然還有一部分用于吸納更多優(yōu)秀的研發(fā)工程師作為前端的駐場(chǎng)科學(xué)家,深入到客戶一線去了解客戶業(yè)務(wù)流程和實(shí)際需求,然后才能把數(shù)據(jù)的價(jià)值在客戶那真正的變現(xiàn)。
明略數(shù)據(jù)技術(shù)框架
明略數(shù)據(jù)整個(gè)底層的核心開(kāi)發(fā)是基于開(kāi)源的,采用Apache Hadoop、Apache Spark、Apache Kylin等開(kāi)源的項(xiàng)目,同時(shí)也在這些開(kāi)源項(xiàng)目上在做積極的貢獻(xiàn)。但是應(yīng)用層面,在行業(yè)里面的所有解決方案都不考慮開(kāi)源,不過(guò)將來(lái)也會(huì)對(duì)合作伙伴做一定程度的開(kāi)放,因?yàn)槠髽I(yè)級(jí)的市場(chǎng)服務(wù)太大。吳明輝認(rèn)為,產(chǎn)品的價(jià)值價(jià)格是跟獨(dú)特性掛鉤的,真正有價(jià)值的部分一定是花大量的時(shí)間精力做了很多很重要的工作,才有可能賺到很多錢。明略數(shù)據(jù)的研發(fā)策略和商業(yè)策略會(huì)完全一致。
談到明略數(shù)據(jù)技術(shù)的優(yōu)勢(shì),吳明輝表示,包括最核心的幾款產(chǎn)品:
MDP,一個(gè)非常適合做海量數(shù)據(jù)的數(shù)據(jù)挖掘的Hadoop發(fā)行版,明略數(shù)據(jù)投入了很多的力量去做安全的模塊,比如高可用,安全的權(quán)限管理等。
DataInsight,一個(gè)分布式的數(shù)據(jù)挖掘系統(tǒng)(可以理解為一個(gè)分布式的SAS或者SPSS),明略數(shù)據(jù)自己也是這個(gè)產(chǎn)品的用戶。
拳頭產(chǎn)品SCOPA,做關(guān)聯(lián)關(guān)系挖掘,包括上面的可視化,在公安領(lǐng)域里面有非常好的應(yīng)用,明略數(shù)據(jù)投入一半的研發(fā)人員在SCOPA上。
研發(fā)挑戰(zhàn)分析
對(duì)于未來(lái)的技術(shù)研發(fā)挑戰(zhàn),吳明輝認(rèn)為主要在如下兩個(gè)方面:
整個(gè)IT市場(chǎng)和數(shù)據(jù)市場(chǎng)特別嚴(yán)重的碎片化/多樣化,不同的客戶數(shù)據(jù)的這個(gè)規(guī)范接口完全不一樣,需要會(huì)花很多精力。
反饋系統(tǒng)的場(chǎng)景,本質(zhì)上是研發(fā)和客戶的業(yè)務(wù)如何深入結(jié)合的挑戰(zhàn)——客戶肯定不懂技術(shù),需要把研發(fā)同學(xué)培養(yǎng)得懂業(yè)務(wù)。
他不認(rèn)為云廠商的人工智能API會(huì)和明略數(shù)據(jù)形成競(jìng)爭(zhēng)關(guān)系,因?yàn)槊髀詳?shù)據(jù)是在做真正的業(yè)務(wù)級(jí)的應(yīng)用,云廠商可以提供自動(dòng)分類算法服務(wù),或者類似Hadoop as a Service這樣的東西。但是對(duì)明略數(shù)據(jù)來(lái)講,真正的應(yīng)用是公安能不能破案。同時(shí),很多領(lǐng)域目前對(duì)公有云也很難接受,因?yàn)檎嬲婕暗絿?guó)計(jì)民生的數(shù)據(jù)需要非常謹(jǐn)慎地處理。
研發(fā)團(tuán)隊(duì)管理
明略數(shù)據(jù)公司是近三百人,其中研發(fā)團(tuán)隊(duì)占70%以上,而且他們并非普通工程師,其中很多人來(lái)自全球知名高校的,有豐富的工作經(jīng)驗(yàn),同時(shí)又擁有很強(qiáng)的數(shù)學(xué)基本功的一群人。吳明輝表示,不管是處理數(shù)據(jù),還是未來(lái)做人工智能,都是需要有數(shù)學(xué)功底的,明略數(shù)據(jù)在這方面要求很深,這樣的文化也很容易形成群聚效應(yīng)。
對(duì)于團(tuán)隊(duì)的協(xié)作,吳明輝強(qiáng)調(diào),底層的技術(shù)架構(gòu)要盡量統(tǒng)一,因?yàn)榧夹g(shù)架構(gòu)決定的是軟件運(yùn)行的兼容性,但是上面具體的算法,需要去尊重每個(gè)人自己的創(chuàng)造力,選擇最優(yōu)的辦法,就是用結(jié)果說(shuō)話,比如金融征信的算法,最后誰(shuí)的準(zhǔn)確率、查詢率高,就先拿過(guò)來(lái)用。同時(shí),明略數(shù)據(jù)內(nèi)部團(tuán)隊(duì)的管理模式采用技術(shù)合伙人制,小團(tuán)隊(duì)作戰(zhàn),每個(gè)團(tuán)隊(duì)領(lǐng)導(dǎo)都叫技術(shù)合伙人,他們之間都是平級(jí)的。
研發(fā)出身的吳明輝,盡管對(duì)寫(xiě)代碼很有熱情,但他目前更多關(guān)注的是產(chǎn)品而不是代碼。他表示:
技術(shù)研發(fā)的管理者更要去看團(tuán)隊(duì)的建設(shè),因?yàn)楫?dāng)研發(fā)團(tuán)隊(duì)大到一定規(guī)模時(shí),研發(fā)Leader和底層的研發(fā)工程師水平就決定了最后的代碼質(zhì)量,如果能確保他們的水平,就不用擔(dān)心代碼了。
做企業(yè)級(jí)的服務(wù),不能光有一堆技術(shù)天才,把產(chǎn)品做出來(lái),還需要讓客戶接受和應(yīng)用,同時(shí)把他們的所有的需求都進(jìn)一步地迭代到你的系統(tǒng)里面。
開(kāi)發(fā)者的啟示
曾獲過(guò)許多國(guó)際的算法大獎(jiǎng)的吳明輝,介紹了他對(duì)一個(gè)好的人工智能算法的理解:
從學(xué)術(shù)論文和比賽來(lái)看,好算法要求形式、理論的優(yōu)美,但是效果也沒(méi)辦法驗(yàn)證,因?yàn)槊總€(gè)人的實(shí)驗(yàn)環(huán)境、實(shí)驗(yàn)結(jié)構(gòu)不一樣。
在企業(yè)里,需要低成本、務(wù)實(shí)地解決問(wèn)題,算法工程師通常不關(guān)心數(shù)學(xué)公式是不是優(yōu)美,也不關(guān)心算法是否高大上,就追求準(zhǔn)確率和性能,以及二者的平衡,比如在手機(jī)端和云端運(yùn)行的圖像處理算法,就是不一樣的處理方式,云端可以用幾千萬(wàn)的數(shù)據(jù)進(jìn)行深度學(xué)習(xí)訓(xùn)練。
對(duì)于人工智能技術(shù)對(duì)開(kāi)發(fā)者的影響,吳明輝表示,非人工智能專業(yè)的開(kāi)發(fā)者,不需要所有人學(xué)習(xí)人工智能算法,因?yàn)檫@些算法今天有很多開(kāi)源的開(kāi)發(fā)包,知道怎么去用就可以,背后的原理、數(shù)據(jù)公式的推導(dǎo)、具體的實(shí)現(xiàn)沒(méi)必要懂。
來(lái)源: 海峽法治在線
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新