百度開放云總經(jīng)理劉煬:我們希望以開放的方式助力企業(yè)應(yīng)用創(chuàng)新
劉煬 | 2016-05-19 09:20
【數(shù)據(jù)猿導(dǎo)讀】 劉煬在演講中講到,隨著大數(shù)據(jù)的出現(xiàn)和人工智能對數(shù)據(jù)的饑渴,對底層架構(gòu)會比過去上升了很多量級,未來對云計算是超大規(guī)模的數(shù)據(jù)量。所以我們希望通過一個百度開放云的方式將百度所有的云計算、大數(shù)據(jù)、人工智能這些領(lǐng)域及能力對外開放,希望能夠助力企業(yè)應(yīng)用創(chuàng)新

5月18日,由中國電子學(xué)會主辦,ZD至頂網(wǎng)協(xié)辦的第八屆中國云計算大會在北京國家會議中心隆重舉辦。在下午的主會場上,百度開放云總經(jīng)理劉煬做了主題為“百度開放云助力企業(yè)應(yīng)用創(chuàng)新”的精彩演講。
劉煬在演講中講到:“隨著大數(shù)據(jù)的出現(xiàn)和人工智能對數(shù)據(jù)的饑渴,對底層架構(gòu)會比過去上升了很多量級,未來對云計算是超大規(guī)模的數(shù)據(jù)量。所以我們希望通過一個百度開放云的方式將百度所有的云計算、大數(shù)據(jù)、人工智能這些領(lǐng)域及能力對外開放,希望能夠更好地服務(wù)于客戶,和更多的合作伙伴一起來共建更加繁榮的人工智能的生態(tài)。”
以下是劉煬的演講實錄:
劉煬:各位嘉賓下午好。今天非常榮幸能夠到這云計算的大會上來跟大家分享,百度在云上的大數(shù)據(jù)和人工智能方面的思考和進展。首先介紹一下我個人是百度開放云的總經(jīng)理劉煬。百度開放云是百度所推出公有云的業(yè)務(wù)。大家知道公有云這幾年也是非常非常的熱。百度在公有云,雖然我們云計算做了16年,但是公有云應(yīng)該是一個后來者。那我們在云計算這個領(lǐng)域里面,我們的領(lǐng)先優(yōu)勢會在什么地方?今天也是借這機會跟大家分享一下,我們在大數(shù)據(jù)和人工智能這個領(lǐng)域的一些思考。
大家知道MIT,從2011年開始,每年都會發(fā)布世界上十大的突破技術(shù),這十大突破技術(shù)的話,為face一方面技術(shù)有重大的突破,另一方面確實人們的生活產(chǎn)生一個巨大的影響。今年十大影響包括免疫工程、包括基因、包括語音、包括可回收的火箭,包括知識分享型的機器人,DNA的應(yīng)用商店,超級工廠,特斯拉的自動駕駛還有空中取電,我們可以感到有一個趨勢,就這一些技術(shù)里面。當(dāng)然每一個技術(shù)其實十大創(chuàng)新每一個都離不開大數(shù)據(jù)云計算,但是其中是以云計算、大數(shù)據(jù)、人工智能為核心的技術(shù)突破。特別是像生物的領(lǐng)域,免疫工程、DNA、基因等等。像人工智能的話,語音、自動駕駛?cè)缓笾R分享型的機器人等等,這些都是屬于大數(shù)據(jù),在人工智能這領(lǐng)域一個特別大的突破。
當(dāng)然百度也非常榮幸在這一個十大技術(shù)突破里面的話,它每一個技術(shù)突破都提到了一些公司。百度是唯一被提到中國公司。那在哪里提到百度,在語音識別這一個領(lǐng)域,百度會被提到。所以今天來到大數(shù)據(jù)和人工智能已經(jīng)在不段突破的階段,具體來看大數(shù)據(jù)發(fā)生什么事情,人工智能在發(fā)生一些什么事情。大數(shù)據(jù)其實應(yīng)該是從大約十年前開始熱起來,已經(jīng)熱了一段時間。而且我們也看到的話,今天來講大數(shù)據(jù)基本上所有的互聯(lián)網(wǎng)公司,沒有哪怕一般家互聯(lián)網(wǎng)公司說自己不是做大數(shù)據(jù)的。所有的互聯(lián)網(wǎng)公司都說自己在做大數(shù)據(jù),百度毫無疑問也是在做大數(shù)據(jù),我們看到一個現(xiàn)象,大數(shù)據(jù)這一個技術(shù),今天已經(jīng)是相對成熟,而且已經(jīng)在大量的領(lǐng)域里面開始應(yīng)用了。這里舉了幾個例子,百度外賣,百度外賣大家知道是一個O2O的業(yè)務(wù),里面牽涉到非常多的騎著摩托車,接到訂單之后,會到飯店把這拿好開著車給用戶送到家里面去,從基因上來講,完全跟百度的基因不符合,百度是做一個搜索的公司為什么去做外賣,那在外賣領(lǐng)域百度有什么優(yōu)勢,大數(shù)據(jù)到底對外賣有什么幫助?但實際上大數(shù)據(jù)對外賣非常非常幫助,以百度外賣的例子,它的思路非常非常簡單,因為大家外賣這領(lǐng)域競爭也非常激烈,百度外賣是做有品質(zhì)的外賣,所以我們的針對群體是相對高端一點的白領(lǐng)人群、相對安全、衛(wèi)生有保障這樣的餐廳。
那百度外賣怎么樣切入?其實用到非常多的大數(shù)據(jù),因為百度有地圖,從百度地圖里面的話我們有非常多的數(shù)據(jù),我們知道每一個寫字樓它的用戶流量多大,什么樣的人群經(jīng)常去這一些大樓,這些人群一般情況下到什么地方去消費,所以這信息可以快速的找到哪一些大樓事實上是高端人群的大樓。哪一些飯店事實上是相對高端的飯店,因為我們有糯米這樣的業(yè)務(wù),我們知道每一個飯店它大致的價位,這數(shù)據(jù)可以幫助我們做非常好的營銷,我們知道地推我到什么大樓里面去做地推,我到什么地方去找這樣的飯店群。除此之外我們的大數(shù)據(jù)可以預(yù)測每一個大樓,它每天的需求是多少,每一個飯店它一般的供應(yīng)量多少。所以我們可以調(diào)度更多的騎士到什么地方等單。再加上大數(shù)據(jù)可以幫助調(diào)度,什么樣的路徑是最短的?可以一路送更多的餐,所以大家其實可以看到百度本身雖然在O2O領(lǐng)域沒有什么樣的背景,但是因為大數(shù)據(jù)的能力,以及大數(shù)據(jù)跟業(yè)務(wù)本身的結(jié)合,這些東西的話,使得百度在短短時間之內(nèi),成為中國最大的外賣平臺之一。
這是一個例子,其他例子很多,像百度地圖實時路礦、擁堵的預(yù)測等等。那像百度金融這也不是百度的基因,百度金融我們也是國金證券推出大數(shù)據(jù)量化基金,這大數(shù)據(jù)量化基金用一些什么樣的特征預(yù)示經(jīng)濟走勢,這就不好說有一些特征一說出來之后就沒用了。所以我們其實剛才看到的話,大數(shù)據(jù)這個領(lǐng)域的話,今天來講其實已經(jīng)是一個成熟的領(lǐng)域,已經(jīng)在大規(guī)模應(yīng)用。但是人工智能我們可以看到最近這幾年特別熱。其實人工智能這個名字的話,它這名字出來是遠遠早于大數(shù)據(jù)這個名字出來,大數(shù)據(jù)名字出來我們十年以內(nèi)才形成大數(shù)據(jù)的概念。人工智能事實上60年前就已經(jīng)有了。但為什么人工智能最近這幾年這么這么熱?最近像阿爾法狗全世界人都知道,這是人工智能做的最好一個廣告。其中一個核心要素是在人工智能這領(lǐng)域有一個新的算法突破。就是說深度學(xué)習(xí)引領(lǐng)了人工智能的突破。深度學(xué)習(xí)的話其實用了神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)本身也不是一個新東西,也好多年,為什么這幾年這么熱?其中根本的原因是跟數(shù)據(jù)計算能力相結(jié)合。深度學(xué)習(xí)只是人工智能非常多算法一個而已,那這一個算法跟以前的算法有什么區(qū)別?為什么它的這一個影響力這么大。其中核心的一點,其實在這張圖里面大家可以看出來,這一張紅色的線是歷史上很多的人工智能算法,大家知道任何一個東西的話,都有一個邊際效應(yīng),過去的算法隨著數(shù)據(jù)量的增大,這邊際效應(yīng)事實上到了某一個數(shù)據(jù)量的時候,邊際量就沒有了幾乎的話它不能夠隨著你數(shù)據(jù)的增多,而把這效果做的更好。
深度學(xué)習(xí)這算法跟過去算法一個最大的不同,它使得數(shù)據(jù)量增大的邊際效應(yīng)剔減拐點大大向后面推,基本上有越多的數(shù)據(jù)就可以獲得越好的結(jié)果,這一點在過去到了一定數(shù)據(jù)量以上,你再做數(shù)據(jù)也沒有用。這一個照片是百度首席科學(xué)家,他有一句話說深度學(xué)習(xí)火箭的燃料是引擎才可以升空。
所以說深度引擎的算法跟過去算法非常大的不同。
那剛才也提到百度語音技術(shù),是在十大突破里面被提到,我們其實語音技術(shù)上做了什么樣的突破?大家對語音技術(shù)熟悉的話,可能知道語音技術(shù)過去其實是基于模型像馬爾凱夫一樣,從音素模型到語音模型。這樣的一個分層模型使得計算各個模型方面也會很簡單,百度在這個MIT所提到技術(shù)的話,我們)就不再去細分聲學(xué)模型、音素模型,而直接用深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)做AND TO AND的量,它的數(shù)據(jù)量很多但是實際效果也會提升非常非常多。
另外一個領(lǐng)域百度在人工智能上其實在做大規(guī)模的投入,是在自動駕駛,自動駕駛事實上大家知道它非常多的領(lǐng)域用到人工智能,從這高精地圖,我們一般地圖分辨率10厘米,高精厘米級,所以每一道分道非常非常清楚。另外一輛車它想不想超車會不會切進來都是分析,可能未來無人駕駛是通過語音我要快一點、慢一點,我要趕幾點飛機你將幾點到達。圖像、視頻識別更沒有疑問,因為今天在無人車太貴,但是更多的我們相信視頻這一個是非常非常重要的。所以我們需要識別人、識別物品。所以這是人工智能綜合的應(yīng)用,但這應(yīng)用事實上對底層要求非常高萬億級的參數(shù),甚至我們未來還會提升一個數(shù)量級。所以我們看到人工智能和大數(shù)據(jù)它今天發(fā)展,很重要的一點它其實對底層的計算需求,有一個非常非常大的提升它其實超出了以前我們的想象,剛才提到的百度語音(英文)對底下的計算資源要求非常非常多,因為我們需要處理2.4億次的語音識別和語音合成這樣的請求,因為我們今天對外提供語音的服務(wù),為了支撐這樣一個量,今天我們使用上千臺服務(wù)器來進行這一個模型的訓(xùn)練。而且我們在這領(lǐng)域里面的話,大量使用了易購的框架,使用了GPU,所以底層的資源需求非常非常大。
計算機視覺我們今天處理百億級、千億級,也使用上千塊的CPU來解決等等這樣很多的服務(wù)。廣告點擊的這其實是百度早期用的比較早領(lǐng)域,就在需要使用機器學(xué)習(xí),因為它使用大量的預(yù)估和預(yù)測,今天也切到深度學(xué)習(xí)的模型,所以也支持千億樣本和千億特征。所以這里用的資源是更多,今天我們超過一萬臺服務(wù)器,事實上是用于CPI的跟廣告相關(guān)的機器學(xué)習(xí)。 往精準用戶方向的話就不詳細介紹,我們也會對用戶行為分析之類的。
我們看到就是說人工智能和大數(shù)據(jù)對底層的技術(shù)架構(gòu)其實有非常非常多的需求,那如果是說我今天這PPT里面有一些東西真的是干貨,很多在這一頁PPT里面,這基本講的就是說,為了支撐這樣子的需求,百度在云技術(shù)基礎(chǔ)架構(gòu)我們做了一些什么樣的投入、我們做了一些什么樣的事情。大家知道要支撐這樣的大數(shù)據(jù)和人工智能的能力,首先對底層我們要數(shù)據(jù)中心,百度今天的話有幾十萬臺服務(wù)器,那我們有租用的數(shù)據(jù)中心,我們也有自己建,也有跟運營商合建的數(shù)據(jù)中心。我們今天能夠提供年平均的PUE最佳可以到1.22,這在中國最先進,我們也連續(xù)獲得了相關(guān)的獎項。因為畢竟大家知道特別在北京,我們每天生活在,我們希望每天都是APEC藍,那對環(huán)保這東西事實上也是百度很在乎的社會責(zé)任。
另外的話在云計算時代的話,這數(shù)據(jù)不斷的增加,所以你機器也要不斷的增加,怎么樣讓你數(shù)據(jù)中心隨著你的需求快路的擴張。所以我們今天數(shù)據(jù)中心支持模塊化的數(shù)據(jù)中心設(shè)計,也就是很多的模塊化你可以在工廠里面裝配好,再到數(shù)據(jù)中心搭配起來這數(shù)據(jù)中心就可以用,我們在供電離線的直流供電,就一主一備。這核心的好處,過去往往是雙交流,它這電使用率可能只有90%左右,今天使用新的技術(shù)可以做到95%。而且百度自然的冷卻,比方說高原地方或者是說北方這些地方的溫度比較低,我們可以用自然的風(fēng)冷來進行冷卻。有了這數(shù)據(jù)中心,上面免不了談計算、儲存和網(wǎng)絡(luò)。
計算為了支持超大規(guī)模的機器學(xué)習(xí)、人工智能這樣平臺,我們今天是支持國內(nèi)規(guī)模最大的深度學(xué)習(xí)的集群。我們的機器交互也是準機柜,一個機柜的機器全部在廠商那邊生產(chǎn)好,可以快速的上架,我們供貨一天的話可以上架一萬臺以上的機器。那百度的話也是一個領(lǐng)導(dǎo)者,我們今天是中國整機柜量最大的公司。
我們談?wù)剝Υ?,剛才前面許總也提到,視頻是一個非常非常大的量。我們確實也看到的話,現(xiàn)在儲存的需求增長非常非???,百度是提供百度云盤的個人儲存服務(wù),每個人有3T的儲存服務(wù)空間,今天百度是個人儲存?zhèn)€人云的平臺。我們今天在云上面的儲存數(shù)據(jù)超過了1個EB,用什么樣的技術(shù)支撐這樣的大的需求,百度在儲存方面從硬件到軟件都是自己設(shè)計的,我們今天使用的是特別高密的儲存,每一臺機器里面可能40塊硬盤,每一個硬盤8個T,一個機架超過7個P的數(shù)據(jù)。你可以想象一個機柜的話,是非常非常重。因為我們用這么高密度的儲存,事實上對我們整個數(shù)據(jù)的中心設(shè)計都提出要求,一般的只要1.2噸,我們百度1.5噸以上甚至更高。所以都是這些技術(shù)支撐高密度的儲存,所以我們才可以提供免費的云盤服務(wù)。
因為這么多的硬盤,那運維其實非常非常難,我們在硬盤的運維也使用很多人工智能的技術(shù),我們會對磁盤故障進行預(yù)測,我們每一臺磁盤上會有很多的指標(biāo),我們根據(jù)這指標(biāo)預(yù)測,這磁盤是不是壞了,如果壞了我提前就把數(shù)據(jù)進行遷移等等。所以我們今天磁盤故障修復(fù)率可以自動修復(fù)50%,預(yù)警就是在它壞之前98%以上,這樣可以把數(shù)據(jù)進行遷走,也不需要后續(xù)更加昂貴的數(shù)據(jù)修復(fù)。在網(wǎng)絡(luò)領(lǐng)域我們支持SDN軟件定義的網(wǎng)絡(luò),我們支持萬兆的接入。
更重要的我們在跨數(shù)據(jù)中心的傳輸?shù)脑捠且粋€很重要的事情。我們今天跨數(shù)據(jù)中心PB級別,我們南和北之間帶寬是非常非常高的。再往上的話是分布式系統(tǒng),我們今天的話有超過1.3萬臺的集群的單機集群,但是我們設(shè)計可以超過2萬臺,只是我們應(yīng)用1.3萬臺,我們支持在離線的,因為很多的業(yè)務(wù)是把在線計算和離線計算完全分開,在線路就要是滿足用戶快速來,它對文LEDS要求很高。但是大量的資源會被浪費,為什么?在線的業(yè)務(wù)到了網(wǎng)上可能就沒有用了,這時候大量的資源是空閑在那地方。百度的話事實上我們今天是把在線和離線混合在一起,也就是說在線業(yè)務(wù)我們首先保證它的響應(yīng)要求,所以這聽起來很簡單,但事實上對隔離技術(shù)非常非常高,怎么樣保證你的離線業(yè)務(wù)不會影響你的在線響應(yīng)時間。
我們對象儲存剛才提到EB級別的對象儲存。而且搜索網(wǎng)頁庫也是結(jié)構(gòu)化,也支持EB級搜索網(wǎng)頁化結(jié)構(gòu)化的儲存。所以后臺技術(shù)這朵云計算才有可能支撐上面大數(shù)據(jù)和人工智能。今天的話我們百度開放云目標(biāo)是希望把剛才提到的不管是云計算這層面的能力,還是大數(shù)據(jù)層面的能力,還是人工智能的能力,對外進行開放。在這些能力之上的話,事實上就有各種各樣的應(yīng)用包括營銷,大家知道營銷的話,事實上是大數(shù)據(jù)使用非常非常多的。因為你有大量的用戶行為,有大量的轉(zhuǎn)化數(shù)據(jù)要進行判斷,然后要進行預(yù)估、進行競價等等。所以它是一個很典型的對大數(shù)據(jù)和人工智能要求的領(lǐng)域,百度在數(shù)字營銷也是最擅長,所以今天在開放云上提供非常好的營銷云的解決方案。
媒體云,那前面也提到,今天來講視頻、不管是音頻、視頻、直播等等。今天的話是一個增長非常非常快的領(lǐng)域。我們其實也發(fā)現(xiàn),我們在百度云盤上就個人云盤上,絕大多數(shù)的數(shù)據(jù)是多媒體,要么的話是拍攝、要么的話是各種各樣的電影、然后音頻文件等等。左翼媒體在這里面其中出現(xiàn)第一大需求就是儲存。第二大需求是什么呢?今天在直播的時代,第二大需求是分發(fā),我怎么樣把這媒體的內(nèi)容分發(fā)出去,讓其他人可以看到,讓更多的用戶可以看到,或者朋友看到,所以分發(fā)出去是第二大需求。第三大需求事實上媒體內(nèi)容的處理。包括像轉(zhuǎn)碼,包括像視頻的壓縮,包括像視頻里面的一些內(nèi)容分析。剛才講了比方說人臉識別是一個很強的需求,這些都會在媒體云上進行對外開放。
物聯(lián)網(wǎng)云,其實大家知道物聯(lián)網(wǎng)是一個大數(shù)據(jù)的業(yè)務(wù),未來的話物聯(lián)網(wǎng)會是數(shù)據(jù)增加的一個主要驅(qū)動力。所以在這一塊也會使用大量的大數(shù)據(jù)這方面的需求。
政企云今天來講是我們探索的領(lǐng)域,我們現(xiàn)在發(fā)現(xiàn)政府其實有非常多的數(shù)據(jù)。企業(yè)也是有非常多的數(shù)據(jù)。當(dāng)然這些數(shù)據(jù)怎么樣公有云上用的更好,我相信這是一個過程,我們一起來跟企業(yè)進行混合云的方案,希望將互聯(lián)網(wǎng)的技術(shù)也可以帶到政企去,用互聯(lián)網(wǎng)的技術(shù)提升所有這些政企的,在互聯(lián)網(wǎng)+時代的效率。
所以回顧以上的話,今天我們看到的話就是說大數(shù)據(jù)已經(jīng)開始在成熟,大數(shù)據(jù)今天來講,中國可能最缺的大數(shù)據(jù)人才把大數(shù)據(jù)用好,技術(shù)很多的技術(shù)已經(jīng)成熟,大數(shù)據(jù)這領(lǐng)域可能面臨最大的挑戰(zhàn),不是在于現(xiàn)在手頭上有沒有工具有沒有什么,大數(shù)據(jù)最大的挑戰(zhàn)當(dāng)大大數(shù)據(jù)出現(xiàn)的時候,當(dāng)那數(shù)據(jù)量已經(jīng)遠遠超過我們手上處理量的時候,有沒有更好的辦法,特別是基因這領(lǐng)域,那個數(shù)據(jù)量比我們今天看到的數(shù)據(jù)量又大了那幾個量級,那是大數(shù)據(jù)最大的挑戰(zhàn),但是大數(shù)據(jù)今天挑戰(zhàn)是應(yīng)用。人工智能我們可以看到在突破,特別是深度學(xué)習(xí)這算法,在很多領(lǐng)域突破,我們相信像語音、像自動駕駛這些領(lǐng)域的話,會首先讓大家看到深度學(xué)習(xí)這樣的能力。再往后的話當(dāng)然也是更多的應(yīng)用。
另外我們可以看到的話,隨著剛才講的大數(shù)據(jù)的出現(xiàn)或者是人工智能對數(shù)據(jù)饑渴出現(xiàn),對底層架構(gòu)又會比過去上升了量級,未來對云計算是超大規(guī)模、超大數(shù)據(jù)量。所以我們希望通過這一個百度開放云將百度所有云計算、大數(shù)據(jù)、人工智能這些領(lǐng)域能力對外開放的話,那希望是說能夠更好地服務(wù)于我們客戶,希望有更多的合作伙伴可以跟我們一起來共建更加繁榮的人工智能的生態(tài),好,謝謝大家。
來源:ZD至頂網(wǎng)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重