百度開放云大數(shù)據(jù)平臺張琪:開源大數(shù)據(jù)系統(tǒng)運維不會永遠是核心競爭力
張琪 | 2016-05-20 09:45
【數(shù)據(jù)猿導(dǎo)讀】 百度高級產(chǎn)品經(jīng)理、百度開放云大數(shù)據(jù)平臺產(chǎn)品負責(zé)人張琪在接受記者采訪時表示,大數(shù)據(jù)的利用重要的是產(chǎn)生洞察力,而不是系統(tǒng)運維能力

在2016中國云計算技術(shù)大會(CCTC 2016,專題報道)上,百度高級產(chǎn)品經(jīng)理、百度開放云大數(shù)據(jù)平臺產(chǎn)品負責(zé)人張琪做了題為《大數(shù)據(jù)時代的數(shù)據(jù)倉儲實現(xiàn)技術(shù)實戰(zhàn)》的分享,并接受CSDN記者專訪,深入介紹百度在大數(shù)據(jù)平臺技術(shù)和產(chǎn)品化方面的實踐經(jīng)驗,包括在人工智能以及物聯(lián)網(wǎng)(IoT)相關(guān)的一些努力。
張琪認為,大數(shù)據(jù)的利用重要的是產(chǎn)生洞察力,而不是系統(tǒng)運維能力。百度開放云是百度技術(shù)輸出的窗口,對企業(yè)而言屏蔽了運維的需求,其上的大數(shù)據(jù)平臺提供各種大數(shù)據(jù)工具以靈活地應(yīng)對結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)處理的需求,并基于這些工具也搭建了一些大數(shù)據(jù)應(yīng)用,包括人工智能、物聯(lián)網(wǎng)的服務(wù)。未來,百度開放云會將托管集群服務(wù)PaaS化,并基于IDL的研究、百度的數(shù)據(jù)和訓(xùn)練提供更多的人工智能API。
百度高級產(chǎn)品經(jīng)理、百度開放云大數(shù)據(jù)平臺產(chǎn)品負責(zé)人張琪
張琪:百度是一家技術(shù)公司,希望通過百度開放云這個窗口把百度把技術(shù)輸出。我現(xiàn)在負責(zé)大數(shù)據(jù)的產(chǎn)品,包括托管Hadoop服務(wù)BMR、數(shù)據(jù)倉庫服務(wù)Palo和托管機器學(xué)習(xí)服務(wù)BML等;基于這些工具,我們還搭建了一些解決方案,用于數(shù)字營銷等各種業(yè)務(wù)場景。
CSDN:這些工具和產(chǎn)品的研發(fā)打磨,您認為最大的挑戰(zhàn)是什么?
張琪:百度開放云只是做云端的服務(wù),中國的整個企業(yè)和開發(fā)者,對于上云是有一些顧慮的,會由于不熟悉而產(chǎn)生一些想法,包括安全等。其實從整個產(chǎn)業(yè)往前看,云端是不可逆轉(zhuǎn)的趨勢,接受托管服務(wù)可以避免運維。按需購買,很快就能夠獲得一個集群,不像在企業(yè)內(nèi)部,從批預(yù)算、采購、搭建、部署,整個流程非常長,所以企業(yè)和開發(fā)者應(yīng)該更多地擁抱云端,更早地占據(jù)優(yōu)勢,在商業(yè)上占據(jù)先機。
另一方面,企業(yè)對開源技術(shù)感興趣,這是一個非常好的舉動,但到底是花費精力在運維上,還是通過這些技術(shù)來獲得企業(yè)的洞察力,找到一些別人沒有的知識?我認為后者才是核心,運維大數(shù)據(jù)平臺并不是核心競爭力——若干年前幫別人安裝一個Windows操作系統(tǒng)就能賺很多錢,放到現(xiàn)在就是笑話——大數(shù)據(jù)目前正處于這樣的時代,運維或者說踩一些坑看來是一個很高級的事情,這其實只是一個過程,最終還是要通過這些工具,把數(shù)據(jù)分析出別人所不知道的洞察力,這才是真正的核心價值。這也是需要(和用戶)溝通的。
CSDN:到目前為止,百度踩過的哪些坑讓您印象最為深刻?
張琪:百度的整個策略,要么我們提供開源產(chǎn)品的運維,如Elasticsearch、Hadoop等;要么是自研一些產(chǎn)品,同時提供一些開源兼容的接口,如Palo兼容MySQL。前者的坑會更多,開源產(chǎn)品的好處,是從代碼的層面來說是免費的,沒有成本,但真正使用的時候會有這樣那樣的坑。百度雖然不是那些開源技術(shù)的發(fā)明者,但是是最早的實踐者,在實踐上做了很多,根據(jù)業(yè)務(wù)的需要踩過各種各樣的坑,把這些坑填補之后,我們才放到開放云上提供托管服務(wù)??梢哉f百度踩過的坑不計其數(shù)。不說血淚史,我們希望跟用戶說的是,自己不要去踩,跟我們一起合作共同成長,我們會把坑踩了,把成熟的服務(wù)再分享給大家。
CSDN:把支撐百度內(nèi)部業(yè)務(wù)的技術(shù)和產(chǎn)品拿出來,做成能夠開放的托管服務(wù),還需要做一些附加的開發(fā)工作嗎?
張琪:那是肯定的。百度開放云背后的技術(shù),也是百度自己使用的技術(shù),但是由于百度有很多水平很高的工程師,能夠整天去運維,他們對產(chǎn)品的需求比較低,有一些小工具或者說有一些代碼自己開發(fā)就可以了。但是在云端使用的產(chǎn)品是完全不一樣的,比如說從一個系統(tǒng)產(chǎn)生的數(shù)據(jù),怎么灌到另外一個系統(tǒng)中去,這其中需要注意什么,這些就是百度在提供產(chǎn)品之外要提供的解決方案,把這些東西配套使用。打一個比方,產(chǎn)品就像是樂高積木,但積木怎么有機組合,真正地解決客戶業(yè)務(wù)場景中的問題,這是百度想要做的。
數(shù)據(jù)倉儲就是一個很典型的例子。有的用戶說我可以拿Hadoop做,有的用戶說用傳統(tǒng)關(guān)系型數(shù)據(jù)庫就能解決,但是兩者在技術(shù)上其實各有優(yōu)略,應(yīng)該怎么選型,能否結(jié)合起來使用,上面怎么用BI工具來做可視化的交互式查詢,這些坑,或者說這些結(jié)合,是百度很核心的商務(wù)能力。對于客戶來說,希望他們能夠真正地專注于自己的業(yè)務(wù),而不是說要到處去踩坑、選型,那不是他們核心的能力。真正能快速地解決企業(yè)的商務(wù)目的,這是百度開放云技術(shù)內(nèi)部使用和外部使用最大的不同,我們做的是2B的業(yè)務(wù)。
張琪:我是這樣理解的,傳統(tǒng)的數(shù)據(jù)倉庫非常成熟,是沒有問題的,但是百度是一個互聯(lián)網(wǎng)公司,我們做同樣的技術(shù),但是是不同的實現(xiàn)。
1、首先我們的關(guān)系型數(shù)據(jù)庫是基于MPP的,但是下面沒有定制的機器,用的是面向云端的商品化的硬件,就像Hadoop不一樣,下面是普通的x86機器,甚至我們可以用虛機來搭建這個系統(tǒng),所以成本是傳統(tǒng)技術(shù)的1/10,甚至更低。
2、在云端我們強調(diào)的是托管服務(wù),傳統(tǒng)采購集群硬件、采購軟件許可,要擴容的時候,整個流程會非常長,但是在云端,一個滾動條往右邊/左邊一滾,集群就可以擴容/縮容了,甚至業(yè)務(wù)不需要數(shù)據(jù)倉儲的時候可以把它給關(guān)掉,只支付使用部分的費用就可以了。
所以從整個的性價、敏捷性來說,云端的優(yōu)勢是更大的。
CSDN:百度開放云的數(shù)據(jù)倉儲還關(guān)注哪些特性?
張琪:以下幾點是我們在設(shè)計這個產(chǎn)品的時候看得比較重的。
1、MPP架構(gòu)已經(jīng)比較成熟,在云端我們還是結(jié)合托管服務(wù),整個運維都在百度開放云上,不需要企業(yè)操心,不像企業(yè)內(nèi)部使用Teradata或者類似的產(chǎn)品,需要專門的人來運維,做24×7×365的運維保證系統(tǒng)不間斷。
2、接口的兼容也是百度非常看重的一點。百度數(shù)據(jù)倉儲也是提供了MySQL的兼容,用MySQL Workbench直接就連上去,和連接MySQL是一樣的,所有的輸入查詢,結(jié)果就立刻出來。
3、和Hadoop集群的交互,我們覺得也是一個優(yōu)勢。有些傳統(tǒng)企業(yè)的做法,是通過一個一體機,可以用Hadoop,也可以用MPP,可以做交互,甚至可以做SQL的Duration,但我們在云端就比較的靈活,這邊是一個托管Hadoop集群做處理,那邊是一個托管的Palo,它們通過存儲來交互,這樣就把兩者的優(yōu)勢結(jié)合。
CSDN:還有一個比較重要的方面就是數(shù)據(jù)建模,百度有什么經(jīng)驗可以分享?
張琪:這個還是結(jié)合具體的場景。
1、傳統(tǒng)的企業(yè)數(shù)據(jù),如ERP和eHR里面的數(shù)據(jù),都是很結(jié)構(gòu)化的,這樣的數(shù)據(jù),建模的時候,還是按照傳統(tǒng)數(shù)據(jù)倉庫的星型模型建模,這樣的模型可以幾乎1:1打到Palo里面直接使用,報表工具或者BI工具,不用修改任何代碼就可以進行分析,但是速度會提高非常高的倍數(shù)。
2、弱結(jié)構(gòu)化的數(shù)據(jù),如日志、視頻、輿情等方面的數(shù)據(jù),更適合用Hadoop來處理,這個時候Hadoop的建模就不要多表,Hadoop上大多數(shù)的OLAP系統(tǒng)做JOIN其實不是擅長的。這樣的數(shù)據(jù)結(jié)構(gòu),索性做成一張大表(有一點冗余也沒問題,HDFS很便宜),然后分區(qū)來進行查詢,效果會比較好。
傳統(tǒng)的數(shù)據(jù)用結(jié)構(gòu)化的Palo,而新型的非結(jié)構(gòu)化或弱結(jié)構(gòu)化數(shù)據(jù)用Hadoop技術(shù),在做結(jié)構(gòu)化的處理之后,如果對查詢的速度要求更高,導(dǎo)入到Palo里面也是可以的。
CSDN:百度數(shù)據(jù)倉儲未來重點關(guān)注哪些技術(shù)?
張琪:我們今天很多的服務(wù)都叫做托管集群,如Hadoop集群、Palo數(shù)據(jù)倉庫集群,仍然可以看到集群的概念。百度會慢慢地是把很多技術(shù)要PaaS化,比如說在自己的Spark SQL集群上做一個復(fù)雜的查詢,首先需要先把計算能力擴容之后才能夠計算,我們有一個產(chǎn)品叫做BigSQL,你只要把數(shù)據(jù)放在存儲上,直接輸入query,就有可能用盡量多的資源進行快速計算,然后把結(jié)果給到你,我們把開源的產(chǎn)品PaaS化,之后不是按照集群來計費,而是按照使用來計算成本,這樣對于客戶來說成本就會低很多。
人工智能是百度非常大的特點。我們結(jié)合自己的優(yōu)勢,提供工具層次的和服務(wù)級別的產(chǎn)品。
1、BML是一個分布式機器學(xué)習(xí)運行框架,或者說托管服務(wù),提供了很多的機器學(xué)習(xí)模型,包括深度神經(jīng)網(wǎng)絡(luò)算法在里面。
2、百度有吳恩達的實驗室,我們很多時候把底下的算法,和用來訓(xùn)練的原始數(shù)據(jù),進行建模之后,把模型進行輸出。目前百度開放云上有圖像識別、語音識別等,將來會開放人臉識別、文字識別,可以做一些主題的萃取,把后面的人工智能服務(wù)和底層的數(shù)據(jù)訓(xùn)練好之后,做成為一個托管服務(wù),或者說以分析即服務(wù)的形態(tài)發(fā)布出來。
所以我覺得我們是比較靈活的,如果你需要下面運行的模型,你自己有數(shù)據(jù),你自己去訓(xùn)練。另外有一些非常常用的場景我們都訓(xùn)練好了,比如說要識別一個駕照,用百度OCR的服務(wù),就可以出結(jié)果。
CSDN:目前有沒有一些實際的應(yīng)用案例?
張琪:這是非常多的。
比如前一段時間,一家餐飲店用了百度的度秘——度秘是百度推出的為用戶提供秘書化搜索服務(wù)的機器人助理,它能夠基于百度的搜索及智能交互技術(shù),借助機器不斷學(xué)習(xí)和替代人的行為——有了度秘之后,餐飲店的客戶可以通過自然語言直接下單、支付,然后到前臺拿了東西就可以走了。而以前都要跑到柜臺去點單,支付和找零都很麻煩。
再說一個具體業(yè)務(wù)上的實現(xiàn),我們和一家保險公司合作,通過基于深度學(xué)習(xí)的機器視覺技術(shù),幫助這家公司從用戶駕照很快地檢索到上面的重要信息,不用人工輸入,節(jié)省了大量的人力。
再說一個比較遠的,就是無人車,其中整合了視覺分析、聽覺分析等很多人工智能方面的東西。百度在無人車方面已經(jīng)做了很多探索。
CSDN:未來還有什么樣的規(guī)劃?
張琪:我想還是結(jié)合我們在深度神經(jīng)網(wǎng)絡(luò)方面的優(yōu)勢,逐步把我們內(nèi)部的一些能力開放出來。借助吳恩達一句著名的話,就好比造火箭要有原料有引擎,大數(shù)據(jù)是下面的原料,而云計算是引擎,兩者結(jié)合之后,才能夠使整個人工智能有更多的發(fā)展。因為深度學(xué)習(xí)和原來的算法不一樣的地方是在于,(模型性能)不會隨著數(shù)據(jù)量的增長而衰減,幾乎還是呈線性關(guān)系的,所以我們會利用百度本身的大量數(shù)據(jù),包括圖片、文字,形成更精準的API發(fā)布出來,幫助我們的客戶更方便地擁抱大數(shù)據(jù)和利用人工智能,在業(yè)務(wù)上做得更先進。
CSDN:來自吳恩達團隊的技術(shù)研究成果,和百度開放云上成功的商業(yè)化產(chǎn)品之間,有什么樣的鴻溝需要跨越嗎?百度如何跨越?
張琪:一個好的技術(shù)需要產(chǎn)業(yè)化幫助到客戶,最核心的一點是對客戶和市場的理解,如果脫離客戶的需求去做一些高大上的研究,意義不是很大。對百度來說,要彌補這個鴻溝,一個很好的方法就是和市場、客戶進行更多的交流,基于一個具體的場景來解決業(yè)務(wù)的需求和痛點,這是百度把人工智能技術(shù)產(chǎn)品化最好的方法。
百度是一家堅決做物聯(lián)網(wǎng)這個業(yè)務(wù)場景的公司,因為我們看到整個物聯(lián)網(wǎng)正在蓬勃發(fā)展。除了各種智能家居產(chǎn)品,其實物聯(lián)網(wǎng)在工業(yè)、農(nóng)業(yè)上發(fā)展得非常快。例如,之前很多農(nóng)村扶貧措施可能就是直接錢,現(xiàn)在一些企業(yè)的做法是,我把一些小雞苗給你來養(yǎng),并讓我的消費者在很遠的地方就可以看到這個視頻,甚至可以隨時了解雞的大小、重量、溫度、通風(fēng)情況,形成很好的綠色食品提供給消費者,同時農(nóng)民也不是錢用完了就沒了,而是獲得了一個高附加值的能力,而把這個流程打通的一個關(guān)鍵就是物聯(lián)網(wǎng)技術(shù)。
基于物聯(lián)網(wǎng),我可以通過的遠程的感知器,設(shè)置通風(fēng)的情況,可以設(shè)置小雞在喝水時自動稱體重,能夠把這一切數(shù)據(jù)化,一方面可以遠程做監(jiān)控,更重要的是通過數(shù)據(jù)分析能夠知道怎么進行更好的飼養(yǎng)。(養(yǎng)殖)數(shù)據(jù)化是我們非常欠缺的,而物聯(lián)網(wǎng)能夠幫助實現(xiàn)這一點。通過對感知器、傳感器產(chǎn)生和收集的大量數(shù)據(jù)進行分析,農(nóng)民和飼料企業(yè)能夠從中找到洞察力。
百度非常看好這一點,所以推出了一個基于MQTT的原生IoT服務(wù),能夠享受MQTT的很多特性,包括Pub-Sub等。業(yè)界的另外一種做法,是有一個類似于消息系統(tǒng)掛到一個轉(zhuǎn)接服務(wù),看上去是MQTT,但是不是原生的,則無法實現(xiàn)這些。
來源:CSDN
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1【金猿案例展】中國銀聯(lián):以內(nèi)外聯(lián)動的數(shù)
-
2【報名倒計時1周】P4個體化醫(yī)學(xué)60+殿堂
-
3全棧云原生產(chǎn)品戰(zhàn)略升級,時速云領(lǐng)跑云原
-
4新趨勢·新未來 | 2019第六屆中國嬰幼
-
5【金猿產(chǎn)品展】中原銀行智能化BI:一站式
-
6【金猿產(chǎn)品展】易觀方舟:智能用戶數(shù)據(jù)中
-
7【金猿人物展】張涵誠: 2020年大數(shù)據(jù)產(chǎn)
-
8小飯桌2019全球青年創(chuàng)業(yè)者大會圓滿舉辦,
-
9繁華之下有隱憂,零售企業(yè)如何走出增長困
-
10【金猿產(chǎn)品展】羽扇決策引擎平臺:運籌帷