2017你還在用用戶畫(huà)像和協(xié)同過(guò)濾做推薦系統(tǒng)嗎?
【數(shù)據(jù)猿導(dǎo)讀】 今天想和大家分享,如何使用大規(guī)模機(jī)器學(xué)習(xí)解決真實(shí)的業(yè)務(wù)問(wèn)題。我們今天會(huì)以機(jī)器學(xué)習(xí)中的一個(gè)典型場(chǎng)景為例來(lái)講解,即基于大規(guī)模機(jī)器學(xué)習(xí)模型的推薦系統(tǒng)。

今天想和大家分享,如何使用大規(guī)模機(jī)器學(xué)習(xí)解決真實(shí)的業(yè)務(wù)問(wèn)題。我們今天會(huì)以機(jī)器學(xué)習(xí)中的一個(gè)典型場(chǎng)景為例來(lái)講解,即基于大規(guī)模機(jī)器學(xué)習(xí)模型的推薦系統(tǒng)。
推薦系統(tǒng)的本質(zhì)是什么
比如說(shuō)我們看到手機(jī)淘寶首頁(yè),往下一拉,就能看到各種各樣推薦的商品;比如說(shuō)百度,它會(huì)給我們推薦廣告,在某種程度上他的工作方式也很像推薦系統(tǒng);再比如說(shuō)今日頭條,今日頭條從數(shù)十萬(wàn)的新聞中選出會(huì)被我們看到的數(shù)十個(gè)新聞,這也是推薦系統(tǒng)。
盡管我們?cè)谏钪袝?huì)已經(jīng)見(jiàn)過(guò)非常多的推薦系統(tǒng),但是在用機(jī)器學(xué)習(xí)搭建推薦系統(tǒng)之前,我們還是應(yīng)當(dāng)先思考一下,推薦系統(tǒng)要解決的到底是個(gè)什么樣的問(wèn)題
推薦系統(tǒng)在本質(zhì)上是一個(gè)信息檢索的系統(tǒng)。它和搜索最大的區(qū)別是,搜索是主動(dòng)式的,根據(jù)關(guān)鍵詞和引擎參數(shù)、搜索引擎召回、機(jī)器學(xué)習(xí)排序,決定給你看到的是哪些內(nèi)容。而我們看到的推薦系統(tǒng),在大多數(shù)情況下是沒(méi)有主動(dòng)輸入的(有時(shí)會(huì)有一些簡(jiǎn)單的反饋動(dòng)作),是被動(dòng)出現(xiàn)的。
推薦系統(tǒng)是利用上下文,根據(jù)當(dāng)前用戶所處的環(huán)境,根據(jù)信息的特點(diǎn)來(lái)決定給你推薦什么內(nèi)容和商品。而在我們進(jìn)一步去想之前,我們要問(wèn)自己一個(gè)問(wèn)題,就像上節(jié)課田老師講的一樣,推薦系統(tǒng)的目標(biāo)是什么,什么才是一個(gè)好的推薦系統(tǒng),要優(yōu)化的指標(biāo)是什么。
推薦系統(tǒng)的指標(biāo)是什么
推薦系統(tǒng)是個(gè)產(chǎn)品,產(chǎn)品當(dāng)然是想方設(shè)法讓用戶去喜歡的,或者至少是不討厭的。因而,我們需要把喜歡和討厭這兩件事情定義出來(lái)。同時(shí)我們畢竟不是用戶肚子里的蛔蟲(chóng),我們只能用我們可以測(cè)量到的數(shù)據(jù)來(lái)描述喜歡和討厭兩件事情。并用這些數(shù)據(jù)來(lái)決定我們做什么和不做什么。
比如說(shuō):我是個(gè)電商,用戶表達(dá)對(duì)一個(gè)推薦商品喜歡的方式是:點(diǎn)擊、收藏、加購(gòu)物車、甚至購(gòu)買下單、分享到社交平臺(tái)上等等。用戶討厭一個(gè)推薦商品的方式,就是會(huì)投訴、會(huì)提意見(jiàn)。因而我們要預(yù)防一些很可能會(huì)讓用戶討厭的推薦結(jié)果:比如說(shuō)推薦成人用品和內(nèi)衣,尤其是在上班時(shí)間;比如推薦用戶剛剛買過(guò)的商品,等等。
我們一定能為一個(gè)推薦系統(tǒng)去定義指標(biāo),我們可以給這些指標(biāo)分輕重緩急,看能用什么順序?qū)崿F(xiàn)。現(xiàn)在我用的指標(biāo)可能有點(diǎn)投機(jī)取巧,我用的是點(diǎn)擊率。而真實(shí)的指標(biāo)考慮的是很多的,僅僅考慮點(diǎn)擊率的模型,可能會(huì)出現(xiàn)標(biāo)題黨,如果是電商就可能會(huì)出現(xiàn)一堆 9 塊 9 包郵,這可能不是我們業(yè)務(wù)想要的。
另外即使只考慮點(diǎn)擊率,我們也知道其實(shí)我們推薦的是一個(gè)列表,列表的質(zhì)量不完全是由單一的商品決定的,而是整個(gè)列表的組合、順序、多樣性所決定的。所以真實(shí)的業(yè)務(wù)中,我們會(huì)考慮用更復(fù)雜的目標(biāo),比如 MAP 來(lái)評(píng)價(jià)一個(gè)推薦列表的質(zhì)量。
但沒(méi)關(guān)系,今天我們就用點(diǎn)擊率作為試點(diǎn),介紹如何用機(jī)器學(xué)習(xí)來(lái)搭建推薦系統(tǒng)的完整過(guò)程。
推薦系統(tǒng)的 y 和 x
第一步, 我們已經(jīng)知道機(jī)器學(xué)習(xí)模型需要預(yù)測(cè)的就是優(yōu)化目標(biāo),點(diǎn)擊率;那我們把用戶的點(diǎn)擊行為需要記錄下來(lái)。這樣一來(lái),對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō),我們已經(jīng)有 y 了
第二步,我們需要定義好 x,也就是特征。
一般來(lái)說(shuō)推薦系統(tǒng)的特征體系由 3 個(gè)部分組成:用戶特征、內(nèi)容特征、上下文特征。
用戶特征:包括但不限于用戶姓名、性別、年齡、注冊(cè)時(shí)間、收貨地址、常用區(qū)域等用戶特征
內(nèi)容特征:包括但不限于以及商品、內(nèi)容的標(biāo)題分詞、內(nèi)容的 TF-IDF、內(nèi)容來(lái)源、內(nèi)容渠道、內(nèi)容生產(chǎn)者等等
那么上下文特征, 是代表用戶當(dāng)前時(shí)空狀態(tài)、最近一段時(shí)間的行為抽象的特征。比如說(shuō)用戶當(dāng)前的 GPS 坐標(biāo),大家可能覺(jué)得奇怪, GPS 坐標(biāo)怎么用來(lái)推薦呢 其實(shí)很簡(jiǎn)單,地球一圈是 4 萬(wàn)公里,GPS 一圈是 360°,一度大概是 100 公開(kāi)。如果我們把 GPS 坐標(biāo)保存到小數(shù)點(diǎn)后一位,組合起來(lái),這樣的特征就是 10*10 公里的格子,這就代表了一個(gè)有泛化能力的用戶的位置。
位置是一個(gè)非常強(qiáng)的特征,如果我們更進(jìn)一步,做到了 1 公里,顯然我們可以相信,在中關(guān)村地區(qū),大家的偏好是有共性的,而在金融街,大家的喜好也是有共性的。當(dāng)大家的數(shù)據(jù)足夠多的時(shí)候,落在同一個(gè)格子里的人會(huì)非常多,GPS 就會(huì)成為非常重要的特征。
另外是 IP 地址,比如最近瀏覽的內(nèi)容、最近購(gòu)買的商品,這些都會(huì)構(gòu)成上下文特征。所以我們就是在用戶特征、內(nèi)容特征和上下文特征的基礎(chǔ)上,預(yù)測(cè)用戶對(duì)當(dāng)前內(nèi)容的點(diǎn)擊率。
推薦系統(tǒng)的樣本構(gòu)造和數(shù)據(jù)拼接
一個(gè)成熟的推薦系統(tǒng),它可能有非常復(fù)雜的樣本構(gòu)造方法,今天用了比較簡(jiǎn)單的方法,讓問(wèn)題變得簡(jiǎn)單。另外,一個(gè)成熟的推薦系統(tǒng),它可能會(huì)有多個(gè)指標(biāo)和業(yè)務(wù)邊界條件。
那么接下來(lái):基于已知的 x 和 y,我們要為機(jī)器學(xué)習(xí)構(gòu)造樣本。什么是一條樣本 一個(gè)樣本代表機(jī)器學(xué)習(xí)預(yù)測(cè)的一個(gè)最小粒度的事件。當(dāng)你把一條內(nèi)容展現(xiàn)給用戶,用戶點(diǎn)擊或不點(diǎn)擊,這就代表了一個(gè)最小粒度的事件,就是一條樣本。再比如說(shuō)我們給用戶展示了 10 條新聞,用戶對(duì)應(yīng)每個(gè)新聞點(diǎn)擊或者不點(diǎn)擊,就是 10 條樣本。
在樣本采集后,就要考慮數(shù)據(jù)怎么收集和拼接了。在拼接的時(shí)候要注意的是,假如是為了優(yōu)化點(diǎn)擊率,我不光要把用戶特征、上下文特征收集起來(lái),我還要把點(diǎn)擊率拼回到當(dāng)時(shí)那一條樣本請(qǐng)求上去。所以系統(tǒng)一定要有這樣的考慮,記錄下時(shí)間和拼接的 ID ,同時(shí)還要考慮剛才說(shuō)的三類特征是處于實(shí)時(shí)變化當(dāng)中的,日志也是實(shí)時(shí)產(chǎn)生的,而不是后面去拿的,因?yàn)檫@樣做很可能會(huì)出現(xiàn)問(wèn)題。 數(shù)據(jù)一旦出問(wèn)題,是非常難以 debug 的。給大家舉個(gè)栗子,有一家公司,BAT 之一,他的推薦系統(tǒng)過(guò)去幾年 85% 的效果提升來(lái)源是把之前有問(wèn)題的數(shù)據(jù)給修復(fù)了,做對(duì)了。
推薦系統(tǒng)的場(chǎng)景思考
樣本構(gòu)造還需要考慮場(chǎng)景的問(wèn)題,比如說(shuō)我們會(huì)遇到一個(gè)問(wèn)題,屏幕的大小是不一樣的,同樣展示 10 條新聞,我怎么知道用戶有沒(méi)有看到它。如果沒(méi)有看到就不應(yīng)該作為一條樣本。這時(shí)候就有兩種解決方案,第一種解決方案是把用戶真正看到的納入進(jìn)來(lái),因?yàn)榍岸耸悄阍O(shè)計(jì)的,所以你會(huì)知道哪些內(nèi)容是用戶的可見(jiàn)范圍內(nèi)。 當(dāng)然這會(huì)讓客戶端變得更重一些。
第二種是一個(gè)比較簡(jiǎn)單的方法,把內(nèi)容的位置作為一個(gè)特征。因?yàn)槲覀冎?,同樣是一屏幕展現(xiàn) 10 行內(nèi)容,即便是一樣的內(nèi)容,用戶也會(huì)選擇一個(gè)他舒服的位置去點(diǎn),這個(gè)可能是偏中上的位置。所以當(dāng)新聞在第三個(gè)位置被點(diǎn)擊的時(shí)候,這可能是一個(gè)容易被點(diǎn)擊的位置,但不一定代表這個(gè)新聞比其他新聞要好。那我們?cè)趺崔k 我們就要通過(guò)某些手段,把這些偏置吸收掉,所以我們會(huì)把位置、屏幕大小等作為特征,通過(guò)特征工程的方法來(lái)吸收這個(gè)偏差,變成無(wú)偏的模型。
這時(shí)候有些人可能會(huì)問(wèn),這不是穿越嗎 因?yàn)樵诮o出預(yù)測(cè)的時(shí)候,是不知道內(nèi)容最終的位置信息的。但這相當(dāng)于把偏差的鍋由位置來(lái)背了,這是機(jī)器學(xué)習(xí)推薦系統(tǒng)中的一個(gè)策略。
剛才我們已經(jīng)構(gòu)造好特征了,現(xiàn)在給大家講怎么建模。大家可能會(huì)認(rèn)為,前面的部分是快的,真正做機(jī)器學(xué)習(xí),做特征工程、模型調(diào)參等,這些是慢的。但是今天我們會(huì)看到,在成熟的工業(yè)界里面,其實(shí)前面要花的時(shí)間會(huì)多很多,后面的內(nèi)容在成熟的工具下會(huì)變得簡(jiǎn)單。
在先知上完成推薦系統(tǒng)的建模流程
我們會(huì)從一個(gè)真實(shí)的案例出發(fā),雖然我們做了很多的推薦系統(tǒng)的案例,但畢竟不能把客戶的數(shù)據(jù)給大家看,所以我們用了一份公開(kāi)的數(shù)據(jù),這份數(shù)據(jù)和我們之前講的場(chǎng)景是相似的。這份數(shù)據(jù)來(lái)自于 Kaggle,叫做 Criteo 點(diǎn)擊率預(yù)估比賽。
數(shù)據(jù)預(yù)覽
首先我們看數(shù)據(jù)的樣子,第 1 列 col_1 代表的是廣告有沒(méi)有被點(diǎn)擊,1 代表被點(diǎn)擊,0 代表沒(méi)有被點(diǎn)擊。然后我們看第 2 列到第 14 列,都是數(shù)值型的特征,因?yàn)檫@份數(shù)據(jù)已經(jīng)被匿名化了,所以我們可能也不知道這些數(shù)值代表什么意思,也許是這個(gè)用戶的 PV,或者標(biāo)簽的權(quán)重,不過(guò)我們也不需要知道。然后看第 15 列到 40 多列,這些都是離散的特征,這些特征都做了哈希化,都做了匿名處理。
這個(gè)數(shù)據(jù)有 3000 萬(wàn)行 40 多列,按照我們傳統(tǒng)的做法,進(jìn)行特征工程以及 one-hot 編碼后,會(huì)有 4000 多萬(wàn)個(gè)特征。真實(shí)的業(yè)務(wù)數(shù)據(jù)中,訓(xùn)練數(shù)據(jù)體積會(huì)更大,往往達(dá)到上億,同時(shí)原始特征數(shù)量會(huì)達(dá)到上百,因?yàn)闉榱撕玫膫€(gè)性化效果,我們會(huì)使用諸如 GPS 坐標(biāo)、手機(jī)型號(hào)、ip 地址、最近瀏覽內(nèi)容等等精細(xì)化的特征,并進(jìn)行非常極致的特征工程,這樣的模型在特征工程之后的特征數(shù)會(huì)達(dá)到數(shù)億甚至幾百億。這樣規(guī)模的機(jī)器學(xué)習(xí)訓(xùn)練,挑戰(zhàn)的不僅是算法,更是如何在成本可承受的計(jì)算資源上進(jìn)行訓(xùn)練和實(shí)時(shí)預(yù)估。
開(kāi)發(fā)這樣一個(gè)規(guī)模的可以并行運(yùn)行的系統(tǒng)的挑戰(zhàn)更加大,即使 BAT 這樣的大公司也會(huì)養(yǎng)一個(gè)百人的團(tuán)隊(duì),只為了做好機(jī)器學(xué)習(xí)模型訓(xùn)練和預(yù)估的工程實(shí)現(xiàn)。下面我們會(huì)看到利用第四范式的先知平臺(tái)去做這件事情,會(huì)大大降低我們開(kāi)發(fā)和運(yùn)維一個(gè)在線機(jī)器學(xué)習(xí)系統(tǒng)的成本,讓我們更加聚焦在業(yè)務(wù)本身。下面我們會(huì)看到在先知平臺(tái)上對(duì)這份數(shù)據(jù)的建模會(huì)非常簡(jiǎn)單。
數(shù)據(jù)拆分
首先我們把這份數(shù)據(jù)拆成了訓(xùn)練集和測(cè)試集,以 9:1 的方式。當(dāng)然這可能是不太合適的拆分方法,因?yàn)檎嬲?xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,它的拆分是按照時(shí)間排序后再拆的,就是用前面的時(shí)間來(lái)訓(xùn)練模型,然后用這個(gè)模型來(lái)預(yù)測(cè)點(diǎn)擊。這樣訓(xùn)練和測(cè)試在時(shí)間上是正交的,那么模型如果在這種實(shí)驗(yàn)設(shè)計(jì)下有好的效果,這個(gè)效果就會(huì)有時(shí)間平移性,上線后就會(huì)有好的效果。當(dāng)然,為什么我們?cè)谶@里沒(méi)有使用按照時(shí)間排序拆分的方式,是因?yàn)閰⒖剂艘黄撐牡淖龇?https://arxiv.org/abs/1703.04247),這樣同樣的做法結(jié)果可比。在真實(shí)的業(yè)務(wù)中,不建議大家按照這種方式來(lái)處理數(shù)據(jù)。
特征工程、模型選擇和評(píng)估
然后就是做特征工程了,一般來(lái)說(shuō)大家可能覺(jué)得很難,但只需要告訴電腦哪個(gè)是 Label,其他的直接默認(rèn)配置就好了。但天下沒(méi)有免費(fèi)的午餐,特征簡(jiǎn)單處理,我們要有更強(qiáng)的模型,所以我們用了線性分型分類器。
一般來(lái)說(shuō),推薦系統(tǒng)中會(huì)有離散特征和連續(xù)特征,當(dāng)我們用邏輯回歸這種寬的離散線性模型的時(shí)候,我就會(huì)遇到一個(gè)很大的問(wèn)題,就是我需要對(duì)特征進(jìn)行分段,這樣才能學(xué)到連續(xù)特征的非線性結(jié)構(gòu)。比如說(shuō)用戶年齡對(duì)點(diǎn)擊率的影響,它并不是線性上升的,它可能會(huì)上升到 30 歲,然后就下降了,甚至有更復(fù)雜的模式,這些是非線性的特性。所以我們可以用機(jī)器對(duì)連續(xù)的特征做自動(dòng)搜索分段,這樣的預(yù)處理效率就大大提高了。線性分形分類器就是做的這樣的事情,基本上我花了不到 5 分鐘,就跑出了 0.796 的 AUC。
AUC 代表了一個(gè)模型對(duì)樣本的排序能力。如果這是一個(gè)完美的排序,點(diǎn)擊率高的 100% 排到了點(diǎn)擊率低的前面,那 AUC 就是 1。如果是隨機(jī)瞎排,那 AUC 就是 0.5。所以 AUC 越接近于 1,就代表了整體的排序能力越強(qiáng)。現(xiàn)在的 AUC 是 0.796,比論文的 0.801 稍微差一點(diǎn),我只做了這么點(diǎn)就到了這個(gè)成績(jī),我覺(jué)得還是可以的。
當(dāng)然這里進(jìn)一步說(shuō)一下,評(píng)估上線的時(shí)候,不能只是看 AUC。例如說(shuō),我要看的是 User AUC,或者每一刷的 AUC,因?yàn)槟P偷呐判蚰芰?,一部分?lái)自于對(duì)每個(gè)用戶個(gè)性化的識(shí)別能力,另一部分來(lái)自于對(duì)用戶本身的識(shí)別能力。比如說(shuō)有些用戶就是什么都愛(ài)點(diǎn),什么都點(diǎn),而有些用戶基本只看標(biāo)題不點(diǎn)開(kāi)。我們把這樣的人分開(kāi),對(duì)個(gè)性化推薦是有幫助的。所以我最終應(yīng)該看的是,在每一個(gè)用戶身上的 AUC,甚至是每一次展現(xiàn)的 AUC,當(dāng)然先知也提供了工具,就不多贅述了。特征組合
但我還是想讓這個(gè)模型更好,怎么辦呢 在做推薦系統(tǒng)的時(shí)候,特征工程最重要的處理方法是特征組合。比如說(shuō)有兩個(gè)特征,一個(gè)是性別,另一個(gè)是新聞的色情等級(jí)。我們可能會(huì)注意到,男同志比較喜歡火爆的新聞,女同志可能正好相反。我把色情等級(jí)作為一個(gè)特征,可能兩邊的喜好不同導(dǎo)致最終這個(gè)特征整體對(duì)點(diǎn)擊率的影響和一個(gè)隨機(jī)數(shù)一樣,它就不是好的特征,沒(méi)有預(yù)測(cè)能力。
但如果我把這些特征組合起來(lái),我就對(duì)這些空間有更細(xì)致的分割能力,我就會(huì)做出很好的效果。性別、用戶 ID 和新聞色情等級(jí)組合起來(lái),是新聞推薦非常有用的特征。進(jìn)一步說(shuō),假如我們有 100 個(gè)特征,那么特征兩兩組合的空間,就是 一萬(wàn)個(gè),這是個(gè)很大的工作量。
傳統(tǒng)的手段是,通過(guò)業(yè)務(wù)經(jīng)驗(yàn)和實(shí)驗(yàn)去篩選好的組合。但是工具可以幫我們做得更快更好,先知的 FeatureGo 功能,可以通過(guò)一系列的配置和優(yōu)化目標(biāo)設(shè)定,自動(dòng)搜索出好的特征組合,大大節(jié)省我們的工作時(shí)間,讓人的工作由機(jī)器來(lái)完成。然后我就跑了 FeatureGo,找到了 18 和 28,33 和 34 這些組合特征就不錯(cuò)。而如果計(jì)算資源足夠,那你還可以搜索 3 階的特征,這是由人來(lái)做非常難的事情。
在用機(jī)器完成自動(dòng)特征組合后,調(diào)參其實(shí)也可以自動(dòng)化的。我們知道機(jī)器學(xué)習(xí)就像煉丹,煉丹就是調(diào)參,調(diào)參就是在參數(shù)空間里,根據(jù)我們的經(jīng)驗(yàn)去搜索一下,看什么參數(shù)是好的。我們也有好的工具,可以自動(dòng)搜索到好的參數(shù)。當(dāng)把這些設(shè)定好之后,我就去睡覺(jué)了。第二天醒來(lái)后發(fā)現(xiàn),這個(gè)模型的 AUC 達(dá)到了 0.802,已經(jīng)超過(guò)了論文的效果。由于這篇論文還是今年比較有名的論文,我還是很滿意的。
模型上線
設(shè)計(jì)好模型后,一般是用 Restful API 的模式服務(wù)的。比方說(shuō)根據(jù)這個(gè) API,就可以給不同的內(nèi)容進(jìn)行打分,打分后根據(jù)倒排后的結(jié)果,響應(yīng)推薦的內(nèi)容。
推薦系統(tǒng)相關(guān)組件
當(dāng)然,一個(gè)完整的推薦系統(tǒng),不僅僅需要機(jī)器學(xué)習(xí)排序,還需要相應(yīng)的組件。比方說(shuō)我要有物料庫(kù),把商品的特征維護(hù)起來(lái),這需要一個(gè)高性能的緩存和數(shù)據(jù)庫(kù),能夠增刪查改,能夠進(jìn)行特征的初步生成。我還需要一個(gè)日志系統(tǒng),日志系統(tǒng)通過(guò)唯一性的標(biāo)識(shí),把實(shí)時(shí)的請(qǐng)求和后續(xù)的反饋 Label 記錄并拼接起來(lái)。我還需要一個(gè)自學(xué)習(xí)的系統(tǒng),機(jī)器學(xué)習(xí)的模型每天都是要更新的,如果拿 7 天前學(xué)到的模型去推今天的商品,那豈不是用前朝的劍斬本朝的官,效果一定不好,所以我們還需要自學(xué)習(xí),或者是增量的在線學(xué)習(xí),來(lái)保證模型捕捉到最新的用戶偏好和市場(chǎng)情況。
然后我們還需要后續(xù)的預(yù)測(cè),比方說(shuō)我的內(nèi)容有好幾十萬(wàn),我并不是拿好幾十萬(wàn)給機(jī)器學(xué)習(xí)去預(yù)估,我會(huì)用啟發(fā)式的方法,比如說(shuō) CF、熱度、Tag 匹配等召回策略先生成候選集,然后才進(jìn)入到機(jī)器學(xué)習(xí)排序。召回策略同樣使得我們有更大的能力去影響機(jī)器學(xué)習(xí)排序的結(jié)果,比如我們可以過(guò)濾掉一些我們明知道不好的內(nèi)容或者增加我們認(rèn)為好的內(nèi)容的權(quán)重或出現(xiàn)比例。在機(jī)器學(xué)習(xí)排序后,我們也需要對(duì)結(jié)果進(jìn)行去重、多樣化和隨機(jī)化,最后才做成一個(gè)好的推薦系統(tǒng)。
今天和大家介紹的是,我們?nèi)绾卫脵C(jī)器學(xué)習(xí)去搭建一個(gè)推薦系統(tǒng)的排序環(huán)節(jié)??偨Y(jié)起來(lái)是這么幾個(gè)點(diǎn):第一個(gè)是如何使用機(jī)器學(xué)習(xí)來(lái)剖析一個(gè)問(wèn)題,我們用了推薦系統(tǒng)的例子。第二個(gè)是我們?nèi)绾螛?gòu)造一個(gè)推薦系統(tǒng)的樣本、數(shù)據(jù)并進(jìn)行建模,當(dāng)我們有一個(gè)非常好的機(jī)器學(xué)習(xí)工具的時(shí)候,我們可以把精力聚焦在業(yè)務(wù)上,在怎么找到好的數(shù)據(jù)上,以及在怎么定義好的目標(biāo)和規(guī)劃上。第三我們描述了機(jī)器學(xué)習(xí)系統(tǒng)是如何和其他系統(tǒng)發(fā)揮作用的,機(jī)器學(xué)習(xí)就像發(fā)動(dòng)機(jī),汽車當(dāng)然需要發(fā)動(dòng)機(jī),但只有發(fā)動(dòng)機(jī)車是跑不起來(lái)的,你還需要周邊的配件,這是系統(tǒng)化的工程。在這方面我們已經(jīng)做了一些工作,我們既有發(fā)動(dòng)機(jī),也就是先知平臺(tái),大家可以在這里試用 https://prophet.4paradigm.com,我們也有整車,就是整個(gè)推薦系統(tǒng)的解決方案。我們很高興和大家分享這樣的技術(shù)和能力,謝謝大家。
來(lái)源:36大數(shù)據(jù)
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新