小紅書(shū)CTO郄小虎:云計(jì)算與大數(shù)據(jù)打通社區(qū)與電商
郄小虎 | 2016-06-17 09:40
【數(shù)據(jù)猿導(dǎo)讀】 從社區(qū)到平臺(tái),從0到超2000萬(wàn)注冊(cè)用戶(hù),小紅書(shū)與成長(zhǎng)背后的技術(shù)架構(gòu)如何變遷?小紅書(shū)CTO郄小虎在接受記者采訪時(shí)表示,小紅技術(shù)架構(gòu)的發(fā)展經(jīng)歷了三個(gè)階段,系統(tǒng)可能面臨的最大的挑戰(zhàn)來(lái)自于規(guī)模和經(jīng)驗(yàn)

從社區(qū)到平臺(tái),從0到超2000萬(wàn)注冊(cè)用戶(hù),小紅書(shū)與成長(zhǎng)背后的技術(shù)架構(gòu)如何變遷?日前,小紅書(shū)CTO郄小虎(Tiger)接受《騰訊云會(huì)客廳》及CSDN記者專(zhuān)訪,介紹小紅書(shū)在轉(zhuǎn)型發(fā)展中遇到的技術(shù)挑戰(zhàn),和如何通過(guò)云計(jì)算來(lái)實(shí)現(xiàn)系統(tǒng)的擴(kuò)容、安全,以及基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的個(gè)性化推薦應(yīng)用。
小紅書(shū)技術(shù)架構(gòu)變遷及挑戰(zhàn)
郄小虎介紹,小紅技術(shù)架構(gòu)的發(fā)展經(jīng)歷了三個(gè)階段:
2013年創(chuàng)立初期,小紅書(shū)是一個(gè)純社區(qū)平臺(tái),主要的應(yīng)用場(chǎng)景是用戶(hù)分享他們的購(gòu)物體驗(yàn),這個(gè)階段系統(tǒng)主要面臨的挑戰(zhàn)是從產(chǎn)品快速迭代,技術(shù)選型上更加偏重于靈活性和高效性,對(duì)事務(wù)性和一致性的要求不高。
引入了電商業(yè)務(wù)之后,事務(wù)性和一致性需求的解決成為迫在眉睫的問(wèn)題。這個(gè)階段的主要工作是在現(xiàn)有技術(shù)架構(gòu)的基礎(chǔ)上實(shí)現(xiàn)事務(wù)性、一致性的需求。這也是小紅書(shū)后臺(tái)技術(shù)經(jīng)歷的最重大的一次變化。
社區(qū)電商業(yè)務(wù)的飛速發(fā)展,帶來(lái)了系統(tǒng)性能的瓶頸。這個(gè)階段,小紅書(shū)開(kāi)始從存儲(chǔ)層到邏輯層到服務(wù)層去對(duì)系統(tǒng)進(jìn)行擴(kuò)容,從一開(kāi)始的集中式架構(gòu),慢慢地改造成服務(wù)化、模塊化的分布式架構(gòu),整個(gè)技術(shù)體系能夠變得更加獨(dú)立、靈活,而且易于擴(kuò)容。
系統(tǒng)可能面臨的最大的挑戰(zhàn)來(lái)自于規(guī)模和經(jīng)驗(yàn):
業(yè)務(wù)邏輯的完善。去年的“6.6周年慶”,在流量上并不是特別大的問(wèn)題,但那是小紅書(shū)第一次做大規(guī)模促銷(xiāo),支持電商業(yè)務(wù)的功能上有很多不到位的地方,比如秒殺系統(tǒng)最開(kāi)始的在邏輯上是存在缺陷的。
高并發(fā)流量。到去年紅五(紅色星期五)的時(shí)候,小紅書(shū)在業(yè)務(wù)邏輯的層面已經(jīng)積累了相當(dāng)多的經(jīng)驗(yàn),最大的考驗(yàn)轉(zhuǎn)移到流量上。小紅書(shū)歷史上的最高峰值是在紅五時(shí)候出現(xiàn)的,已經(jīng)真正挑戰(zhàn)到了系統(tǒng)的一些極限。
云計(jì)算實(shí)踐
應(yīng)對(duì)互聯(lián)網(wǎng)業(yè)務(wù)挑戰(zhàn)的關(guān)鍵,是架構(gòu)的云化,小紅書(shū)也選擇了云計(jì)算服務(wù)。
選擇云服務(wù)的考量
小紅書(shū)在選擇云計(jì)算技術(shù)時(shí)主要從以下三個(gè)層面來(lái)考量:
硬件資源。云平臺(tái)作為一個(gè)基礎(chǔ)的計(jì)算和存儲(chǔ)的平臺(tái),當(dāng)小紅書(shū)需要更多的計(jì)算能力或者更多的存儲(chǔ)容量時(shí),這個(gè)平臺(tái)能夠很快地滿(mǎn)足擴(kuò)容的需求。
基礎(chǔ)軟件。業(yè)務(wù)系統(tǒng)的實(shí)現(xiàn)需要技術(shù)團(tuán)隊(duì)搭建很多的功能模塊,可以在云基礎(chǔ)架構(gòu)平臺(tái)上自己搭建,也可以去選用平臺(tái)提供的一些現(xiàn)成服務(wù),如數(shù)據(jù)庫(kù)服務(wù)、Redis緩存、數(shù)據(jù)計(jì)算系統(tǒng)。
增值服務(wù),包括了圖象處理、CDN和安全相關(guān)的防DDoS攻擊、防刷單、防惡意用戶(hù)等等。
騰訊云的應(yīng)用
基于上述理念,小紅書(shū)嘗試了不同的云服務(wù)組合,目前較為核心的業(yè)務(wù)系統(tǒng)部署在騰訊云上,硬件基礎(chǔ)架構(gòu)和增值服務(wù)依賴(lài)于騰訊云。基于支撐騰訊社交業(yè)務(wù)的技術(shù)打造的騰訊云,對(duì)滿(mǎn)足小紅書(shū)這兩方面的需求沒(méi)有壓力;第二部分則是一個(gè)混合的模式——比如,數(shù)據(jù)庫(kù)和Spark是自己搭建的。
存儲(chǔ)系統(tǒng)
小紅書(shū)現(xiàn)在采用的數(shù)據(jù)庫(kù)技術(shù)是NoSQL,是初期打造社區(qū)應(yīng)用時(shí)候做出的選擇,因?yàn)镹oSQL更適合大規(guī)模、高并發(fā)的社區(qū)場(chǎng)景,同時(shí)社區(qū)應(yīng)用對(duì)事務(wù)性、數(shù)據(jù)一致性的要求沒(méi)有那么強(qiáng),NoSQL完全可以滿(mǎn)足,而如果采用傳統(tǒng)關(guān)系統(tǒng)數(shù)據(jù)庫(kù),開(kāi)發(fā)成本也會(huì)變得比較高。
安全
小紅書(shū)遇到的攻擊,最常見(jiàn)的是簡(jiǎn)單粗暴的流量攻擊,目的就是為了把網(wǎng)絡(luò)帶寬耗盡、阻塞,讓其他有正常需求的用戶(hù)沒(méi)有辦法訪問(wèn)小紅書(shū)的服務(wù),大型企業(yè)一般要投入很大的人力物力,才能把這類(lèi)攻擊化解掉。郄小虎表示,對(duì)于成長(zhǎng)型公司,需要云服務(wù)平臺(tái)能夠在這些流量到達(dá)服務(wù)之前盡早地把它們過(guò)濾掉。這方面,騰訊云提供的大禹系統(tǒng)可以滿(mǎn)足小紅書(shū)的需求。他認(rèn)為,大禹系統(tǒng)是一個(gè)立體的系統(tǒng),在CDN層面上把攻擊流量化解,小紅書(shū)發(fā)現(xiàn)的一些比較執(zhí)著的攻擊也能被擋住。
實(shí)戰(zhàn)心得
遷移到騰訊云使得小紅書(shū)業(yè)務(wù)的開(kāi)發(fā)和上線速度得到提升。尤其是對(duì)于突發(fā)性的一些需求,可以提高上線的速度。之如直播可以減少很多的開(kāi)發(fā)工作量,前可能需要一個(gè)月的時(shí)間,現(xiàn)在一周就可以搞定了。
和騰訊云合作的另一個(gè)好處,是可以借助騰訊云技術(shù)團(tuán)隊(duì)共同進(jìn)步。去年第二次大促銷(xiāo)的時(shí)候,小紅書(shū)系統(tǒng)面臨很大的流量壓力,已經(jīng)做了數(shù)據(jù)分片,并且做了封測(cè),對(duì)想得到的購(gòu)物入口做了充分的準(zhǔn)備,但開(kāi)場(chǎng)時(shí)候系統(tǒng)仍然卡了一下,后來(lái)小紅書(shū)和騰訊團(tuán)隊(duì)一起排查,才發(fā)現(xiàn)是出現(xiàn)了大量用戶(hù)刷心愿單的情況(用戶(hù)提前把物品加入到心愿單里),然后很快地?cái)U(kuò)容。
命脈:基于大數(shù)據(jù)的個(gè)性化推薦
無(wú)論是社區(qū)還是電商,個(gè)性化的分析和推薦,都是很重要的一個(gè)維度,并且要借助大數(shù)據(jù)、機(jī)器學(xué)習(xí)來(lái)實(shí)現(xiàn)。郗小虎認(rèn)為這些技術(shù)小紅書(shū)的生命線。但與純粹的電商平臺(tái)不同,小紅書(shū)首先是一個(gè)信息發(fā)現(xiàn)和分享的平臺(tái),所以不僅要分析用戶(hù)購(gòu)物行為,還要處理數(shù)量遠(yuǎn)超商品數(shù)量的社區(qū)信息。
社區(qū)的激勵(lì)機(jī)制,就是讓優(yōu)質(zhì)的筆記得到更多的曝光、更多的用戶(hù)點(diǎn)贊和收藏,并且是通過(guò)技術(shù)手段而非人工力量來(lái)實(shí)現(xiàn)。當(dāng)用戶(hù)發(fā)了一篇帖子之后,系統(tǒng)會(huì)對(duì)這篇筆記進(jìn)行多個(gè)維度的分析。
根據(jù)歷史數(shù)據(jù)建立的模型所提取出一些特征,來(lái)判斷一篇筆記的質(zhì)量。
根據(jù)筆記的內(nèi)容推薦出一些標(biāo)簽,簡(jiǎn)化用戶(hù)的操作的復(fù)雜度,同時(shí)避免UGC信息非常零亂的情況,讓UGC的信息更加結(jié)構(gòu)化,能夠和后臺(tái)系統(tǒng)對(duì)齊。
推薦背后的用戶(hù)畫(huà)像,依賴(lài)的是用戶(hù)的基本屬性和用戶(hù)行為,郄小虎認(rèn)為用戶(hù)畫(huà)像技術(shù)本身已經(jīng)比較成熟,真正的難點(diǎn)在于如何去應(yīng)用這個(gè)畫(huà)像,怎么判斷用戶(hù)處在某個(gè)特定的場(chǎng)景下的意愿——即便對(duì)用戶(hù)有360度的全方位了解,如何從豐富的信息中提取出對(duì)這個(gè)時(shí)間點(diǎn)、這個(gè)場(chǎng)景有價(jià)值的信息,仍然是一個(gè)難點(diǎn)。小紅書(shū)會(huì)根據(jù)平臺(tái)上大量的筆記信息和用戶(hù)瀏覽的行為,從中提煉出哪一些信息對(duì)于于某個(gè)特定場(chǎng)景下的用戶(hù)來(lái)說(shuō)是有價(jià)值的,從而實(shí)現(xiàn)和傳統(tǒng)的電商購(gòu)物明顯差異化的體驗(yàn)。
郄小虎介紹了小紅書(shū)上個(gè)性化推薦的三重境界:
最基礎(chǔ)的基于人口統(tǒng)計(jì)學(xué)的推薦,根據(jù)性別、年齡等基礎(chǔ)信息,把一些和用戶(hù)不相關(guān)的、不感興趣的信息過(guò)濾掉,讓用戶(hù)能夠看到更相關(guān)的推薦信息。例如男士可能不太會(huì)對(duì)這個(gè)化妝品感興趣,推薦運(yùn)動(dòng)、健身、旅行等分類(lèi)源的一些信息更加合適。
基于協(xié)同過(guò)濾的推薦。根據(jù)多維度的用戶(hù)畫(huà)像,把相似用戶(hù)喜歡/已消費(fèi)的一些信息作為推薦的來(lái)源。
場(chǎng)景化推薦引導(dǎo)消費(fèi)。小紅書(shū)現(xiàn)在有非常多的女性用戶(hù),她們來(lái)到小紅書(shū)平臺(tái)可能只是沒(méi)有明確目標(biāo)的“逛”,或者只有一個(gè)比較模糊的目標(biāo),小紅書(shū)則可以引導(dǎo)這部分用戶(hù)在不停的“逛”中發(fā)現(xiàn)驚喜,形成細(xì)化的消費(fèi)需求。
第三重境界背后的技術(shù)支持,基礎(chǔ)是用戶(hù)行為大數(shù)據(jù)的分析,除了購(gòu)買(mǎi)行為,還包括看什么帖子、看哪些場(chǎng)景分類(lèi)的導(dǎo)航等行為,但更重要的是場(chǎng)景的提煉,在這個(gè)過(guò)程中,通過(guò)對(duì)這些用戶(hù)行為大數(shù)據(jù)的分析,讓這些系統(tǒng)變得越來(lái)越聰明。例如,用戶(hù)要出國(guó)去日本的時(shí)候,想找一些關(guān)于日本零食的信息,但他并不知道具體的一些零食是什么,小紅書(shū)的平臺(tái)會(huì)自動(dòng)推薦一些相關(guān)的鏈接:生巧克力、白色戀人、東京香蕉等,用戶(hù)點(diǎn)開(kāi)這些信息,會(huì)發(fā)現(xiàn)大量的用戶(hù)分享的關(guān)于這個(gè)產(chǎn)品的筆記,用戶(hù)就有了一個(gè)明確的概念。所以系統(tǒng)根據(jù)平臺(tái)上大量的筆記信息和用戶(hù)瀏覽的行為,可以從中提煉出哪一些信息對(duì)某個(gè)特定場(chǎng)景下的用戶(hù)來(lái)說(shuō)是有價(jià)值的,平臺(tái)就成為了一個(gè)智能的小助手。
小紅書(shū)會(huì)分析用戶(hù)行為,也會(huì)判斷用戶(hù)長(zhǎng)期的行為和短期的興趣點(diǎn),這是會(huì)變化的。例如,一個(gè)人會(huì)看很多健身器材、運(yùn)動(dòng)服裝、健身器械的一些筆記,可能到了某一個(gè)階段會(huì)突然開(kāi)始關(guān)注一些出國(guó)的時(shí)候需要準(zhǔn)備的東西,就表示這個(gè)用戶(hù)近期有出國(guó)旅游的需求的,可以短期內(nèi)針對(duì)他推薦一些出國(guó)相關(guān)的信息。而一些年輕的用戶(hù)到了某一些階段突然關(guān)注母嬰用品、孕期維生素、玩具等,則表示這個(gè)用戶(hù)可能開(kāi)始做爸爸/媽媽了,就要針對(duì)他分享一些在人生中處在相似階段的用戶(hù)的生活筆記,這對(duì)于他們是有價(jià)值的信息。
除了上述用戶(hù)行為,圖像的理解、文本的分析也是小紅書(shū)需要解決的問(wèn)題。郄小虎表示,在小紅書(shū)的應(yīng)用上,圖像很重要,因?yàn)楹芏鄷r(shí)候用戶(hù)的需求信息很難用文本來(lái)描述,這時(shí)候通過(guò)圖像的相似度來(lái)找關(guān)聯(lián)是一種更加有效的方式,尤其是在像穿搭,這個(gè)品類(lèi)里面,就找到風(fēng)格類(lèi)似的,這樣的一些圖象,是有更大的,對(duì)用戶(hù)來(lái)說(shuō)有更大的發(fā)現(xiàn)價(jià)值。
文本方面,技術(shù)上的一個(gè)難點(diǎn),需要對(duì)用戶(hù)所描述的,整體的上下文有一個(gè)非常深入的了解,比如,用戶(hù)筆記中出現(xiàn)“巧克力中的愛(ài)馬仕”、“牙膏中的愛(ài)馬仕”等等,這個(gè)時(shí)候,不能因?yàn)槌霈F(xiàn)“愛(ài)馬仕”一詞就判斷該筆記和愛(ài)馬仕是相關(guān)的,還是要看它在上下文中是如何出現(xiàn)的,才能做到準(zhǔn)確的推薦。
人工智能能夠創(chuàng)造新的消費(fèi)體驗(yàn)
談到小紅書(shū)的未來(lái),郄小虎認(rèn)為,目前小紅書(shū)給用戶(hù)提供的主要還是一種瀏覽的體驗(yàn),小紅書(shū)希望成為用戶(hù)的一個(gè)智能助手,理解用戶(hù)的需求并幫助用戶(hù)完成他的心愿,整個(gè)需求的滿(mǎn)足還有很大的提升空間,通過(guò)機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用,不斷分析和學(xué)習(xí)用戶(hù)的行為,可以使系統(tǒng)變得越來(lái)越聰明,能夠讓用戶(hù)更加有效地找到想要的信息或者想買(mǎi)的商品。
來(lái)源:CSDN
刷新相關(guān)文章
我要評(píng)論
人物專(zhuān)訪more >
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車(chē)
-
3數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書(shū)》重