擁抱“云上方舟”——OPPO大數(shù)據(jù)上云記
原創(chuàng) 月滿西樓 | 2025-07-07 18:54
【數(shù)據(jù)猿導(dǎo)讀】 OPPO與阿里云的合作,不只是一個項目,而是一個方向。

“OPPO與阿里云的合作,不只是一個項目,而是一個方向。
日益增長的計算和存儲需求,使得越來越多的企業(yè)將目光投向——上云。IDC如大陸一樣固定,但是業(yè)務(wù)的需求,尤其是大數(shù)據(jù)場景,有著明顯的潮汐模式;云計算的模式猶如海上方舟,任憑潮漲潮落,仍然能從容應(yīng)對。
將一個龐大且復(fù)雜的大數(shù)據(jù)平臺遷移到云端,遠(yuǎn)非簡單的“資源遷移”問題。尤其對于像OPPO這樣的大中型企業(yè)來說,涉及到數(shù)百PB的數(shù)據(jù)、近百萬離線計算任務(wù),還要處理不同系統(tǒng)和架構(gòu)的依賴問題,單純的“lift & shift”(遷移式上云)已經(jīng)不再適用。
那么,企業(yè)的數(shù)據(jù)平臺為什么要上云?如何上云?需要解決哪些核心挑戰(zhàn)?也許OPPO與阿里云的合作案例,可以給我們帶來一些啟發(fā)。
面向未來,
大數(shù)據(jù)基礎(chǔ)設(shè)施上云正在成為共識
大數(shù)據(jù)平臺上云,正在成為越來越多公司的共識。
過去兩年,這類項目在互聯(lián)網(wǎng)、制造、金融等行業(yè)已經(jīng)是常態(tài),但真正推進(jìn)到數(shù)百PB級別的完整數(shù)據(jù)遷移,并不多見。
OPPO是較早開始這項工程的終端企業(yè)之一。決定啟動整個大數(shù)據(jù)平臺的“搬棧上云”,是因為OPPO意識到,隨著企業(yè)的不斷發(fā)展壯大,未來的數(shù)據(jù)體量、任務(wù)規(guī)模和技術(shù)演進(jìn)路徑,將越來越需要一種全新的基礎(chǔ)設(shè)施來支撐。
相比傳統(tǒng)數(shù)據(jù)中心,云提供的極致彈性資源調(diào)度、靈活的存算分離架構(gòu)以及多維度可觀測能力,是更符合企業(yè)中長期演進(jìn)節(jié)奏的選擇。對于OPPO而言,這意味著不需要再為少數(shù)高峰業(yè)務(wù)維持長期過量的算力配置,資源可以根據(jù)任務(wù)變化在分鐘級完成調(diào)度。同時平臺能力從“資源提供”轉(zhuǎn)為“任務(wù)治理”,更多運維規(guī)則被固化進(jìn)系統(tǒng)和策略中。
OPPO和阿里云有多年的合作基礎(chǔ),雙方在多個系統(tǒng)級項目中已形成協(xié)作默契,對阿里云的技術(shù)棧和服務(wù)交付能力也已經(jīng)非常熟悉,此次數(shù)據(jù)搬棧上云,更是雙方協(xié)作進(jìn)行了整個數(shù)據(jù)平臺資源能力的整合升級,依托阿里云穩(wěn)定高效的計算、存儲、網(wǎng)絡(luò)能力,上云過程充分發(fā)揮OPPO大數(shù)據(jù)基礎(chǔ)架構(gòu)技術(shù)能力。
上云不僅是一個技術(shù)問題
很多公司對上云持有一種懷疑的態(tài)度,其中一個最關(guān)鍵的擔(dān)心是:上云后,數(shù)據(jù)安全是否有保障?OPPO上云前已經(jīng)對數(shù)據(jù)安全等級做好分級,高優(yōu)數(shù)據(jù)必須加密才可上云,并且,上云數(shù)據(jù)不涉及用戶數(shù)據(jù)。另外,阿里云具備工信部信通院頒發(fā)的大數(shù)據(jù)安全評估認(rèn)證以及可信云安全評估認(rèn)證,目前已經(jīng)有多家互聯(lián)網(wǎng)公司和一些對數(shù)據(jù)安全要求最嚴(yán)苛的金融公司使用阿里云,說明云上的數(shù)據(jù)安全保障機制已經(jīng)得到行業(yè)驗證,是值得信賴的。
技術(shù)層面看,上云,其中兩部分最為關(guān)鍵:海量數(shù)據(jù)和任務(wù)遷移到云上的過程;云上大數(shù)據(jù)基礎(chǔ)架構(gòu)建設(shè)。
這兩部分決定了上云的進(jìn)度和穩(wěn)定性,上云和云上建設(shè)方案,需要具備堅實的技術(shù)基礎(chǔ),更重要的是,對集群作業(yè)復(fù)雜度和云上環(huán)境要有清晰的認(rèn)識。
數(shù)百PB數(shù)據(jù)量,數(shù)十萬任務(wù)量,涉及公司軟硬件、互聯(lián)網(wǎng)服務(wù)等多種業(yè)務(wù)數(shù)據(jù),規(guī)模大、業(yè)務(wù)復(fù)雜度高。面對上云這個命題,不僅對OPPO大數(shù)據(jù)本身的技術(shù)能力提出考驗,同時也是對阿里云的基礎(chǔ)設(shè)施能力的一次考驗。
我們先看一下OPPO在云上大數(shù)據(jù)基礎(chǔ)架構(gòu)概覽:
如圖所示,整個實時、離線架構(gòu)在阿里云的IAAS層,存儲使用阿里云對象存儲OSS,上層的彈性調(diào)度、計算引擎、RSS等是OPPO自建。
OPPO是如何做到的
那么,這么難的項目,OPPO和阿里云是如何做成的呢?對于如此體量和復(fù)雜度的大數(shù)據(jù)平臺搬遷,僅靠一個系統(tǒng)或一個團(tuán)隊并不能完成全鏈條協(xié)作。OPPO與阿里云的合作,更像是一次“聯(lián)合技術(shù)項目”——雙方不是簡單的甲乙方關(guān)系,而是在架構(gòu)目標(biāo)、任務(wù)拆解、問題攻堅上共同推進(jìn)的團(tuán)隊。搬遷從一開始就不是“只把數(shù)據(jù)從A移到B”,而是涉及海量任務(wù)、數(shù)百PB級數(shù)據(jù)遷移,為了保證遷移過程中的業(yè)務(wù)連續(xù)性和性能穩(wěn)定,OPPO承擔(dān)了任務(wù)識別、架構(gòu)調(diào)整與業(yè)務(wù)節(jié)奏控制,阿里云則在產(chǎn)品能力、底層彈性架構(gòu)、調(diào)度調(diào)優(yōu)等方向提供體系化支撐。
比如在IO調(diào)度上,雙方經(jīng)歷了一個典型“系統(tǒng)級修復(fù)”的過程。初期,當(dāng)一些大任務(wù)在云上運行時出現(xiàn)讀寫不均衡、實例打滿等現(xiàn)象,OPPO業(yè)務(wù)團(tuán)隊通過內(nèi)部指標(biāo)快速定位風(fēng)險,阿里云則用內(nèi)核采樣工具追蹤到了IO調(diào)度在高吞吐場景下的瓶頸成因。最終通過鏈路優(yōu)化、架構(gòu)調(diào)整,將最耗資源的任務(wù)轉(zhuǎn)至獨立鏈路,解決了吞吐受限的問題。
還有一個常被提起的協(xié)作場景,發(fā)生在夜間任務(wù)高峰時段。為滿足OPPO快速彈性調(diào)度的需求,雙方圍繞ACK組件上線做了多輪優(yōu)化。從磁盤選型、鏡像緩存策略到操作系統(tǒng)PageSize調(diào)整,逐步將節(jié)點上線時間從數(shù)分鐘縮短至1分鐘內(nèi),使得彈性伸縮能真正應(yīng)用在日常的波峰波谷中,而不僅停留在“理論彈性”。
值得一提的是,雙方在應(yīng)急處理機制上也建立了快速協(xié)同流程。曾有一次規(guī)?;瘻y試中,某類任務(wù)“水位”陡升,短時間內(nèi)引發(fā)了ACK Coredns的性能瓶頸。OPPO發(fā)現(xiàn)問題后,第一時間聯(lián)動阿里云技術(shù)服務(wù)團(tuán)隊介入,雙方基于實時觀測體系完成診斷,并迅速調(diào)整部署架構(gòu),異?;謴?fù)時間控制在可接受范圍內(nèi)。這樣的快速反應(yīng)能力,成為系統(tǒng)級穩(wěn)定性的保障。
在架構(gòu)設(shè)計上,OPPO與阿里云也選擇了相對一致的“融合平臺”思路:統(tǒng)一的資源調(diào)度基座(ACK+倚天ARM)、統(tǒng)一的存儲鏈路(OSS-HDFS+Jindo加速)、統(tǒng)一的可觀測體系(ARMS+CMS+SLS),以及具備趨勢感知的彈性調(diào)度機制(Delete Cost+模型預(yù)測),共同構(gòu)建出一個既靈活又可控的云原生調(diào)度平臺。這一系列成果的達(dá)成,并不依賴某項技術(shù)的突破,而是基于雙方在業(yè)務(wù)理解、架構(gòu)能力、產(chǎn)品深度上的高匹配程度。OPPO提供了具有工程約束意識的業(yè)務(wù)拆解邏輯,阿里云則在每一個瓶頸點上提供了穩(wěn)定的產(chǎn)品與技術(shù)服務(wù)重保。
這個項目的成功,是兩個團(tuán)隊在“長期協(xié)同”中逐漸建立起的問題共識與節(jié)奏同步,是一次面向未來的能力共建。
OPPO正在建設(shè)的先進(jìn)架構(gòu)
大數(shù)據(jù)完成上云只是第一步,如何在云上跑得更快、更穩(wěn)、更省以及更自主,是OPPO大數(shù)據(jù)團(tuán)隊接下來要重點攻克的目標(biāo)。我們先看一下整體架構(gòu):
圖:OPPO云上大數(shù)據(jù)架架構(gòu)
此前我們提到,OPPO的大數(shù)據(jù)架構(gòu)以云上的 Kubernetes(K8s)作為計算資源底座,采用阿里云對象存儲(OSS)作為存儲基礎(chǔ),并在上層調(diào)度與計算引擎層使用了業(yè)界主流的開源組件,如YARN、Spark和Flink。
但在這套架構(gòu)中,還有幾個看似“陌生”的自研組件發(fā)揮了關(guān)鍵作用:HBO、Curvine Cache 和 MCN。
這些組件分別承擔(dān)著什么職責(zé)?它們又是如何提升云上大數(shù)據(jù)平臺能力的?
HBO(History Based Optimizer):顧名思義,這是一款基于歷史任務(wù)運行數(shù)據(jù)的優(yōu)化器,能夠通過任務(wù)運行記錄,智能調(diào)整資源參數(shù),提升整體執(zhí)行效率。
Curvine Cache:基于Rust自研的高性能分布式緩存系統(tǒng),旨在解決大規(guī)模數(shù)據(jù)處理過程中的 I/O 瓶頸問題。目前已正式開源(見附錄),適用于提升數(shù)據(jù)訪問速度并降低存儲開銷。
MCN:一個基于HDFS NameNode改造的元數(shù)據(jù)路由組件,支持與云上對象存儲系統(tǒng)的兼容集成,增強了平臺在云環(huán)境下的數(shù)據(jù)透明遷移能力。
據(jù)OPPO介紹,這三個組件從三個維度提升了其云上大數(shù)據(jù)平臺的能力:
1.更省資源:借助HBO對任務(wù)參數(shù)的動態(tài)優(yōu)化,有效壓縮云上資源使用。例如,通過任務(wù)資源壓實,云上ECS的物理CPU平均利用率可達(dá)80%左右。
2.更高穩(wěn)定性:Curvine提供了高性能的讀寫能力,支持重寫Spark Shuffle的底層邏輯,解決了Spark RSS在云盤下出現(xiàn)的熱點問題,并同時兼容Map Local Shuffle,實現(xiàn)一套方案覆蓋兩種Shuffle模式,提升系統(tǒng)穩(wěn)定性。
3.更快執(zhí)行:云上的存算分離架構(gòu)在一定程度上打破了“大數(shù)據(jù)移動計算不移動數(shù)據(jù)”的初心。Curvine作為緩存中間層,在離線計算中承擔(dān)熱數(shù)據(jù)緩存角色,顯著提升了數(shù)據(jù)讀取速度;在實時計算場景下,也可用于緩存Checkpoint,縮短任務(wù)重啟加載時間,加快任務(wù)恢復(fù)速度,同時還能有效控制OSS的讀請求次數(shù)和峰值帶寬成本。
4.更自主:大數(shù)據(jù)計算基于云上容器化方案實現(xiàn)高可用,核心技術(shù)在于大數(shù)據(jù)所依賴的存儲技術(shù)有自有技術(shù)能力,如果要保持在云上技術(shù)可控自主度,解決不同平臺間數(shù)據(jù)透明管理是關(guān)鍵。
此外,OPPO通過將傳統(tǒng)HDFS的NameNode改造成支持多種對象存儲的元數(shù)據(jù)節(jié)點,既繼承了HDFS在高性能和高可用方面的優(yōu)勢,又實現(xiàn)了數(shù)據(jù)的透明化遷移。
這一系列架構(gòu)增強手段,使得OPPO能夠在云上真正做到算力利用最大化、任務(wù)運行更穩(wěn)定、整體效率更高,并為未來多集群環(huán)境下的靈活擴(kuò)展打下堅實基礎(chǔ)。
這不是一個項目,而是一個方向
需要指出的是,OPPO這次大數(shù)據(jù)平臺的搬棧上云,不僅是一次系統(tǒng)性遷移工程,也是一次面向未來的基礎(chǔ)設(shè)施升級。
從結(jié)果看,上云讓任務(wù)調(diào)度更快了,資源使用更高效了,平臺運維更可觀測了。越來越多企業(yè)意識到,數(shù)據(jù)不只是“一個平臺”,而是“平臺能力的一部分”,必須做好基礎(chǔ)設(shè)施的準(zhǔn)備。而云原生架構(gòu)提供的彈性調(diào)度、統(tǒng)一資源池和策略化治理,恰恰是這種準(zhǔn)備的組成部分。
因此,OPPO的這次搬遷不是終點,而是一個起點:企業(yè)如何通過基礎(chǔ)架構(gòu)調(diào)整,為下一代能力體系留出空間。這種空間,不是物理意義上的容量,而是系統(tǒng)演化的余地——當(dāng)業(yè)務(wù)需要重構(gòu),模型需要上線,鏈路需要重排時,平臺是否能在“不中斷”的前提下完成切換。從IDC到云,從任務(wù)調(diào)度到策略驅(qū)動,從資源使用到能力開放,OPPO選擇的不只是一種部署方式,而是一次架構(gòu)哲學(xué)的轉(zhuǎn)變。它背后隱含的是一個判斷:未來企業(yè)的技術(shù)核心,不再是某個系統(tǒng),而是系統(tǒng)之間能否高效組合與持續(xù)演化。
阿里云和OPPO一起做對了什么?
1、阿里云經(jīng)過多年的技術(shù)積累,提供堅實的技術(shù)設(shè)施支撐,同時,近些年不斷降低云上資源成本,使得云上大規(guī)模數(shù)據(jù)成本逐步接近甚至低于自建IDC,才使得用戶有了將大規(guī)模數(shù)據(jù)存算上云的動機。
2、OPPO主動擁抱云上“技術(shù)方舟”,充分利用云上彈性特點,實現(xiàn)降本增效,實現(xiàn)大數(shù)據(jù)輕量化運營。
也許,這場合作,正預(yù)示著行業(yè)內(nèi)大數(shù)據(jù)上云“奇點"的來臨……
來源:數(shù)據(jù)猿