解密網(wǎng)易數(shù)帆DataOps“三劍客”:從數(shù)據(jù)開發(fā)治理、指標(biāo)中臺(tái)到ChatBI
原創(chuàng) 一蓑煙雨 | 2023-11-08 19:49
【數(shù)據(jù)猿導(dǎo)讀】 近日,以“數(shù)智聚力,共赴新程”為主題的2023網(wǎng)易數(shù)字+大會(huì)在杭州召開。在這次大會(huì)上,數(shù)據(jù)猿采訪了網(wǎng)易副總裁、網(wǎng)易數(shù)帆總經(jīng)理汪源,網(wǎng)易數(shù)帆大數(shù)據(jù)產(chǎn)品線總經(jīng)理余利華,對(duì)網(wǎng)易數(shù)帆的最新發(fā)展策略和數(shù)據(jù)技術(shù)產(chǎn)品體系有一個(gè)全面的了解。

近日,以“數(shù)智聚力,共赴新程”為主題的2023網(wǎng)易數(shù)字+大會(huì)在杭州召開。在這次大會(huì)上,數(shù)據(jù)猿采訪了網(wǎng)易副總裁、網(wǎng)易數(shù)帆總經(jīng)理汪源,網(wǎng)易數(shù)帆大數(shù)據(jù)產(chǎn)品線總經(jīng)理余利華,對(duì)網(wǎng)易數(shù)帆的最新發(fā)展策略和數(shù)據(jù)技術(shù)產(chǎn)品體系有一個(gè)全面的了解。
網(wǎng)易副總裁、網(wǎng)易數(shù)帆總經(jīng)理汪源
在這次大會(huì)上,網(wǎng)易數(shù)帆進(jìn)一步闡述DataOps方法論,介紹了數(shù)據(jù)開發(fā)治理平臺(tái)EasyData的新功能,發(fā)布了指標(biāo)中臺(tái)EasyMetrics,以及ChatBI的最新功能。接下來,我們就網(wǎng)易數(shù)帆的一系列新品進(jìn)行分析,并探索他們隱藏的關(guān)系。
EasyData,降低數(shù)據(jù)開發(fā)治理門檻
數(shù)據(jù)開發(fā)治理的實(shí)踐中,開發(fā)者常常需要面對(duì)一系列復(fù)雜且多維的挑戰(zhàn)。具體來看:
隨著數(shù)據(jù)源和格式的日益多樣化,技術(shù)人員必須掌握各類系統(tǒng)和工具的特性,同時(shí)還要跟上數(shù)據(jù)庫技術(shù)的迅猛發(fā)展步伐。數(shù)據(jù)質(zhì)量的確保變成了一場與數(shù)據(jù)錯(cuò)誤、重復(fù)和不完整性的持久戰(zhàn),且治理工作往往難以自動(dòng)化,消耗了大量的人力資源。數(shù)據(jù)安全性與合規(guī)性的要求也在不斷變化,為開發(fā)團(tuán)隊(duì)增添了合規(guī)性調(diào)整的壓力。與此同時(shí),系統(tǒng)的性能和擴(kuò)展性受數(shù)據(jù)量激增的挑戰(zhàn),需要不斷優(yōu)化以支撐大數(shù)據(jù)時(shí)代的需求。
此外,SQL腳本和數(shù)據(jù)模型的持續(xù)維護(hù)是保持治理效率和質(zhì)量的關(guān)鍵,但往往由于缺少標(biāo)準(zhǔn)化和自動(dòng)化,使得新團(tuán)隊(duì)成員難以快速上手。技術(shù)債務(wù)的積累,可能導(dǎo)致在未來的開發(fā)和維護(hù)中需要支付更高的代價(jià)。
正是因?yàn)檫@些難點(diǎn),提高了數(shù)據(jù)開發(fā)治理的門檻,讓從業(yè)人員苦不堪言。
為了降低數(shù)據(jù)開發(fā)門檻,網(wǎng)易數(shù)帆EasyData數(shù)據(jù)開發(fā)治理平臺(tái)進(jìn)行了一系列的創(chuàng)新。比如,新增了可視化開發(fā)的新組件,可視化開發(fā)組件內(nèi)置100+高性能算子,實(shí)現(xiàn)72%的數(shù)據(jù)開發(fā)覆蓋率,能夠使得數(shù)據(jù)開發(fā)成本降低25%;“SQL Scan”阻隔問題代碼,旨在解決低質(zhì)量代碼導(dǎo)致線上數(shù)據(jù)故障時(shí)有發(fā)生的問題。
此外,尤其值得關(guān)注的是,為了解決SQL編寫中存在的問題,網(wǎng)易數(shù)帆將大模型技術(shù)引入數(shù)據(jù)開發(fā)治理領(lǐng)域,推出SQL補(bǔ)全領(lǐng)域大模型,并在此基礎(chǔ)上研發(fā)SQL Copilot。該產(chǎn)品的特點(diǎn)包括:
1、高質(zhì)量訓(xùn)練數(shù)據(jù)集
高質(zhì)量的訓(xùn)練數(shù)據(jù)集,是SQL Copilot大模型表現(xiàn)出色的關(guān)鍵因素之一。SQL Copilot所使用的數(shù)據(jù)集,覆蓋了從開源社區(qū)到專業(yè)業(yè)務(wù)場景的各種SQL腳本。
這些數(shù)據(jù)集的多樣性,確保了模型能夠理解廣泛的查詢模式和結(jié)構(gòu),而特定業(yè)務(wù)場景的數(shù)據(jù),則讓模型更好地適應(yīng)特定的應(yīng)用需求。模型訓(xùn)練時(shí)引入的庫表元數(shù)據(jù),進(jìn)一步增強(qiáng)了這種適應(yīng)性,讓SQL Copilot不僅僅是在語法層面上提供幫助,更能夠在邏輯和語義層面上提供深入的支持。
2、優(yōu)秀的SQL代碼補(bǔ)全能力
在實(shí)際應(yīng)用中,編寫SQL語句不僅涉及對(duì)語法的理解,還需要對(duì)數(shù)據(jù)庫的結(jié)構(gòu)和業(yè)務(wù)邏輯有深刻的認(rèn)識(shí)。傳統(tǒng)的IDE和代碼編輯器通常只提供了基礎(chǔ)的語法提示和錯(cuò)誤檢查功能,而缺乏對(duì)于開發(fā)者意圖的深層理解。
SQL Copilot通過大模型技術(shù),理解和學(xué)習(xí)了SQL的語法結(jié)構(gòu)。不同于Token級(jí)的補(bǔ)全,SQL Copilot還可以在行級(jí)甚至代碼塊級(jí)別提供建議,這意味著它能夠理解更長的代碼序列和更復(fù)雜的代碼邏輯。
SQL Copilot的另一個(gè)顯著特點(diǎn),是對(duì)多種SQL語法的支持。在當(dāng)前的大數(shù)據(jù)生態(tài)中,不同的技術(shù)棧可能會(huì)使用不同的SQL語法,如Hive、Spark、Impala等。SQL Copilot通過訓(xùn)練模型覆蓋了這些語法,能夠無縫切換并提供針對(duì)性的補(bǔ)全建議。
據(jù)網(wǎng)易數(shù)帆大數(shù)據(jù)產(chǎn)品線總經(jīng)理余利華介紹,目前,SQL Copilot的代碼采納率已顯著超過20%,并且還在持續(xù)提升。
易數(shù)帆大數(shù)據(jù)產(chǎn)品線總經(jīng)理余利華
3、低成本
從部署角度看,SQL Copilot的高效性也體現(xiàn)在其低成本上。相對(duì)于需要大規(guī)模計(jì)算資源的某些大模型,SQL Copilot的運(yùn)行僅需要兩張消費(fèi)級(jí)顯卡,大幅降低了對(duì)硬件的需求。這使得即便是資源有限的小型企業(yè)或個(gè)人開發(fā)者,也能夠享受到AI增強(qiáng)的編程輔助。
4、低時(shí)延
在實(shí)時(shí)編程輔助方面,SQL Copilot同樣表現(xiàn)出色。其推理速度優(yōu)于一般的自然語言處理模型如ChatGPT,為用戶提供快速響應(yīng)的同時(shí),確保了SQL編寫的流暢性和實(shí)時(shí)性。低延遲的特性,對(duì)于開發(fā)者在構(gòu)建復(fù)雜查詢和進(jìn)行問題排查時(shí)尤為關(guān)鍵。
SQL Copilot的出現(xiàn),不僅是技術(shù)上的突破,也預(yù)示著數(shù)據(jù)開發(fā)治理方式的變革。通過降低學(xué)習(xí)門檻和提升開發(fā)效率,它為數(shù)據(jù)開發(fā)治理的一體化和自動(dòng)化提供了強(qiáng)大的技術(shù)支持。在推動(dòng)DataOps創(chuàng)新實(shí)踐的過程中,SQL Copilot成為了一個(gè)不可或缺的工具,它不僅提高了數(shù)據(jù)開發(fā)治理的智能水平,也為企業(yè)提供了更加靈活、高效的數(shù)據(jù)處理能力。
EasyMetrics,一次定義、多次復(fù)用的指標(biāo)中臺(tái)
在企業(yè)數(shù)據(jù)管理中,指標(biāo)是評(píng)價(jià)業(yè)務(wù)性能和決策支持的關(guān)鍵。但多數(shù)企業(yè)在指標(biāo)管理方面存在一些普遍問題,尤其是業(yè)務(wù)口徑不一致、指標(biāo)入口不統(tǒng)一和需求響應(yīng)慢,這些問題嚴(yán)重影響了企業(yè)的決策效率和數(shù)據(jù)管理的準(zhǔn)確性。
業(yè)務(wù)口徑不一致的問題,常常源于企業(yè)內(nèi)部多個(gè)部門或團(tuán)隊(duì)獨(dú)立定義和計(jì)算指標(biāo),缺乏統(tǒng)一的標(biāo)準(zhǔn)和平臺(tái)。當(dāng)同一個(gè)指標(biāo)在不同團(tuán)隊(duì)中有不同的定義和計(jì)算方法時(shí),會(huì)導(dǎo)致數(shù)據(jù)解讀的混亂和決策的錯(cuò)誤。
指標(biāo)入口不統(tǒng)一則表現(xiàn)在數(shù)據(jù)來源分散,缺乏一個(gè)集中的查詢和管理平臺(tái)。用戶需要從不同的系統(tǒng)收集和整理數(shù)據(jù),進(jìn)行多次轉(zhuǎn)換和對(duì)比,才能得到所需的指標(biāo),這無疑增加了工作量,也增加了出錯(cuò)的概率。
需求響應(yīng)慢則是在快速變化的商業(yè)環(huán)境中,數(shù)據(jù)需求變化迅速,但傳統(tǒng)的數(shù)據(jù)處理流程往往冗長,從需求提出到數(shù)據(jù)處理完成,往往需要數(shù)周甚至數(shù)月的時(shí)間,這使得數(shù)據(jù)無法在關(guān)鍵時(shí)刻為決策提供支持。
針對(duì)這些問題,網(wǎng)易數(shù)帆發(fā)布的EasyMetrics指標(biāo)中臺(tái),提供了創(chuàng)新的解決方案。EasyMetrics通過建立一個(gè)統(tǒng)一的指標(biāo)定義平臺(tái),解決了業(yè)務(wù)口徑不一致的問題。它允許用戶在中臺(tái)定義指標(biāo),并自動(dòng)同步到所有數(shù)據(jù)系統(tǒng)中,確保了各部門和團(tuán)隊(duì)使用的是統(tǒng)一口徑的數(shù)據(jù)。這不僅提高了數(shù)據(jù)的一致性,也節(jié)省了大量之前用于溝通協(xié)調(diào)的時(shí)間和精力。
對(duì)于指標(biāo)入口不統(tǒng)一的問題,EasyMetrics提供了一個(gè)集中的指標(biāo)庫,用戶可以在一個(gè)統(tǒng)一的界面查詢所有指標(biāo),無需切換不同的系統(tǒng)和工具。這大大提高了工作效率,也降低了錯(cuò)誤發(fā)生的風(fēng)險(xiǎn)。
至于需求響應(yīng)速度慢的問題,EasyMetrics通過自動(dòng)化的數(shù)據(jù)流程和智能化的指標(biāo)計(jì)算,大大加快了從需求提出到完成的周期,使企業(yè)能夠更快速地做出基于數(shù)據(jù)的決策。
此外,EasyMetrics通過引入指標(biāo)查詢語言,為用戶提供了一種更為高效和直觀的數(shù)據(jù)查詢方式。而引擎解耦設(shè)計(jì)確保了系統(tǒng)的高性能和可擴(kuò)展性,可以快速適應(yīng)不同數(shù)據(jù)源和計(jì)算需求的變化。與ChatBI智能問答系統(tǒng)的結(jié)合,更是讓數(shù)據(jù)的查詢和分析變得像聊天一樣簡單。
根據(jù)網(wǎng)易數(shù)帆的客戶實(shí)踐案例,指標(biāo)中臺(tái)EasyMetrics可以更好地解決了指標(biāo)口徑不一致的問題,實(shí)現(xiàn)了數(shù)據(jù)開發(fā)平均周期縮短3-5天,開發(fā)人力消耗減少30%。隨著數(shù)據(jù)管理需求的日益復(fù)雜化和細(xì)化,EasyMetrics的這種創(chuàng)新性解決方案,無疑將為更多企業(yè)在數(shù)據(jù)治理的道路上提供重要的助力。
數(shù)據(jù)開發(fā)治理平臺(tái)和指標(biāo)中臺(tái),有效提升了數(shù)據(jù)質(zhì)量,為上層的數(shù)據(jù)分析應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。在此之上,網(wǎng)易數(shù)帆的ChatBI,則通過對(duì)話式數(shù)據(jù)分析方式,進(jìn)一步降低數(shù)據(jù)消費(fèi)的門檻。對(duì)于網(wǎng)易數(shù)帆的ChatBI產(chǎn)品,數(shù)據(jù)猿發(fā)布的《對(duì)話即數(shù)據(jù)分析,網(wǎng)易數(shù)帆ChatBI做到了》,進(jìn)行了更深入的分析。
需要指出的是,網(wǎng)易數(shù)帆的數(shù)據(jù)開發(fā)治理平臺(tái)EasyData、指標(biāo)中臺(tái)EasyMetrics、對(duì)話式分析平臺(tái)ChatBI并不是孤立的,而是相互配合,構(gòu)成一個(gè)推動(dòng)數(shù)據(jù)消費(fèi)的閉環(huán)。
首先,數(shù)據(jù)開發(fā)治理平臺(tái)為企業(yè)提供了一個(gè)強(qiáng)大而靈活的工具,它可以幫助企業(yè)高效管理和維護(hù)數(shù)據(jù)。通過標(biāo)準(zhǔn)化流程和自動(dòng)化工具,它能確保數(shù)據(jù)的質(zhì)量和完整性,同時(shí)減少了人為錯(cuò)誤和不必要的重復(fù)勞動(dòng)。企業(yè)能夠通過這個(gè)平臺(tái)快速準(zhǔn)確地提取和處理數(shù)據(jù),確保數(shù)據(jù)的實(shí)時(shí)性和可靠性。
接下來,指標(biāo)中臺(tái)的建立,進(jìn)一步強(qiáng)化了數(shù)據(jù)治理。通過中臺(tái)定義和管理所有業(yè)務(wù)指標(biāo),企業(yè)能夠?qū)崿F(xiàn)指標(biāo)的標(biāo)準(zhǔn)化和一致性,也保證了不同團(tuán)隊(duì)和部門的數(shù)據(jù)口徑一致。此外,中臺(tái)還能夠跟蹤指標(biāo)的變化和使用情況,為企業(yè)提供數(shù)據(jù)治理的可視化,增強(qiáng)了決策支持系統(tǒng)的透明度。
網(wǎng)易數(shù)帆的ChatBI產(chǎn)品,是這一數(shù)據(jù)治理體系的前端應(yīng)用。通過大模型技術(shù),ChatBI允許用戶通過對(duì)話來查詢數(shù)據(jù)和生成報(bào)告,降低了數(shù)據(jù)分析的專業(yè)門檻。即使是非技術(shù)背景的用戶也能輕松獲取和理解數(shù)據(jù),這使得數(shù)據(jù)分析和決策支持不再是少數(shù)數(shù)據(jù)專家的專利,而是整個(gè)組織的共同實(shí)踐。
這三個(gè)產(chǎn)品的緊密配合,不僅僅實(shí)踐了網(wǎng)易數(shù)帆DataOps的理念,也為企業(yè)數(shù)智化轉(zhuǎn)型提供了一整套解決方案。通過更加精準(zhǔn)和高效的數(shù)據(jù)治理,企業(yè)能夠獲得更深入的業(yè)務(wù)洞察,優(yōu)化產(chǎn)品和服務(wù),提高運(yùn)營效率,創(chuàng)造新的商業(yè)價(jià)值。在這個(gè)基礎(chǔ)上,企業(yè)能夠更好地推動(dòng)數(shù)據(jù)消費(fèi)和數(shù)字經(jīng)濟(jì)的建設(shè)。
我們正站在一個(gè)新時(shí)代的門檻上,預(yù)示著大模型和大數(shù)據(jù)技術(shù)相互賦能、共同進(jìn)步的廣闊前景。企業(yè)和組織可以期待通過這種深度融合,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的最大化利用。隨著技術(shù)的迭代與創(chuàng)新,我們有理由相信,這一融合將賦予每個(gè)組織以前所未有的能力,幫助他們真正釋放蘊(yùn)藏在數(shù)據(jù)中的巨大價(jià)值。
文:一蓑煙雨 / 數(shù)據(jù)猿
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過的資訊
-
1OpenAI發(fā)布GPT-4 Turbo模型;PICO調(diào)整
-
2《2023中國各地區(qū)科創(chuàng)之星勢力圖2.0版》
-
311月11日,MatrixOne社區(qū)邀請(qǐng)您來深圳辦
-
4涉黃被罰之后,CEO又傳失聯(lián),斗魚何去何
-
5Ant Bailing Big Model will be op
-
6GPU公司摩爾線程啟動(dòng)人員優(yōu)化;馬斯克旗
-
7【AI大模型展】小i華藏通用大模型——打
-
8【AI大模型展】商湯科技日日新大模型Sens
-
9【AI大模型展】孟子GPT大模型——專注垂
-
10Netease Ding Lei: Economic globali
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
