【AI大模型展】天云數(shù)據(jù)Elpis——強(qiáng)化學(xué)習(xí)后訓(xùn)練國(guó)產(chǎn)信創(chuàng)大模型
【數(shù)據(jù)猿導(dǎo)讀】 該AI大模型由天云數(shù)據(jù)投遞并參與數(shù)智猿×數(shù)據(jù)猿×上海大數(shù)據(jù)聯(lián)盟共同推出的《2025中國(guó)數(shù)智產(chǎn)業(yè)AI大模型先鋒企業(yè)》榜單/獎(jiǎng)項(xiàng)評(píng)選。

該AI大模型由天云數(shù)據(jù)投遞并參與數(shù)智猿×數(shù)據(jù)猿×上海大數(shù)據(jù)聯(lián)盟共同推出的《2025中國(guó)數(shù)智產(chǎn)業(yè)AI大模型先鋒企業(yè)》榜單/獎(jiǎng)項(xiàng)評(píng)選。
天云數(shù)據(jù)Elpis VR是基于高效低成本數(shù)據(jù)合成技術(shù)、可驗(yàn)證強(qiáng)化學(xué)習(xí)的領(lǐng)域增強(qiáng)、多策略偏好調(diào)優(yōu),通過(guò)全流程自動(dòng)化分布式訓(xùn)練構(gòu)建的強(qiáng)化學(xué)習(xí)后訓(xùn)練國(guó)產(chǎn)信創(chuàng)大語(yǔ)言模型,具備即插即用和快速微調(diào)的能力,通過(guò)強(qiáng)化學(xué)習(xí)融合了人類高階知識(shí),通過(guò)數(shù)據(jù)合成降低整體訓(xùn)練成本。
應(yīng)用場(chǎng)景/使用群體
一、應(yīng)用場(chǎng)景
場(chǎng)景一:政務(wù)智能化
政策分析與公文處理:自動(dòng)解析政策文件,生成符合政務(wù)規(guī)范的解讀報(bào)告。
智能政務(wù)助手:支持地方方言和政務(wù)術(shù)語(yǔ)的智能問(wèn)答,提升政務(wù)服務(wù)效率。
信創(chuàng)適配:符合國(guó)產(chǎn)化替代要求,適配黨政機(jī)關(guān)自主可控技術(shù)體系。
場(chǎng)景二:金融合規(guī)與智能投顧
智能風(fēng)控與反洗錢:基于多源數(shù)據(jù)生成合規(guī)報(bào)告,降低人工審核成本。
財(cái)富管理助手:快速微調(diào)適配銀行、證券等機(jī)構(gòu)的投資咨詢需求。
信創(chuàng)適配:支持國(guó)產(chǎn)化數(shù)智技術(shù)平臺(tái),確保數(shù)據(jù)安全。
場(chǎng)景三:工業(yè)制造與知識(shí)管理
設(shè)備故障診斷:結(jié)合企業(yè)維修日志,快速構(gòu)建故障知識(shí)庫(kù)。
工藝優(yōu)化與培訓(xùn):基于技術(shù)手冊(cè)、操作指南提供答疑服務(wù),降低培訓(xùn)成本。
信創(chuàng)適配:可在國(guó)產(chǎn)工業(yè)服務(wù)器部署,適配制造業(yè)數(shù)據(jù)安全需求。
場(chǎng)景四:醫(yī)療健康與輔助診斷
電子病歷結(jié)構(gòu)化:自動(dòng)解析非結(jié)構(gòu)化病歷,生成標(biāo)準(zhǔn)化診療記錄。
醫(yī)學(xué)知識(shí)問(wèn)答:基于合成數(shù)據(jù)增強(qiáng)罕見(jiàn)病案例庫(kù),輔助醫(yī)生決策。
信創(chuàng)適配:支持國(guó)產(chǎn)醫(yī)療云平臺(tái),符合醫(yī)療數(shù)據(jù)合規(guī)要求。
場(chǎng)景五:教育科研與智能輔導(dǎo)
個(gè)性化學(xué)習(xí)助手:根據(jù)學(xué)生需求生成定制化學(xué)習(xí)方案、習(xí)題和解析。
科研文獻(xiàn)分析:快速提煉論文核心觀點(diǎn),輔助學(xué)術(shù)研究。
信創(chuàng)適配:可在國(guó)產(chǎn)教育信息化平臺(tái)部署,滿足數(shù)據(jù)本地化要求。
二、核心使用群體
1、政府機(jī)構(gòu)與事業(yè)單位
地方政府信息中心、政務(wù)服務(wù)大廳、公共安全部門(如公安、應(yīng)急管理)
2. 金融機(jī)構(gòu)與金融科技公司
銀行、證券、保險(xiǎn)公司的科技部門、金融監(jiān)管機(jī)構(gòu)(如央行、銀保監(jiān)會(huì))、金融科技初創(chuàng)企業(yè)
3. 高端制造與工業(yè)企業(yè)
制造業(yè)企業(yè)研發(fā)中心、工業(yè)互聯(lián)網(wǎng)平臺(tái)、設(shè)備運(yùn)維服務(wù)商
4. 醫(yī)療機(jī)構(gòu)與健康科技企業(yè)
三甲醫(yī)院信息科、互聯(lián)網(wǎng)醫(yī)療平臺(tái)、醫(yī)藥研發(fā)企業(yè)
5. 教育機(jī)構(gòu)與科研單位
高校人工智能實(shí)驗(yàn)室、K12智慧教育服務(wù)商、在線教育平臺(tái)
產(chǎn)品功能
天云數(shù)據(jù)Elpis大模型提供的是基模能力,基于基模能力,可以面向企業(yè)提供開(kāi)箱即用的AI服務(wù),還可以拓展垂直領(lǐng)域應(yīng)用場(chǎng)景。天云數(shù)據(jù)數(shù)智平臺(tái)應(yīng)用均是基于Elpis構(gòu)建:
模型能力
一、強(qiáng)化學(xué)習(xí)是訓(xùn)推一體的后訓(xùn)練架構(gòu),與預(yù)訓(xùn)練有本質(zhì)區(qū)別
強(qiáng)化學(xué)習(xí)則采用完全不同的范式——“訓(xùn)推一體”,相當(dāng)于“做練習(xí)題”,只有自己懂了方法才能得到正確答案。其機(jī)制包括獎(jiǎng)勵(lì)驅(qū)動(dòng)、環(huán)境交互、自主探索。
二、獎(jiǎng)勵(lì)工程取代了提示工程,成為后訓(xùn)練時(shí)代的關(guān)鍵方法
后訓(xùn)練獎(jiǎng)勵(lì)工程突破了預(yù)訓(xùn)練對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的依賴、賦予了模型真正的目標(biāo)導(dǎo)向性、為復(fù)雜任務(wù)的分解和解決提供了自然框架,模型可以通過(guò)分層獎(jiǎng)勵(lì)機(jī)制來(lái)攻克難題。這種轉(zhuǎn)變不僅提升了模型性能,更重要的是開(kāi)創(chuàng)了AI發(fā)展的新范式,為通用人工智能的實(shí)現(xiàn)提供了可行路徑。
三、強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)是訓(xùn)練數(shù)據(jù)之外的獨(dú)立數(shù)據(jù)類別
強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)機(jī)制代表了一種全新的數(shù)據(jù)范式——它不再是固定的訓(xùn)練樣本,而是來(lái)自環(huán)境、用戶或特定目標(biāo)的動(dòng)態(tài)反饋信號(hào)。這種獎(jiǎng)勵(lì)數(shù)據(jù)具有獨(dú)立于訓(xùn)練數(shù)據(jù)、永不枯竭的特性,為AI的持續(xù)進(jìn)化提供了無(wú)限可能。
四、強(qiáng)化學(xué)習(xí)的探索機(jī)制,用不確定性換取突破性進(jìn)化
強(qiáng)化學(xué)習(xí)開(kāi)創(chuàng)性地采用"用不確定性換取獎(jiǎng)勵(lì)"的創(chuàng)新機(jī)制,通過(guò)工程化的方法,主動(dòng)保留那些低概率但可能帶來(lái)高回報(bào)的行為選項(xiàng),從而在算法層面實(shí)現(xiàn)了對(duì)"熵坍縮"的有效延緩。不僅顯著提升了模型性能的上限,更賦予了AI系統(tǒng)類似人類的"冒險(xiǎn)精神"。
技術(shù)說(shuō)明
1. RLVR:面向復(fù)雜推理能力的強(qiáng)化學(xué)習(xí)范式
RLVR是利用具備明確、可自動(dòng)化驗(yàn)證的獎(jiǎng)勵(lì)信號(hào)來(lái)替代傳統(tǒng)強(qiáng)化學(xué)習(xí)中對(duì)人類反饋的依賴,從而高效、規(guī)?;靥嵘P偷奶囟芰?,尤其是邏輯推理、數(shù)學(xué)計(jì)算和代碼生成等復(fù)雜任務(wù)。
技術(shù)要點(diǎn):
自動(dòng)化獎(jiǎng)勵(lì)機(jī)制:與依賴人工標(biāo)注進(jìn)行偏好排序的RLHF不同,RLVR將獎(jiǎng)勵(lì)函數(shù)建立在可被程序自動(dòng)校驗(yàn)的結(jié)果之上。例如,在代碼生成任務(wù)中,獎(jiǎng)勵(lì)信號(hào)直接與代碼是否能通過(guò)單元測(cè)試掛鉤;在數(shù)學(xué)問(wèn)題上,則與最終答案是否正確相關(guān)聯(lián)。這種機(jī)制擺脫了人工標(biāo)注的規(guī)模與成本限制。
精準(zhǔn)對(duì)齊目標(biāo)能力:通過(guò)將模型的探索方向與“可驗(yàn)證”的正確結(jié)果強(qiáng)行綁定,RLVR能夠極其精準(zhǔn)地強(qiáng)化模型在特定領(lǐng)域的“求解”能力。模型生成的每一次輸出,都會(huì)經(jīng)過(guò)驗(yàn)證器的評(píng)判,獲得正向或負(fù)向的反饋,模型則通過(guò)策略優(yōu)化算法不斷調(diào)整自身參數(shù),以最大化獲得正向獎(jiǎng)勵(lì)的概率。
提升推理路徑的確定性:經(jīng)過(guò)RLVR優(yōu)化的模型,在處理同類問(wèn)題時(shí),能夠更穩(wěn)定、更直接地生成通往正確答案的推理路徑。它不僅學(xué)會(huì)了“什么是正確答案”,更重要的是掌握了“如何穩(wěn)定地得到正確答案”。這顯著提升了模型在單次調(diào)用中的準(zhǔn)確率,使其在需要高確定性輸出的應(yīng)用場(chǎng)景中表現(xiàn)更可靠。
規(guī)模化與效率:由于獎(jiǎng)勵(lì)的生成和驗(yàn)證過(guò)程是自動(dòng)化的,我們可以在極大規(guī)模的問(wèn)題集上對(duì)模型進(jìn)行持續(xù)、高強(qiáng)度的迭代訓(xùn)練,極大地加速了模型在特定技能象限上的進(jìn)化速度,這是傳統(tǒng)依賴人工標(biāo)注的優(yōu)化方法難以比擬的。
2. 大模型語(yǔ)料數(shù)據(jù)合成:構(gòu)建高質(zhì)量指令微調(diào)的基石
數(shù)據(jù)質(zhì)量是決定大模型能力上限的核心要素。天云數(shù)據(jù)借鑒并發(fā)展了業(yè)界前沿的數(shù)據(jù)合成實(shí)踐,建立了一套成熟、可控的大規(guī)模高質(zhì)量語(yǔ)料數(shù)據(jù)合成體系。該體系旨在通過(guò)程序化、模型化的方式,生成海量、多樣且具備特定技能屬性的指令微調(diào)數(shù)據(jù),從而低成本、高效率地引導(dǎo)模型學(xué)會(huì)遵循指令、掌握新知識(shí)和新技能。
技術(shù)要點(diǎn):
“教師-學(xué)生”模式的指令生成:我們采用一個(gè)或多個(gè)能力更強(qiáng)的“教師模型”,基于少量高質(zhì)量的人工編寫“種子指令”,通過(guò)精心設(shè)計(jì)的提示工程,驅(qū)動(dòng)教師模型生成海量、多樣化的新指令。這個(gè)過(guò)程并非簡(jiǎn)單的模仿,而是通過(guò)指令進(jìn)化等策略,系統(tǒng)性地提升生成指令的復(fù)雜度、新穎性和領(lǐng)域覆蓋度。
多維度、多視角的指令設(shè)計(jì):為了確保合成數(shù)據(jù)的多樣性和深度,我們?cè)谥噶钌蛇^(guò)程中引入了“角色”概念。通過(guò)為教師模型設(shè)定不同的角色,可以引導(dǎo)其從特定專業(yè)視角出發(fā),創(chuàng)造出符合該領(lǐng)域思維方式和知識(shí)體系的指令及高質(zhì)量回答,從而構(gòu)建出具備專業(yè)壁壘的訓(xùn)練數(shù)據(jù)集。
合成數(shù)據(jù)的質(zhì)量控制與過(guò)濾:并非所有合成數(shù)據(jù)都具備高價(jià)值。我們建立了一套自動(dòng)化的數(shù)據(jù)過(guò)濾與清洗流水線。該流水線利用一系列指標(biāo)和輔助模型,對(duì)生成的數(shù)據(jù)進(jìn)行嚴(yán)格篩選,剔除簡(jiǎn)單、重復(fù)、有偏見(jiàn)或事實(shí)性錯(cuò)誤的內(nèi)容,確保最終用于模型訓(xùn)練的每一條數(shù)據(jù)都是高信息密度且準(zhǔn)確的。
偏好數(shù)據(jù)與直接策略優(yōu)化的結(jié)合:除了生成“指令-回答”對(duì)用于監(jiān)督微調(diào)(SFT)外,我們還利用合成技術(shù)生成大量的偏好數(shù)據(jù)對(duì)。這些數(shù)據(jù)可以直接用于直接策略優(yōu)化等更先進(jìn)的對(duì)齊技術(shù),讓模型在沒(méi)有顯式獎(jiǎng)勵(lì)模型的情況下,也能高效地學(xué)習(xí)到人類的偏好,使其回答更符合用戶的期望。
閉環(huán)迭代的數(shù)據(jù)生態(tài):我們將模型在實(shí)際應(yīng)用中的表現(xiàn)數(shù)據(jù),以及新合成的數(shù)據(jù),持續(xù)地反饋到數(shù)據(jù)生成和篩選流程中,形成一個(gè)數(shù)據(jù)驅(qū)動(dòng)的閉環(huán)迭代系統(tǒng)。這使得我們的數(shù)據(jù)集能夠不斷進(jìn)化,動(dòng)態(tài)地彌補(bǔ)模型的短板,并快速響應(yīng)新興的知識(shí)領(lǐng)域和應(yīng)用需求。
服務(wù)客戶
某股份制商業(yè)銀行惠企政策智能匹配:
采用人工智能技術(shù)將政策的核心要素、范圍等相關(guān)信息抽取成“知識(shí)”,并構(gòu)建對(duì)應(yīng)的模型,完成知識(shí)沉淀。根據(jù)企業(yè)實(shí)際情況精確匹配適用的惠企政策,并對(duì)企業(yè)進(jìn)行推送,實(shí)現(xiàn)自動(dòng)化處理。實(shí)現(xiàn)從需求方出發(fā)的流程轉(zhuǎn)換。平臺(tái)實(shí)現(xiàn)了精準(zhǔn)的政策解讀,通過(guò)自然語(yǔ)言技術(shù)構(gòu)建了豐富的政策標(biāo)簽體系,獲得惠企政策知識(shí);通過(guò)向企業(yè)提供政策匹配服務(wù),擴(kuò)大政務(wù)服務(wù)范圍,爭(zhēng)取更多優(yōu)質(zhì)企業(yè)落戶地市;通過(guò)將企業(yè)核心要素與政策要素的碰撞,讓政府更加了解企業(yè)經(jīng)營(yíng)狀況,提前發(fā)現(xiàn)企業(yè)經(jīng)營(yíng)風(fēng)險(xiǎn);沉淀惠企政策知識(shí)包,并為新的惠企政策提供支撐。
上線首周:解讀惠企政策超過(guò)400條,匹配企業(yè)超過(guò)1000家,累計(jì)為企業(yè)提供政策解讀服務(wù)達(dá)到近6000次。
某直轄市政務(wù)政府公文自動(dòng)生成:
天云數(shù)據(jù)Elpis產(chǎn)品在某直轄市部署,應(yīng)用在政府公文自動(dòng)生成不僅通過(guò)實(shí)體抽取、統(tǒng)計(jì)、計(jì)算及內(nèi)容擴(kuò)寫等完成了政府公文的自動(dòng)生成,還通過(guò)代碼處理抽取進(jìn)行數(shù)據(jù)累加匯總以及根據(jù)生成內(nèi)容提供Top 3訴求依據(jù)子標(biāo)題、包括相關(guān)建議的大小標(biāo)題。
某國(guó)資企業(yè):
部署天云數(shù)據(jù)多模態(tài)大模型,系統(tǒng)可精準(zhǔn)識(shí)別并分析30余類安全規(guī)范執(zhí)行情況,并支持開(kāi)放語(yǔ)義的泛場(chǎng)景發(fā)現(xiàn)與分析。其獨(dú)創(chuàng)的區(qū)域智能管控技術(shù),能通過(guò)連續(xù)幀實(shí)時(shí)進(jìn)行復(fù)雜邏輯監(jiān)測(cè),例如人員未按要求著重并進(jìn)入生產(chǎn)區(qū)域、未按規(guī)范手冊(cè)作業(yè)或高危設(shè)備操流程不規(guī)范等行為,并觸發(fā)多級(jí)聯(lián)動(dòng)報(bào)警機(jī)制。憑借行業(yè)領(lǐng)先的AI處理能力,系統(tǒng)可在10秒內(nèi)完成從異常識(shí)別到生成完整分析報(bào)告的全流程,大幅提升企業(yè)安全管理效率。
某行業(yè)科技機(jī)構(gòu):
部署天云數(shù)據(jù)多模態(tài)大模型,將廣告的實(shí)際投放效果(如點(diǎn)擊率、轉(zhuǎn)化率)作為獎(jiǎng)勵(lì)信號(hào),反向優(yōu)化內(nèi)容生成策略。這使得廣告不再是“一次性生成”,而是能夠根據(jù)市場(chǎng)反饋持續(xù)迭代支持制作多樣化的廣告形式涵蓋產(chǎn)品展示、品牌形象宣傳、營(yíng)銷推廣等各類視頻內(nèi)容,并針對(duì)不同媒體平臺(tái)的傳播特性和受眾特征進(jìn)行智能優(yōu)化適配。聯(lián)手北京科技記者編輯協(xié)會(huì)、中央廣播電視總臺(tái)、北京廣播電視臺(tái)、北京科技報(bào)社打造的“每月科學(xué)流言榜”項(xiàng)目,獲北京市科學(xué)技術(shù)協(xié)會(huì)首都科學(xué)傳播優(yōu)秀案例。
關(guān)于企業(yè)
·天云數(shù)據(jù)
天云數(shù)據(jù),兩度榮獲CAAI人工智能獎(jiǎng)項(xiàng)“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”,首批國(guó)家級(jí)專精特新小巨人企業(yè),北京市科學(xué)技術(shù)獎(jiǎng)廠商,提供L5級(jí)別MaaS平臺(tái)服務(wù)。
上層MaaS平臺(tái)產(chǎn)品提供多芯多租戶多集群統(tǒng)一運(yùn)營(yíng)管理、構(gòu)建彈性智能體工作流服務(wù),無(wú)縫對(duì)接業(yè)務(wù)流程和跨應(yīng)用數(shù)據(jù),支撐企業(yè)業(yè)務(wù)應(yīng)用智能化重構(gòu)。MaaS模型池由下層Elpis系列后訓(xùn)練基礎(chǔ)模型支撐,包括多模態(tài)和嚴(yán)謹(jǐn)推理的訓(xùn)推一體強(qiáng)化學(xué)習(xí)Elpis-VR,面向具身智能的空間視覺(jué)語(yǔ)義的端到端Elpis-VLS及Elpis-VLA模型。
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過(guò)的資訊
-
1【AI Agent展】靈感島AI Agent——AIGC
-
2【數(shù)智化人物展】眾創(chuàng)車聯(lián)CTO胡銀揚(yáng):以
-
3【數(shù)智化CIO展】南京市中醫(yī)院信息中心副
-
4新態(tài)勢(shì)·新實(shí)戰(zhàn) | CSOP 2025 網(wǎng)絡(luò)安
-
5【AI大模型展】天云數(shù)據(jù)Elpis——強(qiáng)化學(xué)
-
6【數(shù)智化人物展】景聯(lián)文科技CEO劉云濤:
-
7Data Agent時(shí)代,不要做孤膽英雄
-
8企業(yè)微信5.0推出三大AI新能力;追覓官宣
-
9【數(shù)智化人物展】百煉智能創(chuàng)始人兼CEO馮
-
10【數(shù)智化人物展】首衡科技CTO李蒙:算法
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
