【AI大模型展】拓天大模型——高質(zhì)量數(shù)據(jù)的專業(yè)大模型
拓爾思 | 2024-07-12 21:09
【數(shù)據(jù)猿導(dǎo)讀】 該AI大模型由拓爾思投遞并參與數(shù)據(jù)猿與上海大數(shù)據(jù)聯(lián)盟聯(lián)合推出的《2024中國數(shù)智產(chǎn)業(yè)AI大模型先鋒企業(yè)》榜單/獎項(xiàng)評選。

拓天大模型
該AI大模型由拓爾思投遞并參與數(shù)據(jù)猿與上海大數(shù)據(jù)聯(lián)盟聯(lián)合推出的《2024中國數(shù)智產(chǎn)業(yè)AI大模型先鋒企業(yè)》榜單/獎項(xiàng)評選。
拓天大模型是凝聚拓爾思在NLP領(lǐng)域30年技術(shù)創(chuàng)新和積累、10余年高質(zhì)量數(shù)據(jù)和知識資產(chǎn)建設(shè)經(jīng)驗(yàn),以及在垂直行業(yè)10000多家企業(yè)級用戶應(yīng)用實(shí)踐的人工智能重大成果。
拓天大模型在自主可控、中文特性加強(qiáng)、專業(yè)知識加強(qiáng)、實(shí)時(shí)數(shù)據(jù)接入、內(nèi)容安全和價(jià)值觀對齊、客戶私有化部署等方面具有領(lǐng)先優(yōu)勢。
拓爾思自主研發(fā)的拓天大模型一體化平臺,在媒體、金融、政務(wù)、輿情、公安、專利等垂直行業(yè)已得到成功應(yīng)用。
應(yīng)用場景/使用群體
應(yīng)用場景:
1.政務(wù):公文輔助寫作、政策分析(政策智能解讀、政策核心內(nèi)容解讀、政策企業(yè)扶持、產(chǎn)業(yè)政策支持)、新一代政民互動;
2.金融:風(fēng)控輿情(風(fēng)險(xiǎn)預(yù)警助手、風(fēng)險(xiǎn)報(bào)告生成助手、風(fēng)險(xiǎn)知識查詢助手)、研報(bào)生成(投研搜索引擎、研報(bào)生成助手)智能客服(消費(fèi)者保護(hù))(客服數(shù)據(jù)智能分析助手、客服投訴處理助手)、自動業(yè)務(wù)批處理(合同審批助手、消保審查助手、內(nèi)控審計(jì)審查助手);
3.媒體:內(nèi)容生產(chǎn)智能助手、新一代搜索與推薦、多模態(tài)傳播與服務(wù);
4.輿情:輿情報(bào)告智能寫作、輿情分析問答助手;
5.審計(jì):審計(jì)依據(jù)查找、審計(jì)方法查詢、審計(jì)風(fēng)險(xiǎn)分析、合規(guī)知識問答、審計(jì)方案設(shè)計(jì)、合規(guī)問題診斷、合規(guī)問題診斷、審計(jì)報(bào)告撰寫
使用群體:企業(yè)級用戶
產(chǎn)品功能
拓天大模型智鏈平臺(TTAgentFlow)是一個(gè)創(chuàng)新的智能體平臺,它結(jié)合了知識庫、工具組件以及大型語言模型(LLM)的能力,旨在通過AI Agent技術(shù),簡化問答系統(tǒng)搭建和復(fù)雜問題處理,通過直觀的交互界面,用戶可以通過拖拽和配置的方式快速搭建工作流。同時(shí)提供問答交互頁面,交互頁面用戶可以自定義展示功能。
產(chǎn)品優(yōu)勢
1.自主可控:拓天大模型吸收開源大模型的精華,進(jìn)行自主研發(fā),滿足自主可控和安全合規(guī)等國產(chǎn)化要求。
2.中文特性與專業(yè)知識加強(qiáng):針對目前主流大模型中文特性和專業(yè)能力較弱的問題,拓天通過擴(kuò)充中文詞表與海量通用中文語料、在不干擾原模型的情況下適配新增中文詞向量等做法實(shí)現(xiàn)基座中文特性增強(qiáng)。同時(shí),通過對自有媒體、金融、政務(wù)等垂直領(lǐng)域數(shù)據(jù)集進(jìn)行清洗與處理,進(jìn)行專業(yè)預(yù)訓(xùn)練增強(qiáng),實(shí)現(xiàn)專業(yè)能力的提升。
3.實(shí)時(shí)數(shù)據(jù)接入:針對大模型訓(xùn)練的成本過高,其生成內(nèi)容中的數(shù)據(jù)不能及時(shí)更新的問題,拓天通過外掛知識庫的方式接入實(shí)時(shí)數(shù)據(jù),結(jié)合自研搜索引擎技術(shù)實(shí)現(xiàn)專業(yè)領(lǐng)域?qū)崟r(shí)數(shù)據(jù)的融合利用。
4.內(nèi)容安全和價(jià)值觀對齊:針對大模型可能存在的幻覺問題,拓天從數(shù)據(jù)源頭和專家級的知識標(biāo)引等方面進(jìn)行內(nèi)容安全與價(jià)值觀對齊。重點(diǎn)數(shù)據(jù)主要采集主流官方機(jī)構(gòu)可公開訪問的數(shù)據(jù),如各級政府部門、主流媒體等,這些機(jī)構(gòu)所有對外公開的信息均嚴(yán)格履行“三審三校”制度。所有采集源由人工整理配置,保證了數(shù)據(jù)源頭的“純凈”和完整性。采用專家規(guī)范化標(biāo)引+機(jī)器自動標(biāo)引相結(jié)合的方式,對采集的內(nèi)容資訊進(jìn)行“精加工”,包括低噪、去重、數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)歸一化、內(nèi)容標(biāo)簽化、屬性知識化、安全合規(guī)核查等,實(shí)現(xiàn)數(shù)據(jù)與主流價(jià)值觀對齊。
5.客戶私有化部署:拓天通過剪枝、量化、稀疏、蒸餾等部署優(yōu)化方案,可有效降低大模型對算力資源的要求。拓天推出的垂類大模型參數(shù)在百億級,當(dāng)前市場主流推理卡單卡就可以滿足運(yùn)行要求,實(shí)現(xiàn)模型輕量化部署。
技術(shù)說明
拓爾思大模型關(guān)鍵技術(shù)包括:
1.大模型高性能訓(xùn)練
1.1分布式訓(xùn)練
1.1.1數(shù)據(jù)并行
數(shù)據(jù)并行主要針對單卡無法完全存儲全部數(shù)據(jù)集的情況。在數(shù)據(jù)并行中,數(shù)據(jù)被劃分并分別分配給各個(gè)計(jì)算device,每個(gè)device都保有一份模型副本和不同的數(shù)據(jù)以便同時(shí)進(jìn)行訓(xùn)練。在進(jìn)行下一次訓(xùn)練迭代前,每個(gè)device需要對模型參數(shù)進(jìn)行同步來保證模型參數(shù)的一致性。
1.1.2 Pipeline并行
1.1.3張量并行
1.2存儲優(yōu)化
大模型訓(xùn)練過程中,對顯存的消耗也是非常大的,由此帶來的帶寬消耗也很大,因此系統(tǒng)從減少存儲消耗方面來提高大模型訓(xùn)練的存儲效率。
1.3模型剪枝/稀疏
深度學(xué)習(xí)網(wǎng)絡(luò)模型從卷積層到全連接層存在著大量冗余的參數(shù),大量神經(jīng)元激活值趨近于0,將這些神經(jīng)元去除后可以表現(xiàn)出同樣的模型表達(dá)能力
2.大模型微調(diào)優(yōu)化
2.1多任務(wù)指令精調(diào)
系統(tǒng)通過多任務(wù)指令精調(diào)方式,只需做好“微調(diào)”,即可避免重復(fù)耗費(fèi)大量計(jì)算資源重新訓(xùn)練一個(gè)語言模型,實(shí)現(xiàn)大規(guī)模語言模型的再次有效利用
2.2高性能增量微調(diào)
由于模型規(guī)模的增大,傳統(tǒng)模型調(diào)優(yōu)方法(finetuning)性能難以滿足要求,迫切需要更高效率的微調(diào)方式。系統(tǒng)采用增量微調(diào)(Delta-tuning)的方法,只更新少量參數(shù),同時(shí)凍結(jié)其余占絕大多數(shù)的參數(shù),基于特定任務(wù)在預(yù)訓(xùn)練模型基礎(chǔ)上進(jìn)行微調(diào),有效提升調(diào)優(yōu)的速度,以適應(yīng)特定的數(shù)據(jù)集和任務(wù)要求。
3.大模型高性能推理
目前,大模型的推理有三大局限性:
3.1對大規(guī)模模型缺乏多GPU支持并滿足延遲要求;
3.2在小批量(smallbatchsize)推理時(shí),GPU內(nèi)核性能有限;
3.3難以利用量化,既包括量化模型來減少模型大小,以及支持量化模型的高性能推理且無需專門硬件來減少延遲。
拓爾思采取推理適應(yīng)性并行、推理優(yōu)化內(nèi)核、靈活的量化支持、使用參考文本無損加速大模型推理等方式優(yōu)化推理成本和延遲的能力突破這三種局限
4.可控文本內(nèi)容生成
4.1事實(shí)檢查與錯誤修訂
為了提升大模型輸出的可信度,每一次文本生成結(jié)果都通過一份事實(shí)溯源報(bào)告來證明其合理性,該報(bào)告通常包含來自可信來源(例如百科全書或知識庫)的一個(gè)或多個(gè)支持證據(jù)。
系統(tǒng)首先使用大模型生成文本,然后檢索相關(guān)事實(shí)依據(jù)并最終修改文本以使其與找到的證據(jù)一致,同時(shí)保留原文本的風(fēng)格、結(jié)構(gòu)等特征,使修改后的輸出能夠無縫輸出。
4.2價(jià)值觀對齊
價(jià)值觀對齊并不是要將語言模型和普遍的“人類價(jià)值觀“或者”人類偏好”對齊,而是要和具體的安全行業(yè)或機(jī)構(gòu)的“價(jià)值觀”和“偏好”對齊,例如國家安全價(jià)值觀、國家傳媒價(jià)值觀等。具體包括構(gòu)建安全領(lǐng)域價(jià)值觀的訓(xùn)練數(shù)據(jù)、價(jià)值觀訓(xùn)練等工作。
4.3安全護(hù)欄
通過大模型“安全護(hù)欄”給大模型加上一堵安全圍墻,既能控制它的輸出、又能過濾輸入它的內(nèi)容。一方面,用戶誘導(dǎo)大模型生成攻擊性代碼、輸出非法內(nèi)容的時(shí)候,它就會被安全護(hù)欄技術(shù)“束縛”,不再輸出不安全的內(nèi)容。另一方面,安全護(hù)欄技術(shù)可以屏蔽來自外界的“惡意輸入”,保護(hù)大模型不受外部的攻擊。
系統(tǒng)聚焦三類安全護(hù)欄:話題限定護(hù)欄、對話安全護(hù)欄和攻擊防御護(hù)欄。
服務(wù)客戶
平安銀行“審計(jì)大腦”稽核專業(yè)大模型;人民日報(bào)AIGC智能助理;海爾官網(wǎng)“智能助手”專業(yè)大模型
關(guān)于企業(yè)
·拓爾思
拓爾思信息技術(shù)股份有限公司創(chuàng)立于1993年,是中文全文檢索技術(shù)始創(chuàng)者,中國領(lǐng)先的人工智能、大數(shù)據(jù)和數(shù)據(jù)安全產(chǎn)品及服務(wù)提供商,中國第一家上市的大數(shù)據(jù)技術(shù)企業(yè),股票代碼300229。TRS系列產(chǎn)品已被海內(nèi)外10000家以上的政府和企業(yè)客戶廣泛使用。公司建有大數(shù)據(jù)中心,涵蓋四大數(shù)據(jù)資產(chǎn)平臺,擁有3000億高質(zhì)量數(shù)據(jù)資產(chǎn)。公司自主研發(fā)的拓天大模型一體化平臺,在媒體、金融、政府、輿情、公安等垂直行業(yè)已得到成功應(yīng)用。
拓爾思
賦能數(shù)字經(jīng)濟(jì),致力于成為語義智能技術(shù)領(lǐng)導(dǎo)者。
★以上由拓爾思投遞申報(bào)的項(xiàng)目案例,最終將會角逐由數(shù)據(jù)猿與上海大數(shù)據(jù)聯(lián)盟聯(lián)合推出的《2024中國數(shù)智產(chǎn)業(yè)AI大模型先鋒企業(yè)》榜單/獎項(xiàng)。
該榜單最終將于7月24日北京舉辦的“2024企業(yè)數(shù)智化轉(zhuǎn)型升級發(fā)展論壇——暨AI大模型趨勢論壇”現(xiàn)場首次揭曉榜單,并舉行頒獎儀式,歡迎報(bào)名蒞臨現(xiàn)場
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
不容錯過的資訊
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
