恒生電子探路金融大模型
原創(chuàng) 周堯 | 2023-07-06 20:54
【數(shù)據(jù)猿導(dǎo)讀】 作為服務(wù)金融行業(yè)的技術(shù)公司,恒生電子正在結(jié)合自身技術(shù)能力和對(duì)金融業(yè)務(wù)的深入理解, 持續(xù)打造金融行業(yè)大模型和基于大模型的全新數(shù)智產(chǎn)品,為金融行業(yè)應(yīng)用大模型提供新動(dòng)能。

近日,恒生電子和旗下子公司恒生聚源正式發(fā)布基于大語(yǔ)言模型技術(shù)打造的數(shù)智金融新品:金融智能助手光子和全新升級(jí)的智能投研平臺(tái)WarrenQ。此外,恒生電子金融行業(yè)大模型LightGPT也首次對(duì)外亮相。
恒生電子董事長(zhǎng)劉曙峰表示,大模型是信息技術(shù)的最新突破,刷新了人們對(duì)機(jī)器智能的認(rèn)知,同時(shí)也在刷新行業(yè)應(yīng)用傳統(tǒng)AI模型的模式。
今年年初,以ChatGPT為代表的生成式AI掀起一陣席卷全球的熱潮,大模型技術(shù)則正在重新定義各行各業(yè),其中金融行業(yè)是數(shù)字化、智能化的先行者,也被視為大模型技術(shù)落地的最佳領(lǐng)域。
在大模型時(shí)代,具有通用能力的大模型成為基礎(chǔ)設(shè)施,將對(duì)金融行業(yè)的智能化水平和數(shù)字化程度產(chǎn)生深刻影響。
作為服務(wù)金融行業(yè)的技術(shù)公司,恒生電子正在結(jié)合自身技術(shù)能力和對(duì)金融業(yè)務(wù)的深入理解, 持續(xù)打造金融行業(yè)大模型和基于大模型的全新數(shù)智產(chǎn)品,為金融行業(yè)應(yīng)用大模型提供新動(dòng)能。
技術(shù)進(jìn)步推動(dòng)行業(yè)變革
每一次技術(shù)的進(jìn)步都會(huì)推動(dòng)社會(huì)大的變革,大模型是信息技術(shù)領(lǐng)域中一次全新的突破。
從信息技術(shù)幾十年的發(fā)展來(lái)看,可以清晰的看到“三浪”疊加形態(tài),從最早的大型機(jī)、PC的信息化到互聯(lián)網(wǎng)、網(wǎng)絡(luò)化,移動(dòng)互聯(lián)網(wǎng),整個(gè)地球連成了一個(gè)“村”。
大模型的誕生是這一輪信息技術(shù)的第三浪,來(lái)自5G、云計(jì)算,包括傳統(tǒng)的AI所帶來(lái)的沖擊讓外界感受到了AI帶來(lái)的數(shù)字化浪潮,但是大模型把這個(gè)浪潮推到了新的高度。
其實(shí),中國(guó)的金融科技的發(fā)展就伴隨著“三浪”疊加的形態(tài),在金融這樣強(qiáng)監(jiān)管的垂直領(lǐng)域,技術(shù)進(jìn)步的浪潮帶來(lái)的顛覆性可能并沒(méi)有那么強(qiáng),但是,每一次進(jìn)步同樣會(huì)催生新生的企業(yè)。
劉曙峰舉例,信息化時(shí)代的招商銀行以科技立行,抓住了信息化帶來(lái)的力量而成長(zhǎng)起來(lái)?;ヂ?lián)網(wǎng)的發(fā)展,催生出了支付寶、余額寶這樣新場(chǎng)景下的金融服務(wù)產(chǎn)品,也催生了螞蟻金服、東方財(cái)富、眾安保險(xiǎn)等互聯(lián)網(wǎng)原生的金融服務(wù)機(jī)構(gòu)。
所以,大模型技術(shù)對(duì)于傳統(tǒng)時(shí)代的更新是必然的,它意味著更高的技術(shù)門檻和更大的規(guī)模,大模型時(shí)代,“數(shù)據(jù)+算法+算力”構(gòu)成了新范式的基本要素,而這些基本要素會(huì)進(jìn)入通用、垂直領(lǐng)域中,不斷去拓展。
基于基礎(chǔ)大模型下,對(duì)于和垂直場(chǎng)景的連接,恒生電子看到了兩種可能性:一種是連橫,一種是合縱。連橫就是通過(guò)行業(yè)插件作為外掛方式,向大語(yǔ)言模型中添加不同類型的知識(shí)模塊,包括常識(shí)知識(shí)、領(lǐng)域知識(shí)、事件知識(shí)等,與大語(yǔ)言模型進(jìn)行適配和集成,從而提升其在復(fù)雜任務(wù)中的表現(xiàn)。另外一種形態(tài)則是恒生電子正在探索的“合縱”模式。
劉曙峰表示,在金融領(lǐng)域,由大模型供應(yīng)方主導(dǎo)的“連橫”模式會(huì)碰到的很多問(wèn)題,比如數(shù)據(jù)產(chǎn)權(quán)的歸屬等。在“連橫模型”很難實(shí)現(xiàn)深度應(yīng)用時(shí),有必要建立一個(gè)“行業(yè)大模型”承接垂直領(lǐng)域“合縱”需求。
他同時(shí)提到,行業(yè)大模型也面臨固有的挑戰(zhàn),比如算力協(xié)同、內(nèi)外部數(shù)據(jù)協(xié)同、場(chǎng)景協(xié)同、機(jī)構(gòu)間協(xié)同等等。“尤其是數(shù)據(jù)協(xié)同,這是非常具體也非常難以解決的問(wèn)題,尤其是金融行業(yè)面臨著大量的合規(guī)限制。”
從一定程度上來(lái)講,大模型在商業(yè)應(yīng)用上,聚焦于金融垂直領(lǐng)域,仍在領(lǐng)域知識(shí)時(shí)效性、數(shù)據(jù)安全與隱私保護(hù)、具體應(yīng)用支持等方面存在局限性。合縱模式下,可以充分發(fā)揮大模型產(chǎn)業(yè)上下游的合作,提高金融領(lǐng)域AI應(yīng)用的水平的同時(shí)解決數(shù)據(jù)安全和隱私保護(hù)等問(wèn)題,為金融數(shù)智化提供更加強(qiáng)有力的支撐。
金融行業(yè)數(shù)智化從量變走向質(zhì)變
“建設(shè)一個(gè)好的金融大模型,取決于高質(zhì)量的數(shù)據(jù)、優(yōu)秀的基礎(chǔ)大模型、專業(yè)的大模型能力、充足的算力。”恒生研究院院長(zhǎng)、恒生電子首席科學(xué)家白碩表示。
2014年開始,恒生電子正式啟動(dòng)了AI的研究工作,打造了NLP、OCR、CV、知識(shí)圖譜等能力,同時(shí)將AI技術(shù)能力賦能到智能客服、智能投研、智能運(yùn)營(yíng)、智能營(yíng)銷、智能投顧以及數(shù)據(jù)與風(fēng)險(xiǎn)相關(guān)的業(yè)務(wù)系統(tǒng)。
截至目前,恒生電子已發(fā)布20+人工智能產(chǎn)品,服務(wù)機(jī)構(gòu)包括銀行、證券、基金、期貨等金融機(jī)構(gòu),擁有超過(guò)500個(gè)客戶案例,實(shí)現(xiàn)了AI產(chǎn)品“從可用到好用”的進(jìn)步。
WarrenQ是恒生聚源推出的面向投研投資場(chǎng)景打造的專業(yè)一體化投研工具平臺(tái)。在這次的發(fā)布會(huì)上,WarrenQ推出了兩款A(yù)I工具產(chǎn)品——WarrenQ-Chat和ChatMiner。
WarrenQ-Chat是一款金融垂直領(lǐng)域的Chat產(chǎn)品,利用大模型疊加搜索和聚源金融數(shù)據(jù)庫(kù),通過(guò)對(duì)話指令,輕松獲得金融行情、資訊和數(shù)據(jù),且每一句生成的對(duì)話均支持原文溯源,確保消息出處可追溯,還可以生成金融專業(yè)報(bào)表,輕松實(shí)現(xiàn)“語(yǔ)控萬(wàn)數(shù)”。
ChatMiner是一款金融文檔挖掘器,基于大模型和向量數(shù)據(jù)庫(kù)構(gòu)建,可以根據(jù)用戶對(duì)話指令對(duì)指定文檔進(jìn)行快速解讀,提供精準(zhǔn)檢索與定位,提取關(guān)鍵信息,還可以將信息進(jìn)行有效的整合歸納和精煉或拓展,智能化處理海量文本數(shù)據(jù)。
恒生聚源副總經(jīng)理、產(chǎn)品總監(jiān)白雪提到,WarrenQ里有很多的場(chǎng)景、很多功能,包括無(wú)所不能的讀取寫器、引文和演算、演算版的模型。
比如ChatMiner可以收集一大段新聞事件的集錦,如果對(duì)其中一條比較感興趣,就可以追溯新聞,查看原文當(dāng)中的研報(bào)內(nèi)容。如果看到中間一段想留存下來(lái),則可以點(diǎn)住它,一鍵拖拽到筆記里。
站在產(chǎn)品經(jīng)理的角度上,白雪表示,今年以來(lái)試用了很多產(chǎn)品,真切感受大模型正改變著軟件產(chǎn)品,改變著軟件交互,改變著軟件行業(yè)。“大模型+數(shù)據(jù)+軟件”的未來(lái)會(huì)長(zhǎng)成什么樣子是一個(gè)行業(yè)中會(huì)廣泛討論的話題。
在他們看來(lái),最底層是數(shù)據(jù)層,和產(chǎn)生的數(shù)據(jù)層有一定的區(qū)別,傳統(tǒng)數(shù)據(jù)層是幫助機(jī)構(gòu)建一個(gè)數(shù)智化的平臺(tái),底層很多是公開的數(shù)據(jù)加上機(jī)構(gòu)自有數(shù)據(jù)庫(kù),現(xiàn)在機(jī)構(gòu)的數(shù)據(jù)庫(kù)會(huì)加上金融基礎(chǔ)語(yǔ)料、產(chǎn)品的語(yǔ)料、公開大模型的語(yǔ)料,一起構(gòu)成新版大模型時(shí)代的數(shù)智化產(chǎn)品底層。
在模型層,通過(guò)將準(zhǔn)備好的數(shù)據(jù)和語(yǔ)料結(jié)合在一起,做金融數(shù)據(jù)的預(yù)訓(xùn)練,同時(shí)也可以做監(jiān)督的微調(diào),調(diào)完之后就可以得到一個(gè)金融版的大模型。在金融領(lǐng)域的產(chǎn)品化上,還要持續(xù)訓(xùn)練插件。
如何構(gòu)建更專業(yè)的金融大模型?
發(fā)布會(huì)上,由恒生電子打造的金融行業(yè)大模型LightGPT也首次對(duì)外亮相。作為專業(yè)面向金融行業(yè)的大模型,LightGPT較通用大模型更專業(yè)、更合規(guī)、更輕量。
恒生研究院院長(zhǎng)、恒生電子首席科學(xué)家白碩表示,LightGPT擁有更專業(yè)的金融語(yǔ)料積累處理和更高效穩(wěn)定的大模型訓(xùn)練方式,使用了超4000億tokens的金融領(lǐng)域數(shù)據(jù)和超過(guò)400億tokens的語(yǔ)種強(qiáng)化數(shù)據(jù),并以之作為大模型的二次預(yù)訓(xùn)練語(yǔ)料,支持超過(guò)80+金融專屬任務(wù)指令微調(diào),使LightGPT具備金融領(lǐng)域的準(zhǔn)確理解能力。LightGPT將于9月底完成新一輪的金融能力升級(jí),并正式開放試用接口。
在白碩看來(lái),現(xiàn)有大模型難以在金融特定領(lǐng)域?qū)崿F(xiàn)落地的原因主要有三個(gè)方面:
第一,模型本身的質(zhì)量。金融行業(yè)對(duì)回答的內(nèi)容和服務(wù)的質(zhì)量要求非常高,通用大模型基于公開數(shù)據(jù)的訓(xùn)練難以達(dá)到,效果距離金融行業(yè)的需求有明顯的差距。
第二,合規(guī)監(jiān)管方面,金融行業(yè)的監(jiān)管對(duì)數(shù)據(jù)流動(dòng)、身份(例如是否持牌經(jīng)營(yíng))等有明確限制,現(xiàn)有的通用大模型難以滿足。
第三,算力成本方面,結(jié)合前述兩方面的要求,很多金融機(jī)構(gòu)在使用大模型時(shí)明確要求私有部署、至少在行業(yè)可信的范圍內(nèi)部署,這樣的部署方式下,如果參數(shù)體量不夠大,質(zhì)量可能會(huì)比較差,如果參數(shù)體量足夠大,僅僅從推理來(lái)看,部署的算力成本也會(huì)比較高。
所以,恒生電子堅(jiān)定地選擇站在巨人的肩膀上,充分吸收現(xiàn)有基礎(chǔ)大模型的高質(zhì)量成果,持續(xù)去打磨行業(yè)所需要的金融大模型。
對(duì)此,白碩針對(duì)建設(shè)一個(gè)好的金融大模型,總結(jié)了四個(gè)關(guān)鍵因素。
第一,高質(zhì)量的數(shù)據(jù)。金融有很高的專業(yè)化要求,數(shù)據(jù)上要反映行業(yè)的專業(yè)化,這是和通用大模型拉開距離的關(guān)鍵。LightGPT的數(shù)據(jù)來(lái)源包括聚源過(guò)去二十年超過(guò)4000億tokens的文本數(shù)據(jù)及結(jié)構(gòu)化數(shù)據(jù),超過(guò)400億tokens的金融教材、金融百科、政府報(bào)告、法規(guī)條例等數(shù)據(jù),以及一些精調(diào)的數(shù)據(jù)集。
第二,優(yōu)秀的基礎(chǔ)大模型。以優(yōu)秀的基礎(chǔ)大模型為起點(diǎn),面向?qū)I(yè)領(lǐng)域時(shí)能夠有更好的提升空間。恒生電子積極探索與國(guó)內(nèi)外金融大模型的合作,使LightGPT有較高的起點(diǎn)。
第三,專業(yè)的大模型能力。訓(xùn)練大模型的專業(yè)能力,包括算法、人才以及外部合作等。在算法方面,要去學(xué)習(xí)和采納較為先進(jìn)的算法,包括參數(shù)凍結(jié)、領(lǐng)域相關(guān)的指令精調(diào)以及強(qiáng)化學(xué)習(xí)相關(guān)的算法。在人才儲(chǔ)備方面,恒生電子擁有國(guó)家級(jí)博士后科研工作站,在外部合作上,恒生與復(fù)旦大學(xué)、浙江大學(xué)、中國(guó)科學(xué)院、中國(guó)科學(xué)技術(shù)大學(xué)等高校都達(dá)成了合作。
第四,充足的算力。一方面來(lái)自恒生與互聯(lián)網(wǎng)廠商、云廠商在算力方面的合作,另一方面恒生也投入了一些自有算力來(lái)支持LightGPT的研發(fā)。
作為國(guó)內(nèi)金融科技龍頭公司,恒生電子為金融行業(yè)打造的能力正在逐步展現(xiàn),面向市場(chǎng)的進(jìn)一步深化,劉曙峰表示,預(yù)計(jì)到2030年,整個(gè)金融行業(yè)將完成數(shù)智化升級(jí)。而恒生電子作為其中的先行者,將與金融行業(yè)共同邁進(jìn)數(shù)智化新時(shí)代。
文:周堯 / 數(shù)據(jù)猿
來(lái)源: 數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過(guò)的資訊
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
