終于,AI大模型長出了自己的手腳
原創(chuàng) 月滿西樓 | 2024-06-07 11:00
【數(shù)據(jù)猿導讀】 大模型技術(shù),由于其在自然語言處理和復雜數(shù)據(jù)分析上的出色表現(xiàn)而備受矚目。然而,盡管技術(shù)上取得了突破,大模型在企業(yè)應用市場的實際落地卻面臨不少挑戰(zhàn),尤其是如何深入整合進企業(yè)的核心業(yè)務流程中。企業(yè)核心業(yè)務高度依賴于具體、實時且連續(xù)的操作流程,而大模型在此方面的應用往往只停...

大模型技術(shù),由于其在自然語言處理和復雜數(shù)據(jù)分析上的出色表現(xiàn)而備受矚目。然而,盡管技術(shù)上取得了突破,大模型在企業(yè)應用市場的實際落地卻面臨不少挑戰(zhàn),尤其是如何深入整合進企業(yè)的核心業(yè)務流程中。企業(yè)核心業(yè)務高度依賴于具體、實時且連續(xù)的操作流程,而大模型在此方面的應用往往只停留在表面,難以觸及業(yè)務流程的深層次需求。
除了開源大模型本身在理解真實業(yè)務流程上的不足,另一個主要障礙是許多企業(yè)用戶缺乏足夠的數(shù)據(jù)沉淀,甚至連基本的知識庫都沒有。這使得即便大模型具備強大的對話能力,也無法調(diào)用企業(yè)內(nèi)部的知識庫信息,進一步限制了其在實際業(yè)務中的應用。
在這樣的背景下,各類技術(shù)廠商開始從不同角度,探索將大模型落地到企業(yè)應用場景的方法。數(shù)據(jù)猿觀察到,實在智能近期推出的自主智能體——實在Agent,為我們帶來了一些新的思路。這類智能體通過結(jié)合RPA、數(shù)字員工技術(shù),致力于實現(xiàn)大模型技術(shù)與企業(yè)的日常運營和決策流程無縫對接。
自主智能體,讓大模型真正融入企業(yè)的業(yè)務流程
大模型技術(shù),盡管在人機交互領(lǐng)域表現(xiàn)出色,卻在深入企業(yè)核心業(yè)務流程中遭遇難題。這主要體現(xiàn)在兩個方面:其在人機對話中的局限性,以及缺乏有效嵌入業(yè)務流程的能力。
當前的大模型,不管是國外的ChatGPT、Gemini、Claude、LLaMA,還是國內(nèi)的文心一言、通義千問、訊飛星火、豆包、智譜清言、Kimi等,核心功能是生成自然且流暢的對話文本,這使它們在客戶服務、FAQ自動化回答、營銷文案創(chuàng)作等簡單任務中表現(xiàn)良好。然而,當面對需要復雜決策和多步驟操作的企業(yè)業(yè)務流程時,這類模型往往顯得力不從心。其核心原因在于,這些模型雖能理解和生成語言,但缺乏對實際業(yè)務邏輯和流程的深入理解和執(zhí)行能力。因而,在企業(yè)應用中,大模型很少能直接影響核心業(yè)務流程的設計和執(zhí)行。
業(yè)務流程通常包含一系列復雜且高度專業(yè)化的決策步驟,需要不僅僅是語言理解,更要有能力對業(yè)務數(shù)據(jù)進行分析和邏輯操作。目前的大模型無法直接與企業(yè)的IT系統(tǒng)、數(shù)據(jù)庫等后端服務深度集成,導致其在自動化高價值業(yè)務操作時效果有限。而且,企業(yè)環(huán)境中的業(yè)務流程可能會因市場、法規(guī)或企業(yè)戰(zhàn)略的變化而需要快速適應和調(diào)整。大模型通常在訓練后的適應性有限,對于快速變化的企業(yè)環(huán)境缺乏足夠的靈活性。
要解決這些問題,讓大模型的應用走向“深水區(qū)”,智能體是一個很有潛力的方向。
何為智能體?OpenAI應用研究主管Lilian Weng提出了:“Agent=LLM+Plan+Memory+Tool Using”的框架,被廣泛接受。
根據(jù)這個定義,智能體的高級功能不僅限于大模型的語言理解能力,還包括更為復雜的規(guī)劃、記憶、工具使用和行動執(zhí)行等能力,這些能力的整合極大地拓展了智能體在企業(yè)中的應用范圍和效能。
例如,智能體的規(guī)劃能力指的是能夠根據(jù)當前情境和預定目標,制定有效的行動策略。這不僅需要理解復雜的任務要求,還需要能夠預測可能的結(jié)果和制定備選方案;記憶能力使得智能體能夠存儲和回憶過去的經(jīng)驗,這對于學習新任務和優(yōu)化現(xiàn)有流程至關(guān)重要;智能體的工具使用能力涉及到對各種軟件工具和系統(tǒng)的操作,這包括數(shù)據(jù)分析工具、ERP系統(tǒng)等。這使得智能體能在不同的技術(shù)環(huán)境中有效工作,自動化復雜的業(yè)務流程;智能體的行動執(zhí)行能力是其將規(guī)劃轉(zhuǎn)化為實際操作的能力。這不僅僅是簡單的任務自動化,更是涉及到根據(jù)動態(tài)環(huán)境調(diào)整行動策略和處理突發(fā)事件。
整合這些能力的自主智能體,可以在復雜的企業(yè)環(huán)境中發(fā)揮更大的作用,不僅能理解和生成語言,更能主動參與到業(yè)務決策和執(zhí)行中,成為企業(yè)運營的核心支持系統(tǒng),這種智能體的發(fā)展標志著人工智能從輔助工具向真正的業(yè)務合作伙伴的轉(zhuǎn)變。
為了實現(xiàn)這個目標,智能體也在持續(xù)演進當中。
根據(jù)其功能和集成深度的不同,智能體的發(fā)展可以概括為幾個階段:
1. 初級階段:單一對話服務。如ChatGPTs,主要提供基礎(chǔ)的對話式服務,處理簡單的問答和任務,主要依賴直接調(diào)用大模型的能力。
2. 中級階段:工作流編排。如Flow,擴展到一些基礎(chǔ)的業(yè)務流程自動化,如簡單的工作流編排,使用預置的API組件。
3. 高級階段:自主智能體。如實在智能的TARS Agent,這類智能體結(jié)合了自研垂直域大模型和RPA組件,支持復雜的業(yè)務流程自動化,能進行高級規(guī)劃和執(zhí)行,同時具備操作的可視化和人機協(xié)同糾正的功能。
4. 最高級階段:多智能體協(xié)同。這一階段的智能體能在多模態(tài)輸入下進行群體協(xié)作和復雜指令的執(zhí)行,具備更高級的數(shù)據(jù)處理和決策能力。
這些階段體現(xiàn)了智能體從簡單的文本交互,到能夠完全自主執(zhí)行復雜業(yè)務流程的演進,顯示了技術(shù)的成熟和應用領(lǐng)域的拓展。
目前,我們主要處在第三階段——自主智能的攻堅期,將大模型與RPA、數(shù)字員工技術(shù)結(jié)合,是實現(xiàn)自主智能體深入企業(yè)業(yè)務流程的有效途徑。RPA技術(shù)能夠自動執(zhí)行業(yè)務流程中的重復任務,如數(shù)據(jù)輸入、文件處理等。通過將大模型的決策支持能力與RPA的執(zhí)行能力結(jié)合,可以極大提升業(yè)務流程的自動化水平和效率。
結(jié)合RPA、數(shù)字員工后,大模型不再僅僅是一個語言處理工具,而是變成了一個全面的業(yè)務流程解決方案。這種自主智能體可以根據(jù)實時數(shù)據(jù)和環(huán)境變化做出快速決策,并直接操作企業(yè)的業(yè)務系統(tǒng)執(zhí)行任務,從而真正實現(xiàn)AI的業(yè)務價值最大化。
構(gòu)建自主智能體,需要哪些核心能力?
上面談到,自主智能體,是將大模型技術(shù)在企業(yè)應用落地的一個理想方式。那么,該怎么來構(gòu)建自主智能體呢,有哪些關(guān)鍵的環(huán)節(jié)?
構(gòu)建自主智能體的核心挑戰(zhàn),在于將高度通用的大模型轉(zhuǎn)化為能深入企業(yè)特定業(yè)務流程的高效工具。這一轉(zhuǎn)變不僅要求模型能夠理解和生成語言,更要求其具備深入解析復雜業(yè)務邏輯的能力。
具體來看,要構(gòu)建出上面說得自主智能體,引領(lǐng)數(shù)字員工發(fā)展,需要具備三方面的核心能力:
1、在通用大模型基礎(chǔ)上,微調(diào)出業(yè)務流程垂直大模型。
在構(gòu)建針對特定業(yè)務流程的垂直大模型時,首先要建立一個包含高質(zhì)量業(yè)務流程數(shù)據(jù)的領(lǐng)域知識庫。這一知識庫的目的是為大模型提供必要的行業(yè)特定數(shù)據(jù),支撐模型更深入地理解業(yè)務流程的細節(jié)和變量。
接下來,通過在這些專業(yè)數(shù)據(jù)集基礎(chǔ)上進行訓練微調(diào),將通用大模型定制化,以適應具體業(yè)務領(lǐng)域的需求。
需要指出的是,傳統(tǒng)的大模型(LLM)主要側(cè)重于對話能力和語義理解,而對于執(zhí)行具體任務的能力卻有所不足。為此,自主智能體的底座應該是Large Action Model(LAM),即大任務或動作模型。LAM經(jīng)過微調(diào)和優(yōu)化,不僅能理解復雜的業(yè)務流程,還能實際操作和完成這些流程,是企業(yè)實現(xiàn)自主智能體的關(guān)鍵技術(shù)。
例如,實在智能近期推出的實在Agent,其底座模型就是采用了LAM,這賦予了它在執(zhí)行任務方面的獨特優(yōu)勢。通過高質(zhì)量的業(yè)務流程數(shù)據(jù)集和領(lǐng)域知識庫,實在Agent能夠深入理解和執(zhí)行特定領(lǐng)域的業(yè)務任務。
2、構(gòu)建智能屏幕語義理解技術(shù)支持下的流程拆解能力。
在構(gòu)建自主智能體過程中,屏幕語義理解技術(shù)和流程拆解是實現(xiàn)業(yè)務流程自動化的核心要素。智能體通過自然語言處理技術(shù)精確理解用戶的意圖和需求,這不僅需要捕捉指令的字面意義,還要深入其背后的業(yè)務語境。接著,任務分解算法將這些復雜需求細化為具體的操作步驟。這涉及高度復雜的算法,需要確保每個步驟都是邏輯正確且可執(zhí)行的。智能體需要具備強大的邏輯推理能力以及對業(yè)務流程的深刻理解,才能有效完成這項任務。
另一方面,自主智能體通過屏幕語義理解技術(shù),識別并理解桌面應用中的各種界面元素和控件,如按鈕、輸入框、菜單等。這種識別不僅需要高精度,還要適應界面的動態(tài)變化。將屏幕語義理解與任務拆解結(jié)合起來,智能體才能確保生成的流程步驟準確映射到相應的功能組件上。這不僅要求智能體理解業(yè)務邏輯并將其拆解成對應的操作流程,還需要清楚每一個流程步驟需要操作屏幕上哪一個元素。
3、優(yōu)化自主智能體對桌面和手機端一切應用的調(diào)用與交互能力,完成流程的順暢執(zhí)行。
在理解屏幕元素并將流程拆解好之后,接下來最關(guān)鍵的就是將這些流程一步步的執(zhí)行完。這一過程中,最核心的是自主智能體對桌面和手機端一切應用、工具的調(diào)用,并模擬用戶操作,與這些應用進行一系列交互,來完成整個流程的執(zhí)行。
這一過程的核心挑戰(zhàn),在于自主智能體的跨平臺調(diào)用能力的普適性和適應性,無論是開放API接口的應用,還是沒有API接口的傳統(tǒng)桌面應用,智能體都能有效調(diào)用和操作。智能體必須不斷優(yōu)化其屏幕語義理解技術(shù),以適應不同應用程序版本和用戶設置的變化。此外,交互算法的優(yōu)化也至關(guān)重要,以確保智能體能夠在各種操作系統(tǒng)和軟件環(huán)境中穩(wěn)定運行。
通過這種對應用調(diào)用與交互的高度適應性和靈活性,智能體不僅能在不同的業(yè)務場景中高效工作,還能幫助企業(yè)實現(xiàn)更高水平的自動化和智能化運營。這種能力使智能體成為企業(yè)數(shù)字化轉(zhuǎn)型中的關(guān)鍵工具,能夠顯著提升業(yè)務流程的效率和準確性。
實在Agent,交出了第一份答卷
上面分析了構(gòu)建自主智能體所需要具備的一些核心能力,可以看到,這些能力的構(gòu)建并不容易。那么,現(xiàn)在有企業(yè)做出了這樣的自主智能體么?實在智能近期推出的實在Agent給了我們一個有益的啟示。
具體來看,實在Agent在以下六個方面做了特色:
1. 自然語言理解與對話
實在Agent通過自然語言處理技術(shù),實現(xiàn)了與用戶的自然對話式交互,準確捕捉用戶的意圖,并將其轉(zhuǎn)化為具體的自動化任務。
2. 自動化任務生成與執(zhí)行
用戶只需通過自然語言描述業(yè)務流程,實在Agent便能夠利用其內(nèi)置的大模型,精準識別并拆解任務,生成相應的RPA組件。這一過程完全革新了傳統(tǒng)RPA流程的設計和編排工作,使得非技術(shù)用戶也能夠輕松地創(chuàng)建自動化任務。
3. 智能屏幕語義理解
智能屏幕語義理解技術(shù)是實在Agent的另一大亮點,這項技術(shù)賦予了實在Agent強大的屏幕元素識別能力,使其能夠在復雜的用戶界面中,準確識別出操作元素,如輸入框、按鈕等。這一功能對于提高自動化任務的準確性至關(guān)重要,尤其是在面對動態(tài)變化的網(wǎng)頁內(nèi)容或客戶端軟件時。通過智能屏幕語義理解,實在Agent能夠?qū)崿F(xiàn)更加智能、精準的自動化操作,減少因元素識別錯誤導致的執(zhí)行失敗,從而提高自動化任務的穩(wěn)定性和可靠性。
4. 用戶界面與交互設計
實在Agent的用戶界面與交互設計同樣值得稱道,它提供了簡約直觀的用戶界面,支持快捷操作,如通過快捷鍵顯示或隱藏常駐窗口,以及通過菜單快速訪問各項功能。這種設計不僅提升了用戶體驗,也使得實在Agent更加易于上手。
5. 異常處理與手動干預
在自動化執(zhí)行過程中,實在Agent它能夠智能識別異常并暫停,允許用戶手動介入處理,確保任務正確執(zhí)行。這種異常處理與手動干預的能力,使得實在Agent在面對復雜多變的業(yè)務環(huán)境時,依然能夠保持高效率和高準確性。
6.越用越好的智能體
隨著用戶的持續(xù)使用,實在Agent不斷積累用戶數(shù)據(jù),更深入地了解用戶習慣,從而提供更加個性化、精準的服務。這種自我學習和優(yōu)化的能力,使得實在Agent不僅僅是一個工具,更是一個能夠不斷進化和成長的智能伙伴。
這六大功能使得實在Agent成為一個高效、易用且強大的自動化助手,適用于各種業(yè)務流程自動化場景。實在Agent的應用場景廣泛,無論是財務、客服、電商還是其他業(yè)務領(lǐng)域,它都能提供高效的自動化解決方案。例如,在財務領(lǐng)域,實在Agent能夠自動完成發(fā)票開具、報表導出等工作;在客服領(lǐng)域,它能夠識別客戶業(yè)務訴求,自動錄入業(yè)務系統(tǒng),提供7×24小時的服務,這些應用案例充分展示了實在Agent在實際業(yè)務中的強大能力。
以招商銀行客戶的一個應用場景為例,通過與實在Agent對話,即可完成“招商客戶端下載交易數(shù)據(jù)”這個業(yè)務流程。用戶只需要說出需求,實在Agent即可將這個需求分解為一系列業(yè)務流程,并生成對應的流程組件。接下來,實在Agent會一步步的執(zhí)行相應的流程,并逐步反饋運行狀態(tài)。最終,完成所有流程組件的運行,得到用戶最開始給出的“招商客戶端下載交易數(shù)據(jù)”這個指令的結(jié)果。
自主智能體的長征,才剛剛開啟
需要指出的是,在大模型與業(yè)務流程深度融合的過程中,實在Agent這類自主智能體已經(jīng)展現(xiàn)出巨大的應用潛力。但是,自主智能體的變革才剛剛開始,接下來將進入快速發(fā)展期。其中,以下幾個方面的發(fā)展態(tài)勢尤其值得關(guān)注。
多模態(tài)能力的發(fā)展與集成
未來的自主智能體將不僅限于文本和語音的處理,它們還將整合視覺、語音等多模態(tài)輸入,以提升環(huán)境感知和交互能力。通過整合這些多模態(tài)數(shù)據(jù),智能體能夠更全面地理解用戶需求和操作環(huán)境。例如,在一個綜合辦公環(huán)境中,智能體不僅可以通過語音指令接收任務,還能通過攝像頭和傳感器獲取環(huán)境信息,進行更加精準和智能的操作。
這種多模態(tài)能力的融合,不僅提升了智能體的交互自然性,還增加了其在復雜環(huán)境中的適應性。例如,在智能制造中,智能體可以通過視覺識別和分析生產(chǎn)線上的每個細節(jié),結(jié)合語音指令進行操作,從而實現(xiàn)更加精確和高效的生產(chǎn)流程。
自主智能體向多智能體協(xié)同的演進,形成人類統(tǒng)一指揮下數(shù)字員工集群的人機協(xié)同體系。
在上文提到的智能體四個演進階段中,在自主智能之后,將會逐步衍生出多智能體的協(xié)同。隨著技術(shù)的進步,單一智能體的功能雖強大,但在處理更復雜的系統(tǒng)級任務時,單體智能顯然是不夠的。
因而,自主智能體需要向多智能體協(xié)同演進,形成在人類統(tǒng)一指揮下的人機協(xié)同體系。在這個體系中,每一個自主智能體就相當于一個數(shù)字員工,而多智能體就相當于數(shù)字員工集群。通過人機協(xié)同,這個數(shù)字員工集群在人類的指揮下分工合作,這將顯著提升業(yè)務流程的復雜處理能力和效率。
例如,在供應鏈管理中,一個智能體負責庫存監(jiān)控,另一個智能體負責訂單處理,第三個智能體則負責物流調(diào)度。通過協(xié)同工作,這些智能體能夠快速響應市場變化,優(yōu)化資源配置,提高整體運營效率。隨著技術(shù)的不斷進步,多智能體協(xié)同將在更多行業(yè)和場景中得到廣泛應用,推動企業(yè)向智能化、自動化和高效運營的方向不斷邁進。
自主智能體與各個業(yè)務系統(tǒng)無縫集成,提升其對企業(yè)核心業(yè)務的滲透能力。
自主智能體的另一個關(guān)鍵發(fā)展方向,是與企業(yè)現(xiàn)有的IT系統(tǒng)(如ERP、CRM等)的無縫集成。這種集成將形成一個統(tǒng)一的智能化平臺,使得智能體能夠在一個綜合系統(tǒng)中工作,完成更復雜的任務分工合作和高效執(zhí)行。
當然,實現(xiàn)這一點需要克服許多技術(shù)和管理挑戰(zhàn)。例如,數(shù)據(jù)的統(tǒng)一和共享問題,不同系統(tǒng)之間的數(shù)據(jù)格式和接口不同,需要進行標準化處理;系統(tǒng)間的通信和協(xié)調(diào),需要確保數(shù)據(jù)在不同系統(tǒng)間的實時同步和一致性;安全性和隱私保護,在進行數(shù)據(jù)整合時,需要確保數(shù)據(jù)的安全和用戶隱私的保護。
構(gòu)建開放平臺,繁榮自主智能體生態(tài)
為了推動自主智能體技術(shù)的進一步發(fā)展,構(gòu)建一個開放的平臺生態(tài)系統(tǒng)是至關(guān)重要的。像實在智能這樣的超自動化廠商,提供豐富的API和SDK,方便開發(fā)者集成和擴展智能體功能,構(gòu)建一個繁榮的智能體生態(tài)系統(tǒng)。
這種開放平臺的構(gòu)建,不僅可以加速技術(shù)創(chuàng)新,還可以促進技術(shù)的普及和應用。開發(fā)者可以在這個平臺上自由開發(fā)和部署各種智能體應用,滿足不同用戶和行業(yè)的需求。例如,開發(fā)者可以基于開放平臺開發(fā)出適用于醫(yī)療領(lǐng)域的智能體,為醫(yī)生提供輔助診斷和治療建議,提高醫(yī)療服務的質(zhì)量和效率。
隨著自主智能體的發(fā)展,其業(yè)務價值將逐步得到釋放。例如,它大幅度降低了數(shù)字員工的使用門檻,擴大了數(shù)字員工的適用范圍,進而擴大了數(shù)字員工和RPA市場。
而且,自主智能體可以自動化處理繁瑣的業(yè)務流程,解放了人力資源,使得員工能夠?qū)W⒂诟邉?chuàng)造性的工作,推動業(yè)務創(chuàng)新。例如,在財務管理中,智能體可以自動處理各種票據(jù)和報表生成任務,財務人員可以將更多時間用于財務分析和戰(zhàn)略決策。
總的來說,自主智能體的發(fā)展不僅推動了企業(yè)的數(shù)字化轉(zhuǎn)型,也提升了企業(yè)的運營效率和創(chuàng)新能力。隨著技術(shù)的不斷進步和應用的深入,自主智能體將在更多領(lǐng)域和場景中發(fā)揮重要作用,推動社會的智能化進程。
來源:數(shù)據(jù)猿