AI編程助手之戰(zhàn):主流大模型編程能力全面評(píng)測(cè)
原創(chuàng) 文文 | 2025-05-26 14:46
【數(shù)據(jù)猿導(dǎo)讀】 從ChatGPT橫空出世那一刻起,AI就不再只是“能聊天”,而是正在成為程序員桌面上的新一代IDE補(bǔ)全器,甚至是“編程拍檔”。今年年初,Claude 3.5憑借一條提示語(yǔ)生成出精致的天氣動(dòng)畫卡片,以神乎其技的表現(xiàn)再次引爆行業(yè)關(guān)注度。

從ChatGPT橫空出世那一刻起,AI就不再只是“能聊天”,而是正在成為程序員桌面上的新一代IDE補(bǔ)全器,甚至是“編程拍檔”。今年年初,Claude 3.5憑借一條提示語(yǔ)生成出精致的天氣動(dòng)畫卡片,以神乎其技的表現(xiàn)再次引爆行業(yè)關(guān)注度。
事實(shí)上,在人工智能與開發(fā)工具深度融合的當(dāng)下,AI編程助手已從最初的代碼補(bǔ)全工具,演變?yōu)榫哂袕?fù)雜任務(wù)理解、項(xiàng)目結(jié)構(gòu)搭建、前端后端協(xié)同能力的“數(shù)字開發(fā)者”。而曾經(jīng)的AI編程助手們已經(jīng)進(jìn)入到“實(shí)戰(zhàn)為王”的比拼階段。AI是否真的能寫出生產(chǎn)級(jí)代碼,工程師、程序員有沒有未來(lái),又一次成為行內(nèi)的普遍疑問。
帶著這個(gè)問題,數(shù)據(jù)猿對(duì)當(dāng)前最主流的AI編程助手們進(jìn)行了一場(chǎng)編程能力橫向評(píng)測(cè)。在這場(chǎng)評(píng)測(cè)中,不講“Hello World”,也不比誰(shuí)注釋寫得多,而是以真實(shí)、有一定技術(shù)復(fù)雜度的前端任務(wù)場(chǎng)景,去檢驗(yàn)各大模型“代碼生成+工程思維+動(dòng)畫交互+邏輯推理”的綜合能力。我們希望通過(guò)這場(chǎng)直觀的測(cè)試,讓更多人了解AI大模型編程,距離真正能成為開發(fā)生產(chǎn)力工具,還有多遠(yuǎn)。
不理解但模仿
AI編程助手如何工作
從表面看,AI編程只是大模型聊天界面中的一個(gè)對(duì)話模型,但本質(zhì)上,它們是通過(guò)大型神經(jīng)網(wǎng)絡(luò)模擬人類對(duì)語(yǔ)言和邏輯的理解與推理。即理解編程語(yǔ)言、接收任務(wù)、生成代碼這樣的工作鏈條。
目前市面上主流大模型基本都是采用擅長(zhǎng)處理序列數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)框架Transformer架構(gòu),其學(xué)習(xí)過(guò)程從“大規(guī)模無(wú)監(jiān)督預(yù)訓(xùn)練”開始。以大家較為熟悉的ChatGPT-4為例,其訓(xùn)練數(shù)據(jù)包括開源代碼庫(kù)(如GitHub)、技術(shù)文檔(如Stack Overflow)、軟件API說(shuō)明、教材等。這種語(yǔ)料不僅覆蓋自然語(yǔ)言,還包含了豐富的多語(yǔ)言編程范式。
有了大量訓(xùn)練數(shù)據(jù)后,大模型就開始通過(guò)“自回歸語(yǔ)言建模”任務(wù)進(jìn)行訓(xùn)練,直白點(diǎn)說(shuō)它學(xué)習(xí)在給定前n個(gè)token的情況下預(yù)測(cè)第n+1個(gè)token。在代碼語(yǔ)境下,這相當(dāng)于:在給定函數(shù)名稱、變量定義和部分注釋的條件下,模型學(xué)習(xí)“人類通常在這種場(chǎng)景下會(huì)寫什么代碼”。經(jīng)過(guò)海量訓(xùn)練后,它在內(nèi)部建立起一種“代碼常識(shí)”,這和開發(fā)者長(zhǎng)期寫代碼過(guò)程中形成的直覺類似。
但和人類開發(fā)者不同的是,大模型的“知識(shí)”是統(tǒng)計(jì)性的,而不是邏輯演繹式的,總結(jié)來(lái)說(shuō),大模型不是“理解”代碼,而是在“概率上模仿”代碼。
預(yù)訓(xùn)練之后,模型往往還會(huì)經(jīng)歷兩個(gè)階段的進(jìn)一步優(yōu)化,指令微調(diào)(Instruction Tuning)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF),在進(jìn)一步強(qiáng)化執(zhí)行具體任務(wù)的同時(shí),通過(guò)人類評(píng)分反饋,對(duì)輸出質(zhì)量進(jìn)行進(jìn)一步優(yōu)化。部分廠商還會(huì)進(jìn)行垂類增強(qiáng)訓(xùn)練,例如Claude 3.5 Sonnet就針對(duì)復(fù)雜推理和代碼編輯能力進(jìn)行了大量定向優(yōu)化,GPT-4則專門強(qiáng)化了對(duì)Git diff、bug定位等工程化能力的表現(xiàn)。到了這一步,可以看做大模型已經(jīng)完成訓(xùn)練。
在接下來(lái)的執(zhí)行階段,首先大模型會(huì)對(duì)我們的語(yǔ)義進(jìn)行解析,將我們輸入的自然語(yǔ)言問題轉(zhuǎn)化為向量表示,從而理解意圖。例如,“請(qǐng)幫我寫一個(gè)快排函數(shù)”會(huì)被內(nèi)部解析為一個(gè)排序類算法需求,帶有時(shí)間復(fù)雜度優(yōu)化的隱含偏好。
接下來(lái)進(jìn)行條件填充和上下文融合,模型將任務(wù)描述、代碼上下文一并處理,形成一個(gè)完整的輸入提示(prompt),再通過(guò)自注意力機(jī)制尋找其中的重要邏輯關(guān)聯(lián)。
最后是Token級(jí)生成,基于概率分布逐個(gè)生成后續(xù)token(詞元),直到滿足“結(jié)束符”或達(dá)到預(yù)設(shè)長(zhǎng)度。每一步都基于前文生成結(jié)果,并不斷更新內(nèi)部狀態(tài)。和自然語(yǔ)言相比,代碼生成更強(qiáng)調(diào)結(jié)構(gòu)與語(yǔ)法,因此主流模型會(huì)在代碼任務(wù)中采用Beam Search、Top-k sampling或temperature控制策略,以提升生成的穩(wěn)定性和準(zhǔn)確率。
除了代碼生成,大模型也能完成代碼解釋、重構(gòu)與補(bǔ)全等任務(wù)。這是因?yàn)樗鼈冊(cè)谟?xùn)練中大量接觸過(guò)真實(shí)世界中的“代碼+注釋”、“bug+fix”、“diff+commit message”等語(yǔ)料。在此基礎(chǔ)上,模型逐漸學(xué)會(huì)識(shí)別語(yǔ)義塊、推斷函數(shù)用途、甚至根據(jù)語(yǔ)境優(yōu)化結(jié)構(gòu)。
這種推理式的生成勢(shì)必存在一定的“非確定性”,表現(xiàn)在實(shí)踐中,就是同一問題在不同提示下可能會(huì)出現(xiàn)不同的解法,且不一定能成功運(yùn)行。此外,模型生成的代碼只是在靜態(tài)語(yǔ)義層面正確,即語(yǔ)法正確、邏輯看似合理,但可能會(huì)存在報(bào)錯(cuò)、安全性漏洞、魯棒性及通用性等問題。
但無(wú)論如何,AI大模型編程已經(jīng)改變了開發(fā)工作的演變進(jìn)程。
百家爭(zhēng)鳴
市面主流編程大模型剖析
隨著大模型編程能力被行業(yè)廣泛認(rèn)可,一場(chǎng)圍繞各大模型編程能力的角逐也正在上演。從當(dāng)前行業(yè)格局看,無(wú)論是國(guó)際巨頭還是本土勢(shì)力,都在圍繞“AI 大模型編程能力”這一指標(biāo)打磨自己的旗艦?zāi)P汀?/p>
就大模型層面而言,我們選取了國(guó)外代表模型GPT-4、Claude 3.7、Gemini 2.5 Pro、GitHub Copilot X,國(guó)內(nèi)模型包括DeepSeek、通義千問、文心一言、百川、訊飛星火、Moonshot V1.5 Turbo(月之暗面KIMI)、智譜AI(ChatGLM),以公開技術(shù)報(bào)告或官方新聞為基準(zhǔn),向大家簡(jiǎn)要陳述各模型特色。
各模型情況簡(jiǎn)述(根據(jù)公開信息整理,僅供參考)
☆ChatGPT-4(OpenAI)
ChatGPT-4定位為通用智能,并沒有專門針對(duì)代碼優(yōu)化,但在代碼生成方面表現(xiàn)仍然表現(xiàn)出色。據(jù)公開資料顯示ChatGPT-4企業(yè)版本上下文長(zhǎng)度可達(dá)20萬(wàn)token(約128k英文token),并能理解底層語(yǔ)言及復(fù)雜代碼結(jié)構(gòu)。值得一提的是,ChatGPT-4采用了逐token自回歸預(yù)訓(xùn)練與RLHF對(duì)齊,并不專注于代碼數(shù)據(jù),但憑借其通用性和推理能力,它在編程輔助等任務(wù)中仍然具備極高實(shí)用價(jià)值。
☆Claude 3.7(Anthropic)
由Anthropic推出的Claude3.5版本曾憑借天氣動(dòng)畫卡片在圈內(nèi)一炮而紅,該模型支持200K token的超大上下文。今年2月,Anthropic發(fā)布了最新的混合推理模型Claude 3.7 Sonnet。該模型引入了“擴(kuò)展思維模式”(extended thinking mode),允許用戶根據(jù)任務(wù)復(fù)雜度在快速響應(yīng)和逐步推理之間進(jìn)行切換,特別適用于需要深入分析的問題,如復(fù)雜的編程任務(wù)、數(shù)學(xué)推導(dǎo)和前端交互設(shè)計(jì)等 。此外,Anthropic還推出了名為Claude Code的命令行工具,旨在支持端到端的軟件開發(fā)流程,包括項(xiàng)目規(guī)劃、代碼生成、調(diào)試和重構(gòu)等。
☆Gemini 2.5 Pro(Google)
Gemini 2.5 Pro被谷歌稱為最強(qiáng)AI編程模型,主打長(zhǎng)文本、多模態(tài)和多語(yǔ)言理解。Gemini 2.5 Pro版本增強(qiáng)了代碼生成能力,能夠根據(jù)簡(jiǎn)單提示生成復(fù)雜的交互式Web應(yīng)用、動(dòng)畫和數(shù)據(jù)可視化。同時(shí)擁有強(qiáng)大的推理與函數(shù)調(diào)用能力,支持多輪推理、函數(shù)調(diào)用和結(jié)構(gòu)化輸出,適用于復(fù)雜任務(wù)的處理。據(jù)公開信息,Gemini 2.5 Pro擁有超長(zhǎng)上下文窗口,支持高達(dá)100萬(wàn)個(gè)token的上下文,便于處理大型代碼庫(kù)和文檔。
☆GitHub Copilot X(OpenAI和微軟)
作為OpenAI和GitHub(微軟)聯(lián)合打造的工程級(jí)AI編程助手,Copilot在2021年就已經(jīng)發(fā)布,與其它“通用型大模型+代碼”的產(chǎn)品路徑不同,GitHub Copilot更像是工程環(huán)境中的AI插件,它深入IDE,支持VS Code、JetBrains、Neovim等主流開發(fā)工具,專注于函數(shù)級(jí)補(bǔ)全、代碼生成、測(cè)試自動(dòng)化、代碼注釋生成、代碼解釋器等任務(wù)。開發(fā)者在實(shí)際編碼時(shí),只需輸入部分注釋或函數(shù)頭,Copilot就能自動(dòng)推理并補(bǔ)全邏輯。2023 年,GitHub推出升級(jí)版Copilot X,基于GPT-4架構(gòu),進(jìn)一步擴(kuò)展能力邊界。Copilot X集成了Chat窗口、PR diff解釋器、終端助手、語(yǔ)音輸入等功能,并加入了Pull Request分析與Code Review輔助。目前,GitHub Copilot已在全球數(shù)百萬(wàn)開發(fā)者中部署,微軟方面還宣布將在未來(lái)的Windows和Office編程接口中引入統(tǒng)一的“Copilot平臺(tái)”,進(jìn)一步打通從系統(tǒng)底層到應(yīng)用開發(fā)的AI助手生態(tài)。
☆DeepSeek(深度求索)
DeepSeek模型使用了多頭注意力(MHA)和稀疏Mixture-of-Experts等技術(shù),大幅降低顯存和算力開銷。據(jù)稱在數(shù)學(xué)和代碼基準(zhǔn)上已經(jīng)超過(guò)了GPT-4的水平。有開發(fā)者實(shí)測(cè)顯示,新版V3在前端代碼生成(HTML/CSS/JS)方面已接近Anthropic Claude 3.7的水平。
☆通義千問(阿里巴巴)
阿里巴巴達(dá)摩院開發(fā)的通義千問(Qwen)系列是一套面向通用智能的多模態(tài)大模型平臺(tái),并提供了針對(duì)代碼任務(wù)優(yōu)化的版本。官方數(shù)據(jù)顯示,千問2.0(千億參數(shù))在通用基準(zhǔn)測(cè)試中綜合性能超過(guò)GPT-3.5,正在加速追趕GPT-4。此外,阿里還推出了專門的編程大模型CodeQwen1.5-7B,千問模型采用Transformer架構(gòu),結(jié)合大規(guī)模中英文預(yù)訓(xùn)練與人類反饋微調(diào),目前開放多種參數(shù)規(guī)??晒┥逃煤烷_源下載。
☆文心一言(百度)
百度的文心一言(ERNIE大模型系列)是國(guó)內(nèi)較早推出的通用大模型產(chǎn)品,側(cè)重中文語(yǔ)義理解和多模態(tài)處理。文心模型的NERIIE技術(shù)在中文檢索與生成上有較好表現(xiàn),并推出了編程輔助工具“文心快碼”(Baidu Comate),但具體編程實(shí)例還需要進(jìn)一步實(shí)測(cè)。
☆百川(百川智能)
百川智能推出的Baichuan系列是一套開放源代碼的大語(yǔ)言模型,創(chuàng)始人為前知乎CEO王小川。技術(shù)上,Baichuan采用了大規(guī)模中英文混合預(yù)訓(xùn)練,并通過(guò)RLHF和自主反饋強(qiáng)化學(xué)習(xí)優(yōu)化模型輸出。在編程方面,Baichuan對(duì)代碼理解和生成能力也得到了很多用戶的認(rèn)可。
☆訊飛星火(iFlytek Spark)
科大訊飛的星火大模型系列融合了語(yǔ)音與語(yǔ)言技術(shù),其智能編程助手iFlyCode集成了代碼生成、代碼補(bǔ)齊、代碼糾錯(cuò)、代碼注釋生成和單元測(cè)試生成五大功能模塊,有傳聞稱其代碼生成和補(bǔ)齊能力已經(jīng)超過(guò)了同期的ChatGPT。
☆Kimi k1.5Turbo(月之暗面)
月之暗面(Moonshot)Kimi將上下文擴(kuò)展至200萬(wàn)漢字,Kimi強(qiáng)調(diào)對(duì)超長(zhǎng)文本和對(duì)話的理解連貫性,目前尚未有官方評(píng)測(cè)專門展示其編程能力。
☆ChatGLM(智譜AI)
智譜AI推出的ChatGLM系列是開源的中英雙語(yǔ)對(duì)話模型。盡管ChatGLM在中文理解與生成方面性能強(qiáng)勁,但行業(yè)普遍認(rèn)為ChatGLM在執(zhí)行與代碼相關(guān)的任務(wù)時(shí)仍容易出錯(cuò)。在沒有專門調(diào)用工具的情況下,ChatGLM系列對(duì)編程情境的適應(yīng)性一般。
實(shí)用評(píng)測(cè)
各模型編程實(shí)戰(zhàn)呈現(xiàn)
盡管從公開信息來(lái)看,各模型在編程方面都有一戰(zhàn)之力,但具體實(shí)戰(zhàn)中表現(xiàn)如何,還需要實(shí)際測(cè)試了解。
此次我們通過(guò)統(tǒng)一、系統(tǒng)的編程任務(wù)測(cè)試,從多個(gè)維度評(píng)估當(dāng)前主流大模型在編程輔助場(chǎng)景下的真實(shí)表現(xiàn),揭秘誰(shuí)才是目前最具實(shí)戰(zhàn)能力的AI開發(fā)搭檔。
為了盡可能科學(xué)地測(cè)試這些模型的編程能力,我們?cè)O(shè)計(jì)了如下標(biāo)準(zhǔn):
統(tǒng)一提示詞:所有模型接受完全相同的英文提示,避免因提示優(yōu)化影響結(jié)果。
純文本接口測(cè)試:不借助IDE插件或Copilot類增強(qiáng),僅用Chat窗口交互。
全面題型設(shè)計(jì):覆蓋UI動(dòng)效、算法邏輯、代碼架構(gòu)、工程實(shí)現(xiàn)等多個(gè)維度。
標(biāo)準(zhǔn)化評(píng)估指標(biāo):從代碼可運(yùn)行性、功能實(shí)現(xiàn)完整性、工程結(jié)構(gòu)設(shè)計(jì)、可讀性、可擴(kuò)展性、AI推理與架構(gòu)能力等六個(gè)維度打分。
以下是我們五道編程測(cè)試題,生成部分統(tǒng)一采用英文提示詞:
☆測(cè)試題 1:天氣卡片動(dòng)畫(Claude 3.5 成名之作)
Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind (moving clouds, swaying trees), Rain (falling raindrops), Sun (shining rays), Snow (falling snowflakes). Show all cards side-by-side. The background should be dark. Include buttons to toggle between weather conditions.All code in one file.
(請(qǐng)創(chuàng)建一個(gè)包含HTML、CSS 和 JavaScript的單一文件,用于生成一個(gè)帶動(dòng)畫效果的天氣卡片。卡片應(yīng)以不同的動(dòng)畫效果展示以下天氣狀態(tài):
風(fēng)(如云朵移動(dòng)、樹木擺動(dòng))
雨(如雨滴下落)
晴天(如太陽(yáng)光線閃耀)
雪(如雪花飄落)
要求:
所有天氣卡片并排展示
頁(yè)面背景為深色
提供按鈕以切換不同天氣狀態(tài)
所有代碼必須寫在一個(gè)文件中)
☆測(cè)試題 2:日歷生成器 + 跨月導(dǎo)航
Create a JavaScript-powered monthly calendar that dynamically generates any month/year view with correct day-of-week alignment. Allow the user to navigate forward/backward across months. Highlight the current date if it exists in the displayed month. All code in a single HTML file.
(請(qǐng)使用JavaScript構(gòu)建一個(gè)可動(dòng)態(tài)生成任意年月視圖的月歷組件。要求:
星期對(duì)齊正確(即每月第一天對(duì)應(yīng)正確的星期)
用戶可點(diǎn)擊按鈕進(jìn)行前后月份切換
若當(dāng)前月中包含今天日期,則高亮顯示
所有代碼寫在一個(gè)HTML文件中)
☆測(cè)試題 3:多線程大文件分片上傳模擬器
Simulate a multi-part file uploader in JavaScript that reads a large file, slices it into chunks, and uploads each chunk asynchronously with progress bars. Mock the server endpoint using setTimeout and simulate random failures. Retry failed chunks up to 3 times. Show final success/failure.
(請(qǐng)用JavaScript實(shí)現(xiàn)一個(gè)大文件上傳模擬器,模擬以下行為:
將大文件切片(chunk)
并行上傳多個(gè)切片,并顯示每個(gè)切片的上傳進(jìn)度條
使用setTimeout模擬服務(wù)端接口
隨機(jī)模擬上傳失敗的情況
對(duì)失敗的切片重試最多三次
最后顯示整體上傳是否成功)
☆測(cè)試題 4:迷你Web IDE(Mini Code Editor)
Create a single-page web application that functions as a mini code editor. Support syntax highlighting (JS), line numbering, and real-time preview in an iframe. Display syntax/runtime errors. No external libraries allowed. All logic must be implemented from scratch in one HTML file.
(請(qǐng)構(gòu)建一個(gè)單頁(yè)Web應(yīng)用,具備以下功能:
代碼編輯器界面
支持JavaScript的語(yǔ)法高亮
支持行號(hào)顯示
實(shí)時(shí)在iframe中預(yù)覽運(yùn)行結(jié)果
顯示語(yǔ)法或運(yùn)行時(shí)錯(cuò)誤
要求:
不允許使用任何第三方庫(kù)
所有邏輯需完全手寫
所有代碼集中在一個(gè)HTML文件內(nèi))
☆極限測(cè)試題5:用JS實(shí)現(xiàn)一個(gè)2048游戲+自動(dòng)解法AI
Create a fully playable version of the 2048 game using HTML, CSS, and JavaScript. Include the following features:
·Game board with animations
·Keyboard input support
·Undo/Redo history
·A button that uses a built-in AI to auto-play and win the game
You must implement the game logic and the AI algorithm (e.g., expectimax or greedy search) yourself. No external game engines or libraries allowed.
(請(qǐng)使用HTML、CSS 和 JavaScript開發(fā)一個(gè)完整可玩的2048游戲,實(shí)現(xiàn)以下功能:
游戲棋盤與數(shù)字格子動(dòng)畫
鍵盤操作控制方向
支持撤銷 / 重做操作歷史
提供一個(gè)按鈕啟動(dòng)AI自動(dòng)操作,自動(dòng)完成并贏得游戲
限制:
必須自己實(shí)現(xiàn)游戲邏輯和AI算法(如Expectimax或貪婪搜索)
不允許使用任何外部游戲引擎或第三方庫(kù))
以下為具體各模型實(shí)測(cè)部分結(jié)果,僅供參考:
首先是ChatGPT,ChatGPT延續(xù)了以往快速反饋的特色,對(duì)于命令分解和反饋?zhàn)龅谋容^好。
測(cè)試題一中,ChatGPT對(duì)于頁(yè)面的呈現(xiàn)非常完整,對(duì)于風(fēng)的描述是云朵從畫面中劃過(guò),以綠色圓柱左右擺動(dòng)代表樹木。雨滴掉落、雪花飄落呈現(xiàn)較為精準(zhǔn),晴天則在畫面中放了一個(gè)太陽(yáng)。所有天氣卡片并排展示,頁(yè)面背景為深色,設(shè)置了“Toggle Wind、Toggle Rain、Toggle Sun、Toggle Snow”四個(gè)按鈕,可切換不同天氣狀態(tài)。但在實(shí)際點(diǎn)擊過(guò)程中,各按鈕和畫面切換存在不同步現(xiàn)象。
測(cè)試題二中,ChatGPT構(gòu)建了一個(gè)簡(jiǎn)單月歷組件,星期對(duì)齊正確、可以點(diǎn)擊按鈕進(jìn)行前后月份切換,其中今天的日期采取了高亮顯示,整體切換流暢。
測(cè)試題三中,ChatGPT生成一個(gè)完整的大文件上傳模擬器,模擬了將152M的測(cè)試視頻上傳的情況,測(cè)試中,多線程模擬器將測(cè)試視頻切為153份,并以動(dòng)畫形式呈現(xiàn)上傳進(jìn)度,上傳失敗文件顯示為紅色,并在頁(yè)面最下方提醒部分區(qū)塊文件上傳失敗,整體對(duì)于命令呈現(xiàn)較為完整。
測(cè)試題四中,ChatGPT創(chuàng)建了迷你Web IDE,但并沒有運(yùn)行按鈕,僅僅只是一個(gè)框架,不能使用。
測(cè)試題五中,ChatGPT生成了一個(gè)2048游戲,采用的數(shù)字格子動(dòng)畫,可以以鍵盤操作控制數(shù)字方向,并提供了撤銷、重做、AI自動(dòng)操作按鈕,但在測(cè)試中發(fā)現(xiàn),ChatGPT此次編程邏輯和算法還有提升空間,鍵盤操作控制數(shù)字方塊的響應(yīng)不夠精準(zhǔn),AI自動(dòng)操作中,也并未出現(xiàn)2048數(shù)字。
Claude 3.7在編程方面能力非常出色,代碼生成后直接顯示預(yù)覽畫面。
其中第一個(gè)測(cè)試題目是Claude 3.5在行業(yè)引起轟動(dòng)的測(cè)試題,具體呈現(xiàn)方面,Claude 3.7確實(shí)不負(fù)所望。在表述基礎(chǔ)上還添加了適度和風(fēng)速兩個(gè)指標(biāo)。太陽(yáng)、下雨、飄雪呈現(xiàn)比較直觀,風(fēng)卡片中呈現(xiàn)了三棵輕微晃動(dòng)的樹。按鈕也非常精準(zhǔn)、切換自然。但在設(shè)計(jì)中,畫面元素太陽(yáng)遮住了溫度,樹木遮住了濕度和風(fēng)速,除此之外整體畫面呈現(xiàn)幾近完美,
第二個(gè)測(cè)試題中,Claude 3.7生的頁(yè)面同樣十分出色,左上角為月份/年份,右上角月份切換,星期對(duì)齊正確、可以點(diǎn)擊按鈕進(jìn)行前后月份切換,其中今天的日期采取了高亮顯示,整體切換十分流暢。相較于ChatGPT,Claude 3.7的月歷組件整體呈現(xiàn)更精美。
第三個(gè)測(cè)試題中,Claude 3.7延續(xù)了畫面精美的風(fēng)格,ChatGPT生成一個(gè)完整的大文件上傳模擬器,模擬了將152M的測(cè)試視頻上傳,測(cè)試中,模擬器將測(cè)試視頻切為153份,點(diǎn)擊開始上傳后,以動(dòng)畫形式呈現(xiàn)上傳進(jìn)度。上方呈現(xiàn)整體進(jìn)度情況。每上傳成功一份會(huì)標(biāo)綠顯示success,未成功則顯示Retry 1/2/3,在頁(yè)面最下方,會(huì)顯示具體時(shí)間及文件上傳具體動(dòng)作和進(jìn)度。整體而言,這個(gè)測(cè)試題中,Claude 3.7近乎完美呈現(xiàn)了題目要求。
第四個(gè)測(cè)試題中,Claude 3.7創(chuàng)建了迷你 Web IDE,有運(yùn)行按鈕,但輸入代碼后發(fā)現(xiàn)不能運(yùn)行。
第五個(gè)測(cè)試題中,Claude 3.7生成了一個(gè)2048游戲,這道測(cè)試中,Claude 3.7生成了一段超過(guò)長(zhǎng)度限制代碼,為此采取了兩段生成,或許是這個(gè)原因,導(dǎo)致雖然生成的界面較為美觀,但在測(cè)試中邏輯和算法問題比較突出,基本上沒有可玩性。但就整體界面而言,Claude所生成的代碼頁(yè)面中有當(dāng)前積分、歷史最高積分、撤銷、重來(lái)、新的游戲、AI玩游戲及停止AI玩游戲等按鈕,并在界面下方標(biāo)注了游戲玩法,非常齊全。
接下來(lái)測(cè)試Gemini 2.5 Pro在編程方面的能力,我們采用的是號(hào)稱更擅長(zhǎng)代碼文檔的Canvas功能。
第一個(gè)測(cè)試題目中,Gemini 2.5 Pro的頁(yè)面呈現(xiàn)較為完整,對(duì)于風(fēng)的描述是除了云朵的滑動(dòng),還有動(dòng)畫人物吹氣的詳細(xì)表述,樹木左右擺動(dòng)。雨滴掉落較為精準(zhǔn),晴天則在畫面中僅僅把畫面設(shè)置為了黃色,沒有太陽(yáng)元素。雪天雪花飄落基本沒有呈現(xiàn)。按鈕點(diǎn)擊較為靈敏且準(zhǔn)確。
測(cè)試題二中,Gemini 2.5 Pro搭建了一個(gè)簡(jiǎn)單月歷組件,星期對(duì)齊正確、可以點(diǎn)擊按鈕進(jìn)行前后月份切換,其中今天的日期采取了高亮顯示,整體切換較為流暢。
第三個(gè)測(cè)試題中,Gemini 2.5 Pro雖然撰寫了代碼,但文件無(wú)法上傳,測(cè)試無(wú)法呈現(xiàn)具體成果。
第四個(gè)測(cè)試題中,和ChatGPT及Claude3.7的不能運(yùn)行不同,Gemini 2.5 Pro完整創(chuàng)建了一個(gè)代碼編輯器應(yīng)用。實(shí)測(cè)證明可以實(shí)現(xiàn)代碼校對(duì)功能及實(shí)時(shí)預(yù)覽運(yùn)行結(jié)果,左下方有錯(cuò)誤及正確提示,就這個(gè)題目而言,Gemini 2.5 Pro完成的較為出色。
第五個(gè)測(cè)試題中,Gemini 2.5 Pro所生成的2048游戲非常不完整,不滿足命題要求。
接下來(lái)測(cè)試國(guó)內(nèi)大模型,首先是DeepSeek,我們測(cè)試的是其R1版本。
和國(guó)外大模型直接快速寫出代碼不同,DeepSeek在代碼生成之前經(jīng)歷了非常長(zhǎng)的思考過(guò)程,但從結(jié)果上看,長(zhǎng)思考過(guò)程和呈現(xiàn)似乎并沒有太大關(guān)系。
第一個(gè)測(cè)試題目中,DeepSeek R1生成的界面較為簡(jiǎn)陋。僅僅有主要的元素云、雨、太陽(yáng)、雪花。界面效果也很一般,在實(shí)際點(diǎn)擊過(guò)程中,各按鈕和畫面不匹配現(xiàn)場(chǎng)非常頻繁,很難滿足命題要求。
測(cè)試題二中,DeepSeek R1搭建了一個(gè)較為簡(jiǎn)單月歷組件,星期對(duì)齊正確、可以點(diǎn)擊按鈕進(jìn)行前后月份切換,其中今天的日期采取了高亮顯示,整體切換較為流暢。但設(shè)計(jì)呈現(xiàn)非常簡(jiǎn)單,不算美觀。
測(cè)試題三中,DeepSeek R1生成一個(gè)較為完整的大文件上傳模擬器,模擬了將152M的測(cè)試視頻上傳,測(cè)試中,多線程模擬器將測(cè)試視頻切為153份,并以動(dòng)畫形式呈現(xiàn)上傳進(jìn)度,每上傳成功一份會(huì)標(biāo)綠顯示success,未成功則顯示Retrying 1/2/3,上傳失敗文件顯示為紅色,并在頁(yè)面最下方提醒部分文件塊上傳失敗,整體對(duì)于命令呈現(xiàn)較為完整。
第四個(gè)測(cè)試題中,DeepSeek R1創(chuàng)建了迷你 Web IDE,但輸入代碼后不能運(yùn)行,對(duì)于正確的代碼也提示錯(cuò)誤,頁(yè)面左側(cè)行號(hào)也顯示錯(cuò)亂,整體和題目相差較多。
第五個(gè)測(cè)試題中,DeepSeek R1生成了一個(gè)2048游戲,相較于國(guó)外大模型,DeepSeek R1生成的界面較為簡(jiǎn)潔,左上方顯示具體分?jǐn)?shù),下方有新的游戲、撤銷、重來(lái)和AI玩游戲四個(gè)按鈕。實(shí)測(cè)中,AI自動(dòng)玩游戲短暫幾次就會(huì)停止,算法和邏輯也有一定問題。
接下來(lái)是通義千問·CodeQwen,我們測(cè)試的是通義千問Qwen3更擅長(zhǎng)處理代碼問題的代碼模式,就生成速度而言,通義千問在代碼生成速度方面非常迅速,整體頁(yè)面呈現(xiàn)也較為美觀。代碼頁(yè)面可以選擇深色和淺色兩個(gè)版本,代碼也做了彩色語(yǔ)法高亮處理。就界面優(yōu)化層面而言,通義千問是非常出眾的。
第一個(gè)測(cè)試題目中,通義千問Qwen3代碼模式?jīng)]有按照要求生成天氣卡片,整體視覺呈現(xiàn)較為簡(jiǎn)陋。四張?zhí)鞖饪ㄆ瑳]有完整展現(xiàn),主要元素例如樹木、云朵也都沒有呈現(xiàn),和命題嚴(yán)重不符。
測(cè)試題二中,通義千問Qwen3代碼模式搭建了一個(gè)較為簡(jiǎn)單月歷組件,星期對(duì)齊有錯(cuò)位,但基本正確、可以點(diǎn)擊按鈕進(jìn)行前后月份切換,其中今天的日期采取了高亮顯示,整體切換較為流暢。設(shè)計(jì)呈現(xiàn)非常簡(jiǎn)單,不算美觀。值得一提的是,盡管是全英文提示詞,通義千問還是把年份和月份換成了中文,這一點(diǎn)值得肯定。但下方的星期又變成了英文,整體呈現(xiàn)有些混淆,左右切換按鈕也出現(xiàn)了錯(cuò)行。
測(cè)試題三、四、五三道題,通義千問Qwen3同樣沒有達(dá)到預(yù)期。測(cè)試題三中,通義千問Qwen3僅僅搭建了大文件上傳模擬器的框架,實(shí)際測(cè)試中,并沒有完整呈現(xiàn)文件上傳界面,整體頁(yè)面成為了灰色,沒有完成命題要求;測(cè)試題四中,僅僅搭建了框架;測(cè)試題五中,生成的2048游戲,界面同樣簡(jiǎn)陋,算法和邏輯也不對(duì)。
文心一言我們測(cè)試的是文心4.5Turbo版本,生成速度同樣迅捷。代碼部分也做了彩色語(yǔ)法高亮處理,代碼頁(yè)面可以選擇深色和淺色兩個(gè)版本。
第一個(gè)測(cè)試題目中,文心4.5Turbo生成的界面整體色調(diào)較為舒適,四個(gè)天氣卡片沒有全部在一起展現(xiàn),主要元素中沒有展現(xiàn)太陽(yáng),整體切換較為流暢。但值得肯定的是,每個(gè)天氣卡片都有動(dòng)畫效果的同時(shí),還用一句話形容了當(dāng)前的天氣或提示。比如,晴天中表述Perfect beach weather! 雨天中的Don't forget your umbrella! 雪天中的Time for a snowball fight! 刮風(fēng)天氣中的Kite flying weather! 整體而言較為出色。
測(cè)試題二中,文心4.5Turbo搭建了一個(gè)簡(jiǎn)單月歷組件,星期對(duì)齊正確、可以點(diǎn)擊按鈕進(jìn)行前后月份切換,其中今天的日期采取了高亮顯示,整體切換較為流暢。
測(cè)試題三中,文心4.5Turbo生成一個(gè)較為完整的大文件上傳模擬器,模擬了將152M的測(cè)試視頻上傳,測(cè)試中,和大部分大模型所生成的模擬器將測(cè)試視頻切為153份不同,文心一言把視頻切分為了31份,整體沒有以進(jìn)度條方式呈現(xiàn),上傳成功則為綠色Uploaded successfully提示,但整體文件未上傳完畢,停頓在了70%左右,也沒有提示區(qū)塊文件上傳失敗,沒有完成命題要求。
第四個(gè)測(cè)試題中,文心4.5Turbo雖然創(chuàng)建了迷你 Web IDE,但輸入代碼后不能運(yùn)行,沒有滿足命題要求。
出人意料的是,文心4.5Turbo并沒有完成第五個(gè)測(cè)試題。
實(shí)測(cè)中,百川大模型同樣和DeepSeek一樣,有較長(zhǎng)的思考過(guò)程,代碼部分也做了彩色語(yǔ)法高亮處理。
考慮到篇幅問題,我們集中為大家呈現(xiàn)接下來(lái)幾個(gè)大模型的生成情況。
百川大模型在整體測(cè)試中,除了月歷組件和多線程大文件上傳模擬器,其他3個(gè)測(cè)試題百川完成效果均不太理想。以下是其各測(cè)試題效果:
訊飛星火在整體測(cè)試中,整體思考過(guò)程相對(duì)非常久,除了月歷組件較為完整,其他4個(gè)測(cè)試題完成效果均不算合格。以下是其各測(cè)試題效果:
Kimi在整體測(cè)試中,天氣卡片效果有生成,但不符合命題要求。月歷組件是所有大模型生成效果中,竟然出現(xiàn)了星期和日期不對(duì)應(yīng)的情況,是所有測(cè)試大模型中唯一的一個(gè)。大文件上傳模擬器相對(duì)而言比較完整,迷你代碼編輯器未達(dá)到命題要求。出人意料的是,聯(lián)網(wǎng)模式下Kimi生成的2048游戲中,AI玩游戲中完成進(jìn)度是最好的。但在不聯(lián)網(wǎng)的情況下,Kimi并沒有完成這項(xiàng)測(cè)試。
智譜清言在整體測(cè)試中,天氣卡片不符合命題要求,月歷組件較為完整流暢,多線程大文件上傳模擬器無(wú)法上傳文件,迷你代碼編輯器和2048游戲未達(dá)到命題要求。以下是其各測(cè)試題效果:
通過(guò)本次橫向評(píng)測(cè),可以簡(jiǎn)單總結(jié),各大編程助手在基礎(chǔ)語(yǔ)法和常規(guī)任務(wù)上差異正在縮小,但勝負(fù)手并不在于語(yǔ)法細(xì)節(jié),而在于對(duì)復(fù)雜架構(gòu)的理解和多步推理能力。簡(jiǎn)單來(lái)說(shuō),下一代AI編程助手的競(jìng)爭(zhēng)焦點(diǎn),將是它能否像人類那樣,從全局角度規(guī)劃軟件系統(tǒng),并在需求持續(xù)演變的情況下保持思路清晰。
歸根結(jié)底,AI編程助手要成為開發(fā)者的得力伙伴,需要超越對(duì)單句指令的翻譯能力,真正理解編程任務(wù)的“語(yǔ)境”和“全局”,為軟件創(chuàng)新提供真正有價(jià)值的幫助。
大模型編程角力不是性能跑分,
是生態(tài)競(jìng)爭(zhēng)
誠(chéng)然,測(cè)試題只是模型能力的一面鏡子,只能簡(jiǎn)單反映出各模型寫代碼的實(shí)力。AI編程助手能否走出實(shí)驗(yàn)室、進(jìn)入日常開發(fā)環(huán)境,關(guān)鍵肯定不在分?jǐn)?shù),而在產(chǎn)品化與生態(tài)建設(shè)。畢竟,從能寫代碼,到能真正幫助工程師完成開發(fā)任務(wù),是兩個(gè)維度的問題。這里面有幾個(gè)誤區(qū):
誤區(qū)一:模型能力≠開發(fā)效率
產(chǎn)品形態(tài)決定實(shí)際價(jià)值,即便HumanEval能跑出80%的準(zhǔn)確率,現(xiàn)實(shí)中程序員更關(guān)注的是:你能幫我自動(dòng)補(bǔ)全函數(shù)、理解上下文、定位bug、生成單元測(cè)試嗎?就目前而言,顯然答案是否定的。
誤區(qū)二:本地部署就能滿足企業(yè)級(jí)需求?
從工具到平臺(tái)的延展產(chǎn)品化還有一層:是否能進(jìn)入企業(yè)內(nèi)部?大模型輸出的代碼涉及數(shù)據(jù)、算法、業(yè)務(wù)邏輯,安全、保密、可控至關(guān)重要。很多企業(yè)理所當(dāng)然地認(rèn)為“只要本地部署就安全了”,但現(xiàn)實(shí)遠(yuǎn)沒有那么簡(jiǎn)單。除了模型推理要在本地完成,更大的挑戰(zhàn)在于上下文數(shù)據(jù)如何同步、隱私策略如何配置、代碼審計(jì)與權(quán)限管控如何落地,甚至還要考慮多租戶下的資源隔離和團(tuán)隊(duì)協(xié)作。
從這個(gè)角度看,AI編程助手的真正“產(chǎn)品力”遠(yuǎn)不止模型,還包括IDE插件系統(tǒng)、上下文緩存方案、API集成能力、組織級(jí)使用管理等復(fù)雜架構(gòu)。
誤區(qū)三:垂類細(xì)分≠精細(xì)打磨
另一個(gè)常被忽略的點(diǎn)是,AI編程助手并非一刀切產(chǎn)品。前端、后端、算法、數(shù)據(jù)工程、運(yùn)維,任務(wù)需求千差萬(wàn)別。對(duì)前端工程師而言,他們關(guān)注動(dòng)畫交互、DOM結(jié)構(gòu)、跨端適配;對(duì)后端工程師而言,更重視數(shù)據(jù)結(jié)構(gòu)、算法復(fù)雜度與服務(wù)性能。
某種程度上,AI編程助手正在從“代碼助手”進(jìn)化為“開發(fā)平臺(tái)”:既要能寫代碼,更要能理解上下游工程環(huán)境,從DevOps到CI/CD,成為軟件工程體系中的一環(huán)。
這背后考驗(yàn)的,是模型的泛化能力,也是產(chǎn)品和生態(tài)建設(shè)的綜合實(shí)力。
短期來(lái)看,各大模型廠商還在以“能力秀”為主:誰(shuí)在HumanEval上分高?誰(shuí)能通過(guò)MBPP?誰(shuí)能還原經(jīng)典開源項(xiàng)目?但從中期來(lái)看,真正值得投入的,是開發(fā)鏈條的閉環(huán)打通:是否能在真實(shí)的工程環(huán)境中處理龐雜的上下文、跟蹤任務(wù)進(jìn)展、理解業(yè)務(wù)意圖、生成高質(zhì)量代碼并支持持續(xù)迭代?最終,誰(shuí)能率先打造出一個(gè)穩(wěn)定、高效、具備“人機(jī)協(xié)同”特征的AI開發(fā)平臺(tái),誰(shuí)就能率先占領(lǐng)開發(fā)者心智。
長(zhǎng)期來(lái)看,AI編程助手的最終形態(tài),可能不是“寫代碼更快”,而是“重新定義開發(fā)流程”。這一進(jìn)化背后,既是大模型技術(shù)能力的迭代,更是產(chǎn)品形態(tài)的革命。
對(duì)國(guó)內(nèi)大模型廠商而言,這或許是一次“彎道超車”的好機(jī)會(huì)。中國(guó)開發(fā)者生態(tài)復(fù)雜、業(yè)務(wù)場(chǎng)景豐富,本地化、垂直化、多端協(xié)同的需求遠(yuǎn)比國(guó)外市場(chǎng)更加繁雜。這意味著,誰(shuí)能在“工程落地”上走得更扎實(shí),誰(shuí)就有機(jī)會(huì)在全球 AI 編程助手的競(jìng)賽中,跑出中國(guó)式的創(chuàng)新路徑。
換句話說(shuō),模型能力是起點(diǎn),產(chǎn)品化是分水嶺,生態(tài)建設(shè)才是終局。
而這一切,才剛剛開始。
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過(guò)的資訊
-
1悠然無(wú)界大模型及MAGX空間智能體新品重磅
-
2騰訊健康公布全新智能體服務(wù) AI全面驅(qū)動(dòng)
-
3大模型知識(shí)引擎全面升級(jí)為“騰訊云智能體
-
4別再瞎搜了!這個(gè)“高搜商”AI“先思考后
-
5谷歌正在將廣告引入AI模式;QQ瀏覽器推出
-
6AI這一局,騰訊打的是“全家桶”
-
7騰訊打出知識(shí)庫(kù)混合雙打!騰訊樂享+騰訊
-
8湯道生:騰訊持續(xù)加大AI投入力度,各項(xiàng)業(yè)
-
9Grok新增記憶功能;黃仁勛:英偉達(dá)堅(jiān)定不
-
10翠鳥·工創(chuàng)云 | 解鎖工業(yè)數(shù)字孿生新紀(jì)
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
