豆包深度思考和文生圖3.0模型正式對企業(yè)客戶開放
豆包 | 2025-04-18 14:30
【數(shù)據(jù)猿導(dǎo)讀】 最近,豆包大模型發(fā)布了系列更新。其中,豆包1.5·深度思考模型在推理任務(wù)和通用任務(wù)的綜合表現(xiàn)達(dá)到業(yè)界前沿水平,并擁有視覺推理能力;豆包文生圖模型3.0登上權(quán)威競技場Artificial Analysis文生圖榜單第一梯隊。今天,這兩款模型已通過火山引擎正式開放API,供開發(fā)者和企業(yè)客戶使用...

最近,豆包大模型發(fā)布了系列更新。
其中,豆包1.5·深度思考模型在推理任務(wù)和通用任務(wù)的綜合表現(xiàn)達(dá)到業(yè)界前沿水平,并擁有視覺推理能力;豆包文生圖模型3.0登上權(quán)威競技場Artificial Analysis文生圖榜單第一梯隊。
今天,這兩款模型已通過火山引擎正式開放API,供開發(fā)者和企業(yè)客戶使用。
豆包1.5·深度思考模型:推理更高效、更通用
該模型在專業(yè)領(lǐng)域推理任務(wù)中表現(xiàn)出色,數(shù)學(xué)推理AIME 2024 測試得分追平OpenAI o3-mini-high、編程競賽Codeforces pass@8得分接近 OpenAI o1、科學(xué)推理GPQA 得分接近 o3-mini-high,均達(dá)到或接近全球第一梯隊。
在創(chuàng)意寫作等非推理任務(wù)中,模型也展示出優(yōu)秀的泛化能力,能勝任更廣泛和復(fù)雜的使用場景。
數(shù)據(jù)、算法和基礎(chǔ)設(shè)施創(chuàng)新
為提升模型的通用能力,團(tuán)隊優(yōu)化了數(shù)據(jù)處理策略,融合可驗證與創(chuàng)意性數(shù)據(jù),滿足各類任務(wù)需求。
大規(guī)模強(qiáng)化學(xué)習(xí)是訓(xùn)練推理模型的關(guān)鍵技術(shù),團(tuán)隊創(chuàng)新性提出雙軌獎勵機(jī)制,兼顧“對錯分明”和“見仁見智”任務(wù),并有效實現(xiàn)了算法的可靠優(yōu)化。
強(qiáng)化學(xué)習(xí)訓(xùn)練的穩(wěn)定性至關(guān)重要,團(tuán)隊為此優(yōu)化了底層架構(gòu),保障可擴(kuò)展性、可重復(fù)性和計算效率。
性能與成本的極致優(yōu)化
模型采用MoE架構(gòu),總參數(shù)為200B,激活參數(shù)僅20B,具備顯著的訓(xùn)練和推理成本優(yōu)勢。
基于高效算法和高性能推理系統(tǒng),模型在提供極高并發(fā)承載能力的同時,實現(xiàn)20毫秒極低延遲。
視覺推理拓展應(yīng)用邊界
豆包深度思考模型還推出視覺版,具備視覺推理能力,能像人類一樣對自己看到的事物進(jìn)行聯(lián)想、思考,極大拓展了智能推理的應(yīng)用邊界。
豆包深度思考模型稍早之前已接入字節(jié)跳動旗下豆包等產(chǎn)品。
豆包文生圖模型躋身全球第一梯隊
豆包文生圖模型Seedream3.0是一個原生高分辨率、支持中英雙語的圖像生成基礎(chǔ)模型,整體性能相比上一代有較大提升,尤其在分辨率、生圖結(jié)構(gòu)準(zhǔn)確性、數(shù)量準(zhǔn)確性、多物體屬性關(guān)系、小字生成與排版、美感效果、真實度等方面有所突破。
直出2K圖像,適配多比例場景
在預(yù)訓(xùn)練階段,Seedream3.0技術(shù)團(tuán)隊對模型架構(gòu)和訓(xùn)練策略做了多方面改進(jìn)。其中,借助多分辨率混合訓(xùn)練,讓2K圖像直出成為可能。無論是手機(jī)端,還是巨幅海報場景,均可滿足相關(guān)視覺需求。
3秒出圖,大幅提升創(chuàng)作效率
Seedream3.0采取多項策略實現(xiàn)高效推理,1K分辨路出圖端到端僅需3秒。面向海報設(shè)計、視覺創(chuàng)意等需求,可快速生成高品質(zhì)圖像,實現(xiàn) "所想即所得" 的實時創(chuàng)意交互,大幅提升創(chuàng)作效率。
文本排版效果增強(qiáng),小字更準(zhǔn)確
Seedream3.0優(yōu)化小字體高保真生成、多行文本語義排版等業(yè)界難題,讓 AI 具備商業(yè)級圖文設(shè)計能力。
美感效果和生圖結(jié)構(gòu)提升
Seedream3.0 的指令遵循能力實現(xiàn)增強(qiáng),人體和物體結(jié)構(gòu)崩壞情況減少,生圖AI感進(jìn)一步弱化,實現(xiàn)從“看得清”到“有感染力”的審美提升。
在文生圖權(quán)威競技場Artificial Analysis上,豆包文生圖模型Seedream3.0 與GPT-4o、Imagen 3、Midjourney v6.1、FLUX1.1 Pro等模型同臺競技,排名第一梯隊。
Seedream3.0稍早之前已在字節(jié)跳動旗下豆包、即夢等平臺全量開放。
來源:豆包