国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

豆包2.0的目標,不是成為做題家

0
分享至



對于大模型,OpenAI、Anthropic、谷歌等全球頂尖的AI公司,都在不斷地強調模型的通用性,以及其涌現(xiàn)能力。可字節(jié)在豆包2.0上,卻來了一波“反向操作”。

字節(jié)跳動選擇了一條更務實的路徑。他們從真實業(yè)務場景倒推模型能力。

豆包團隊發(fā)現(xiàn),企業(yè)用戶最高頻的需求不是解奧數題,而是處理混雜著圖表、文檔的非結構化信息,然后在這個基礎上完成多步驟的專業(yè)任務。

于是豆包2.0把優(yōu)化重點放在了多模態(tài)理解、長上下文處理、指令遵循這些“不那么性感但很實用”的能力上。

這種路徑選擇可能更接近AGI的本質。

真正的通用智能不是在所有基準測試上都拿高分,而是能在真實世界各種雜七雜八的約束下,依然按要求完成任務。

一個能解IMO金牌題但無法完成企業(yè)報表分析的模型,和一個可以穩(wěn)定完成業(yè)務流程的模型,哪個更“智能”?

豆包2.0的答案很明確。

我把這段話發(fā)給了豆包2.0,它回答我說



雖然有些阿諛奉承、迎風拍馬,但我們的觀點是相似的。

01

豆包2.0來了

就在2026年情人節(jié)這天,豆包更新了2.0版本。PC、網頁版、手機用戶都可以從對話框選擇“專家”模式,以開啟豆包2.0。

與此前版本相比,豆包2.0的核心變化在于從“能解題”轉向“能做事”——針對大規(guī)模生產環(huán)境的使用需求進行了系統(tǒng)性優(yōu)化。

豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和一款 Code 模型。

豆包2.0Code 接入了AI編程產品TRAE,而火山引擎也同步上線了豆包2.0系列模型API服務。

從公開的基準測試數據來看,豆包2.0 Pro在多個維度上取得了有競爭力的成績。

豆包2.0在IMO、CMO 數學競賽和ICPC編程競賽中獲得金牌成績,在 Putnam基準測試上超越了Gemini 3 Pro。



在HLE-Text(人類的最后考試)這項綜合性評測中,豆包2.0 Pro得分54.2,在參與對比的模型中排名第一。

不過需要注意的是,基準測試成績與實際應用表現(xiàn)之間存在差異。

字節(jié)跳動團隊自己也承認,豆包2.0在端到端整體代碼生成、上下文學習等方面,與國際領先模型相比仍有提升空間。

這種坦誠的表態(tài),比單純強調優(yōu)勢更有說服力。

在科學領域知識測試中,豆包2.0的表現(xiàn)與Gemini 3 Pro和GPT-5.2處于同一水平線。

在SuperGPQA測試中,豆包2.0 Pro得分68.7,略高于GPT-5.2的67.9。在HealthBench測試中得分57.7,排名第一。

這些數據表明,相較于豆包1.8,新版本的豆包在長尾領域知識覆蓋上有所加強。

豆包2.0在多模態(tài)理解上的提升是全方位的。

在視覺推理方面,模型在MathVista、MathVision等基準上達到了業(yè)界最優(yōu)水平。

這些考試比簡單的圖像識別要復雜得多。

因為這些測試的目的,是考察模型能否從圖像中提取數學關系、理解幾何結構、進行邏輯推演。

在文檔理解場景中,豆包2.0在ChartQA Pro與OmniDocBench 1.5基準上的表現(xiàn)達到頂尖水平。

現(xiàn)實中的文檔往往是表格、圖表、文字、公式混雜的復雜版式,模型需要準確識別結構、提取信息、理解關系。

在長上下文理解方面,豆包2.0在 DUDE、MMLongBench等測試中取得了較好成績。

視頻理解是豆包2.0的一個重點優(yōu)化方向。

在TVBench、TempCompass、MotionBench等測試中,豆包2.0處于領先位置。

值得注意的是,在EgoTempo基準上,豆包2.0的得分超過了人類水平。這個細節(jié)說明,模型在捕捉“變化、動作、節(jié)奏”這類時序信息時,可能比人類更穩(wěn)定.

豆包2.0還支持流式實時視頻分析,可以實現(xiàn)環(huán)境感知、主動糾錯與交互。這種能力的應用場景包括健身指導、穿搭建議等,模型能實時觀察并給出反饋,而不是事后分析錄像。

02

豆包團隊如何實現(xiàn)?

其實豆包2.0的這些提升背后,涉及到了多個層面的優(yōu)化。

多模態(tài)融合架構的改進是基礎。

傳統(tǒng)的多模態(tài)模型是把視覺編碼器和語言模型簡單拼接,視覺信息和文本信息的交互深度不夠。

豆包2.0強化了視覺與語言的深度融合,讓模型能更好地理解圖像中的語義信息。

人類看一張圖,它是包含因果關系的。



就拿這張圖來說,傳統(tǒng)多模態(tài)大模型看到這張圖,它理解的是“姚順宇”、“話筒”、“手”、“西裝”。

但是人類理解這張圖是“姚順宇西裝革履拿著話筒正在演講”。

即使圖片是靜態(tài)的,也能因為他的神態(tài)、穿著來判斷此時正在做什么。

此外,豆包2.0對注意力機制的改進,為它帶來了長上下文處理能力的提升。

處理長文本或長視頻時,模型需要在海量信息中保持注意力,不能顧此失彼。

就比如你在閱讀這篇文章的時候,A部分出現(xiàn)了大量的技術名詞、術語,你也只會挑其中的圖片以及數字來一目十行地看,不會逐字逐句認真看。

因此豆包2.0其實是以人類讀長文章時那樣,自動抓重點,而不是平均分配注意力。

技術上,這需要更高效的注意力計算方法和更合理的信息篩選機制。



最后,豆包2.0推理能力的提升不只是記住更多知識,而是真正提升了從已知推導未知的能力。

這涉及到訓練過程中對推理鏈的顯式建模,讓模型學會“一步步思考”而不是直接給答案。這種能力在解決復雜問題時尤為重要。

03

現(xiàn)實不是競賽

字節(jié)跳動團隊觀察到一個現(xiàn)象,語言模型已經可以順利解決競賽難題,但放在真實世界中,它們依然很難端到端地完成實際任務。

比如一次性構建一個設計精良、功能完整的小程序。

這個鴻溝的原因主要有兩點,第一是知識覆蓋的問題。

競賽題目通常聚焦在數學、編程等核心領域,而真實任務往往涉及長尾領域的專業(yè)知識,比如前文提到的醫(yī)療、法律、工程、商業(yè)等等。

第二是指令遵循的問題。

真實任務通常包含多個步驟、多重約束,模型需要嚴格按照要求一步步推進,不能跑偏,不能遺漏。

豆包2.0試圖通過系統(tǒng)性加強長尾領域知識和強化指令遵循能力來彌合這個鴻溝。

從測試數據來看,在深度研究任務、復雜agent能力評估等方面,豆包2.0達到了業(yè)界第一梯隊水平。

在客服問答、信息抽取、意圖識別等高頻應用場景上,模型表現(xiàn)也比較穩(wěn)定。

播客中給出了一個有意思的案例——高爾基體蛋白分析。

豆包2.0不僅能給出總體實驗路線,還能把基因工程、小鼠模型構建、亞細胞分離與多組學分析串成完整流程,細化到關鍵環(huán)節(jié)怎么做、用什么進行對照、用哪些指標評估純度。

相關領域專家表示,這個方案在跨學科的實驗細節(jié)與步驟化表達上,超出了他們對大模型的預期。

不過,從“能給出方案”到“方案真正可行”,中間還有驗證的距離。這個案例更多說明模型在知識整合和表達能力上的進步,而不是說它已經能替代科研人員做實驗設計。

眾所周知,AI編程是2026年最火的賽道,豆包2.0 Code是針對編程場景優(yōu)化的版本,已上線TRAE作為內置模型。

字節(jié)團隊展示的案例是“TRAE春節(jié)小鎮(zhèn)·馬年廟會”互動項目。通過1輪提示詞構建基本架構,再經過幾次調試,總共5輪提示詞完成作品。



這個小鎮(zhèn)里有11位由大語言模型驅動的NPC,會根據人設自然聊天、招呼顧客、現(xiàn)場砍價。

AI游客自己決定去哪家攤位、買什么、說什么。

其中,煙花升空時的祝福語、孔明燈上的題詞都由AI即時生成。每次進入小鎮(zhèn),看到的互動都可能不同。

這個案例展示了豆包2.0 Code模型在快速原型開發(fā)上的能力。不過需要注意的是,從原型到產品之間還有很長的路要走。

從字節(jié)跳動的策略來看,豆包2.0強調“面向真實世界復雜任務”,這是一個務實的定位。

通過分析真實使用場景來指導模型優(yōu)化,而不是單純?yōu)榱怂瘛?/p>

這種以需求為導向的研發(fā)思路,可能比單純追求基準測試分數更有價值。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一旦戰(zhàn)爭爆發(fā),伊朗唯一活路,就是把那一萬枚導彈一次全打出去!

一旦戰(zhàn)爭爆發(fā),伊朗唯一活路,就是把那一萬枚導彈一次全打出去!

近史博覽
2026-02-02 14:14:26
中際旭創(chuàng):2025年度凈利潤約107.99億元,同比增加108.81%

中際旭創(chuàng):2025年度凈利潤約107.99億元,同比增加108.81%

每日經濟新聞
2026-02-27 21:09:05
中國男籃逆轉日本不到24小時,惡心的一幕發(fā)生,原來郭士強沒說謊

中國男籃逆轉日本不到24小時,惡心的一幕發(fā)生,原來郭士強沒說謊

小徐講八卦
2026-02-28 06:04:53
悲催!不自量力把婚離了,飯碗也碎了,50多歲保險女如今欲哭無淚

悲催!不自量力把婚離了,飯碗也碎了,50多歲保險女如今欲哭無淚

火山詩話
2026-02-27 06:14:00
巴拿馬剛接管港口,李嘉誠就出手,長和開始大清倉,海量資產甩賣

巴拿馬剛接管港口,李嘉誠就出手,長和開始大清倉,海量資產甩賣

夢想的現(xiàn)實
2026-02-28 04:30:02
梅西:很后悔沒好好學英語,后來和大人物聊天時覺得自己無知

梅西:很后悔沒好好學英語,后來和大人物聊天時覺得自己無知

懂球帝
2026-02-27 04:20:38
CCTV5直播!中國女足vs朝鮮,傳來2個好消息,劍指亞洲杯頭名出線

CCTV5直播!中國女足vs朝鮮,傳來2個好消息,劍指亞洲杯頭名出線

侃球熊弟
2026-02-28 00:10:03
失業(yè)的人越來越多了

失業(yè)的人越來越多了

曹多魚的財經世界
2025-12-24 14:56:20
淚目!山東一父親騙兒子“走親戚”獨自返京!被上萬網友留言打動,折返700公里接娃;孩子狂奔而來,一句話讓他破防

淚目!山東一父親騙兒子“走親戚”獨自返京!被上萬網友留言打動,折返700公里接娃;孩子狂奔而來,一句話讓他破防

揚子晚報
2026-02-27 21:14:22
錢再多有啥用?56歲李富真走路東倒西歪、瘦成皮包骨,真不忍直視

錢再多有啥用?56歲李富真走路東倒西歪、瘦成皮包骨,真不忍直視

洲洲影視娛評
2026-02-27 15:07:49
知青舅舅返城,絕口不提下鄉(xiāng)事,多年后回到故土,發(fā)現(xiàn)兒孫滿堂

知青舅舅返城,絕口不提下鄉(xiāng)事,多年后回到故土,發(fā)現(xiàn)兒孫滿堂

人間百態(tài)大全
2026-02-27 06:50:03
臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

顧史
2026-01-21 21:04:39
松原市紀委監(jiān)委通報:王爽被查

松原市紀委監(jiān)委通報:王爽被查

吉刻新聞
2026-02-27 16:45:33
喊話對話遭冷處理后,高市放狠話:絕對不容許中方對日出口管制

喊話對話遭冷處理后,高市放狠話:絕對不容許中方對日出口管制

策略述
2026-02-27 13:13:49
劉宇寧新劇《玫瑰叢生》告訴觀眾:劇本改編,真的要看時機!

劉宇寧新劇《玫瑰叢生》告訴觀眾:劇本改編,真的要看時機!

海綿寶寶的心事
2026-02-27 17:29:13
無風險套利!“依法黑吃黑”,收割2000億

無風險套利!“依法黑吃黑”,收割2000億

大貓財經Pro
2026-02-27 18:59:23
三孩政策刺激無果后,中央下狠手了!新政策讓3代人拍手叫好

三孩政策刺激無果后,中央下狠手了!新政策讓3代人拍手叫好

吃青菜長高
2026-02-24 20:11:17
歐冠抽簽炸裂!阿森納夢幻簽,曼城皇馬再相遇

歐冠抽簽炸裂!阿森納夢幻簽,曼城皇馬再相遇

生活新鮮市
2026-02-28 06:37:53
上了年紀要戒煙嗎?醫(yī)生建議:過了60歲,日常吸煙牢記5不吸

上了年紀要戒煙嗎?醫(yī)生建議:過了60歲,日常吸煙牢記5不吸

周哥一影視
2026-02-27 17:36:57
金正恩:朝韓永遠無法統(tǒng)一,給中國帶來一重要警示

金正恩:朝韓永遠無法統(tǒng)一,給中國帶來一重要警示

潘軮旅行浪子
2026-02-26 23:03:09
2026-02-28 07:52:49
字母榜 incentive-icons
字母榜
讓未來不止于大。
2252文章數 8044關注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

160萬粉絲"反詐老陳"被罰 官方:以反詐為名煽動對立

頭條要聞

160萬粉絲"反詐老陳"被罰 官方:以反詐為名煽動對立

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術節(jié)盡顯恩愛

財經要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

旅游
房產
親子
家居
本地

旅游要聞

春節(jié)假期后機票、酒店價格回落!中老年群體成錯峰游主力

房產要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

親子要聞

今年過年和父母鬧別扭了嗎?希望小女孩能找到和父母相處最舒服的方式

家居要聞

素色肌理 品意式格調

本地新聞

津南好·四時總相宜

無障礙瀏覽 進入關懷版