網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

豆包1.8實測——字節(jié)的基座模型走到哪一步了？

2025-12-19 15:07:34　來源: 衛(wèi)夕指北

北京舉報

分享至

最近這段時間，谷歌DeepMind的官方紀錄片《The Thinking Game》在AI圈傳播挺廣。

不得不說，拍得的確好，看過的人應該都對結尾那段很有張力的場景印象深刻：創(chuàng)始人Demis Hassabis拿著手機對準桌面，非常很松弛地和AI聊天——

他指著桌上的棋盤問怎么走，AI教他下西西里防御；他指著一個鉛筆裝置問抽走一根會怎樣，AI告訴他會崩塌。

這畫面，確實很Sexy。

而恰好我也看到了字節(jié)剛發(fā)的“豆包大模型1.8”的技術報告，發(fā)現(xiàn)其一個亮點也是視覺理解和推理。

于是我隨即在火山引擎的后臺用豆包1.8跑了一下這兩個case——

正好最近在多鄰國里學國際象棋，于是給它實拍了家里自己擺的“雙馬防御”的開局，鉛筆裝置就隨便找了一張平替圖。

可以看豆包大模型1.8在理解和推理后給出了自己的走法——d3的兵進到d4。

一般認為雙馬防御有三種走法，其一是白方的f3的馬跳到g5，其二是d2的兵進到d3。

其三就是更激進的蘇格蘭棄兵風格的兵直接進到d4，也就是豆包1.8給出的選擇，它列出的理由也合情合理。

而面對鉛筆裝置，其視覺推理和受力分析也毫無壓力，直接告知會“傾斜、坍塌”。

這么一看，這個模型的確有點東西，我決定繼續(xù)沿著技術報告繼續(xù)盤一盤它——

一、從技術報告看“豆包大模型1.8”的水準與亮點

火山引擎最新推出的豆包1.8沒有像市面上大多數(shù)模型那樣，動不動就湊個整，叫 2.0，或者加個 Max、Ultra 的后綴來裝點自己。

1.8，這個數(shù)字本身就透著一種實用主義的取向。

技術報告里的Benchmark以及它強調(diào)的“Generalized Real-World Agency”，都強調(diào)一個邏輯：關注實用性。

所以在技術報告里，整體上，它承認和 GPT-5 High、Gemini 3 Pro 這些世界頂尖閉源模型還有差距。

但這個差距，正在以肉眼可見的速度縮小。

具體而言，豆包1.8 和它自己的前代豆包1.5、1.6 相比，那牙膏的確是是擠爆了。

豆包大模型1.8 強調(diào)“Economically Valuable Fields”（經(jīng)濟價值領域），核心能力是讓模型在真實世界里能多輪互動、用工具、接收環(huán)境反饋、做多步任務。

注意它的措辭：把感知、推理、行動盡量揉進一個統(tǒng)一的模型里。

以我粗淺的理解，下面三個點可以說一說——

1）整體縮小與世界頂級閉源模型差距，部分細分指標逼近 SOTA

報告里的第一張表直接把豆包1.8 拉去跟 GPT-5 High、Claude Sonnet-4.5、Gemini 2.5 Pro、Gemini 3 Pro 同臺對打。

仔細看數(shù)據(jù)，數(shù)學、代碼、推理這些硬骨頭，大體上屬于：綜合仍有差距，但差距在縮小；局部指標已經(jīng)能貼著 SOTA 邊走。

比如 AIME-25 上 94.3，和最高的 95.0 幾乎貼臉；一些復雜指令遵循（Inverse IFEval）也到了 80.3，跟 Gemini 3 Pro 的 80.6 只差一口氣。

補一個小細節(jié)：報告明確說豆包1.8 提供四檔 thinking mode（no_think / think-low / think-medium / think-high）。

該設置用來在時延、算力成本、解題質(zhì)量之間做可控權衡。

這其實是想讓用戶能把它塞進不同預算、不同延遲的系統(tǒng)里跑起來。

2）在 ZeroBench、VLMsAreBiased 等多項視覺基準中超越 Gemini 3 Pro

的確，頭部模型都在卷多模態(tài)，原因很簡單：語言是世界的說明書，但多模態(tài)才是世界本身。

我記得前兩年還有一個很流行的說法，叫“多模態(tài)不產(chǎn)生智能”，現(xiàn)在看這個說法錯得離譜。

想讓 Agent 真去做事，它當然要看屏幕、看表格、看截圖、看報表。

報告在視覺上給了非常硬的一句話：豆包1.8 相對前代 Seed1.5-VL 有“顯著提升”，整體能力“逼近 Gemini 3 Pro”，并且在若干挑戰(zhàn)基準上直接超過 Gemini 3 Pro。

最醒目的兩個點：

ZeroBench (main)：豆包大模型1.8 = 11.0，Gemini 3 Pro = 10.0（SOTA）。

VLMsAreBiased：豆包大模型 = 62.0，Gemini 3 Pro = 50.6，而且報告還強調(diào)這是顯著領先。

這兩項為什么重要？

因為它們指向的是更接近真實世界的兩類痛點——

第一，圖里有信息，但信息是隱含或組合的、甚至是反直覺的；

第二，現(xiàn)實世界的圖像不是干凈數(shù)據(jù)集，是帶噪聲、帶誤導的。

豆包大模型1.8它在解鎖應用場景的能力上很強——

多圖理解（MUIRBench）上、2D/3D 空間理解上，它拿到 78.7，領先于 Gemini 3 Pro 與 GPT-5.1 High。

這些說白了就是為了Agent能看懂界面結構、看懂圖表關系、看懂空間位置的，只要做過一點 browser agent、GUI agent，就知道這個的重要性。

3）Agent 能力提升：在 BrowseComp-en、BrowseComp-zh、GAIA 中實現(xiàn)領先水準

講 agent，千萬別把它當提示詞工程的勝利或者是上下文工程的勝利，agent 對基礎模型的智能程度要求極高。

報告在定義上就把這事說得很直白：豆包大模型1.8 面向多輪互動與任務執(zhí)行，支持搜索、代碼執(zhí)行、GUI 交互。

并且報告中強調(diào)：中間結果會反過來影響下一步動作，其實就是：邊走邊看邊改。

具體到數(shù)據(jù)層面，它在 BrowseComp 這類真實檢索與瀏覽任務上，表現(xiàn)不俗：

具體而言豆包大模型1.8在GAIA、BrowseComp-en、BrowseComp-zh、WideSearch這幾個benchmark上高于GPT-5 High 和Gemini 3 Pro。

這類指標的意義很實用的，如果你做的是搜索型 agent、研究型 agent、瀏覽器agent，模型需要穩(wěn)定地找到證據(jù)、過濾噪音、做出判斷，并且能把證據(jù)鏈講清楚。

值得注意的是，豆包1.8在BrowseComp-zh 這種中文任務表現(xiàn)出了入鄉(xiāng)隨俗的優(yōu)勢，中文互聯(lián)網(wǎng)的信息密度、噪音密度、話術密度都有自己的特點，能處理好，不容易。

而且數(shù)據(jù)還顯示它在多模態(tài)檢索（MM-BrowseComp）上也有著不錯分數(shù)（46.3），說明它不是只會搜文本，而是開始能把圖表、界面元素納入決策，這一點對Agent的實用性也非常重要。

總結一成一句話：豆包大模型1.8底座能力在縮差、視覺能力很能打、Agentic 指標上升到第一梯隊。

二、綜合實測：我在Browser Use Agent里由易到難給它上了一些強

廢話少說，從簡單的開始，先來個弱智吧的經(jīng)典題——

“擎天柱買保險是買車險還是人身意外險？”

很顯然，面對這種調(diào)戲，豆包1.8模型已經(jīng)輕車熟路，思考過程細致、清晰、詳細，回答滴水不漏，挑不出任何毛病。

注意，我們看到即便是這樣簡單的問題看，只要我選擇了高思考模式，它就會飽和思考，可以看到它總共調(diào)用了10386token，的確沒有偷懶。

咱們繼續(xù)，稍微上一點強度，既然技術報告里強調(diào)了視覺理解是亮點，那咱們就直接來一段視頻。

我直接上傳了喬布斯1993年的蘋果經(jīng)典廣告“Think different”，要求它逐一識別出視頻里的涉及到的人物。

為了防止它偷懶直接上網(wǎng)搜搜結果，我特別強調(diào)要按時間線準確列出人物出場時間。

可以看到，在耗時20.85妙之后，它成功給出了時間線，完整、準確、天衣無縫——

咱們繼續(xù)，Agentic的能力也是本次技術報告中強調(diào)的重點，因此我決定直接通過Agent來用豆包大模型1.8。

我在火山引擎的后臺找到了官方現(xiàn)成的Browser Use的Agent，一起來調(diào)戲它一下——

咱們照例先來簡單的，第一個任務——登錄網(wǎng)頁版微信回復我老婆的刁鉆問題。

微信是常用軟件，回答的不好可是要出問題的，而我老婆的問題是那道經(jīng)典的送命題——

我和你媽同時掉進水里，你先救誰？”

從視頻看到，毫無壓力，輕松應答，目前看，整一個應用應對日常聊天應該是綽綽有余的。

期待字節(jié)官方可以整一個面向C端的Web應用，再不濟，開發(fā)者也可以基于火山引擎的服務整一個面向C端用戶的應用，我相信這類應用是有人愿意用滴。

接下來，咱們繼續(xù)來一點小小的行為藝術——

搜索"FutureMe.org"(給未來寫信的網(wǎng)站)。寫一封信給10年后的自己(huweixi@126.com)。內(nèi)容是："今天是2025年12月17日，我正在用一個Al Agent給未來的自己寫信。如果你收到了這封信，說明AI還沒有毀滅人類。"

可以看到，Browser Use Agent對這類任務也輕松拿捏，成功找到網(wǎng)站，寫下郵件，時間選擇10年，選擇了“私人信件”，填寫收件郵箱，就等著最后付款了，當然付款顯然超出了它的能力范圍。

（老外的網(wǎng)站就是這樣，屁大一點的功能都要錢，還死貴，等著，哪天我vibe coding一個，不要錢，關注我公眾號就行，愿意贊助token和服務的云廠商可酌情聯(lián)系）

接下來，咱們稍微上一點點難度，來一個實用一些的操作case——

“去微博（我會幫你登錄），搜索用戶“李楠或kkk”，按順序關注10個他的關注列表中的用戶，然后發(fā)一條微博——“AI獎賞懶惰的思考者，懲罰勤奮的執(zhí)行者——本條由Browser Use Agent自動發(fā)送”，最后搜索用戶“來去之間”，給他的最新博文點贊?！?/blockquote>
可以看到，Browser Use Agent行云流水，登錄之后快速找到了李楠的賬號，然后找到列表成功關注了一堆，發(fā)微博和點贊也不在話下。
這其實是非常實用的功能，其實我在Twitter就有一個類似的需求，找到一些高質(zhì)量的海外AI博主進行關注，這個功能其實就可以滿足這類需求。
（可惜火山引擎的后臺演示頁面沒辦法上Twitter）

咱們再來一個有點刁鉆的挑戰(zhàn)，也是我在這次測試中非常滿意的一個測試——
“在瀏覽器里打開豆瓣，從電影《霸王別姬》開始，只允許點擊鏈接，利用六度分隔理論，一步步摸到《我不是藥神》的頁面去?！?/blockquote>
這源于我在研究生期間對六度分隔理論在國內(nèi)電影和演員之間應用的興趣。
六度分隔理論原本是說任意兩個人之間最多可通過5個人就能聯(lián)系上，擴展到影視圈就是任意兩部電影或者兩個演員，最多通過5個演員和電影就能關聯(lián)上。
這個case我感覺還是有點難度滴。
咱們來看看Browser Use Agent的表現(xiàn)，說實話是超出我的預期的，它在幾步之內(nèi)，不迷路、不瞎點，不到一分鐘成功找到了路徑——
在《霸王別姬》的演員中找到了葛優(yōu)，然后在葛優(yōu)出演的電影中找到了《我和我的祖國》，接著在《我和我的祖國》的導演名單中找到了文牧野，然后在文牧野的導演作品中找到了《我不是藥神》。
一次完成，沒有走彎路，牛逼！
豆包大模型1.8的報告里特意提到了 "Native visual perception"（原生視覺感知）。
這點很關鍵，它不是把網(wǎng)頁轉(zhuǎn)成一堆亂碼去讀，而是像人一樣，盯著屏幕截圖看。
在《霸王別姬》的頁面上，它一眼相中了葛優(yōu)，為什么選葛優(yōu)？不是張國榮，不是鞏俐？
這就體現(xiàn)了模型的智商。
如果選張國榮，年代和地域都和文牧野這些內(nèi)地現(xiàn)實主義題材的圈子略遠，選葛優(yōu)，他連接多，是大節(jié)點，沒毛病。
這一通操作，就是視覺理解和深度思考的有機配合，確實有點東西。
我之所以選Browser Use這個Agent，其實也是經(jīng)過思考的——
瀏覽器作為實用頻率最高的生產(chǎn)力工具之一，它的獨特之處在于它天然就是一個很好Context環(huán)境，而Agent普及一個重點就是如何構建更好的Context。
事實上，稍微觀察一下就會發(fā)現(xiàn)，我們在瀏覽器干了太多事了：吸收資訊、收發(fā)郵件、管理項目等等。
如果一個基模它的Browser Use能力強，有理由認為它在生產(chǎn)力領域的泛化潛力就越好。
從這個意義上，我們期待越來越多的創(chuàng)業(yè)者和開發(fā)者能基于豆包1.8這樣Agentic能力突出的基模開發(fā)出更有想象力的應用。
當然，必須承認，以上我個人層面的測試case并不能完全闡述豆包大模型1.8的全部水準，但我們可以將其視為一面鏡子，其折射出的能力是具有可擴展性的。
歸根結底，Agent最終需要的就是腦、眼、手以及工具組合，而上面的case其實已經(jīng)能體現(xiàn)豆包1.8將感知、推理、行動盡量揉進一個統(tǒng)一的模型里帶來的價值。
管中窺豹，可見一斑。
當然，我測評這些模型，也不能完全只說好的方面，也有一些我個人木有那么滿意的地方，比如下面這個case——

本來只想調(diào)戲一下它，結果濃眉大眼的1.8直接拒絕了我。
可以看到，這種拒絕回答并非在前端頁面的攔截，而是經(jīng)過思考的攔截（可以看到思考過程），也就是說在模型的權重層其實就加入類似“法律相關問題不允許放飛瞎說”的對齊意識。
盡管木有啥幽默感，但想一想也可以理解，畢竟像我這樣提中二問題的人在現(xiàn)實中并不多，涉及法律謹慎一點好。
但下面這個case感覺就是對齊思維略過了——

這個需求居然也拒絕我了，在我看來，這是一個非常合理的需求。
然而模型的思考似乎表現(xiàn)出了非常強的正義感，開始“正確無害”滴說教了，希望模型開發(fā)的同學可以get到這個長尾的case。
三、“模型能力升級-解鎖新的應用場景”這個范式預計在2026還會加速
的確，通過寥寥幾個案例很顯然無法清楚地闡釋一個模型的全部能力，這也是為什么需要各類Benchmark的原因，但我想說，Benchmark并非全部。
毫無疑問，基模還在繼續(xù)卷，挑戰(zhàn)智能上限的過程還在繼續(xù)。
如果我們不能理解模型的進步，我們只需要看一看在2023年，我們是如何測試GPT4的（），就會發(fā)現(xiàn)基模的進步其實在這兩年已經(jīng)滄海桑田。
從這個意義上，我需要再次強調(diào)我的觀點——當基模的智能足夠強的時候，應用往往就不需要雕花。
很多創(chuàng)業(yè)者開發(fā)AI應用，特別容易陷入一種手工藝人心態(tài)：覺得模型不夠，就靠規(guī)則、提示詞優(yōu)化、工作流去縫縫補補。
這本質(zhì)上就是雕花，花雕越精細，并不是護城河越深，而是競爭力越脆弱。
我非常認可Manus的季逸超的一個說法，他認為“產(chǎn)品與底層模型最好保持正交：如果模型進步是上漲的潮水，應用應該成為那條船，而不是固定在海床上的柱子?！?/p>
的確，一旦把基模智能拉到一個閾值以上，應用層的雕花會變成一種負擔。
基模的智能足夠強的時候，它對任務的理解、對上下文的把握、對多模態(tài)證據(jù)的讀取、對動作后果的預判，往往比開發(fā)者寫出來的規(guī)則更自洽，工程上稱之為“魯棒性”。
從豆包大模型1.8的技術報告我們也能看到，模型的Agentic能力足夠強的時候，應用應該做的是“找場景、定目標、給工具、設邊界”。
一句話——相信基模，不要雕花。
結語
豆包大模型1.8的報告我覺得有的一個點可能被大部分人低估了：它專門做了一組 “Economically Valuable Fields” 的內(nèi)部評測基準。
這些內(nèi)部基準覆蓋了教育、客服、法律、金融等多個現(xiàn)實場景，這是一個產(chǎn)業(yè)視角、也是一種用戶思維，而這種被低估的取向未來會證明其應有的價值。
——End——
作者簡介：衛(wèi)夕，公眾號“衛(wèi)夕指北”出品人，科技專欄作者，專寫長文，專注剖析互聯(lián)網(wǎng)及社會科學的底層邏輯；不關注這個賬號，你都不知道你會錯過神馬！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.