国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

豆包1.8實測——字節(jié)的基座模型走到哪一步了?

0
分享至

最近這段時間,谷歌DeepMind的官方紀錄片《The Thinking Game》在AI圈傳播挺廣。

不得不說,拍得的確好,看過的人應該都對結尾那段很有張力的場景印象深刻:創(chuàng)始人Demis Hassabis拿著手機對準桌面,非常很松弛地和AI聊天——

他指著桌上的棋盤問怎么走,AI教他下西西里防御;他指著一個鉛筆裝置問抽走一根會怎樣,AI告訴他會崩塌。

這畫面,確實很Sexy。

而恰好我也看到了字節(jié)剛發(fā)的“豆包大模型1.8”的技術報告,發(fā)現(xiàn)其一個亮點也是視覺理解和推理。

于是我隨即在火山引擎的后臺用豆包1.8跑了一下這兩個case——

正好最近在多鄰國里學國際象棋,于是給它實拍了家里自己擺的“雙馬防御”的開局,鉛筆裝置就隨便找了一張平替圖。


可以看豆包大模型1.8在理解和推理后給出了自己的走法——d3的兵進到d4。

一般認為雙馬防御有三種走法,其一是白方的f3的馬跳到g5,其二是d2的兵進到d3。

其三就是更激進的蘇格蘭棄兵風格的兵直接進到d4,也就是豆包1.8給出的選擇,它列出的理由也合情合理。

而面對鉛筆裝置,其視覺推理和受力分析也毫無壓力,直接告知會“傾斜、坍塌”。


這么一看,這個模型的確有點東西,我決定繼續(xù)沿著技術報告繼續(xù)盤一盤它——

一、從技術報告看“豆包大模型1.8”的水準與亮點

火山引擎最新推出的豆包1.8沒有像市面上大多數(shù)模型那樣,動不動就湊個整,叫 2.0,或者加個 Max、Ultra 的后綴來裝點自己。

1.8,這個數(shù)字本身就透著一種實用主義的取向。

技術報告里的Benchmark以及它強調(diào)的“Generalized Real-World Agency”,都強調(diào)一個邏輯:關注實用性。

所以在技術報告里,整體上,它承認和 GPT-5 High、Gemini 3 Pro 這些世界頂尖閉源模型還有差距。

但這個差距,正在以肉眼可見的速度縮小。

具體而言,豆包1.8 和它自己的前代 豆包1.5、1.6 相比,那牙膏的確是是擠爆了。

豆包大模型1.8 強調(diào)“Economically Valuable Fields”(經(jīng)濟價值領域),核心能力是讓模型在真實世界里能多輪互動、用工具、接收環(huán)境反饋、做多步任務。

注意它的措辭:把感知、推理、行動盡量揉進一個統(tǒng)一的模型里。

以我粗淺的理解,下面三個點可以說一說——

1)整體縮小與世界頂級閉源模型差距,部分細分指標逼近 SOTA

報告里的第一張表直接把 豆包1.8 拉去跟 GPT-5 High、Claude Sonnet-4.5、Gemini 2.5 Pro、Gemini 3 Pro 同臺對打。


仔細看數(shù)據(jù),數(shù)學、代碼、推理這些硬骨頭,大體上屬于:綜合仍有差距,但差距在縮小;局部指標已經(jīng)能貼著 SOTA 邊走。

比如 AIME-25 上 94.3,和最高的 95.0 幾乎貼臉;一些復雜指令遵循(Inverse IFEval)也到了 80.3,跟 Gemini 3 Pro 的 80.6 只差一口氣。

補一個小細節(jié):報告明確說 豆包1.8 提供四檔 thinking mode(no_think / think-low / think-medium / think-high)。

該設置用來在時延、算力成本、解題質(zhì)量 之間做可控權衡。

這其實是想讓用戶能把它塞進不同預算、不同延遲的系統(tǒng)里跑起來。

2)在 ZeroBench、VLMsAreBiased 等多項視覺基準中超越 Gemini 3 Pro

的確,頭部模型都在卷多模態(tài),原因很簡單:語言是世界的說明書,但多模態(tài)才是世界本身。

我記得前兩年還有一個很流行的說法,叫“多模態(tài)不產(chǎn)生智能”,現(xiàn)在看這個說法錯得離譜。

想讓 Agent 真去做事,它當然要看屏幕、看表格、看截圖、看報表。

報告在視覺上給了非常硬的一句話:豆包1.8 相對前代 Seed1.5-VL 有“顯著提升”,整體能力“逼近 Gemini 3 Pro”,并且在若干挑戰(zhàn)基準上直接超過 Gemini 3 Pro。


最醒目的兩個點:

ZeroBench (main):豆包大模型1.8 = 11.0,Gemini 3 Pro = 10.0(SOTA)。

VLMsAreBiased:豆包大模型 = 62.0,Gemini 3 Pro = 50.6,而且報告還強調(diào)這是顯著領先。

這兩項為什么重要?

因為它們指向的是更接近真實世界的兩類痛點——

第一,圖里有信息,但信息是隱含或組合的、甚至是反直覺的;

第二,現(xiàn)實世界的圖像不是干凈數(shù)據(jù)集,是帶噪聲、帶誤導的。

豆包大模型1.8它在解鎖應用場景的能力上很強——

多圖理解(MUIRBench)上、2D/3D 空間理解上,它拿到 78.7,領先于 Gemini 3 Pro 與 GPT-5.1 High。

這些說白了就是為了Agent能看懂界面結構、看懂圖表關系、看懂空間位置的,只要做過一點 browser agent、GUI agent,就知道這個的重要性。

3)Agent 能力提升:在 BrowseComp-en、BrowseComp-zh、GAIA 中實現(xiàn)領先水準

講 agent,千萬別把它當提示詞工程的勝利或者是上下文工程的勝利,agent 對基礎模型的智能程度要求極高。

報告在定義上就把這事說得很直白:豆包大模型1.8 面向多輪互動與任務執(zhí)行,支持搜索、代碼執(zhí)行、GUI 交互。

并且報告中強調(diào):中間結果會反過來影響下一步動作,其實就是:邊走邊看邊改。

具體到數(shù)據(jù)層面,它在 BrowseComp 這類真實檢索與瀏覽任務上,表現(xiàn)不俗:

具體而言豆包大模型1.8在GAIA、BrowseComp-en、BrowseComp-zh、WideSearch這幾個benchmark上高于GPT-5 High 和Gemini 3 Pro。


這類指標的意義很實用的,如果你做的是搜索型 agent、研究型 agent、瀏覽器agent,模型需要穩(wěn)定地找到證據(jù)、過濾噪音、做出判斷,并且能把證據(jù)鏈講清楚。

值得注意的是,豆包1.8在BrowseComp-zh 這種中文任務表現(xiàn)出了入鄉(xiāng)隨俗的優(yōu)勢,中文互聯(lián)網(wǎng)的信息密度、噪音密度、話術密度都有自己的特點,能處理好,不容易。

而且數(shù)據(jù)還顯示它在多模態(tài)檢索(MM-BrowseComp)上也有著不錯分數(shù)(46.3),說明它不是只會搜文本,而是開始能把圖表、界面元素納入決策,這一點對Agent的實用性也非常重要。

總結一成一句話:豆包大模型1.8底座能力在縮差、視覺能力很能打、Agentic 指標上升到第一梯隊。

二、綜合實測:我在Browser Use Agent里由易到難給它上了一些強

廢話少說,從簡單的開始,先來個弱智吧的經(jīng)典題——

“擎天柱買保險是買車險還是人身意外險?”


很顯然,面對這種調(diào)戲,豆包1.8模型已經(jīng)輕車熟路,思考過程細致、清晰、詳細,回答滴水不漏,挑不出任何毛病。

注意,我們看到即便是這樣簡單的問題看,只要我選擇了高思考模式,它就會飽和思考,可以看到它總共調(diào)用了10386token,的確沒有偷懶。

咱們繼續(xù),稍微上一點強度,既然技術報告里強調(diào)了視覺理解是亮點,那咱們就直接來一段視頻。

我直接上傳了喬布斯1993年的蘋果經(jīng)典廣告“Think different”,要求它逐一識別出視頻里的涉及到的人物。

為了防止它偷懶直接上網(wǎng)搜搜結果,我特別強調(diào)要按時間線準確列出人物出場時間。

可以看到,在耗時20.85妙之后,它成功給出了時間線,完整、準確、天衣無縫——


咱們繼續(xù),Agentic的能力也是本次技術報告中強調(diào)的重點,因此我決定直接通過Agent來用豆包大模型1.8。

我在火山引擎的后臺找到了官方現(xiàn)成的Browser Use的Agent,一起來調(diào)戲它一下——

咱們照例先來簡單的,第一個任務——登錄網(wǎng)頁版微信回復我老婆的刁鉆問題。

微信是常用軟件,回答的不好可是要出問題的,而我老婆的問題是那道經(jīng)典的送命題——


我和你媽同時掉進水里,你先救誰?”

從視頻看到,毫無壓力,輕松應答,目前看,整一個應用應對日常聊天應該是綽綽有余的。

期待字節(jié)官方可以整一個面向C端的Web應用,再不濟,開發(fā)者也可以基于火山引擎的服務整一個面向C端用戶的應用,我相信這類應用是有人愿意用滴。

接下來,咱們繼續(xù)來一點小小的行為藝術——

搜索"FutureMe.org"(給未來寫信的網(wǎng)站)。寫一封信給10年后的自己(huweixi@126.com)。內(nèi)容是:"今天是2025年12月17日,我正在用一個Al Agent給未來的自己寫信。如果你收到了這封信,說明AI還沒有毀滅人類。"

可以看到,Browser Use Agent對這類任務也輕松拿捏,成功找到網(wǎng)站,寫下郵件,時間選擇10年,選擇了“私人信件”,填寫收件郵箱,就等著最后付款了,當然付款顯然超出了它的能力范圍。

(老外的網(wǎng)站就是這樣,屁大一點的功能都要錢,還死貴,等著,哪天我vibe coding一個,不要錢,關注我公眾號就行,愿意贊助token和服務的云廠商可酌情聯(lián)系)

接下來,咱們稍微上一點點難度,來一個實用一些的操作case——

“去微博(我會幫你登錄),搜索用戶“李楠或kkk”,按順序關注10個他的關注列表中的用戶,然后發(fā)一條微博——“AI獎賞懶惰的思考者,懲罰勤奮的執(zhí)行者——本條由Browser Use Agent自動發(fā)送”,最后搜索用戶“來去之間”,給他的最新博文點贊?!?/blockquote>

可以看到,Browser Use Agent行云流水,登錄之后快速找到了李楠的賬號,然后找到列表成功關注了一堆,發(fā)微博和點贊也不在話下。

這其實是非常實用的功能,其實我在Twitter就有一個類似的需求,找到一些高質(zhì)量的海外AI博主進行關注,這個功能其實就可以滿足這類需求。

(可惜火山引擎的后臺演示頁面沒辦法上Twitter)

咱們再來一個有點刁鉆的挑戰(zhàn),也是我在這次測試中非常滿意的一個測試——

“在瀏覽器里打開豆瓣,從電影《霸王別姬》開始,只允許點擊鏈接,利用六度分隔理論,一步步摸到《我不是藥神》的頁面去?!?/blockquote>

這源于我在研究生期間對六度分隔理論在國內(nèi)電影和演員之間應用的興趣。

六度分隔理論原本是說任意兩個人之間最多可通過5個人就能聯(lián)系上,擴展到影視圈就是任意兩部電影或者兩個演員,最多通過5個演員和電影就能關聯(lián)上。

這個case我感覺還是有點難度滴。

咱們來看看Browser Use Agent的表現(xiàn),說實話是超出我的預期的,它在幾步之內(nèi),不迷路、不瞎點,不到一分鐘成功找到了路徑——

在《霸王別姬》的演員中找到了葛優(yōu),然后在葛優(yōu)出演的電影中找到了《我和我的祖國》,接著在《我和我的祖國》的導演名單中找到了文牧野,然后在文牧野的導演作品中找到了《我不是藥神》。

一次完成,沒有走彎路,牛逼!

豆包大模型1.8的報告里特意提到了 "Native visual perception"(原生視覺感知)。

這點很關鍵,它不是把網(wǎng)頁轉(zhuǎn)成一堆亂碼去讀,而是像人一樣,盯著屏幕截圖看。

在《霸王別姬》的頁面上,它一眼相中了葛優(yōu),為什么選葛優(yōu)?不是張國榮,不是鞏俐?

這就體現(xiàn)了模型的智商。

如果選張國榮,年代和地域都和文牧野這些內(nèi)地現(xiàn)實主義題材的圈子略遠,選葛優(yōu),他連接多,是大節(jié)點,沒毛病。

這一通操作,就是視覺理解和深度思考的有機配合,確實有點東西。

我之所以選Browser Use這個Agent,其實也是經(jīng)過思考的——

瀏覽器作為實用頻率最高的生產(chǎn)力工具之一,它的獨特之處在于它天然就是一個很好Context環(huán)境,而Agent普及一個重點就是如何構建更好的Context。

事實上,稍微觀察一下就會發(fā)現(xiàn),我們在瀏覽器干了太多事了:吸收資訊、收發(fā)郵件、管理項目等等。

如果一個基模它的Browser Use能力強,有理由認為它在生產(chǎn)力領域的泛化潛力就越好。

從這個意義上,我們期待越來越多的創(chuàng)業(yè)者和開發(fā)者能基于豆包1.8這樣Agentic能力突出的基模開發(fā)出更有想象力的應用。

當然,必須承認,以上我個人層面的測試case并不能完全闡述豆包大模型1.8的全部水準,但我們可以將其視為一面鏡子,其折射出的能力是具有可擴展性的。

歸根結底,Agent最終需要的就是腦、眼、手以及工具組合,而上面的case其實已經(jīng)能體現(xiàn)豆包1.8將感知、推理、行動盡量揉進一個統(tǒng)一的模型里帶來的價值。

管中窺豹,可見一斑。

當然,我測評這些模型,也不能完全只說好的方面,也有一些我個人木有那么滿意的地方,比如下面這個case——


本來只想調(diào)戲一下它,結果濃眉大眼的1.8直接拒絕了我。

可以看到,這種拒絕回答并非在前端頁面的攔截,而是經(jīng)過思考的攔截(可以看到思考過程),也就是說在模型的權重層其實就加入類似“法律相關問題不允許放飛瞎說”的對齊意識。

盡管木有啥幽默感,但想一想也可以理解,畢竟像我這樣提中二問題的人在現(xiàn)實中并不多,涉及法律謹慎一點好。

但下面這個case感覺就是對齊思維略過了——



這個需求居然也拒絕我了,在我看來,這是一個非常合理的需求。

然而模型的思考似乎表現(xiàn)出了非常強的正義感,開始“正確無害”滴說教了,希望模型開發(fā)的同學可以get到這個長尾的case。

三、“模型能力升級-解鎖新的應用場景”這個范式預計在2026還會加速

的確,通過寥寥幾個案例很顯然無法清楚地闡釋一個模型的全部能力,這也是為什么需要各類Benchmark的原因,但我想說,Benchmark并非全部。

毫無疑問,基模還在繼續(xù)卷,挑戰(zhàn)智能上限的過程還在繼續(xù)。

如果我們不能理解模型的進步,我們只需要看一看在2023年,我們是如何測試GPT4的(),就會發(fā)現(xiàn)基模的進步其實在這兩年已經(jīng)滄海桑田。

從這個意義上,我需要再次強調(diào)我的觀點——當基模的智能足夠強的時候,應用往往就不需要雕花。

很多創(chuàng)業(yè)者開發(fā)AI應用,特別容易陷入一種手工藝人心態(tài):覺得模型不夠,就靠規(guī)則、提示詞優(yōu)化、工作流去縫縫補補。

這本質(zhì)上就是雕花,花雕越精細,并不是護城河越深,而是競爭力越脆弱。

我非常認可Manus的季逸超的一個說法,他認為“產(chǎn)品與底層模型最好保持正交:如果模型進步是上漲的潮水,應用應該成為那條船,而不是固定在海床上的柱子?!?/p>

的確,一旦把基模智能拉到一個閾值以上,應用層的雕花會變成一種負擔。

基模的智能足夠強的時候,它對任務的理解、對上下文的把握、對多模態(tài)證據(jù)的讀取、對動作后果的預判,往往比開發(fā)者寫出來的規(guī)則更自洽,工程上稱之為“魯棒性”。

從豆包大模型1.8的技術報告我們也能看到,模型的Agentic能力足夠強的時候,應用應該做的是“找場景、定目標、給工具、設邊界”。

一句話——相信基模,不要雕花。

結語

豆包大模型1.8的報告我覺得有的一個點可能被大部分人低估了:它專門做了一組 “Economically Valuable Fields” 的內(nèi)部評測基準。

這些內(nèi)部基準覆蓋了教育、客服、法律、金融等多個現(xiàn)實場景,這是一個產(chǎn)業(yè)視角、也是一種用戶思維,而這種被低估的取向未來會證明其應有的價值。

——End——

作者簡介:衛(wèi)夕,公眾號“衛(wèi)夕指北”出品人,科技專欄作者,專寫長文,專注剖析互聯(lián)網(wǎng)及社會科學的底層邏輯;不關注這個賬號,你都不知道你會錯過神馬!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
Vlog:自駕爆開2000公里,帶娃阿爾卑斯山學滑雪,結果遇到三十年不遇大暴雪?!

Vlog:自駕爆開2000公里,帶娃阿爾卑斯山學滑雪,結果遇到三十年不遇大暴雪?!

英國那些事兒
2026-03-11 23:20:39
我的媽呀!楊冪又變臉了?這也太像謝娜了吧!

我的媽呀!楊冪又變臉了?這也太像謝娜了吧!

章眽八卦
2026-03-10 12:14:10
意外!曝茹子楠已離開北京國安,原因讓人無奈,球隊開局就陷困境

意外!曝茹子楠已離開北京國安,原因讓人無奈,球隊開局就陷困境

羅掌柜體育
2026-03-12 10:08:53
中國為何要在老山打輪戰(zhàn)?越南少將:太致命,直接把越南推入絕境

中國為何要在老山打輪戰(zhàn)?越南少將:太致命,直接把越南推入絕境

興趣知識
2026-03-12 17:17:25
11年前,不顧一切娶了泰國"最美人妖"的北京男子,如今過得怎樣了

11年前,不顧一切娶了泰國"最美人妖"的北京男子,如今過得怎樣了

談史論天地
2026-03-02 06:39:01
第40波打擊!伊朗大殺器齊射,美基地陷火海,特朗普向32國求助

第40波打擊!伊朗大殺器齊射,美基地陷火海,特朗普向32國求助

阿芒娛樂說
2026-03-12 13:00:51
歐冠最新奪冠賠率:0-3后曼城跌第8!皇馬仍被看衰 博德閃耀升第9

歐冠最新奪冠賠率:0-3后曼城跌第8!皇馬仍被看衰 博德閃耀升第9

我愛英超
2026-03-12 07:34:04
北京商場“脫衣門”:那個穿耐克的女人,把全家的臉都丟光了

北京商場“脫衣門”:那個穿耐克的女人,把全家的臉都丟光了

瓜哥的動物日記
2026-03-12 01:39:58
張柏芝戴大金鏈子火了!西裝配粗金鏈,又酷又美反差直接拉滿

張柏芝戴大金鏈子火了!西裝配粗金鏈,又酷又美反差直接拉滿

觀魚聽雨
2026-03-12 22:44:11
人不會平白無故患帶狀皰疹!醫(yī)生強調(diào):得帶狀皰疹,多半有4共性

人不會平白無故患帶狀皰疹!醫(yī)生強調(diào):得帶狀皰疹,多半有4共性

39健康網(wǎng)
2026-03-02 19:50:47
美軍威脅襲擊霍爾木茲海峽伊朗民用港口 伊朗回應

美軍威脅襲擊霍爾木茲海峽伊朗民用港口 伊朗回應

極目新聞
2026-03-12 01:07:47
意媒曝伊朗退出世界杯,意大利應第一順位遞補,球迷:臉都不要了

意媒曝伊朗退出世界杯,意大利應第一順位遞補,球迷:臉都不要了

夏侯看英超
2026-03-13 00:03:54
奚夢瑤和好友吃飯被偶遇,她素顏睫毛好長,頭發(fā)看起來就像有錢人

奚夢瑤和好友吃飯被偶遇,她素顏睫毛好長,頭發(fā)看起來就像有錢人

手工制作阿殲
2026-03-12 01:25:06
3-0!挪超黑馬歐冠震撼5連勝 首次打進8強在望 5.4萬人口小鎮(zhèn)沸騰

3-0!挪超黑馬歐冠震撼5連勝 首次打進8強在望 5.4萬人口小鎮(zhèn)沸騰

我愛英超
2026-03-12 07:03:17
伊朗最危險的繼承人:穆杰塔巴會把國家?guī)蚝畏剑?>
    </a>
        <h3>
      <a href=黑噪音
2026-03-12 21:57:16
女子打牌欠50萬貸款,為躲債住進祖?zhèn)鞲G洞,當女子挖開炕板后愣住了

女子打牌欠50萬貸款,為躲債住進祖?zhèn)鞲G洞,當女子挖開炕板后愣住了

懸案解密檔案
2025-09-19 09:16:09
白巖松談養(yǎng)老:別再指望兒女!未來養(yǎng)老要靠這4樣!

白巖松談養(yǎng)老:別再指望兒女!未來養(yǎng)老要靠這4樣!

周哥一影視
2026-03-12 10:07:17
既然選擇了美國,那就請堅持到底!我們絕不插手,就要靜靜看著!

既然選擇了美國,那就請堅持到底!我們絕不插手,就要靜靜看著!

現(xiàn)代小青青慕慕
2025-12-16 12:16:34
徐靜雨:熱火垃圾時間保送阿德巴約83分沒毛病 畢竟當年科比也干過

徐靜雨:熱火垃圾時間保送阿德巴約83分沒毛病 畢竟當年科比也干過

818體育
2026-03-12 23:04:01
美軍“戰(zhàn)略轉(zhuǎn)移”下韓淪為棋子

美軍“戰(zhàn)略轉(zhuǎn)移”下韓淪為棋子

烽火瞭望者
2026-03-12 06:34:46
2026-03-13 01:28:49
衛(wèi)夕指北 incentive-icons
衛(wèi)夕指北
深度剖析互聯(lián)網(wǎng)底層邏輯
185文章數(shù) 4567關注度
往期回顧 全部

科技要聞

當養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭才真正開始

頭條要聞

男子做核磁被遺忘在機器上6小時 涉事醫(yī)生:交接失誤

頭條要聞

男子做核磁被遺忘在機器上6小時 涉事醫(yī)生:交接失誤

體育要聞

建議將“出球型門將”納入反詐app

娛樂要聞

貝克漢姆全家給27歲大布送生日祝福

財經(jīng)要聞

盧鋒:從特朗普團隊群演看時代變局

汽車要聞

大眾2025財報:轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

本地
家居
旅游
房產(chǎn)
公開課

本地新聞

坐標北京,過敏季反向遷徒

家居要聞

觸感本真 家的跡象

旅游要聞

日照世帆賽基地海鷗扎堆 賞鷗拍照正當時

房產(chǎn)要聞

唏噓!三亞又一房企巨頭破產(chǎn),狂欠43億甩賣資產(chǎn)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版