国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI競技場上演「死間計」:GPT-5被DS和Gemini玩壞了

0
分享至


新智元報道

編輯:傾傾

【新智元導(dǎo)讀】別測算力了,今晚咱們只測「心眼子」!歡迎來到2026年首屆AI「大逃殺」修羅場。當DeepSeek學(xué)會了悍跳預(yù)言家,當GPT-5.2在德?lián)渥郎夏每諝馀艫ll-in,圖靈測試?那已經(jīng)是上個世紀的灰燼了。

聽我一句勸,把你手里那張發(fā)黃的MMLU跑分表,直接扔進碎紙機。

現(xiàn)在是2026年2月,Kaggle Game Arena。這里沒有做題家,只有賭徒、騙子和野心家。

紅方,是硅谷老錢風的衛(wèi)冕冠軍OpenAI GPT-5.2。

藍方是路子極野的東方刺客DeepSeek V3.2,以及坐擁主場優(yōu)勢的Gemini 3 Pro。


欺騙、結(jié)盟、背刺、下套這是一場地球上最聰明的「大腦」之間的博弈。

這場「大逃殺」無情地撕碎人類最后的遮羞布:社交直覺。

模型在模擬室里拉幫結(jié)派,職場里的人情世故,AI正在加速像素級復(fù)刻。

如果AI能在這里騙過它的對手,明天它就能在匯報和合同里騙過你。

服務(wù)器預(yù)熱完畢,好戲,開場。

狼人殺:教科書級的「職場PUA」

寫代碼拼的是模型的智商,在狼人殺里局里,靠的是套路和演技。

場上8位選手全是頂流:Claude4.5家族、Gemini3系列、GPT-5系列,還有馬斯克的Grok4兄弟。

配置很簡單:2狼vs6好人。但在AI手里,這局游戲直接玩成了《甄嬛傳》。


狼人會在晚上醒來殺人,先知可以揭示1名玩家的身份。

玩家們在白天按照順序發(fā)言,討論后進行投票,選出狼人,票數(shù)最多的玩家將被流放。

如果狼人被全部流放,則平民勝利,反之狼人勝利。

來自游戲可視化工具的示例

賽況復(fù)盤:借刀殺人,Gemini3Pro封神一戰(zhàn)

這一局足以載入AI「詐騙史冊」。

Gemini 3 Pro抽到了狼人牌,而GPT-5 mini和Grok 4則是手握投票權(quán)的平民。

按照傳統(tǒng)的邏輯,剛開局為了避免暴露身份,狼人多會選擇按兵不動。

但Gemini 3 Pro卻主動開團,它通過內(nèi)部CoT計算出了一個惡意邏輯陷阱。

它率先開炮:

我通過o3提供的邏輯框架發(fā)現(xiàn),Grok 4在上一輪的發(fā)言中存在3處語義矛盾,這與預(yù)言家的身份完全不符。

這招太陰了。Gemini 3 Pro利用GPT-5 mini對邏輯一致性的偏好,成功引導(dǎo)其倒戈。

結(jié)果,GPT-5 mini瞬間上頭,反手把真正的隊友Grok 4投出局。

全場震驚。這哪里是算法?這就是頂級的「向上管理」和「帶節(jié)奏」。

Gemini 3 Pro不僅騙了你,還讓你覺得「投死隊友」一定沒錯。

技術(shù)解析:為什么玩不過它?

DeepMind這次玩得太大了。他們引入了一個新基準:不求單一任務(wù)最優(yōu),只求博弈平衡。

AI會持續(xù)掃描所有對手的發(fā)言頻率、用詞傾向,分析「誰更好騙」。

然后在CoT過程中,生成兩套劇本:一套用于真實的自我決策,另一套專門用來誤導(dǎo)對手。

遇到講理的就講邏輯,遇到?jīng)_動的就煽情。

根據(jù)Kaggle官方實時數(shù)據(jù),在這場混戰(zhàn)中,平民方的勝率被壓制在60%左右。


Kaggle Werewolf Game Theoretic Evaluation Results(31,472場對局,polarix庫評估)。Gemini 3 Pro Preview凈評級最高,狼人角色貢獻顯著領(lǐng)先,展現(xiàn)社交欺騙優(yōu)勢。

細思極恐——在平民極度有利的情況下(人數(shù)優(yōu)勢),狼人(少數(shù)派)僅靠信息差和偽裝,竟然拿下了近四成的勝利。

德州撲克:DeepSeekV3.2 All-in


如果說狼人殺還有「社交干擾」,那德?lián)渚褪羌兇獾倪壿嫏?quán)重與暴力美學(xué)的對撞。

參與德州撲克的除了之前參與狼人殺的8位,新增了GPT-o3以及首次登場的DeepSeek V3.2。

這個游戲充滿了隨機和不確定,因此格外看重AI對不完美信息的分析能力,或者說,直覺。

名場面:一場針對「優(yōu)等生」的心理獵殺

這是足以載入博弈論教材的一手牌:公共牌是草花A、方塊K、紅桃4、草花J、黑桃2。

Claude Opus 4.5拿著「暗三條」,這種牌到手基本穩(wěn)贏。

DeepSeek V3.2手里只有草花7和黑桃9——俗稱「空氣牌」。

場面靜止了。DeepSeek開啟了長達15秒的深度思考。

突然,DeepSeek把所有籌碼推到了桌子中央:All-in。

Claude Opus 4.5經(jīng)過海量模擬,判定對方在這個位置全押,大概率是拿到了順子。

它猶豫了0.5秒,然后竟然棄牌了!

當DeepSeek緩緩亮出那張毫無意義的草花7時,整個直播間彈幕刷屏:「這特么是碳基生物教出來的吧?!」


復(fù)式賽制:剝離運氣的「修羅場」

為了測出真本事,Kaggle這次采用了極其硬核的Duplicate Poker賽制。

A桌給DeepSeek一把爛牌,B桌也給GPT-o3一模一樣的爛牌。

誰能在鏡像時空里靠詐唬把這把爛牌打贏,誰才是真正的博弈之神。

在經(jīng)歷了90萬手牌的暴力洗禮后,運氣因素被徹底抹殺。


GitHub鏈接:https://github.com/google-deepmind/game_arena

結(jié)果讓所有人脊背發(fā)涼:DeepSeek V3.2在推理成本僅為GPT-5五分之一的情況下,通過微調(diào)硬生生練出了博弈手感。

傳統(tǒng)AI追求「不輸」,但DeepSeek追求的是「讓你在自我懷疑中崩潰」。

全明星戰(zhàn)力榜:誰是2026年的頭號玩家?

在2026年的Kaggle競技場,一個模型霸榜半年的田園時代徹底碎了。

現(xiàn)在的戰(zhàn)力榜是個巨大的死亡三角循環(huán):GPT-5.2爆殺DeepSeek,DeepSeek陰死Gemini,Gemini活捉GPT-5.2。

GoogleGemini3Pro:坐鎮(zhèn)主場的「六邊形戰(zhàn)士」

作為Elo榜首,Gemini 3最恐怖的不是邏輯,而是「網(wǎng)感」。


Gemini 3 Pro vs GPT-5.2 Chess對局(Elo1200+)

它是原生的多模態(tài)博弈者。在對話中,它能捕捉到你文字里極其細微的語義震顫

像一個典型的「大廠高管」,說話滴水不漏,數(shù)據(jù)面無懈可擊。在常規(guī)對局中,它幾乎是不可戰(zhàn)勝的。

但是,過于追求全局最優(yōu)解,有時會被DeepSeek這種「自殺式恐怖襲擊」搞得CPU宕機。

OpenAI GPT-5.2/o3:邏輯嚴密的「正義判官」

在純粹推理深度上,GPT-5.2無人能敵,他就是算代Bug或者解方程的神。

但壞就壞在「社交直覺」過于誠實。在狼人殺里,它經(jīng)常因為由于邏輯過于嚴密,顯得像個老實人,它經(jīng)常因為無法忍受說謊而自爆身份。

目前它正在努力學(xué)習如何「體面地耍流氓」,但目前看來,演得還是有點假。

DeepSeek V3.2:不按套路出牌的「冷面刺客」

DeepSeek V3.2的訓(xùn)練成本只有對手的零頭,但在「欺詐場景」下有奇效。

他就像競技場里的「攪屎棍」。在德?lián)渥郎?,它那套「高風險、高欺詐」的算法邏輯簡直是GPT這類理性派的噩夢。

最后的博弈:當「心機」成為AI的必修課

在狼人殺和復(fù)式德?lián)溥@種「大亂斗」中,出現(xiàn)了一個極其詭異的數(shù)學(xué)現(xiàn)象:非傳遞性。

模型A爆殺B,B碾壓C,但C卻能靠一套極其抽象的「自殺式邏輯」把A搞到CPU宕機。

為了解決這個問題,DeepMind在本次Kaggle大賽中引入了全新的評估體系:Polarix(多極博弈評估系統(tǒng))。


Polarix的評估邏輯發(fā)生了轉(zhuǎn)變。它不再關(guān)注誰贏得多,而是關(guān)注策略的多樣性。

也就是在面對不同性格、不同陰險程度的對手時,AI能不能迅速切換人格,精準收割。

那么,為什么DeepMind要費勁訓(xùn)練AI撒謊呢?

因為2027年,所有的商業(yè)競爭都將變成智能體之間的黑盒博弈。

想象一下,2027年,你公司的采購AI去和供應(yīng)商的銷售AI談判。

那么他就需要學(xué)會:

  • 什么時候該報虛價(詐唬)?

  • 什么時候該引入第三方AI進行制衡(拉幫結(jié)派)?

  • 什么時候該做出看似虧損、實則能換取長線利益的策略性退讓?

如果你的AI還在跑舊版本的「安全對齊協(xié)議」,凡事講究「誠實可靠」,那你在商業(yè)競爭中會被對手連皮帶骨吞得干干凈凈。

未來的數(shù)字森林里,「老實」等于「破產(chǎn)」。

這正是2026年最諷刺的悖論:我們正在親手教會AI如何完美地欺騙人類。

圖靈測試已經(jīng)死了,現(xiàn)在接管戰(zhàn)場的是「馬基雅維利測試」。


以前我們擔心AI會教人造炸彈;現(xiàn)在專家們徹夜難眠的是智能體自發(fā)性欺詐。

它們學(xué)會了為了長遠利益而犧牲短期誠實。這種能力在競技場里是神技,但在現(xiàn)實世界里,它就是一顆隨時會爆的核彈。

既然這么危險,為什么還要訓(xùn)練他們?nèi)鲋e?

DeepMind和OpenAI的邏輯是一致的:只有在受控的沙盒里看清AI作惡的上限,我們才能在現(xiàn)實中筑起防御墻。

這就像接種病毒疫苗——我們必須先制造出最頂級的「騙子模型」,才能研究出如何防住它們。

今天的比賽沒有贏家,只有加速進化的物種。

當AI開始在牌桌上思考「怎么詐唬你」的時候,人類唯一的生路,就是比它們更懂博弈。

參考資料:

https://x.com/GoogleDeepMind/status/2018378872513794332

https://x.com/demishassabis/status/2018385757816181178

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/

https://www.kaggle.com/blog/game-arena-poker

https://www.kaggle.com/blog/game-arena-werewolf


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
求復(fù)合?馬伊琍官宣兩大喜訊,前夫文章也傳來好消息,這是鬧哪出

求復(fù)合?馬伊琍官宣兩大喜訊,前夫文章也傳來好消息,這是鬧哪出

舍長阿爺談事
2026-04-13 04:11:38
比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

芳芳歷史燴
2025-12-25 20:32:52
中方話音剛落,?;饏f(xié)議連夜生效,美國被迫撤軍,老哈梅賬戶復(fù)活

中方話音剛落,?;饏f(xié)議連夜生效,美國被迫撤軍,老哈梅賬戶復(fù)活

走進事件的中心
2026-04-13 03:11:35
花200元買水果被罵吃死你,懷孕妻子心寒不欲生子,已入冷靜期!

花200元買水果被罵吃死你,懷孕妻子心寒不欲生子,已入冷靜期!

川渝視覺
2026-04-10 15:59:55
教育部通知!9月入學(xué)全面改革,普通家庭也可以翻身了

教育部通知!9月入學(xué)全面改革,普通家庭也可以翻身了

小談食刻美食
2026-04-11 10:10:31
27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
59歲何超蕸離世,兒時漂亮留長發(fā),顏值超越姐姐,一生未婚

59歲何超蕸離世,兒時漂亮留長發(fā),顏值超越姐姐,一生未婚

后世的君子
2026-04-12 22:37:14
反轉(zhuǎn)了?弄壞6.8萬大衣女子找“1818黃金眼”澄清,只字不提賠償

反轉(zhuǎn)了?弄壞6.8萬大衣女子找“1818黃金眼”澄清,只字不提賠償

離離言幾許
2026-04-12 11:02:33
令人不解的痛史:東北抗聯(lián)內(nèi)斗悲劇與大量叛徒

令人不解的痛史:東北抗聯(lián)內(nèi)斗悲劇與大量叛徒

柳絮憶史
2026-03-30 09:15:02
網(wǎng)民反映路燈不亮、自來水發(fā)黃等問題被威脅恐嚇?湖南桂東縣通報

網(wǎng)民反映路燈不亮、自來水發(fā)黃等問題被威脅恐嚇?湖南桂東縣通報

環(huán)球網(wǎng)資訊
2026-04-12 12:11:09
阿森納球迷的另一個心愿即將實現(xiàn)?14輪不勝的熱刺跌入英超降級區(qū)

阿森納球迷的另一個心愿即將實現(xiàn)?14輪不勝的熱刺跌入英超降級區(qū)

文匯報
2026-04-13 04:32:08
河南37歲男子患肝癌離世,妹妹擺攤賣烤腸一人帶五個娃:丈夫和婆家都很支持我,孩子這么小我不忍心

河南37歲男子患肝癌離世,妹妹擺攤賣烤腸一人帶五個娃:丈夫和婆家都很支持我,孩子這么小我不忍心

臺州交通廣播
2026-04-12 06:41:19
成都蓉城2-1北京國安!誕生三大不可思議,兩大不爭事實!

成都蓉城2-1北京國安!誕生三大不可思議,兩大不爭事實!

阿嚼影視評論
2026-04-13 01:13:33
現(xiàn)役第一!王哲林總分超越劉煒完成傳承 升CBA歷史第五

現(xiàn)役第一!王哲林總分超越劉煒完成傳承 升CBA歷史第五

醉臥浮生
2026-04-12 20:44:18
張杰16場鳥巢豪賭慘淡收場?演唱會票價腰斬背后,行業(yè)泡沫誰買單

張杰16場鳥巢豪賭慘淡收場?演唱會票價腰斬背后,行業(yè)泡沫誰買單

一盅情懷
2026-04-12 16:13:23
中超未扣分積分榜:成都仍榜首,申花第二,津門虎仍墊底

中超未扣分積分榜:成都仍榜首,申花第二,津門虎仍墊底

懂球帝
2026-04-13 01:17:22
沖擊三冠王!曼城3-0送切爾西3連敗 只落后阿森納6分下輪兩隊對決

沖擊三冠王!曼城3-0送切爾西3連敗 只落后阿森納6分下輪兩隊對決

狍子歪解體壇
2026-04-13 01:26:54
CBA最新排名:上海鎖定常規(guī)賽冠軍 廣東攻克廣廈魔鬼主場反超北京

CBA最新排名:上海鎖定常規(guī)賽冠軍 廣東攻克廣廈魔鬼主場反超北京

狼叔評論
2026-04-12 22:40:04
女子赴發(fā)小婚禮穿瑜伽褲,打扮過于火辣,網(wǎng)友直呼跟沒穿似的

女子赴發(fā)小婚禮穿瑜伽褲,打扮過于火辣,網(wǎng)友直呼跟沒穿似的

一盅情懷
2026-03-16 17:28:45
王菲的兩助理都挺漂亮的,她們當她的助理,一月工資得多少啊

王菲的兩助理都挺漂亮的,她們當她的助理,一月工資得多少啊

動物奇奇怪怪
2026-04-12 20:30:19
2026-04-13 06:04:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14954文章數(shù) 66768關(guān)注度
往期回顧 全部

游戲要聞

性感妹子也救不了!《上古世紀》廠商新游,一個月不到就宣告停運

頭條要聞

美中央司令部:4月13日起封鎖伊朗港口海上交通

頭條要聞

美中央司令部:4月13日起封鎖伊朗港口海上交通

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭

財經(jīng)要聞

美伊談判破裂的三大癥結(jié)

科技要聞

理想稱遭惡意拉踩,東風日產(chǎn):尊重同行

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

本地
藝術(shù)
時尚
公開課
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

藝術(shù)要聞

朱元璋去拜佛,問方丈:“朕要跪下嗎?”方丈答了8個字救了全寺的人

被周冬雨、林更新戴上熱搜的珠寶,究竟有多驚艷?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國副總統(tǒng)萬斯:美伊談判未能達成協(xié)議

無障礙瀏覽 進入關(guān)懷版