国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

姚順雨的最新成果,才是騰訊發(fā)完 10 億紅包后決戰(zhàn) AI 的關(guān)鍵

0
分享至

還沒有進(jìn)入春節(jié),各大廠商已經(jīng)迫不及待了:前有元寶大派紅包,馬上千問就豪請(qǐng)奶茶——花不了多少錢,30 個(gè)小目標(biāo)罷了。


預(yù)算在前面燒,基建在后面搭,畢竟等推廣預(yù)算燒完,能做到多少用戶留存,就要看產(chǎn)品本身了。這樣一看,騰訊在下半年把前 OpenAI 研究員、清華姚班的天才少年姚順雨挖到手,可謂計(jì)之長(zhǎng)遠(yuǎn)。

執(zhí)掌騰訊 AI 之后,近日姚順雨終于發(fā)出了第一項(xiàng)署名研究,這是騰訊混元團(tuán)隊(duì)聯(lián)合復(fù)旦大學(xué)發(fā)布的研究,把目光聚集到了上下文。這似乎是一個(gè)略顯冷門的技術(shù)點(diǎn),但研究的發(fā)現(xiàn)是能讓所有日常都在玩 AI 的用戶背脊一涼的:如果我們把大模型從「背書模式」切換到「現(xiàn)學(xué)現(xiàn)賣模式」,即使是目前地球上最強(qiáng)的 AI,得分率也只有慘淡的 23.7%。

這項(xiàng)研究遠(yuǎn)不止是一個(gè)技術(shù)圈的八卦,它直接揭示了為什么作為普通用戶的你,經(jīng)常覺得 AI 「聽不懂人話」、「死腦筋」或者「胡說八道」。如果說有什么是 AI 的阿喀琉斯之踵,那上下文(Context)當(dāng)如是。

上下文:AI 的靈魂

要理解這項(xiàng)研究的價(jià)值,我們需要先搞清楚大模型運(yùn)作的兩個(gè)基本階段。

第一個(gè)階段是預(yù)訓(xùn)練。在這個(gè)過程中,模型通過閱讀互聯(lián)網(wǎng)上浩如煙海的數(shù)據(jù),記住了海量的知識(shí)和模式。這一點(diǎn)現(xiàn)在大家應(yīng)該都不陌生了。這是 AI 知識(shí)儲(chǔ)備的來源,也是它能夠回答通用問題的基礎(chǔ)。


但問題在于,預(yù)訓(xùn)練數(shù)據(jù)是靜態(tài)的,它反映的是模型訓(xùn)練截止日期之前的世界。一旦脫離了這個(gè)范圍,模型就會(huì)變得盲目——而真實(shí)世界是動(dòng)態(tài)的。

這就來到第二個(gè)階段,情境學(xué)習(xí),也就是我們常說的上下文處理。當(dāng)你把一段全新的、內(nèi)部的、或者是極其復(fù)雜的規(guī)則文本發(fā)給 AI 時(shí),你實(shí)際上是在要求它跳出預(yù)訓(xùn)練的記憶,根據(jù)眼前的信息進(jìn)行實(shí)時(shí)推理和判斷。

像什么呢?比如公司內(nèi)部剛剛開完會(huì)之后的紀(jì)要,或者你玩的游戲有了新活動(dòng),這些知識(shí)從未在互聯(lián)網(wǎng)上出現(xiàn)過,只能由你把規(guī)則、信息(即「上下文」)扔給 AI,讓它根據(jù)這些新知識(shí)來回答問題。

這才是現(xiàn)實(shí),互聯(lián)網(wǎng)上并非應(yīng)有盡有,模型對(duì)于上下文的學(xué)習(xí)能力可以說是非常重要,甚至可以說:上下文,就是 AI 的靈魂


如果 AI 記不住、或者理解錯(cuò)了上下文,它就會(huì)開始編造(幻覺),可能會(huì)根據(jù)它「記憶」里通用規(guī)則來回答——會(huì)議紀(jì)要里明明說行政部要負(fù)責(zé)下午茶,它卻說是產(chǎn)品經(jīng)理管這事兒。

這就是混元團(tuán)隊(duì)這次建設(shè) CL-bench 在干的事情。他們構(gòu)建了近 2000 個(gè)從未在互聯(lián)網(wǎng)上公開過的、由專家精心構(gòu)造的「全新情境」,有虛構(gòu)的法律體系,新的編程語言語法等等。


根據(jù) CL-bench 的排行榜,目前最先進(jìn)的 GPT-5.1 (High) 模型的正確率僅為 23.7%,Claude Opus 4.5 約為 21.1%,而其他的模型大都在 10%-18% 之間徘徊。

這意味著,當(dāng)我們要求 AI 「忘掉你以前學(xué)的,只看我發(fā)給你的這段話」時(shí),它們大概率會(huì)搞砸。它們就像那些固執(zhí)的學(xué)生,哪怕老師已經(jīng)在黑板上寫了「今天 1+1=3」,它還是會(huì)大聲喊出「1+1=2」,因?yàn)樾轮R(shí)對(duì)它而言都「超綱」了。


CL-bench 的研究揭示了幾個(gè)導(dǎo)致模型在情境學(xué)習(xí)中失敗的深層原因,這些原因解釋了為什么我們?cè)谑褂?AI 時(shí)會(huì)感到它有時(shí)聰明、有時(shí)愚蠢。

最常見的翻車原因。模型在預(yù)訓(xùn)練里學(xué)到的東西太「根深蒂固」了。當(dāng)模型接收到新的上下文時(shí),它往往無法有效抑制住預(yù)訓(xùn)練數(shù)據(jù)中那些根深蒂固的模式。

比如,在 CL-bench 的一個(gè)測(cè)試案例中,研究人員構(gòu)建了一個(gè)虛構(gòu)的軟件開發(fā)包 Skynet SDK。雖然這只是個(gè)虛構(gòu)的名字,但因?yàn)椤窼kynet(天網(wǎng))」在 AI 的潛意識(shí)(預(yù)訓(xùn)練數(shù)據(jù))里太出名了,模型可能會(huì)下意識(shí)地把《終結(jié)者》電影里的設(shè)定帶入進(jìn)來,從而無視說明文檔里枯燥的代碼規(guī)則。


另外,復(fù)雜邏輯的推演能力依然是目前技術(shù)的瓶頸——這點(diǎn)多少有些令人意外,都 2026 了,AI 處理超長(zhǎng)文本不是早已經(jīng)駕輕就熟嗎?但實(shí)際上,雖然模型能吞下幾萬字,它并不一定能從數(shù)據(jù)海洋里面精準(zhǔn)地?fù)瞥瞿且桓槨?/strong>研究發(fā)現(xiàn),當(dāng)提供的上下文非常長(zhǎng)、邏輯非常復(fù)雜(比如復(fù)雜的邏輯推理鏈條、多輪的交互依賴)時(shí),模型的表現(xiàn)會(huì)直線下降。

如果上下文僅僅是「知識(shí)檢索」(比如從文檔里找一個(gè)名字),現(xiàn)在的模型還湊合。但一旦涉及到「邏輯推理」,模型的解決率就暴跌。

為什么是騰訊來做?

CL-bench 是姚順雨入主騰訊后,首次署名的研究成果。如果把它放到騰訊龐大的產(chǎn)品矩陣中去審視,就會(huì)發(fā)現(xiàn)「上下文學(xué)習(xí)」和這家互聯(lián)網(wǎng)巨頭自身業(yè)務(wù)邏輯之間的關(guān)系。


與其他更偏向搜索或通用生產(chǎn)力工具的科技公司不同,騰訊的根基深深扎根于「社交」與「內(nèi)容」的土壤之中,而這兩個(gè)領(lǐng)域?qū)?AI 上下文能力的要求可謂極其苛刻。

想象一下微信或 QQ 的使用場(chǎng)景。這里產(chǎn)生的數(shù)據(jù)并非孤立的問答,而是連綿不斷、高度碎片化的對(duì)話流——最新的元寶派就是例子。當(dāng)用戶試圖在一個(gè)擁有數(shù)百條消息的群聊中讓 AI 總結(jié)重點(diǎn),或者在一段長(zhǎng)達(dá)數(shù)月的私聊記錄中尋找某個(gè)約定的細(xì)節(jié)時(shí),AI 面臨的挑戰(zhàn)正是 CL-bench 所測(cè)試的極限:它必須在不依賴外部通用知識(shí)的前提下,精準(zhǔn)地理解這段封閉對(duì)話中特有的語境、人際關(guān)系和隱含邏輯。


如果 AI 無法妥善處理這種高密度的上下文,它就無法真正融入十億用戶的社交鏈路,只能作為一個(gè)甚至?xí)驍鄬?duì)話流暢度的累贅存在。

另外,騰訊在游戲與企業(yè)服務(wù)領(lǐng)域的布局,也決定了它對(duì)「情境學(xué)習(xí)」的渴求。游戲自不用說,各家都在探索 AI 如何根據(jù)即時(shí)的操作和游戲內(nèi)的實(shí)時(shí)局勢(shì)(即游戲上下文)做出反應(yīng),而不是機(jī)械地背誦預(yù)訓(xùn)練好的臺(tái)詞。

在企業(yè)微信和騰訊會(huì)議的場(chǎng)景中,用戶需要的往往是基于特定會(huì)議紀(jì)要或私有文檔的精準(zhǔn)分析。在這些場(chǎng)景下,通用的預(yù)訓(xùn)練知識(shí)不僅無效,甚至可能因?yàn)椤富糜X」而帶來嚴(yán)重的誤導(dǎo)。

「在場(chǎng)景中演滿分的學(xué)生,未必能勝任真實(shí)世界的工種」—— 混元團(tuán)隊(duì)意識(shí)到了這一點(diǎn),這也恰恰是對(duì)當(dāng)下 AI 最好的注腳。對(duì)于坐擁海量應(yīng)用場(chǎng)景的騰訊來說,一個(gè)能在復(fù)雜上下文中保持清醒、邏輯嚴(yán)密的模型,遠(yuǎn)比一個(gè)博學(xué)但只會(huì)死記硬背的模型,具有更大的商業(yè)價(jià)值和落地潛力。

歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知

我們正在招募伙伴

簡(jiǎn)歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」(請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
很多人都不知道陳皮茶怎么喝,看看這個(gè)就知道了!十款搭配

很多人都不知道陳皮茶怎么喝,看看這個(gè)就知道了!十款搭配

健康之光
2026-02-26 17:15:04
大理拖車4公里1400元:車主硬剛到底,曝光換胎公司,誰都跑不了

大理拖車4公里1400元:車主硬剛到底,曝光換胎公司,誰都跑不了

離離言幾許
2026-02-25 16:13:29
美國深夜收到消息,中國發(fā)布兩條公告,亞洲震動(dòng)日本右翼陷入癲狂

美國深夜收到消息,中國發(fā)布兩條公告,亞洲震動(dòng)日本右翼陷入癲狂

君笙拂兮啊
2026-02-27 02:52:42
6.84,人民幣漲瘋了!

6.84,人民幣漲瘋了!

暴財(cái)經(jīng)
2026-02-26 11:46:19
聯(lián)合國爆發(fā)爭(zhēng)端,凌晨中美大吵一架,美國犯下大錯(cuò),局勢(shì)已惡化

聯(lián)合國爆發(fā)爭(zhēng)端,凌晨中美大吵一架,美國犯下大錯(cuò),局勢(shì)已惡化

曉風(fēng)洞察
2026-02-27 03:46:34
高市設(shè)鴻門宴劍指中國,21國東盟7國參會(huì)

高市設(shè)鴻門宴劍指中國,21國東盟7國參會(huì)

指忘崖
2026-02-27 02:41:25
臺(tái)積電前高管評(píng)價(jià)中國芯片:東西做的不好,但關(guān)鍵時(shí)期能拿出來用

臺(tái)積電前高管評(píng)價(jià)中國芯片:東西做的不好,但關(guān)鍵時(shí)期能拿出來用

星星會(huì)墜落
2026-02-26 20:53:30
總第60順位!雷霆隊(duì)可能選中,又一個(gè)中國球員!

總第60順位!雷霆隊(duì)可能選中,又一個(gè)中國球員!

德譯洋洋
2026-02-26 12:22:07
洗白失?。「鹚过R曝猛料,韓國綜藝實(shí)錘,去世一年的大S背了黑鍋

洗白失??!葛斯齊曝猛料,韓國綜藝實(shí)錘,去世一年的大S背了黑鍋

精彩背后的故事
2026-02-25 22:04:30
不賺最后一個(gè)銅板!李嘉誠長(zhǎng)和系出售英國電網(wǎng)業(yè)務(wù)100%股權(quán),僅賣1100億港元?

不賺最后一個(gè)銅板!李嘉誠長(zhǎng)和系出售英國電網(wǎng)業(yè)務(wù)100%股權(quán),僅賣1100億港元?

新浪財(cái)經(jīng)
2026-02-26 19:55:50
王楚欽淘汰林德,賽后跟對(duì)手熱聊,林德對(duì)他說了八個(gè)字,太真實(shí)了

王楚欽淘汰林德,賽后跟對(duì)手熱聊,林德對(duì)他說了八個(gè)字,太真實(shí)了

兩兄弟養(yǎng)牛
2026-02-27 00:06:52
西湖大學(xué)打了誰的臉?外籍學(xué)生學(xué)費(fèi)35萬一年,國內(nèi)學(xué)生僅6千元

西湖大學(xué)打了誰的臉?外籍學(xué)生學(xué)費(fèi)35萬一年,國內(nèi)學(xué)生僅6千元

妍妍教育日記
2026-02-24 18:35:18
年前100多元一斤,年后價(jià)格腰斬,有杭州人已迫不及待下單

年前100多元一斤,年后價(jià)格腰斬,有杭州人已迫不及待下單

都市快報(bào)橙柿互動(dòng)
2026-02-26 21:32:21
重磅!李大霄:第三次大轉(zhuǎn)移已啟動(dòng),馬年股市將迎“黃金三年”!

重磅!李大霄:第三次大轉(zhuǎn)移已啟動(dòng),馬年股市將迎“黃金三年”!

徐sir財(cái)經(jīng)
2026-02-26 09:33:12
前國乒情侶擦肩而過!陳幸同與周啟豪互相無視 分手后不能做朋友

前國乒情侶擦肩而過!陳幸同與周啟豪互相無視 分手后不能做朋友

念洲
2026-02-26 08:34:03
你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個(gè)真的好炸裂好真實(shí)

你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個(gè)真的好炸裂好真實(shí)

帶你感受人間冷暖
2026-02-17 01:00:24
1980年鄧小平說:毛主席的錯(cuò)誤,要毫不含糊地批評(píng),但要實(shí)事求是

1980年鄧小平說:毛主席的錯(cuò)誤,要毫不含糊地批評(píng),但要實(shí)事求是

帝哥說史
2026-02-25 06:30:03
56歲李靜飛清邁陪戴軍過春節(jié),兩個(gè)人手牽手散步,相處更像夫妻

56歲李靜飛清邁陪戴軍過春節(jié),兩個(gè)人手牽手散步,相處更像夫妻

柒佰娛
2026-02-26 10:54:00
國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

南權(quán)先生
2026-02-12 15:38:28
《純真年代的愛情》他帶火1句臺(tái)詞,童星出身又是學(xué)霸戲紅人不紅

《純真年代的愛情》他帶火1句臺(tái)詞,童星出身又是學(xué)霸戲紅人不紅

世界更加寬廣
2026-02-26 20:19:14
2026-02-27 05:31:00
AppSo incentive-icons
AppSo
讓智能手機(jī)更好用的秘密
6134文章數(shù) 26788關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

美國政府對(duì)外交官下令:開始行動(dòng)

頭條要聞

美國政府對(duì)外交官下令:開始行動(dòng)

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

向華強(qiáng)公開表態(tài) 財(cái)產(chǎn)留給兒媳婦郭碧婷

財(cái)經(jīng)要聞

中國AI調(diào)用量超美國 4款大模型霸榜前5

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

本地
數(shù)碼
時(shí)尚
手機(jī)
公開課

本地新聞

津南好·四時(shí)總相宜

數(shù)碼要聞

三星Galaxy S26全球新品發(fā)布

今年春天最美搭配:西裝+半裙,怎么穿都好看!

手機(jī)要聞

魅族手機(jī)被傳將于3月退市 客服回應(yīng):未接到通知 線下運(yùn)營仍正常

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版