国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

你是否也曾榨干過(guò)DeepSeek?

0
分享至

在今年深度體驗(yàn)AI大模型的3個(gè)月里,我發(fā)現(xiàn)無(wú)論他回答的對(duì)不對(duì),大多數(shù)時(shí)候,他基本都能在1分鐘內(nèi)能生成回答(很多時(shí)候是秒答),無(wú)論回答質(zhì)量如何,是否有幻覺(jué),他都能很快給你答完就是了。

但是,有這么一類(lèi)問(wèn)題,他的答案普遍簡(jiǎn)短,有的短到只有一個(gè)單詞,長(zhǎng)的也不超過(guò)10個(gè)單詞,卻常常讓 DeepSeek深度思考五分鐘以上,過(guò)程中動(dòng)不動(dòng)還爆出數(shù)千字以上的思維鏈。

比如下面這個(gè)問(wèn)題:

中間的思維鏈就更長(zhǎng)了,接近5000字,我就不全截圖了,你可以想象它在將近5分鐘里,一直在生成思維鏈,全文包含79個(gè)wait:

還有下面這個(gè)問(wèn)題,花了將近6分鐘

這兩個(gè)問(wèn)題,別看題目不長(zhǎng),答案也都很短,大模型花了這么久,但是依然做錯(cuò)了。

這些問(wèn)題,都來(lái)自一個(gè)測(cè)試,就是OpenAI在4月上旬發(fā)布的BrowseCamp,瀏覽競(jìng)賽。

這個(gè)測(cè)試,主要就測(cè)一個(gè)能力:定位很難尋找的、復(fù)雜糾纏的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其實(shí)說(shuō)白了,就是要看看大模型們?yōu)g覽網(wǎng)頁(yè)和搜索信息的能力,到底強(qiáng)到什么地步了?因?yàn)楝F(xiàn)有的測(cè)試比如SimpleQA,其實(shí)已經(jīng)被“刷爆”了。

但是,基本上沒(méi)太多人討論這個(gè) BrowseCamp,它被淹沒(méi)在4o生圖的火熱和最近的o3模型的發(fā)布之中了。

瀏覽競(jìng)賽里的問(wèn)題集的最大特點(diǎn),就是答案簡(jiǎn)單,但是,題干一定會(huì)用最虛無(wú)縹緲的特征描述,把簡(jiǎn)單的答案層層包裹起來(lái)。

比如,答案是一個(gè)歷史名人,但是,題干是這個(gè)人最冷僻、最不為人所知的信息點(diǎn),甚至是有很大誤導(dǎo)性的信息點(diǎn),比如這個(gè)描述同時(shí)也有很多其它人符合或者是很籠統(tǒng)的描述,最終,你會(huì)很難猜這個(gè)人是誰(shuí)。

比如劉備,大家都知道,如果問(wèn)桃園三結(jié)義里的大哥是誰(shuí),那就太好猜了。

如果這么問(wèn):某河北籍男子,身高1米88,15歲外出求學(xué),中年創(chuàng)業(yè)多次失敗,兒子很不成器,晚年因?yàn)橐o弟弟報(bào)仇,63歲客死他鄉(xiāng)。

是不是難了很多?

當(dāng)然,理論上,還要加入更多的限制性條件,讓答案唯一。

以上信息,還算是很好找的,所有信息都在一個(gè)百度百科的網(wǎng)頁(yè)里都有了(因?yàn)榫褪俏規(guī)追昼妰?nèi)現(xiàn)編的,如果信息有誤請(qǐng)找百度)。

但問(wèn)題是,在不知道答案是劉備的前提下,而且題干的信息給得更朦朧更誤導(dǎo)一點(diǎn)的話,大模型往往需要橫跨數(shù)十個(gè)甚至上百個(gè)網(wǎng)頁(yè),才有可能定位到其中某個(gè)信息,然后開(kāi)始驗(yàn)證,排除,再查找,再驗(yàn)證...最后,答錯(cuò)了。

官方論文里的另一個(gè)例題:請(qǐng)告訴我一篇發(fā)表在 2018 至 2023 年間 EMNLP 會(huì)議上的論文,其第一作者本科畢業(yè)于達(dá)特茅斯學(xué)院(Dartmouth College),第四作者本科畢業(yè)于賓夕法尼亞大學(xué)(University of Pennsylvania)。

答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021

這些問(wèn)題在知道答案的時(shí)候,都很容易確認(rèn),就是1分鐘的事情,但是不知道答案的話,模型就得暴力搜索數(shù)千篇論文了。

這是官方所謂的“驗(yàn)證的不對(duì)稱性 asymmetry of verification ”:驗(yàn)證 容易,解答困難。但是,這就恰恰符合了這個(gè)測(cè)試的目標(biāo):大模型的檢索能力。

雖不完美,卻也有效。它不是考驗(yàn) next token predidtion的能力,畢竟題干和答案都很短,也不太考驗(yàn)推理能力,因?yàn)椴惶枰裁瓷疃妊芯糠治觯ú贿^(guò) 普遍來(lái)說(shuō)推理模型的表現(xiàn)還是會(huì)更好),只要找得到信息,就能回答正確。

下圖顯示了 BrowseCamp的整體測(cè)試結(jié)果:花的時(shí)間越久,正確率越高,這也是之前DeepSeek會(huì)花那么久的原因之一,但是,正確率最高的模型,也就50%左右,而且嚴(yán)格來(lái)說(shuō),它還不算一個(gè)模型,而是agent

瀏覽競(jìng)賽里的問(wèn)題,實(shí)在也不好編,官方說(shuō),現(xiàn)在攏共只有1266個(gè)問(wèn)題。官網(wǎng)放出了5道例題,我分別讓DeepSeek V3、R1不開(kāi)聯(lián)網(wǎng)、R1開(kāi)聯(lián)網(wǎng),分別測(cè)試了5個(gè)問(wèn)題,每次都新開(kāi)對(duì)話窗口,一共15次測(cè)試,全軍覆沒(méi)。(注意,這并非是說(shuō) DeepSeek一道都做不對(duì),而是正確率大概率很低)

而且,在沒(méi)有聯(lián)網(wǎng)的情況下,出現(xiàn)了前述 的超長(zhǎng)回答時(shí)間的問(wèn)題,理論上,這種自我榨干的情況不該出現(xiàn),它應(yīng)該早一點(diǎn)發(fā)現(xiàn)自己其實(shí)根本無(wú)法作答,然后再給出一個(gè)它認(rèn)為最有可能正確的猜測(cè)即可(注:R1的表現(xiàn)比V3好)。

那么,到底什么模型表現(xiàn)最好呢?很遺憾,OpenAI還只測(cè)試了自家的模型,暫時(shí)沒(méi)啥橫向可比性,雖然我認(rèn)為瀏覽網(wǎng)頁(yè)和尋找信息的能力,肯定是agent們包含的各種 tool use能力里最重要的一個(gè)。

新上線的o3,不提它在視覺(jué)理解方面的能力,就因?yàn)橄啾萶1有了browsing功能(當(dāng)然還有更強(qiáng)的推理能力),正確率提高了很多。(o1在沒(méi)有聯(lián)網(wǎng)功能的情況下,僅靠?jī)?nèi)部知識(shí)庫(kù),答對(duì)了其中10%的問(wèn)題)

我的三個(gè)小心得:

1、無(wú)論現(xiàn)有大模型在browsing方面表現(xiàn)如何,它們都在飛快進(jìn)步和提升;

2、一旦遇到這種要查很多資料的任務(wù),先讓大模型做一遍, 做對(duì)最好,沒(méi)做對(duì)也沒(méi)關(guān)系,它的搜索過(guò)程和給出的回答,還是能給你節(jié)約不少時(shí)間;

3、不要只問(wèn)一次,在看了它第一遍的回答后,自己找找資料,思考思考,再繼續(xù)給更多提示詞,問(wèn)第二次,第三次,榨干它,很快,你也會(huì)接近答錯(cuò)了

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海交大:每次起床后大量喝水的人,用不了多久,身體或有7變化

上海交大:每次起床后大量喝水的人,用不了多久,身體或有7變化

讀懂世界歷史
2025-11-23 11:18:04
62歲退休大爺:人老了出軌雖然很有激情,但最終下場(chǎng)很慘

62歲退休大爺:人老了出軌雖然很有激情,但最終下場(chǎng)很慘

熱心柚子姐姐
2026-01-30 16:48:23
特朗普:將對(duì)伊朗發(fā)動(dòng)大規(guī)模打擊

特朗普:將對(duì)伊朗發(fā)動(dòng)大規(guī)模打擊

亞太觀瀾
2026-01-29 20:40:03
面條立大功!研究發(fā)現(xiàn):糖尿病患者常吃面條,或能降低3種并發(fā)癥

面條立大功!研究發(fā)現(xiàn):糖尿病患者常吃面條,或能降低3種并發(fā)癥

岐黃傳人孫大夫
2026-01-12 09:05:07
詹?。毫_德里不在狀態(tài),但瓜帥的換人調(diào)整太慢了

詹俊:羅德里不在狀態(tài),但瓜帥的換人調(diào)整太慢了

懂球帝
2026-02-02 03:18:47
恭喜皇馬!英超前三中場(chǎng)表忠心,1.4億不講價(jià),10億豪門(mén)不愿放人

恭喜皇馬!英超前三中場(chǎng)表忠心,1.4億不講價(jià),10億豪門(mén)不愿放人

阿泰希特
2026-02-01 13:01:21
金價(jià)單日暴跌超11%,銀價(jià)創(chuàng)40多年來(lái)最差單日表現(xiàn)

金價(jià)單日暴跌超11%,銀價(jià)創(chuàng)40多年來(lái)最差單日表現(xiàn)

界面新聞
2026-02-01 13:23:39
你是咋意識(shí)到自己沒(méi)見(jiàn)過(guò)世面的?網(wǎng)友:書(shū)里的楊桃饞了我二十多年

你是咋意識(shí)到自己沒(méi)見(jiàn)過(guò)世面的?網(wǎng)友:書(shū)里的楊桃饞了我二十多年

解讀熱點(diǎn)事件
2025-10-06 00:05:03
剛剛,崩了!40萬(wàn)人爆倉(cāng)!

剛剛,崩了!40萬(wàn)人爆倉(cāng)!

中國(guó)基金報(bào)
2026-02-01 07:39:50
美國(guó)取消伊朗官員和家屬入境居留權(quán)!最早周末攻擊伊朗

美國(guó)取消伊朗官員和家屬入境居留權(quán)!最早周末攻擊伊朗

項(xiàng)鵬飛
2026-01-31 16:11:28
患者10年三次入院,最后一次右腰背部出現(xiàn)“破口”,背后病因居然是……丨醫(yī)起推理吧

患者10年三次入院,最后一次右腰背部出現(xiàn)“破口”,背后病因居然是……丨醫(yī)起推理吧

醫(yī)脈通
2026-02-01 18:14:32
2026年煙草大洗牌!國(guó)家出手后,買(mǎi)煙賣(mài)煙全變了,渾水摸魚(yú)的涼了

2026年煙草大洗牌!國(guó)家出手后,買(mǎi)煙賣(mài)煙全變了,渾水摸魚(yú)的涼了

老特有話說(shuō)
2026-01-17 21:11:59
西安事變真相:蔣家7侄陣亡護(hù)蔣,雙方死傷超600,血債被記五十四年

西安事變真相:蔣家7侄陣亡護(hù)蔣,雙方死傷超600,血債被記五十四年

磊子講史
2025-12-30 18:03:15
2026亞冠迎巨變!中超參賽3隊(duì)或全換,成都蓉城有望成最大贏家

2026亞冠迎巨變!中超參賽3隊(duì)或全換,成都蓉城有望成最大贏家

體壇鑒春秋
2026-02-01 14:06:02
中國(guó)古代單日陣亡最高的戰(zhàn)役:香積寺互砍,4個(gè)時(shí)辰11萬(wàn)人陣亡!

中國(guó)古代單日陣亡最高的戰(zhàn)役:香積寺互砍,4個(gè)時(shí)辰11萬(wàn)人陣亡!

小豫講故事
2026-01-31 06:00:10
領(lǐng)導(dǎo)突然問(wèn)你“要不要考慮去別的崗位”,千萬(wàn)不要說(shuō)“我考慮下”,高情商這么回,反客為主!

領(lǐng)導(dǎo)突然問(wèn)你“要不要考慮去別的崗位”,千萬(wàn)不要說(shuō)“我考慮下”,高情商這么回,反客為主!

二胡的歲月如歌
2026-01-03 18:02:12
央媒怒批、坑害老百姓!臭名昭著的幾個(gè)相聲演員,各個(gè)難以原諒

央媒怒批、坑害老百姓!臭名昭著的幾個(gè)相聲演員,各個(gè)難以原諒

草莓解說(shuō)體育
2026-02-01 19:14:23
山東小伙娶只有8歲智商的新娘,笑的合不攏嘴,網(wǎng)友:賺大了

山東小伙娶只有8歲智商的新娘,笑的合不攏嘴,網(wǎng)友:賺大了

靜若梨花
2026-02-01 16:39:42
女護(hù)士處理男患者隱私部位,會(huì)感覺(jué)難為情嗎?美女護(hù)士說(shuō)出大實(shí)話

女護(hù)士處理男患者隱私部位,會(huì)感覺(jué)難為情嗎?美女護(hù)士說(shuō)出大實(shí)話

第7情感
2025-09-17 12:12:15
久違了,達(dá)米安傷愈復(fù)出時(shí)隔124天再次代表國(guó)米出場(chǎng)

久違了,達(dá)米安傷愈復(fù)出時(shí)隔124天再次代表國(guó)米出場(chǎng)

懂球帝
2026-02-02 02:34:52
2026-02-02 04:03:00
柳胖胖 incentive-icons
柳胖胖
36氪、虎嗅、鈦媒體專欄作者
208文章數(shù) 386關(guān)注度
往期回顧 全部

科技要聞

10億元寶紅包突襲 復(fù)刻微信支付還是微視?

頭條要聞

愛(ài)潑斯坦追逐女孩、安德魯跪爬女子身上畫(huà)面全公布

頭條要聞

愛(ài)潑斯坦追逐女孩、安德魯跪爬女子身上畫(huà)面全公布

體育要聞

德約大度祝賀阿卡 幽默互動(dòng)逗笑納達(dá)爾

娛樂(lè)要聞

春晚第三次聯(lián)排陣容曝光:全是實(shí)力派

財(cái)經(jīng)要聞

黃仁勛臺(tái)北"夜宴":匯聚近40位臺(tái)企高管

汽車(chē)要聞

嵐圖汽車(chē)1月交付10515輛 同比增長(zhǎng)31%

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
數(shù)碼
健康
公開(kāi)課

藝術(shù)要聞

上?!案呒寂伞钡貥?biāo):華潤(rùn)中心竣工,LV總部入駐!

“多巴胺風(fēng)”又又又火了!這樣穿時(shí)髦又減齡

數(shù)碼要聞

顯存稀缺暴漲:三款RTX 50 GPU將占一季度總供應(yīng)量75%!

耳石癥分類(lèi)型,癥狀大不同

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版