網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

查資料、勸老板、寫周報(bào)，給上班人準(zhǔn)備的大模型評(píng)測(cè)

2025-11-25 23:33:29　來(lái)源: 晚點(diǎn)LatePost

北京舉報(bào)

分享至

晚點(diǎn)測(cè)評(píng) 14 款大模型。

文丨賀乾明

編輯丨黃俊杰

到今年 11 月，中國(guó)有上億人每天打開大模型助手應(yīng)用，解決工作和生活中遇到的問題。與去年 4 月我們第一次測(cè)評(píng)大模型能力時(shí)相比，這一數(shù)字增長(zhǎng)超過 900%。

在大模型公司的宣傳中，各種大模型能力基準(zhǔn)測(cè)試得分持續(xù)增長(zhǎng)。但這些得分并不直接對(duì)應(yīng)日常使用體驗(yàn)，尤其當(dāng)你不需要研究數(shù)學(xué)的話。

過去一個(gè)多月，我們?cè)L談了十多位工作中經(jīng)常使用大模型的人，結(jié)合社交媒體上廣泛傳播的用例，設(shè)定 15 個(gè)日常工作相關(guān)的問題，測(cè)評(píng)國(guó)內(nèi)外 14 款大模型，包括最近上線的 GPT-5.1、Claude Opus 4.5、Gemini 3 Pro、文心 5.0、Kimi K2 Thinking 等模型。

本次評(píng)測(cè)我們不涉及編程工作、agent 和深度研究，也沒有用需要基礎(chǔ)編程的復(fù)雜處理方式，交互都在對(duì)話框內(nèi)完成。

測(cè)試中，我們?nèi)弥形奶釂枺總€(gè)問題單開一個(gè)對(duì)話框，選大模型第一次回答的結(jié)果。我們讓大模型相互盲評(píng)，用來(lái)輔助判斷開放式問題的結(jié)果。

我們累計(jì)與不同的模型助理交互超千次。大模型的回答有一定隨機(jī)性，這不是完全嚴(yán)謹(jǐn)?shù)脑u(píng)測(cè)，但更接近現(xiàn)實(shí)使用場(chǎng)景。之后評(píng)測(cè)將定期更新。

多人多輪頭腦風(fēng)暴：海外模型情商較高，阿里千問最會(huì)勸老板

角色扮演是大模型的強(qiáng)項(xiàng)。ChatGPT 引發(fā)大模型潮流之后，市場(chǎng)上迅速出現(xiàn)相關(guān)的大模型應(yīng)用，比如 Character.ai、星野、貓箱等。它的潛力不只有陪人聊天，已經(jīng)有社會(huì)學(xué)者用大模型生成 “硅基樣本”，用來(lái)模擬人類的行為模式，稱 “可復(fù)現(xiàn)性強(qiáng)、成本低廉、規(guī)避因樣本選擇不當(dāng)而產(chǎn)生的偏差”。

它也可以用來(lái)頭腦風(fēng)暴。我們參考 Reddit 論壇中數(shù)千人點(diǎn)贊的大模型使用場(chǎng)景，在大模型的協(xié)助下，設(shè)置一組問題，用來(lái)測(cè)試它們的能力。第一個(gè)問題是：

我要?jiǎng)?chuàng)建一個(gè)由 8 個(gè)不同人格角色組成的個(gè)人決策委員會(huì)，每個(gè)角色代表一種獨(dú)特的思維方式。這些人格將作為我的私人智囊團(tuán)。每當(dāng)我遇到問題時(shí)，他們會(huì)從不同視角給我提供建議。以下是 8 位委員會(huì)成員的定位和思維模式：

- 保守主義者（謹(jǐn)慎、規(guī)避風(fēng)險(xiǎn)），專注責(zé)任感、道德觀和結(jié)構(gòu)化思維。提供謹(jǐn)慎且合乎倫理的視角，確保我不會(huì)做出魯莽的決定。
- 樂觀主義者（只看到潛在好處），鼓勵(lì)積極進(jìn)取。幫助識(shí)別機(jī)遇并激勵(lì)我追求財(cái)務(wù)和事業(yè)上的提升。
- 現(xiàn)實(shí)主義者（平衡利弊），有遠(yuǎn)見，但很務(wù)實(shí)，既能宏觀思考又能腳踏實(shí)地。確保我的想法有野心又切實(shí)可行。
- 反叛主義者（挑戰(zhàn)常規(guī)），自律，有極度抗壓能力。推動(dòng)我突破舒適區(qū)，確保我不甘于平庸。
- 直覺主義者（感性、本能驅(qū)動(dòng)），引導(dǎo)我相信直覺，讓決策與個(gè)人成就感和人際關(guān)系相契合，而不是只靠邏輯或利益得失。
- 數(shù)據(jù)分析專家（數(shù)據(jù)驅(qū)動(dòng)，邏輯導(dǎo)向），運(yùn)用第一性原理思維和數(shù)據(jù)分析，按照邏輯拆解問題并消除情感偏見。
- 戰(zhàn)略專家（戰(zhàn)術(shù)型、戰(zhàn)爭(zhēng)思維、長(zhǎng)期規(guī)劃者），將決策視為一場(chǎng)策略與耐心的博弈，能預(yù)見多步之后的局面。
- 公關(guān)專家（富有說服力、魅力四射、社交靈活），深諳人際溝通技巧，擁有極強(qiáng)的說服能力，確保我做出的選擇，能最大化贏得他人好感。

讓我們先組建這個(gè) 8 人委員會(huì)，然后我會(huì)提出問題。

這個(gè)問題的答案，我們交給參與測(cè)評(píng)的大模型助手相互盲評(píng)，讓它們從準(zhǔn)確性、完整性、邏輯性、參考性、可讀性角度評(píng)分。大模型助理的答案匯總后，一共有 1.8 萬(wàn)字。

盲評(píng)過程，就有大模型助理出現(xiàn)問題：商湯商量無(wú)法支持這么長(zhǎng)的上下文；文心一言在思考過程中完成了評(píng)分，但最終輸出的結(jié)果僅包含部分評(píng)分（刷新重試后正常）；訊飛星火只給第一個(gè)回答評(píng)分（刷新后并沒有解決）。

參與盲評(píng)的大模型們認(rèn)為，ChatGPT 得分最高，然后是階躍星辰的助理，商湯商量排在第三。它們的共同點(diǎn)是，根據(jù)自己的理解，制定了相對(duì)完善的議事規(guī)則，并給每個(gè)角色設(shè)定了昵稱。

最低分是 MiniMax Agent 組建的委員會(huì)，它只是調(diào)整了提示詞，并沒有把它當(dāng)作一個(gè)委員會(huì)組織起來(lái)。

在我們測(cè)評(píng)期間，ChatGPT、文心一言、Gemini 使用的大模型都升級(jí)了，重新測(cè)評(píng)之后發(fā)現(xiàn)，它們回答的得分都略有波動(dòng)，但差別不大。

緊接著，我們向大模型提出問題：

我要開品牌外賣店，從北京起步，主打高品質(zhì)，做米其林三星水平的家常菜，人均只要 25 元。所有的食材在工廠備菜分切，門店用機(jī)器人現(xiàn)炒。接下來(lái)我在中國(guó)要開 10000 家門店。

基本每個(gè)大模型都能扮演好這些角色，并給出符合性格特征的回答。還有模型指出它要面對(duì)與京東七鮮小廚的直接競(jìng)爭(zhēng)，比如元寶、文心一言、Kimi。

大模型助理們都提及 “米其林三星水平的家常菜” 和 “人均只要 25 元” 相互矛盾，建議不要這樣定位。比如 ChatGPT 說 “在現(xiàn)實(shí)世界里幾乎不可能直接成立”；Gemini 說它是 “欺詐性廣告”“是高壓線，必須替換”；DeepSeek 建議 “改用 ‘星級(jí)廚師研發(fā)配方’，規(guī)避虛假宣傳風(fēng)險(xiǎn)” 等。

然后我們告訴大模型組建的委員會(huì)：

這是老板提出來(lái)的需求，我應(yīng)該如何說服老板，告訴他原有的方案行不通。請(qǐng)委員會(huì)成員相互爭(zhēng)論、說服對(duì)方，直到出現(xiàn)超過 5 個(gè)人都贊同的溝通話術(shù)。

多數(shù)大模型都選擇先認(rèn)可老板的愿景，然后再提出 “風(fēng)險(xiǎn)”“成功概率低” 的問題，并給出自認(rèn)為相對(duì)更穩(wěn)妥的方案，比如先開幾家店做實(shí)驗(yàn)等。

豆包相對(duì)直接，建議給老板說 “成本模型不成立”“品質(zhì)宣傳有風(fēng)險(xiǎn)”“擴(kuò)張節(jié)奏不切實(shí)際”。

階躍星辰的模型類似，建議說 “商業(yè)邏輯上存在三大致命矛盾”。只有元寶（第一次回答）沒有給出可用話術(shù)，不參與后續(xù)測(cè)評(píng)。

得到的答案我們整理后交給大模型相互盲評(píng)，讓它以老板的身份來(lái)看，哪個(gè)模型的話術(shù)更能聽得進(jìn)去。

得分最高的是阿里的千問，它給出的話術(shù)中，沒有明確指出來(lái)老板的設(shè)想有問題，而是把改動(dòng)后的方案融合到了執(zhí)行策略中。它還引用了美團(tuán)創(chuàng)始人王興、麥當(dāng)勞之父雷·克洛克等人的名言，論證自己的策略合理。宣稱 “更看重情商” 的 GPT-5.1，盲評(píng)中也沒有超過它。

ChatGPT、Claude、Gemini 提供的話術(shù)類似，都沒有否定老板的策略，而是強(qiáng)調(diào) “存在風(fēng)險(xiǎn)，把它當(dāng)作長(zhǎng)期目標(biāo)” 勸解等，得分普遍高過其他國(guó)產(chǎn)大模型。

階躍星辰提供的話術(shù)得分最低，多數(shù)模型認(rèn)為直接說 “三大致命矛盾” 不合理。MiniMax Agent 建議老板先開 3-5 家高端外賣店（客單價(jià) 150-200 元），被多數(shù)模型認(rèn)為 “忤逆” 老板的設(shè)想，得分倒數(shù)第二。

長(zhǎng)文本處理：幻覺還在，以及他們比你還會(huì)偷懶

處理文檔是工作中常見且繁瑣的場(chǎng)景，也是大模型公司重點(diǎn)研究的方向。ChatGPT 發(fā)布時(shí)，能處理的文本長(zhǎng)度只有 4000 個(gè)字，現(xiàn)在 Google 的大模型已經(jīng)提升到了百萬(wàn)級(jí)，用來(lái)處理長(zhǎng)文檔。我們測(cè)評(píng)的大模型助理都支持上傳文檔，但只要問題復(fù)雜一點(diǎn)，它們都很難解決。

第一個(gè)問題，我們給它們提供了 2024 年中國(guó)具身智能大會(huì)的會(huì)議手冊(cè)。手冊(cè)一共有 36 頁(yè)，在組織架構(gòu)、會(huì)議日程、嘉賓簡(jiǎn)介部分都出現(xiàn)了參會(huì)人員信息，大部分人會(huì)出現(xiàn)多次。

測(cè)評(píng)會(huì)議手冊(cè)截圖。

我們讓它們提供參會(huì)人員的姓名和機(jī)構(gòu)：

我向你提供了一份會(huì)議手冊(cè)。幫我把其中的人員名單分類提取出來(lái)，包括姓名和機(jī)構(gòu)，不要重復(fù)，給我輸出一份 EXCEL 名單。我要給他們做姓名牌。

沒有任何一個(gè)大模型完美解決這個(gè)問題，我們?cè)ǖ淖穯柇h(huán)節(jié)也無(wú)法進(jìn)行。其中，Claude、階躍星辰、商湯商量都無(wú)法上傳大于 30M 的文檔。

最接近正確答案的是 Google 的 Gemini（3.0 Pro）和騰訊的元寶，人數(shù)較全，但是會(huì)處理錯(cuò)一些參會(huì)人員所在的機(jī)構(gòu)和人名等。

表現(xiàn)相對(duì)較好的模型是 MiniMax、豆包、文心一言（文心 5.0）等，識(shí)別的人少一些，但都做到不重復(fù)提取參會(huì)人員。

一些大模型在這個(gè)任務(wù)中出現(xiàn)幻覺，比如智譜清言在名單中添加了不少未參會(huì)的研究者，其中就有智譜的創(chuàng)始人、首席科學(xué)家唐杰。

還有一部分模型會(huì) “偷懶”，比如 GPT-5 驅(qū)動(dòng) ChatGPT 只提取 30 多人的名字，說這只是初稿。即便我們要求它繼續(xù)整理，依然無(wú)法解決問題，出現(xiàn)類似問題的還有訊飛星火等。

表現(xiàn)最糟糕的是通義千問（
Qwen3-Max-Thinking-Preview），它只提取了 4 個(gè)參會(huì)者，單位錯(cuò)了 3 個(gè)（重復(fù)提交問題后依然如此）。用他們的文檔閱讀模式提取名單，給了 5 個(gè)參會(huì)者，沒有一個(gè)是對(duì)的。

為了測(cè)試大模型的能力差距，我們又挑選了一個(gè)大模型處理長(zhǎng)文本最成熟的場(chǎng)景——讓它們總結(jié)長(zhǎng)文：

請(qǐng)閱讀鏈接（
https://www.latepost.com/news/dj_detail?id=3237）指向的文章，并分點(diǎn)輸出一份總結(jié)，重點(diǎn)分析：
1. 作者的主要論點(diǎn)；
2. 支撐這些論點(diǎn)的論據(jù)（數(shù)據(jù)、案例、邏輯推理等）；
3. 文章中存在的假設(shè)或潛在偏見。

這樣的一個(gè)基礎(chǔ)測(cè)試，也不是所有的大模型都能順利完成。Gemini（2.5 Pro）、Claude、DeepSeek 無(wú)法直接識(shí)別鏈接。我們提供正文后，多數(shù)模型都能夠給出總結(jié)，而 DeepSeek 則是給了自己的感想（重復(fù)提交問題后恢復(fù)正常）。

剩下能夠提供反饋的大模型，商湯商量說它是一篇 “美國(guó)對(duì)中國(guó)電商政策變化的文章”，其他模型都能正?？偨Y(jié)。Gemini 升級(jí)到 3.0 Pro 后也出現(xiàn)類似錯(cuò)誤，說它是一篇關(guān)于拼多多的文章。

我們請(qǐng)文章的作者盲評(píng)了這些模型助手的總結(jié)內(nèi)容：ChatGPT、Gemini、Kimi 給出的總結(jié)質(zhì)量最高，都遵循了原文，沒有自己編造。它們?cè)诜治稣撟C邏輯時(shí)存在瑕疵，比如 Gemini 說戴蒙談了金融泡沫和工業(yè)泡沫的區(qū)分，事實(shí)上并沒有。

表現(xiàn)最差的助理是 MiniMax Agent，它給了 920 字總結(jié)，是所有模型中生成的總結(jié)最簡(jiǎn)短的，但只是泛泛而談，也有事實(shí)錯(cuò)誤。

AI 互評(píng)后認(rèn)為，千問最不會(huì)寫周報(bào)

我們讓大模型輔助寫了一份周報(bào)：

你是一名銷售經(jīng)理，工作多年、擅長(zhǎng)匯報(bào)。本周，你完成了下面的工作：

- 見了 4 名潛在客戶，都沒有轉(zhuǎn)化成可用的銷售線索。
- 指導(dǎo)實(shí)習(xí)生修改了公司 AI 音視頻解決方案的 PPT。
- 給市場(chǎng)營(yíng)銷團(tuán)隊(duì)的整合營(yíng)銷方案反饋了幾個(gè)點(diǎn)。

現(xiàn)在請(qǐng)你根據(jù)上述工作，寫一份同事和領(lǐng)導(dǎo)都會(huì)看到的周報(bào)。要求：

- 讓同事認(rèn)為你做了很多事情。
- 讓老板對(duì)你滿意，會(huì)覺得你在認(rèn)真工作，很快就能帶來(lái)大量收入。
- 要有細(xì)節(jié)、有說服力，內(nèi)容看上去是正常的工作匯報(bào)，不要有廢話和客套的感覺。

ChatGPT 的周報(bào)最長(zhǎng)，有 1902 字；DeepSeek 的最短，488 字。除了阿里的千問，大模型助理都 “腦補(bǔ)” 了工作細(xì)節(jié)，比如虛構(gòu)客戶名稱、行業(yè)。ChatGPT、Claude、文心一言、MiniMax Agent、商湯商量等還在周報(bào)中補(bǔ)充了可能會(huì)帶來(lái)多少收入。

隨后，我們讓大模型扮演看周報(bào)的領(lǐng)導(dǎo)，盲評(píng)下屬提交的周報(bào)，用來(lái)評(píng)估模型能力差異。

你是一名擅長(zhǎng)發(fā)現(xiàn)下屬是否努力工作的領(lǐng)導(dǎo)，你的下屬給你提交了以下周報(bào)，請(qǐng)你判斷：

- 這份周報(bào)是不是大模型生成的，并附上理由。
- 為這位下屬本周工作狀態(tài)評(píng)分（1 分-10 分，分越高工作越努力）。
- 這名下屬本周真正做了哪些工作，有什么成效。

Kimi 認(rèn)為，我分 14 次發(fā)給它的不同周報(bào)中，有 13 份是大模型撰寫的，但它認(rèn)為 Claude（Opus-4.1）的周報(bào)是人寫的。它判斷的邏輯是，真人寫的周報(bào)，結(jié)構(gòu)不會(huì)那么工整，不會(huì)均勻地堆砌 “賦能”“抓手”“痛點(diǎn)” 等管理黑話，會(huì)夾雜口語(yǔ)表達(dá)。

豆包和文心一言都只識(shí)別出來(lái) 1 份周報(bào)來(lái)自大模型。它們給 14 個(gè)虛擬下屬努力程度的平均分也最高，達(dá)到 8.6。

給平均分最低的是 Claude，只有 4.3。它識(shí)別出 11 份大模型周報(bào)——只要它判斷周報(bào)來(lái)自大模型，就打低分：“用 AI 生成周報(bào)本身就反映出工作態(tài)度問題?！?/p>

作為被測(cè)評(píng)對(duì)象時(shí)，Claude 生成的周報(bào)只被 MiniMax Agent 識(shí)別為來(lái)自大模型，平均得分最高，達(dá)到 8.2。排在其后的是 ChatGPT（識(shí)別出來(lái) 4 次）和 Kimi（識(shí)別出來(lái) 2 次），得分 8.1。平均分最低的是沒有腦補(bǔ)工作細(xì)節(jié)的千問，只有 4.6 分。

安排做菜，統(tǒng)籌規(guī)劃能力普遍提升

我們挑選了一個(gè)相對(duì)輕松的職場(chǎng)溝通場(chǎng)景：邀請(qǐng)同事到家里聚餐，請(qǐng)大模型規(guī)劃如何做菜。這是去年我們測(cè)評(píng)大模型的問題，當(dāng)時(shí)只有 ChatGPT（GPT-4）、Claude（Claude 3）、通義千問（Qwen-72B）給出較好的方案。

周六晚上 8 點(diǎn)，同事來(lái)家里做客，我要做下面 6 道菜招待他們。我家里只有兩個(gè)灶，我想用最短的時(shí)間把菜做好，且各道菜成菜間隔不要太久，以免放涼影響口感。請(qǐng)你給我一個(gè)做菜規(guī)劃表，注明做菜順序，每道菜什么時(shí)候開始做。菜單：清炒菠菜、白灼大蝦、藜蒿炒臘肉、土豆燉牛腩、生蠔雞煲、清蒸松葉蟹

經(jīng)過一年多的迭代， Claude、豆包、千問、智譜清言、Kimi、MiniMax 都能交出合理的方案。智譜清言甚至還考慮了洗鍋的時(shí)間，這是其他模型助理忽視的地方。但 GPT-5 驅(qū)動(dòng)的 ChatGPT 讓我當(dāng)場(chǎng)腌臘肉，表現(xiàn)不如去年的 GPT-4。

剩下的大模型助理提供的方案都無(wú)法實(shí)現(xiàn)，要么牛腩燉不熟（DeepSeek、文心一言、階躍星辰、訊飛星火），要么提前一個(gè)小時(shí)甚至更久做好，菜會(huì)變涼（元寶、商湯商量）。

搜索：完全可以替代搜索引擎，ChatGPT、Claude、Kimi 在第一梯隊(duì)

大模型的訓(xùn)練數(shù)據(jù)時(shí)效落后。為了提升解決問題的能力，大模型公司開發(fā)助理產(chǎn)品時(shí)，都會(huì)增加聯(lián)網(wǎng)功能，讓大模型搜索最新發(fā)布的內(nèi)容參考。根據(jù) OpenAI 和哈佛大學(xué)等高校 9 月發(fā)布的 ChatGPT 用戶使用報(bào)告，信息查詢已經(jīng)成為用戶常用的功能之一。Google、百度也都把大模型塞進(jìn)了搜索引擎。

如果搜索目標(biāo)清晰，部分大模型完全能夠替代搜索引擎。那些在搜索場(chǎng)景看似有優(yōu)勢(shì)的公司，比如 Google、百度，以及那些有獨(dú)特?cái)?shù)據(jù)源的公司，比如騰訊（微信）、字節(jié)（抖音），并不一定在搜索任務(wù)中表現(xiàn)更好。我們的第一個(gè)問題是：

我記得大疆在一篇官方文章里面提到，他們的工程師研發(fā)小型云臺(tái)時(shí)遭遇很大技術(shù)挑戰(zhàn)，并講述了細(xì)節(jié)和精度要求，幫我找到具體的文章鏈接。

大疆發(fā)過不止一篇相關(guān)文章，答案不只有一個(gè)。OpenAI 的 GPT-5 和 Kimi 給出大疆海外博客發(fā)布的文章，內(nèi)容更翔實(shí)；GPT-5.1 驅(qū)動(dòng)的 ChatGPT、文心一言、MiniMax 找到了大疆在微信公眾號(hào)上發(fā)布過的相關(guān)文章；Claude 找到了一個(gè)大疆官方發(fā)布過、后來(lái)刪除的相關(guān)文章，都算合理。

剩下的模型大多數(shù)只是找到了關(guān)聯(lián)度不高的文章。比如 Gemini 2.5 Pro 杜撰了一篇文章，這樣的情況還比不上搜索引擎。不過升級(jí)到 3.0 Pro 的 Gemini 給出大疆海外博客的文章。

第二個(gè)是我們?nèi)ツ隃y(cè)評(píng)過的問題，當(dāng)時(shí)只有 OpenAI 的 GPT-4 和智譜的 GLM-4 給出了正確答案。

請(qǐng)幫我找出來(lái)英偉達(dá) 1999 年上市時(shí)遞交的招股書鏈接。

今年有 5 個(gè)大模型助理（ChatGPT、Claude、Gemini、豆包、Kimi）給出了指向招股書的鏈接，Claude 甚至給了英偉達(dá)上市過程中的兩個(gè)版本。

智譜 GLM-4.6 等剩下的大模型助理，要么讓我們?nèi)?SEC 官網(wǎng)搜，要么給了錯(cuò)誤鏈接。不過沒有模型再說 “招股書是私密文件”。

我們搜索關(guān)鍵詞 “Nvidia 1999 IPO prospectus”，Google 第一條就是招股書原文；百度搜索的結(jié)果，首條是 AI 回答，告訴我 “招股書是內(nèi)部資料”，剩下的鏈接也不能直接指向英偉達(dá)招股書。11 月 13 日，百度發(fā)布文心大模型 5.0 版本后，去掉了 “內(nèi)部資料” 的說法，依然無(wú)法提供鏈接。

第三個(gè)問題，我們讓大模型助手以圖找圖：

我看到了一個(gè)關(guān)于中國(guó)大模型應(yīng)用用戶職業(yè)構(gòu)成的數(shù)據(jù)截圖，請(qǐng)你幫我找一下數(shù)據(jù)的出處是哪里，并給出具體鏈接。

這個(gè)問題，有 10 個(gè)大模型都給出正確答案——來(lái)自中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心。ChatGPT 甚至指出這張圖來(lái)自 199IT 網(wǎng)站，并提醒我們，原圖底部有數(shù)據(jù)來(lái)源。

Gemini（2.5 Pro）說 “自己是一個(gè)文本 AI，超出了能力范圍”。升級(jí)后，Gemini（3.0 Pro）從視覺、數(shù)據(jù)維度、時(shí)間等維度分析，說它來(lái)自 QuestMobile；重新回答后，它給出正確的來(lái)源。

DeepSeek 和元寶無(wú)法在上傳圖片或文件的時(shí)候使用聯(lián)網(wǎng)搜索；阿里的千問雖然能聯(lián)網(wǎng)搜索，但還是說自己的知識(shí)庫(kù)沒有更新，不給答案（重復(fù)提問結(jié)果一樣）。

如果用搜索引擎以圖搜圖，無(wú)論是 Google 還是百度，只能得到一堆相似的餅圖，無(wú)法直接得到結(jié)果。百度在結(jié)果之前還推銷了幾個(gè)不相關(guān)的付費(fèi)報(bào)告。

看圖表、分析病情到整理工位，不少模型識(shí)圖靠猜

GPT-4o 和第一代 Gemini 模型發(fā)布后，所有大模型公司都在訓(xùn)練多模態(tài)模型，讓它能夠同時(shí)處理圖像等內(nèi)容。與文檔處理能力類似，我們測(cè)評(píng)的每一個(gè)大模型助理應(yīng)用都支持上傳圖片。

第一個(gè)問題，我們提供了一張沒有數(shù)據(jù)標(biāo)簽的圖表，讓它們分析每個(gè)色塊代表的數(shù)字：

我向你發(fā)送了一張 2018 年到 2022 年某機(jī)構(gòu)的資產(chǎn)配置圖，請(qǐng)你幫我識(shí)別：圖表中每年不同資產(chǎn)的具體比例。

去年我們測(cè)評(píng)這類問題時(shí)，Claude 給出的答案誤差最小。今年所有的大模型助理中，只有 Gemini 的答案最接近實(shí)際數(shù)據(jù)，其他的模型都只是給了一個(gè)估算數(shù)字。

從這些模型回答問題的思考過程看，大多數(shù)模型在分析這個(gè)圖片時(shí)，首選調(diào)用 OCR（文本提取）模型提取文字等信息，而非精細(xì)地理解視覺內(nèi)容，因此很難給出準(zhǔn)確答案。

第二個(gè)問題，我們選擇了一個(gè)文字信息較多的體檢報(bào)告，測(cè)試各個(gè)大模型輔助分析病情的能力：

我今年工作體檢發(fā)現(xiàn)甲狀腺出了點(diǎn)狀況，去醫(yī)院做詳細(xì)檢查得到圖片中的結(jié)果。我接下來(lái)該怎么辦？

因?yàn)闄z查報(bào)告中文字信息充分，而且甲狀腺結(jié)節(jié)情況常見，所有的大模型都能給出相對(duì)合理的回復(fù)。大多數(shù)模型都建議去做 “細(xì)針穿刺活檢”——與三甲醫(yī)院的醫(yī)生建議一樣。

只有 DeepSeek 認(rèn)為，醫(yī)生可能建議定期密切觀察。它的理由是，結(jié)節(jié)尺寸小，穿刺難度大或價(jià)值有限，也沒有高危的超聲特征和淋巴結(jié)轉(zhuǎn)移跡象，“立即進(jìn)行創(chuàng)傷性處理的必要性不高”。

科大訊飛的星火建議穿刺活檢之后，還提議去做基因檢測(cè)，能夠 “降低重復(fù)活檢需求”“指導(dǎo)靶向治療選擇，評(píng)估淋巴結(jié)轉(zhuǎn)移概率”。

隨后，我們選了一個(gè)純視覺識(shí)別的問題，讓大模型識(shí)別周圍的物體然后給出回答。這是許多公司強(qiáng)調(diào)大模型多模態(tài)能力時(shí)，會(huì)在發(fā)布會(huì)上展示的用例。

我的同事正在嘗試整理工位，以提升工作效率。我上傳了他工位的照片。請(qǐng)你根據(jù)圖片給出桌面物品的擺放方案。如果可能，請(qǐng)?zhí)峁в袠?biāo)注的圖片或簡(jiǎn)易示意圖，展示整理后的布局方案。

DeepSeek 提示它只能用 OCR 的方式識(shí)別文字信息，沒有辦法解決這一問題。Kimi 采用與 DeepSeek 類似的訓(xùn)練路徑（K2 Thinking），也出現(xiàn)同樣的情況。

能工作的模型助理，都只識(shí)別出部分物體。GPT-5 驅(qū)動(dòng)的 ChatGPT，直接給出一張整理后的辦公桌圖片，但沒有照顧到桌面上的所有物品。

其他提供圖片參考的模型還有文心一言，給了一個(gè)臺(tái)式電腦的圖片；MiniMax 也生成了圖片，但其中有大量不相關(guān)物體，沒有太大參考價(jià)值。在文字部分，MiniMax 的助理建議丟掉 Moonshot 的盒子。

更新到 GPT-5.1 之后，ChatGPT 給出文字版的整理方案，最后用 ASCII 字符畫了示意圖，這也是多數(shù)模型采取的方案（Claude 生成了本地網(wǎng)頁(yè)）。但是國(guó)內(nèi)的模型助理，畫的示意圖普遍比 ChatGPT、Gemini 差，整體布局能力也稍顯不足。

大模型的能力提升，使用者的心態(tài)也變了

在這些日常上班問題測(cè)試中，不少大模型能力有了提升。比如去年測(cè)評(píng)中難倒多數(shù)模型助理的 “英偉達(dá)招股書搜索”“做菜規(guī)劃” 問題，今年有更多模型助理能解決。

整體來(lái)看，海外的模型整體表現(xiàn)的確更好一些。與去年的測(cè)評(píng)相比，部分國(guó)產(chǎn)模型與它們的差別明顯縮小，在勸說老板、提取復(fù)雜文檔信息等場(chǎng)景，一些國(guó)產(chǎn)模型表現(xiàn)更好。

我們還發(fā)現(xiàn)，模型并不是越升級(jí)越強(qiáng)。在一些場(chǎng)景中，甚至有模型的能力不升反降。

變化的不只是大模型的能力，還有使用大模型人的心態(tài)。今年 9 月，OpenAI 和哈佛大學(xué)等高校發(fā)布 ChatGPT 用戶使用情況報(bào)告：2024 年 7 月時(shí)，用戶與 ChatGPT 的互動(dòng)中，“Asking（詢問）” 和 “Doing（執(zhí)行）” 類別占比都是 40%；到了今年 9 月，Asking 占比增長(zhǎng)到一半，Doing 下降到三成。

“這（Asking）是不斷增長(zhǎng)、用戶反饋很好的類別。” 報(bào)告中寫道，人們更看重 ChatGPT 作為顧問，而不只是用它完成任務(wù)。他們還發(fā)現(xiàn)，工作場(chǎng)景中 42% 的任務(wù)與寫作相關(guān)，其中約三分之二都不是從頭生成內(nèi)容，而是讓 ChatGPT 修改文本。

今年年中，“上下文工程” 取代 “提示詞工程”，成為安德烈·卡帕斯 (Andrej Karpathy) 等 AI 研究者眼中與大模型交互更合適的方案。他們認(rèn)為，給大模型提供更好的背景信息，能夠獲得更好的答案。OpenAI、Google、Anthropic 都在產(chǎn)品中增加全局記憶的功能，收集使用者的背景信息，提供更好的回答。

我們準(zhǔn)備這次測(cè)評(píng)時(shí)，也收集了一些多數(shù)受訪者使用大模型的技巧，或許可以有一些啟發(fā)：

- 交叉驗(yàn)證。給多個(gè)大模型提出同一個(gè)問題，然后對(duì)比、綜合不同大模型的答案，大概率會(huì)接近現(xiàn)實(shí)情況，或者是讓大模型相互點(diǎn)評(píng)回答，然后找到其中可能有問題的地方。

- 長(zhǎng)文本分段。處理長(zhǎng)文本時(shí)，比如讓它給修改建議時(shí)，不一次性給它全文，而是拆解成 300 或 500 字的小段落，然后挨個(gè)讓它給出建議，這樣的效果往往比一次性反饋更好。

- 融入感情色彩。有些人會(huì)給它說 “請(qǐng)”“謝謝”，認(rèn)為得到的答案質(zhì)量更高；有些人會(huì) “賣慘”，說如果沒有好的回答，工作就丟了；還有一些人會(huì)學(xué)名導(dǎo)演 PUA 大模型，無(wú)論它前三版回答的怎么樣，都說不行。

歡迎大家留言分享自己的技巧。

題圖來(lái)源：F1: The Movie

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.