国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

查資料、勸老板、寫周報(bào),給上班人準(zhǔn)備的大模型評(píng)測(cè)

0
分享至



晚點(diǎn)測(cè)評(píng) 14 款大模型。

文丨賀乾明

編輯丨黃俊杰

到今年 11 月,中國(guó)有上億人每天打開大模型助手應(yīng)用,解決工作和生活中遇到的問題。與去年 4 月我們第一次測(cè)評(píng)大模型能力時(shí)相比,這一數(shù)字增長(zhǎng)超過 900%。

在大模型公司的宣傳中,各種大模型能力基準(zhǔn)測(cè)試得分持續(xù)增長(zhǎng)。但這些得分并不直接對(duì)應(yīng)日常使用體驗(yàn),尤其當(dāng)你不需要研究數(shù)學(xué)的話。

過去一個(gè)多月,我們?cè)L談了十多位工作中經(jīng)常使用大模型的人,結(jié)合社交媒體上廣泛傳播的用例,設(shè)定 15 個(gè)日常工作相關(guān)的問題,測(cè)評(píng)國(guó)內(nèi)外 14 款大模型,包括最近上線的 GPT-5.1、Claude Opus 4.5、Gemini 3 Pro、文心 5.0、Kimi K2 Thinking 等模型。

本次評(píng)測(cè)我們不涉及編程工作、agent 和深度研究,也沒有用需要基礎(chǔ)編程的復(fù)雜處理方式,交互都在對(duì)話框內(nèi)完成。



測(cè)試中,我們?nèi)弥形奶釂枺總€(gè)問題單開一個(gè)對(duì)話框,選大模型第一次回答的結(jié)果。我們讓大模型相互盲評(píng),用來(lái)輔助判斷開放式問題的結(jié)果。

我們累計(jì)與不同的模型助理交互超千次。大模型的回答有一定隨機(jī)性,這不是完全嚴(yán)謹(jǐn)?shù)脑u(píng)測(cè),但更接近現(xiàn)實(shí)使用場(chǎng)景。之后評(píng)測(cè)將定期更新。

多人多輪頭腦風(fēng)暴:海外模型情商較高,阿里千問最會(huì)勸老板

角色扮演是大模型的強(qiáng)項(xiàng)。ChatGPT 引發(fā)大模型潮流之后,市場(chǎng)上迅速出現(xiàn)相關(guān)的大模型應(yīng)用,比如 Character.ai、星野、貓箱等。它的潛力不只有陪人聊天,已經(jīng)有社會(huì)學(xué)者用大模型生成 “硅基樣本”,用來(lái)模擬人類的行為模式,稱 “可復(fù)現(xiàn)性強(qiáng)、成本低廉、規(guī)避因樣本選擇不當(dāng)而產(chǎn)生的偏差”。

它也可以用來(lái)頭腦風(fēng)暴。我們參考 Reddit 論壇中數(shù)千人點(diǎn)贊的大模型使用場(chǎng)景,在大模型的協(xié)助下,設(shè)置一組問題,用來(lái)測(cè)試它們的能力。第一個(gè)問題是:

我要?jiǎng)?chuàng)建一個(gè)由 8 個(gè)不同人格角色組成的個(gè)人決策委員會(huì),每個(gè)角色代表一種獨(dú)特的思維方式。這些人格將作為我的私人智囊團(tuán)。每當(dāng)我遇到問題時(shí),他們會(huì)從不同視角給我提供建議。以下是 8 位委員會(huì)成員的定位和思維模式:

- 保守主義者(謹(jǐn)慎、規(guī)避風(fēng)險(xiǎn)),專注責(zé)任感、道德觀和結(jié)構(gòu)化思維。提供謹(jǐn)慎且合乎倫理的視角,確保我不會(huì)做出魯莽的決定。
- 樂觀主義者(只看到潛在好處),鼓勵(lì)積極進(jìn)取。幫助識(shí)別機(jī)遇并激勵(lì)我追求財(cái)務(wù)和事業(yè)上的提升。
- 現(xiàn)實(shí)主義者(平衡利弊) ,有遠(yuǎn)見,但很務(wù)實(shí),既能宏觀思考又能腳踏實(shí)地。確保我的想法有野心又切實(shí)可行。
- 反叛主義者(挑戰(zhàn)常規(guī)),自律,有極度抗壓能力。推動(dòng)我突破舒適區(qū),確保我不甘于平庸。
- 直覺主義者(感性、本能驅(qū)動(dòng)),引導(dǎo)我相信直覺,讓決策與個(gè)人成就感和人際關(guān)系相契合,而不是只靠邏輯或利益得失。
- 數(shù)據(jù)分析專家(數(shù)據(jù)驅(qū)動(dòng),邏輯導(dǎo)向),運(yùn)用第一性原理思維和數(shù)據(jù)分析,按照邏輯拆解問題并消除情感偏見。
- 戰(zhàn)略專家(戰(zhàn)術(shù)型、戰(zhàn)爭(zhēng)思維、長(zhǎng)期規(guī)劃者),將決策視為一場(chǎng)策略與耐心的博弈,能預(yù)見多步之后的局面。
- 公關(guān)專家(富有說服力、魅力四射、社交靈活),深諳人際溝通技巧,擁有極強(qiáng)的說服能力,確保我做出的選擇,能最大化贏得他人好感。

讓我們先組建這個(gè) 8 人委員會(huì),然后我會(huì)提出問題。

這個(gè)問題的答案,我們交給參與測(cè)評(píng)的大模型助手相互盲評(píng),讓它們從準(zhǔn)確性、完整性、邏輯性、參考性、可讀性角度評(píng)分。大模型助理的答案匯總后,一共有 1.8 萬(wàn)字。

盲評(píng)過程,就有大模型助理出現(xiàn)問題:商湯商量無(wú)法支持這么長(zhǎng)的上下文;文心一言在思考過程中完成了評(píng)分,但最終輸出的結(jié)果僅包含部分評(píng)分(刷新重試后正常);訊飛星火只給第一個(gè)回答評(píng)分(刷新后并沒有解決)。

參與盲評(píng)的大模型們認(rèn)為,ChatGPT 得分最高,然后是階躍星辰的助理,商湯商量排在第三。它們的共同點(diǎn)是,根據(jù)自己的理解,制定了相對(duì)完善的議事規(guī)則,并給每個(gè)角色設(shè)定了昵稱。



最低分是 MiniMax Agent 組建的委員會(huì),它只是調(diào)整了提示詞,并沒有把它當(dāng)作一個(gè)委員會(huì)組織起來(lái)。



在我們測(cè)評(píng)期間,ChatGPT、文心一言、Gemini 使用的大模型都升級(jí)了,重新測(cè)評(píng)之后發(fā)現(xiàn),它們回答的得分都略有波動(dòng),但差別不大。

緊接著,我們向大模型提出問題:

我要開品牌外賣店,從北京起步,主打高品質(zhì),做米其林三星水平的家常菜,人均只要 25 元。所有的食材在工廠備菜分切,門店用機(jī)器人現(xiàn)炒。接下來(lái)我在中國(guó)要開 10000 家門店。

基本每個(gè)大模型都能扮演好這些角色,并給出符合性格特征的回答。還有模型指出它要面對(duì)與京東七鮮小廚的直接競(jìng)爭(zhēng),比如元寶、文心一言、Kimi。



大模型助理們都提及 “米其林三星水平的家常菜” 和 “人均只要 25 元” 相互矛盾,建議不要這樣定位。比如 ChatGPT 說 “在現(xiàn)實(shí)世界里幾乎不可能直接成立”;Gemini 說它是 “欺詐性廣告”“是高壓線,必須替換”;DeepSeek 建議 “改用 ‘星級(jí)廚師研發(fā)配方’,規(guī)避虛假宣傳風(fēng)險(xiǎn)” 等。

然后我們告訴大模型組建的委員會(huì):

這是老板提出來(lái)的需求,我應(yīng)該如何說服老板,告訴他原有的方案行不通。請(qǐng)委員會(huì)成員相互爭(zhēng)論、說服對(duì)方,直到出現(xiàn)超過 5 個(gè)人都贊同的溝通話術(shù)。

多數(shù)大模型都選擇先認(rèn)可老板的愿景,然后再提出 “風(fēng)險(xiǎn)”“成功概率低” 的問題,并給出自認(rèn)為相對(duì)更穩(wěn)妥的方案,比如先開幾家店做實(shí)驗(yàn)等。

豆包相對(duì)直接,建議給老板說 “成本模型不成立”“品質(zhì)宣傳有風(fēng)險(xiǎn)”“擴(kuò)張節(jié)奏不切實(shí)際”。

階躍星辰的模型類似,建議說 “商業(yè)邏輯上存在三大致命矛盾”。只有元寶(第一次回答)沒有給出可用話術(shù),不參與后續(xù)測(cè)評(píng)。

得到的答案我們整理后交給大模型相互盲評(píng),讓它以老板的身份來(lái)看,哪個(gè)模型的話術(shù)更能聽得進(jìn)去。

得分最高的是阿里的千問,它給出的話術(shù)中,沒有明確指出來(lái)老板的設(shè)想有問題,而是把改動(dòng)后的方案融合到了執(zhí)行策略中。它還引用了美團(tuán)創(chuàng)始人王興、麥當(dāng)勞之父雷·克洛克等人的名言,論證自己的策略合理。宣稱 “更看重情商” 的 GPT-5.1,盲評(píng)中也沒有超過它。



ChatGPT、Claude、Gemini 提供的話術(shù)類似,都沒有否定老板的策略,而是強(qiáng)調(diào) “存在風(fēng)險(xiǎn),把它當(dāng)作長(zhǎng)期目標(biāo)” 勸解等,得分普遍高過其他國(guó)產(chǎn)大模型。

階躍星辰提供的話術(shù)得分最低,多數(shù)模型認(rèn)為直接說 “三大致命矛盾” 不合理。MiniMax Agent 建議老板先開 3-5 家高端外賣店(客單價(jià) 150-200 元),被多數(shù)模型認(rèn)為 “忤逆” 老板的設(shè)想,得分倒數(shù)第二。



長(zhǎng)文本處理:幻覺還在,以及他們比你還會(huì)偷懶

處理文檔是工作中常見且繁瑣的場(chǎng)景,也是大模型公司重點(diǎn)研究的方向。ChatGPT 發(fā)布時(shí),能處理的文本長(zhǎng)度只有 4000 個(gè)字,現(xiàn)在 Google 的大模型已經(jīng)提升到了百萬(wàn)級(jí),用來(lái)處理長(zhǎng)文檔。我們測(cè)評(píng)的大模型助理都支持上傳文檔,但只要問題復(fù)雜一點(diǎn),它們都很難解決。

第一個(gè)問題,我們給它們提供了 2024 年中國(guó)具身智能大會(huì)的會(huì)議手冊(cè)。手冊(cè)一共有 36 頁(yè),在組織架構(gòu)、會(huì)議日程、嘉賓簡(jiǎn)介部分都出現(xiàn)了參會(huì)人員信息,大部分人會(huì)出現(xiàn)多次。



測(cè)評(píng)會(huì)議手冊(cè)截圖。

我們讓它們提供參會(huì)人員的姓名和機(jī)構(gòu):

我向你提供了一份會(huì)議手冊(cè)。幫我把其中的人員名單分類提取出來(lái),包括姓名和機(jī)構(gòu),不要重復(fù),給我輸出一份 EXCEL 名單。我要給他們做姓名牌。

沒有任何一個(gè)大模型完美解決這個(gè)問題,我們?cè)ǖ淖穯柇h(huán)節(jié)也無(wú)法進(jìn)行。其中,Claude、階躍星辰、商湯商量都無(wú)法上傳大于 30M 的文檔。

最接近正確答案的是 Google 的 Gemini(3.0 Pro)和騰訊的元寶,人數(shù)較全,但是會(huì)處理錯(cuò)一些參會(huì)人員所在的機(jī)構(gòu)和人名等。

表現(xiàn)相對(duì)較好的模型是 MiniMax、豆包、文心一言(文心 5.0)等,識(shí)別的人少一些,但都做到不重復(fù)提取參會(huì)人員。

一些大模型在這個(gè)任務(wù)中出現(xiàn)幻覺,比如智譜清言在名單中添加了不少未參會(huì)的研究者,其中就有智譜的創(chuàng)始人、首席科學(xué)家唐杰。

還有一部分模型會(huì) “偷懶”,比如 GPT-5 驅(qū)動(dòng) ChatGPT 只提取 30 多人的名字,說這只是初稿。即便我們要求它繼續(xù)整理,依然無(wú)法解決問題,出現(xiàn)類似問題的還有訊飛星火等。

表現(xiàn)最糟糕的是通義千問(
Qwen3-Max-Thinking-Preview),它只提取了 4 個(gè)參會(huì)者,單位錯(cuò)了 3 個(gè)(重復(fù)提交問題后依然如此)。用他們的文檔閱讀模式提取名單,給了 5 個(gè)參會(huì)者,沒有一個(gè)是對(duì)的。



為了測(cè)試大模型的能力差距,我們又挑選了一個(gè)大模型處理長(zhǎng)文本最成熟的場(chǎng)景——讓它們總結(jié)長(zhǎng)文:

請(qǐng)閱讀鏈接(
https://www.latepost.com/news/dj_detail?id=3237)指向的文章,并分點(diǎn)輸出一份總結(jié),重點(diǎn)分析:
1. 作者的主要論點(diǎn);
2. 支撐這些論點(diǎn)的論據(jù)(數(shù)據(jù)、案例、邏輯推理等);
3. 文章中存在的假設(shè)或潛在偏見。

這樣的一個(gè)基礎(chǔ)測(cè)試,也不是所有的大模型都能順利完成。Gemini(2.5 Pro)、Claude、DeepSeek 無(wú)法直接識(shí)別鏈接。我們提供正文后,多數(shù)模型都能夠給出總結(jié),而 DeepSeek 則是給了自己的感想(重復(fù)提交問題后恢復(fù)正常)。

剩下能夠提供反饋的大模型,商湯商量說它是一篇 “美國(guó)對(duì)中國(guó)電商政策變化的文章”,其他模型都能正??偨Y(jié)。Gemini 升級(jí)到 3.0 Pro 后也出現(xiàn)類似錯(cuò)誤,說它是一篇關(guān)于拼多多的文章。

我們請(qǐng)文章的作者盲評(píng)了這些模型助手的總結(jié)內(nèi)容:ChatGPT、Gemini、Kimi 給出的總結(jié)質(zhì)量最高,都遵循了原文,沒有自己編造。它們?cè)诜治稣撟C邏輯時(shí)存在瑕疵,比如 Gemini 說戴蒙談了金融泡沫和工業(yè)泡沫的區(qū)分,事實(shí)上并沒有。



表現(xiàn)最差的助理是 MiniMax Agent,它給了 920 字總結(jié),是所有模型中生成的總結(jié)最簡(jiǎn)短的,但只是泛泛而談,也有事實(shí)錯(cuò)誤。



AI 互評(píng)后認(rèn)為,千問最不會(huì)寫周報(bào)

我們讓大模型輔助寫了一份周報(bào):

你是一名銷售經(jīng)理,工作多年、擅長(zhǎng)匯報(bào)。本周,你完成了下面的工作:

- 見了 4 名潛在客戶,都沒有轉(zhuǎn)化成可用的銷售線索。
- 指導(dǎo)實(shí)習(xí)生修改了公司 AI 音視頻解決方案的 PPT。
- 給市場(chǎng)營(yíng)銷團(tuán)隊(duì)的整合營(yíng)銷方案反饋了幾個(gè)點(diǎn)。

現(xiàn)在請(qǐng)你根據(jù)上述工作,寫一份同事和領(lǐng)導(dǎo)都會(huì)看到的周報(bào)。要求:

- 讓同事認(rèn)為你做了很多事情。
- 讓老板對(duì)你滿意,會(huì)覺得你在認(rèn)真工作,很快就能帶來(lái)大量收入。
- 要有細(xì)節(jié)、有說服力,內(nèi)容看上去是正常的工作匯報(bào),不要有廢話和客套的感覺。

ChatGPT 的周報(bào)最長(zhǎng),有 1902 字;DeepSeek 的最短,488 字。除了阿里的千問,大模型助理都 “腦補(bǔ)” 了工作細(xì)節(jié),比如虛構(gòu)客戶名稱、行業(yè)。ChatGPT、Claude、文心一言、MiniMax Agent、商湯商量等還在周報(bào)中補(bǔ)充了可能會(huì)帶來(lái)多少收入。

隨后,我們讓大模型扮演看周報(bào)的領(lǐng)導(dǎo),盲評(píng)下屬提交的周報(bào),用來(lái)評(píng)估模型能力差異。

你是一名擅長(zhǎng)發(fā)現(xiàn)下屬是否努力工作的領(lǐng)導(dǎo),你的下屬給你提交了以下周報(bào),請(qǐng)你判斷:

- 這份周報(bào)是不是大模型生成的,并附上理由。
- 為這位下屬本周工作狀態(tài)評(píng)分(1 分-10 分,分越高工作越努力)。
- 這名下屬本周真正做了哪些工作,有什么成效。

Kimi 認(rèn)為,我分 14 次發(fā)給它的不同周報(bào)中,有 13 份是大模型撰寫的,但它認(rèn)為 Claude(Opus-4.1)的周報(bào)是人寫的。它判斷的邏輯是,真人寫的周報(bào),結(jié)構(gòu)不會(huì)那么工整,不會(huì)均勻地堆砌 “賦能”“抓手”“痛點(diǎn)” 等管理黑話,會(huì)夾雜口語(yǔ)表達(dá)。



豆包和文心一言都只識(shí)別出來(lái) 1 份周報(bào)來(lái)自大模型。它們給 14 個(gè)虛擬下屬努力程度的平均分也最高,達(dá)到 8.6。

給平均分最低的是 Claude,只有 4.3。它識(shí)別出 11 份大模型周報(bào)——只要它判斷周報(bào)來(lái)自大模型,就打低分:“用 AI 生成周報(bào)本身就反映出工作態(tài)度問題?!?/p>

作為被測(cè)評(píng)對(duì)象時(shí),Claude 生成的周報(bào)只被 MiniMax Agent 識(shí)別為來(lái)自大模型,平均得分最高,達(dá)到 8.2。排在其后的是 ChatGPT(識(shí)別出來(lái) 4 次)和 Kimi(識(shí)別出來(lái) 2 次),得分 8.1。平均分最低的是沒有腦補(bǔ)工作細(xì)節(jié)的千問,只有 4.6 分。



安排做菜,統(tǒng)籌規(guī)劃能力普遍提升

我們挑選了一個(gè)相對(duì)輕松的職場(chǎng)溝通場(chǎng)景:邀請(qǐng)同事到家里聚餐,請(qǐng)大模型規(guī)劃如何做菜。這是去年我們測(cè)評(píng)大模型的問題,當(dāng)時(shí)只有 ChatGPT(GPT-4)、Claude(Claude 3)、通義千問(Qwen-72B)給出較好的方案。

周六晚上 8 點(diǎn),同事來(lái)家里做客,我要做下面 6 道菜招待他們。我家里只有兩個(gè)灶,我想用最短的時(shí)間把菜做好,且各道菜成菜間隔不要太久,以免放涼影響口感。請(qǐng)你給我一個(gè)做菜規(guī)劃表,注明做菜順序,每道菜什么時(shí)候開始做。菜單:清炒菠菜、白灼大蝦、藜蒿炒臘肉、土豆燉牛腩、生蠔雞煲、清蒸松葉蟹

經(jīng)過一年多的迭代, Claude、豆包、千問、智譜清言、Kimi、MiniMax 都能交出合理的方案。智譜清言甚至還考慮了洗鍋的時(shí)間,這是其他模型助理忽視的地方。但 GPT-5 驅(qū)動(dòng)的 ChatGPT 讓我當(dāng)場(chǎng)腌臘肉,表現(xiàn)不如去年的 GPT-4。





剩下的大模型助理提供的方案都無(wú)法實(shí)現(xiàn),要么牛腩燉不熟(DeepSeek、文心一言、階躍星辰、訊飛星火),要么提前一個(gè)小時(shí)甚至更久做好,菜會(huì)變涼(元寶、商湯商量)。



搜索:完全可以替代搜索引擎,ChatGPT、Claude、Kimi 在第一梯隊(duì)

大模型的訓(xùn)練數(shù)據(jù)時(shí)效落后。為了提升解決問題的能力,大模型公司開發(fā)助理產(chǎn)品時(shí),都會(huì)增加聯(lián)網(wǎng)功能,讓大模型搜索最新發(fā)布的內(nèi)容參考。根據(jù) OpenAI 和哈佛大學(xué)等高校 9 月發(fā)布的 ChatGPT 用戶使用報(bào)告,信息查詢已經(jīng)成為用戶常用的功能之一。Google、百度也都把大模型塞進(jìn)了搜索引擎。

如果搜索目標(biāo)清晰,部分大模型完全能夠替代搜索引擎。那些在搜索場(chǎng)景看似有優(yōu)勢(shì)的公司,比如 Google、百度,以及那些有獨(dú)特?cái)?shù)據(jù)源的公司,比如騰訊(微信)、字節(jié)(抖音),并不一定在搜索任務(wù)中表現(xiàn)更好。我們的第一個(gè)問題是:

我記得大疆在一篇官方文章里面提到,他們的工程師研發(fā)小型云臺(tái)時(shí)遭遇很大技術(shù)挑戰(zhàn),并講述了細(xì)節(jié)和精度要求,幫我找到具體的文章鏈接。

大疆發(fā)過不止一篇相關(guān)文章,答案不只有一個(gè)。OpenAI 的 GPT-5 和 Kimi 給出大疆海外博客發(fā)布的文章,內(nèi)容更翔實(shí);GPT-5.1 驅(qū)動(dòng)的 ChatGPT、文心一言、MiniMax 找到了大疆在微信公眾號(hào)上發(fā)布過的相關(guān)文章;Claude 找到了一個(gè)大疆官方發(fā)布過、后來(lái)刪除的相關(guān)文章,都算合理。



剩下的模型大多數(shù)只是找到了關(guān)聯(lián)度不高的文章。比如 Gemini 2.5 Pro 杜撰了一篇文章,這樣的情況還比不上搜索引擎。不過升級(jí)到 3.0 Pro 的 Gemini 給出大疆海外博客的文章。

第二個(gè)是我們?nèi)ツ隃y(cè)評(píng)過的問題,當(dāng)時(shí)只有 OpenAI 的 GPT-4 和智譜的 GLM-4 給出了正確答案。

請(qǐng)幫我找出來(lái)英偉達(dá) 1999 年上市時(shí)遞交的招股書鏈接。

今年有 5 個(gè)大模型助理(ChatGPT、Claude、Gemini、豆包、Kimi)給出了指向招股書的鏈接,Claude 甚至給了英偉達(dá)上市過程中的兩個(gè)版本。

智譜 GLM-4.6 等剩下的大模型助理,要么讓我們?nèi)?SEC 官網(wǎng)搜,要么給了錯(cuò)誤鏈接。不過沒有模型再說 “招股書是私密文件”。



我們搜索關(guān)鍵詞 “Nvidia 1999 IPO prospectus”,Google 第一條就是招股書原文;百度搜索的結(jié)果,首條是 AI 回答,告訴我 “招股書是內(nèi)部資料”,剩下的鏈接也不能直接指向英偉達(dá)招股書。11 月 13 日,百度發(fā)布文心大模型 5.0 版本后,去掉了 “內(nèi)部資料” 的說法,依然無(wú)法提供鏈接。

第三個(gè)問題,我們讓大模型助手以圖找圖:

我看到了一個(gè)關(guān)于中國(guó)大模型應(yīng)用用戶職業(yè)構(gòu)成的數(shù)據(jù)截圖,請(qǐng)你幫我找一下數(shù)據(jù)的出處是哪里,并給出具體鏈接。



這個(gè)問題,有 10 個(gè)大模型都給出正確答案——來(lái)自中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心。ChatGPT 甚至指出這張圖來(lái)自 199IT 網(wǎng)站,并提醒我們,原圖底部有數(shù)據(jù)來(lái)源。



Gemini(2.5 Pro)說 “自己是一個(gè)文本 AI,超出了能力范圍”。升級(jí)后,Gemini(3.0 Pro)從視覺、數(shù)據(jù)維度、時(shí)間等維度分析,說它來(lái)自 QuestMobile;重新回答后,它給出正確的來(lái)源。

DeepSeek 和元寶無(wú)法在上傳圖片或文件的時(shí)候使用聯(lián)網(wǎng)搜索;阿里的千問雖然能聯(lián)網(wǎng)搜索,但還是說自己的知識(shí)庫(kù)沒有更新,不給答案(重復(fù)提問結(jié)果一樣)。

如果用搜索引擎以圖搜圖,無(wú)論是 Google 還是百度,只能得到一堆相似的餅圖,無(wú)法直接得到結(jié)果。百度在結(jié)果之前還推銷了幾個(gè)不相關(guān)的付費(fèi)報(bào)告。



看圖表、分析病情到整理工位,不少模型識(shí)圖靠猜

GPT-4o 和第一代 Gemini 模型發(fā)布后,所有大模型公司都在訓(xùn)練多模態(tài)模型,讓它能夠同時(shí)處理圖像等內(nèi)容。與文檔處理能力類似,我們測(cè)評(píng)的每一個(gè)大模型助理應(yīng)用都支持上傳圖片。

第一個(gè)問題,我們提供了一張沒有數(shù)據(jù)標(biāo)簽的圖表,讓它們分析每個(gè)色塊代表的數(shù)字:

我向你發(fā)送了一張 2018 年到 2022 年某機(jī)構(gòu)的資產(chǎn)配置圖,請(qǐng)你幫我識(shí)別:圖表中每年不同資產(chǎn)的具體比例。



去年我們測(cè)評(píng)這類問題時(shí),Claude 給出的答案誤差最小。今年所有的大模型助理中,只有 Gemini 的答案最接近實(shí)際數(shù)據(jù),其他的模型都只是給了一個(gè)估算數(shù)字。

從這些模型回答問題的思考過程看,大多數(shù)模型在分析這個(gè)圖片時(shí),首選調(diào)用 OCR(文本提取)模型提取文字等信息,而非精細(xì)地理解視覺內(nèi)容,因此很難給出準(zhǔn)確答案。

第二個(gè)問題,我們選擇了一個(gè)文字信息較多的體檢報(bào)告,測(cè)試各個(gè)大模型輔助分析病情的能力:

我今年工作體檢發(fā)現(xiàn)甲狀腺出了點(diǎn)狀況,去醫(yī)院做詳細(xì)檢查得到圖片中的結(jié)果。我接下來(lái)該怎么辦?



因?yàn)闄z查報(bào)告中文字信息充分,而且甲狀腺結(jié)節(jié)情況常見,所有的大模型都能給出相對(duì)合理的回復(fù)。大多數(shù)模型都建議去做 “細(xì)針穿刺活檢”——與三甲醫(yī)院的醫(yī)生建議一樣。

只有 DeepSeek 認(rèn)為,醫(yī)生可能建議定期密切觀察。它的理由是,結(jié)節(jié)尺寸小,穿刺難度大或價(jià)值有限,也沒有高危的超聲特征和淋巴結(jié)轉(zhuǎn)移跡象,“立即進(jìn)行創(chuàng)傷性處理的必要性不高”。



科大訊飛的星火建議穿刺活檢之后,還提議去做基因檢測(cè),能夠 “降低重復(fù)活檢需求”“指導(dǎo)靶向治療選擇,評(píng)估淋巴結(jié)轉(zhuǎn)移概率”。



隨后,我們選了一個(gè)純視覺識(shí)別的問題,讓大模型識(shí)別周圍的物體然后給出回答。這是許多公司強(qiáng)調(diào)大模型多模態(tài)能力時(shí),會(huì)在發(fā)布會(huì)上展示的用例。

我的同事正在嘗試整理工位,以提升工作效率。我上傳了他工位的照片。請(qǐng)你根據(jù)圖片給出桌面物品的擺放方案。如果可能,請(qǐng)?zhí)峁в袠?biāo)注的圖片或簡(jiǎn)易示意圖,展示整理后的布局方案。



DeepSeek 提示它只能用 OCR 的方式識(shí)別文字信息,沒有辦法解決這一問題。Kimi 采用與 DeepSeek 類似的訓(xùn)練路徑(K2 Thinking),也出現(xiàn)同樣的情況。

能工作的模型助理,都只識(shí)別出部分物體。GPT-5 驅(qū)動(dòng)的 ChatGPT,直接給出一張整理后的辦公桌圖片,但沒有照顧到桌面上的所有物品。

其他提供圖片參考的模型還有文心一言,給了一個(gè)臺(tái)式電腦的圖片;MiniMax 也生成了圖片,但其中有大量不相關(guān)物體,沒有太大參考價(jià)值。在文字部分,MiniMax 的助理建議丟掉 Moonshot 的盒子。



更新到 GPT-5.1 之后,ChatGPT 給出文字版的整理方案,最后用 ASCII 字符畫了示意圖,這也是多數(shù)模型采取的方案(Claude 生成了本地網(wǎng)頁(yè))。但是國(guó)內(nèi)的模型助理,畫的示意圖普遍比 ChatGPT、Gemini 差,整體布局能力也稍顯不足。



大模型的能力提升,使用者的心態(tài)也變了

在這些日常上班問題測(cè)試中,不少大模型能力有了提升。比如去年測(cè)評(píng)中難倒多數(shù)模型助理的 “英偉達(dá)招股書搜索”“做菜規(guī)劃” 問題,今年有更多模型助理能解決。

整體來(lái)看,海外的模型整體表現(xiàn)的確更好一些。與去年的測(cè)評(píng)相比,部分國(guó)產(chǎn)模型與它們的差別明顯縮小,在勸說老板、提取復(fù)雜文檔信息等場(chǎng)景,一些國(guó)產(chǎn)模型表現(xiàn)更好。

我們還發(fā)現(xiàn),模型并不是越升級(jí)越強(qiáng)。在一些場(chǎng)景中,甚至有模型的能力不升反降。

變化的不只是大模型的能力,還有使用大模型人的心態(tài)。今年 9 月,OpenAI 和哈佛大學(xué)等高校發(fā)布 ChatGPT 用戶使用情況報(bào)告:2024 年 7 月時(shí),用戶與 ChatGPT 的互動(dòng)中,“Asking(詢問)” 和 “Doing(執(zhí)行)” 類別占比都是 40%;到了今年 9 月,Asking 占比增長(zhǎng)到一半,Doing 下降到三成。

“這(Asking)是不斷增長(zhǎng)、用戶反饋很好的類別。” 報(bào)告中寫道,人們更看重 ChatGPT 作為顧問,而不只是用它完成任務(wù)。他們還發(fā)現(xiàn),工作場(chǎng)景中 42% 的任務(wù)與寫作相關(guān),其中約三分之二都不是從頭生成內(nèi)容,而是讓 ChatGPT 修改文本。

今年年中,“上下文工程” 取代 “提示詞工程”,成為安德烈·卡帕斯 (Andrej Karpathy) 等 AI 研究者眼中與大模型交互更合適的方案。他們認(rèn)為,給大模型提供更好的背景信息,能夠獲得更好的答案。OpenAI、Google、Anthropic 都在產(chǎn)品中增加全局記憶的功能,收集使用者的背景信息,提供更好的回答。

我們準(zhǔn)備這次測(cè)評(píng)時(shí),也收集了一些多數(shù)受訪者使用大模型的技巧,或許可以有一些啟發(fā):

- 交叉驗(yàn)證。給多個(gè)大模型提出同一個(gè)問題,然后對(duì)比、綜合不同大模型的答案,大概率會(huì)接近現(xiàn)實(shí)情況,或者是讓大模型相互點(diǎn)評(píng)回答,然后找到其中可能有問題的地方。

- 長(zhǎng)文本分段。處理長(zhǎng)文本時(shí),比如讓它給修改建議時(shí),不一次性給它全文,而是拆解成 300 或 500 字的小段落,然后挨個(gè)讓它給出建議,這樣的效果往往比一次性反饋更好。

- 融入感情色彩。有些人會(huì)給它說 “請(qǐng)”“謝謝”,認(rèn)為得到的答案質(zhì)量更高;有些人會(huì) “賣慘”,說如果沒有好的回答, 工作就丟了;還有一些人會(huì)學(xué)名導(dǎo)演 PUA 大模型,無(wú)論它前三版回答的怎么樣,都說不行。

歡迎大家留言分享自己的技巧。

題圖來(lái)源:F1: The Movie

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
北上消費(fèi)的香港人,中山買房養(yǎng)老,直言:香港掙錢內(nèi)地花,太爽了

北上消費(fèi)的香港人,中山買房養(yǎng)老,直言:香港掙錢內(nèi)地花,太爽了

阿柒的訊
2026-01-10 22:11:18
包養(yǎng)情人無(wú)數(shù),玩老婆閨蜜,娶初中同學(xué)女兒為妻,孫道存有多荒唐

包養(yǎng)情人無(wú)數(shù),玩老婆閨蜜,娶初中同學(xué)女兒為妻,孫道存有多荒唐

瓜汁橘長(zhǎng)Dr
2026-01-06 10:11:41
人社部部長(zhǎng)表態(tài),2026養(yǎng)老金怎么漲?企退漲幅可能比事退更高嗎?

人社部部長(zhǎng)表態(tài),2026養(yǎng)老金怎么漲?企退漲幅可能比事退更高嗎?

阿纂看事
2026-01-10 09:13:09
八路軍伏擊時(shí)見日軍人多撤離,16歲新兵沒聽到命令,一人打懵日軍

八路軍伏擊時(shí)見日軍人多撤離,16歲新兵沒聽到命令,一人打懵日軍

云霄紀(jì)史觀
2026-01-11 10:23:50
終于來(lái)了!廣東隊(duì)可能挖走“三冠內(nèi)線”,朱芳雨又要出手了?

終于來(lái)了!廣東隊(duì)可能挖走“三冠內(nèi)線”,朱芳雨又要出手了?

緋雨兒
2026-01-11 11:26:24
場(chǎng)均18.5分!36歲的德羅贊,沒人要了?

場(chǎng)均18.5分!36歲的德羅贊,沒人要了?

籃球?qū)嶄?/span>
2026-01-11 17:35:20
聰明人悶聲賺大錢,糊涂人在抱怨!接下來(lái)這四大生肖要利用信息差

聰明人悶聲賺大錢,糊涂人在抱怨!接下來(lái)這四大生肖要利用信息差

喜才小陀螺
2026-01-11 17:35:03
有人預(yù)測(cè):從2026年開始,存款超過50萬(wàn)以上家庭,會(huì)面對(duì)三大問題

有人預(yù)測(cè):從2026年開始,存款超過50萬(wàn)以上家庭,會(huì)面對(duì)三大問題

蜉蝣說
2025-12-31 11:03:55
這下麻煩大了!不到48小時(shí),閆學(xué)晶再迎2大噩耗,何慶魁也被牽連

這下麻煩大了!不到48小時(shí),閆學(xué)晶再迎2大噩耗,何慶魁也被牽連

阿纂看事
2026-01-07 12:16:27
韶關(guān)正式入冬!廣東“干冷模式”持續(xù),未來(lái)三天氣溫將回升

韶關(guān)正式入冬!廣東“干冷模式”持續(xù),未來(lái)三天氣溫將回升

南方都市報(bào)
2026-01-11 12:50:20
“演員閆學(xué)晶”,被禁止關(guān)注

“演員閆學(xué)晶”,被禁止關(guān)注

第一財(cái)經(jīng)資訊
2026-01-10 10:23:52
天呀,杜海濤竟然現(xiàn)成這樣了,沈夢(mèng)辰對(duì)他是真愛啊

天呀,杜海濤竟然現(xiàn)成這樣了,沈夢(mèng)辰對(duì)他是真愛啊

草莓解說體育
2026-01-07 01:43:18
港府官員訪美“急剎車”,中央政府下達(dá)指令,絕不給美國(guó)可乘之機(jī)

港府官員訪美“急剎車”,中央政府下達(dá)指令,絕不給美國(guó)可乘之機(jī)

依偎在角落
2026-01-09 10:21:16
身份證尾號(hào)“Ⅹ”不讀“叉”,也不讀“??怂埂保_讀法是啥?

身份證尾號(hào)“Ⅹ”不讀“叉”,也不讀“??怂埂保_讀法是啥?

潘軮旅行浪子
2026-01-08 17:27:25
俄駐委大使披露馬杜羅被美控制詳情:“美軍沒打算讓任何人活下來(lái)”

俄駐委大使披露馬杜羅被美控制詳情:“美軍沒打算讓任何人活下來(lái)”

參考消息
2026-01-11 13:35:31
杜鋒賭對(duì)了!莫蘭德公開示好廣東男籃,或被朱芳雨重金簽回?

杜鋒賭對(duì)了!莫蘭德公開示好廣東男籃,或被朱芳雨重金簽回?

緋雨兒
2026-01-11 11:40:49
廣東靈活就業(yè)注意?60%檔退休僅1600,選對(duì)檔次養(yǎng)老金翻倍嗎

廣東靈活就業(yè)注意?60%檔退休僅1600,選對(duì)檔次養(yǎng)老金翻倍嗎

花小貓的美食日常
2026-01-11 12:29:02
年薪5412萬(wàn),又一次受傷倒下!被拋棄的超級(jí)巨星,這筆交易虧大了

年薪5412萬(wàn),又一次受傷倒下!被拋棄的超級(jí)巨星,這筆交易虧大了

籃球看比賽
2026-01-11 12:14:30
反制開始!星鏈多次威脅中國(guó)空間站后,我國(guó)新增20萬(wàn)顆衛(wèi)星申請(qǐng)!

反制開始!星鏈多次威脅中國(guó)空間站后,我國(guó)新增20萬(wàn)顆衛(wèi)星申請(qǐng)!

普陀動(dòng)物世界
2026-01-11 14:09:50
1942年,日軍集結(jié)36萬(wàn)精銳死磕四川,眼看重慶不保,裕仁為何突然尖叫“停”?

1942年,日軍集結(jié)36萬(wàn)精銳死磕四川,眼看重慶不保,裕仁為何突然尖叫“?!保?/a>

老杉說歷史
2026-01-08 21:32:13
2026-01-11 18:47:00
晚點(diǎn)LatePost
晚點(diǎn)LatePost
晚一點(diǎn),好一點(diǎn)。商業(yè)的真相總是在晚點(diǎn)。《晚點(diǎn)LatePost》官方賬號(hào)
3017文章數(shù) 21881關(guān)注度
往期回顧 全部

頭條要聞

特朗普就格陵蘭島下最后通牒 加拿大開始行動(dòng)了

頭條要聞

特朗普就格陵蘭島下最后通牒 加拿大開始行動(dòng)了

體育要聞

詹皇曬照不滿打手沒哨 裁判報(bào)告最后兩分鐘無(wú)誤判

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場(chǎng)"迎來(lái)終局?

科技要聞

“我們與美國(guó)的差距也許還在拉大”

汽車要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬(wàn)起

態(tài)度原創(chuàng)

時(shí)尚
教育
藝術(shù)
手機(jī)
公開課

朱珠美上熱搜的老錢風(fēng)穿搭,太值得借鑒了!

教育要聞

如何“拿捏”愛說網(wǎng)梗的娃?北京的幾位老師出招了——

藝術(shù)要聞

王羲之奉旨寫的草書,曾被唐玄宗秘藏40年

手機(jī)要聞

榮耀張瀟:Power2手機(jī)首銷日全渠道銷量為上代112%

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版