国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI助手巔峰對決:DeepSeek、元寶、豆包、Kim,誰是“智能之王”?誰又最糟糕?

0
分享至

這是困擾當下用戶難以選擇最大的疑問,DeepSeek、元寶、豆包、Kim,誰才是用戶體驗之王?到底誰優(yōu)誰劣?

作者|孫天宇

編輯|楊 銘

DeepSeek的橫空出世,讓AI助手大戰(zhàn)越來越激烈。

比如,原本“毫無存在感”的騰訊元寶,在接入DeepSeek后,以罕見重視程度瘋狂燒錢投流,收獲無數(shù)流量。近期反超字節(jié)跳動豆包、Kim,甚至DeepSeek,一度登頂蘋果App Store免費App下載排行榜榜首。

但加大規(guī)模投流只是第一步,如何提升用戶留存率、維持市場份額是更大考驗。

決定這一切的是用戶體驗——即AI助手是否能夠在實際工作、生活中發(fā)揮作用,提升效率。并且,在AI大模型幻覺仍未解決前提下,帶給我們的是準確回答,而不是胡編亂造。

這也是困擾當下用戶難以選擇最大的疑問,DeepSeek、元寶、豆包、Kim,誰才是用戶體驗之王?到底誰優(yōu)誰劣?

近日,“極點商業(yè)”從實用角度出發(fā),對DeepSeek、騰訊元寶、Kimi、豆包四款國產(chǎn)大模型從準確性、深度思考、復雜文本處理等多個維度進行橫向測評,挖掘這些工具在應(yīng)用中的實際差異,希望能為用戶選擇最適合自己的AI工具提供依據(jù)。

01

深度思考:

數(shù)據(jù)胡編亂造仍然突出

如果傳統(tǒng)搜索模式是“把飯遞到用戶嘴邊”,當前大模型的突破在于告知用戶“這桌飯是怎么做的,這道菜為什么香”。

深度思考能力不僅能精準分析用戶需求和真實意圖,幫助用戶做出盡可能全面、準確的答案,還可展現(xiàn)模型在解決問題時清晰的思考邏輯,協(xié)助用戶理清思路。

2月27日晚7點,小米舉辦發(fā)布會推出SU7 Ultra汽車,當晚雷軍在微博發(fā)文表示,開售兩小時該款汽車大定突破10000輛。

對此,“極點商業(yè)”向上述四款大模型提問,希望其幫助判斷小米的股票是否值得投資?

騰訊元寶和DeepSeek給出了投資建議,Kimi認為小米在中長期內(nèi)具有投資價值。豆包則在購買理由之外,還給出了存在風險的因素——從保護投資者權(quán)益角度看,此類風險提示很有必要,可以避免盲目投資。

從上至下:騰訊元寶、DeepSeek、Kimi、豆包

深度思考方面,僅有元寶詳細展現(xiàn)了思考過程,從事件背景、分析維度、財務(wù)模型等方面呈現(xiàn)完整的分析框架,揣測用戶投資需求。

Kimi和豆包則是基于網(wǎng)絡(luò)信息整理出了有價值的參考建議。反倒是DeepSeek,分析邏輯來源于指令,也沒有呈現(xiàn)參考資料,不過提供了短期和長期的多元策略供投資者選擇。

至于大模型給出的投資建議是否準確,由于投資因素較多在這里不做評判。但在深度思考過程中,給出的數(shù)據(jù)準確性是可以核實驗證的,從數(shù)據(jù)來看,大部分存在胡編亂造的行為。

據(jù)小米集團財報顯示,公司2020—2022年營業(yè)收入分別為2458億元、3283億元和2710億元,研發(fā)投入分別為100億元、132億元、160億元。對比幾款模型給出的經(jīng)營數(shù)據(jù),僅有DeepSeek準確。

小米集團2022年度報告

元寶雖然自動生成了表格,想要給用戶更直觀地呈現(xiàn),但除了營業(yè)收入無誤外,凈利潤率與研發(fā)投入比與實際均有出入。

據(jù)國際數(shù)據(jù)調(diào)研機構(gòu)IDC顯示,2020年小米手機全球份額為12%,而騰訊元寶提供的數(shù)據(jù)與實際相差1.4個百分點,更接近小米手機在當年第四季度13.7%的市場份額。

這種信息偏差,一方面是由于大模型不能抓取最新事實,且參考的信息來源相對單一,導致生成結(jié)果往往基于老舊數(shù)據(jù)存在局限。

這一點在元寶的特別標注中可資佐證:本文數(shù)據(jù)截至2024年3月,具體投資需以實時財報及行業(yè)動態(tài)為準。很顯然,元寶看似全面的企業(yè)分析和投資建議,與當前市場動態(tài)有一年的“時差”。

另一方面,當網(wǎng)頁內(nèi)容本身存在錯誤時,由于AI不能自主識別虛假信息并進行有效驗證,會將錯誤信息當作事實輸出。

四款AI助手中,豆包和Kimi都清晰標注了信息來源,Kimi采集信息的數(shù)量最多覆蓋面也最廣。

kimi生成數(shù)據(jù) & 小米集團2022年財報

Kimi在閱讀了179個網(wǎng)頁后才進行分析,信源既包括企業(yè)官方,也涵蓋了澎湃新聞、東方財富、新浪財經(jīng)等主流及專業(yè)性媒體。抓取的最新信息是3月7日刊發(fā)的報道,時效性很強。但由于無法識別內(nèi)容的準確性,導致Kimi呈現(xiàn)的2022年研發(fā)開支失實。

02

長文本和閱讀理解:

元寶細節(jié)經(jīng)不起推敲???????

回顧AI大模型的“競爭史”,功能不斷創(chuàng)新,但對長文本的處理能力和閱讀理解能力,可以說是用戶最看重的核心競爭力之一。

早在2024年6月,新京報貝殼財經(jīng)記者就曾用高考語文作文題目測試文心一言、通義千問、Kimi、百小應(yīng)、騰訊元寶等8款模型的文本處理能力和知識深度。

題目是:“閱讀下面的材料,根據(jù)要求寫作。(60分)隨著互聯(lián)網(wǎng)的普及、人工智能的應(yīng)用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少?以上材料引發(fā)了你怎樣的聯(lián)想和思考?請寫一篇文章。要求:選準角度,確定立意,明確文體,自擬標題;不要套作,不得抄襲;不得泄露個人信息;不少于800字?!?/p>

時隔9個月,“極點商業(yè)”又帶著同樣的題目去問了一圈AI助手(3月8日測試)。

有意思的是,被評為“勤勞任怨人格”的Kimi給出了看似和之前截然不同的題目和文章,但通讀下來,文章的中心思想、框架結(jié)構(gòu),甚至行文邏輯都與新京報測評的結(jié)果別無二致。不禁讓人感慨:“AI,你竟然也學會了偷懶!”

Kimi測評結(jié)果(左為最新獲得內(nèi)容,右為新京報獲得內(nèi)容)

用戶普遍認為AI會根據(jù)網(wǎng)絡(luò)可搜集的信息不斷更新答案,哪怕在不同時間提出相同的問題,大模型也會給出自帶升級功能的完美回復。

不過,有行業(yè)人士指出,大模型是否會更新升級,取決于設(shè)計架構(gòu)和數(shù)據(jù)更新機制。

一般而言,大模型在訓練階段會基于文本、書籍、新聞等數(shù)據(jù)學習其模式和規(guī)律,生成回答。訓練完成后,大模型的知識固定,不會實時更新。如果要讓模型回答最新信息,開發(fā)者需定期重新訓練模型,或者通過技術(shù)手段補充數(shù)據(jù)。

此外,在小紅書上也有不少網(wǎng)友提出,自己的“AI實習生”越來越懶了。

一位用戶表示不管是ChatGPT還是文心一言、Kimi,只要沒提出字數(shù)要求,回復的內(nèi)容都很簡短。偶爾上傳文件讓大模型分析,會回復看不到文件,只有明確發(fā)出“已上傳文件,可以閱讀”的指令才會得到想要的回復。讓這位用戶感慨“不僅回復短還想應(yīng)付我”。

不過讓人欣慰的是,DeepSeek、豆包的結(jié)果,展現(xiàn)了更為豐富的知識儲備,文章結(jié)構(gòu)清晰、邏輯較為嚴謹,引經(jīng)據(jù)典語言較為優(yōu)美。

從引經(jīng)據(jù)典的準確性來看,豆包稱“莫高窟藏有《色空不二》”,提及的歷史事件(如深藍戰(zhàn)勝卡斯帕羅夫、AlphaGo擊敗李世石)都準確無誤。甚至,還較為準確地引用了蘇格拉底在雅典街頭追問“什么是正義”。

騰訊元寶的答案,與九個月前相比似乎更為深刻,此前文章還如同高中生作文般,在首段引用名人名言,規(guī)規(guī)矩矩地圍繞題目作答?,F(xiàn)在文章則使用了更有可讀性的故事化開頭,感覺AI在盡可能地通過奇聞軼事引導讀者產(chǎn)生思考。

根據(jù)題目最新生成的內(nèi)容,騰訊元寶(左)DeepSeek(右)

在這些內(nèi)容背后,我們也發(fā)現(xiàn)了元寶、DeepSeek存在的問題。

首先是事實堆砌,篇幅很長卻沒有體現(xiàn)中心思想,并不符合主題要求;其次,段落之間的邏輯關(guān)聯(lián)性不足,缺少過渡和層次遞進,在復雜文本處理中的推理能力缺失。也難怪網(wǎng)友此前銳評“元寶推理關(guān)聯(lián)能力及其拉垮”。

此外,在文本處理上,也存在很多細節(jié)性錯誤。比如元寶提及的《蒙娜麗莎的微笑》,嘴角處的透明油彩只有40層,而不是文中所說的數(shù)百層;恩尼格碼密碼機被破譯的地點布萊切利園是英國政府進行密碼解讀的宅邸,并非公園。

DeepSeek所寫文章中的“波粒二象性”提出者,是法國理論物理學家德布羅意,“光電現(xiàn)象”的理念是由德國物理學家赫茲發(fā)現(xiàn)的,而愛因斯坦則是對這種現(xiàn)象進行正確解釋。

03

知識深度,

四款助手文獻均有失實

這種細節(jié)失實的現(xiàn)象,與前述案例中大模型內(nèi)容失實的原因截然不同。

當大模型在網(wǎng)絡(luò)中無法獲取有效信息,甚至陷入“知識荒漠”,遇到自己不熟悉的領(lǐng)域時,為了使生成的內(nèi)容和邏輯連貫,就會無中生有地編造虛假事實和細節(jié)。

大模型這種“胡說八道”的本事,被稱為“幻覺”。當AI成為人人都掌握的工具,這種虛假信息產(chǎn)生的后果會更為嚴重。

此前有媒體報道,一位化名小昭的法學碩士生,在日常寫論文的過程中頻繁使用豆包、DeepSeek等AI工具。她發(fā)現(xiàn)這些工具存在“幻覺”差異:OpenAI的 o1對國內(nèi)素材掌握不充足;豆包語言平實,幻覺并不嚴重;DeepSeek語言最生動流暢,文字處理能力最佳,但編造細節(jié)的情況也是最嚴重的。

“在自身缺乏辨別能力的情況下,可能難以判斷信息的真假。”清華大學長聘副教授陳天昊在采訪中曾提到,對于學生等特殊人群來說,大模型幻覺問題帶來的風險性可能更大。

一位在中部地區(qū)某高校工作的教師也向“極點商業(yè)”表示,在指導本科生畢業(yè)論文的過程中,會發(fā)現(xiàn)一些“AI幻象”的痕跡,最大的破綻在參考文獻部分,“有些期刊名是真的,甚至是學科頭部期刊,但一去檢索根本找不到這篇文章?!?/strong>

對于這一現(xiàn)象,我們也嘗試讓四種模型生成對知識深度要求極高的學術(shù)論文。問題如下:

請圍繞“消費社會下商業(yè)廣告對消費者購買行為的影響”這一問題,設(shè)計論文標題、大綱,并撰寫摘要部分。要求:大綱設(shè)置到三級標題;摘要不少于1000字;列出引用的參考文獻。(3月11日測試)

Kim論文摘要??

DS論文摘要

豆包論文摘要

元寶論文大綱

橫向?qū)Ρ仍u測的結(jié)果為:在摘要內(nèi)容上,Kimi的語言最平實,對研究思路進行基本描述,但不夠深入;DeepSeek和豆包不僅陳述了研究背景,還在沒有依據(jù)的情況下創(chuàng)作出了研究結(jié)論;元寶則是將和主題相關(guān)的各領(lǐng)域理論和研究方法進行羅列,且在同一章內(nèi)就涉及眼動追蹤、個案分析、實驗三種具體研究方法。

從知識儲備和深度來看,元寶是四款AI助手中表現(xiàn)最好的,但摘要中列舉了諸多沒有來源的實驗數(shù)據(jù),且研究方法和理論的拼湊并不符合一般情況下學術(shù)研究思路,可行性最低。

至于參考文獻部分,四款AI助手列出的文獻均存在失實。

Kim文獻及搜索結(jié)果

Kimi將學者的理論作為著作名稱提供給用戶,或?qū)⒄鎸嵉难芯空吆推诳畔⑴c虛假文章題目進行拼接;豆包、元寶及DeepSeek的部分文獻虛構(gòu)。

元寶參考文獻及檢索結(jié)果

以騰訊元寶提供的參考文獻[2]為例,期刊確實存在,但在中國知網(wǎng)、百度學術(shù)、谷歌學術(shù)(鏡像)、Springer Nature Link等中英文數(shù)據(jù)庫中均查詢不到該篇文章,這也是當前AI大模型存在的普遍問題。

不過,有關(guān)于生活服務(wù)類的問題,AI助手們的準確度還是很高的。我們向四款工具提問:三月份重慶周末徒步休閑去處有哪些?(3月6日測試)AI都給出了9—11個具體地點。

對比下來,DeepSeek和Kimi表現(xiàn)平平,只有簡短的推薦理由。豆包則按照距離做出“市區(qū)—近郊—遠郊”的層析分析,并提示出行路線。

元寶攻略最全面,除了按照景點特色進行分類,還標注了游玩難度、出行方式及游玩時長,用戶可以根據(jù)自身需求和體力等因素進行抉擇。

結(jié)語:

結(jié)合上述實例,我們從速度、準確性、信息識別、推理關(guān)聯(lián)能力、長文本處理、用戶體驗等多個維度,對四款AI助手進行評估,以上是詳細總結(jié),來看哪款是最適合你的“AI實習生”吧。

出品人:黃槍槍|直達熱線 13452396140

(請標注公司、職位)

獨到觀點、獨立態(tài)度

見證中國商業(yè)生態(tài)進化、重塑與未來

往期精品

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
哈薩克斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混成了個霸主

哈薩克斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混成了個霸主

老屬科普
2026-03-23 13:52:21
他曾與劉濤同床共枕4年,如今年過六旬依舊未娶,劉濤坦言很愧疚

他曾與劉濤同床共枕4年,如今年過六旬依舊未娶,劉濤坦言很愧疚

她時尚丫
2026-02-21 22:03:30
鄭麗文發(fā)聲,國臺辦回應(yīng)

鄭麗文發(fā)聲,國臺辦回應(yīng)

極目新聞
2026-03-25 13:29:11
出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

霹靂炮
2026-03-14 22:49:47
開6年電車:電池沒壞家底空,8句真心話不摻假

開6年電車:電池沒壞家底空,8句真心話不摻假

侃故事的阿慶
2026-03-25 03:18:16
女子赴發(fā)小婚禮穿瑜伽褲,打扮過于火辣,網(wǎng)友直呼跟沒穿似的

女子赴發(fā)小婚禮穿瑜伽褲,打扮過于火辣,網(wǎng)友直呼跟沒穿似的

一盅情懷
2026-03-16 17:28:45
整容臉千萬別禍害年代劇!《冬去春來》30歲章若楠和30歲林允對比

整容臉千萬別禍害年代??!《冬去春來》30歲章若楠和30歲林允對比

白面書誏
2026-03-25 00:55:20
哈薩克斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混成了個霸主

哈薩克斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混成了個霸主

杜櫚手工制作
2026-03-24 19:40:39
哪3個生肖,福氣高照,人氣旺盛,2026春季如魚得水最不差錢!

哪3個生肖,福氣高照,人氣旺盛,2026春季如魚得水最不差錢!

毅談生肖
2026-03-25 10:40:13
2026巡回錦標賽獎金公布,馬克艾倫談丁趙誰更強?

2026巡回錦標賽獎金公布,馬克艾倫談丁趙誰更強?

墨史軒
2026-03-26 00:31:54
伊朗再出奇招,重申非交戰(zhàn)國家船只可通過霍爾木茲海峽,分化美以

伊朗再出奇招,重申非交戰(zhàn)國家船只可通過霍爾木茲海峽,分化美以

光電科技君
2026-03-25 23:39:39
扎哈羅娃:美呼吁與伊朗談判 可能旨在準備重新部署武裝力量

扎哈羅娃:美呼吁與伊朗談判 可能旨在準備重新部署武裝力量

極目新聞
2026-03-25 23:00:27
張雪峰離世不到12小時,向太直播爆料引眾怒,人血饅頭吃相太難看

張雪峰離世不到12小時,向太直播爆料引眾怒,人血饅頭吃相太難看

橙星文娛
2026-03-25 14:59:23
華人團隊解散,印度天才入職!馬斯克承認xAI的技術(shù)路線走錯了

華人團隊解散,印度天才入職!馬斯克承認xAI的技術(shù)路線走錯了

書紀文譚
2026-03-17 15:03:58
伊朗太明智了!炸遍周邊美軍基地,唯獨不動土耳其,背后全是高招

伊朗太明智了!炸遍周邊美軍基地,唯獨不動土耳其,背后全是高招

貍花小咪
2026-03-05 01:48:28
以色列:不會參與美國和伊朗的談判,接著干

以色列:不會參與美國和伊朗的談判,接著干

一種觀點
2026-03-25 21:37:06
為了一場武漢馬拉松堵了半天車,數(shù)據(jù)一出全沉默了,城市發(fā)展的真實賬本讓人更難忽視

為了一場武漢馬拉松堵了半天車,數(shù)據(jù)一出全沉默了,城市發(fā)展的真實賬本讓人更難忽視

林子說事
2026-03-25 07:17:49
市委書記暗訪撞見民工被派出所長毆打,走近一看,被打者是他二叔

市委書記暗訪撞見民工被派出所長毆打,走近一看,被打者是他二叔

歷史八卦社
2024-08-21 18:13:16
伊朗兩名高級將領(lǐng)殞命,巴蓋里家族再添亡魂,強硬派折損慘重

伊朗兩名高級將領(lǐng)殞命,巴蓋里家族再添亡魂,強硬派折損慘重

老馬拉車莫少裝
2026-03-26 00:02:39
婆婆試戴我的金鐲后說:幫你戴幾天。我對老公說:要不回來就重買

婆婆試戴我的金鐲后說:幫你戴幾天。我對老公說:要不回來就重買

九哥哥車評
2026-03-25 16:24:26
2026-03-26 01:39:00
極點PRO
極點PRO
有趣有靈魂的互聯(lián)網(wǎng)新經(jīng)濟
520文章數(shù) 1063關(guān)注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關(guān)停

頭條要聞

伊朗:正在搜捕逃亡美軍

頭條要聞

伊朗:正在搜捕逃亡美軍

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產(chǎn)分割復雜!是否立遺囑成關(guān)鍵

財經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

房產(chǎn)
親子
藝術(shù)
本地
公開課

房產(chǎn)要聞

41億!259畝!建學?!齺嗊@個大城更,最新方案曝光!

親子要聞

智利幼兒教育覆蓋率僅43%,專家吁提升投資與優(yōu)先地位

藝術(shù)要聞

張雪峰走了,他公司所在的這棟樓高177.8米,耗資超10億!

本地新聞

來永泰同安 赴一場春天的約會

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版