国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

為什么 DeepSeek 不再“聰明”?從語料貧瘠到思維貧乏!

0
分享至

  人工智能浪潮之下,大模型如雨后春筍般涌現(xiàn),中文大模型領(lǐng)域也曾在春節(jié)前后一度熱鬧非凡,甚至曾把英偉達(dá)的市值從第一的位置拉下馬,雖然英偉達(dá)在近日又創(chuàng)歷史新高。

  作為國產(chǎn)AI的“潛力股”,DeepSeek 曾因其技術(shù)背景和宣傳攻勢,被寄予厚望。但現(xiàn)實(shí)是,越來越多用戶在使用后表達(dá)出強(qiáng)烈失望:生成內(nèi)容空洞重復(fù)、邏輯混亂、審查敏感過度,“答非所問”,甚至自編自導(dǎo)幾乎成了常態(tài)。曾經(jīng)有個(gè)知識博主分享了一個(gè)內(nèi)容,DeepSeek在回答問題時(shí)所引用的三篇論文居然全部是杜撰的,基礎(chǔ)是假的,當(dāng)然答案也肯定是不可信的。

  而隨著這種狀況的加劇,曾轟動一時(shí)的DeepSeek也徹底走下了神壇,從一枝獨(dú)秀到無人問津,用了半年的時(shí)間。

  

  它為什么“蠢”?是技術(shù)不行?還是有更深的結(jié)構(gòu)性問題?

  答案可能要從“語料”和“思維”兩個(gè)層面說起。

  一、中文AI的先天缺陷:語料貧瘠

  眾所周知,大語言模型的能力高度依賴訓(xùn)練數(shù)據(jù)的質(zhì)量與廣度。GPT-4、Claude、Gemini 等英文模型之所以能“聰明”,是因?yàn)樗鼈儽晨亢A?、高質(zhì)量、多樣化的語料池。以O(shè)penAI為例,訓(xùn)練數(shù)據(jù)涵蓋了 Common Crawl(全球網(wǎng)絡(luò)抓?。?、維基百科、PubMed、arXiv、Reddit、新聞評論、技術(shù)文檔、小說劇本等幾乎所有人類語言的場景。

  而中文模型能抓取和使用的東西呢?

  根據(jù)公開研究數(shù)據(jù),在全球前100萬個(gè)網(wǎng)站中,中文網(wǎng)站僅占1.3%,而英文網(wǎng)站高達(dá)59.3%。中文用戶如果只掌握中文,所能接觸的信息本就只是信息世界的冰山一角。而這“冰山一角”還充滿內(nèi)容閹割、平臺審查、表達(dá)受限等問題。

  不僅量少,而且質(zhì)量差。

  這幾年,中文互聯(lián)網(wǎng)的原創(chuàng)內(nèi)容正加速流失。知乎、豆瓣、小紅書、微博等平臺,算法驅(qū)動下變得越來越“重復(fù)性高、情緒化強(qiáng)、知識性弱”。優(yōu)質(zhì)內(nèi)容不是404了,就是“由于相關(guān)法律法規(guī),不予顯示”,我們經(jīng)常見到的優(yōu)質(zhì)文章消失就是這個(gè)道理。更雪上加霜的是,自媒體生態(tài)在搜索引擎上堆砌SEO、批量AI生成內(nèi)容,使得網(wǎng)絡(luò)語料進(jìn)一步失真。

  簡而言之,中文大模型要變“聰明”,它首先必須“見過世界”。但今天的中文語料,更多是“圍墻里的縮影”,而不是“世界的地圖”。

  而我們之所以剛見到DeepSeek還覺得行,是因?yàn)槠涫钱?dāng)初面世時(shí)的內(nèi)容是從2023年10月份之前GPT的訓(xùn)練基礎(chǔ)上汲取的,所以內(nèi)容還比較真實(shí),但隨著這個(gè)窗口的關(guān)閉,其現(xiàn)在的內(nèi)容很多事從百度這樣的平臺上吸取的(百度的文件質(zhì)量有目共睹),所以其最終的質(zhì)量就以自由落體的速度下降了。

  

  二、語言審查帶來的二次污染

  DeepSeek 模型的訓(xùn)練也繞不開一個(gè)關(guān)鍵現(xiàn)實(shí):我們的AI必須面對高強(qiáng)度的內(nèi)容審查機(jī)制。這種機(jī)制不只是應(yīng)用層的“輸出審查”,更是訓(xùn)練層的“語料篩選”。

  根據(jù)網(wǎng)傳不完全統(tǒng)計(jì),我國的AI模型訓(xùn)練和部署過程中,過濾詞條可能超過6.6萬組。你能想到的熱點(diǎn)社會話題、政治人物、歷史事件、制度性爭議,幾乎都在模型眼中“不可觸碰”,所以經(jīng)常你問一個(gè)問題,DeepSeek說到一半就終止了,甚至一開始就可以規(guī)避掉,而這都是因?yàn)閷彶闄C(jī)制導(dǎo)致的。

  這意味著什么?

  意味著它不是“不會回答”,而是“必須回避”。

  在訓(xùn)練過程中,模型缺少對現(xiàn)實(shí)世界中“沖突性”“對抗性”“灰色地帶”的表達(dá)與理解能力。于是我們看到,中文AI往往顯得“太干凈”“太小心”,一問深一點(diǎn)的問題,它就會用“我是AI助手,無法回答”來結(jié)束對話。

  它不是蠢,而是被訓(xùn)練成“不敢聰明”。

  三、模型思維的扁平化:會說話 ≠ 會思考

  即使不考慮語料與審查,我們AI的另一個(gè)痛點(diǎn)在于:它會“模仿”,但不太會“思考”。

  GPT 模型的本質(zhì),是通過大量文本的預(yù)訓(xùn)練,學(xué)習(xí)語言的統(tǒng)計(jì)規(guī)律,也就是“接下來最可能出現(xiàn)的詞是什么”。它的“聰明”不是因?yàn)樗斫饬耸澜?,而是因?yàn)樗娺^足夠多的世界,并統(tǒng)計(jì)出其中的規(guī)律。

  而DeepSeek等中文模型,一方面語料有限,另一方面RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))環(huán)節(jié)難以完成真實(shí)、多元、多層級的微調(diào),最終導(dǎo)致模型雖然能“說人話”,但無法進(jìn)行深度的思維模擬。

  舉個(gè)簡單的例子:

  你問它:“如何看待‘計(jì)劃經(jīng)濟(jì)’和‘市場經(jīng)濟(jì)’的對比?”
它可能會答:“兩者各有優(yōu)劣,應(yīng)結(jié)合國情靈活選擇?!?/p>

  再比如,你問他“如何看待朝鮮這個(gè)國家的治理體系”

  

  他給你的回答永遠(yuǎn)模棱兩可的,沒有答案的問題,聽起來好像沒毛病,但其實(shí)什么都沒說,而且有時(shí)候,更像是人民日報(bào)的話語。

  而同樣的問題,GPT-4 可能會從歷史沿革、理論基礎(chǔ)、現(xiàn)實(shí)表現(xiàn)、國家案例等多維度展開,邏輯清晰、觀點(diǎn)明確,即使你不認(rèn)同它的答案,也會承認(rèn):它確實(shí)“想過”。

  中文模型的“平庸輸出”背后,是訓(xùn)練過程中對“思維路徑”的扁平化塑造。而這種扁平,歸根結(jié)底,還是數(shù)據(jù)、機(jī)制和環(huán)境決定的,不是不會思考,而是不能思考。

  四、聰明的AI,需要更聰明的語境

  DeepSeek 的局限,并不是DeepSeek一家的問題,它是整個(gè)中文AI行業(yè)共同面對的困局。
? 缺乏優(yōu)質(zhì)開放語料
? 內(nèi)容生態(tài)持續(xù)退化
? 審查制度擠壓表達(dá)空間
? RLHF流程成本高、難以真實(shí)反饋

  這一切,最終讓中文大模型“聰明地糊涂起來”。

  當(dāng)一個(gè)AI所能學(xué)習(xí)的世界,被人為劃定了邊界、屏蔽了爭議、消除了復(fù)雜性,它怎么可能成長為“有思維”的工具?它最多只能成為一個(gè)不會出錯(cuò)的復(fù)讀機(jī)——但復(fù)讀機(jī)不等于智能。

  不是DeepSeek不行,是我們太“安全”了

  要讓中文AI變得真正強(qiáng)大,不是靠多加幾層注意力機(jī)制、擴(kuò)一倍參數(shù)規(guī)模就行的,而是要面對更本質(zhì)的問題:我們是否愿意為一個(gè)真正“會思考”的AI,提供一個(gè)足夠真實(shí)、足夠復(fù)雜、足夠自由的訓(xùn)練土壤?而這恐怕不是幾個(gè)AI模型和企業(yè)就能解決的。

  否則,DeepSeek不會是第一個(gè)“聰明不起來”的模型,也不會是最后一個(gè)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
釘在恥辱柱上!國家文物局出手,這三個(gè)跳梁小丑,真的徹底涼涼了

釘在恥辱柱上!國家文物局出手,這三個(gè)跳梁小丑,真的徹底涼涼了

戶外阿嶄
2025-12-28 17:07:24
剛剛,深夜26家A股上市公司發(fā)布重大利好 利空消息,看看都有哪些?

剛剛,深夜26家A股上市公司發(fā)布重大利好 利空消息,看看都有哪些?

股市皆大事
2025-12-28 21:45:37
云南正在被外籍人口“占領(lǐng)”?30萬外國人扎根不走,真相扎心了

云南正在被外籍人口“占領(lǐng)”?30萬外國人扎根不走,真相扎心了

青眼財(cái)經(jīng)
2025-12-10 22:36:05
彈劾賴清德拉長戰(zhàn)線,若能在縣市長選舉中重創(chuàng)民進(jìn)黨也是大成功

彈劾賴清德拉長戰(zhàn)線,若能在縣市長選舉中重創(chuàng)民進(jìn)黨也是大成功

海峽導(dǎo)報(bào)社
2025-12-27 08:08:08
越扒越有!不止徐鶯,徐湖平被曝大小情人無數(shù),日本翻譯都不放過

越扒越有!不止徐鶯,徐湖平被曝大小情人無數(shù),日本翻譯都不放過

丁丁鯉史紀(jì)
2025-12-27 09:36:59
保護(hù)心臟,朝左睡還是朝右睡好?醫(yī)生:若想心臟健康,做好...

保護(hù)心臟,朝左睡還是朝右睡好?醫(yī)生:若想心臟健康,做好...

袁醫(yī)生課堂
2025-12-25 07:34:23
緬北女魔頭魏榕:建立血牛庫,別墅藏帥哥,不聽話就賞“肉靈芝”

緬北女魔頭魏榕:建立血牛庫,別墅藏帥哥,不聽話就賞“肉靈芝”

刀刃故事
2024-10-08 23:39:48
姚晨發(fā)文紀(jì)念高崎機(jī)場即將關(guān)閉

姚晨發(fā)文紀(jì)念高崎機(jī)場即將關(guān)閉

韓小娛
2025-12-28 08:59:57
定期存款已不是“避風(fēng)港”:2025年末,所有儲戶需要明白殘酷真相

定期存款已不是“避風(fēng)港”:2025年末,所有儲戶需要明白殘酷真相

月影說職場
2025-12-12 17:49:05
此人戴手銬走完長征,開國大典前夕,毛主席見到他問:你是哪一個(gè)

此人戴手銬走完長征,開國大典前夕,毛主席見到他問:你是哪一個(gè)

大運(yùn)河時(shí)空
2025-12-27 13:35:03
全國人大常委會批準(zhǔn)任命張升民為中國人民解放軍選舉委員會副主任

全國人大常委會批準(zhǔn)任命張升民為中國人民解放軍選舉委員會副主任

澎湃新聞
2025-12-27 18:40:05
天然氣對華毀約,加入歐美稀土戰(zhàn)略,哈薩克斯坦這路誰教他走的?

天然氣對華毀約,加入歐美稀土戰(zhàn)略,哈薩克斯坦這路誰教他走的?

策略述
2025-12-27 17:20:34
賈躍亭把高山拆了再運(yùn)到美國組裝,“忽悠”了1萬名美國消費(fèi)者

賈躍亭把高山拆了再運(yùn)到美國組裝,“忽悠”了1萬名美國消費(fèi)者

劉哥談體育
2025-12-28 04:43:46
新聞30分沒播毛主席誕辰?別急著罵,看韶山的那碗壽面,你就懂了

新聞30分沒播毛主席誕辰?別急著罵,看韶山的那碗壽面,你就懂了

文雅筆墨
2025-12-28 11:01:45
中方禁止入境后,美聯(lián)邦國務(wù)院怒了,我使館警告:島內(nèi)恐成火藥桶

中方禁止入境后,美聯(lián)邦國務(wù)院怒了,我使館警告:島內(nèi)恐成火藥桶

博覽歷史
2025-12-28 23:41:17
12月28日晚間,多家上市公司發(fā)布重大利好利空好消息

12月28日晚間,多家上市公司發(fā)布重大利好利空好消息

A股數(shù)據(jù)表
2025-12-28 19:01:59
石宇奇獲120萬笑出聲!直言天王杯是吃止痛藥堅(jiān)持 為2025年打90分

石宇奇獲120萬笑出聲!直言天王杯是吃止痛藥堅(jiān)持 為2025年打90分

顏小白的籃球夢
2025-12-28 21:10:11
這8種東西不能用酒精擦,一擦就壞,再也修復(fù)不回來了!

這8種東西不能用酒精擦,一擦就壞,再也修復(fù)不回來了!

裝修秀
2025-11-13 11:50:03
換了車我才悟了:寧可多花點(diǎn)錢,汽車也要堅(jiān)持4不買!建議收藏!

換了車我才悟了:寧可多花點(diǎn)錢,汽車也要堅(jiān)持4不買!建議收藏!

藍(lán)色海邊
2025-12-27 07:14:15
阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

聽風(fēng)聽你
2024-12-25 22:41:20
2025-12-29 01:00:49
邏輯與常識 incentive-icons
邏輯與常識
通過時(shí)事分析和評論,剖析事件之后的本質(zhì)和邏輯。反洗腦,真認(rèn)知
295文章數(shù) 971關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

澤連斯基:若要烏就領(lǐng)土問題讓步 "和平計(jì)劃"應(yīng)全民公投

頭條要聞

澤連斯基:若要烏就領(lǐng)土問題讓步 "和平計(jì)劃"應(yīng)全民公投

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

游戲
親子
教育
本地
公開課

醉酒兔女郎護(hù)送回家!重磅更新可偷看裙底?

親子要聞

保護(hù)孩子寶媽必學(xué),懷疑孩子被侵犯,要少問多做情景再現(xiàn)!

教育要聞

揭秘!近10年應(yīng)屆本科畢業(yè)半年后月收入

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版