国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)我們談?wù)揇eepSeek時(shí),是在談?wù)撌裁?/h1>
0
分享至

(圖片來源:pixabay)

連日來,隨著DeepSeek持續(xù)霸榜熱搜,其創(chuàng)始人梁文峰的許多觀點(diǎn)也熱傳于網(wǎng)絡(luò)。

"中國AI和美國有一兩年差距,但真實(shí)的gap是原創(chuàng)和模仿之差"“過去三十多年IT浪潮里,我們基本沒有參與到真正的技術(shù)創(chuàng)新里” "經(jīng)驗(yàn)包袱太重的人,創(chuàng)新動(dòng)力不足”……他的話語樸實(shí)且坦誠,道理講得很白,卻給人耳目一新之感。這一點(diǎn),與大家在使用DeepSeek時(shí)的感受是相當(dāng)一致的。

在國內(nèi)輿論場中,梁文峰本人與DeepSeek是深度捆綁的,有人稱他是人工智能上甘嶺的“黃繼光”,有人說他是中國的“馬斯克”,但在筆者看來,更重要的或許在于做好DeepSeek與梁文峰思維的解碼,換言之,大家應(yīng)當(dāng)更加清楚地知道,當(dāng)我們在談?wù)揇eepSeek時(shí),到底在談?wù)撌裁,或者說應(yīng)該談?wù)撌裁础?/p>

其一:突圍,山重水復(fù)疑無路

ChatGPT問世以來,全球AI競賽正式進(jìn)入“大力出奇跡”時(shí)代。巨參數(shù)、大數(shù)據(jù)、強(qiáng)算力成為大模型研發(fā)的基礎(chǔ),規(guī)模法則(scaling law)被認(rèn)為是智能“涌現(xiàn)”的核心:OpenAI的GPT-4參數(shù)規(guī)模突破1.8萬億,訓(xùn)練數(shù)據(jù)集包含13萬億token;微軟、谷歌等一眾科技巨頭均斥巨資囤積算力。而在規(guī)模法則的另一面,全球高質(zhì)量文本數(shù)據(jù)迅速枯竭;單次訓(xùn)練成本逐漸失控;美國對芯片采取針對性出口管制,以維護(hù)其算力霸權(quán)及AI技術(shù)優(yōu)勢。

當(dāng)美國科技大廠已投入巨資,構(gòu)建起了一套由他們制定的行業(yè)標(biāo)準(zhǔn)、生存法則時(shí),當(dāng)很多人潛意識中已默許,AI領(lǐng)域未來發(fā)展的話語權(quán)、主導(dǎo)權(quán)和控制權(quán)正牢牢掌握在西方手中時(shí),來自中國的DeepSeek卻突然闖了進(jìn)來。

其用架構(gòu)算法、訓(xùn)練方式、工程優(yōu)化等系統(tǒng)性創(chuàng)新,在千億參數(shù)規(guī)模下展現(xiàn)出與GPT-o1-1217相當(dāng)?shù)耐评砟芰,以顯著降低的訓(xùn)練成本,走出一條震驚世界的差異化技術(shù)路徑,實(shí)現(xiàn)國產(chǎn)大模型的突圍。

正如有論者指出,DeepSeek讓許多人認(rèn)識到一個(gè)一直存在但被忽視的重要趨勢,那就是中國在生成式AI領(lǐng)域正在快速追趕美國。要知道,拜登政府2022年實(shí)施并在此后多次收緊禁止向中國出售最先進(jìn)芯片及芯片制造設(shè)備的禁令,目的就是限制中國獲取尖端技術(shù)。DeepSeek團(tuán)隊(duì)正是在美國AI芯片禁運(yùn)的壓力下,不得不在較低性能的H800 GPU上訓(xùn)練模型。但正是這樣的“降維”,反而推動(dòng)了算法優(yōu)化的突破。

其二:創(chuàng)新,東風(fēng)夜放花千樹

DeepSeek的成功,挑戰(zhàn)了AI領(lǐng)域“規(guī)模至上”的傳統(tǒng)思維。那么從技術(shù)角度看,DeepSeek主要?jiǎng)?chuàng)造了哪些核心創(chuàng)新?

首先是模型架構(gòu)。混合專家模型(MoE)通過將模型分成多個(gè)專家,并在每個(gè)特定任務(wù)中只激活少量合適的專家,從而在推理過程中減少參數(shù)量,提升效率。據(jù)透露,GPT-4便采用了MoE框架,而DeepSeek-V3對MoE框架進(jìn)行了重要?jiǎng)?chuàng)新,新框架包含細(xì)粒度多數(shù)量的專業(yè)專家和更通用的共享專家。

就MoE框架而言,其面臨的一個(gè)重要難題是如何確定哪個(gè)標(biāo)記(token)會到達(dá)哪個(gè)專家或子模塊。DeepSeek引入了新的無損負(fù)載均衡技術(shù)和路由網(wǎng)絡(luò)方法,有效降低了通信開銷,突破了傳統(tǒng)方法增加通信開銷換取高效推理的瓶頸,使得新框架更加穩(wěn)定高效。

其次是算法突破。多頭潛在注意力機(jī)制(Multi-Head Latent Attention,MLA)是DeepSeek最關(guān)鍵的技術(shù)突破,它顯著降低了模型推理成本。在過去,推理能力最大的限制之一即為加載上下文所需的內(nèi)存: KV緩存是Transformer中的一種內(nèi)存機(jī)制,它將每一步生成的鍵(Key)和值(Value)保存到緩存中,隨著上下文長度的增加,KV緩存顯著增加。而MLA可將每個(gè)查詢所需的KV緩存降低90%以上。

第三是訓(xùn)練方式。DeepSeek-R1-Zero首次證明了基于大規(guī)模強(qiáng)化學(xué)習(xí)(RL)與高質(zhì)量合成數(shù)據(jù)(Synthetic Data)結(jié)合的技術(shù)路徑,可在不依賴標(biāo)注數(shù)據(jù)、監(jiān)督微調(diào)(SFT)的情況下,獲得高水平推理能力。在R1-Zero訓(xùn)練中,DeepSeek應(yīng)用組相對優(yōu)化策略(GRPO)和兩個(gè)簡單的獎(jiǎng)勵(lì)函數(shù)(回答準(zhǔn)確性和思維過程格式準(zhǔn)確性獎(jiǎng)勵(lì)),使得R1-Zero自發(fā)形成了評估和優(yōu)化推理的能力,產(chǎn)生令人驚嘆的“頓悟時(shí)刻”(Aha Moment)。

DeepSeek-R1則是在R1-Zero基礎(chǔ)上,進(jìn)一步利用少量標(biāo)注數(shù)據(jù)監(jiān)督微調(diào)作為冷啟動(dòng),并結(jié)合強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練,顯著提升了模型生成結(jié)果的可讀性及面向開放問題的推理能力。此外,DeepSeek也驗(yàn)證了模型蒸餾技術(shù)在推理能力上的有效性。

第四是數(shù)據(jù)策略。DeepSeek采用高質(zhì)量合成數(shù)據(jù)的數(shù)據(jù)策略與其訓(xùn)練方式、推理任務(wù)相匹配,極大降低了數(shù)據(jù)成本!皵(shù)據(jù)質(zhì)量優(yōu)先”的核心原則也已逐漸成為領(lǐng)域共識:比數(shù)據(jù)規(guī)模更重要的是數(shù)據(jù)質(zhì)量與知識密度,相應(yīng)地,DeepSeek采取了拒絕采樣(rejection sampling)等基于驗(yàn)證的數(shù)據(jù)篩選與增強(qiáng)方法。

最后是工程技術(shù)。除了在架構(gòu)、算法、技術(shù)路徑等方面形成“軟突破”,成功降低訓(xùn)練成本,提升模型效率,DeepSeek團(tuán)隊(duì)強(qiáng)大的工程優(yōu)化能力也同樣令人驚嘆。DeepSeek繞過了英偉達(dá)的通用編程框架CUDA,使用了更底層也更復(fù)雜的PTX(Parallel Thread Execution)匯編語言直接操控GPU指令集,從而實(shí)現(xiàn)芯片算力的效用最大化。這一“硬突破”也一定程度上威脅到英偉達(dá)生態(tài)的護(hù)城河,為未來適配國產(chǎn)GPU留下巨大的想象空間。

其三:未來,長風(fēng)破浪會有時(shí)

DeepSeek的橫空出世讓人們重新反思大模型、AGI領(lǐng)域暴力美學(xué)式的思維慣性,也重新關(guān)注算法、架構(gòu)、優(yōu)化等技術(shù)創(chuàng)新的巨大潛力。更重要的是,DeepSeek-R1還可以免費(fèi)使用,而且是開源的。低成本與開放性的強(qiáng)強(qiáng)聯(lián)合可能有助于普及AI技術(shù),讓其他國家(尤其是美國以外)的開發(fā)者能夠入局。當(dāng)美國公司在為試圖進(jìn)入該領(lǐng)域的競爭對手設(shè)置盡可能多的障礙時(shí),中國卻在開放這項(xiàng)技術(shù),這確實(shí)是一種諷刺。

曾幾何時(shí),硅谷將AI技術(shù)塑造為一個(gè)珍貴且神奇的成就,將埃隆·馬斯克、薩姆·奧爾特曼等領(lǐng)軍人物描繪成引領(lǐng)人類進(jìn)入新世界的先知。而DeepSeek撕掉了此前籠罩在AI之上的神秘面紗。

它專注創(chuàng)新,在人工智能全球競爭白熱化的關(guān)鍵時(shí)期形成突破,為中國的智能生態(tài)構(gòu)建奠定關(guān)鍵基礎(chǔ);它擁抱開源,拒絕“Close AI”,為全世界技術(shù)社區(qū)做出堅(jiān)實(shí)貢獻(xiàn)。當(dāng)我們贊嘆DeepSeek產(chǎn)品的巨大成功,也應(yīng)當(dāng)關(guān)注其團(tuán)隊(duì)的系統(tǒng)性創(chuàng)新能力,這既包含多方面的技術(shù)突破,也包括如何聚合“高密度技術(shù)人才”、如何為年輕團(tuán)隊(duì)提供高效的創(chuàng)新土壤。

最后,也要指出DeepSeek的關(guān)鍵破局點(diǎn),是在保持推理能力相當(dāng)?shù)那闆r下,實(shí)現(xiàn)了訓(xùn)練及計(jì)算成本的極大降低。而從數(shù)學(xué)原理上說,并未跳出大模型浪潮范疇,這也意味著,DeepSeek也無法解決這一技術(shù)路線下不可解釋、幻覺等內(nèi)在問題。因此,關(guān)于智能“涌現(xiàn)”的根本奧秘,關(guān)于現(xiàn)有模型的智能邊界與潛力,關(guān)于模型的解釋性、泛化性、穩(wěn)定性,尤其是幻覺引發(fā)的認(rèn)知安全風(fēng)險(xiǎn),仍是值得深入探索的重要議題;長期而言,算力依然是人工智能的基礎(chǔ)設(shè)施,我們也期待芯片領(lǐng)域誕生屬于中國的DeepSeek時(shí)刻。

(文/王鑫 北京航空航天大學(xué)人工智能學(xué)院副教授)

歡迎下載“北京青年報(bào)”客戶端

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
姜昆回應(yīng),視頻為拼接,人一直在國內(nèi),蹭熱度的楊儀又被打臉了

姜昆回應(yīng),視頻為拼接,人一直在國內(nèi),蹭熱度的楊儀又被打臉了

李健政觀察
2025-12-26 12:19:52
搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內(nèi)不能動(dòng)手

搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內(nèi)不能動(dòng)手

阿器談史
2025-12-26 20:55:00
楊樂樂首談和汪涵的婚姻問題,婚后全職一人帶娃,自嘲有點(diǎn)想離婚

楊樂樂首談和汪涵的婚姻問題,婚后全職一人帶娃,自嘲有點(diǎn)想離婚

粵語經(jīng)典歌單
2025-12-27 15:14:50
約基奇MVP三榜第一!官方排名七連霸 賠率概率也超亞歷山大

約基奇MVP三榜第一!官方排名七連霸 賠率概率也超亞歷山大

羅說NBA
2025-12-27 05:59:52
上映5天票房破31億,《阿凡達(dá)3》逆跌,《哪吒2》冠軍位保不住了

上映5天票房破31億,《阿凡達(dá)3》逆跌,《哪吒2》冠軍位保不住了

易昂楊
2025-12-25 13:26:29
“中國宜家”崩了,創(chuàng)始人套現(xiàn)200億離場,美的太子接盤血虧?

“中國宜家”崩了,創(chuàng)始人套現(xiàn)200億離場,美的太子接盤血虧?

蜉蝣說
2025-12-23 20:00:55
突發(fā)!多家4S店暫停營業(yè),全員放假!

突發(fā)!多家4S店暫停營業(yè),全員放假!

電動(dòng)知家
2025-12-27 09:22:12
廣東一工業(yè)區(qū)廠房突發(fā)火災(zāi),現(xiàn)場濃煙滾滾,燃燒近5小時(shí)!最新通報(bào)

廣東一工業(yè)區(qū)廠房突發(fā)火災(zāi),現(xiàn)場濃煙滾滾,燃燒近5小時(shí)!最新通報(bào)

大象新聞
2025-12-27 12:45:02
吳石犧牲,“諜王”徐會之在臺選擇自首,多年后發(fā)現(xiàn)這是頂級陽謀

吳石犧牲,“諜王”徐會之在臺選擇自首,多年后發(fā)現(xiàn)這是頂級陽謀

云霄紀(jì)史觀
2025-12-27 15:50:13
小米YU7車主TICC再發(fā)聲:因車禍截肢,與女友婚事作廢,大感遺憾

小米YU7車主TICC再發(fā)聲:因車禍截肢,與女友婚事作廢,大感遺憾

娜烏和西卡
2025-12-26 17:09:13
為報(bào)戰(zhàn)友救命之恩,我娶了他38歲的姐姐,結(jié)婚2年我才發(fā)現(xiàn)她身份

為報(bào)戰(zhàn)友救命之恩,我娶了他38歲的姐姐,結(jié)婚2年我才發(fā)現(xiàn)她身份

蕭竹輕語
2025-12-12 16:25:15
5艘航母云集中國近海,中美巔峰對陣,特朗普明牌,逼著中國接招

5艘航母云集中國近海,中美巔峰對陣,特朗普明牌,逼著中國接招

現(xiàn)代小青青慕慕
2025-12-26 14:42:10
中俄大后方生變?普京發(fā)狠,中國已經(jīng)做好打算,蒙古國被踢出局?

中俄大后方生變?普京發(fā)狠,中國已經(jīng)做好打算,蒙古國被踢出局?

小莜讀史
2025-12-27 19:42:52
食堂承包商舉報(bào)校領(lǐng)導(dǎo)兩年拿走300多萬現(xiàn)金,官方回應(yīng):已組成聯(lián)合調(diào)查組,盡快查清事實(shí),依規(guī)依紀(jì)依法處理

食堂承包商舉報(bào)校領(lǐng)導(dǎo)兩年拿走300多萬現(xiàn)金,官方回應(yīng):已組成聯(lián)合調(diào)查組,盡快查清事實(shí),依規(guī)依紀(jì)依法處理

新京報(bào)政事兒
2025-12-26 20:23:02
“大傻”去世14年后,兒子入獄孫子身亡:有件事他騙了我們好多年

“大傻”去世14年后,兒子入獄孫子身亡:有件事他騙了我們好多年

小熊侃史
2025-12-26 11:26:05
最高檢領(lǐng)導(dǎo)有調(diào)整

最高檢領(lǐng)導(dǎo)有調(diào)整

新京報(bào)
2025-12-27 20:35:09
江蘇首富嚴(yán)昊:身價(jià)千億,迎娶著名女歌星,克林頓親自來出席婚禮

江蘇首富嚴(yán)昊:身價(jià)千億,迎娶著名女歌星,克林頓親自來出席婚禮

阿柒的訊
2025-12-26 15:16:44
全球最精確預(yù)言家:2026,歷史性的一年, 能說的都在這里

全球最精確預(yù)言家:2026,歷史性的一年, 能說的都在這里

神奇故事
2025-12-24 23:34:15
中國駐墨西哥使館:奉勸納瓦羅之流認(rèn)真反思錯(cuò)誤,停止自欺欺人的表演

中國駐墨西哥使館:奉勸納瓦羅之流認(rèn)真反思錯(cuò)誤,停止自欺欺人的表演

環(huán)球網(wǎng)資訊
2025-12-27 06:43:19
大量博物館的閉館通知,元旦假期馬上來了為什么要閉館?

大量博物館的閉館通知,元旦假期馬上來了為什么要閉館?

歷史總在押韻
2025-12-26 21:34:35
2025-12-27 21:03:00

團(tuán)結(jié)湖參考 incentive-icons
團(tuán)結(jié)湖參考
國內(nèi)頂尖的時(shí)政新聞評論
915文章數(shù) 57408關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

親子
時(shí)尚
家居
旅游
公開課

親子要聞

1歲多的小朋友上托管班,吃飯時(shí)自己拿起勺子就“開炫”,網(wǎng)友:這小孩是來報(bào)恩的吧

穿好雪地靴的4個(gè)訣竅,還挺有效!

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

旅游要聞

城市徒步新玩法!徐家匯“博物行”首發(fā),7條路線把都市變戶外博物館

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版