網易首頁 > 網易號 > 正文申請入駐

DeepSeek不僅是中國的，更是世界的

2025-02-05 13:20:35　來源: 量子學派

廣東舉報

分享至

重大通知，請務必點擊！

因微信推送規(guī)則改版

設為“置頂”才能正常收到推文

① 點擊公眾號主頁

② 點擊右上角“···”

③點擊“置頂服務號”

我們本是少數，

更應該永遠在一起！

2025 新春來臨，

首先向大家送上新年祝福。

在這個新的開端，最引人注目的，當屬DeepSeek所引發(fā)的巨大波瀾。

DeepSeek 的迅速崛起令人矚目，它的影響力廣泛傳播，不僅成為白宮圓桌會議上嚴肅探討的議題，也在杭州咖啡館里成為人們津津樂道的話題，甚至成為全球股市做多與做空的攻防標的。

一場圍繞著技術與文明歸屬的全球風暴正以DeepSeek 為中心，在太平洋兩岸轟轟烈烈地展開。

面對 DeepSeek 的橫空出世，各界反應截然不同。

有人視其為東方智慧的突圍，有人警惕其為規(guī)則破壞的威脅，而華人社區(qū)的爭論更顯撕裂——既有民族自豪的歡呼，亦有對"技術捷徑"的尖銳質疑。

風暴中心的DeepSeek，恰似一面棱鏡。折射出的不僅是地緣博弈的暗流，更是人類智慧跨越疆界的璀璨光譜，映照出人性幽深處難以捉摸的復雜。但有一點不要忘記，DeepSeek 的誕生絕不是單一國家的成果，它不僅是中國的驕傲，更是全人類智慧合作的結晶。

Transformer 基礎架構未變

DeepSeek 模型基于谷歌公司于 2017 年提出的 Transformer 架構，并未實現從0到1的顛覆性基礎理論創(chuàng)新，但其在模型算法和工程優(yōu)化方面的系統級創(chuàng)新卻不容小覷。其算法和工程創(chuàng)新主要包括了MoE專家模型、低秩注意力機制、強化學習、小模型蒸餾、FP8混合精度等工程創(chuàng)新。

很多理論早就有了，但DeepSeek是第一個將這些理論進行工程實踐，就算不是從0到1，也可以說是從1到100的突破。

混合專家架構（MoE）

混合專家架構（Mixture of Experts，MoE）最早由谷歌提出，旨在通過動態(tài)激活部分網絡參數來提高深度學習模型的計算效率。DeepSeek采用了這一架構，通過將網絡參數分成多個“專家”，每次推理時只激活部分專家，降低了計算資源消耗，在不增加計算成本的前提下處理更復雜的任務。

這是一個典型的全球合作成果，科學家們跨越多個學科，從算法到硬件的優(yōu)化共同推動了這一技術的發(fā)展。

多頭潛在注意力（MLA）機制

多頭注意力機制（MultiHead Attention，MHA）是Transformer架構的重要組成部分，應用于自然語言處理任務。DeepSeek在此基礎上發(fā)展出了多頭潛在注意力機制（MLA），通過低秩聯合壓縮技術優(yōu)化了鍵值（KV）矩陣，從而顯著減少了內存消耗并提高了推理效率。

MLA的核心思想是通過“潛在向量”來表達信息，避免了傳統注意力機制中的高維數據存儲問題。不管怎樣黑，這在工程實踐方面是一個突破。

多Token預測（MTP）訓練目標

傳統的訓練目標通常是逐個生成Token，逐步推理。而多Token預測（MTP）技術則通過在訓練階段一次性預測多個Token，顯著提高了訓練速度并加速了模型的收斂過程。

DeepSeek引入這種方法，進一步提升了其在大規(guī)模數據集上的訓練效率，尤其是在長文本的生成任務中，大大減少了計算資源的消耗。

FP8混合精度訓練框架

FP8結合了數值分析、計算機架構優(yōu)化和機器學習算法的最新進展，混合精度訓練技術通過減少浮點數的精度要求（從傳統的FP16或FP32到FP8），降低了內存需求并加速了計算過程。

這項技術能夠在不顯著損失模型精度的情況下，顯著提高訓練速度。DeepSeek的成功表明，混合精度訓練框架可以在大規(guī)模深度學習任務中提供更高效的解決方案。

放棄微調擁抱“強化學習”

DeepSeek與OpenAI的o系列看起來的做法相比，在對待監(jiān)督學習上更加激進。這也是參考了OpenAI的進化步驟，模型的重點從“語言交互”變成“數理邏輯”，前者是有大量的現成的數據的，但后者很多都是停留在腦子里的抽象思考。

但強化學習也是多年前的產物了，只是DeepSeek做得更極致。

長上下文處理能力“更進一步”

長上下文處理能力是自然語言處理技術的一個重要里程碑。它結合了深度學習中的長短期記憶（LSTM）網絡和Transformer架構的優(yōu)勢，DeepSeek能夠處理長達128K的上下文長度，這一技術突破使得DeepSeek在處理長篇文章、技術文檔等復雜內容時展現出強大的能力。

為了實現這一目標，DeepSeek在模型架構和優(yōu)化算法上做出了巨大努力

開源的DeepSeek是給全世界的禮物

DeepSeek采取了完全開源的策略，通過MIT許可協議公開其模型和技術報告。

這是非常了不起的，我自己早期也做過一些技術項目，說實在的，當你投入了那么高的成本后，就算是讓項目死亡，大部分人也不愿意開源的，憑什么呢？不要以為做這個決定容易，特別是一個小公司，因為它開源之后很有可能最終被大公司給取代。所以說DeepSeek是給全世界的禮物，這一決策將激發(fā)無數科研人員和工程師的創(chuàng)新。

蒸餾的爭議被過于放大了

OpenAI指控DeepSeek通過“蒸餾”技術，未經授權地利用其模型輸出數據來訓練自己的模型，涉嫌侵犯知識產權。

還有張圖描述 DeepSeek 從 OpenAI 的 “專屬領地” 獲取數據，可 OpenAI 在互聯網上廣泛抓取數據，難道就合規(guī)合理、毫無爭議？DeepSeek 選擇向全球開源，把成果回饋大眾，這才是真正的普惠精神。雖然存在一些爭議，但還沒有嚴重到被“千夫所指”的程度。

懂技術的人應該明白，訓練模型蒸餾語料信息很正常，甚至可以說互相蒸餾是一種必然，其實你用最新的O3模型也在蒸餾DeepSeek中文語料。

DeepSeek的技術是遠強于“教師模型”的，如果只依靠“蒸餾”不可能做到現在這樣的推理能力的。

多語言支持“AI大同世界”

DeepSeek不僅支持自然語言的理解與生成，還支持多種編程語言的處理。通過廣泛的數據訓練和復雜的算法優(yōu)化，DeepSeek能夠在多種語言的上下文中提供高效的解答。

也許有一天，在DeepSeek的基礎上，印度工程師可以用梵語詩律重構LSTM的時間箭頭，瑪雅后裔能將太陽歷法編碼成時序預測的傅里葉變換，埃及學者同樣能在MoE架構中，破譯象形文字與神經網絡的同源基因。

低訓練成本解放“中小公司”

DeepSeek通過優(yōu)化模型架構和訓練策略，成功將其訓練成本控制在557萬美元左右，相比其他同類大模型，成本顯著較低。

當然這里存在一些爭議，很多大模型公司提出懷疑，但幻方量化就算管理著千億基金，但那是人家的錢，能拿出20個億搞大模型就不得了。

還有人聲稱其背后有神秘力量支持，但如果沒有自身的努力，又怎能讓人們相信這樣一家量化公司有這樣的技術能力呢？”

所以DeepSeek低訓練成本大致是可信的，不過低到557萬美元就看人家怎么計算了。但最起碼在硬件加速技術、算法優(yōu)化和資源管理等多方面一定有創(chuàng)新。這給中小公司提供了榜樣和動力。

以上，是從一些爭議點來談為什么DeepSeek是中國的同時也是世界的，當然要理解這些爭議，同時希望DeepSeek更強大。

少談“國運”多談“世界”

少談國運，多談世界。

從技術的角度來看，DeepSeek實際上是全球共享的技術創(chuàng)新，它的起點是這個世界。同時它又通過開源策略、MIT許可協議發(fā)布其模型和技術報告，反饋給這個世界。

動輒談國運，反而使得DeepSeek的民族主義情緒太強烈，引發(fā)更多的對抗。這樣的大模型技術，一定是全世界的合力。

算力限制與逆全球化問題

有人猜測說DeepSeek 在算力上使用了英偉達的最新 GPU，美國政府也正在調查新加坡是否存在對接管道。就算這是真的，可這是 DeepSeek 的原罪嗎？這難道不是美國搞逆全球化的錯？

算力的全球流動性受到政治力量的影響，指責DeepSeek在這一點上的“責任”并不公正，技術的全球化應該是開放的，而不應該受到政治因素造成的封鎖。

幻想不是DeepSeek的錯，而是你的錯

有一些用戶指責 DeepSeek 幻想、胡編亂造，進而認為 DeepSeek 有問題。

其實這是你自己的問題，生成式AI的本質就是“幻想”，你怎么可能要求它說的完全準確呢？如果你用過其他GPT的話絕不可能說這樣的話。

生成式AI的能力是通過概率和模型推理的結果，因此無法完全保證準確無誤。正如使用GPT的用戶都明白，生成式AI有其局限性，它的判斷和輸出也受限于輸入數據和訓練過程中的假設。完全依賴AI輸出并將其作為最終答案的做法是不科學的，用戶應該保持批判性思維和審慎態(tài)度。
如果你幻想AI能夠“完美”輸出內容，或將其視為無誤的全知全能工具，是一種愚蠢的看法。

也就是說這是你的錯，不是DeepSeek的錯。

理解“隱私和數據保護”和

“國家安全和倫理擔憂”

歐洲隱私調查：

意大利數據保護機構Garante因DeepSeek未能充分回應其隱私政策問題，已下令在意大利封禁其聊天機器人。

美國封禁：

海軍已禁止其成員使用DeepSeek，理由是潛在的安全和倫理問題。

澳大利亞禁令：

政府因國家安全擔憂，已禁止在政府設備上使用DeepSeek。

這樣的擔心是正常的，因為沒有人知道 DeepSeek 的官方數據權限是如何設置的。不過，由于 DeepSeek 已經開源，這些政府和機構可以將模型下載到本地再運行。

量化技術沒有原罪，請講邏輯

量化交易技術本身并非錯誤，而是制度設計存在問題。

很多人嘲笑DeepSeek,因為它的后面是幻方量化公司，所以它是有原罪的。

這種邏輯實在難以理解，然而持這種觀點的人卻不在少數。

量化交易作為一種依賴于數學模型和計算機技術的交易方式，旨在制定能帶來超額收益的多種 “大概率” 事件策略，避免了在市場極度狂熱或悲觀的情況下作出非理性的投資決策。

在規(guī)則制度內合規(guī)交易時，量化交易不僅可以為市場提供流動性，還能更好地實現價值發(fā)現功能。

但如果制度設計不完善，個別 “變味” 的量化交易可能涉嫌操縱股價、助漲助跌，擾亂市場秩序，不利于市場穩(wěn)定。

但這是量化的錯嗎？難道是菜刀的錯嗎？

我們的邏輯要清晰！

世界開始接入DeepSeek模型

不管爭議有多大，世界正在接入DeepSeek模型：

微軟的Azure平臺：

微軟將DeepSeek的R1 AI模型集成到其Azure云平臺和GitHub開發(fā)者工具中。

亞馬遜Web Services（AWS）：

亞馬遜宣布在其AWS平臺上提供DeepSeek的R1模型，用戶可以通過AWS的基礎設施訪問和使用該模型。

英偉達也在它的平臺里接入了DeepSeek的R1 AI模型，但使用體驗欠佳。

而在國內，眾多大公司也紛紛開啟與 DeepSeek 的對接工作，一場全球范圍內的技術融合浪潮正洶涌澎湃地展開。

這種廣泛的技術傳播與應用，無疑是 DeepSeek 在國際 AI 領域強大影響力的有力證明。

DeepSeek要勇敢往前走

在贊揚與指責的交織聲中，DeepSeek 更應堅定地踏上獨立發(fā)展的道路，勇敢地向技術深處進軍。

技術的進步需要自由的探索空間，政府應減少不必要的干預，讓 DeepSeek 能夠在市場的海洋中自由遨游，成長為真正的世界級大模型。

我們生活在一個快速發(fā)展的時代，不應陷入不懂裝懂的困境，尤其是在安全審查和意識形態(tài)等方面，不應成為技術發(fā)展的阻礙。

如今的中國，已然具備足夠的自信，TikTok 在全球的風靡，以及 DeepSeek 在技術領域的突破，都深刻印證了市場化的強大力量。

DeepSeek不僅屬于中國，更屬于全世界。

DeepSeek走到今天，是站在巨人的肩膀上。
不僅僅是國外大模型，國內其它模型也做出了貢獻。
干翻全世界這樣的話要少說，毫無意義。
如果你真的支持它，那就多用，讓數據的飛輪轉動起來。
但如果你沒有用過，也試著先去用用再批判。

在GitHub的commit記錄中，DeepSeek被fork自倫敦到巴黎；

在APP競賽排行榜上，DeepSeek占據著從悉尼到舊金山的榜首位置;

這些事實印證著一個真理：

所有卓越的科學技術，

從誕生之初就是屬于全人類。

我用DeepSeek自己寫的一段話來總結：

DeepSeek的參數海洋里

既奔涌著《山海經》的創(chuàng)世神話

也交融著阿拉伯數字的血脈

同樣融合了歐美先賢的靈光

最終熔鑄成跨文明跨種族的

《禮記大同》AI協作憲章

終有一天

全世界的偏見終將如風沙般消散

唯有那自由生長的1530億參數豐碑

永遠銘刻著東方古國

以《墨子》"兼愛"之道

為硅基人類鑄就的算法九鼎

燃燒吧，DeepSeek點亮的開源之火

重燃《絲綢之路》的文明互鑒

照亮全球大模型新的進化之路！

多么優(yōu)秀的中文文本能力，怎能不喜歡呢？

為什么要在此時做出非此即彼的選擇？

DeepSeek不僅屬于中國，更屬于全世界。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.