国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek連夜刪新論文,梁文鋒到底怕什么|深度

0
分享至

來源:市場資訊

(來源:智能紀元AGI)


5月1日消息,今天AI領(lǐng)域的最大事件,無疑是DeepSeek刪論文的消息。

昨天,DeepSeek多模態(tài)團隊負責(zé)人陳小康宣布灰度基于多模態(tài)模型技術(shù)的“識圖模式”,以及在GitHub平臺上傳了一篇長達25頁的多模態(tài)研究論文:

《Thinking with Visual Primitives》(用視覺基元思考)。

然而,到了今晨,陳小康的推文刪了,這篇多模態(tài)研究論文也撤了、GitHub庫也404了。


在未刪除之前,我把這篇論文下載并且讀完了。

我靜下心把整篇內(nèi)容捋完之后,反倒有了不一樣的感受。

你以為,這是簡單DeepSeek的識圖模式論文,但其實,這篇論文映射出DeepSeek揭露了行業(yè)的發(fā)展趨勢:

多模態(tài)AI模型的下一階段競爭重點,可能從單純的“看得更清”轉(zhuǎn)向“思考時能精確指向”。通過將坐標嵌入思維鏈,多模態(tài)模型模仿了人類“邊指邊想”的協(xié)同機制,為解決復(fù)雜空間結(jié)構(gòu)化推理提供了一條新穎路徑——最終其實也要走向世界模型。

值得一提的是,就在8小時前,DeepSeek正式公布了Agent接入指南,親手教大家接入OpenClaw、Hermes等方式,深入到Agent技術(shù)層面。


所以,在我看來,DeepSeek連夜刪論文,刪除的原因不是“論文有問題”,實際可能是灰度下重新修正“識圖模式”的能力,以及這篇論文可能太超前,透露太多了。很多數(shù)據(jù)需要重新進行查驗和修正,并且有望重新上傳到arxiv上。

越往后深入了解,越能體會到這次DeepSeek V4以及多模態(tài)新模型的含金量,也真切感覺到AI行業(yè)的技術(shù)迭代。

實際上,梁文鋒一直都在悄悄提速,AI技術(shù)的真正核心突破往往都藏在這種技術(shù)論文里。


DeepSeek新論文到底講了什么?

先做總結(jié)。

這篇DeepSeek已撤回的多模態(tài)研究論文《Thinking with Visual Primitives》,核心在于探討自然語言模型到視覺等多模態(tài)模型的瓶頸和變化,從而揭示DeepSeek多模態(tài)領(lǐng)域的新研究方向:

從單純的“看得更清”,轉(zhuǎn)向“推理思考時能精確指向”。

換句話說,未來模型既有AI聊天和深度研究,而且還能用AI大模型技術(shù)(非OCR)識別圖像視頻中的核心信息。

而通過將坐標嵌入思維鏈,DeepSeek的多模態(tài)模型模仿了人類“邊指邊想”的協(xié)同機制,這將解決世界模型、3D空間的結(jié)構(gòu)化推理等方向。提供了一條新穎而有效的路徑。

下面再基于這篇已刪新技術(shù)報告,具體看看DeepSeek、北京大學(xué)、清華大學(xué)又創(chuàng)造了怎樣的奇跡。

首先,大型語言模型(LLMs)與計算機視覺的融合,開啟了多模態(tài)大型語言模型時代,使其具備了復(fù)雜的場景理解能力。然而,當我們推動這些模型進行復(fù)雜的推理,當前范式的一個根本性局限便顯現(xiàn)出來。

盡管這些模型的內(nèi)部推理(通常以思維鏈的形式呈現(xiàn))在語言領(lǐng)域已變得越來越穩(wěn)健,但它與視覺領(lǐng)域在很大程度上仍然是割裂的。而當前多模態(tài)模型主要解決的是感知差距。

然而,“看見”不等于“推理”。

即使擁有完美的感知能力,多模態(tài)大模型在處理涉及復(fù)雜空間布局或密集物體交互的任務(wù)時,仍常常遭遇邏輯崩潰。在密集計數(shù)或多步驟空間推理等場景中,模型的“語言”思維會失去對其試圖指代的視覺實體的追蹤,從而導(dǎo)致連鎖幻覺。

因此,DeepSeek聯(lián)合北京大學(xué)和清華大學(xué),提出一種范式轉(zhuǎn)變:基于視覺基元進行思考。

團隊超越將視覺定位視為次要任務(wù)或最終輸出的傳統(tǒng)做法,將空間標記——點和邊界框——提升為“思維的最小單元”,直接交錯嵌入模型的推理軌跡中。

這一機制從人類的認知過程中汲取靈感。當人類在復(fù)雜迷宮中導(dǎo)航或清點密集物體時,會自然地運用指示性指針(例如手勢)來降低認知負荷并保持邏輯一致性。

這項工作以DeepSeek剛發(fā)布的V4-Flash為語言主干。該模型混合專家模型(MoE)擁有284B 總參數(shù)、推理時激活 13B 參數(shù),視覺編碼部分則使用DeepSeek自研的視覺Transformer ViT,支持任意分辨率輸入。

通過將視覺基元交錯融入思考過程,這個模型模仿了這種“指向?推理”的協(xié)同作用,有效地將抽象的語言思維錨定到具體的空間坐標上。此外,該模型框架建立在架構(gòu)高效的基礎(chǔ)之上,專為高吞吐、長上下文的多模態(tài)交互而設(shè)計。與依賴海量視覺標記序列來彌補視覺缺陷的傳統(tǒng)方法不同,我們的模型利用壓縮稀疏注意力技術(shù),它將每個視覺標記的鍵值緩存壓縮為單一條目。

總結(jié)這個研究報告的三個創(chuàng)新點:

第一大核心創(chuàng)新,是重構(gòu)視覺推理邏輯,把坐標與邊界框做成可實時參與思考的思維單元。

傳統(tǒng)模型先推理、后補坐標,屬于事后標注;但該模型全程在思維鏈中同步框選、打點定位,用空間錨點鎖定邏輯路徑,避免推理跑偏,同時配套點、框兩類標準視覺原語,適配各類復(fù)雜視覺場景定位需求。

第二項硬核創(chuàng)新為超高倍率視覺輕量化壓縮,通過圖像分塊編碼、多層空間降采樣與壓縮稀疏注意力聯(lián)動優(yōu)化,整體達成7056倍視覺信息壓縮。大幅削減KV緩存占用,顯存開銷遠低于同類旗艦?zāi)P停龅娇吹脺、開銷低,高效平衡視覺表征精度與推理落地算力成本。

第三項關(guān)鍵創(chuàng)新,是全流程的高校數(shù)據(jù)定制化搭建,搭配專屬進階訓(xùn)練體系。團隊嚴控數(shù)據(jù)源篩選雙重審核標準,首先爬取了近 10 萬個與目標檢測相關(guān)的數(shù)據(jù)集,經(jīng)過兩輪嚴格篩選(語義審核和幾何質(zhì)量審核),最終保留約 3.17 萬個高質(zhì)量數(shù)據(jù)源,生成超過 4000 萬條訓(xùn)練樣本。

在針對性設(shè)計的計數(shù)、多跳空間問答、迷宮導(dǎo)航、曲線路徑追蹤四個任務(wù)中,該模型專門補齊拓撲空間推理短板。而且,團隊采用先分訓(xùn)專家模型、再統(tǒng)一強化微調(diào)的分體融合訓(xùn)練策略,搭配多維精細化獎勵機制與在線策略蒸餾優(yōu)化,穩(wěn)步提升模型視覺理解穩(wěn)定性,強化復(fù)雜場景下的綜合推理適配能力。


測試成果層面,DeepSeek團隊在11個基準測試上進行了評測,與谷歌Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、谷歌Gemma4-31B、阿里Qwen3-VL-235B等主流模型對比,DeepSeek新的視覺模型,與其他海外模型差距懸殊,并且超越了阿里Qwen3-VL-235B。





DeepSeek多模態(tài)識別的圖片顯示,DeepSeek視覺模型在Pixmo-Count(精確匹配)上得分89.2%,超過Gemini-3-Flash的88.2%、GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。

在空間推理的多個基準上,整體表現(xiàn)與頭部模型持平或略有超越,在 MIHBench(85.3%)和 SpatialMQA(69.4%)上均排名第一。

在拓撲推理的迷宮導(dǎo)航(DS_Maze_Navigation)任務(wù)上,該模型得分66.9%,而GPT-5.4為50.6%、Gemini-3-Flash為49.4%、Claude Sonnet 4.6 為 48.9%,新模型提升了約17個百分點。


不過目前,DeepSeek灰度“識圖模式”功能的用戶太少,包括我在內(nèi)都沒辦法使用,只能說用普通模式、專家模型識別一些簡單圖片。

猜測五一假期之后,DeepSeek可能還會上很多新功能。


梁文鋒想的AGI到底是什么:物理世界AI

總結(jié)來說,這篇論文完全體現(xiàn)出DeepSeek未來發(fā)展節(jié)奏,絕對不是單純的多模態(tài)視覺識別,而是瞄準了更大的發(fā)展前奏——物理世界AI。

最近,世界模型和物理AI是模型層新的發(fā)展趨勢。

我也是總結(jié)了最近幾天發(fā)布的模型,發(fā)現(xiàn)大家10天發(fā)布了10款A(yù)I基礎(chǔ)模型,其中80%來自中國企業(yè)。

  • 20日:Kimi K2.6發(fā)布;Qwen3.6 27B系列模型測試結(jié)果陸續(xù)出來。

  • 21日:螞蟻Ling 2.6 Flash模型發(fā)布;Qwen3.6 35B A3B推理和非推理模型開始在各大算力平臺測試;

  • 23日:OpenAl GPT-5.5模型公布,小米Xiaomi MiMo-V2.5系列大模型正式開啟公測;騰訊混元Hy3-preview 推理模型發(fā)布;

  • 24日:DeepSeek V4 Pro和DeepSeek V4 Flash系列模型發(fā)布;

  • 28日:IBM Granite 4.1模型基準測試公布;小米Mimo-V2.5 Pro正式發(fā)布。

  • 30日:Ling 2.6 -1T基礎(chǔ)模型正式開源;DeepSeek上線識圖模式開啟灰測。

目前來看,無論是Kimi K2.6,還是DeepSeek V4系列,顯示出今年基礎(chǔ)模型層最大的三個方向:Agent智能體、Coding編程能力、多模態(tài)和世界模型技術(shù)。

一個例子就是Kimi。

近期,月之暗面Kimi發(fā)布并開源的Kimi K2.6模型,在通用Agent、代碼、視覺理解等綜合能力全面提升,在多個基準測試優(yōu)于或持平GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等閉源模型。

而Kimi K2.6長程編碼能力得到顯著提升,在測試中可不間斷編碼13小時,編寫或修改超過4000行代碼。同時大幅增強了Agent自主化執(zhí)行能力,由 K2.6 模型驅(qū)動的Agent集群架構(gòu),支持300個子Agent并行完成4000個協(xié)作步驟,實現(xiàn)更大規(guī)模的并行化。

針對高負載工作流與OpenClaw、Hermes Agent等主動式Agent框架,K2.6具備自動化任務(wù)處理能力,支持長達5天的持續(xù)自主運行。

簡單來說,現(xiàn)在很多模型,增加了Agent和世界物理AI的功能和適配。

但DeepSeek這套視覺多模態(tài)模型其實還比較落后,原因在于DeepSeek之前沒往多模態(tài)層面考量,更多還是在語言模型層面實現(xiàn)AGI。

值得一提的是,論文也提出了一些局限性:

1、受限于圖片輸入分辨率,模型在超高精細視覺場景中表現(xiàn)不佳,容易出現(xiàn)坐標、點位等視覺思維單元標注不準的問題,后續(xù)可結(jié)合感知缺口優(yōu)化算法聯(lián)動優(yōu)化補足短板。

2、核心視覺思維推理能力依賴專屬觸發(fā)詞才能啟用,無法自主讀懂場景需求、主動調(diào)用坐標框選推理機制,智能自適應(yīng)適配性有待提升。

3、用單點坐標處理高難度復(fù)雜拓撲推理難題時能力偏弱,跨場景泛化穩(wěn)定性不足,同類能力很難靈活適配多樣化復(fù)雜空間任務(wù),也是后續(xù)技術(shù)迭代重點攻堅方向。

因此,新的研究成果并非真正意義的物理AI、世界模型,也不是完全的多模態(tài)識別,其頂多是DeepSeek OCR 2和V4的結(jié)合體。

這或許是DeepSeek提前撤下論文的原因之一。

2500年前,古希臘哲學(xué)家普羅泰戈拉提出:“人是萬物的尺度!

這句話的真正含義是,世界本身沒有固有價值,所有意義與判斷,都由人的感知與思考來定義。

而DeepSeek這篇論文想要揭示的核心趨勢,正是 AI 視覺能力的一次本質(zhì)躍遷:從只會 “看清畫面”,升級為思考時精準定位、理解空間、判斷價值。

未來十年,AI一定會深度重塑工作方式、改變產(chǎn)業(yè)格局、重構(gòu)生活節(jié)奏。

但無論技術(shù)如何進化,人類獨有的情感、經(jīng)驗創(chuàng)造力與同理心,永遠無法被算法替代。

人的價值,來自真實的生活閱歷;人與人之間的情感連接,才是我們愿意彼此關(guān)心、持續(xù)前行的根本理由。

因此,無論 AI 如何飛速發(fā)展,有一件事永遠不會改變:

我們依然需要珍惜身邊真實的關(guān)系,保有真實的內(nèi)心感受,理性適應(yīng)技術(shù)變化,不斷去探索人類最本質(zhì)的力量 ——創(chuàng)造價值、感知意義、彼此相連。

五一節(jié)快樂。

?本文為智能紀元AGI(weixin6060000)原創(chuàng)內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
女子找到工作月薪12000,僅面試一次老板就同意,入職兩天沒人理

女子找到工作月薪12000,僅面試一次老板就同意,入職兩天沒人理

丫頭舫
2026-05-01 22:17:59
上映多時票房只有零元,一個觀眾都沒有,五一檔最慘電影誕生了

上映多時票房只有零元,一個觀眾都沒有,五一檔最慘電影誕生了

影視高原說
2026-05-01 08:47:30
山西猥褻當事人法官已被免職

山西猥褻當事人法官已被免職

界面新聞
2026-05-02 10:23:49
全球賣瘋的無人機,北京為何禁售?

全球賣瘋的無人機,北京為何禁售?

碳基打工人
2026-05-01 02:41:19
新周期下的價值錨點:廣汽傳祺如何重構(gòu)家庭出行的“長期資產(chǎn)”?

新周期下的價值錨點:廣汽傳祺如何重構(gòu)家庭出行的“長期資產(chǎn)”?

智谷趨勢
2026-05-01 18:18:23
煥然一新的廣汽傳祺,完成從造好車到提供美好出行生活的戰(zhàn)略升維

煥然一新的廣汽傳祺,完成從造好車到提供美好出行生活的戰(zhàn)略升維

汽車公社
2026-04-29 14:11:28
上海男籃4分惜!結(jié)束23連勝,洛夫頓正式回歸,沖擊總冠軍

上海男籃4分惜!結(jié)束23連勝,洛夫頓正式回歸,沖擊總冠軍

體壇瞎白話
2026-05-02 08:03:09
王健林時代落幕,輸給了這個靠趙薇起家、截胡許家印的湖北富豪!

王健林時代落幕,輸給了這個靠趙薇起家、截胡許家印的湖北富豪!

歷史偉人錄
2026-04-29 17:41:50
萬科這顆雷,炸出了地鐵公司的真面目

萬科這顆雷,炸出了地鐵公司的真面目

梳子姐
2026-05-01 21:31:42
我國急需改名的5座城市,起名太隨意,連本地人也吐槽名字有點土

我國急需改名的5座城市,起名太隨意,連本地人也吐槽名字有點土

長風(fēng)文史
2026-04-30 22:08:50
再創(chuàng)歷史!張雪機車匈牙利排位賽雙車“驚艷”,53號64號進前10位

再創(chuàng)歷史!張雪機車匈牙利排位賽雙車“驚艷”,53號64號進前10位

火山詩話
2026-05-02 06:40:58
很是焦灼,東部三組系列賽均將迎來搶七大戰(zhàn)

很是焦灼,東部三組系列賽均將迎來搶七大戰(zhàn)

懂球帝
2026-05-02 11:37:04
年薪5470萬,又一次受傷倒下!一輪恥辱的系列賽,8換1交易虧大了

年薪5470萬,又一次受傷倒下!一輪恥辱的系列賽,8換1交易虧大了

籃球掃地僧
2026-05-02 11:20:17
7-7!吳宜澤第2階段遭5連鞭后頑強逼平艾倫,袋口僵局1小時創(chuàng)紀錄

7-7!吳宜澤第2階段遭5連鞭后頑強逼平艾倫,袋口僵局1小時創(chuàng)紀錄

我愛英超
2026-05-02 06:24:08
上海申花遭暴擊!蓋伊左腳跟腱斷裂,將接受手術(shù),或長期缺席

上海申花遭暴擊!蓋伊左腳跟腱斷裂,將接受手術(shù),或長期缺席

奧拜爾
2026-05-02 10:36:52
黑八!黑八沒了!末節(jié)8分!史上最荒唐季后賽

黑八!黑八沒了!末節(jié)8分!史上最荒唐季后賽

籃球?qū)崙?zhàn)寶典
2026-05-02 10:04:33
橘子洲頭單人照事件。

橘子洲頭單人照事件。

貼小君
2026-05-01 13:23:12
美專家無奈承認:我們沒打贏伊朗,但是中國、俄羅斯、朝鮮都贏了

美專家無奈承認:我們沒打贏伊朗,但是中國、俄羅斯、朝鮮都贏了

風(fēng)笛悠揚聲
2026-05-01 14:12:25
中國劃定紅線,叫!跋丛枋匠龊!

中國劃定紅線,叫!跋丛枋匠龊!

中國網(wǎng)
2026-05-02 08:35:02
慘無人道!以軍用軍犬強奸巴勒斯坦囚犯,全程錄像,受害者:想死

慘無人道!以軍用軍犬強奸巴勒斯坦囚犯,全程錄像,受害者:想死

史行途
2026-05-01 12:29:39
2026-05-02 11:52:49
新浪財經(jīng) incentive-icons
新浪財經(jīng)
新浪財經(jīng)是一家創(chuàng)建于1999年8月的財經(jīng)平臺
3094979文章數(shù) 7067關(guān)注度
往期回顧 全部

科技要聞

AI熱潮耗盡庫存,Mac Mini起售調(diào)高200美元

頭條要聞

德國學(xué)者:歐盟現(xiàn)在必須"拿出點骨氣" 挺身對抗特朗普

頭條要聞

德國學(xué)者:歐盟現(xiàn)在必須"拿出點骨氣" 挺身對抗特朗普

體育要聞

坎寧安大逆轉(zhuǎn):像看到了2006-08的勒布朗

娛樂要聞

白百何罕曬大兒子 18歲元寶越來越帥

財經(jīng)要聞

雷軍很努力 小米還是跌破了30港元大關(guān)

汽車要聞

新紀錄!零跑汽車4月交付達71387臺

態(tài)度原創(chuàng)

本地
房產(chǎn)
親子
游戲
數(shù)碼

本地新聞

用青花瓷的方式,打開西溪濕地

房產(chǎn)要聞

所有戶型全賣爆!?赥OP級豪宅,景觀樣板間五一全線開放!

親子要聞

五一快樂,今天在家里遛娃,發(fā)現(xiàn)小區(qū)里最好的風(fēng)景

育碧《黑旗RE》地圖大小沒變 但內(nèi)容密度直接拉滿!

數(shù)碼要聞

英特爾為酷睿Ultra 9 386H解鎖LPDDR5X-9600支持,雷蛇導(dǎo)入

無障礙瀏覽 進入關(guān)懷版