国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek新論文被稱“硅基生命進(jìn)化論”,海量文字壓縮成圖,模仿人腦重塑AI視覺記憶邊界,贏硅谷大佬力挺

0
分享至



出品|搜狐科技

作者|鄭松毅

DeepSeek再次“低調(diào)”震驚世界!

他們新發(fā)布并開源的OCR模型,從根本上改變了AI游戲規(guī)則。Github開源項(xiàng)目DeepSeek-OCR,一夜收獲超4k星。相關(guān)論文(《DeepSeek OCR:上下文光學(xué)壓縮》)解釋了這一研究成果。

很多人好奇,什么是OCR?

傳統(tǒng)OCR如同“文字掃描儀”,通過光學(xué)技術(shù)將圖像中的文字提取轉(zhuǎn)換為計(jì)算機(jī)和人都能理解的格式。比如,在將大量票據(jù)、證件、表單等數(shù)據(jù)電子化時(shí),OCR發(fā)揮關(guān)鍵作用。

但DeepSeek卻反其道而行之——將文本信息“繪制”為視覺圖像,再通過視覺模型實(shí)現(xiàn)高效理解。如此創(chuàng)新嘗試就是為了解決大模型的核心痛點(diǎn)——處理長文本時(shí)面臨的計(jì)算挑戰(zhàn)。

效果有多驚艷?10頁密密麻麻的文本報(bào)告,被壓縮成一張圖片,AI能夠一眼讀懂它。這樣的信息處理效率意味著大幅降低了計(jì)算復(fù)雜度,用最直接的方式節(jié)約成本。

論文發(fā)布后,意料之內(nèi)的好評如潮,有網(wǎng)友直接將其稱為“硅基生命進(jìn)化論”。

最近還在銳評AI發(fā)展的OpenAI創(chuàng)始團(tuán)隊(duì)成員、特斯拉前AI總監(jiān)Karpathy,對DeepSeek新成果直言喜愛,并指出“早就該讓視覺成為AI核心,而非依賴爛透了的文本分詞器?!?/p>

更有業(yè)內(nèi)大佬感嘆,“當(dāng)文本能被轉(zhuǎn)化為視覺可理解的結(jié)構(gòu),語言與視覺的統(tǒng)一或許不再是理論。這可能是通往 AGI(通用人工智能)的關(guān)鍵一步。”


DeepSeek新研究:

把大量文字壓縮到圖片,讓模型直接看圖理解

本質(zhì)上來說,DeepSeek-OCR是將視覺與語言模態(tài)深度融合,通過“視覺-文本壓縮”建立自然映射關(guān)系,為多模態(tài)大模型提供了新的技術(shù)路徑。

之前的大模型可以說是“帶著腳銬的舞者”,雖有強(qiáng)大的語言理解能力,卻被低效的信息輸入方式嚴(yán)重束縛。

拿模型閱讀長篇文本來說,每頁財(cái)報(bào)、論文都包含數(shù)千個(gè)token,傳統(tǒng)方式下只能逐字逐句識別,導(dǎo)致計(jì)算量爆炸。這種低效作業(yè)讓大模型在法律、金融等領(lǐng)域的應(yīng)用舉步維艱。

而DeepSeek這次用到了一個(gè)巧妙思維——既然一張圖片能裝下成千上萬的文字,那是不是大量文字信息也能被壓縮到一張圖片里,讓模型直接看圖理解就好了。

為實(shí)現(xiàn)這一設(shè)想,DeepSeek為OCR模型配備了三件套——圖像編碼器、映射層和文本解碼器。其中,圖像編碼器DeepEncoder(負(fù)責(zé)把圖片轉(zhuǎn)成高度壓縮的視覺token)參數(shù)為380M,文本解碼器(負(fù)責(zé)從壓縮的視覺token里重建文字)是一個(gè)deepseekv2-3b的模型,參數(shù)為3B。

整體訓(xùn)練數(shù)據(jù)由4部分組成,包括OCR1.0數(shù)據(jù)(傳統(tǒng)OCR任務(wù),如圖像OCR和文檔OCR)、OCR2.0數(shù)據(jù)(復(fù)雜圖像解析任務(wù),如幾何、圖表等)、通用視覺數(shù)據(jù)(用于注入通用圖像理解能力)、及純文本數(shù)據(jù)(用于確保模型的語言能力)。

別看模型參數(shù)不大,但就研究結(jié)果發(fā)現(xiàn),當(dāng)文本壓縮率小于10倍時(shí),模型OCR解碼準(zhǔn)確率高達(dá)97%,及時(shí)壓縮率高達(dá)20倍時(shí),準(zhǔn)確率依舊能保持在60%。在A100-40G顯卡環(huán)境下,單日可生成超過20萬頁的模型訓(xùn)練數(shù)據(jù)。

也就是說,如果普通 OCR 需要 10,000 個(gè) token 才能讀完整篇文檔,這個(gè)模型可能只用 1,000 個(gè)就能搞定,且能高準(zhǔn)確度地理解信息。

受益于訓(xùn)練數(shù)據(jù)多樣性,論文提到DeepSeek-OCR不僅能識別文字,還能理解文檔布局、圖表結(jié)構(gòu)。從某種角度說,這已經(jīng)不是傳統(tǒng)的OCR,而更接近“文檔理解引擎”。

論文中提到的一個(gè)基準(zhǔn)叫OmniDocBench,就是專門用來測試復(fù)雜文檔理解能力的。DeepSeek-OCR 在這個(gè)基準(zhǔn)上,用更少的視覺 token 數(shù)量就超過了 GOT-OCR 2.0 和 MinerU 2.0,這倆都是目前較頂尖的開源 OCR 模型,可謂十分能打。



讓AI記憶模式更像人類

在論文中,DeepSeek還談到了一直困擾業(yè)界的AI“記憶”和“遺忘”機(jī)制。

深度學(xué)習(xí)模型的記憶以分布式參數(shù)形式存儲,這種非結(jié)構(gòu)化存儲導(dǎo)致傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)新任務(wù)時(shí),舊知識的參數(shù)空間會被新知識覆蓋,模型無法做到像人類一樣進(jìn)行連貫推理。

而DeepSeek的想法是,通過視覺-文本壓縮范式和動態(tài)分層遺忘機(jī)制,讓AI“記住該記住的,忘記該忘記的”。

其核心思路是將文本信息轉(zhuǎn)化為視覺token,通過光學(xué)壓縮實(shí)現(xiàn)高效記憶管理,同時(shí)模擬人類遺忘曲線動態(tài)調(diào)整信息留存。


在這個(gè)過程中,核心組件DeepEncoder發(fā)揮關(guān)鍵作用,50-100個(gè)視覺tokens即可還原1000字文本,實(shí)現(xiàn)近 10 倍的計(jì)算量節(jié)省。

這種壓縮并非簡單的信息降維,而是通過“注意力機(jī)制+結(jié)構(gòu)化訓(xùn)練”,優(yōu)先保留對模型推理最關(guān)鍵的信息。類似人類閱讀時(shí)“先抓標(biāo)題再看細(xì)節(jié)”的認(rèn)知模式,去除不重要的信息噪聲。

關(guān)于如何讓模型的記憶模式更像人類,研究者做了進(jìn)一步解釋:對于近期記憶,可以將其渲染成高分辨率圖像,用多token數(shù)量保留高保真信息。而對于遠(yuǎn)期記憶,可以縮放成更小、更模糊的圖像,用少量token來保留信息,從而實(shí)現(xiàn)信息的自然遺忘和壓縮。

雖然當(dāng)前還僅是研究前期探索階段,但DeepSeek的創(chuàng)新思路,確實(shí)讓AI越來越像人類了。


三名作者

本篇論文共有3名作者:Haoran Wei、Yaofeng Sun、Yukun Li。

論文一作Haoran Wei曾主導(dǎo)開發(fā)爆火項(xiàng)目GOT-OCR2.0,此次的DeepSeek-OCR也可以說是延續(xù)了此前項(xiàng)目的創(chuàng)新技術(shù)路徑。根據(jù)此前論文信息顯示,Haoran Wei還曾就職于階躍星辰。


Yaofeng Sun畢業(yè)于北京大學(xué)圖靈班計(jì)算機(jī)科學(xué)專業(yè),于2023年加入DeepSeek,先后參與DeepSeek-r1、DeepSeek-v3、DeepSeek-v2等模型的研究。


Yukun Li也參與了包括DeepSeek-v2/v3在內(nèi)的多款模型研究,谷歌學(xué)術(shù)論文引用量近萬。




運(yùn)營編輯 |曹倩審核|孟莎莎




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“央視當(dāng)家花旦”朱迅:生命終將結(jié)束,為何不勇敢面對生命的終點(diǎn)

“央視當(dāng)家花旦”朱迅:生命終將結(jié)束,為何不勇敢面對生命的終點(diǎn)

豐譚筆錄
2025-12-25 11:25:18
核心材料、充絨量近乎一致,換個(gè)名字直漲900元,知名品牌凱樂石惹爭議

核心材料、充絨量近乎一致,換個(gè)名字直漲900元,知名品牌凱樂石惹爭議

上觀新聞
2025-12-25 17:22:06
巴西國家隊(duì)?塔利斯卡:被征召就會去,不被征召也沒辦法

巴西國家隊(duì)?塔利斯卡:被征召就會去,不被征召也沒辦法

懂球帝
2025-12-25 21:50:21
全脫身了!北京一家5口完美套現(xiàn)24億,臨走前又坑了國資一把

全脫身了!北京一家5口完美套現(xiàn)24億,臨走前又坑了國資一把

三石記
2025-12-24 19:38:03
大甩賣!生涯僅打302場比賽,整整8年啊,隊(duì)史玻璃人要被交易了

大甩賣!生涯僅打302場比賽,整整8年啊,隊(duì)史玻璃人要被交易了

球童無忌
2025-12-25 21:28:14
誰設(shè)計(jì)了斬殺線?

誰設(shè)計(jì)了斬殺線?

新潮沉思錄
2025-12-24 21:28:17
他早已加入美國!全家移民卻在中國瘋狂撈金,一年賺走4個(gè)億

他早已加入美國!全家移民卻在中國瘋狂撈金,一年賺走4個(gè)億

小樾說歷史
2025-12-15 09:21:44
直接起飛!中國男籃決戰(zhàn)日本隊(duì),收兩大喜訊,郭士強(qiáng)要打爆小日子

直接起飛!中國男籃決戰(zhàn)日本隊(duì),收兩大喜訊,郭士強(qiáng)要打爆小日子

宗介說體育
2025-12-25 15:51:59
徐根寶親自調(diào)餛飩:武磊他們都想來;人太多限定1人吃3個(gè)

徐根寶親自調(diào)餛飩:武磊他們都想來;人太多限定1人吃3個(gè)

懂球帝
2025-12-25 17:39:48
攜程與柬埔寨營銷合作引擔(dān)憂,回應(yīng)稱暫停投放!協(xié)議內(nèi)容曝光

攜程與柬埔寨營銷合作引擔(dān)憂,回應(yīng)稱暫停投放!協(xié)議內(nèi)容曝光

南方都市報(bào)
2025-12-25 15:20:07
你的貓主子竟在隋唐時(shí)才到中國,東漢以前中國“家貓”主要是豹貓

你的貓主子竟在隋唐時(shí)才到中國,東漢以前中國“家貓”主要是豹貓

阿諬體育評論
2025-12-22 19:50:14
這沖擊力也太猛了!美國這刀直插 C919 命脈,下手比想象中還狠!

這沖擊力也太猛了!美國這刀直插 C919 命脈,下手比想象中還狠!

百態(tài)人間
2025-12-25 16:38:02
龐家后人硬剛新華社!七條質(zhì)疑炸鍋,香港媒體敢報(bào)的真相太炸裂

龐家后人硬剛新華社!七條質(zhì)疑炸鍋,香港媒體敢報(bào)的真相太炸裂

滄海一書客
2025-12-25 19:27:44
乒超總決賽今天開打!12月26日賽程公布,孫穎莎、王曼昱或登場

乒超總決賽今天開打!12月26日賽程公布,孫穎莎、王曼昱或登場

全言作品
2025-12-26 00:04:45
保護(hù)心臟,朝左睡還是朝右睡好?醫(yī)生:若想心臟健康,做好...

保護(hù)心臟,朝左睡還是朝右睡好?醫(yī)生:若想心臟健康,做好...

袁醫(yī)生課堂
2025-12-25 07:34:23
吃完豬血后大便發(fā)黑,是肺在排毒?還是胃在排毒?告訴你真相

吃完豬血后大便發(fā)黑,是肺在排毒?還是胃在排毒?告訴你真相

39健康網(wǎng)
2025-12-20 19:41:17
南博事件,“舉報(bào)人”郭禮典危險(xiǎn)了

南博事件,“舉報(bào)人”郭禮典危險(xiǎn)了

林中木白
2025-12-24 20:19:50
2026年如果房價(jià)繼續(xù)下跌,我國有一半的家庭或?qū)⒚媾R三個(gè)現(xiàn)實(shí)壓力

2026年如果房價(jià)繼續(xù)下跌,我國有一半的家庭或?qū)⒚媾R三個(gè)現(xiàn)實(shí)壓力

裝修秀
2025-12-11 11:20:03
圣誕大禮!利物浦 6 大救命愿望:薩拉赫冰釋前嫌,冬窗必簽中衛(wèi)

圣誕大禮!利物浦 6 大救命愿望:薩拉赫冰釋前嫌,冬窗必簽中衛(wèi)

瀾歸序
2025-12-26 01:46:20
日乒第二個(gè)張本出現(xiàn),比張本智和更囂張,直言:王楚欽不是對手

日乒第二個(gè)張本出現(xiàn),比張本智和更囂張,直言:王楚欽不是對手

阿嚼影視評論
2025-12-25 14:07:05
2025-12-26 02:44:49
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號
4618文章數(shù) 9175關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

俄軍中將在汽車炸彈爆炸中身亡 俄軍報(bào)復(fù)

頭條要聞

俄軍中將在汽車炸彈爆炸中身亡 俄軍報(bào)復(fù)

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

新規(guī)來了,年化超24%的小貸被即刻叫停

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
游戲
親子
本地

房產(chǎn)要聞

太猛了!單月新增企業(yè)4.1萬家,又一波巨頭涌向海南!

冬季穿衣別顯得太臃腫!大衣收腰、搭配圍巾,有質(zhì)感又高級

逆水寒頂流主播沉迷倩女!三界的魅力藏不住了

親子要聞

心理專家:孩子失敗后的兩種反應(yīng)

本地新聞

這輩子要積多少德,下輩子才能投胎到德國當(dāng)狗

無障礙瀏覽 進(jìn)入關(guān)懷版