国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek 新模型震撼 AI 圈:用視覺模型讀文檔,壓縮率高達(dá) 90%,信息保真 97%!

0
分享至

大數(shù)據(jù)文摘出品

最近,DeepSeek 推出了一種全新的 OCR 系統(tǒng),能讓 AI 在不超出內(nèi)存限制的情況下,處理更長的文檔。

地址: https://github.com/deepseek-ai/DeepSeek-OCR?tab=readme-ov-file

這套系統(tǒng)的關(guān)鍵,是把文字當(dāng)作圖像來壓縮。DeepSeek 發(fā)現(xiàn),處理圖片反而比處理純文本更節(jié)省算力。

據(jù)其技術(shù)論文,系統(tǒng)在保留97% 信息量的前提下,可將文檔壓縮至原來的十分之一。

換句話說,一本上百頁的 PDF,經(jīng) DeepSeek 處理后,只需原來十分之一的 token 數(shù)量,就能被 AI 完整閱讀。

DeepSeek OCR 的核心由兩部分組成:一是圖像處理模塊,DeepEncoder,二是基于Deepseek-3B-MoE的文本生成器。.

DeepEncoder 擁有 3.8 億參數(shù),負(fù)責(zé)將文檔圖片分析為壓縮后的視覺 token;文本生成器在此基礎(chǔ)上恢復(fù)文字與結(jié)構(gòu)。

在技術(shù)上,它融合了 Meta 的SAM(Segment Anything Model)與 OpenAI 的CLIP 模型。

SAM 擔(dān)任局部視覺分析,CLIP 則提供全局語義關(guān)聯(lián)。兩者之間,嵌入了一個(gè)16 倍壓縮器,大幅減少圖像 token 數(shù)量。

一張 1024×1024 像素的圖片,起初被分為 4096 個(gè) token;經(jīng)壓縮后,只剩 256 個(gè)。這一過程的算力節(jié)省是數(shù)量級(jí)的:CLIP 的計(jì)算負(fù)擔(dān)因此顯著下降。

在低分辨率下,DeepSeek OCR 每張圖僅需 64 個(gè)視覺 token;高分辨率時(shí)也不超過 400。

相比之下,傳統(tǒng) OCR 系統(tǒng)往往需要數(shù)千 token 才能完成同樣的任務(wù)。

DeepSeek 并不僅僅識(shí)別文字。它能識(shí)別圖表、化學(xué)式、幾何圖形等多種復(fù)雜結(jié)構(gòu)。

研究團(tuán)隊(duì)稱,系統(tǒng)可直接從財(cái)報(bào)圖表中提取結(jié)構(gòu)化數(shù)據(jù),并自動(dòng)生成 Markdown 表格。

在“深度解析模式”下,它能將金融圖表、幾何圖形重新繪制成矢量圖,并同時(shí)保留說明文字。

測試結(jié)果顯示,DeepSeek OCR 在OmniDocBench 基準(zhǔn)上超過了 GOT-OCR 2.0。

在僅使用 100 個(gè)視覺 token 的情況下,它的表現(xiàn)優(yōu)于 GOT-OCR 2.0 使用 256 token 的結(jié)果。

即使在 800 token 以下,DeepSeek 也擊敗了MinerU 2.0,后者每頁需超過 6000 token。

根據(jù)對(duì)比數(shù)據(jù),DeepSeek OCR 的Gundam-M 模式在中英文混合識(shí)別上取得了最佳編輯距離分?jǐn)?shù)。

系統(tǒng)根據(jù)文檔復(fù)雜度自動(dòng)選擇模式:簡單演示文檔用 64 token;普通報(bào)告約 100;復(fù)雜報(bào)紙需啟用“Gundam 模式”,上限 800 token。

此外,它還提供Resize、Padding、Multi-page、Sliding 四種策略,在多頁文檔中平衡壓縮率與準(zhǔn)確性。

DeepSeek OCR 的訓(xùn)練規(guī)模同樣罕見。研究團(tuán)隊(duì)使用了三千萬頁 PDF 語料,覆蓋約一百種語言。

其中包括2500 萬頁中英文文檔,以及一千萬張合成圖表、五百萬化學(xué)公式、一百萬幾何圖形。

這些數(shù)據(jù)讓模型具備了跨領(lǐng)域、跨語言的泛化能力。

它不僅能保持原始排版,還能在輸出中附帶文字描述和圖像內(nèi)容說明。

在多模態(tài)大模型中,文本上下文的限制一直是瓶頸。DeepSeek 的方法繞開了傳統(tǒng) token 計(jì)數(shù)邏輯,用視覺 token 替代文本 token。

這使得語言模型能在“看圖”的同時(shí)完成“讀文”。

對(duì)研究者而言,這是一種近似“外接硬盤”的解決方案:通過視覺壓縮,AI 的上下文長度幾乎無上限。

這種方式也預(yù)示著未來的模型架構(gòu)可能不再區(qū)分“文本理解”和“圖像理解”。

注:頭圖AI生成

作者長期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)!

GPU 訓(xùn)練特惠!

H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!

掃碼了解詳情?

點(diǎn)「贊」的人都變好看了哦!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
日本專家表示:如果中日戰(zhàn)真的發(fā)生了,日本老百姓根本不需要害怕

日本專家表示:如果中日戰(zhàn)真的發(fā)生了,日本老百姓根本不需要害怕

安安說
2026-04-23 11:40:47
保姆偷拿了家里2瓶茅臺(tái)去賣,我沒揭穿只辭退了她,臨走時(shí)她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺(tái)去賣,我沒揭穿只辭退了她,臨走時(shí)她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個(gè)好故事
2026-03-11 17:26:56
斯諾克世錦賽16強(qiáng)對(duì)陣!丁俊暉戰(zhàn)趙心童時(shí)間曝光,吳宜澤PK塞爾比

斯諾克世錦賽16強(qiáng)對(duì)陣!丁俊暉戰(zhàn)趙心童時(shí)間曝光,吳宜澤PK塞爾比

曹說體育
2026-04-23 11:39:25
已確認(rèn)系淫穢物品!家長趕緊自查

已確認(rèn)系淫穢物品!家長趕緊自查

深圳晚報(bào)
2026-04-22 22:45:45
5月1日?qǐng)?zhí)行!酒駕處罰全面升級(jí),再敢喝酒開車,代價(jià)太大了

5月1日?qǐng)?zhí)行!酒駕處罰全面升級(jí),再敢喝酒開車,代價(jià)太大了

大魚簡科
2026-04-23 14:35:54
上海地鐵站內(nèi),這個(gè)“高素質(zhì)”習(xí)慣爆發(fā)沖突!上海已叫停多年!很多人改不過來……

上海地鐵站內(nèi),這個(gè)“高素質(zhì)”習(xí)慣爆發(fā)沖突!上海已叫停多年!很多人改不過來……

環(huán)球網(wǎng)資訊
2026-04-23 11:11:44
C羅心中最強(qiáng)球員出爐:梅西是競爭對(duì)手,最強(qiáng)球員里沒有他

C羅心中最強(qiáng)球員出爐:梅西是競爭對(duì)手,最強(qiáng)球員里沒有他

體育閑話說
2026-04-23 20:50:09
多虧伊朗沒去巴基斯坦,德黑蘭已經(jīng)識(shí)破了美國的把戲?

多虧伊朗沒去巴基斯坦,德黑蘭已經(jīng)識(shí)破了美國的把戲?

車窗起霧q
2026-04-23 22:00:40
世錦賽戰(zhàn)報(bào):3-10!中國已有6人出局,種子名將連輸9局爆冷一輪游

世錦賽戰(zhàn)報(bào):3-10!中國已有6人出局,種子名將連輸9局爆冷一輪游

小火箭愛體育
2026-04-23 21:37:48
《新聞聯(lián)播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

《新聞聯(lián)播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

青梅侃史啊
2026-04-23 14:38:29
廣西:堅(jiān)決摒棄“領(lǐng)導(dǎo)不批示不動(dòng)、事情不鬧大不動(dòng)、媒體不曝光不動(dòng)”等不良現(xiàn)象

廣西:堅(jiān)決摒棄“領(lǐng)導(dǎo)不批示不動(dòng)、事情不鬧大不動(dòng)、媒體不曝光不動(dòng)”等不良現(xiàn)象

起喜電影
2026-04-24 00:02:35
寺廟整治風(fēng)暴來襲 43家違規(guī)場所被關(guān)停

寺廟整治風(fēng)暴來襲 43家違規(guī)場所被關(guān)停

阿萊美食匯
2026-04-24 00:03:25
中紀(jì)委2026嚴(yán)查新方向,這6類崗位首當(dāng)其沖

中紀(jì)委2026嚴(yán)查新方向,這6類崗位首當(dāng)其沖

細(xì)說職場
2026-04-23 09:15:43
阿瑙托維奇:因疫情在中國隔離至抑郁,最終選擇重返歐洲

阿瑙托維奇:因疫情在中國隔離至抑郁,最終選擇重返歐洲

懂球帝
2026-04-23 08:32:10
剛剛,全線跳水!美軍,動(dòng)手了!

剛剛,全線跳水!美軍,動(dòng)手了!

中國基金報(bào)
2026-04-23 14:34:47
龍卷風(fēng)撕掉屋頂后,Rivian R2還是下線了

龍卷風(fēng)撕掉屋頂后,Rivian R2還是下線了

碳基打工人
2026-04-22 23:50:24
一韓國籍男子在靖國神社抗議被日本警方逮捕

一韓國籍男子在靖國神社抗議被日本警方逮捕

澎湃新聞
2026-04-23 00:43:09
AI竟能生成《金瓶梅》"3A大作"!尺度很大細(xì)節(jié)夸張

AI竟能生成《金瓶梅》"3A大作"!尺度很大細(xì)節(jié)夸張

游民星空
2026-04-22 11:55:38
1比4逆轉(zhuǎn)后特魯姆普放話:趙心童不是最大威脅,50倍丁俊暉才是

1比4逆轉(zhuǎn)后特魯姆普放話:趙心童不是最大威脅,50倍丁俊暉才是

生活新鮮市
2026-04-23 18:37:10
伊朗政權(quán)變天了!

伊朗政權(quán)變天了!

阿振觀點(diǎn)
2026-04-24 00:20:51
2026-04-24 02:32:49
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6852文章數(shù) 94541關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預(yù)售30.29萬起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

房產(chǎn)
健康
游戲
藝術(shù)
數(shù)碼

房產(chǎn)要聞

三亞安居房,突然官宣!

干細(xì)胞如何讓燒燙傷皮膚"再生"?

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢(shì)

藝術(shù)要聞

吉達(dá)塔蓋到第100層,“它是沙特唯一能按期完成的大項(xiàng)目”

數(shù)碼要聞

799元!小米推出米家無線吸塵器4C:170AW大吸力、75分鐘長續(xù)航

無障礙瀏覽 進(jìn)入關(guān)懷版