国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全新開源的DeepSeek-OCR,可能是最近最驚喜的模型。

0
分享至

AI圈雖然天天卷,但是很多的模型,真的越來越無聊了。

每天就是跑分又多了幾個點。

直到昨天,DeepSeek久違的發(fā)了一個新模型。

DeepSeek-OCR。

這玩意,是真的有點酷。


首先,不要被這個名字騙了。

雖然說它名字上有個OCR,但是你說它真的就只是個OCR模型嗎。

我想說,是,也不是。。。

說它是,很簡單,就是因為這玩意,干的確實也是傳統(tǒng)OCR的活。

傳統(tǒng)的OCR任務(wù)其實特別純粹,就是把那些圖片上字啥的啊,變成你 電腦里可以 編輯 可以 復(fù)制粘貼 數(shù)字文本。

以前沒有OCR的時候,你想想,你看到手上的書上有些字特別好,你想錄到電腦里,你會咋辦?答案就只有一個,一個字一個字的敲上去。

敲幾句話還行,讓你敲個合同或者一本三體你試試看,是個人都絕逼要瘋。

后來OCR來了,就特別方便了,直接拍個照片,就能把里面的文字全部提取出來,很簡單。

所以DeepSeek-OCR確實也有OCR的功能,也能干OCR的活,而且還挺強。


比如這是一張典型的金融研究報告。,里面有文字,有圖表,有各種復(fù)雜的排版。

你讓一個傳統(tǒng)的OCR軟件去看這張圖,它可能會非常精準(zhǔn)地,把里面所有的文字,都摳出來,變成一個TXT文檔。

然后就沒有然后了。

但是DeepSeek-OCR,它看完這張圖,會直接,生成一個Markdown文檔。

在這個文檔里,文字是文字,標(biāo)題是標(biāo)題,最關(guān)鍵的是,那些圖表,被它用代碼,也重新畫了一遍,變成了一個可以被編輯被引用的表格。

這個很牛逼了。

但是吧,這玩意又不只是我們傳統(tǒng)意義上理解的OCR。

他還有一個很重要的功能,就是,壓縮。

可能會有點難以理解和抽象,我盡可能的用通俗易懂的話來講明白。

在說壓縮之前,我們得先搞明白,現(xiàn)在所有大語言模型,從GPT-3.5到我們現(xiàn)在的各種模型,都面臨著一個共同的幾乎無解的噩夢,就是長文本處理。

你別看它們現(xiàn)在能寫一堆亂七八糟的能當(dāng)朋友跟你聊天還能用嘴畫圖,但你只要丟給它一篇稍微長點的內(nèi)容,比如一本幾十萬字的書,讓它去理解,去總結(jié),基本上都要炸。

因為AI理解文字的方式,跟我們不一樣。

我們看書,是一目十行。

AI讀文字,它需要把每個字,每個詞,都轉(zhuǎn)換成Token。你可以把它簡單的理解成一個一個的“字節(jié)”,是數(shù)據(jù)里面的那個字節(jié),不是字節(jié)跳動的字節(jié)。

現(xiàn)在主流AI架構(gòu)的缺陷是,它在讀每一個新詞的時候,為了理解上下文,它需要把這個新詞和前面所有出現(xiàn)過的詞,都建立一次聯(lián)系。

所以處理這些Token的計算量,是隨著文本長度的平方增加的。

比如我舉一個Party的例子,現(xiàn)在這個Party上有10個人,每個人都跟其他人貼貼一下,那大概需要45次貼貼,還行對吧。

但如果來了100個人,每個人都要跟其他人貼貼,就需要將近5000次貼貼,這基本就屬于廢了。

這就是技術(shù)上常說的計算復(fù)雜度是N的平方。

這個成本,是指數(shù)級增長的,誰都扛不住。

所以,長久以來,整個AI界都在死磕一個問題,怎么讓AI,能又快又便宜的搞定上下文的問題?

大家想了很多辦法,什么滑動窗口、稀疏注意力,各種各樣的算法優(yōu)化。但這些,都像是給一輛漏油的破車,換更好的輪胎,貼更騷的膜。

但是它,解決不了發(fā)動機的根本問題啊。

然后DeepSeek這次,它根本沒管你那個漏油的破逼車,而是,直接給你買了一輛,新能源。

它說:“我們?yōu)槭裁,非要讓AI一個字一個字地讀呢?我們能不能讓它,像我們?nèi)艘粯,看??/strong>

就是我不再把一本300頁的書,轉(zhuǎn)換成幾十萬個Token的文本文件,喂給AI。

而是,我直接把這300頁書,拍成一張張照片,變成一個圖像文件,然后,讓AI去看這張圖。

你可能覺得,這不是脫褲子放屁嗎?照片不也是由像素組成的嗎?信息量不是更大了嗎?

對,但你忽略了最關(guān)鍵的一點:

圖像,是二維的,而文字,是一維的。

一維的文字,就像一根無限長的薯條,你想吃它,智能從頭吃到尾,一個字節(jié)都不能少。

而二維的圖像,就像一張大餅,你一眼掃過去,整個餅的全貌,盡收眼底。

DeepSeek-OCR,干的就是這事,把所有的文字,全部壓縮成圖像。

這個過程,在他們的論文里,叫“上下文光學(xué)壓縮”(Contexts Optical Compression)。

我給你舉一個 真正的應(yīng)用場景案例 ,你就全明白了:

比如假設(shè)你正在跟一個AI助手聊天,你倆已經(jīng)聊了三天三夜,聊了 1000 輪,可能占幾十萬甚至幾百萬的Token。

對于以前的大模型來說,當(dāng)你問:“哎,我三天前跟你說的第一件事是啥?”,大模型就必須把這1000輪的全部聊天記錄都裝進它的記憶區(qū)也就是上下文窗口里,才能去查找。

這會撐爆它的內(nèi)存和算力,所以現(xiàn)在的AI,很多的聊著聊著你就感覺它失憶,因為有的,真的只能記住最近的幾十輪對話。

而DeepSeek-OCR的解決方案呢,是這樣的。

AI助手只把最近10輪的聊天記錄,用文本的形式記在腦子里。

但是,它把那更遠(yuǎn)一點的990輪的文本聊天記錄,自動渲染成一張或著幾張長長的圖片,就像你給聊天記錄截了個屏。

然后,它立刻調(diào)用內(nèi)部的DeepEncoder編碼器,把這張包含海量文字的截圖,壓縮成大概只有原來10分之1的視覺Token,然后一起扔到上下文中,記到腦子里。

當(dāng)真正要用的時候,比如你還是問那個問題,“我三天前說的第一件事是啥?”

它現(xiàn)在的上下文里裝的是10輪聊天記錄的文本token + 990輪聊天記錄的視覺token。

然后,它的解碼器,DeepSeek-3B,一個激活參數(shù)為570M的MOE模型,已經(jīng)通過 OCR 任務(wù),學(xué)會了一看到這視覺token,就能把解碼還原成原文的能力。

于是,他看了一眼那一圈視覺Token,找到了三天前的第一句話,然后回答了你。

這,就是DeepSeek-OCR的整個架構(gòu)。


所以啊,別被名字騙了,這真的不止是個OCR啊。。。

這是純粹的關(guān)于上下文的新范式。。。

所以雖然跟百度的那個PalddeleOCR-VL一樣名字也有OCR,但其實,兩個,真的不是一個東西= =

DeepSeek-OCR,這,即是壓縮。

論文里給出的數(shù)據(jù)是,在保持96.5%的識別準(zhǔn)確率的前提下,壓縮比可以達到驚人的10倍。


壓縮比 = 原來的文本token總數(shù) ÷ 壓縮后視覺token總數(shù)。

而20倍的壓縮比,還能保留60%的準(zhǔn)確率,雖然這個準(zhǔn)確率確實不咋地,但是,這也是給未來留下了非常值得優(yōu)化的方向。

說實話,這個東西確實很新,真的很有意思,可能是我為數(shù)不多的最近看到的最好玩的模型論文。

一圖勝千言,可能說的就是如此吧。

而且細(xì)細(xì)想來,其實這種壓縮之法,也確實沒啥毛病。

我們總覺得文字是信息傳遞的巔峰。

但從整個人類歷史和生物進化的角度看,視覺,才是我們一直處理信息的最重要的手段。

在文字誕生之前的幾十萬年里,我們的祖先就是靠看來生存的。

看天色,看獵物,看同伴的表情,看親手刻下的壁畫。

在紙張和印刷術(shù)普及之前,人類是怎么記錄宏大敘事的?是壁畫,是浮雕。

埃及金字塔里的象形文字,敦煌莫高窟里的經(jīng)變畫,它們本身就是一種壓縮。古埃及人把復(fù)雜的祭祀、律法、歷史,壓縮在一幅幅畫里,等待別人去解壓。

從這個角度看,DeepSeek-OCR干的事,和當(dāng)年的人類,其實也沒什么兩樣。

但是當(dāng)我覺得,最頭皮發(fā)麻為之一振的話。

其實是論文的最后,他們寫的一點點希望討論的。

DeepSeek說,對于那些更古老的上下文,我們可以逐步縮小渲染出的圖像,以進一步減少令牌消耗。

這個假設(shè)的靈感,來自于一個非常自然且深刻的類比:

人類的記憶會隨著時間的推移而衰退,人類的視覺感知會隨著空間距離的拉遠(yuǎn)而退化。


這種現(xiàn)象,它們都表現(xiàn)出了相似的、漸進式的信息丟失模式。

他們可以用“上下文光學(xué)壓縮”的方法,實現(xiàn)了一種記憶衰減形式。

比如圖表里,最左是 Text token,也就是不壓縮的純文本,信息保真;往右是把文字渲成圖再編碼成視覺 token 的不同模式,Gundam 比較豪華、細(xì)節(jié)多、花銷大,Large 再次之,Base、Small、Tiny 依次更省 token、也更模糊。

它幾乎,完美地鏡像了生物的遺忘曲線。

在這個機制下,最近的信息保持著高保真度,而遙遠(yuǎn)的記憶則通過不斷提高的壓縮率,自然地褪色和淡忘。

這個機制,實在是太酷了。

很像是在探討,一種“數(shù)字生命”的可能形態(tài)。

我們一直以來追求的AI,是什么樣的?

是一個擁有無限記憶、絕對理性的“神”。

它不會遺忘,不會犯錯,像一臺完美的機器。

但我們自己是這樣的嗎?

不是。

遺忘,恰恰是人類智慧最重要的組成部分。

我們之所以能夠創(chuàng)新,能夠抓住重點,能夠在復(fù)雜的世界里做出決斷,正是因為我們的大腦懂得,放下。

我們會忘記那些不重要的細(xì)節(jié),我們會模糊那些久遠(yuǎn)的傷痛,我們會把寶貴的認(rèn)知資源,留給當(dāng)下最重要的事情。

遺忘,還有錯誤,真的不是bug,是我們這個物種能夠延續(xù)至今的核心算法之一。

就像西部世界里的那句經(jīng)典臺詞。

在福特的理論中,進化形成了這個星球上有情感和知覺的生命體,“用的唯一工具,就是錯誤!


遺忘,也是那個“錯誤”。

對DeepSeek-OCR感興趣的,可以去他們的項目網(wǎng)址看一看,體驗一下。

https://github.com/deepseek-ai/DeepSeek-OCR

但是,我也非常強烈的建議,大家也可以,去讀一讀這篇論文的原文。

不需要看那些很技術(shù)的原理和數(shù)學(xué),只要看方法,還有范式,其實就能學(xué)到很多東西。

我把論文原文也放在公眾號后臺了,你對著后臺私信“OCR”,也會自動的發(fā)給你。


感謝DeepSeek。

惟愿我們。

國運昌隆。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標(biāo)?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
商務(wù)部印發(fā)《大連等9城市服務(wù)業(yè)擴大開放綜合試點任務(wù)》,青島在列

商務(wù)部印發(fā)《大連等9城市服務(wù)業(yè)擴大開放綜合試點任務(wù)》,青島在列

易瞰青島
2026-01-11 10:44:05
關(guān)于李莉教授的一張圖火了

關(guān)于李莉教授的一張圖火了

關(guān)爾東
2026-01-11 16:32:35
我連夜啃完馬斯克這173分鐘視頻,很震撼

我連夜啃完馬斯克這173分鐘視頻,很震撼

販財局
2026-01-11 18:19:53
第90分鐘絕平,米蘭連場翻車,爭冠難度飆升,國米隔空獲益

第90分鐘絕平,米蘭連場翻車,爭冠難度飆升,國米隔空獲益

足球狗說
2026-01-12 00:12:30
東莞市衛(wèi)健局回應(yīng)“網(wǎng)傳疑患梅毒網(wǎng)紅住院記錄”:診療記錄涉隱私需保護,將調(diào)查核實 本人發(fā)檢測報告否認(rèn)

東莞市衛(wèi)健局回應(yīng)“網(wǎng)傳疑患梅毒網(wǎng)紅住院記錄”:診療記錄涉隱私需保護,將調(diào)查核實 本人發(fā)檢測報告否認(rèn)

紅星新聞
2026-01-11 17:02:17
被大家猜中了!洗碗機的女主角起號成功,直播間人數(shù)超過3000…

被大家猜中了!洗碗機的女主角起號成功,直播間人數(shù)超過3000…

火山詩話
2026-01-10 15:13:33
洋帥首秀!新疆39分狂勝送江蘇8連敗 阿不都15+5+4龐崢麟15分

洋帥首秀!新疆39分狂勝送江蘇8連敗 阿不都15+5+4龐崢麟15分

醉臥浮生
2026-01-11 22:02:00
氧氣要火了?科學(xué)家發(fā)現(xiàn)寶藏:吸100%純氧3個月,生理倒拔20歲

氧氣要火了?科學(xué)家發(fā)現(xiàn)寶藏:吸100%純氧3個月,生理倒拔20歲

科學(xué)認(rèn)識論
2026-01-11 17:13:05
超級驚喜!真不像傳統(tǒng)的中國男足 1-0爆冷澳大利亞 2輪4分升頭名

超級驚喜!真不像傳統(tǒng)的中國男足 1-0爆冷澳大利亞 2輪4分升頭名

侃球熊弟
2026-01-11 20:18:32
徐江:王鈺棟跟不上米特里策的節(jié)奏,若去歐洲要提高足球理解

徐江:王鈺棟跟不上米特里策的節(jié)奏,若去歐洲要提高足球理解

懂球帝
2026-01-11 15:27:09
以色列在行動,伊朗導(dǎo)彈部隊指揮官遭刺殺,庫爾德武裝發(fā)起進攻

以色列在行動,伊朗導(dǎo)彈部隊指揮官遭刺殺,庫爾德武裝發(fā)起進攻

史政先鋒
2026-01-11 15:58:18
中方對高市早苗不再手下留情,李在明主動跟進,反手捅了日本一刀

中方對高市早苗不再手下留情,李在明主動跟進,反手捅了日本一刀

空天力量
2026-01-11 17:23:50
跨年夜男子酒后外出,中途下車后溺亡,同飲者稱其執(zhí)意下車,已與家屬協(xié)商賠償30萬元

跨年夜男子酒后外出,中途下車后溺亡,同飲者稱其執(zhí)意下車,已與家屬協(xié)商賠償30萬元

紅星新聞
2026-01-11 16:52:09
一次違規(guī)吃喝 1人失去生命9人受到嚴(yán)肅處理

一次違規(guī)吃喝 1人失去生命9人受到嚴(yán)肅處理

極目新聞
2026-01-11 20:46:13
北京又遭爆冷吞連!史密斯45+9+9獻關(guān)鍵三分 周琦9+10杰曼34+6

北京又遭爆冷吞連!史密斯45+9+9獻關(guān)鍵三分 周琦9+10杰曼34+6

顏小白的籃球夢
2026-01-11 21:33:30
問題到底出在哪里?為什么那么多人不信官方說法…

問題到底出在哪里?為什么那么多人不信官方說法…

慧翔百科
2026-01-10 13:44:32
32歲貨車司機中毒去世留下兩娃,眾卡友已為其募捐18萬,還有人愿承擔(dān)其小女兒15年上學(xué)費用

32歲貨車司機中毒去世留下兩娃,眾卡友已為其募捐18萬,還有人愿承擔(dān)其小女兒15年上學(xué)費用

極目新聞
2026-01-11 19:42:23
最帥升旗手張自軒大婚,不到48小時,上演惡心一幕,新娘無妄之災(zāi)

最帥升旗手張自軒大婚,不到48小時,上演惡心一幕,新娘無妄之災(zāi)

李健政觀察
2026-01-10 15:30:42
小國占據(jù)大島的無奈:格陵蘭島被發(fā)現(xiàn)上千年,丹麥從未完全控制?

小國占據(jù)大島的無奈:格陵蘭島被發(fā)現(xiàn)上千年,丹麥從未完全控制?

全城探秘
2026-01-11 16:15:03
阿富汗突發(fā)惡性襲擊事件:中方礦業(yè)公司遇襲致5死多人被綁

阿富汗突發(fā)惡性襲擊事件:中方礦業(yè)公司遇襲致5死多人被綁

老馬拉車莫少裝
2026-01-10 00:00:42
2026-01-12 00:28:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
436文章數(shù) 490關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

特朗普就格陵蘭島下最后通牒 加拿大開始行動了

頭條要聞

特朗普就格陵蘭島下最后通牒 加拿大開始行動了

體育要聞

U23國足形勢:末輪不負(fù)泰國即確保晉級

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
藝術(shù)
本地
公開課

數(shù)碼要聞

科技有AI,連接全球:海信家電參展CES 2026,定義智慧生活新圖景

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

藝術(shù)要聞

2026年的中國,4座超400米高摩天樓有望建成

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版