国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全新開源的DeepSeek-OCR,可能是最近最驚喜的模型。

0
分享至

AI圈雖然天天卷,但是很多的模型,真的越來越無聊了。

每天就是跑分又多了幾個點。

直到昨天,DeepSeek久違的發(fā)了一個新模型。

DeepSeek-OCR。

這玩意,是真的有點酷。


首先,不要被這個名字騙了。

雖然說它名字上有個OCR,但是你說它真的就只是個OCR模型嗎。

我想說,是,也不是。。。

說它是,很簡單,就是因為這玩意,干的確實也是傳統(tǒng)OCR的活。

傳統(tǒng)的OCR任務(wù)其實特別純粹,就是把那些圖片上字啥的啊,變成你 電腦里可以 編輯 可以 復制粘貼 數(shù)字文本。

以前沒有OCR的時候,你想想,你看到手上的書上有些字特別好,你想錄到電腦里,你會咋辦?答案就只有一個,一個字一個字的敲上去。

敲幾句話還行,讓你敲個合同或者一本三體你試試看,是個人都絕逼要瘋。

后來OCR來了,就特別方便了,直接拍個照片,就能把里面的文字全部提取出來,很簡單。

所以DeepSeek-OCR確實也有OCR的功能,也能干OCR的活,而且還挺強。


比如這是一張典型的金融研究報告。,里面有文字,有圖表,有各種復雜的排版。

你讓一個傳統(tǒng)的OCR軟件去看這張圖,它可能會非常精準地,把里面所有的文字,都摳出來,變成一個TXT文檔。

然后就沒有然后了。

但是DeepSeek-OCR,它看完這張圖,會直接,生成一個Markdown文檔。

在這個文檔里,文字是文字,標題是標題,最關(guān)鍵的是,那些圖表,被它用代碼,也重新畫了一遍,變成了一個可以被編輯被引用的表格。

這個很牛逼了。

但是吧,這玩意又不只是我們傳統(tǒng)意義上理解的OCR。

他還有一個很重要的功能,就是,壓縮。

可能會有點難以理解和抽象,我盡可能的用通俗易懂的話來講明白。

在說壓縮之前,我們得先搞明白,現(xiàn)在所有大語言模型,從GPT-3.5到我們現(xiàn)在的各種模型,都面臨著一個共同的幾乎無解的噩夢,就是長文本處理。

你別看它們現(xiàn)在能寫一堆亂七八糟的能當朋友跟你聊天還能用嘴畫圖,但你只要丟給它一篇稍微長點的內(nèi)容,比如一本幾十萬字的書,讓它去理解,去總結(jié),基本上都要炸。

因為AI理解文字的方式,跟我們不一樣。

我們看書,是一目十行。

AI讀文字,它需要把每個字,每個詞,都轉(zhuǎn)換成Token。你可以把它簡單的理解成一個一個的“字節(jié)”,是數(shù)據(jù)里面的那個字節(jié),不是字節(jié)跳動的字節(jié)。

現(xiàn)在主流AI架構(gòu)的缺陷是,它在讀每一個新詞的時候,為了理解上下文,它需要把這個新詞和前面所有出現(xiàn)過的詞,都建立一次聯(lián)系。

所以處理這些Token的計算量,是隨著文本長度的平方增加的。

比如我舉一個Party的例子,現(xiàn)在這個Party上有10個人,每個人都跟其他人貼貼一下,那大概需要45次貼貼,還行對吧。

但如果來了100個人,每個人都要跟其他人貼貼,就需要將近5000次貼貼,這基本就屬于廢了。

這就是技術(shù)上常說的計算復雜度是N的平方。

這個成本,是指數(shù)級增長的,誰都扛不住。

所以,長久以來,整個AI界都在死磕一個問題,怎么讓AI,能又快又便宜的搞定上下文的問題?

大家想了很多辦法,什么滑動窗口、稀疏注意力,各種各樣的算法優(yōu)化。但這些,都像是給一輛漏油的破車,換更好的輪胎,貼更騷的膜。

但是它,解決不了發(fā)動機的根本問題啊。

然后DeepSeek這次,它根本沒管你那個漏油的破逼車,而是,直接給你買了一輛,新能源。

它說:“我們?yōu)槭裁?,非要讓AI一個字一個字地讀呢?我們能不能讓它,像我們?nèi)艘粯?,看??/strong>

就是我不再把一本300頁的書,轉(zhuǎn)換成幾十萬個Token的文本文件,喂給AI。

而是,我直接把這300頁書,拍成一張張照片,變成一個圖像文件,然后,讓AI去看這張圖。

你可能覺得,這不是脫褲子放屁嗎?照片不也是由像素組成的嗎?信息量不是更大了嗎?

對,但你忽略了最關(guān)鍵的一點:

圖像,是二維的,而文字,是一維的。

一維的文字,就像一根無限長的薯條,你想吃它,智能從頭吃到尾,一個字節(jié)都不能少。

而二維的圖像,就像一張大餅,你一眼掃過去,整個餅的全貌,盡收眼底。

DeepSeek-OCR,干的就是這事,把所有的文字,全部壓縮成圖像。

這個過程,在他們的論文里,叫“上下文光學壓縮”(Contexts Optical Compression)。

我給你舉一個 真正的應(yīng)用場景案例 ,你就全明白了:

比如假設(shè)你正在跟一個AI助手聊天,你倆已經(jīng)聊了三天三夜,聊了 1000 輪,可能占幾十萬甚至幾百萬的Token。

對于以前的大模型來說,當你問:“哎,我三天前跟你說的第一件事是啥?”,大模型就必須把這1000輪的全部聊天記錄都裝進它的記憶區(qū)也就是上下文窗口里,才能去查找。

這會撐爆它的內(nèi)存和算力,所以現(xiàn)在的AI,很多的聊著聊著你就感覺它失憶,因為有的,真的只能記住最近的幾十輪對話。

而DeepSeek-OCR的解決方案呢,是這樣的。

AI助手只把最近10輪的聊天記錄,用文本的形式記在腦子里。

但是,它把那更遠一點的990輪的文本聊天記錄,自動渲染成一張或著幾張長長的圖片,就像你給聊天記錄截了個屏。

然后,它立刻調(diào)用內(nèi)部的DeepEncoder編碼器,把這張包含海量文字的截圖,壓縮成大概只有原來10分之1的視覺Token,然后一起扔到上下文中,記到腦子里。

當真正要用的時候,比如你還是問那個問題,“我三天前說的第一件事是啥?”

它現(xiàn)在的上下文里裝的是10輪聊天記錄的文本token + 990輪聊天記錄的視覺token

然后,它的解碼器,DeepSeek-3B,一個激活參數(shù)為570M的MOE模型,已經(jīng)通過 OCR 任務(wù),學會了一看到這視覺token,就能把解碼還原成原文的能力。

于是,他看了一眼那一圈視覺Token,找到了三天前的第一句話,然后回答了你。

這,就是DeepSeek-OCR的整個架構(gòu)。


所以啊,別被名字騙了,這真的不止是個OCR啊。。。

這是純粹的關(guān)于上下文的新范式。。。

所以雖然跟百度的那個PalddeleOCR-VL一樣名字也有OCR,但其實,兩個,真的不是一個東西= =

DeepSeek-OCR,這,即是壓縮。

論文里給出的數(shù)據(jù)是,在保持96.5%的識別準確率的前提下,壓縮比可以達到驚人的10倍。


壓縮比 = 原來的文本token總數(shù) ÷ 壓縮后視覺token總數(shù)。

而20倍的壓縮比,還能保留60%的準確率,雖然這個準確率確實不咋地,但是,這也是給未來留下了非常值得優(yōu)化的方向。

說實話,這個東西確實很新,真的很有意思,可能是我為數(shù)不多的最近看到的最好玩的模型論文。

一圖勝千言,可能說的就是如此吧。

而且細細想來,其實這種壓縮之法,也確實沒啥毛病。

我們總覺得文字是信息傳遞的巔峰。

但從整個人類歷史和生物進化的角度看,視覺,才是我們一直處理信息的最重要的手段。

在文字誕生之前的幾十萬年里,我們的祖先就是靠看來生存的。

看天色,看獵物,看同伴的表情,看親手刻下的壁畫。

在紙張和印刷術(shù)普及之前,人類是怎么記錄宏大敘事的?是壁畫,是浮雕。

埃及金字塔里的象形文字,敦煌莫高窟里的經(jīng)變畫,它們本身就是一種壓縮。古埃及人把復雜的祭祀、律法、歷史,壓縮在一幅幅畫里,等待別人去解壓。

從這個角度看,DeepSeek-OCR干的事,和當年的人類,其實也沒什么兩樣。

但是當我覺得,最頭皮發(fā)麻為之一振的話。

其實是論文的最后,他們寫的一點點希望討論的。

DeepSeek說,對于那些更古老的上下文,我們可以逐步縮小渲染出的圖像,以進一步減少令牌消耗。

這個假設(shè)的靈感,來自于一個非常自然且深刻的類比:

人類的記憶會隨著時間的推移而衰退,人類的視覺感知會隨著空間距離的拉遠而退化。


這種現(xiàn)象,它們都表現(xiàn)出了相似的、漸進式的信息丟失模式。

他們可以用“上下文光學壓縮”的方法,實現(xiàn)了一種記憶衰減形式。

比如圖表里,最左是 Text token,也就是不壓縮的純文本,信息保真;往右是把文字渲成圖再編碼成視覺 token 的不同模式,Gundam 比較豪華、細節(jié)多、花銷大,Large 再次之,Base、Small、Tiny 依次更省 token、也更模糊。

它幾乎,完美地鏡像了生物的遺忘曲線。

在這個機制下,最近的信息保持著高保真度,而遙遠的記憶則通過不斷提高的壓縮率,自然地褪色和淡忘。

這個機制,實在是太酷了。

很像是在探討,一種“數(shù)字生命”的可能形態(tài)。

我們一直以來追求的AI,是什么樣的?

是一個擁有無限記憶、絕對理性的“神”。

它不會遺忘,不會犯錯,像一臺完美的機器。

但我們自己是這樣的嗎?

不是。

遺忘,恰恰是人類智慧最重要的組成部分。

我們之所以能夠創(chuàng)新,能夠抓住重點,能夠在復雜的世界里做出決斷,正是因為我們的大腦懂得,放下。

我們會忘記那些不重要的細節(jié),我們會模糊那些久遠的傷痛,我們會把寶貴的認知資源,留給當下最重要的事情。

遺忘,還有錯誤,真的不是bug,是我們這個物種能夠延續(xù)至今的核心算法之一。

就像西部世界里的那句經(jīng)典臺詞。

在福特的理論中,進化形成了這個星球上有情感和知覺的生命體,“用的唯一工具,就是錯誤?!?/p>


遺忘,也是那個“錯誤”。

對DeepSeek-OCR感興趣的,可以去他們的項目網(wǎng)址看一看,體驗一下。

https://github.com/deepseek-ai/DeepSeek-OCR

但是,我也非常強烈的建議,大家也可以,去讀一讀這篇論文的原文。

不需要看那些很技術(shù)的原理和數(shù)學,只要看方法,還有范式,其實就能學到很多東西。

我把論文原文也放在公眾號后臺了,你對著后臺私信“OCR”,也會自動的發(fā)給你。


感謝DeepSeek。

惟愿我們。

國運昌隆。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普稱對英國首相的立場“非常失望”

特朗普稱對英國首相的立場“非常失望”

新華社
2026-03-02 22:06:40
哈梅內(nèi)伊身亡現(xiàn)場照片曝光

哈梅內(nèi)伊身亡現(xiàn)場照片曝光

名人茍或
2026-03-02 10:37:43
中方的資本,已經(jīng)開始不受管控了,政府必須要提高警惕!

中方的資本,已經(jīng)開始不受管控了,政府必須要提高警惕!

大靜吖
2026-02-07 23:30:36
王毅外長:今后世上再無“中國臺灣省”之外的任何模糊稱謂。

王毅外長:今后世上再無“中國臺灣省”之外的任何模糊稱謂。

南權(quán)先生
2026-02-02 15:59:44
內(nèi)塔尼亞胡辦公室遭猛烈襲擊!伊朗:摧毀美國一總領(lǐng)館及一軍事基地,擊落3架美軍機

內(nèi)塔尼亞胡辦公室遭猛烈襲擊!伊朗:摧毀美國一總領(lǐng)館及一軍事基地,擊落3架美軍機

新民晚報
2026-03-02 19:04:01
張?zhí)鞇鄣哪_真漂亮,頭一次看到這樣的腳丫子

張?zhí)鞇鄣哪_真漂亮,頭一次看到這樣的腳丫子

動物奇奇怪怪
2026-03-03 00:15:26
中國地震臺網(wǎng)正式測定:3月2日11時55分在日本火山列島地區(qū)(北緯23.10度,東經(jīng)144.15度)發(fā)生5.9級地震

中國地震臺網(wǎng)正式測定:3月2日11時55分在日本火山列島地區(qū)(北緯23.10度,東經(jīng)144.15度)發(fā)生5.9級地震

每日經(jīng)濟新聞
2026-03-02 12:26:27
為何說美國打伊朗實際針對的是中國?我們會不會出手取決一個條件

為何說美國打伊朗實際針對的是中國?我們會不會出手取決一個條件

阿胡
2026-03-02 11:53:54
北京女子奔赴河南見陌生男,一見面抱緊崩潰說:對不起,我來晚了

北京女子奔赴河南見陌生男,一見面抱緊崩潰說:對不起,我來晚了

觀察鑒娛
2026-03-02 10:22:34
內(nèi)賈德沒有死,秘書公布遇襲細節(jié)

內(nèi)賈德沒有死,秘書公布遇襲細節(jié)

世家寶
2026-03-02 14:06:27
伊朗反擊太快,只給以2小時,導彈從天而降,以色列民眾抱頭鼠竄

伊朗反擊太快,只給以2小時,導彈從天而降,以色列民眾抱頭鼠竄

書紀文譚
2026-03-02 17:24:46
英國、法國和德國聯(lián)合聲明

英國、法國和德國聯(lián)合聲明

澎湃新聞
2026-03-02 10:11:31
嚴厲制止網(wǎng)絡(luò)上過度宣揚“失業(yè)潮失業(yè)人數(shù)及躺平”等不良思想——

嚴厲制止網(wǎng)絡(luò)上過度宣揚“失業(yè)潮失業(yè)人數(shù)及躺平”等不良思想——

葉初七
2026-03-02 17:06:05
560名美軍死傷,彈藥庫劇烈大爆炸,伊朗導彈雨把以色列炸成火海

560名美軍死傷,彈藥庫劇烈大爆炸,伊朗導彈雨把以色列炸成火海

策略述
2026-03-02 14:41:25
伊朗4枚彈道導彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

伊朗4枚彈道導彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
伊朗生死關(guān)頭,一個關(guān)鍵人物走向前臺……

伊朗生死關(guān)頭,一個關(guān)鍵人物走向前臺……

補壹刀
2026-03-02 16:08:19
“伊朗德黑蘭飛烏魯木齊航班進入中國領(lǐng)空 機艙內(nèi)傳來廣播”視頻熱傳 川航:未開通伊朗航線

“伊朗德黑蘭飛烏魯木齊航班進入中國領(lǐng)空 機艙內(nèi)傳來廣播”視頻熱傳 川航:未開通伊朗航線

閃電新聞
2026-03-02 17:29:47
暴跌40%,關(guān)店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動了

暴跌40%,關(guān)店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動了

好賢觀史記
2026-03-02 20:17:10
涉美伊局勢,復旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

涉美伊局勢,復旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

都市快報橙柿互動
2026-03-02 15:33:41
一場戰(zhàn)爭把中國打醒!美軍最毒的不是裝備,中國用30年才真正看清

一場戰(zhàn)爭把中國打醒!美軍最毒的不是裝備,中國用30年才真正看清

達文西看世界
2026-03-02 14:25:12
2026-03-03 04:39:00
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
465文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

游戲
本地
時尚
健康
公開課

外媒給《寶可夢》新作60分:不夠有趣的縫合怪

本地新聞

津南好·四時總相宜

今年春天一定要擁有的4件衣服,太好看了!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版