国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

DeepSeek開源的新東西到底強(qiáng)在哪?我?guī)湍阏覍<覇柫藛?/h1>
0
分享至



本周,DeepSeek 新開源的 DeepSeek-OCR 在開源社區(qū)的熱度持續(xù)發(fā)酵。

人們興奮的點(diǎn)是:它不僅是一款新的光學(xué)字符識(shí)別模型,還更像是一次對 “ 大模型記憶機(jī)制 ” 的重新設(shè)計(jì)。

在 DeepSeek-OCR 的架構(gòu)中,圖像不再只是文字的載體,而是成為一種語義壓縮的中間語言。文字被渲染成圖像后,經(jīng)由 DeepEncoder 轉(zhuǎn)換為緊湊的視覺表征;這些視覺 token 既可以通過 DeepSeek 3B-MoE 模型還原為原始文本(這也是標(biāo)準(zhǔn)的 OCR 機(jī)制),也可以與其他輸入 token 與 prompt 結(jié)合,執(zhí)行問答、摘要、檢索等復(fù)雜任務(wù)。

通俗來說,就是我們可以把大量文字打包壓縮成一張圖片來節(jié)省空間,等需要使用的時(shí)候再解壓出來,甚至在一部分使用場景中,你甚至不需要解壓,直接用壓縮包就可以達(dá)成目的。



DeepSeek-OCR 模型架構(gòu)。圖源:
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

即便在 10× 壓縮比的條件下,模型的文本還原精度仍可達(dá) 97%。隨著大模型逐漸向越來越復(fù)雜的場景嵌入,上下文長度資源遠(yuǎn)不夠用甚至越來越不夠用,而基座模型在此參數(shù)上升級頗為緩慢的當(dāng)下,DeepSeek-OCR 的發(fā)布瞬間帶來很大的想象空間。

研究團(tuán)隊(duì)甚至還進(jìn)一步提出 “ 遺忘機(jī)制 ” 的構(gòu)想,模型可依據(jù)信息的 “ 時(shí)序遠(yuǎn)近 ”,在視覺壓縮階段主動(dòng)衰減細(xì)節(jié),從而實(shí)現(xiàn)一種類人記憶式的上下文管理。

那么,視覺 token 為何能在信息量不損失太多的情況下,比文本 token 少一個(gè)數(shù)量級?模型記憶能否完全用視覺邏輯來替代?DeepSeek-OCR 是否為解決大模型上下文長度受限的問題提供了一條現(xiàn)實(shí)可行的途徑?DeepSeek-OCR 反映了多模態(tài)大模型的什么發(fā)展趨勢?

帶著這些問題,知危與 Sand.ai 聯(lián)合創(chuàng)始人、首席科學(xué)家、《 Swin Transformer 》作者張拯進(jìn)行了簡單的對話。

知危:

同一段輸入,為什么視覺 token 可以比文本 token 的數(shù)量少得多,有沒有直觀或本質(zhì)的解釋?

張拯:

有兩種觀點(diǎn)。第一種,視覺是一個(gè) 2D 表達(dá),因此可以比 1D 的表達(dá)更高效。

第二種,高效的原因不是視覺 v.s. 文本,而是兩邊采用的 token 表達(dá)方式不同:做視覺表達(dá)的時(shí)候,我們是在一個(gè)高維的連續(xù)空間中做信息壓縮( 把 image patch 映射為一個(gè)高維特征 ),之前 LLM 里常用的 tokenizer( 把文本數(shù)據(jù)向量化的工具,通俗理解是一種把自然語言翻譯為機(jī)器能理解的語言的工具 )則實(shí)際上可以被認(rèn)為是在一個(gè)一維空間中做壓縮( 把文本映射為 id )。高維連續(xù)空間本來就有更好的表達(dá)能力,因此可以用更少的 token 數(shù)量來表達(dá)更多信息。其實(shí)文本也可以做成連續(xù)表達(dá),來大幅度減少文本 token,但是目前應(yīng)該沒有被很廣泛地用到 LLM 里。

這兩種觀點(diǎn),我 buy-in 第二種。

知危:

DeepSeek-OCR 相比過往的 OCR 模型,除了效率提升方面,還有哪些獨(dú)創(chuàng)性?

張拯:

我最近沒有特別研究過 OCR 模型的進(jìn)展,但基于我看過的一些信息,我覺得 DeepSeek-OCR 的技術(shù)本身好像并沒有非常特別的部分。但是在觀點(diǎn)上,“ 把視覺作為文本長上下文的壓縮介質(zhì) ”,這個(gè) idea 還是很棒的。這個(gè) idea 有路線上的啟發(fā)意義,相較于現(xiàn)在的多模態(tài)模型,DeepSeek-OCR 會(huì)使用兩種不同的 tokenizer 機(jī)制,這種路線也許會(huì)啟發(fā)更好的多模態(tài)模型設(shè)計(jì)方案。

知危:

這項(xiàng)技術(shù)對于基礎(chǔ)模型上下文長度難以擴(kuò)展的當(dāng)下,可以帶來多大的成本效益?對上下文工程的優(yōu)化有哪些好處?

張拯:

理論上最多能拿到 N^2 倍的收益,N 是 Vision Token 相較于 Text Token 的壓縮率。對于上下文工程的優(yōu)化,最大的好處應(yīng)該就是不用那么仔細(xì)地管理上下文長度了。

知危:

DeepSeek 設(shè)想的遺忘機(jī)制是否過于簡化?忽略了語義的重要性排序?

張拯:

這種設(shè)想肯定還是很初步的,但是也能腦洞出很多改進(jìn)的空間,比如語義重要的部分可以渲染成更大的字體?

知危:

Andrej Karpathy 認(rèn)為視覺 token 有潛力可以完全替代文本 token,因?yàn)樾畔嚎s、多模態(tài)、可雙向注意力處理、無需 tokenizer 等優(yōu)勢,您怎么看?

張拯:

大部分都同意,但是 “ 可雙向注意力處理 ” 這里有待探討,“ 可雙向注意力處理 ” 很大程度上和 training objective( 訓(xùn)練目標(biāo) )有關(guān)。

另外,如果后面都是處理視覺 token 了,是不是有機(jī)會(huì)讓模型能在一個(gè) 2D 的空間里做思考?從而帶來更高效的推理( 類似 GPT-4o 的 thinking with image )?這個(gè)我覺得還是挺有意思的。

知危:近期 Meta 也提出了一個(gè)無需 tokenizer 的模型架構(gòu) Byte Latent Transformer ,可以跳過 tokenization ,直接學(xué)習(xí)原始字節(jié)流。結(jié)合以上討論和領(lǐng)域現(xiàn)狀,您認(rèn)為這體現(xiàn)了多模態(tài)大模型的哪些發(fā)展趨勢?

張拯:

宏觀一點(diǎn)來看,不同模態(tài)模型的范式還是有機(jī)會(huì)持續(xù)進(jìn)化的。

更細(xì)節(jié)一點(diǎn)的話,我初步想到的有兩個(gè):

  • 現(xiàn)在的多模態(tài)大模型的主流做法基本上可以認(rèn)為在捏合各種不同的模態(tài)的模塊,整個(gè)訓(xùn)練 pipeline 其實(shí)還是有點(diǎn)復(fù)雜( 不優(yōu)雅 )的。大家肯定希望有更簡單、更統(tǒng)一的方式來處理。類似 DeepSeek-OCR 這樣的工作對我們開發(fā)更好的多模態(tài)模型范式還是挺有啟發(fā)的。
  • 離散表達(dá)和連續(xù)表達(dá)之間的關(guān)系,以及是否有更好的組合方式,可能也挺重要的。

( 對話全文完 )

總體來看,DeepSeek-OCR 更多是基于效率上的大幅提升啟發(fā)了一個(gè)新的路線。

當(dāng)模型的 “ 思考空間 ” 從一維文本拓展至二維視覺,思考和推理也可能變得更加高效和簡潔。而在技術(shù)層面,則指向當(dāng)前多模態(tài)大模型領(lǐng)域正等待一把 “ 奧卡姆剃刀 ” 簡化模型范式的時(shí)刻。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
老照片:1989年,哈梅內(nèi)伊訪華吃烤鴨

老照片:1989年,哈梅內(nèi)伊訪華吃烤鴨

年代回憶
2026-03-01 10:21:50
美國去年對華貿(mào)易逆差降至20年最低,一個(gè)時(shí)代結(jié)束了

美國去年對華貿(mào)易逆差降至20年最低,一個(gè)時(shí)代結(jié)束了

羅sir財(cái)話
2026-02-24 18:42:39
中國要做好戰(zhàn)爭準(zhǔn)備,中國的下場戰(zhàn)爭不是印度菲律賓越南而是日本

中國要做好戰(zhàn)爭準(zhǔn)備,中國的下場戰(zhàn)爭不是印度菲律賓越南而是日本

百態(tài)人間
2026-01-09 17:17:17
為什么很多小康家庭到了中年會(huì)返貧? 網(wǎng)友:只要輸一次,滿盤皆輸

為什么很多小康家庭到了中年會(huì)返貧? 網(wǎng)友:只要輸一次,滿盤皆輸

另子維愛讀史
2026-02-04 20:09:10
昨夜今晨美以襲擊伊朗事件進(jìn)展:特朗普稱同意與伊朗新領(lǐng)導(dǎo)層對話,伊朗多位軍事指揮官確認(rèn)死亡,特朗普稱對伊朗軍事行動(dòng)可能持續(xù)約4周

昨夜今晨美以襲擊伊朗事件進(jìn)展:特朗普稱同意與伊朗新領(lǐng)導(dǎo)層對話,伊朗多位軍事指揮官確認(rèn)死亡,特朗普稱對伊朗軍事行動(dòng)可能持續(xù)約4周

財(cái)聯(lián)社
2026-03-02 06:00:08
萬萬沒想到!正月十五還沒到,除雞蛋遇冷外 這5種蔬菜也賣不動(dòng)了

萬萬沒想到!正月十五還沒到,除雞蛋遇冷外 這5種蔬菜也賣不動(dòng)了

三農(nóng)雷哥
2026-03-01 18:00:51
伊朗導(dǎo)彈發(fā)出前一刻被以軍摧毀

伊朗導(dǎo)彈發(fā)出前一刻被以軍摧毀

現(xiàn)代快報(bào)
2026-03-01 23:04:59
1949年傅作義任水利部長遭閑置,主席當(dāng)面質(zhì)問,周恩來聽聞當(dāng)即發(fā)火

1949年傅作義任水利部長遭閑置,主席當(dāng)面質(zhì)問,周恩來聽聞當(dāng)即發(fā)火

磊子講史
2026-01-14 10:12:21
美國精英想不通:為什么每次要打壓中國時(shí),總有意外發(fā)生?

美國精英想不通:為什么每次要打壓中國時(shí),總有意外發(fā)生?

聚焦真實(shí)瞬間
2026-01-26 10:19:09
最懂 AI 的那撥人,都在讓自家孩子學(xué)什么?看完這篇刷屏文章,我終于不焦慮了

最懂 AI 的那撥人,都在讓自家孩子學(xué)什么?看完這篇刷屏文章,我終于不焦慮了

AI范兒
2026-02-28 13:06:42
血管有沒有硬化?方醫(yī)生教你2個(gè)簡單方法,自己在家算出來

血管有沒有硬化?方醫(yī)生教你2個(gè)簡單方法,自己在家算出來

健身狂人
2026-03-01 11:40:37
1951年,志愿軍首次動(dòng)用喀秋莎火箭炮轟擊美軍,李奇微見狀大驚:難道蘇軍已經(jīng)參戰(zhàn)了?

1951年,志愿軍首次動(dòng)用喀秋莎火箭炮轟擊美軍,李奇微見狀大驚:難道蘇軍已經(jīng)參戰(zhàn)了?

史海孤雁
2026-02-27 20:12:44
這樣的教材,教出來的究竟是人才還是蠢材?

這樣的教材,教出來的究竟是人才還是蠢材?

作家加野
2026-02-06 10:01:56
和老公賭氣出國三年,回來準(zhǔn)備離婚,開門卻看到他正照顧陌生老人

和老公賭氣出國三年,回來準(zhǔn)備離婚,開門卻看到他正照顧陌生老人

曉艾故事匯
2026-03-02 08:08:49
周琦+3海外回歸!男籃下個(gè)世預(yù)賽基本15選12,內(nèi)線鋒線實(shí)力強(qiáng)勁!

周琦+3海外回歸!男籃下個(gè)世預(yù)賽基本15選12,內(nèi)線鋒線實(shí)力強(qiáng)勁!

籃球資訊達(dá)人
2026-03-02 01:09:21
哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學(xué)真相

哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學(xué)真相

一口娛樂
2026-02-27 12:42:23
剛爽完9天春節(jié)長假?別高興太早!2027年春節(jié)可能沒這么舒服了

剛爽完9天春節(jié)長假?別高興太早!2027年春節(jié)可能沒這么舒服了

王姐懶人家常菜
2026-03-02 00:46:38
18歲亞馬爾刷新歷史!超越梅西,加冕巴薩最年輕戴帽傳奇!

18歲亞馬爾刷新歷史!超越梅西,加冕巴薩最年輕戴帽傳奇!

田先生籃球
2026-03-01 10:31:05
一個(gè)非常不好的消息:中國超2億獨(dú)生子女面臨的非常嚴(yán)峻問題。

一個(gè)非常不好的消息:中國超2億獨(dú)生子女面臨的非常嚴(yán)峻問題。

百態(tài)人間
2026-02-05 15:39:14
從曼聯(lián)棄將到切爾西水貨?加納喬面臨清洗危機(jī),離曼聯(lián)后發(fā)展堪憂

從曼聯(lián)棄將到切爾西水貨?加納喬面臨清洗危機(jī),離曼聯(lián)后發(fā)展堪憂

里芃芃體育
2026-03-02 05:00:03
2026-03-02 10:48:49

知危 incentive-icons
知危
投資不立危墻之下
539文章數(shù) 1833關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場5連勝!隊(duì)史第2人通過最大考驗(yàn)

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢影響如何?十大券商策略來了

汽車要聞

小米發(fā)布超跑! 游戲中對標(biāo)布加迪法拉利

態(tài)度原創(chuàng)

家居
數(shù)碼
親子
房產(chǎn)
旅游

家居要聞

萬物互聯(lián) 享科技福祉

數(shù)碼要聞

內(nèi)存成本前所未有:入門級PC將完全消失!不漲價(jià)根本不行

親子要聞

命運(yùn)這個(gè)東西,是真的存在的

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

旅游要聞

2月大事件集錦 | 一文讀遍旅游行業(yè)“新鮮事”!

無障礙瀏覽 進(jìn)入關(guān)懷版