国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek開源的新東西到底強(qiáng)在哪?我?guī)湍阏覍<覇柫藛?/h1>
0
分享至



本周,DeepSeek 新開源的 DeepSeek-OCR 在開源社區(qū)的熱度持續(xù)發(fā)酵。

人們興奮的點(diǎn)是:它不僅是一款新的光學(xué)字符識(shí)別模型,還更像是一次對(duì) “ 大模型記憶機(jī)制 ” 的重新設(shè)計(jì)。

在 DeepSeek-OCR 的架構(gòu)中,圖像不再只是文字的載體,而是成為一種語義壓縮的中間語言。文字被渲染成圖像后,經(jīng)由 DeepEncoder 轉(zhuǎn)換為緊湊的視覺表征;這些視覺 token 既可以通過 DeepSeek 3B-MoE 模型還原為原始文本(這也是標(biāo)準(zhǔn)的 OCR 機(jī)制),也可以與其他輸入 token 與 prompt 結(jié)合,執(zhí)行問答、摘要、檢索等復(fù)雜任務(wù)。

通俗來說,就是我們可以把大量文字打包壓縮成一張圖片來節(jié)省空間,等需要使用的時(shí)候再解壓出來,甚至在一部分使用場(chǎng)景中,你甚至不需要解壓,直接用壓縮包就可以達(dá)成目的。



DeepSeek-OCR 模型架構(gòu)。圖源:
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

即便在 10× 壓縮比的條件下,模型的文本還原精度仍可達(dá) 97%。隨著大模型逐漸向越來越復(fù)雜的場(chǎng)景嵌入,上下文長(zhǎng)度資源遠(yuǎn)不夠用甚至越來越不夠用,而基座模型在此參數(shù)上升級(jí)頗為緩慢的當(dāng)下,DeepSeek-OCR 的發(fā)布瞬間帶來很大的想象空間。

研究團(tuán)隊(duì)甚至還進(jìn)一步提出 “ 遺忘機(jī)制 ” 的構(gòu)想,模型可依據(jù)信息的 “ 時(shí)序遠(yuǎn)近 ”,在視覺壓縮階段主動(dòng)衰減細(xì)節(jié),從而實(shí)現(xiàn)一種類人記憶式的上下文管理。

那么,視覺 token 為何能在信息量不損失太多的情況下,比文本 token 少一個(gè)數(shù)量級(jí)?模型記憶能否完全用視覺邏輯來替代?DeepSeek-OCR 是否為解決大模型上下文長(zhǎng)度受限的問題提供了一條現(xiàn)實(shí)可行的途徑?DeepSeek-OCR 反映了多模態(tài)大模型的什么發(fā)展趨勢(shì)?

帶著這些問題,知危與 Sand.ai 聯(lián)合創(chuàng)始人、首席科學(xué)家、《 Swin Transformer 》作者張拯進(jìn)行了簡(jiǎn)單的對(duì)話。

知危:

同一段輸入,為什么視覺 token 可以比文本 token 的數(shù)量少得多,有沒有直觀或本質(zhì)的解釋?

張拯:

有兩種觀點(diǎn)。第一種,視覺是一個(gè) 2D 表達(dá),因此可以比 1D 的表達(dá)更高效。

第二種,高效的原因不是視覺 v.s. 文本,而是兩邊采用的 token 表達(dá)方式不同:做視覺表達(dá)的時(shí)候,我們是在一個(gè)高維的連續(xù)空間中做信息壓縮( 把 image patch 映射為一個(gè)高維特征 ),之前 LLM 里常用的 tokenizer( 把文本數(shù)據(jù)向量化的工具,通俗理解是一種把自然語言翻譯為機(jī)器能理解的語言的工具 )則實(shí)際上可以被認(rèn)為是在一個(gè)一維空間中做壓縮( 把文本映射為 id )。高維連續(xù)空間本來就有更好的表達(dá)能力,因此可以用更少的 token 數(shù)量來表達(dá)更多信息。其實(shí)文本也可以做成連續(xù)表達(dá),來大幅度減少文本 token,但是目前應(yīng)該沒有被很廣泛地用到 LLM 里。

這兩種觀點(diǎn),我 buy-in 第二種。

知危:

DeepSeek-OCR 相比過往的 OCR 模型,除了效率提升方面,還有哪些獨(dú)創(chuàng)性?

張拯:

我最近沒有特別研究過 OCR 模型的進(jìn)展,但基于我看過的一些信息,我覺得 DeepSeek-OCR 的技術(shù)本身好像并沒有非常特別的部分。但是在觀點(diǎn)上,“ 把視覺作為文本長(zhǎng)上下文的壓縮介質(zhì) ”,這個(gè) idea 還是很棒的。這個(gè) idea 有路線上的啟發(fā)意義,相較于現(xiàn)在的多模態(tài)模型,DeepSeek-OCR 會(huì)使用兩種不同的 tokenizer 機(jī)制,這種路線也許會(huì)啟發(fā)更好的多模態(tài)模型設(shè)計(jì)方案。

知危:

這項(xiàng)技術(shù)對(duì)于基礎(chǔ)模型上下文長(zhǎng)度難以擴(kuò)展的當(dāng)下,可以帶來多大的成本效益?對(duì)上下文工程的優(yōu)化有哪些好處?

張拯:

理論上最多能拿到 N^2 倍的收益,N 是 Vision Token 相較于 Text Token 的壓縮率。對(duì)于上下文工程的優(yōu)化,最大的好處應(yīng)該就是不用那么仔細(xì)地管理上下文長(zhǎng)度了。

知危:

DeepSeek 設(shè)想的遺忘機(jī)制是否過于簡(jiǎn)化?忽略了語義的重要性排序?

張拯:

這種設(shè)想肯定還是很初步的,但是也能腦洞出很多改進(jìn)的空間,比如語義重要的部分可以渲染成更大的字體?

知危:

Andrej Karpathy 認(rèn)為視覺 token 有潛力可以完全替代文本 token,因?yàn)樾畔嚎s、多模態(tài)、可雙向注意力處理、無需 tokenizer 等優(yōu)勢(shì),您怎么看?

張拯:

大部分都同意,但是 “ 可雙向注意力處理 ” 這里有待探討,“ 可雙向注意力處理 ” 很大程度上和 training objective( 訓(xùn)練目標(biāo) )有關(guān)。

另外,如果后面都是處理視覺 token 了,是不是有機(jī)會(huì)讓模型能在一個(gè) 2D 的空間里做思考?從而帶來更高效的推理( 類似 GPT-4o 的 thinking with image )?這個(gè)我覺得還是挺有意思的。

知危:近期 Meta 也提出了一個(gè)無需 tokenizer 的模型架構(gòu) Byte Latent Transformer ,可以跳過 tokenization ,直接學(xué)習(xí)原始字節(jié)流。結(jié)合以上討論和領(lǐng)域現(xiàn)狀,您認(rèn)為這體現(xiàn)了多模態(tài)大模型的哪些發(fā)展趨勢(shì)?

張拯:

宏觀一點(diǎn)來看,不同模態(tài)模型的范式還是有機(jī)會(huì)持續(xù)進(jìn)化的。

更細(xì)節(jié)一點(diǎn)的話,我初步想到的有兩個(gè):

  • 現(xiàn)在的多模態(tài)大模型的主流做法基本上可以認(rèn)為在捏合各種不同的模態(tài)的模塊,整個(gè)訓(xùn)練 pipeline 其實(shí)還是有點(diǎn)復(fù)雜( 不優(yōu)雅 )的。大家肯定希望有更簡(jiǎn)單、更統(tǒng)一的方式來處理。類似 DeepSeek-OCR 這樣的工作對(duì)我們開發(fā)更好的多模態(tài)模型范式還是挺有啟發(fā)的。
  • 離散表達(dá)和連續(xù)表達(dá)之間的關(guān)系,以及是否有更好的組合方式,可能也挺重要的。

( 對(duì)話全文完 )

總體來看,DeepSeek-OCR 更多是基于效率上的大幅提升啟發(fā)了一個(gè)新的路線。

當(dāng)模型的 “ 思考空間 ” 從一維文本拓展至二維視覺,思考和推理也可能變得更加高效和簡(jiǎn)潔。而在技術(shù)層面,則指向當(dāng)前多模態(tài)大模型領(lǐng)域正等待一把 “ 奧卡姆剃刀 ” 簡(jiǎn)化模型范式的時(shí)刻。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬杜羅被捕現(xiàn)場(chǎng)細(xì)節(jié)流出:古巴硬漢貼身安保,戰(zhàn)至最后盡忠職守

馬杜羅被捕現(xiàn)場(chǎng)細(xì)節(jié)流出:古巴硬漢貼身安保,戰(zhàn)至最后盡忠職守

裝甲鏟史官
2026-01-04 15:14:32
特朗普突然發(fā)動(dòng)戰(zhàn)爭(zhēng),中國代表團(tuán)還在委內(nèi)瑞拉!

特朗普突然發(fā)動(dòng)戰(zhàn)爭(zhēng),中國代表團(tuán)還在委內(nèi)瑞拉!

勝研集
2026-01-03 17:14:34
委內(nèi)瑞拉變天,俄智庫痛心疾首:無人機(jī)神話被破,中俄武器沒反應(yīng)

委內(nèi)瑞拉變天,俄智庫痛心疾首:無人機(jī)神話被破,中俄武器沒反應(yīng)

鐵錘簡(jiǎn)科
2026-01-04 13:22:26
馬杜羅被抓,特朗普道出真實(shí)目的,不到24小時(shí),中方3句話回應(yīng)

馬杜羅被抓,特朗普道出真實(shí)目的,不到24小時(shí),中方3句話回應(yīng)

時(shí)時(shí)有聊
2026-01-04 10:12:40
42歲金莎商演3首歌35萬,敬業(yè)凍紅胳膊堅(jiān)持掙干凈錢

42歲金莎商演3首歌35萬,敬業(yè)凍紅胳膊堅(jiān)持掙干凈錢

車窗起霧q
2026-01-04 11:37:31
就在周四!黃金白銀將迎新年“第一劫”:數(shù)十億美元拋單已在路上

就在周四!黃金白銀將迎新年“第一劫”:數(shù)十億美元拋單已在路上

財(cái)聯(lián)社
2026-01-04 12:38:04
美國全面接管委內(nèi)瑞拉石油,連鎖反應(yīng)開始了

美國全面接管委內(nèi)瑞拉石油,連鎖反應(yīng)開始了

販財(cái)局
2026-01-04 08:43:54
HarmonyOS的2025:從“可用”到“好用”,鴻蒙生態(tài)從突破走向成熟

HarmonyOS的2025:從“可用”到“好用”,鴻蒙生態(tài)從突破走向成熟

鈦媒體APP
2025-12-24 13:31:42
“最美新生兒”火了,似乎在娘胎整容化妝一般,全網(wǎng)都想沾喜氣

“最美新生兒”火了,似乎在娘胎整容化妝一般,全網(wǎng)都想沾喜氣

菁媽育兒
2026-01-03 12:44:30
美國抓走馬杜羅更多細(xì)節(jié):5000萬美元懸賞與神秘“哨兵”

美國抓走馬杜羅更多細(xì)節(jié):5000萬美元懸賞與神秘“哨兵”

澎湃新聞
2026-01-04 16:06:24
突發(fā)! 大批澳洲華人無法使用國內(nèi)app, Optus回應(yīng): 已阻斷和澳洲之間的全部聯(lián)網(wǎng)

突發(fā)! 大批澳洲華人無法使用國內(nèi)app, Optus回應(yīng): 已阻斷和澳洲之間的全部聯(lián)網(wǎng)

澳微Daily
2026-01-04 15:00:01
離婚2個(gè)月,54歲的李亞鵬再迎“噩耗”,海哈金喜一個(gè)字都沒說錯(cuò)

離婚2個(gè)月,54歲的李亞鵬再迎“噩耗”,海哈金喜一個(gè)字都沒說錯(cuò)

洲洲影視娛評(píng)
2026-01-04 16:17:19
2026年韓國最低時(shí)薪10320韓元!最低月薪是…

2026年韓國最低時(shí)薪10320韓元!最低月薪是…

奮斗在韓國
2026-01-04 14:03:39
“i茅臺(tái)”連續(xù)4天秒空,茅臺(tái)批發(fā)價(jià)再度跌破1499元

“i茅臺(tái)”連續(xù)4天秒空,茅臺(tái)批發(fā)價(jià)再度跌破1499元

第一財(cái)經(jīng)資訊
2026-01-04 10:48:26
魯比奧:馬杜羅于2020年在美國被起訴,他不是委內(nèi)瑞拉的合法總統(tǒng)

魯比奧:馬杜羅于2020年在美國被起訴,他不是委內(nèi)瑞拉的合法總統(tǒng)

偵姐有料
2026-01-04 01:32:40
特朗普威脅古巴、哥倫比亞

特朗普威脅古巴、哥倫比亞

界面新聞
2026-01-04 07:16:33
累計(jì)交付超百萬輛,鴻蒙智行加速全品類產(chǎn)品矩陣落地

累計(jì)交付超百萬輛,鴻蒙智行加速全品類產(chǎn)品矩陣落地

晚點(diǎn)LatePost
2025-12-30 12:17:26
大跳水!暴跌近40%!最近深圳人買爆了...

大跳水!暴跌近40%!最近深圳人買爆了...

深圳好玩
2026-01-04 12:50:13
新加坡科學(xué)院院士國大教授陳小元,被指涉及性不端行為遭校方解雇

新加坡科學(xué)院院士國大教授陳小元,被指涉及性不端行為遭校方解雇

知社學(xué)術(shù)圈
2026-01-04 15:47:09
演都不演了!田樸珺刪光合影,怒斥對(duì)方自私,王石徹底成“笑話”

演都不演了!田樸珺刪光合影,怒斥對(duì)方自私,王石徹底成“笑話”

查爾菲的筆記
2026-01-04 15:08:02
2026-01-04 18:08:49

知危 incentive-icons
知危
投資不立危墻之下
515文章數(shù) 1829關(guān)注度
往期回顧 全部

科技要聞

獨(dú)家|宇樹科技上市綠色通道被叫停

頭條要聞

2026年新年首個(gè)工作日 中紀(jì)委連打4“虎”

頭條要聞

2026年新年首個(gè)工作日 中紀(jì)委連打4“虎”

體育要聞

球隊(duì)陷入危難,一名44歲教練選擇復(fù)出打球

娛樂要聞

《小城大事》上星央八 熱血筑夢(mèng)正當(dāng)時(shí)

財(cái)經(jīng)要聞

委內(nèi)瑞拉變局對(duì)原油美元黃金的連鎖沖擊

汽車要聞

最高續(xù)航310km 嵐圖泰山8或?qū)⑸习肽臧l(fā)布

態(tài)度原創(chuàng)

時(shí)尚
游戲
手機(jī)
房產(chǎn)
親子

伊姐元旦熱推:電視劇《剝繭》;電視劇《玉茗茶骨》......

國產(chǎn)ARPG單機(jī)大作招新人!月薪1萬-1.5萬

手機(jī)要聞

滿屏都是雷軍、榮耀新機(jī)曝光、OPPO兒子齊行動(dòng)

房產(chǎn)要聞

單盤最高狂賣64億!海南樓市2025年最全榜單發(fā)布!

親子要聞

姥姥奶奶陪孩子玩可開心了

無障礙瀏覽 進(jìn)入關(guān)懷版