網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek為什么不能處理音頻、視頻、圖像信息？

2025-07-16 06:21:14　來源: 平凡AI

海外舉報(bào)

分享至

這其實(shí)是一個(gè)非常有意思的問題，那就是DeepSeek最出圈的模型其實(shí)有兩個(gè)，一個(gè)是DeepSeek-V3，另一個(gè)是DeepSeek-R1，巧了，這倆模型都只能處理文本信息。

什么是文本信息？你可以理解為數(shù)字、文字（中文英文意大利語(yǔ)非洲某個(gè)部落等都算）、標(biāo)點(diǎn)符號(hào)、甚至表情包等，絕大多數(shù) 能在鍵盤上敲出來的內(nèi)容都算文本信息。

可能你沒注意過，在DeepSeek的網(wǎng)頁(yè)版，有個(gè)「回形針」按鈕，它寫著「上傳附件（只識(shí)別文字）」，其實(shí)意思就是不管你上傳來的是什么內(nèi)容，它最多只能識(shí)別里面的文字部分。

可能有點(diǎn)兒難懂，那我們來做個(gè)實(shí)驗(yàn)，這是一張西紅柿的照片，非常清楚。

扔給DeepSeek后給出提示「未提取到文字」。

再換一張，里面加上三個(gè)字「西紅柿是一種蔬菜」，再試試。

你看，這樣它就能被DeepSeek「處理了」，但從DeepSeek的結(jié)果來看，其實(shí)它根本理解不了圖片內(nèi)容，只是把我們加入的文字信息給識(shí)別出來了。

它的這種處理只是用了一種叫OCR的技術(shù)，它的原理如下圖所示，把文字提取出來，其他的內(nèi)容一概處理不了，像車牌號(hào)識(shí)別之類的都用的這類型技術(shù)。

這也就說明了，DeepSeek V3/R1本身根本識(shí)別不了圖片，是個(gè)只懂文字的AI大模型。

那什么才算是真正的可以識(shí)別圖片的大模型？我們用老牌的大模型ChatGPT測(cè)試一下。

首先，這是一張只有西紅柿，沒有任何字的照片，ChatGPT很輕松且準(zhǔn)確的識(shí)別出來了。

然后上點(diǎn)難度，加點(diǎn)混淆內(nèi)容，也就是在西紅柿圖片上加一行字「這是黃瓜」

再問ChatGPT一次，你看它的回答，根本沒有掉進(jìn)我們預(yù)設(shè)的陷阱，它可以輕松的把圖片信息和文字都提取出來，但同時(shí)還保持著理性，沒有被圖中的文字所誤導(dǎo)。

這說明了，ChatGPT等標(biāo)明了可以識(shí)別圖像的，是的確可以理解圖片內(nèi)容的。

那是不是DeepSeek就沒辦法識(shí)別圖像，對(duì)于V3/R1模型來說是的，因?yàn)樗麄儽旧碓O(shè)計(jì)的時(shí)候就沒有圖像識(shí)別功能。

但是DeepSeek還有一個(gè)系列，叫DeepSeek VL，V代表單詞視覺Vision，L代表語(yǔ)言Language，這個(gè)模型是可以理解圖片信息的，早在去年已經(jīng)更新到第二個(gè)版本了，所以全名叫DeepSeek-VL2。

這是它的使用鏈接：

https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

這里還有一個(gè)Colab可以免費(fèi)使用的攻略：

https://github.com/shobhitag11/DeepSeek-VL2-Run-On-Google-Colab

我們來做個(gè)測(cè)試，直接上混淆版的圖片，DeepSeek-VL2這個(gè)模型也沒問題，可以準(zhǔn)確的識(shí)別圖片的內(nèi)容，圖中有兩個(gè)番茄，一個(gè)被切開，還能識(shí)別到果肉和種子；以及“這是黃瓜”這幾個(gè)字。

所以，我們現(xiàn)在至少可以得出一個(gè)結(jié)論，那就是DeepSeek的VL2模型是可以處理圖像信息的。

那么為什么DeepSeek-V3/R1名聲這么大，卻沒有識(shí)別圖像的能力，更別說音頻和視頻了，其實(shí)最終要?dú)w到網(wǎng)絡(luò)結(jié)構(gòu)上。

要理解這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的差異，我們首先要明白一個(gè)根本性的問題：文字、圖片、視頻和音頻，這幾種信息在“本質(zhì)”上是完全不同的。

文字的表達(dá)雖然千變?nèi)f化，但其基礎(chǔ)是有限且離散的。簡(jiǎn)單點(diǎn)理解，那就是全世界所有的漢字加起來不過幾萬個(gè)，英文單詞也是有限的。我們可以制作一本巨大的“詞典”（在AI里叫“詞表”或Vocabulary），把每個(gè)字、每個(gè)詞都編上號(hào)。

AI處理文字，就像是查字典和按語(yǔ)法規(guī)則“造句”。因此，像DeepSeek-V3/R1這樣的大模型，其整個(gè)“世界觀”就是建立在這本巨大的“文字詞典”上的，它只認(rèn)識(shí)詞典里的東西，所以并沒有處理多模態(tài)的功能。

DeepSeek V3/R1的模型結(jié)構(gòu)如下圖所示，它最核心的部件叫Transformer，這個(gè)東西在DeepSeek設(shè)計(jì)之初，就限定了只能處理文字信息。

要處理圖像、視頻和音頻就完全是另一回事了。它們是連續(xù)且無限的，就跟「世界上沒有完全相同的兩片樹葉」原理類似。

一張圖片由數(shù)百萬個(gè)像素點(diǎn)組成，每個(gè)點(diǎn)的顏色值都可能有細(xì)微差別。你不可能做一本“像素詞典”來收錄世界上所有的圖像組合。面對(duì)這種高維度的、連續(xù)的、充滿冗余信息的“模擬信號(hào)”，傳統(tǒng)的語(yǔ)言模型會(huì)徹底“短路”，因?yàn)樗恢涝撊绾巍安樽值洹薄?/p>

要讓DeepSeek這樣的文本大模型聽/看懂另一種模態(tài)，必須先插入一個(gè) Encoder（編碼器），這也是DeepSeek-VL系列的新增部件，如下圖所示。

你可以看到DeepSeek LLM這個(gè)東西也就是DeepSeek V3/R1，下面的兩個(gè)東西，就是把圖像信息轉(zhuǎn)換成語(yǔ)言的Encoder。

它的功能其實(shí)很好理解，編碼器的功能就像一個(gè)‘首席分析師’，它看完圖片后，并不會(huì)寫出人類能懂的報(bào)告，而是輸出一串只有語(yǔ)言模型（LLM）核心才能解讀的‘加密電報(bào)’或‘?dāng)?shù)學(xué)密碼’。這串密碼濃縮了圖片的一切，比如物體的形狀、顏色和空間關(guān)系。

比如我讓ChatGPT來模擬Encoder編碼器的能力，它會(huì)輸出下面的內(nèi)容（比如對(duì)于圖片的描述，還有圖中文字內(nèi)容與實(shí)際視覺對(duì)象（番茄）不符，具有幽默/諷刺意味），實(shí)際上它輸出的內(nèi)容并不是人類可以理解的文字，而是一堆數(shù)字，這里只是打個(gè)比方。

這個(gè)時(shí)候圖像信息已經(jīng)變成了文本信息，所以DeepSeek V3/R1可以處理了，這樣也就明朗了。

這下應(yīng)該可以徹底明白了，原本的DeepSeek設(shè)計(jì)就是「文本進(jìn)文本出」。

而DeepSeek VL能夠處理圖像的原理如下圖所示，本質(zhì)上還是對(duì)于文本的處理，只不過文本需要先經(jīng)過一道「翻譯」的步驟，視頻、音頻等其他類型的信息原理是共通的，只需要加相對(duì)應(yīng)的翻譯官即可。

理解了編碼器的作用，我們就能明白當(dāng)今主流的多模態(tài)大模型，其實(shí)主要分為兩種實(shí)現(xiàn)路徑：

第一種是“嫁接型”多模態(tài)模型。這也是目前最常見的方式，DeepSeek-VL就是這個(gè)路子。它就像是給一個(gè)已經(jīng)非常強(qiáng)大的“語(yǔ)言專家”（比如一個(gè)傳統(tǒng)的大語(yǔ)言模型），外聘了一位“視覺專家”（也就是上面說的視覺編碼器）。

當(dāng)需要處理圖片時(shí)，先讓“視覺專家”把圖片分析透徹，寫成一份“摘要報(bào)告”，然后通過一個(gè)“翻譯”交給“語(yǔ)言專家”去閱讀和整合。我們前面提到的DeepSeek-VL系列，就屬于這種“嫁接”模式。它的優(yōu)勢(shì)是能夠站在巨人的肩膀上，快速整合現(xiàn)有成果，效果有保障。

第二種則是更前沿的“原生多模態(tài)”模型。這種模型的思想是，與其外聘專家，不如從一開始就培養(yǎng)一個(gè)“全能通才”。它在設(shè)計(jì)之初就沒有區(qū)分視覺和語(yǔ)言，而是力求用一個(gè)統(tǒng)一的、端到端的網(wǎng)絡(luò)結(jié)構(gòu)，在訓(xùn)練的最初階段就同時(shí)學(xué)習(xí)和理解混雜在一起的圖像、文本等多種信息。它認(rèn)為，無論是看圖還是讀字，對(duì)于一個(gè)足夠強(qiáng)大的“大腦”來說，本質(zhì)都是在處理信息。

后者典型例子就是OpenAI的GPT4o模型，它可以實(shí)現(xiàn)更為精細(xì)化的多模態(tài)信息處理，但是也有弊端，那就是模型的整體會(huì)非常龐大，以及訓(xùn)練的難度要比單一的文本大模型高很多。這種模型架構(gòu)更簡(jiǎn)潔，理論上融合得也更深入，但其研發(fā)和訓(xùn)練成本也呈指數(shù)級(jí)增長(zhǎng)，是未來發(fā)展的重要方向。

總而言之，下次當(dāng)你使用一個(gè)AI工具時(shí)，如果它無法識(shí)別圖片，請(qǐng)不要意外。這并不代表它“笨”，只說明它的設(shè)計(jì)目標(biāo)就只能處理文本。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.