国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek為什么不能處理音頻、視頻、圖像信息?

0
分享至

這其實(shí)是一個(gè)非常有意思的問題,那就是DeepSeek最出圈的模型其實(shí)有兩個(gè),一個(gè)是DeepSeek-V3,另一個(gè)是DeepSeek-R1,巧了,這倆模型都只能處理文本信息。

什么是文本信息?你可以理解為數(shù)字、文字(中文英文意大利語(yǔ)非洲某個(gè)部落等都算)、標(biāo)點(diǎn)符號(hào)、甚至表情包等,絕大多數(shù) 能在鍵盤上敲出來的內(nèi)容都算文本信息。

可能你沒注意過,在DeepSeek的網(wǎng)頁(yè)版,有個(gè)「回形針」按鈕,它寫著「上傳附件(只識(shí)別文字)」,其實(shí)意思就是不管你上傳來的是什么內(nèi)容,它最多只能識(shí)別里面的文字部分。


可能有點(diǎn)兒難懂,那我們來做個(gè)實(shí)驗(yàn),這是一張西紅柿的照片,非常清楚。


扔給DeepSeek后給出提示「未提取到文字」。


再換一張,里面加上三個(gè)字「西紅柿是一種蔬菜」,再試試。


你看,這樣它就能被DeepSeek「處理了」,但從DeepSeek的結(jié)果來看,其實(shí)它根本理解不了圖片內(nèi)容,只是把我們加入的文字信息給識(shí)別出來了。


它的這種處理只是用了一種叫OCR的技術(shù),它的原理如下圖所示,把文字提取出來,其他的內(nèi)容一概處理不了,像車牌號(hào)識(shí)別之類的都用的這類型技術(shù)。


這也就說明了,DeepSeek V3/R1本身根本識(shí)別不了圖片,是個(gè)只懂文字的AI大模型。

那什么才算是真正的可以識(shí)別圖片的大模型?我們用老牌的大模型ChatGPT測(cè)試一下。

首先,這是一張只有西紅柿,沒有任何字的照片,ChatGPT很輕松且準(zhǔn)確的識(shí)別出來了。


然后上點(diǎn)難度,加點(diǎn)混淆內(nèi)容,也就是在西紅柿圖片上加一行字「這是黃瓜」


再問ChatGPT一次,你看它的回答,根本沒有掉進(jìn)我們預(yù)設(shè)的陷阱,它可以輕松的把圖片信息和文字都提取出來,但同時(shí)還保持著理性,沒有被圖中的文字所誤導(dǎo)。


這說明了,ChatGPT等標(biāo)明了可以識(shí)別圖像的,是的確可以理解圖片內(nèi)容的。

那是不是DeepSeek就沒辦法識(shí)別圖像,對(duì)于V3/R1模型來說是的,因?yàn)樗麄儽旧碓O(shè)計(jì)的時(shí)候就沒有圖像識(shí)別功能。

但是DeepSeek還有一個(gè)系列,叫DeepSeek VL,V代表單詞視覺Vision,L代表語(yǔ)言Language,這個(gè)模型是可以理解圖片信息的,早在去年已經(jīng)更新到第二個(gè)版本了,所以全名叫DeepSeek-VL2。


這是它的使用鏈接:

https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

這里還有一個(gè)Colab可以免費(fèi)使用的攻略:

https://github.com/shobhitag11/DeepSeek-VL2-Run-On-Google-Colab

我們來做個(gè)測(cè)試,直接上混淆版的圖片,DeepSeek-VL2這個(gè)模型也沒問題,可以準(zhǔn)確的識(shí)別圖片的內(nèi)容,圖中有兩個(gè)番茄,一個(gè)被切開,還能識(shí)別到果肉和種子;以及“這是黃瓜”這幾個(gè)字。


所以,我們現(xiàn)在至少可以得出一個(gè)結(jié)論,那就是DeepSeek的VL2模型是可以處理圖像信息的。

那么為什么DeepSeek-V3/R1名聲這么大,卻沒有識(shí)別圖像的能力,更別說音頻和視頻了,其實(shí)最終要?dú)w到網(wǎng)絡(luò)結(jié)構(gòu)上。

要理解這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的差異,我們首先要明白一個(gè)根本性的問題:文字、圖片、視頻和音頻,這幾種信息在“本質(zhì)”上是完全不同的。

文字的表達(dá)雖然千變?nèi)f化,但其基礎(chǔ)是有限且離散的。簡(jiǎn)單點(diǎn)理解,那就是全世界所有的漢字加起來不過幾萬個(gè),英文單詞也是有限的。我們可以制作一本巨大的“詞典”(在AI里叫“詞表”或Vocabulary),把每個(gè)字、每個(gè)詞都編上號(hào)。

AI處理文字,就像是查字典和按語(yǔ)法規(guī)則“造句”。因此,像DeepSeek-V3/R1這樣的大模型,其整個(gè)“世界觀”就是建立在這本巨大的“文字詞典”上的,它只認(rèn)識(shí)詞典里的東西,所以并沒有處理多模態(tài)的功能。

DeepSeek V3/R1的模型結(jié)構(gòu)如下圖所示,它最核心的部件叫Transformer,這個(gè)東西在DeepSeek設(shè)計(jì)之初,就限定了只能處理文字信息。


要處理圖像、視頻和音頻就完全是另一回事了。它們是連續(xù)且無限的,就跟「世界上沒有完全相同的兩片樹葉」原理類似。

一張圖片由數(shù)百萬個(gè)像素點(diǎn)組成,每個(gè)點(diǎn)的顏色值都可能有細(xì)微差別。你不可能做一本“像素詞典”來收錄世界上所有的圖像組合。面對(duì)這種高維度的、連續(xù)的、充滿冗余信息的“模擬信號(hào)”,傳統(tǒng)的語(yǔ)言模型會(huì)徹底“短路”,因?yàn)樗恢涝撊绾巍安樽值洹薄?/p>

要讓DeepSeek這樣的文本大模型聽/看懂另一種模態(tài),必須先插入一個(gè) Encoder(編碼器),這也是DeepSeek-VL系列的新增部件,如下圖所示。

你可以看到DeepSeek LLM這個(gè)東西也就是DeepSeek V3/R1,下面的兩個(gè)東西,就是把圖像信息轉(zhuǎn)換成語(yǔ)言的Encoder。


它的功能其實(shí)很好理解,編碼器的功能就像一個(gè)‘首席分析師’,它看完圖片后,并不會(huì)寫出人類能懂的報(bào)告,而是輸出一串只有語(yǔ)言模型(LLM)核心才能解讀的‘加密電報(bào)’或‘?dāng)?shù)學(xué)密碼’。這串密碼濃縮了圖片的一切,比如物體的形狀、顏色和空間關(guān)系。

比如我讓ChatGPT來模擬Encoder編碼器的能力,它會(huì)輸出下面的內(nèi)容(比如對(duì)于圖片的描述,還有圖中文字內(nèi)容與實(shí)際視覺對(duì)象(番茄)不符,具有幽默/諷刺意味),實(shí)際上它輸出的內(nèi)容并不是人類可以理解的文字,而是一堆數(shù)字,這里只是打個(gè)比方。


這個(gè)時(shí)候圖像信息已經(jīng)變成了文本信息,所以DeepSeek V3/R1可以處理了,這樣也就明朗了。

這下應(yīng)該可以徹底明白了,原本的DeepSeek設(shè)計(jì)就是「文本進(jìn)文本出」。


而DeepSeek VL能夠處理圖像的原理如下圖所示,本質(zhì)上還是對(duì)于文本的處理,只不過文本需要先經(jīng)過一道「翻譯」的步驟,視頻、音頻等其他類型的信息原理是共通的,只需要加相對(duì)應(yīng)的翻譯官即可。


理解了編碼器的作用,我們就能明白當(dāng)今主流的多模態(tài)大模型,其實(shí)主要分為兩種實(shí)現(xiàn)路徑:

第一種是“嫁接型”多模態(tài)模型。這也是目前最常見的方式,DeepSeek-VL就是這個(gè)路子。它就像是給一個(gè)已經(jīng)非常強(qiáng)大的“語(yǔ)言專家”(比如一個(gè)傳統(tǒng)的大語(yǔ)言模型),外聘了一位“視覺專家”(也就是上面說的視覺編碼器)。

當(dāng)需要處理圖片時(shí),先讓“視覺專家”把圖片分析透徹,寫成一份“摘要報(bào)告”,然后通過一個(gè)“翻譯”交給“語(yǔ)言專家”去閱讀和整合。我們前面提到的DeepSeek-VL系列,就屬于這種“嫁接”模式。它的優(yōu)勢(shì)是能夠站在巨人的肩膀上,快速整合現(xiàn)有成果,效果有保障。

第二種則是更前沿的“原生多模態(tài)”模型。這種模型的思想是,與其外聘專家,不如從一開始就培養(yǎng)一個(gè)“全能通才”。它在設(shè)計(jì)之初就沒有區(qū)分視覺和語(yǔ)言,而是力求用一個(gè)統(tǒng)一的、端到端的網(wǎng)絡(luò)結(jié)構(gòu),在訓(xùn)練的最初階段就同時(shí)學(xué)習(xí)和理解混雜在一起的圖像、文本等多種信息。它認(rèn)為,無論是看圖還是讀字,對(duì)于一個(gè)足夠強(qiáng)大的“大腦”來說,本質(zhì)都是在處理信息。

后者典型例子就是OpenAI的GPT4o模型,它可以實(shí)現(xiàn)更為精細(xì)化的多模態(tài)信息處理,但是也有弊端,那就是模型的整體會(huì)非常龐大,以及訓(xùn)練的難度要比單一的文本大模型高很多。這種模型架構(gòu)更簡(jiǎn)潔,理論上融合得也更深入,但其研發(fā)和訓(xùn)練成本也呈指數(shù)級(jí)增長(zhǎng),是未來發(fā)展的重要方向。

總而言之,下次當(dāng)你使用一個(gè)AI工具時(shí),如果它無法識(shí)別圖片,請(qǐng)不要意外。這并不代表它“笨”,只說明它的設(shè)計(jì)目標(biāo)就只能處理文本。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
臺(tái)灣海域突發(fā)6.6級(jí)地震,多地震感強(qiáng)烈!有上海高層住戶感受到搖晃

臺(tái)灣海域突發(fā)6.6級(jí)地震,多地震感強(qiáng)烈!有上海高層住戶感受到搖晃

縱相新聞
2025-12-28 08:37:04
床在晃、樓在搖!杭州網(wǎng)友:震感明顯,有人穿睡衣跑下樓!臺(tái)灣突發(fā)6.6級(jí)地震

床在晃、樓在搖!杭州網(wǎng)友:震感明顯,有人穿睡衣跑下樓!臺(tái)灣突發(fā)6.6級(jí)地震

爆笑大聰明阿衿
2025-12-27 23:50:20
奪冠半月突遭解約!張本智和兄妹雙雙失業(yè),背后3大真相太扎心

奪冠半月突遭解約!張本智和兄妹雙雙失業(yè),背后3大真相太扎心

卿子書
2025-12-28 08:50:29
83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆 給阿森納施壓

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆 給阿森納施壓

葉青足球世界
2025-12-27 22:22:52
港媒發(fā)布文章《徐湖平父親究竟是誰(shuí)》,沒多久遭到微博屏蔽

港媒發(fā)布文章《徐湖平父親究竟是誰(shuí)》,沒多久遭到微博屏蔽

映射生活的身影
2025-12-27 19:34:50
銀行女經(jīng)理挪用12個(gè)儲(chǔ)戶3000萬,事發(fā)后與丈夫雙雙自盡,儲(chǔ)戶天塌了

銀行女經(jīng)理挪用12個(gè)儲(chǔ)戶3000萬,事發(fā)后與丈夫雙雙自盡,儲(chǔ)戶天塌了

觀世記
2025-12-27 15:02:35
三隊(duì)競(jìng)爭(zhēng)濃眉!獨(dú)行俠不滿勇士交易籌碼 老鷹三人更有吸引力?

三隊(duì)競(jìng)爭(zhēng)濃眉!獨(dú)行俠不滿勇士交易籌碼 老鷹三人更有吸引力?

羅說NBA
2025-12-28 07:12:49
“老錢”車主天塌了!被飯盒扯下了遮羞布,新貴車主吃起了豪華餐

“老錢”車主天塌了!被飯盒扯下了遮羞布,新貴車主吃起了豪華餐

品牌觀察官
2025-12-27 19:26:29
林強(qiáng)涉案989億被抓!生活奢華超過中東富豪,超5萬百姓血本無歸

林強(qiáng)涉案989億被抓!生活奢華超過中東富豪,超5萬百姓血本無歸

千言?shī)蕵酚?/span>
2025-12-27 20:07:06
荒誕到什么地步,才會(huì)衍生出這樣騙局!

荒誕到什么地步,才會(huì)衍生出這樣騙局!

胖胖說他不胖
2025-12-27 10:00:10
山西省司法廳原一級(jí)巡視員周濤接受審查調(diào)查

山西省司法廳原一級(jí)巡視員周濤接受審查調(diào)查

界面新聞
2025-12-28 11:31:42
湖人再次開會(huì)!雷迪克決定變陣:詹姆斯回歸后我們進(jìn)攻端缺乏章法

湖人再次開會(huì)!雷迪克決定變陣:詹姆斯回歸后我們進(jìn)攻端缺乏章法

羅說NBA
2025-12-28 06:56:59
康熙將鰲拜滿門抄斬,問其女:可知罪?女孩反問他,當(dāng)場(chǎng)臉色大變

康熙將鰲拜滿門抄斬,問其女:可知罪?女孩反問他,當(dāng)場(chǎng)臉色大變

千秋文化
2025-12-24 23:35:07
“奶奶喜喪,能來送送最后一程嗎?”哈爾濱女子因朋友少謙卑求助,眾多網(wǎng)友冒大雪趕來

“奶奶喜喪,能來送送最后一程嗎?”哈爾濱女子因朋友少謙卑求助,眾多網(wǎng)友冒大雪趕來

瀟湘晨報(bào)
2025-12-27 19:16:16
54歲埃梅里封神!震撼11連勝創(chuàng)111年紀(jì)錄 已掀翻5豪門+阿森納顫抖

54歲埃梅里封神!震撼11連勝創(chuàng)111年紀(jì)錄 已掀翻5豪門+阿森納顫抖

我愛英超
2025-12-28 03:55:16
戴佩妮成都站深情開唱,現(xiàn)場(chǎng)宣布取消北京、廣州兩站

戴佩妮成都站深情開唱,現(xiàn)場(chǎng)宣布取消北京、廣州兩站

封面新聞
2025-12-28 07:53:05
顧客稱在店內(nèi)飲用星巴克競(jìng)品,被工作人員提醒“盡快喝完”或“套上星巴克杯套”,星巴克回應(yīng)→

顧客稱在店內(nèi)飲用星巴克競(jìng)品,被工作人員提醒“盡快喝完”或“套上星巴克杯套”,星巴克回應(yīng)→

930老友記
2025-12-27 22:15:37
0比4慘?。?0歲陳熠顯現(xiàn)巨大差距,網(wǎng)友感嘆:毫無還手之力

0比4慘?。?0歲陳熠顯現(xiàn)巨大差距,網(wǎng)友感嘆:毫無還手之力

卿子書
2025-12-28 08:49:16
元旦,別再說“元旦快樂”,太土!試試這20句,一看就是文化人

元旦,別再說“元旦快樂”,太土!試試這20句,一看就是文化人

狼小妖
2025-12-27 00:13:54
姜昆助理辟謠不到24小時(shí),慘遭網(wǎng)友"打臉",視頻拍攝者:等吃官司

姜昆助理辟謠不到24小時(shí),慘遭網(wǎng)友"打臉",視頻拍攝者:等吃官司

奇思妙想草葉君
2025-12-27 10:34:04
2025-12-28 12:24:49
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

AR眼鏡第一案,究竟在爭(zhēng)什么?

頭條要聞

非機(jī)動(dòng)車道設(shè)20余個(gè)"臺(tái)階"市民吐槽路太顛簸 官方回應(yīng)

頭條要聞

非機(jī)動(dòng)車道設(shè)20余個(gè)"臺(tái)階"市民吐槽路太顛簸 官方回應(yīng)

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

姚晨打卡絕版機(jī)位 高崎機(jī)場(chǎng)背后的遺憾

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

本地
健康
旅游
房產(chǎn)
軍事航空

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

這些新療法,讓化療不再那么痛苦

旅游要聞

又聞寒冬臘梅香

房產(chǎn)要聞

年銷20億+!中交·藍(lán)色港灣用好房子致敬好生活

軍事要聞

與特朗普會(huì)晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進(jìn)入關(guān)懷版