国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓 LLM 既能“看”又能“推理”!

0
分享至

點擊下方“JavaEdge”,選擇“設為星標”

第一時間關(guān)注技術(shù)干貨!


免責聲明~ 任何文章不要過度深思! 萬事萬物都經(jīng)不起審視,因為世上沒有同樣的成長環(huán)境,也沒有同樣的認知水平,更「沒有適用于所有人的解決方案」; 不要急著評判文章列出的觀點,只需代入其中,適度審視一番自己即可,能「跳脫出來從外人的角度看看現(xiàn)在的自己處在什么樣的階段」才不為俗人。 怎么想、怎么做,全在乎自己「不斷實踐中尋找適合自己的大道」

DeepSeek-R1 會推理,GPT-4o 會看。能否讓

1 LLM既能看又能推理?

DeepSeek-R1取得很大成功,但它有個問題——無法處理圖像輸入。

1.1 DeepSeek模型發(fā)展

自2024.12,DeepSeek已發(fā)布:

  • DeepSeek-V3(2024.12):視覺語言模型(VLM),支持圖像和文本輸入,類似 GPT-4o

  • DeepSeek-R1(2025.1):大規(guī)模推理模型(LRM),僅支持文本輸入,但具備更強的推理能力,類似 OpenAI-o1

我們已領(lǐng)略視覺語言模型(VLM)和大規(guī)模推理模型(LRM),下一個是誰?

我們需要視覺推理模型(VRM)——既能看又能推理。本文探討如何實現(xiàn)它。

2 現(xiàn)有模型的問題

當前VLM 不能很好推理,而 LRM 只能處理文本,無法理解視覺信息。若想要一個既能看懂圖像,又能深度推理的模型?

物理問題示例

我是一個學生,向 LLM 提問物理問題,并附帶一張圖像。

就需要一個模型能同時:

  1. 理解圖像內(nèi)容

  2. 進行深度推理(如分析問題、評估答案、考慮多種可能性)

就需要一個大規(guī)模視覺推理模型(VRM),視覺推理模型示意圖:

討論咋訓練 VRM 之前,先了解VLM(視覺語言模型)架構(gòu)。

3 VLM架構(gòu)

如LLaVA,LargeLanguageandVisionAssistant(大規(guī)模語言與視覺助手),2023年底發(fā)布的知名 VLM。

LLM 通常采用 Transformer 結(jié)構(gòu),輸入文本后將其轉(zhuǎn)化為 token,再通過數(shù)學計算預測下一個 token。

如若輸入文本"Donald Trump is the",LLM可能預測下一 token 為"POTUS"(美國總統(tǒng))。LLM 預測過程示意圖:

那VLM咋工作的?VLM不僅根據(jù)前面的文本預測輸出,還會參考輸入的圖像。VLM 預測過程示意圖:

咋讓 LLM 理解圖像?

4 VLM咋處理圖像輸入?

核心思路:將圖像數(shù)據(jù)轉(zhuǎn)換成 LLM 能理解的格式。

LLaVA論文用CLIP 視覺編碼器將圖像轉(zhuǎn)化為向量。然后,在編碼器后添加一個可訓練的線性層。圖像編碼示意圖:

最終的視覺隱藏狀態(tài)(Hv)會與文本 token 的隱藏狀態(tài)拼接在一起,輸入 Transformer 層,最后生成預測結(jié)果。

LLaVA 在這里使用的是Vicuna作為 LLM。

不過,僅僅有這個結(jié)構(gòu)是不夠的,模型還需要訓練,才能真正理解圖像內(nèi)容。

5 VLM咋訓練?

LLaVA 采用了**端到端微調(diào)(End-to-End Fine-tuning)**的方式。

★ 端到端微調(diào):將整個模型視作一個黑盒,并進行整體訓練。 ”

LLaVA 端到端微調(diào)示意圖:

訓練時,CLIP編碼器的參數(shù)通常是凍結(jié)的,只更新線性層(W)和 LLM(?)的參數(shù)。LLaVA 微調(diào)過程示意圖:

RL在 LLM 領(lǐng)域表現(xiàn)出色,提升了推理能力(如 RLHF 訓練的 GPT-4)。若用 RL 訓練 VLM,是否能打造更強的視覺推理模型?

圖像分類任務為例。

6.1 任務定義:圖像分類

訓練時,希望模型能根據(jù)圖像內(nèi)容,輸出正確的類別標簽。

數(shù)據(jù)集中的每條數(shù)據(jù)包括:圖像、標題(正確答案)、問題。

可設計兩種獎勵機制:

  1. 正確性獎勵:如果模型輸出的答案正確(例如"dog"),則獎勵 +1。

    格式獎勵:如果模型按照固定格式輸出(先思考 ,再回答 ),則額外獎勵。

    這可鼓勵模型在回答前進行推理,而不是盲目給出答案。

    7 實際應用

    VLM目前在某些場景仍表現(xiàn)不佳,如數(shù)學和科學類問題。

    如題目正確答案2 bpm,但 GPT-4o 回答錯誤:

    GPT-4o錯誤回答:

    如能讓 LLM 在視覺推理方面更強,或許能正確解答。期望的 VRM 結(jié)果:

    本文已收錄在Github Java-Interview-Tutorial,關(guān)注我,緊跟本系列專欄文章,咱們下篇再續(xù)!

    • 魔都架構(gòu)師 | 全網(wǎng)30W+技術(shù)追隨者

    • 大廠分布式系統(tǒng)/數(shù)據(jù)中臺實戰(zhàn)專家

    • 主導交易系統(tǒng)億級流量調(diào)優(yōu) & 車聯(lián)網(wǎng)平臺架構(gòu)

    • AIGC應用開發(fā)先行者 | 區(qū)塊鏈落地實踐者

    • 以技術(shù)驅(qū)動創(chuàng)新,我們的征途是改變世界!

    • 實戰(zhàn)干貨:編程嚴選網(wǎng)

    關(guān)注我,緊跟本系列專欄文章,咱們下篇再續(xù)!

    加我好友,一起AI探索交流:

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
鰲太線2死1墜崖事件完整經(jīng)過梳理:19歲高顏女大學生被活活凍死!

鰲太線2死1墜崖事件完整經(jīng)過梳理:19歲高顏女大學生被活活凍死!

不二表姐
2026-01-10 22:29:28
俄駐委大使披露詳情:馬杜羅及妻子被控制時,身邊實際上沒有任何人;防空系統(tǒng)的遠程預警站通信出了問題

俄駐委大使披露詳情:馬杜羅及妻子被控制時,身邊實際上沒有任何人;防空系統(tǒng)的遠程預警站通信出了問題

揚子晚報
2026-01-11 11:42:19
土葬大調(diào)整!2026年3月施行,耕地上老墳拆不拆?補貼明細來了!

土葬大調(diào)整!2026年3月施行,耕地上老墳拆不拆?補貼明細來了!

老特有話說
2026-01-10 17:37:12
這個媽媽憑什么打敗國乒?

這個媽媽憑什么打敗國乒?

新民晚報
2026-01-11 09:56:19
日本人的祖先究竟是誰?美國教授拿出DNA,日本人懵了

日本人的祖先究竟是誰?美國教授拿出DNA,日本人懵了

馬探解說體育
2026-01-09 18:22:53
伊朗警告美方:若遭攻擊必將還擊

伊朗警告美方:若遭攻擊必將還擊

國際在線
2026-01-11 15:30:07
索要獎金、猥褻女隊員、夫人吃空餉?亞運會三金得主王莉再發(fā)聲,此前稱不敢再呆在家中

索要獎金、猥褻女隊員、夫人吃空餉?亞運會三金得主王莉再發(fā)聲,此前稱不敢再呆在家中

新民周刊
2026-01-10 18:49:33
女子面試收到66元紅包和感謝信,網(wǎng)友大贊“神仙公司”,負責人:應聘者付出了時間和誠意,我們應該感謝

女子面試收到66元紅包和感謝信,網(wǎng)友大贊“神仙公司”,負責人:應聘者付出了時間和誠意,我們應該感謝

極目新聞
2026-01-11 12:58:16
多哈冠軍賽:林詩棟男單四強出局,奧運亞軍意外落敗

多哈冠軍賽:林詩棟男單四強出局,奧運亞軍意外落敗

大昆說臺球
2026-01-10 22:47:58
宋彬彬晚年回國道歉仍不被原諒,其父宋任窮也不愿提起她,為何

宋彬彬晚年回國道歉仍不被原諒,其父宋任窮也不愿提起她,為何

雍親王府
2026-01-09 15:20:02
5人違規(guī)穿越鰲太線3人遇難,救援人員講述搜救細節(jié):一個規(guī)避罰款的決定,徹底斷絕了他們獲救的希望

5人違規(guī)穿越鰲太線3人遇難,救援人員講述搜救細節(jié):一個規(guī)避罰款的決定,徹底斷絕了他們獲救的希望

極目新聞
2026-01-11 16:42:27
突發(fā)!東契奇被毆打,NBA正式官宣,禁賽3場,8000萬合同成導火索

突發(fā)!東契奇被毆打,NBA正式官宣,禁賽3場,8000萬合同成導火索

球童無忌
2026-01-11 14:52:34
跨年夜男子酒后外出,中途下車后溺亡,同飲者稱其執(zhí)意下車,已與家屬協(xié)商賠償30萬元

跨年夜男子酒后外出,中途下車后溺亡,同飲者稱其執(zhí)意下車,已與家屬協(xié)商賠償30萬元

紅星新聞
2026-01-11 16:52:09
王曼昱3-4引發(fā)連鎖反應!王勵勤動真格,孫穎莎專打削球手

王曼昱3-4引發(fā)連鎖反應!王勵勤動真格,孫穎莎專打削球手

卿子書
2026-01-11 09:35:47
山東造車殺瘋了!半年產(chǎn)百萬輛直逼廣東,不是老頭樂是真逆襲

山東造車殺瘋了!半年產(chǎn)百萬輛直逼廣東,不是老頭樂是真逆襲

青眼財經(jīng)
2026-01-09 19:14:45
徹底清零!緬甸KK園區(qū)635棟涉賭詐建筑全數(shù)炸毀

徹底清零!緬甸KK園區(qū)635棟涉賭詐建筑全數(shù)炸毀

看看新聞Knews
2026-01-11 12:45:02
財政壓力的下半場:退休人員占比近四成,才是硬賬

財政壓力的下半場:退休人員占比近四成,才是硬賬

超先聲
2026-01-09 16:45:39
蔣介石日記部分內(nèi)容公開引爭議,坦言因聲色放縱患上性病

蔣介石日記部分內(nèi)容公開引爭議,坦言因聲色放縱患上性病

回旋鏢
2026-01-10 20:35:03
演員孫濤力挺閆學晶后續(xù):抖音評論區(qū)徹底淪陷了,各種調(diào)侃他

演員孫濤力挺閆學晶后續(xù):抖音評論區(qū)徹底淪陷了,各種調(diào)侃他

小徐講八卦
2026-01-10 14:14:29
這些喪盡天良的行為,什么時候才能停止?

這些喪盡天良的行為,什么時候才能停止?

胖胖說他不胖
2026-01-10 11:00:14
2026-01-11 17:52:49
JavaEdge incentive-icons
JavaEdge
Java 技術(shù)
466文章數(shù) 457關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

網(wǎng)約車送斷指乘客在交警帶路闖紅燈時出車禍 被判全責

頭條要聞

網(wǎng)約車送斷指乘客在交警帶路闖紅燈時出車禍 被判全責

體育要聞

詹皇曬照不滿打手沒哨 裁判報告最后兩分鐘無誤判

娛樂要聞

留幾手為閆學晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

手機
教育
數(shù)碼
公開課
軍事航空

手機要聞

iQOO Z11 Turbo新機官宣搭載電競信號增強芯片雷霆Z1

教育要聞

監(jiān)考老師怎么抓作弊?很容易抓,同學們千萬別作弊!

數(shù)碼要聞

追覓電視斬獲CES媒體大獎,Aura Mini LED與AI技術(shù)實力獲國際認可

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄大使:馬杜羅夫婦被控制時身邊沒人

無障礙瀏覽 進入關(guān)懷版