国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LLaVA-OneVision-1.5開(kāi)源,8B模型預(yù)訓(xùn)練只需4天、1.6萬(wàn)美元

0
分享至



LLaVA 于 2023 年提出,通過(guò)低成本對(duì)齊高效連接開(kāi)源視覺(jué)編碼器與大語(yǔ)言模型,使「看圖 — 理解 — 對(duì)話」的多模態(tài)能力在開(kāi)放生態(tài)中得以普及,明顯縮小了與頂級(jí)閉源模型的差距,標(biāo)志著開(kāi)源多模態(tài)范式的重要里程碑。



LLaVA 用低成本對(duì)齊打通「視覺(jué)編碼器 + 大語(yǔ)言模型」起步,LLaVA?1.5 以更大更干凈的數(shù)據(jù)與高分辨率輸入強(qiáng)化理解,LLaVA?NeXT 拓展 OCR / 數(shù)理與多場(chǎng)景任務(wù);隨后分支為 LLaVA?NeXT?Video 處理時(shí)序視頻、多幀推理,及 LLaVA-NeXT-Interleave 支持交替多圖文與跨圖聯(lián)推;最終在 LLaVA?OneVision 匯聚為統(tǒng)一接口,覆蓋圖像 / 文檔 / 圖表 / 多圖 / 視頻,兼顧效果與效率。

盡管多模態(tài)對(duì)齊的接口與架構(gòu)趨于收斂,真正「可復(fù)現(xiàn)」的開(kāi)源路徑仍與「僅開(kāi)放權(quán)重」存在間距。Qwen2.5?VL、InternVL3.5 在 OCR、文檔理解、數(shù)理與跨圖推理上樹(shù)立高基線,但完整的數(shù)據(jù)清單、清洗與混合比例,以及對(duì)齊 / 采樣與訓(xùn)練日程多為部分披露,難以端到端重現(xiàn)。Molmo 以更干凈的數(shù)據(jù)流水線與精細(xì)化設(shè)計(jì),在多項(xiàng)評(píng)測(cè)與偏好中逼近閉源強(qiáng)基線;Open?Qwen2VL 則表明在更高效范式下,即便原始多模態(tài) token 占比較低亦能取得強(qiáng)對(duì)比性能。當(dāng)前主要鴻溝在于 「配方與工程細(xì)節(jié)的可復(fù)現(xiàn)性」,而非單一的模型架構(gòu)選擇。



靈感實(shí)驗(yàn)室團(tuán)隊(duì)聯(lián)合 LMMs-Lab 圍繞「高性能 — 低成本 — 強(qiáng)復(fù)現(xiàn)」三大目標(biāo),在 LLaVA-OneVision 體系上推出完整開(kāi)放的概念均衡 85M 預(yù)訓(xùn)練數(shù)據(jù)集(LLaVA-OV-1.5-Mid-Training-85M)與精篩 22M 指令數(shù)據(jù)集(LLaVA-OV-1.5-Instruct-22M),并沿用緊湊的三階段流程(語(yǔ)言–圖像對(duì)齊 Stage?1、概念均衡與高質(zhì)量知識(shí)注入 Stage?1.5、指令微調(diào) Stage?2),結(jié)合離線并行數(shù)據(jù)打包(最高約 11× padding 壓縮)與 Megatron?LM + 分布式優(yōu)化器,將 8B 規(guī)模 VL 模型的 Stage?1.5 預(yù)訓(xùn)練在 128 張 A800 上控制在約 4 天內(nèi)完成,預(yù)算控制在 1.6 萬(wàn)美元。

在此基礎(chǔ)上,我們提出LLaVA?OneVision?1.5,繼承并擴(kuò)展 LLaVA 系列:引入 RICE?ViT 支持原生分辨率與區(qū)域級(jí)細(xì)粒度語(yǔ)義建模、強(qiáng)化圖表 / 文檔 / 結(jié)構(gòu)化場(chǎng)景理解,延續(xù)緊湊三階段范式以避免冗長(zhǎng) curriculum,構(gòu)建并強(qiáng)調(diào)「質(zhì)量 — 覆蓋 — 均衡」的 85M 預(yù)訓(xùn)練與 22M 指令集合,并真正意義上實(shí)現(xiàn)全鏈條透明開(kāi)放(數(shù)據(jù)、訓(xùn)練與打包工具鏈、配置腳本、日志與可復(fù)現(xiàn)評(píng)測(cè)命令及其構(gòu)建與執(zhí)行細(xì)節(jié)),以確保社區(qū)低成本復(fù)現(xiàn)與可驗(yàn)證拓展。

實(shí)驗(yàn)結(jié)果顯示,LLaVA?OneVision 在多項(xiàng)公開(kāi)多模態(tài)基準(zhǔn)上較 Qwen2.5?VL 展現(xiàn)出競(jìng)爭(zhēng)性乃至更優(yōu)性能(詳見(jiàn)技術(shù)報(bào)告)。



  • 論文標(biāo)題:LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
  • 代碼地址:
  • https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
  • 技術(shù)報(bào)告地址:
  • https://arxiv.org/abs/2509.23661
  • 數(shù)據(jù) / 模型地址:
  • https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713
  • Demo:
  • https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

數(shù)據(jù)構(gòu)建要點(diǎn)



用于通用視覺(jué)語(yǔ)言的預(yù)訓(xùn)練集(85M)與指令微調(diào)數(shù)據(jù)集(22M)。其中 85M 預(yù)訓(xùn)練數(shù)據(jù)融合 COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K、SAM-1B、MINT、Zero250M 等 8 大異構(gòu)來(lái)源,形成約 2,000 萬(wàn)中文與 6,500 萬(wàn)英文圖文對(duì)。

為破解長(zhǎng)尾概念稀疏與原始 caption 噪聲 / 缺失問(wèn)題,我們不再依賴原始文本詞頻,而是采用特征驅(qū)動(dòng)的「概念均衡」策略:利用 MetaCLIP 編碼器將全部圖像與 50 萬(wàn)規(guī)模概念詞嵌入共享向量空間,對(duì)每張圖像檢索 Top-K 最相似概念,統(tǒng)計(jì)概念頻次后按逆頻加權(quán)重采樣,抑制高頻背景類并提升罕見(jiàn)細(xì)粒度實(shí)體、屬性與場(chǎng)景占比,顯著平坦化長(zhǎng)尾分布;隨后使用高質(zhì)量 Captioner 生成對(duì)齊的中英文增強(qiáng)描述。系統(tǒng)實(shí)驗(yàn)表明,在相同或更低 token 預(yù)算下,擴(kuò)大高質(zhì)量數(shù)據(jù)規(guī)模并結(jié)合概念均衡采樣,可在多模態(tài)理解、長(zhǎng)尾識(shí)別與指令泛化等核心指標(biāo)上獲得顯著且可復(fù)現(xiàn)的性能提升。



指令數(shù)據(jù) 22M 覆蓋八大類別:Caption、Chart & Table、Code & Math、Domain-specific、General VQA、Grounding & Counting、OCR、Science。通過(guò)多源聚合、格式統(tǒng)一、指令重寫(xiě)、雙語(yǔ)互轉(zhuǎn)、模板去同質(zhì)化與安全篩除,保持類別與難度分布均衡。并且我們的指令數(shù)據(jù)疊加 FineVision 數(shù)據(jù)集之后,結(jié)果會(huì)繼續(xù)增加。



訓(xùn)練策略

1. 視覺(jué)編碼器預(yù)訓(xùn)練

為了讓模型在 OCR、表格 / 文檔、區(qū)域理解與后續(xù)指令推理上具有更高的下限,我們?cè)?LLaVA-OneVision-1.5 中采用自研的 MVT v1.5(RICE-ViT) 作為視覺(jué)主干。

相較僅做全局對(duì)齊的 CLIP / SigLIP 類對(duì)比模型,RICE-ViT 針對(duì)「實(shí)例只用單一全局向量」這一結(jié)構(gòu)性瓶頸,引入統(tǒng)一的 Region Cluster Discrimination 機(jī)制:在 4.5 億圖像與 24 億候選區(qū)域上訓(xùn)練,利用區(qū)域聚類判別 + 區(qū)域感知注意力顯式建模局部實(shí)體 / 文本塊與上下文關(guān)系,并結(jié)合 2D 旋轉(zhuǎn)位置編碼(2D RoPE)實(shí)現(xiàn)多分辨率原生支持。

與 SigLIP2 依賴多套專用損失(SILC、TIPS、LocCa 等)不同,我們用單一聚類判別范式同時(shí)強(qiáng)化通用語(yǔ)義、OCR 識(shí)別與定位能力,訓(xùn)練與推理鏈路更簡(jiǎn)潔、可維護(hù)性更高。在多模態(tài)融合階段,通過(guò)輕量投影與后續(xù)全參數(shù)聯(lián)合訓(xùn)練,將這一細(xì)粒度語(yǔ)義底座無(wú)縫接入語(yǔ)言模型,減少冗余適配模塊并提升跨任務(wù)遷移效率。



2. 三階段學(xué)習(xí)流程

  • Stage-1:語(yǔ)言–圖像對(duì)齊

使用 LLaVA-1.5 558K 數(shù)據(jù)集訓(xùn)練視覺(jué)投影層,將視覺(jué)編碼輸出映射到語(yǔ)言模型詞嵌入空間。此階段控制參數(shù)更新范圍以快速穩(wěn)定收斂。

  • Stage-1.5:高質(zhì)量知識(shí)中期預(yù)訓(xùn)練

在概念均衡的 85M 預(yù)訓(xùn)練數(shù)據(jù)上進(jìn)行全參數(shù)訓(xùn)練,注入廣域視覺(jué)語(yǔ)義與世界知識(shí),強(qiáng)調(diào)數(shù)據(jù)質(zhì)量與覆蓋而非盲目擴(kuò)張 token 規(guī)模。

  • Stage-2:視覺(jué)指令對(duì)齊

基于 22M 指令數(shù)據(jù)與 FineVision 等多源視覺(jué)指令語(yǔ)料繼續(xù)全參數(shù)訓(xùn)練,提升任務(wù)泛化、推理組織與響應(yīng)格式控制能力。

3. 離線并行數(shù)據(jù)打包

為降低多模態(tài)樣本長(zhǎng)度差異帶來(lái)的 padding 浪費(fèi)、提升有效 token 利用率,我們采用離線并行數(shù)據(jù)打包:先按樣本長(zhǎng)度或長(zhǎng)度區(qū)間進(jìn)行哈希桶聚類,減少全局排序與掃描成本;再在數(shù)據(jù)準(zhǔn)備階段以多線程將多條短樣本拼接為接近目標(biāo)長(zhǎng)度的定長(zhǎng)序列。該流程一次性處理全量語(yǔ)料,具備確定性與可復(fù)現(xiàn)性,避免在線動(dòng)態(tài)打包引入的運(yùn)行時(shí)不穩(wěn)定與額外 CPU 開(kāi)銷。

在 85M 規(guī)模的預(yù)訓(xùn)練樣本上,相比原始方案可實(shí)現(xiàn)最高約 11× 的 padding 有效壓縮(定義:原始方案總 padding token / 打包后總 padding token)。

4. 混合并行與長(zhǎng)上下文高效訓(xùn)練,訓(xùn)練端采用混合并行與長(zhǎng)上下文優(yōu)化

張量并行(TP)+ 流水并行(PP)+ 序列 / 上下文并行(Sequence/Context Parallel)與分布式優(yōu)化器協(xié)同,以在大規(guī)模集群中同時(shí)提升算力利用與顯存效率;同時(shí)采用原生分辨率策略,保留圖表、文檔與密集文本區(qū)域的結(jié)構(gòu)細(xì)節(jié),避免統(tǒng)一縮放帶來(lái)的信息損失。

在 128×A800 集群上,8B 規(guī)模模型的 Stage?1.5(85M 樣本、原生分辨率)約 3.7 天完成,兼顧吞吐與成本。

結(jié)論

LLaVA-OneVision-1.5 證明:依托概念均衡的 85M 預(yù)訓(xùn)練數(shù)據(jù)與高質(zhì)量指令數(shù)據(jù),結(jié)合 RICE?ViT 細(xì)粒度視覺(jué)底座和緊湊的三階段策略(對(duì)齊–高質(zhì)量知識(shí)注入–指令泛化),再配合離線并行打包(最高約 11× padding 減少)與混合并行 / 原生分辨率等工程優(yōu)化,8B 規(guī)模即可在更低 token 與算力成本下,對(duì)標(biāo)乃至部分超越主流開(kāi)源與部分閉源多模態(tài)模型,體現(xiàn)「高質(zhì)量結(jié)構(gòu)化數(shù)據(jù) + 系統(tǒng)效率協(xié)同」相較單純堆量的優(yōu)勢(shì)。

這是一次非常簡(jiǎn)單的復(fù)現(xiàn)工作:我們完整開(kāi)放數(shù)據(jù)、工具鏈、腳本、配置、日志與評(píng)測(cè)配方,復(fù)現(xiàn)路徑清晰、依賴明確,無(wú)需復(fù)雜調(diào)參即可跑通。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
你見(jiàn)過(guò)最離譜的網(wǎng)購(gòu)是什么?網(wǎng)友:倉(cāng)庫(kù)是不會(huì)承認(rèn)自己發(fā)錯(cuò)了的

你見(jiàn)過(guò)最離譜的網(wǎng)購(gòu)是什么?網(wǎng)友:倉(cāng)庫(kù)是不會(huì)承認(rèn)自己發(fā)錯(cuò)了的

另子維愛(ài)讀史
2026-02-16 20:35:50
樸寶藍(lán)突猝逝「死因急性酒精中毒」 好友慶32歲冥誕:姐姐們來(lái)了

樸寶藍(lán)突猝逝「死因急性酒精中毒」 好友慶32歲冥誕:姐姐們來(lái)了

ETtoday星光云
2026-03-02 13:02:43
油市“末日時(shí)鐘”!若霍爾木茲海峽關(guān)閉25天 中東產(chǎn)油國(guó)將被迫停產(chǎn)?

油市“末日時(shí)鐘”!若霍爾木茲海峽關(guān)閉25天 中東產(chǎn)油國(guó)將被迫停產(chǎn)?

財(cái)聯(lián)社
2026-03-02 14:08:05
預(yù)計(jì)到了2030年,我們將全面進(jìn)入租房時(shí)代,房子會(huì)越來(lái)越難賣

預(yù)計(jì)到了2030年,我們將全面進(jìn)入租房時(shí)代,房子會(huì)越來(lái)越難賣

貓叔東山再起
2026-03-02 09:35:03
51死60傷!美以為何空襲伊朗小學(xué)?專家:或?yàn)槿嫱匾晾?,或?qū)佟罢`傷”,未來(lái)幾天三方行動(dòng)是關(guān)鍵

51死60傷!美以為何空襲伊朗小學(xué)?專家:或?yàn)槿嫱匾晾剩驅(qū)佟罢`傷”,未來(lái)幾天三方行動(dòng)是關(guān)鍵

極目新聞
2026-02-28 22:09:29
西方媒體欠我們道歉!美國(guó)游客回國(guó)說(shuō)實(shí)話:中國(guó)的強(qiáng)大,藏在凌晨?jī)牲c(diǎn)的便利店

西方媒體欠我們道歉!美國(guó)游客回國(guó)說(shuō)實(shí)話:中國(guó)的強(qiáng)大,藏在凌晨?jī)牲c(diǎn)的便利店

吃貨的分享
2026-03-02 16:04:20
汪小菲窩里橫!直播說(shuō):我知道我媽對(duì)我好,她不會(huì)和我生氣的!

汪小菲窩里橫!直播說(shuō):我知道我媽對(duì)我好,她不會(huì)和我生氣的!

小娛樂(lè)悠悠
2026-03-02 13:39:43
又見(jiàn)證歷史了,三桶油歷史性漲停

又見(jiàn)證歷史了,三桶油歷史性漲停

金石隨筆
2026-03-02 16:29:29
世界杯突生變故,伊朗考慮退賽,遞補(bǔ)球隊(duì)浮現(xiàn),中國(guó)隊(duì)起死回生?

世界杯突生變故,伊朗考慮退賽,遞補(bǔ)球隊(duì)浮現(xiàn),中國(guó)隊(duì)起死回生?

綠茵舞著
2026-03-01 20:57:22
中國(guó)石油歷史上9次漲停

中國(guó)石油歷史上9次漲停

貝殼財(cái)經(jīng)
2026-03-02 15:43:25
哈梅內(nèi)伊一死,普京緊急召令全部高層,卻只說(shuō)了幾個(gè)字

哈梅內(nèi)伊一死,普京緊急召令全部高層,卻只說(shuō)了幾個(gè)字

書(shū)紀(jì)文譚
2026-03-02 16:26:02
誰(shuí)能想到她已經(jīng)62了,說(shuō)18都有人信,怎么做到這么好的狀態(tài)的

誰(shuí)能想到她已經(jīng)62了,說(shuō)18都有人信,怎么做到這么好的狀態(tài)的

白宸侃片
2026-02-11 11:56:19
趙本山近況曝光!68歲高齡現(xiàn)身美國(guó)加州,這狀態(tài)你敢信?

趙本山近況曝光!68歲高齡現(xiàn)身美國(guó)加州,這狀態(tài)你敢信?

手工制作阿殲
2026-03-01 16:51:57
哈梅內(nèi)伊神秘遺言公開(kāi),特朗普平添巨大風(fēng)險(xiǎn),伊朗或決心永遠(yuǎn)不跪

哈梅內(nèi)伊神秘遺言公開(kāi),特朗普平添巨大風(fēng)險(xiǎn),伊朗或決心永遠(yuǎn)不跪

三石記
2026-03-02 15:11:39
3打5!又兩國(guó)參戰(zhàn)中東,3國(guó)加入美以,關(guān)鍵時(shí)刻,普京對(duì)中承諾

3打5!又兩國(guó)參戰(zhàn)中東,3國(guó)加入美以,關(guān)鍵時(shí)刻,普京對(duì)中承諾

面包夾知識(shí)
2026-03-02 13:35:18
孫志浩肝癌晚期,將50億資產(chǎn)里的豪宅與股份盡數(shù)轉(zhuǎn)至女兒梧桐妹

孫志浩肝癌晚期,將50億資產(chǎn)里的豪宅與股份盡數(shù)轉(zhuǎn)至女兒梧桐妹

陳意小可愛(ài)
2026-03-01 10:33:40
王一博風(fēng)波升級(jí)!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對(duì)上,爆料者被扒!

王一博風(fēng)波升級(jí)!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對(duì)上,爆料者被扒!

阿廢冷眼觀察所
2026-03-02 07:15:35
埃及被打醒了,蘇35和殲10都不買:就要一種4000萬(wàn)美元中國(guó)新軍機(jī)

埃及被打醒了,蘇35和殲10都不買:就要一種4000萬(wàn)美元中國(guó)新軍機(jī)

近史談
2026-01-17 21:44:06
過(guò)去100年,美國(guó)搞垮了4個(gè)世界老二,第5個(gè)或?qū)⒎词指傻裘绹?guó)!

過(guò)去100年,美國(guó)搞垮了4個(gè)世界老二,第5個(gè)或?qū)⒎词指傻裘绹?guó)!

蘇大強(qiáng)專欄
2024-07-20 13:22:14
周杰倫和田馥甄戀情,突沖熱搜第一!

周杰倫和田馥甄戀情,突沖熱搜第一!

人間頌
2026-03-01 12:25:17
2026-03-02 18:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12393文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

36歲副鎮(zhèn)長(zhǎng)開(kāi)會(huì)暈倒除夕當(dāng)天不幸離世 家中有3個(gè)孩子

頭條要聞

36歲副鎮(zhèn)長(zhǎng)開(kāi)會(huì)暈倒除夕當(dāng)天不幸離世 家中有3個(gè)孩子

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

金銀大漲 市場(chǎng)仍在評(píng)估沖突會(huì)否長(zhǎng)期化

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

親子
教育
家居
數(shù)碼
藝術(shù)

親子要聞

給中國(guó)姥姥拿鞋,一歲半的乖寶寶

教育要聞

2月28日雅思大作文示范寫(xiě)作 | 違規(guī)駕駛成因與最優(yōu)對(duì)策分析

家居要聞

萬(wàn)物互聯(lián) 享科技福祉

數(shù)碼要聞

AMD發(fā)布Ryzen AI PRO 400系列桌面處理器 針對(duì)AI計(jì)算優(yōu)化

藝術(shù)要聞

香港展出王羲之書(shū)法,足有60篇、10多米長(zhǎng)!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版