国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

高性能-低成本-可復(fù)現(xiàn),拉法-1.5全開源

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長(zhǎng)。

LLaVA于2023年提出,通過低成本對(duì)齊高效連接開源視覺編碼器與大語言模型,使「 看圖—理解—對(duì)話 」的多模態(tài)能力在開放生態(tài)中得以普及,明顯縮小了與頂級(jí)閉源模型的差距,標(biāo)志著開源多模態(tài)范式的重要里程碑。

LLaVA 用低成本對(duì)齊打通「視覺編碼器 + 大語言模型」起步,LLaVA?1.5 以更大更干凈的數(shù)據(jù)與高分辨率輸入強(qiáng)化理解,LLaVA?NeXT 拓展 OCR / 數(shù)理與多場(chǎng)景任務(wù);隨后分支為 LLaVA?NeXT?Video 處理時(shí)序視頻、多幀推理,及 LLaVA-NeXT-Interleave 支持交替多圖文與跨圖聯(lián)推;最終在 LLaVA?OneVision 匯聚為統(tǒng)一接口,覆蓋圖像 / 文檔 / 圖表 / 多圖 / 視頻,兼顧效果與效率。

盡管多模態(tài)對(duì)齊的接口與架構(gòu)趨于收斂,真正「可復(fù)現(xiàn)」的開源路徑仍與「僅開放權(quán)重」存在間距。Qwen2.5?VL、InternVL3.5 在 OCR、文檔理解、數(shù)理與跨圖推理上樹立高基線,但完整的數(shù)據(jù)清單、清洗與混合比例,以及對(duì)齊 / 采樣與訓(xùn)練日程多為部分披露,難以端到端重現(xiàn)。Molmo 以更干凈的數(shù)據(jù)流水線與精細(xì)化設(shè)計(jì),在多項(xiàng)評(píng)測(cè)與偏好中逼近閉源強(qiáng)基線;Open?Qwen2VL 則表明在更高效范式下,即便原始多模態(tài) token 占比較低亦能取得強(qiáng)對(duì)比性能。當(dāng)前主要鴻溝在于 「配方與工程細(xì)節(jié)的可復(fù)現(xiàn)性」,而非單一的模型架構(gòu)選擇。

靈感實(shí)驗(yàn)室團(tuán)隊(duì)聯(lián)合 LMMs-Lab 圍繞「高性能—低成本—強(qiáng)復(fù)現(xiàn)」三大目標(biāo),在 LLaVA-OneVision 體系上推出完整開放的概念均衡 85M 預(yù)訓(xùn)練數(shù)據(jù)集(LLaVA-OV-1.5-Mid-Training-85M)與精篩 22M 指令數(shù)據(jù)集(LLaVA-OV-1.5-Instruct-22M),并沿用緊湊的三階段流程(語言–圖像對(duì)齊 Stage?1、概念均衡與高質(zhì)量知識(shí)注入 Stage?1.5、指令微調(diào) Stage?2),結(jié)合離線并行數(shù)據(jù)打包(最高約 11× padding 壓縮)與 Megatron?LM + 分布式優(yōu)化器,將 8B 規(guī)模 VL 模型的 Stage?1.5 預(yù)訓(xùn)練在 128 張 A800 上控制在約 4 天內(nèi)完成,預(yù)算控制在 1.6 萬美元。

在此基礎(chǔ)上,團(tuán)隊(duì)提出LLaVA?OneVision?1.5,繼承并擴(kuò)展 LLaVA 系列:引入 RICE?ViT 支持原生分辨率與區(qū)域級(jí)細(xì)粒度語義建模、強(qiáng)化圖表 / 文檔 / 結(jié)構(gòu)化場(chǎng)景理解,延續(xù)緊湊三階段范式以避免冗長(zhǎng) curriculum,構(gòu)建并強(qiáng)調(diào)「質(zhì)量 — 覆蓋 — 均衡」的 85M 預(yù)訓(xùn)練與 22M 指令集合,并真正意義上實(shí)現(xiàn)全鏈條透明開放(數(shù)據(jù)、訓(xùn)練與打包工具鏈、配置腳本、日志與可復(fù)現(xiàn)評(píng)測(cè)命令及其構(gòu)建與執(zhí)行細(xì)節(jié)),以確保社區(qū)低成本復(fù)現(xiàn)與可驗(yàn)證拓展。

實(shí)驗(yàn)結(jié)果顯示,LLaVA?OneVision在多項(xiàng)公開的多模態(tài)基準(zhǔn)上,較 Qwen2.5?VL 展現(xiàn)出競(jìng)爭(zhēng)性乃至更優(yōu)性能,現(xiàn)已上線始智AI-wisemodel開源社區(qū),歡迎體驗(yàn)。


模型地址

https://wisemodel.cn/models/deepglint/LLaVA-OneVision-1.5-8B-Instruct

https://wisemodel.cn/models/deepglint/LLaVA-OneVision-1.5-4B-Instruct

https://arxiv.org/abs/2509.23661

01.

數(shù)據(jù)構(gòu)建要點(diǎn)


用于通用視覺語言的預(yù)訓(xùn)練集(85M)與指令微調(diào)數(shù)據(jù)集(22M)。其中 85M 預(yù)訓(xùn)練數(shù)據(jù)融合 COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K、SAM-1B、MINT、Zero250M 等 8 大異構(gòu)來源,形成約 2,000 萬中文與 6,500 萬英文圖文對(duì)。

為破解長(zhǎng)尾概念稀疏與原始 caption 噪聲 / 缺失問題,研究團(tuán)隊(duì)不再依賴原始文本詞頻,而是采用特征驅(qū)動(dòng)的「概念均衡」策略:利用 MetaCLIP 編碼器將全部圖像與 50 萬規(guī)模概念詞嵌入共享向量空間,對(duì)每張圖像檢索 Top-K 最相似概念,統(tǒng)計(jì)概念頻次后按逆頻加權(quán)重采樣,抑制高頻背景類并提升罕見細(xì)粒度實(shí)體、屬性與場(chǎng)景占比,顯著平坦化長(zhǎng)尾分布;隨后使用高質(zhì)量 Captioner 生成對(duì)齊的中英文增強(qiáng)描述。

系統(tǒng)實(shí)驗(yàn)表明,在相同或更低 token 預(yù)算下,擴(kuò)大高質(zhì)量數(shù)據(jù)規(guī)模并結(jié)合概念均衡采樣,可在多模態(tài)理解、長(zhǎng)尾識(shí)別與指令泛化等核心指標(biāo)上獲得顯著且可復(fù)現(xiàn)的性能提升。


指令數(shù)據(jù) 22M 覆蓋八大類別:Caption、Chart & Table、Code & Math、Domain-specific、General VQA、Grounding & Counting、OCR、Science。通過多源聚合、格式統(tǒng)一、指令重寫、雙語互轉(zhuǎn)、模板去同質(zhì)化與安全篩除,保持類別與難度分布均衡。并且指令數(shù)據(jù)疊加 FineVision 數(shù)據(jù)集之后,結(jié)果會(huì)繼續(xù)增加。


02.

訓(xùn)練策略


1、視覺編碼器預(yù)訓(xùn)練

為了讓模型在 OCR、表格 / 文檔、區(qū)域理解與后續(xù)指令推理上具有更高的下限,在 LLaVA-OneVision-1.5 中采用自研的 MVT v1.5(RICE-ViT) 作為視覺主干。

相較僅做全局對(duì)齊的 CLIP / SigLIP 類對(duì)比模型,RICE-ViT 針對(duì)「實(shí)例只用單一全局向量」這一結(jié)構(gòu)性瓶頸,引入統(tǒng)一的 Region Cluster Discrimination 機(jī)制:在 4.5 億圖像與 24 億候選區(qū)域上訓(xùn)練,利用區(qū)域聚類判別 + 區(qū)域感知注意力顯式建模局部實(shí)體 / 文本塊與上下文關(guān)系,并結(jié)合 2D 旋轉(zhuǎn)位置編碼(2D RoPE)實(shí)現(xiàn)多分辨率原生支持。

與 SigLIP2 依賴多套專用損失(SILC、TIPS、LocCa 等)不同,用單一聚類判別范式同時(shí)強(qiáng)化通用語義、OCR 識(shí)別與定位能力,訓(xùn)練與推理鏈路更簡(jiǎn)潔、可維護(hù)性更高。在多模態(tài)融合階段,通過輕量投影與后續(xù)全參數(shù)聯(lián)合訓(xùn)練,將這一細(xì)粒度語義底座無縫接入語言模型,減少冗余適配模塊并提升跨任務(wù)遷移效率。



2、三階段學(xué)習(xí)流程

  • Stage-1:語言–圖像對(duì)齊

使用 LLaVA-1.5 558K 數(shù)據(jù)集訓(xùn)練視覺投影層,將視覺編碼輸出映射到語言模型詞嵌入空間。此階段控制參數(shù)更新范圍以快速穩(wěn)定收斂。

  • Stage-1.5:高質(zhì)量知識(shí)中期預(yù)訓(xùn)練

在概念均衡的 85M 預(yù)訓(xùn)練數(shù)據(jù)上進(jìn)行全參數(shù)訓(xùn)練,注入廣域視覺語義與世界知識(shí),強(qiáng)調(diào)數(shù)據(jù)質(zhì)量與覆蓋而非盲目擴(kuò)張 token 規(guī)模。

  • Stage-2:視覺指令對(duì)齊

基于 22M 指令數(shù)據(jù)與 FineVision 等多源視覺指令語料繼續(xù)全參數(shù)訓(xùn)練,提升任務(wù)泛化、推理組織與響應(yīng)格式控制能力。


3、離線并行數(shù)據(jù)打包

為降低多模態(tài)樣本長(zhǎng)度差異帶來的 padding 浪費(fèi)、提升有效 token 利用率,采用離線并行數(shù)據(jù)打包:先按樣本長(zhǎng)度或長(zhǎng)度區(qū)間進(jìn)行哈希桶聚類,減少全局排序與掃描成本;再在數(shù)據(jù)準(zhǔn)備階段以多線程將多條短樣本拼接為接近目標(biāo)長(zhǎng)度的定長(zhǎng)序列。該流程一次性處理全量語料,具備確定性與可復(fù)現(xiàn)性,避免在線動(dòng)態(tài)打包引入的運(yùn)行時(shí)不穩(wěn)定與額外 CPU 開銷。

在 85M 規(guī)模的預(yù)訓(xùn)練樣本上,相比原始方案可實(shí)現(xiàn)最高約 11× 的 padding 有效壓縮(定義:原始方案總 padding token / 打包后總 padding token)。


4、混合并行與長(zhǎng)上下文高效訓(xùn)練,訓(xùn)練端采用混合并行與長(zhǎng)上下文優(yōu)化

張量并行(TP)+ 流水并行(PP)+ 序列 / 上下文并行(Sequence/Context Parallel)與分布式優(yōu)化器協(xié)同,以在大規(guī)模集群中同時(shí)提升算力利用與顯存效率;同時(shí)采用原生分辨率策略,保留圖表、文檔與密集文本區(qū)域的結(jié)構(gòu)細(xì)節(jié),避免統(tǒng)一縮放帶來的信息損失

在 128×A800 集群上,8B 規(guī)模模型的 Stage?1.5(85M 樣本、原生分辨率)約 3.7 天完成,兼顧吞吐與成本。

03.

結(jié)論

LLaVA-OneVision-1.5 證明:依托概念均衡的 85M 預(yù)訓(xùn)練數(shù)據(jù)與高質(zhì)量指令數(shù)據(jù),結(jié)合 RICE?ViT 細(xì)粒度視覺底座和緊湊的三階段策略(對(duì)齊–高質(zhì)量知識(shí)注入–指令泛化),再配合離線并行打包(最高約 11× padding 減少)與混合并行 / 原生分辨率等工程優(yōu)化,8B 規(guī)模即可在更低 token 與算力成本下,對(duì)標(biāo)乃至部分超越主流開源與部分閉源多模態(tài)模型,體現(xiàn)「高質(zhì)量結(jié)構(gòu)化數(shù)據(jù) + 系統(tǒng)效率協(xié)同」相較單純堆量的優(yōu)勢(shì)。

這是一次非常簡(jiǎn)單的復(fù)現(xiàn)工作:完整開放數(shù)據(jù)、工具鏈、腳本、配置、日志與評(píng)測(cè)配方,復(fù)現(xiàn)路徑清晰、依賴明確,無需復(fù)雜調(diào)參即可跑通。

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
黃金、白銀,直線跳水!特朗普,大消息!

黃金、白銀,直線跳水!特朗普,大消息!

證券時(shí)報(bào)e公司
2026-03-26 14:47:48
3月26日下午中國(guó)女排!傳來朱婷、李盈瑩、袁心玥最新消息

3月26日下午中國(guó)女排!傳來朱婷、李盈瑩、袁心玥最新消息

民哥臺(tái)球解說
2026-03-26 16:17:49
太扎心!遼寧一中年男子小便怒斥妻子舉布遮擋稍高,就撒手人寰了

太扎心!遼寧一中年男子小便怒斥妻子舉布遮擋稍高,就撒手人寰了

火山詩話
2026-03-26 06:16:11
寫小說判十年,把生殖器放女孩嘴巴里判兩年九個(gè)月

寫小說判十年,把生殖器放女孩嘴巴里判兩年九個(gè)月

昊軒看世界
2026-03-24 19:56:42
教育部宣布中考重大變革,取消 5:5 分流,升學(xué)規(guī)則將全面調(diào)整?

教育部宣布中考重大變革,取消 5:5 分流,升學(xué)規(guī)則將全面調(diào)整?

今朝牛馬
2026-03-26 20:22:18
丞相是丞相,宰相是宰相,兩者一字之差卻天壤之別,可別分不清楚

丞相是丞相,宰相是宰相,兩者一字之差卻天壤之別,可別分不清楚

觀史搜尋著
2026-03-26 01:10:50
央視發(fā)文,60歲釋永信再迎噩耗,被他害慘的4個(gè)明星也出了口惡氣

央視發(fā)文,60歲釋永信再迎噩耗,被他害慘的4個(gè)明星也出了口惡氣

輝哥說動(dòng)漫
2026-03-25 12:20:14
特朗普真要來?美媒公布其訪華時(shí)間后,匈牙利直言:中國(guó)不可戰(zhàn)勝

特朗普真要來?美媒公布其訪華時(shí)間后,匈牙利直言:中國(guó)不可戰(zhàn)勝

講者普拉斯
2026-03-26 22:09:39
20億美元還不夠!中企對(duì)巴拿馬索賠漲價(jià),巴政府內(nèi)部已經(jīng)亂套了

20億美元還不夠!中企對(duì)巴拿馬索賠漲價(jià),巴政府內(nèi)部已經(jīng)亂套了

悄悄史話
2026-03-26 14:09:05
宋美齡書法對(duì)比:鋼筆字似小學(xué)生,英文手稿如中學(xué)生!

宋美齡書法對(duì)比:鋼筆字似小學(xué)生,英文手稿如中學(xué)生!

書畫相約
2026-03-26 07:49:18
港口管控升級(jí)!滯留中國(guó)巴拿馬船暴漲3倍,巴拿馬政府吃不消了

港口管控升級(jí)!滯留中國(guó)巴拿馬船暴漲3倍,巴拿馬政府吃不消了

肖茲探秘說
2026-03-26 20:07:23
2個(gè)重大信號(hào)出現(xiàn)!要反轉(zhuǎn)了?

2個(gè)重大信號(hào)出現(xiàn)!要反轉(zhuǎn)了?

說股鯨
2026-03-26 22:00:03
撿漏成功!廣州市一棟三層別墅拍賣,被人撿漏170.6萬就競(jìng)得,還要啥套間

撿漏成功!廣州市一棟三層別墅拍賣,被人撿漏170.6萬就競(jìng)得,還要啥套間

阿離家居
2026-03-26 16:52:37
國(guó)際油價(jià)漲幅擴(kuò)大 布倫特原油期貨站上105美元/桶

國(guó)際油價(jià)漲幅擴(kuò)大 布倫特原油期貨站上105美元/桶

每日經(jīng)濟(jì)新聞
2026-03-26 15:11:37
長(zhǎng)護(hù)險(xiǎn)制度全面推開!國(guó)家醫(yī)保局:參保人無論來自農(nóng)村還是城市,從同一個(gè)資金池報(bào)銷費(fèi)用

長(zhǎng)護(hù)險(xiǎn)制度全面推開!國(guó)家醫(yī)保局:參保人無論來自農(nóng)村還是城市,從同一個(gè)資金池報(bào)銷費(fèi)用

紅星新聞
2026-03-26 11:28:05
3.73-1.79!國(guó)足傳來好消息,2-1爆冷世界杯魚腩隊(duì)?比賽時(shí)間如下

3.73-1.79!國(guó)足傳來好消息,2-1爆冷世界杯魚腩隊(duì)?比賽時(shí)間如下

侃球熊弟
2026-03-26 21:09:11
美伊談崩內(nèi)幕:伊萬卡是“肉票”,特朗普女婿是“以色列內(nèi)線”?

美伊談崩內(nèi)幕:伊萬卡是“肉票”,特朗普女婿是“以色列內(nèi)線”?

矚望云霄
2026-03-25 18:20:59
國(guó)足VS庫拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

國(guó)足VS庫拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

零度眼看球
2026-03-26 07:23:48
中央定調(diào),養(yǎng)老金調(diào)整方向明確,2026年若上漲,企退能多漲3%嗎?

中央定調(diào),養(yǎng)老金調(diào)整方向明確,2026年若上漲,企退能多漲3%嗎?

有范又有料
2026-03-26 14:35:52
1958年周恩來突然提出辭去總理職務(wù),毛主席聽后只說了一句話,全場(chǎng)沉默

1958年周恩來突然提出辭去總理職務(wù),毛主席聽后只說了一句話,全場(chǎng)沉默

文史明鑒
2026-03-24 18:49:17
2026-03-26 22:52:49
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國(guó)版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

旅游
家居
房產(chǎn)
游戲
公開課

旅游要聞

探訪資中文旅新地標(biāo) 邂逅千年古城的詩與遠(yuǎn)方

家居要聞

傍海而居 靜觀蝴蝶海

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補(bǔ)償方案出爐!

50萬銷量達(dá)成!這款I(lǐng)GN 9分獨(dú)游走紅 官方發(fā)推慶賀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版