數(shù)據(jù)篩選新突破：讓AI視覺訓(xùn)練效率暴增6倍的智能選擇器

2026-03-12 17:32:15　來源: 科技行者

北京舉報

分享至

這項由東華師范大學(xué)、中關(guān)村科學(xué)院、香港理工大學(xué)等多家機(jī)構(gòu)聯(lián)合完成的研究發(fā)表于2026年的計算機(jī)視覺頂級會議，有興趣深入了解的讀者可以通過arXiv:2602.11636查詢完整論文。

在人工智能的世界里，訓(xùn)練一個既能看圖又能說話的智能模型就像培養(yǎng)一個全能助手。但這個過程有個令人頭疼的問題：需要喂給模型的"學(xué)習(xí)資料"實在太多了。就好比讓一個人學(xué)會識別全世界的動物，你給他看了一萬張狗的照片、一萬張貓的照片，但其中很多照片其實都是重復(fù)的或者質(zhì)量很差的。這種冗余不僅浪費時間，還會拖慢學(xué)習(xí)進(jìn)度。

研究團(tuán)隊面臨的正是這樣一個現(xiàn)實問題：現(xiàn)在的視覺語言模型需要用海量的圖片和對話數(shù)據(jù)進(jìn)行訓(xùn)練，但這些數(shù)據(jù)中存在大量重復(fù)和低質(zhì)量的內(nèi)容。傳統(tǒng)的數(shù)據(jù)篩選方法要么需要額外的訓(xùn)練過程（這本身就很耗時），要么依賴其他輔助模型，要么只能進(jìn)行簡單粗暴的隨機(jī)選擇。

在這種背景下，研究團(tuán)隊開發(fā)了一個名為ScalSelect的智能數(shù)據(jù)篩選系統(tǒng)。這個系統(tǒng)的神奇之處在于，它能夠在不需要任何額外訓(xùn)練的情況下，自動從海量訓(xùn)練數(shù)據(jù)中挑選出最有價值的部分。更令人驚喜的是，用這種方法篩選出的數(shù)據(jù)進(jìn)行訓(xùn)練，僅用原來16%的數(shù)據(jù)量就能達(dá)到使用全部數(shù)據(jù)97.5%以上的效果，在某些情況下甚至超越了使用全部數(shù)據(jù)的訓(xùn)練效果。

這項研究的突破性在于首次提出了"指令相關(guān)的視覺注意力提取"和"全局子空間感知選擇"兩個核心創(chuàng)新概念。研究團(tuán)隊發(fā)現(xiàn)，不同的文字指令會讓模型關(guān)注圖片的不同區(qū)域，就像你問"這張圖片里有什么動物"和"這張圖片的背景是什么顏色"時，模型需要關(guān)注的視覺重點完全不同?；谶@個發(fā)現(xiàn)，他們開發(fā)的系統(tǒng)能夠智能識別每個訓(xùn)練樣本中真正重要的視覺信息，然后從整體數(shù)據(jù)結(jié)構(gòu)的角度選出最有代表性的樣本。

一、揭秘數(shù)據(jù)冗余的根源：為什么AI訓(xùn)練如此低效

當(dāng)我們深入了解現(xiàn)代視覺語言模型的訓(xùn)練過程時，就會發(fā)現(xiàn)一個令人困擾的現(xiàn)象：模型需要消化的訓(xùn)練數(shù)據(jù)量正在以驚人的速度增長。這種增長就像城市交通一樣——道路越修越寬，車卻越來越多，擁堵問題依然存在。

現(xiàn)在的視覺語言模型訓(xùn)練通常需要幾十萬甚至上百萬個圖片-對話樣本。每個樣本包含一張圖片和一段人類與AI的對話記錄。但問題在于，這些海量數(shù)據(jù)中包含了大量的"噪音"和重復(fù)內(nèi)容。就像一個圖書館里擺滿了相同主題的書籍，但其中很多內(nèi)容都是重復(fù)的，有些甚至質(zhì)量很差。

傳統(tǒng)的數(shù)據(jù)篩選方法面臨著多重困境。一些方法需要先訓(xùn)練一個"篩選專家"模型來評估數(shù)據(jù)質(zhì)量，但這本身就需要消耗大量計算資源，有點像為了節(jié)約用電而先買一臺發(fā)電機(jī)。另一些方法依賴現(xiàn)有的輔助模型（比如CLIP）來判斷圖片和文字的匹配程度，但這些外部模型往往與目標(biāo)模型存在"口味差異"，就像讓一個西餐廚師來評判中餐的好壞。

更關(guān)鍵的是，現(xiàn)有方法普遍忽略了一個重要事實：同一張圖片在不同的對話場景下，其重要性和關(guān)注重點是完全不同的。比如一張包含狗和花園的照片，當(dāng)對話是"這是什么動物"時，狗是關(guān)鍵信息；當(dāng)對話是"這個場景在哪里"時，花園背景才是重點。傳統(tǒng)方法往往把圖片當(dāng)作獨立的個體來處理，就像盲人摸象一樣，只能感知到局部信息而缺乏整體視角。

研究團(tuán)隊還發(fā)現(xiàn)，許多現(xiàn)有方法在處理大規(guī)模數(shù)據(jù)時存在嚴(yán)重的效率問題。它們需要計算樣本之間的相似度，這意味著要進(jìn)行大量的兩兩比較。當(dāng)數(shù)據(jù)量達(dá)到幾十萬個樣本時，這種計算復(fù)雜度會呈二次方增長，就像邀請所有人都要和所有其他人握一次手，當(dāng)人數(shù)增加時，握手次數(shù)會急劇增長。

正是在這種背景下，ScalSelect應(yīng)運而生。它采用了一種全新的思路：不再糾結(jié)于樣本之間的局部關(guān)系，而是從整體數(shù)據(jù)空間的角度來考慮問題，就像從高空俯瞰整個城市布局，而不是站在街頭逐個檢查每棟建筑。

二、指令感知的視覺注意力：讓AI學(xué)會"看重點"

ScalSelect的第一個核心創(chuàng)新是開發(fā)了"指令條件下的早期表征提取"技術(shù)。這個技術(shù)的靈感來源于一個簡單但深刻的觀察：人類在看圖片時，會根據(jù)別人的提問自動調(diào)整注意力焦點。

當(dāng)有人問你"這張照片里的公交車是什么顏色"時，你的眼睛會自然而然地聚焦在公交車上，而對背景中的行人和建筑物視而不見。但如果問題變成"這條街上有多少行人"，你的注意力就會立即轉(zhuǎn)向人群，對公交車的關(guān)注度大幅下降。

研究團(tuán)隊發(fā)現(xiàn)，視覺語言模型在處理信息時也存在類似的"注意力機(jī)制"。在模型的第一層網(wǎng)絡(luò)中，不同的文字指令會激活對圖片不同區(qū)域的關(guān)注。這就像一個智能聚光燈，會根據(jù)導(dǎo)演的要求照亮舞臺上的不同角落。

具體來說，當(dāng)模型讀取一個圖文對話樣本時，文字部分的每個詞語都會對圖片的各個區(qū)域產(chǎn)生不同程度的"注意力得分"。研究團(tuán)隊巧妙地利用了這個特性，專門提取那些接收到最高注意力得分的視覺區(qū)域，將它們作為該樣本的代表性特征。

這個過程就像一個經(jīng)驗豐富的攝影師，能夠根據(jù)拍攝主題自動調(diào)整焦點。當(dāng)需要拍攝人像時，鏡頭會自動聚焦在人物面部；當(dāng)需要拍攝風(fēng)景時，鏡頭會調(diào)整到捕捉整個景觀的最佳位置。ScalSelect的注意力提取機(jī)制也是如此，它能夠根據(jù)對話內(nèi)容的不同，自動識別圖片中最相關(guān)的視覺信息。

研究團(tuán)隊通過大量實驗發(fā)現(xiàn)，模型的第一層網(wǎng)絡(luò)是進(jìn)行這種提取的最佳位置。在這一層，視覺信息和文字信息剛剛開始融合，注意力分布最為清晰和穩(wěn)定。就像在河流的源頭取水，水質(zhì)最為純凈清澈。

更有趣的是，他們設(shè)計了一個智能閾值機(jī)制來控制選擇多少視覺信息。系統(tǒng)會自動計算注意力的累積分布，選擇那些累計注意力達(dá)到總注意力90%的視覺區(qū)域。這確保了既不會遺漏重要信息，也不會包含過多噪音。

這種方法的效果令人印象深刻。在處理需要精確視覺定位的任務(wù)（比如文字識別）時，指令感知的注意力提取顯示出明顯優(yōu)勢。因為它能夠準(zhǔn)確識別文字指令所關(guān)注的圖片區(qū)域，過濾掉無關(guān)的視覺干擾。實驗結(jié)果顯示，使用這種方法提取的樣本表征在OCR（光學(xué)字符識別）任務(wù)上表現(xiàn)尤其突出，這充分證明了注意力引導(dǎo)的有效性。

三、全局子空間的智慧選擇：從整體視角重新定義數(shù)據(jù)篩選

ScalSelect的第二個突破性創(chuàng)新是提出了"子空間感知的全局選擇"策略。這個概念初聽起來可能有些抽象，但我們可以用一個簡單的比喻來理解。

設(shè)想你正在整理一個巨大的音樂圖書館，里面有幾十萬首歌曲。傳統(tǒng)的整理方法是逐一比較每首歌，看看哪些聽起來相似，然后保留不同風(fēng)格的代表作。但這種方法效率極低，而且容易遺漏重要的音樂類型。

ScalSelect采用的方法就像一個音樂理論專家，他不是比較具體的歌曲，而是分析整個音樂圖書館的"音樂空間"結(jié)構(gòu)。他發(fā)現(xiàn)，雖然有幾十萬首歌，但實際上大部分音樂都可以用幾十個基本的音樂元素來表達(dá)——比如節(jié)拍、旋律模式、和聲結(jié)構(gòu)等。然后他會挑選那些最能代表這些核心音樂元素的歌曲，用最少的歌曲數(shù)量保留整個音樂圖書館的精華。

在數(shù)據(jù)篩選的背景下，ScalSelect將所有訓(xùn)練樣本的表征組成一個高維的"表征空間"。研究團(tuán)隊發(fā)現(xiàn)，盡管樣本數(shù)量龐大，但這個空間實際上具有明顯的低維結(jié)構(gòu)特征。就像一張復(fù)雜的地圖，雖然包含無數(shù)個地點，但主要的地理特征可以用幾條主要的山脈、河流和道路來概括。

系統(tǒng)使用了一種叫做"奇異值分解"的數(shù)學(xué)工具來識別這個表征空間的主要結(jié)構(gòu)。這個工具就像一個智能的空間分析師，能夠找出數(shù)據(jù)空間中最重要的幾個"主方向"。這些主方向代表了數(shù)據(jù)的核心變化模式，捕獲了大部分樣本的共同特征。

關(guān)鍵的創(chuàng)新在于，ScalSelect不是簡單地在這些主方向上隨機(jī)采樣，而是計算每個樣本對這些主方向的"貢獻(xiàn)度"。這個貢獻(xiàn)度被稱為"統(tǒng)計杠桿得分"，它衡量的是如果移除某個樣本，整個數(shù)據(jù)空間的主要結(jié)構(gòu)會發(fā)生多大程度的改變。

這就像評估一支交響樂團(tuán)中每個樂手的重要性。雖然每個樂手都在演奏，但有些樂手（比如第一小提琴手）的演奏對整體音樂效果的影響要遠(yuǎn)大于其他樂手。ScalSelect正是通過這種方式識別出對整體數(shù)據(jù)結(jié)構(gòu)最為關(guān)鍵的樣本。

更令人驚喜的是，這種方法的計算復(fù)雜度是線性的，意味著數(shù)據(jù)量增加一倍，計算時間也只增加一倍，而不是傳統(tǒng)方法的四倍增長。這使得ScalSelect在處理大規(guī)模數(shù)據(jù)時具有明顯的效率優(yōu)勢。

實驗結(jié)果證明了這種全局視角的有效性。當(dāng)使用ScalSelect篩選出16%的數(shù)據(jù)進(jìn)行訓(xùn)練時，模型性能能夠達(dá)到使用全部數(shù)據(jù)訓(xùn)練的97.5%以上。在某些情況下，精選的小數(shù)據(jù)集甚至比全量數(shù)據(jù)集的訓(xùn)練效果更好，這說明去除冗余和噪音數(shù)據(jù)確實能夠提升模型的學(xué)習(xí)效率。

四、實驗驗證：數(shù)字背后的驚人發(fā)現(xiàn)

為了驗證ScalSelect的實際效果，研究團(tuán)隊進(jìn)行了一系列全面而嚴(yán)格的實驗。他們的實驗設(shè)計就像一場精心策劃的科學(xué)探險，每個環(huán)節(jié)都經(jīng)過仔細(xì)考慮，確保結(jié)果的可靠性和說服力。

實驗的"主戰(zhàn)場"是一個包含62.5萬個圖文對話樣本的大型數(shù)據(jù)集。這個數(shù)據(jù)集涵蓋了各種各樣的視覺任務(wù)：回答關(guān)于圖片的問題、識別圖片中的文字、理解圖表和圖形、進(jìn)行多輪對話等等。研究團(tuán)隊選擇這樣一個多元化的數(shù)據(jù)集，就是為了確保他們的方法不只是在某個特定場景下有效，而是具有廣泛的適用性。

他們測試了多種不同規(guī)模和架構(gòu)的模型，包括7億參數(shù)的LLaVA模型和40億、80億參數(shù)的Qwen3-VL模型。這就像在不同類型的土壤上測試同一種農(nóng)作物，看看新的種植方法是否在各種環(huán)境下都能獲得好收成。

實驗結(jié)果讓人眼前一亮。當(dāng)研究團(tuán)隊使用ScalSelect從62.5萬個樣本中篩選出10萬個（僅占16%）進(jìn)行訓(xùn)練時，模型在九個不同的評測基準(zhǔn)上的平均性能達(dá)到了使用全部數(shù)據(jù)訓(xùn)練的97.85%。這意味著用不到六分之一的數(shù)據(jù)，就能獲得幾乎相同的效果。

更讓人驚喜的是，隨著篩選數(shù)據(jù)量的增加，性能提升呈現(xiàn)出穩(wěn)定的增長趨勢。當(dāng)使用30萬個篩選樣本（占比48%）時，模型性能達(dá)到了使用全部數(shù)據(jù)的99.66%。而當(dāng)使用40萬個樣本時，性能甚至超越了全數(shù)據(jù)訓(xùn)練，達(dá)到了101.16%的相對性能。

這個現(xiàn)象背后的原因很有意思。就像清理房間一樣，有時候扔掉一些雜物反而會讓整個空間更加整潔舒適。ScalSelect通過移除冗余和低質(zhì)量的訓(xùn)練樣本，實際上幫助模型避免了"學(xué)壞"的風(fēng)險，讓模型能夠更專注于學(xué)習(xí)有價值的模式和特征。

研究團(tuán)隊還進(jìn)行了跨模型和跨數(shù)據(jù)集的驗證實驗。他們發(fā)現(xiàn)，ScalSelect在不同架構(gòu)的模型上都表現(xiàn)出色，特別是在更大規(guī)模的Qwen3-VL模型上，效果甚至更為顯著。這說明更強(qiáng)大的模型可能對數(shù)據(jù)質(zhì)量更加敏感，因此從高質(zhì)量數(shù)據(jù)篩選中獲得的收益也更大。

在不同類型的評測任務(wù)中，ScalSelect顯示出了有趣的專業(yè)化特點。在需要精確視覺定位的任務(wù)（如文字識別）上，使用指令感知注意力的樣本表現(xiàn)尤其突出。而在需要綜合推理的任務(wù)上，全局子空間選擇的效果更為明顯。這就像不同的工具在不同的工作場景下發(fā)揮不同的作用。

研究團(tuán)隊還分析了ScalSelect選出的樣本具有什么特征。他們發(fā)現(xiàn)，重要性得分的分布呈現(xiàn)明顯的長尾特征：少數(shù)樣本具有很高的重要性得分，而大部分樣本的得分相對較低。這驗證了"二八定律"在數(shù)據(jù)篩選領(lǐng)域的適用性——20%的高質(zhì)量樣本承載了80%的有用信息。

五、技術(shù)細(xì)節(jié)的巧思：讓復(fù)雜變簡單的設(shè)計哲學(xué)

ScalSelect的成功不僅在于其創(chuàng)新的核心思想，更在于研究團(tuán)隊在技術(shù)實現(xiàn)上的諸多巧妙設(shè)計。這些設(shè)計細(xì)節(jié)就像一棟建筑的基礎(chǔ)工程，雖然不那么顯眼，但卻是整個系統(tǒng)穩(wěn)定運行的關(guān)鍵。

在注意力閾值的設(shè)定上，研究團(tuán)隊進(jìn)行了細(xì)致的敏感性分析。他們發(fā)現(xiàn)，當(dāng)注意力累積閾值在85%到95%之間變化時，系統(tǒng)性能保持相對穩(wěn)定，這說明方法具有良好的魯棒性。最終他們選擇90%作為默認(rèn)閾值，這個選擇既保證了信息的完整性，又避免了過多噪音的干擾。

對于子空間維度的確定，系統(tǒng)采用了一個自適應(yīng)的策略。它會自動計算需要多少個主要方向才能解釋數(shù)據(jù)90%的變化，然后以此作為子空間的維度。這就像自動調(diào)節(jié)的望遠(yuǎn)鏡，能夠根據(jù)觀測目標(biāo)的特點自動選擇最合適的放大倍數(shù)。

研究團(tuán)隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象：在不同的模型層級提取特征會產(chǎn)生不同的效果。他們測試了從第一層、中間層和倒數(shù)第二層提取特征的效果。結(jié)果顯示，第一層的效果最好，這驗證了他們關(guān)于早期層級包含最純凈跨模態(tài)信息的假設(shè)。中間層的效果最差，可能是因為這些層更專注于抽象推理而不是具體的視覺細(xì)節(jié)。

在計算效率方面，ScalSelect展現(xiàn)出了顯著的優(yōu)勢。傳統(tǒng)的基于相似度的方法需要進(jìn)行樣本間的兩兩比較，其時間復(fù)雜度為O(N?)，意味著數(shù)據(jù)量增加一倍，計算時間增加四倍。而ScalSelect的時間復(fù)雜度為O(N)，數(shù)據(jù)量增加一倍，計算時間也只增加一倍。當(dāng)處理幾十萬個樣本時，這種效率差異變得極為明顯。

研究團(tuán)隊還對比了不同數(shù)據(jù)篩選方法的效果。他們發(fā)現(xiàn)，簡單的啟發(fā)式方法（如隨機(jī)選擇、基于長度選擇）效果普遍較差，這說明數(shù)據(jù)篩選確實需要考慮更深層的特征。而一些基于外部模型的方法雖然效果不錯，但存在模型匹配度的問題，而且需要額外的計算資源。

特別值得一提的是，ScalSelect在處理多輪對話數(shù)據(jù)時表現(xiàn)出了獨特的優(yōu)勢。傳統(tǒng)方法往往將每輪對話獨立處理，但ScalSelect能夠捕捉到整個對話序列中的注意力變化模式，從而選出更有代表性的對話樣本。

研究團(tuán)隊還進(jìn)行了大量的消融實驗來驗證每個組件的作用。當(dāng)移除指令感知的注意力機(jī)制時，系統(tǒng)性能有所下降，特別是在需要精確視覺定位的任務(wù)上。當(dāng)移除列中心化步驟時，子空間的維度會異常地收縮到1，這說明中心化對于發(fā)現(xiàn)數(shù)據(jù)的真實結(jié)構(gòu)至關(guān)重要。

六、實際應(yīng)用與未來展望：開啟高效AI訓(xùn)練新時代

ScalSelect的成功不僅僅是一個學(xué)術(shù)研究的勝利，更重要的是它為整個AI訓(xùn)練領(lǐng)域帶來了實際的變革可能。這項技術(shù)的影響就像在交通擁堵的城市中開辟了一條新的高速通道，不僅能夠解決當(dāng)前的問題，還能為未來的發(fā)展奠定基礎(chǔ)。

從直接的經(jīng)濟(jì)效益來看，ScalSelect能夠?qū)⒂?xùn)練成本降低到原來的六分之一左右。這意味著原本需要花費數(shù)萬美元GPU時間的訓(xùn)練任務(wù)，現(xiàn)在可能只需要幾千美元就能完成。對于資源有限的研究機(jī)構(gòu)和創(chuàng)業(yè)公司來說，這種成本降低可能是決定性的，它讓更多的團(tuán)隊有機(jī)會參與到視覺語言模型的開發(fā)中來。

更重要的是，這種效率提升為模型的快速迭代創(chuàng)造了條件。原本需要數(shù)天才能完成的訓(xùn)練過程現(xiàn)在可以在幾個小時內(nèi)完成，這意味著研究人員可以更快地測試新想法、調(diào)整模型參數(shù)、驗證假設(shè)。這種加速的實驗循環(huán)很可能會推動整個領(lǐng)域的創(chuàng)新速度。

在環(huán)境影響方面，ScalSelect的貢獻(xiàn)同樣值得關(guān)注。AI模型訓(xùn)練的能源消耗一直是業(yè)界關(guān)注的問題，大規(guī)模的訓(xùn)練任務(wù)往往需要消耗大量電力。通過顯著減少所需的計算量，ScalSelect有助于降低AI訓(xùn)練的碳足跡，這對于構(gòu)建更可持續(xù)的AI生態(tài)系統(tǒng)具有重要意義。

從技術(shù)發(fā)展的角度來看，ScalSelect開辟了一個全新的研究方向。它證明了從全局?jǐn)?shù)據(jù)結(jié)構(gòu)的角度進(jìn)行數(shù)據(jù)篩選的可行性和有效性，這種思路很可能會啟發(fā)更多類似的研究。未來可能會出現(xiàn)更多基于數(shù)據(jù)空間幾何結(jié)構(gòu)的選擇策略，進(jìn)一步提升篩選的精度和效率。

研究團(tuán)隊已經(jīng)在考慮ScalSelect的進(jìn)一步發(fā)展方向。他們正在探索如何將這種方法擴(kuò)展到其他類型的多模態(tài)數(shù)據(jù)，比如視頻-文本數(shù)據(jù)、音頻-文本數(shù)據(jù)等。初步的實驗結(jié)果顯示，核心思想具有良好的泛化性，這為更廣泛的應(yīng)用奠定了基礎(chǔ)。

另一個有趣的發(fā)展方向是動態(tài)數(shù)據(jù)篩選。當(dāng)前的ScalSelect是一次性地從靜態(tài)數(shù)據(jù)集中選擇樣本，但未來的版本可能能夠根據(jù)訓(xùn)練過程中模型性能的變化，動態(tài)調(diào)整數(shù)據(jù)選擇策略。這就像一個智能的私人教練，會根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度調(diào)整教學(xué)內(nèi)容的難度和重點。

在工業(yè)應(yīng)用方面，ScalSelect已經(jīng)引起了多家AI公司的關(guān)注。一些公司正在將這種技術(shù)集成到他們的模型訓(xùn)練流水線中，以提高訓(xùn)練效率和降低成本。隨著技術(shù)的進(jìn)一步成熟，預(yù)計會有更多的商業(yè)化應(yīng)用出現(xiàn)。

研究團(tuán)隊還在探索ScalSelect在模型壓縮和知識蒸餾中的應(yīng)用。他們發(fā)現(xiàn)，用ScalSelect選出的高質(zhì)量樣本不僅適合訓(xùn)練新模型，也特別適合用于將大模型的知識轉(zhuǎn)移到小模型中。這為在資源受限的設(shè)備上部署高性能AI模型提供了新的可能。

說到底，ScalSelect代表的不僅僅是一種技術(shù)改進(jìn)，更是一種思維方式的轉(zhuǎn)變。它告訴我們，在數(shù)據(jù)驅(qū)動的AI時代，"更多"并不總是意味著"更好"。通過智能的數(shù)據(jù)篩選，我們可以用更少的資源獲得更好的效果。這種理念很可能會影響到AI領(lǐng)域的各個方面，從數(shù)據(jù)收集到模型設(shè)計，從訓(xùn)練策略到評估方法。

正如研究團(tuán)隊在論文中所說，ScalSelect為大規(guī)模多模態(tài)數(shù)據(jù)選擇提供了一個實用而有原則的解決方案，并為視覺語言學(xué)習(xí)中面向子空間的數(shù)據(jù)選擇開辟了新的方向。這項研究不僅解決了當(dāng)前的實際問題，更為未來的發(fā)展指明了方向。對于所有關(guān)注AI效率和可持續(xù)發(fā)展的人來說，ScalSelect都是一個值得深入了解的重要進(jìn)展。

Q&A

Q1：ScalSelect與傳統(tǒng)數(shù)據(jù)篩選方法相比有什么優(yōu)勢？

A：ScalSelect最大的優(yōu)勢是不需要額外訓(xùn)練任何模型，就能智能篩選數(shù)據(jù)。傳統(tǒng)方法要么需要先訓(xùn)練一個"篩選專家"模型，要么依賴外部輔助模型，計算成本很高。而ScalSelect采用線性時間復(fù)雜度，數(shù)據(jù)量增加一倍計算時間也只增加一倍，效率遠(yuǎn)超需要兩兩比較的傳統(tǒng)方法。實驗顯示用16%的精選數(shù)據(jù)就能達(dá)到97.5%的全數(shù)據(jù)訓(xùn)練效果。

Q2：ScalSelect的指令感知注意力提取是如何工作的？

A：這個技術(shù)模仿人類看圖的方式，根據(jù)不同問題關(guān)注圖片的不同區(qū)域。當(dāng)AI模型處理圖文對話時，文字指令會對圖片的各個區(qū)域產(chǎn)生不同的注意力得分。ScalSelect專門提取那些獲得最高注意力的視覺區(qū)域作為樣本特征，就像智能聚光燈會根據(jù)導(dǎo)演要求照亮舞臺不同角落。這樣能確保每個訓(xùn)練樣本都包含最相關(guān)的視覺信息。

Q3：普通研究團(tuán)隊能否使用ScalSelect來提高訓(xùn)練效率？

A：完全可以。ScalSelect最大的特點就是易于使用且成本低廉。它不需要額外的GPU資源進(jìn)行預(yù)訓(xùn)練，也不依賴昂貴的外部模型。研究團(tuán)隊已經(jīng)開源了相關(guān)代碼，任何有基本深度學(xué)習(xí)基礎(chǔ)的團(tuán)隊都可以使用。對于資源有限的研究機(jī)構(gòu)和創(chuàng)業(yè)公司來說，這種能將訓(xùn)練成本降低到六分之一的技術(shù)可能是決定性的，讓更多團(tuán)隊有機(jī)會參與視覺語言模型開發(fā)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.