国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

數(shù)據(jù)篩選新突破:讓AI視覺訓(xùn)練效率暴增6倍的智能選擇器

0
分享至


這項由東華師范大學(xué)、中關(guān)村科學(xué)院、香港理工大學(xué)等多家機(jī)構(gòu)聯(lián)合完成的研究發(fā)表于2026年的計算機(jī)視覺頂級會議,有興趣深入了解的讀者可以通過arXiv:2602.11636查詢完整論文。

在人工智能的世界里,訓(xùn)練一個既能看圖又能說話的智能模型就像培養(yǎng)一個全能助手。但這個過程有個令人頭疼的問題:需要喂給模型的"學(xué)習(xí)資料"實在太多了。就好比讓一個人學(xué)會識別全世界的動物,你給他看了一萬張狗的照片、一萬張貓的照片,但其中很多照片其實都是重復(fù)的或者質(zhì)量很差的。這種冗余不僅浪費時間,還會拖慢學(xué)習(xí)進(jìn)度。

研究團(tuán)隊面臨的正是這樣一個現(xiàn)實問題:現(xiàn)在的視覺語言模型需要用海量的圖片和對話數(shù)據(jù)進(jìn)行訓(xùn)練,但這些數(shù)據(jù)中存在大量重復(fù)和低質(zhì)量的內(nèi)容。傳統(tǒng)的數(shù)據(jù)篩選方法要么需要額外的訓(xùn)練過程(這本身就很耗時),要么依賴其他輔助模型,要么只能進(jìn)行簡單粗暴的隨機(jī)選擇。

在這種背景下,研究團(tuán)隊開發(fā)了一個名為ScalSelect的智能數(shù)據(jù)篩選系統(tǒng)。這個系統(tǒng)的神奇之處在于,它能夠在不需要任何額外訓(xùn)練的情況下,自動從海量訓(xùn)練數(shù)據(jù)中挑選出最有價值的部分。更令人驚喜的是,用這種方法篩選出的數(shù)據(jù)進(jìn)行訓(xùn)練,僅用原來16%的數(shù)據(jù)量就能達(dá)到使用全部數(shù)據(jù)97.5%以上的效果,在某些情況下甚至超越了使用全部數(shù)據(jù)的訓(xùn)練效果。

這項研究的突破性在于首次提出了"指令相關(guān)的視覺注意力提取"和"全局子空間感知選擇"兩個核心創(chuàng)新概念。研究團(tuán)隊發(fā)現(xiàn),不同的文字指令會讓模型關(guān)注圖片的不同區(qū)域,就像你問"這張圖片里有什么動物"和"這張圖片的背景是什么顏色"時,模型需要關(guān)注的視覺重點完全不同?;谶@個發(fā)現(xiàn),他們開發(fā)的系統(tǒng)能夠智能識別每個訓(xùn)練樣本中真正重要的視覺信息,然后從整體數(shù)據(jù)結(jié)構(gòu)的角度選出最有代表性的樣本。

一、揭秘數(shù)據(jù)冗余的根源:為什么AI訓(xùn)練如此低效

當(dāng)我們深入了解現(xiàn)代視覺語言模型的訓(xùn)練過程時,就會發(fā)現(xiàn)一個令人困擾的現(xiàn)象:模型需要消化的訓(xùn)練數(shù)據(jù)量正在以驚人的速度增長。這種增長就像城市交通一樣——道路越修越寬,車卻越來越多,擁堵問題依然存在。

現(xiàn)在的視覺語言模型訓(xùn)練通常需要幾十萬甚至上百萬個圖片-對話樣本。每個樣本包含一張圖片和一段人類與AI的對話記錄。但問題在于,這些海量數(shù)據(jù)中包含了大量的"噪音"和重復(fù)內(nèi)容。就像一個圖書館里擺滿了相同主題的書籍,但其中很多內(nèi)容都是重復(fù)的,有些甚至質(zhì)量很差。

傳統(tǒng)的數(shù)據(jù)篩選方法面臨著多重困境。一些方法需要先訓(xùn)練一個"篩選專家"模型來評估數(shù)據(jù)質(zhì)量,但這本身就需要消耗大量計算資源,有點像為了節(jié)約用電而先買一臺發(fā)電機(jī)。另一些方法依賴現(xiàn)有的輔助模型(比如CLIP)來判斷圖片和文字的匹配程度,但這些外部模型往往與目標(biāo)模型存在"口味差異",就像讓一個西餐廚師來評判中餐的好壞。

更關(guān)鍵的是,現(xiàn)有方法普遍忽略了一個重要事實:同一張圖片在不同的對話場景下,其重要性和關(guān)注重點是完全不同的。比如一張包含狗和花園的照片,當(dāng)對話是"這是什么動物"時,狗是關(guān)鍵信息;當(dāng)對話是"這個場景在哪里"時,花園背景才是重點。傳統(tǒng)方法往往把圖片當(dāng)作獨立的個體來處理,就像盲人摸象一樣,只能感知到局部信息而缺乏整體視角。

研究團(tuán)隊還發(fā)現(xiàn),許多現(xiàn)有方法在處理大規(guī)模數(shù)據(jù)時存在嚴(yán)重的效率問題。它們需要計算樣本之間的相似度,這意味著要進(jìn)行大量的兩兩比較。當(dāng)數(shù)據(jù)量達(dá)到幾十萬個樣本時,這種計算復(fù)雜度會呈二次方增長,就像邀請所有人都要和所有其他人握一次手,當(dāng)人數(shù)增加時,握手次數(shù)會急劇增長。

正是在這種背景下,ScalSelect應(yīng)運而生。它采用了一種全新的思路:不再糾結(jié)于樣本之間的局部關(guān)系,而是從整體數(shù)據(jù)空間的角度來考慮問題,就像從高空俯瞰整個城市布局,而不是站在街頭逐個檢查每棟建筑。

二、指令感知的視覺注意力:讓AI學(xué)會"看重點"

ScalSelect的第一個核心創(chuàng)新是開發(fā)了"指令條件下的早期表征提取"技術(shù)。這個技術(shù)的靈感來源于一個簡單但深刻的觀察:人類在看圖片時,會根據(jù)別人的提問自動調(diào)整注意力焦點。

當(dāng)有人問你"這張照片里的公交車是什么顏色"時,你的眼睛會自然而然地聚焦在公交車上,而對背景中的行人和建筑物視而不見。但如果問題變成"這條街上有多少行人",你的注意力就會立即轉(zhuǎn)向人群,對公交車的關(guān)注度大幅下降。

研究團(tuán)隊發(fā)現(xiàn),視覺語言模型在處理信息時也存在類似的"注意力機(jī)制"。在模型的第一層網(wǎng)絡(luò)中,不同的文字指令會激活對圖片不同區(qū)域的關(guān)注。這就像一個智能聚光燈,會根據(jù)導(dǎo)演的要求照亮舞臺上的不同角落。

具體來說,當(dāng)模型讀取一個圖文對話樣本時,文字部分的每個詞語都會對圖片的各個區(qū)域產(chǎn)生不同程度的"注意力得分"。研究團(tuán)隊巧妙地利用了這個特性,專門提取那些接收到最高注意力得分的視覺區(qū)域,將它們作為該樣本的代表性特征。

這個過程就像一個經(jīng)驗豐富的攝影師,能夠根據(jù)拍攝主題自動調(diào)整焦點。當(dāng)需要拍攝人像時,鏡頭會自動聚焦在人物面部;當(dāng)需要拍攝風(fēng)景時,鏡頭會調(diào)整到捕捉整個景觀的最佳位置。ScalSelect的注意力提取機(jī)制也是如此,它能夠根據(jù)對話內(nèi)容的不同,自動識別圖片中最相關(guān)的視覺信息。

研究團(tuán)隊通過大量實驗發(fā)現(xiàn),模型的第一層網(wǎng)絡(luò)是進(jìn)行這種提取的最佳位置。在這一層,視覺信息和文字信息剛剛開始融合,注意力分布最為清晰和穩(wěn)定。就像在河流的源頭取水,水質(zhì)最為純凈清澈。

更有趣的是,他們設(shè)計了一個智能閾值機(jī)制來控制選擇多少視覺信息。系統(tǒng)會自動計算注意力的累積分布,選擇那些累計注意力達(dá)到總注意力90%的視覺區(qū)域。這確保了既不會遺漏重要信息,也不會包含過多噪音。

這種方法的效果令人印象深刻。在處理需要精確視覺定位的任務(wù)(比如文字識別)時,指令感知的注意力提取顯示出明顯優(yōu)勢。因為它能夠準(zhǔn)確識別文字指令所關(guān)注的圖片區(qū)域,過濾掉無關(guān)的視覺干擾。實驗結(jié)果顯示,使用這種方法提取的樣本表征在OCR(光學(xué)字符識別)任務(wù)上表現(xiàn)尤其突出,這充分證明了注意力引導(dǎo)的有效性。

三、全局子空間的智慧選擇:從整體視角重新定義數(shù)據(jù)篩選

ScalSelect的第二個突破性創(chuàng)新是提出了"子空間感知的全局選擇"策略。這個概念初聽起來可能有些抽象,但我們可以用一個簡單的比喻來理解。

設(shè)想你正在整理一個巨大的音樂圖書館,里面有幾十萬首歌曲。傳統(tǒng)的整理方法是逐一比較每首歌,看看哪些聽起來相似,然后保留不同風(fēng)格的代表作。但這種方法效率極低,而且容易遺漏重要的音樂類型。

ScalSelect采用的方法就像一個音樂理論專家,他不是比較具體的歌曲,而是分析整個音樂圖書館的"音樂空間"結(jié)構(gòu)。他發(fā)現(xiàn),雖然有幾十萬首歌,但實際上大部分音樂都可以用幾十個基本的音樂元素來表達(dá)——比如節(jié)拍、旋律模式、和聲結(jié)構(gòu)等。然后他會挑選那些最能代表這些核心音樂元素的歌曲,用最少的歌曲數(shù)量保留整個音樂圖書館的精華。

在數(shù)據(jù)篩選的背景下,ScalSelect將所有訓(xùn)練樣本的表征組成一個高維的"表征空間"。研究團(tuán)隊發(fā)現(xiàn),盡管樣本數(shù)量龐大,但這個空間實際上具有明顯的低維結(jié)構(gòu)特征。就像一張復(fù)雜的地圖,雖然包含無數(shù)個地點,但主要的地理特征可以用幾條主要的山脈、河流和道路來概括。

系統(tǒng)使用了一種叫做"奇異值分解"的數(shù)學(xué)工具來識別這個表征空間的主要結(jié)構(gòu)。這個工具就像一個智能的空間分析師,能夠找出數(shù)據(jù)空間中最重要的幾個"主方向"。這些主方向代表了數(shù)據(jù)的核心變化模式,捕獲了大部分樣本的共同特征。

關(guān)鍵的創(chuàng)新在于,ScalSelect不是簡單地在這些主方向上隨機(jī)采樣,而是計算每個樣本對這些主方向的"貢獻(xiàn)度"。這個貢獻(xiàn)度被稱為"統(tǒng)計杠桿得分",它衡量的是如果移除某個樣本,整個數(shù)據(jù)空間的主要結(jié)構(gòu)會發(fā)生多大程度的改變。

這就像評估一支交響樂團(tuán)中每個樂手的重要性。雖然每個樂手都在演奏,但有些樂手(比如第一小提琴手)的演奏對整體音樂效果的影響要遠(yuǎn)大于其他樂手。ScalSelect正是通過這種方式識別出對整體數(shù)據(jù)結(jié)構(gòu)最為關(guān)鍵的樣本。

更令人驚喜的是,這種方法的計算復(fù)雜度是線性的,意味著數(shù)據(jù)量增加一倍,計算時間也只增加一倍,而不是傳統(tǒng)方法的四倍增長。這使得ScalSelect在處理大規(guī)模數(shù)據(jù)時具有明顯的效率優(yōu)勢。

實驗結(jié)果證明了這種全局視角的有效性。當(dāng)使用ScalSelect篩選出16%的數(shù)據(jù)進(jìn)行訓(xùn)練時,模型性能能夠達(dá)到使用全部數(shù)據(jù)訓(xùn)練的97.5%以上。在某些情況下,精選的小數(shù)據(jù)集甚至比全量數(shù)據(jù)集的訓(xùn)練效果更好,這說明去除冗余和噪音數(shù)據(jù)確實能夠提升模型的學(xué)習(xí)效率。

四、實驗驗證:數(shù)字背后的驚人發(fā)現(xiàn)

為了驗證ScalSelect的實際效果,研究團(tuán)隊進(jìn)行了一系列全面而嚴(yán)格的實驗。他們的實驗設(shè)計就像一場精心策劃的科學(xué)探險,每個環(huán)節(jié)都經(jīng)過仔細(xì)考慮,確保結(jié)果的可靠性和說服力。

實驗的"主戰(zhàn)場"是一個包含62.5萬個圖文對話樣本的大型數(shù)據(jù)集。這個數(shù)據(jù)集涵蓋了各種各樣的視覺任務(wù):回答關(guān)于圖片的問題、識別圖片中的文字、理解圖表和圖形、進(jìn)行多輪對話等等。研究團(tuán)隊選擇這樣一個多元化的數(shù)據(jù)集,就是為了確保他們的方法不只是在某個特定場景下有效,而是具有廣泛的適用性。

他們測試了多種不同規(guī)模和架構(gòu)的模型,包括7億參數(shù)的LLaVA模型和40億、80億參數(shù)的Qwen3-VL模型。這就像在不同類型的土壤上測試同一種農(nóng)作物,看看新的種植方法是否在各種環(huán)境下都能獲得好收成。

實驗結(jié)果讓人眼前一亮。當(dāng)研究團(tuán)隊使用ScalSelect從62.5萬個樣本中篩選出10萬個(僅占16%)進(jìn)行訓(xùn)練時,模型在九個不同的評測基準(zhǔn)上的平均性能達(dá)到了使用全部數(shù)據(jù)訓(xùn)練的97.85%。這意味著用不到六分之一的數(shù)據(jù),就能獲得幾乎相同的效果。

更讓人驚喜的是,隨著篩選數(shù)據(jù)量的增加,性能提升呈現(xiàn)出穩(wěn)定的增長趨勢。當(dāng)使用30萬個篩選樣本(占比48%)時,模型性能達(dá)到了使用全部數(shù)據(jù)的99.66%。而當(dāng)使用40萬個樣本時,性能甚至超越了全數(shù)據(jù)訓(xùn)練,達(dá)到了101.16%的相對性能。

這個現(xiàn)象背后的原因很有意思。就像清理房間一樣,有時候扔掉一些雜物反而會讓整個空間更加整潔舒適。ScalSelect通過移除冗余和低質(zhì)量的訓(xùn)練樣本,實際上幫助模型避免了"學(xué)壞"的風(fēng)險,讓模型能夠更專注于學(xué)習(xí)有價值的模式和特征。

研究團(tuán)隊還進(jìn)行了跨模型和跨數(shù)據(jù)集的驗證實驗。他們發(fā)現(xiàn),ScalSelect在不同架構(gòu)的模型上都表現(xiàn)出色,特別是在更大規(guī)模的Qwen3-VL模型上,效果甚至更為顯著。這說明更強(qiáng)大的模型可能對數(shù)據(jù)質(zhì)量更加敏感,因此從高質(zhì)量數(shù)據(jù)篩選中獲得的收益也更大。

在不同類型的評測任務(wù)中,ScalSelect顯示出了有趣的專業(yè)化特點。在需要精確視覺定位的任務(wù)(如文字識別)上,使用指令感知注意力的樣本表現(xiàn)尤其突出。而在需要綜合推理的任務(wù)上,全局子空間選擇的效果更為明顯。這就像不同的工具在不同的工作場景下發(fā)揮不同的作用。

研究團(tuán)隊還分析了ScalSelect選出的樣本具有什么特征。他們發(fā)現(xiàn),重要性得分的分布呈現(xiàn)明顯的長尾特征:少數(shù)樣本具有很高的重要性得分,而大部分樣本的得分相對較低。這驗證了"二八定律"在數(shù)據(jù)篩選領(lǐng)域的適用性——20%的高質(zhì)量樣本承載了80%的有用信息。

五、技術(shù)細(xì)節(jié)的巧思:讓復(fù)雜變簡單的設(shè)計哲學(xué)

ScalSelect的成功不僅在于其創(chuàng)新的核心思想,更在于研究團(tuán)隊在技術(shù)實現(xiàn)上的諸多巧妙設(shè)計。這些設(shè)計細(xì)節(jié)就像一棟建筑的基礎(chǔ)工程,雖然不那么顯眼,但卻是整個系統(tǒng)穩(wěn)定運行的關(guān)鍵。

在注意力閾值的設(shè)定上,研究團(tuán)隊進(jìn)行了細(xì)致的敏感性分析。他們發(fā)現(xiàn),當(dāng)注意力累積閾值在85%到95%之間變化時,系統(tǒng)性能保持相對穩(wěn)定,這說明方法具有良好的魯棒性。最終他們選擇90%作為默認(rèn)閾值,這個選擇既保證了信息的完整性,又避免了過多噪音的干擾。

對于子空間維度的確定,系統(tǒng)采用了一個自適應(yīng)的策略。它會自動計算需要多少個主要方向才能解釋數(shù)據(jù)90%的變化,然后以此作為子空間的維度。這就像自動調(diào)節(jié)的望遠(yuǎn)鏡,能夠根據(jù)觀測目標(biāo)的特點自動選擇最合適的放大倍數(shù)。

研究團(tuán)隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:在不同的模型層級提取特征會產(chǎn)生不同的效果。他們測試了從第一層、中間層和倒數(shù)第二層提取特征的效果。結(jié)果顯示,第一層的效果最好,這驗證了他們關(guān)于早期層級包含最純凈跨模態(tài)信息的假設(shè)。中間層的效果最差,可能是因為這些層更專注于抽象推理而不是具體的視覺細(xì)節(jié)。

在計算效率方面,ScalSelect展現(xiàn)出了顯著的優(yōu)勢。傳統(tǒng)的基于相似度的方法需要進(jìn)行樣本間的兩兩比較,其時間復(fù)雜度為O(N?),意味著數(shù)據(jù)量增加一倍,計算時間增加四倍。而ScalSelect的時間復(fù)雜度為O(N),數(shù)據(jù)量增加一倍,計算時間也只增加一倍。當(dāng)處理幾十萬個樣本時,這種效率差異變得極為明顯。

研究團(tuán)隊還對比了不同數(shù)據(jù)篩選方法的效果。他們發(fā)現(xiàn),簡單的啟發(fā)式方法(如隨機(jī)選擇、基于長度選擇)效果普遍較差,這說明數(shù)據(jù)篩選確實需要考慮更深層的特征。而一些基于外部模型的方法雖然效果不錯,但存在模型匹配度的問題,而且需要額外的計算資源。

特別值得一提的是,ScalSelect在處理多輪對話數(shù)據(jù)時表現(xiàn)出了獨特的優(yōu)勢。傳統(tǒng)方法往往將每輪對話獨立處理,但ScalSelect能夠捕捉到整個對話序列中的注意力變化模式,從而選出更有代表性的對話樣本。

研究團(tuán)隊還進(jìn)行了大量的消融實驗來驗證每個組件的作用。當(dāng)移除指令感知的注意力機(jī)制時,系統(tǒng)性能有所下降,特別是在需要精確視覺定位的任務(wù)上。當(dāng)移除列中心化步驟時,子空間的維度會異常地收縮到1,這說明中心化對于發(fā)現(xiàn)數(shù)據(jù)的真實結(jié)構(gòu)至關(guān)重要。

六、實際應(yīng)用與未來展望:開啟高效AI訓(xùn)練新時代

ScalSelect的成功不僅僅是一個學(xué)術(shù)研究的勝利,更重要的是它為整個AI訓(xùn)練領(lǐng)域帶來了實際的變革可能。這項技術(shù)的影響就像在交通擁堵的城市中開辟了一條新的高速通道,不僅能夠解決當(dāng)前的問題,還能為未來的發(fā)展奠定基礎(chǔ)。

從直接的經(jīng)濟(jì)效益來看,ScalSelect能夠?qū)⒂?xùn)練成本降低到原來的六分之一左右。這意味著原本需要花費數(shù)萬美元GPU時間的訓(xùn)練任務(wù),現(xiàn)在可能只需要幾千美元就能完成。對于資源有限的研究機(jī)構(gòu)和創(chuàng)業(yè)公司來說,這種成本降低可能是決定性的,它讓更多的團(tuán)隊有機(jī)會參與到視覺語言模型的開發(fā)中來。

更重要的是,這種效率提升為模型的快速迭代創(chuàng)造了條件。原本需要數(shù)天才能完成的訓(xùn)練過程現(xiàn)在可以在幾個小時內(nèi)完成,這意味著研究人員可以更快地測試新想法、調(diào)整模型參數(shù)、驗證假設(shè)。這種加速的實驗循環(huán)很可能會推動整個領(lǐng)域的創(chuàng)新速度。

在環(huán)境影響方面,ScalSelect的貢獻(xiàn)同樣值得關(guān)注。AI模型訓(xùn)練的能源消耗一直是業(yè)界關(guān)注的問題,大規(guī)模的訓(xùn)練任務(wù)往往需要消耗大量電力。通過顯著減少所需的計算量,ScalSelect有助于降低AI訓(xùn)練的碳足跡,這對于構(gòu)建更可持續(xù)的AI生態(tài)系統(tǒng)具有重要意義。

從技術(shù)發(fā)展的角度來看,ScalSelect開辟了一個全新的研究方向。它證明了從全局?jǐn)?shù)據(jù)結(jié)構(gòu)的角度進(jìn)行數(shù)據(jù)篩選的可行性和有效性,這種思路很可能會啟發(fā)更多類似的研究。未來可能會出現(xiàn)更多基于數(shù)據(jù)空間幾何結(jié)構(gòu)的選擇策略,進(jìn)一步提升篩選的精度和效率。

研究團(tuán)隊已經(jīng)在考慮ScalSelect的進(jìn)一步發(fā)展方向。他們正在探索如何將這種方法擴(kuò)展到其他類型的多模態(tài)數(shù)據(jù),比如視頻-文本數(shù)據(jù)、音頻-文本數(shù)據(jù)等。初步的實驗結(jié)果顯示,核心思想具有良好的泛化性,這為更廣泛的應(yīng)用奠定了基礎(chǔ)。

另一個有趣的發(fā)展方向是動態(tài)數(shù)據(jù)篩選。當(dāng)前的ScalSelect是一次性地從靜態(tài)數(shù)據(jù)集中選擇樣本,但未來的版本可能能夠根據(jù)訓(xùn)練過程中模型性能的變化,動態(tài)調(diào)整數(shù)據(jù)選擇策略。這就像一個智能的私人教練,會根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度調(diào)整教學(xué)內(nèi)容的難度和重點。

在工業(yè)應(yīng)用方面,ScalSelect已經(jīng)引起了多家AI公司的關(guān)注。一些公司正在將這種技術(shù)集成到他們的模型訓(xùn)練流水線中,以提高訓(xùn)練效率和降低成本。隨著技術(shù)的進(jìn)一步成熟,預(yù)計會有更多的商業(yè)化應(yīng)用出現(xiàn)。

研究團(tuán)隊還在探索ScalSelect在模型壓縮和知識蒸餾中的應(yīng)用。他們發(fā)現(xiàn),用ScalSelect選出的高質(zhì)量樣本不僅適合訓(xùn)練新模型,也特別適合用于將大模型的知識轉(zhuǎn)移到小模型中。這為在資源受限的設(shè)備上部署高性能AI模型提供了新的可能。

說到底,ScalSelect代表的不僅僅是一種技術(shù)改進(jìn),更是一種思維方式的轉(zhuǎn)變。它告訴我們,在數(shù)據(jù)驅(qū)動的AI時代,"更多"并不總是意味著"更好"。通過智能的數(shù)據(jù)篩選,我們可以用更少的資源獲得更好的效果。這種理念很可能會影響到AI領(lǐng)域的各個方面,從數(shù)據(jù)收集到模型設(shè)計,從訓(xùn)練策略到評估方法。

正如研究團(tuán)隊在論文中所說,ScalSelect為大規(guī)模多模態(tài)數(shù)據(jù)選擇提供了一個實用而有原則的解決方案,并為視覺語言學(xué)習(xí)中面向子空間的數(shù)據(jù)選擇開辟了新的方向。這項研究不僅解決了當(dāng)前的實際問題,更為未來的發(fā)展指明了方向。對于所有關(guān)注AI效率和可持續(xù)發(fā)展的人來說,ScalSelect都是一個值得深入了解的重要進(jìn)展。

Q&A

Q1:ScalSelect與傳統(tǒng)數(shù)據(jù)篩選方法相比有什么優(yōu)勢?

A:ScalSelect最大的優(yōu)勢是不需要額外訓(xùn)練任何模型,就能智能篩選數(shù)據(jù)。傳統(tǒng)方法要么需要先訓(xùn)練一個"篩選專家"模型,要么依賴外部輔助模型,計算成本很高。而ScalSelect采用線性時間復(fù)雜度,數(shù)據(jù)量增加一倍計算時間也只增加一倍,效率遠(yuǎn)超需要兩兩比較的傳統(tǒng)方法。實驗顯示用16%的精選數(shù)據(jù)就能達(dá)到97.5%的全數(shù)據(jù)訓(xùn)練效果。

Q2:ScalSelect的指令感知注意力提取是如何工作的?

A:這個技術(shù)模仿人類看圖的方式,根據(jù)不同問題關(guān)注圖片的不同區(qū)域。當(dāng)AI模型處理圖文對話時,文字指令會對圖片的各個區(qū)域產(chǎn)生不同的注意力得分。ScalSelect專門提取那些獲得最高注意力的視覺區(qū)域作為樣本特征,就像智能聚光燈會根據(jù)導(dǎo)演要求照亮舞臺不同角落。這樣能確保每個訓(xùn)練樣本都包含最相關(guān)的視覺信息。

Q3:普通研究團(tuán)隊能否使用ScalSelect來提高訓(xùn)練效率?

A:完全可以。ScalSelect最大的特點就是易于使用且成本低廉。它不需要額外的GPU資源進(jìn)行預(yù)訓(xùn)練,也不依賴昂貴的外部模型。研究團(tuán)隊已經(jīng)開源了相關(guān)代碼,任何有基本深度學(xué)習(xí)基礎(chǔ)的團(tuán)隊都可以使用。對于資源有限的研究機(jī)構(gòu)和創(chuàng)業(yè)公司來說,這種能將訓(xùn)練成本降低到六分之一的技術(shù)可能是決定性的,讓更多團(tuán)隊有機(jī)會參與視覺語言模型開發(fā)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
《妻子的浪漫旅行8》錄制路透,金莎孫丞瀟牽手,秦昊伊能靜撒糖

《妻子的浪漫旅行8》錄制路透,金莎孫丞瀟牽手,秦昊伊能靜撒糖

章眽八卦
2026-03-14 19:34:29
今年春季,事業(yè)像開掛一樣飆升的三個星座,升職加薪只是開始

今年春季,事業(yè)像開掛一樣飆升的三個星座,升職加薪只是開始

小晴星座說
2026-03-14 19:34:17
同濟(jì)醫(yī)院核磁共振事故:患者不能自己脫困嗎

同濟(jì)醫(yī)院核磁共振事故:患者不能自己脫困嗎

金牌娛樂
2026-03-14 09:31:27
宮魯鳴若下課,女籃新帥3選1,王治郅在列,57歲名宿解禁成熱門

宮魯鳴若下課,女籃新帥3選1,王治郅在列,57歲名宿解禁成熱門

萌蘭聊個球
2026-03-14 14:44:40
陳立夫:從高官到雞農(nóng),58歲患糖尿病,活102歲的長壽秘訣是什么

陳立夫:從高官到雞農(nóng),58歲患糖尿病,活102歲的長壽秘訣是什么

林雁飛
2026-03-06 14:35:14
哈馬斯呼吁伊朗不要將襲擊目標(biāo)對準(zhǔn)鄰國

哈馬斯呼吁伊朗不要將襲擊目標(biāo)對準(zhǔn)鄰國

新華社
2026-03-14 18:14:07
擊落美軍加油機(jī)?B-1B轟炸機(jī)對伊朗扔炸彈,以色列財長之子受重傷

擊落美軍加油機(jī)?B-1B轟炸機(jī)對伊朗扔炸彈,以色列財長之子受重傷

鷹眼Defence
2026-03-13 17:40:40
1944年,宋氏三姐妹拍了最后一張照片后,天各一方,相會無期

1944年,宋氏三姐妹拍了最后一張照片后,天各一方,相會無期

浩渺青史
2026-03-13 19:38:07
比安東尼還坑!曼聯(lián) 5000 萬新水貨,弗格森后最爛引援!

比安東尼還坑!曼聯(lián) 5000 萬新水貨,弗格森后最爛引援!

瀾歸序
2026-03-14 04:18:00
她果然沒離,畢竟400億資產(chǎn)的男人也不多??!

她果然沒離,畢竟400億資產(chǎn)的男人也不多??!

BenSir本色說
2026-03-11 22:06:22
貴州茅臺董秘蔣焰嚴(yán)重違紀(jì)違法被留置 此前已被“帶走”

貴州茅臺董秘蔣焰嚴(yán)重違紀(jì)違法被留置 此前已被“帶走”

21世紀(jì)經(jīng)濟(jì)報道
2026-03-13 21:14:12
伊朗最大的內(nèi)鬼被處決了

伊朗最大的內(nèi)鬼被處決了

犀利辣椒
2026-03-13 06:40:38
8次搶斷,劉洋刷新山東泰山隊史球員中超單場搶斷紀(jì)錄

8次搶斷,劉洋刷新山東泰山隊史球員中超單場搶斷紀(jì)錄

懂球帝
2026-03-14 18:17:53
廣東男籃本賽季消失的“七位故人”!他們都在哪?過的還好嗎?

廣東男籃本賽季消失的“七位故人”!他們都在哪?過的還好嗎?

男足的小球童
2026-03-14 19:37:29
1萬5起價 蘋果iPhone Fold計劃銷量上調(diào)20%

1萬5起價 蘋果iPhone Fold計劃銷量上調(diào)20%

PChome電腦之家
2026-03-13 11:21:45
新版《呼嘯山莊》“一刀未剪”,海報標(biāo)注“未成年人謹(jǐn)慎觀看”

新版《呼嘯山莊》“一刀未剪”,海報標(biāo)注“未成年人謹(jǐn)慎觀看”

韓小娛
2026-03-14 07:31:32
大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強(qiáng)多了

大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強(qiáng)多了

燦若銀爛
2026-02-27 20:11:39
太善良!王藝迪4比3險勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

太善良!王藝迪4比3險勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

鳳幻洋
2026-03-14 14:30:08
中國女足艱難晉級!媒體人熱議:衛(wèi)冕提前結(jié)束,米帥注定是恥辱

中國女足艱難晉級!媒體人熱議:衛(wèi)冕提前結(jié)束,米帥注定是恥辱

奧拜爾
2026-03-14 15:48:55
西部排名又變了:火箭超越湖人,快船高歌猛進(jìn),勇士岌岌可危

西部排名又變了:火箭超越湖人,快船高歌猛進(jìn),勇士岌岌可危

籃球大視野
2026-03-14 17:26:40
2026-03-14 20:11:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

時尚
旅游
本地
家居
親子

審美提升|| 來和時髦尖子生學(xué)幾招

旅游要聞

濟(jì)南2026花期預(yù)報來了,帶你精準(zhǔn)打卡春日花海

本地新聞

坐標(biāo)北京,過敏季反向遷徒

家居要聞

藝術(shù)之家 法式優(yōu)雅

親子要聞

萌娃為何覺得自己和大人一樣?聽到答案的大人們繃不住了

無障礙瀏覽 進(jìn)入關(guān)懷版