国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

超越谷歌、Meta,360的FG-CLIP2為何能成為全球最強(qiáng)圖文模型?

0
分享至



作者|冰拿鐵

編輯|星奈

媒體|AI大模型工場(chǎng)

你有沒有這種經(jīng)歷:讓AI幫忙找一張圖片,輸入“茶幾上放著一杯冒著熱氣的咖啡,旁邊有本翻開的書和一副紅色眼鏡”的圖片,主流AI或許能給你一堆有茶幾和咖啡的圖,但“冒著熱氣”、“翻開的書頁(yè)”和“眼鏡的顏色”這些決定成敗的細(xì)節(jié),它很可能就選擇性地忽視了,把你氣個(gè)半死。

這不是AI笨,而是它眼鏡度數(shù)不夠!給AI提供“眼鏡”的底層模型CLIP(對(duì)比式語(yǔ)言-圖像預(yù)訓(xùn)練模型),神經(jīng)比較大條,拙于“明察秋毫”。

這個(gè)短板,也成為阻礙AI在電商、安防、工業(yè)質(zhì)檢等領(lǐng)域落地“最后一公里”棘手難題,好比一個(gè)近視的人,卻無(wú)法勝任需要“顯微鏡級(jí)視力”的精密工作。

但現(xiàn)在,有人已經(jīng)攻克了這個(gè)難題:

360人工智能研究院最新開源的FG-CLIP2模型(360視覺語(yǔ)言對(duì)齊模型),在涵蓋圖文檢索、目標(biāo)檢測(cè)、圖像分類等8大類29個(gè)公開權(quán)威基準(zhǔn)測(cè)試中,全面超越了行業(yè)巨頭Google的SigLIP 2和Meta的MetaCLIP 2,在中文和英文任務(wù)中均取得了最佳性能,可以說(shuō)是全球最強(qiáng)圖文跨模態(tài)VLM模型。這一次,大模型終于對(duì)齊了“視覺顆粒度”!



有圈內(nèi)人評(píng)價(jià),這相當(dāng)于給AI戴上了一副“高精度光學(xué)顯微鏡”,讓它從“看得見”進(jìn)化到了“看得清”。也讓我們感慨,讓AI“看懂”圖片與文字關(guān)聯(lián)的核心賽道上,來(lái)自中國(guó)的模型首次實(shí)現(xiàn)了全方位的領(lǐng)先!

01

破局:CLIP模型的“近視病”與“生長(zhǎng)痛”

回顧C(jī)LIP模型誕生之初,是具有革命性意義的,其通過(guò)海量圖文數(shù)據(jù)對(duì)比學(xué)習(xí),讓AI獲得了前所未有的通用圖文理解能力,好比為AI安裝了一套標(biāo)準(zhǔn)的“視覺-語(yǔ)言”聯(lián)通系統(tǒng)。

然而,這套系統(tǒng)有個(gè)天生的“分辨率”限制,像個(gè)近視眼,短板很明顯:

讓它找“貓”,沒問題;但讓它找“一只正在伸懶腰的、尾巴翹起的橘貓”,就犯了難。具體而言,它無(wú)法精準(zhǔn)描述圖片里的細(xì)節(jié)特征,如衣物紋理、物品材質(zhì),無(wú)法理解復(fù)雜的方位關(guān)系,比如“A放在B后面,被C部分遮擋”。更糟心的是,模型也難以有效區(qū)分語(yǔ)義相近的文字說(shuō)明如“奔跑”與“疾馳”,導(dǎo)致理解過(guò)于籠統(tǒng)。

特別是由于中文語(yǔ)意的靈活性與復(fù)雜性,傳統(tǒng)模型更是顯得力不從心,難以處理豐富的語(yǔ)境和靈活表達(dá)。這背后深層原因是,CLIP模型的訓(xùn)練數(shù)據(jù)和目標(biāo)函數(shù)更側(cè)重于全局語(yǔ)義的匹配,而缺乏對(duì)圖像中局部區(qū)域、物體屬性、空間關(guān)系等細(xì)節(jié)進(jìn)行精準(zhǔn)對(duì)齊的強(qiáng)制要求。

這種能力缺失直接制約了AI的上層應(yīng)用,例如,在電商平臺(tái),用戶搜索“領(lǐng)口帶藍(lán)色條紋的白色襯衫”,傳統(tǒng)模型可能只匹配到“白色襯衫”,導(dǎo)致搜索結(jié)果不精準(zhǔn),影響轉(zhuǎn)化率;在內(nèi)容安全領(lǐng)域,模型可能能識(shí)別出“刀”,但無(wú)法精確判斷是“廚具”還是“兇器”,依賴于整體畫面氛圍,容易誤判或漏判。

FG-CLIP2要解決的,正是這些“像素級(jí)”對(duì)齊的難題,它的目標(biāo)不是成為一個(gè)參數(shù)更大的模型,而是成為一個(gè)“更精細(xì)”的模型。其名稱中的“FG”即“細(xì)粒度”,讓AI應(yīng)用有望從“可用”走向“好用”和“精準(zhǔn)用”。

來(lái)看“一只貍花貓和屏幕中的英短對(duì)視”圖,讓你清晰地get到FG-CLIP2的“火眼金睛”:



FG-CLIP2能清晰讀懂這張圖,所展現(xiàn)的能力是層次遞進(jìn)的。首先,它能夠精準(zhǔn)分辨貓的種類;其次,在存在視覺遮擋的復(fù)雜情況下,它能清晰辨別物體的空間層次,搞清楚屏幕內(nèi)外,對(duì)三維空間關(guān)系有深刻理解;此外,模型對(duì)貓的毛發(fā)屬性和狀態(tài)敏感。

換言之,F(xiàn)G-CLIP2能處理現(xiàn)實(shí)中充滿遮擋、層次和細(xì)節(jié)的復(fù)雜場(chǎng)景,實(shí)現(xiàn)了從“識(shí)別物體”到“理解場(chǎng)景”的關(guān)鍵躍升,難怪它能登頂SOTA,超越一系列競(jìng)爭(zhēng)對(duì)手。

那么,背后的底層邏輯是什么?訓(xùn)練過(guò)程中,360用了哪些“黑科技”?

02

登頂SOTA,F(xiàn)G-CLIP2的技術(shù)“三重門”

FG-CLIP2帶來(lái)一套組合拳式的“技術(shù)革新”,覆蓋了數(shù)據(jù)、算法和架構(gòu)三大核心層面。

首先,是數(shù)據(jù)基石,如果說(shuō)數(shù)據(jù)是AI的“糧食”,那么FG-CLIP2吃上的就是精心配比的“營(yíng)養(yǎng)餐”。團(tuán)隊(duì)構(gòu)建了名為FineHARD的大規(guī)模高質(zhì)量中英雙語(yǔ)數(shù)據(jù)集。這個(gè)數(shù)據(jù)集牛在,它不僅有常規(guī)的圖片簡(jiǎn)短描述,還創(chuàng)新性地為每張圖片生成了長(zhǎng)達(dá)150詞以上的詳細(xì)“小作文”,描述場(chǎng)景背景、物體屬性和空間關(guān)系。這就好比學(xué)習(xí)時(shí),不僅看章節(jié)標(biāo)題,還精讀詳細(xì)內(nèi)容,極大提升了模型的全局語(yǔ)義密度。



更重要的是,它實(shí)現(xiàn)了真正意義上的“局部細(xì)粒度對(duì)齊”:數(shù)據(jù)集包含了高達(dá)4000萬(wàn)個(gè)bounding box及其對(duì)應(yīng)的區(qū)域描述文本。

這意味著,模型不僅看整張圖,還會(huì)被訓(xùn)練去關(guān)注圖中每一個(gè)重要小區(qū)域,像偵探一樣掃描每張圖像,“地毯式搜索”,精準(zhǔn)定位出所有值得關(guān)注的目標(biāo)實(shí)體,并為每個(gè)小細(xì)節(jié)都配上了專門的、描述其細(xì)節(jié)的文本。

通俗點(diǎn)解釋,模型學(xué)習(xí)時(shí),不僅看整張風(fēng)景照,還會(huì)被專門要求去“精讀”照片里的樹、湖面上的船、遠(yuǎn)處的山,每個(gè)元素都有獨(dú)立注釋。

通過(guò)這種方式,模型被強(qiáng)制訓(xùn)練去建立圖像局部區(qū)域和文本特定詞匯之間的精確關(guān)聯(lián),從而變成細(xì)節(jié)狂魔!

最絕的是,團(tuán)隊(duì)還利用大語(yǔ)言模型“制造”了1000萬(wàn)組“細(xì)粒度難負(fù)樣本”,故意用來(lái)“刁難”模型,訓(xùn)練它辨別極其相似表述的“火眼金睛”。這套數(shù)據(jù)組合拳,為模型的卓越表現(xiàn)打下了堅(jiān)如磐石的基礎(chǔ)。

第二重創(chuàng)新,是算法創(chuàng)新,有了好糧食,還要有科學(xué)的“烹飪方法”。FG-CLIP2采用了兩階段訓(xùn)練策略:先讓模型通過(guò)長(zhǎng)短文本學(xué)習(xí)建立不錯(cuò)的全局感知,再進(jìn)入“高級(jí)進(jìn)修班”,專門學(xué)習(xí)區(qū)域?qū)R和細(xì)節(jié)分辨。

其中的點(diǎn)睛之筆,是獨(dú)家TIC損失函數(shù),這個(gè)函數(shù)就像一個(gè)極其苛刻的考官,專門盯著那些語(yǔ)義相近、容易混淆的文本描述,如“微笑”和“咧嘴笑”,加大模型區(qū)分它們的難度和獎(jiǎng)勵(lì)。這意味著,模型在訓(xùn)練過(guò)程中被不斷逼著提升“辨微”能力,從而在面對(duì)真實(shí)世界的復(fù)雜描述時(shí),能做出更精準(zhǔn)的判斷。

第三重創(chuàng)新,是架構(gòu)優(yōu)勢(shì),FG-CLIP2選擇了經(jīng)典的、圖像和文本編碼器分離的顯式雙塔結(jié)構(gòu)。在搜索引擎、廣告推薦等需要處理海量請(qǐng)求、對(duì)延遲極其敏感的業(yè)務(wù)中,雙塔結(jié)構(gòu)允許預(yù)先提取和緩存海量圖片和文本的特征,實(shí)現(xiàn)毫秒級(jí)的匹配響應(yīng)。



這意味著,F(xiàn)G-CLIP2從設(shè)計(jì)之初,就不僅僅是為了刷榜,更是為了能夠真正落地,承受億級(jí)用戶并發(fā)考驗(yàn)的。

03

一雙火眼金睛,從“刷榜SOTA”到“賦能千行百業(yè)”

基礎(chǔ)模型的突破,歸根結(jié)底是為了應(yīng)用服務(wù),要在千行百業(yè)的廣闊天地間彰顯價(jià)值。FG-CLIP2的“細(xì)粒度”能力,正為眾多行業(yè)帶來(lái)新的可能。

比如,電商行業(yè),搜索“寶媽夏季純棉透氣連衣裙”,結(jié)果將不再是泛泛的“連衣裙”,而是精準(zhǔn)匹配材質(zhì)、受眾和季節(jié)的商品,這意味著更低的退貨率和更高的購(gòu)買轉(zhuǎn)化;

AIGC內(nèi)容生成領(lǐng)域,當(dāng)文生圖模型有了FG-CLIP2作為“裁判”,生成的圖片細(xì)節(jié)將更逼真,更能“聽懂人話”,你說(shuō)“生成一張logo在左上角的宣傳圖”,它就不會(huì)給你放到右下角,有效避免“生成偏差”。

而在守護(hù)萬(wàn)家燈火的安防監(jiān)控領(lǐng)域,F(xiàn)G-CLIP2也在“捉賊”賽道立大功,因?yàn)樗С钟米匀徽Z(yǔ)言進(jìn)行高效精準(zhǔn)的視頻檢索。

例如,調(diào)查人員可以直接輸入“尋找背著黑色雙肩包、穿藍(lán)色T恤的男子”這樣的復(fù)雜描述,模型能夠理解多個(gè)細(xì)節(jié)屬性的組合,快速在海量視頻數(shù)據(jù)中定位到目標(biāo)線索。這種強(qiáng)大的跨模態(tài)檢索能力降低了對(duì)預(yù)設(shè)結(jié)構(gòu)化標(biāo)簽的依賴,尤其適用于動(dòng)態(tài)復(fù)雜環(huán)境下的應(yīng)急響應(yīng)和案情分析。

不止于此,F(xiàn)G-CLIP2的精密視覺語(yǔ)言對(duì)齊能力,也為時(shí)下火熱的具身智能賽道發(fā)展打開了新的空間:

在機(jī)器人執(zhí)行任務(wù)時(shí),它能幫助機(jī)器更準(zhǔn)確地理解細(xì)粒度的語(yǔ)言指令。比如,當(dāng)接收到“拿餐桌上的紅色水杯”這樣的命令時(shí),機(jī)器人需要從多個(gè)杯子中識(shí)別出指定顏色和目標(biāo);在完成“把玩具放進(jìn)綠色收納箱”的任務(wù)時(shí),需精準(zhǔn)區(qū)分顏色和容器類型。

相比傳統(tǒng)模型,F(xiàn)G-CLIP2更能理解“臟的抹布”、“打開的抽屜”等對(duì)物體狀態(tài)的描述,從而顯著提升機(jī)器人在家庭服務(wù)、倉(cāng)儲(chǔ)物流等真實(shí)場(chǎng)景中的感知能力和操作準(zhǔn)確性。

FG-CLIP2的成功,也清晰地傳遞出一個(gè)信號(hào):AI基礎(chǔ)模型的發(fā)展路徑,正在從一味追求參數(shù)規(guī)模的“大力出奇跡”,轉(zhuǎn)向追求精度、效率和實(shí)用性的“精益求精”。

那么,360憑什么能在高手林立的行業(yè)交出如此亮眼的成績(jī)單?

答案藏在兩大核心動(dòng)因里,首先,是前瞻性的戰(zhàn)略“押寶”。作為一家擁有海量用戶和豐富產(chǎn)品生態(tài)的公司,360比誰(shuí)都清楚,要想在未來(lái)競(jìng)爭(zhēng)中不掉隊(duì),就必須掌握底層的AI基座能力。因此,它很早就開始全力投入AI基礎(chǔ)設(shè)施的建設(shè)。

無(wú)論是FG-CLIP系列,還是此前入選ICCV的PlanGEN、LMM-Det等模型,都是360為構(gòu)建自家“AI基座”播下的種子。

FG-CLIP2的爆發(fā),并非偶然,而是長(zhǎng)期布局后水到渠成的結(jié)果。

其次,是“回歸基礎(chǔ)”的行業(yè)趨勢(shì),正好撞上了360的“技術(shù)彈藥庫(kù)”,360人工智能研究院自2021年就開始默默耕耘“視覺-語(yǔ)言跨模態(tài)理解”,并同步推進(jìn)視覺AIGC生成、多模態(tài)大模型以及獨(dú)特的開放世界目標(biāo)檢測(cè)研究。

這些積累,在國(guó)內(nèi)幾乎是獨(dú)一份,為今天FG-CLIP2能夠“看懂”復(fù)雜場(chǎng)景奠定了堅(jiān)實(shí)基礎(chǔ)。

換句話說(shuō),當(dāng)行業(yè)開始呼吁“回歸基礎(chǔ)”時(shí),360早已在自己選擇的賽道上積累了深厚的“家底”。

日拱一卒無(wú)有盡,功不唐捐終入海。在決定未來(lái)AI高度的基礎(chǔ)模型戰(zhàn)場(chǎng)上,360不僅沒有缺席,反而已經(jīng)在其關(guān)鍵細(xì)分領(lǐng)域走到了世界前列,其正通過(guò)扎實(shí)的工程實(shí)現(xiàn)和前沿的學(xué)術(shù)創(chuàng)新,穩(wěn)步強(qiáng)化其作為中國(guó)AI領(lǐng)域重要技術(shù)貢獻(xiàn)者的“明星標(biāo)簽”。

這一次,是“細(xì)粒度”的勝利,也是“長(zhǎng)期主義”的勝利。

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
江蘇一地發(fā)布最新人事任免

江蘇一地發(fā)布最新人事任免

黃河新聞網(wǎng)呂梁頻道
2026-01-11 14:08:43
滿屏荷爾蒙!網(wǎng)飛這一脫,又爆了

滿屏荷爾蒙!網(wǎng)飛這一脫,又爆了

來(lái)看美劇
2026-01-11 19:15:03
A股:周末下午傳來(lái)2大核彈級(jí)利好!下周很可能會(huì)迎更大級(jí)別大行情?

A股:周末下午傳來(lái)2大核彈級(jí)利好!下周很可能會(huì)迎更大級(jí)別大行情?

股市皆大事
2026-01-11 14:03:03
善惡有報(bào),2025年塌房的六大網(wǎng)紅,為了流量各種作妖,不值得同情

善惡有報(bào),2025年塌房的六大網(wǎng)紅,為了流量各種作妖,不值得同情

單手搓核彈
2026-01-06 14:04:34
上港本月有可能回購(gòu)這位外援,讓他二進(jìn)宮來(lái)俱樂部,以官宣為準(zhǔn)

上港本月有可能回購(gòu)這位外援,讓他二進(jìn)宮來(lái)俱樂部,以官宣為準(zhǔn)

阿錯(cuò)田間生活
2026-01-11 18:20:47
這就是毛主席父親的真實(shí)容貌,都看看吧,這可不是演員扮演的!

這就是毛主席父親的真實(shí)容貌,都看看吧,這可不是演員扮演的!

萬(wàn)物知識(shí)圈
2026-01-05 09:10:33
香港餐廳收內(nèi)地客“天價(jià)”小費(fèi)?港人怒批:香港結(jié)業(yè)潮是有原因的

香港餐廳收內(nèi)地客“天價(jià)”小費(fèi)?港人怒批:香港結(jié)業(yè)潮是有原因的

朝子亥
2026-01-06 11:35:03
隨著韓國(guó)4-2,烏茲0-0伊朗,U23亞洲杯最新形勢(shì):首支出局隊(duì)誕生

隨著韓國(guó)4-2,烏茲0-0伊朗,U23亞洲杯最新形勢(shì):首支出局隊(duì)誕生

侃球熊弟
2026-01-11 00:01:06
李在明啟程離京,一個(gè)時(shí)代告終,臨走前對(duì)華改口,中方對(duì)日本動(dòng)手

李在明啟程離京,一個(gè)時(shí)代告終,臨走前對(duì)華改口,中方對(duì)日本動(dòng)手

boss外傳
2026-01-11 21:00:02
安徽通報(bào),薛冰任上落馬

安徽通報(bào),薛冰任上落馬

上觀新聞
2026-01-11 18:33:04
段永平:李東生至今(指2000年)沒有向我道歉,企業(yè)家要有風(fēng)度

段永平:李東生至今(指2000年)沒有向我道歉,企業(yè)家要有風(fēng)度

講真
2026-01-05 23:50:45
痛心!陜西15歲“巨嬰”孫寶去世,媽媽背著爬華山,網(wǎng)友:解脫了

痛心!陜西15歲“巨嬰”孫寶去世,媽媽背著爬華山,網(wǎng)友:解脫了

靜若梨花
2026-01-07 17:00:46
1991 年,鄧小平特派代表赴美團(tuán)聚張學(xué)良,邀他重返故土,張學(xué)良回應(yīng):“回大陸可以,但我有三個(gè)要求”

1991 年,鄧小平特派代表赴美團(tuán)聚張學(xué)良,邀他重返故土,張學(xué)良回應(yīng):“回大陸可以,但我有三個(gè)要求”

文史明鑒
2025-12-21 17:07:19
34層高樓僅一部電梯運(yùn)行,一次只限按5層,200余戶居民出行太痛苦

34層高樓僅一部電梯運(yùn)行,一次只限按5層,200余戶居民出行太痛苦

恪守原則和底線
2026-01-11 05:15:05
建議大家:假如工資允許,咬咬牙添置“這5樣”,幸福感加倍提升

建議大家:假如工資允許,咬咬牙添置“這5樣”,幸福感加倍提升

家居設(shè)計(jì)師蘇哥
2025-12-29 13:46:17
為什么公司更傾向重新招人而不留住老員工?評(píng)論區(qū)客觀且切中要點(diǎn)

為什么公司更傾向重新招人而不留住老員工?評(píng)論區(qū)客觀且切中要點(diǎn)

另子維愛讀史
2026-01-11 20:27:36
足總杯火爆1幕!葡國(guó)腳廢人式飛鏟引2次沖突,熱刺維拉數(shù)十人干架

足總杯火爆1幕!葡國(guó)腳廢人式飛鏟引2次沖突,熱刺維拉數(shù)十人干架

我愛英超
2026-01-11 06:45:04
2026年春節(jié),要暖到離譜?大年初一撞上七九,老輩人:60年頭回見

2026年春節(jié),要暖到離譜?大年初一撞上七九,老輩人:60年頭回見

叮當(dāng)當(dāng)科技
2026-01-07 13:58:49
內(nèi)蒙“女色虎”落馬,靠陪睡高官上位,大肆斂財(cái)為了整容

內(nèi)蒙“女色虎”落馬,靠陪睡高官上位,大肆斂財(cái)為了整容

文史旺旺旺
2024-10-31 12:26:20
西方環(huán)保學(xué)家:中國(guó)又開始“反人類操作”,用塑料袋把沙漠變綠洲

西方環(huán)保學(xué)家:中國(guó)又開始“反人類操作”,用塑料袋把沙漠變綠洲

近史博覽
2026-01-11 06:34:40
2026-01-11 21:36:49
AI大模型工場(chǎng) incentive-icons
AI大模型工場(chǎng)
專注AI大模型行業(yè)媒體,深度解讀公司大模型行業(yè)動(dòng)態(tài),且提供一手的AIGC,行業(yè)大模型內(nèi)容。
330文章數(shù) 86關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

零度天母親罰女兒在街頭跪地行走 還對(duì)勸阻者出言不遜

頭條要聞

零度天母親罰女兒在街頭跪地行走 還對(duì)勸阻者出言不遜

體育要聞

詹皇曬照不滿打手沒哨 裁判報(bào)告最后兩分鐘無(wú)誤判

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場(chǎng)"迎來(lái)終局?

汽車要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬(wàn)起

態(tài)度原創(chuàng)

本地
藝術(shù)
親子
數(shù)碼
健康

本地新聞

云游內(nèi)蒙|“包”你再來(lái)?一座在硬核里釀出詩(shī)意的城

藝術(shù)要聞

砸18億!游戲巨頭落子廣州!詩(shī)悅網(wǎng)絡(luò)總部大樓新進(jìn)展

親子要聞

現(xiàn)在覺得滑梯還好玩不

數(shù)碼要聞

ECS精英推出Liva Z系列迷你主機(jī),多CPU可選

這些新療法,讓化療不再那么痛苦

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版