国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

德克薩斯大學奧斯汀分校突破:球形利奇量化提升AI圖像生成質(zhì)量

0
分享至


由德克薩斯大學奧斯汀分校的Yue Zhao和斯坦福大學的Ehsan Adeli領導的研究團隊,于2024年12月在計算機視覺頂級會議上發(fā)表了一項開創(chuàng)性研究。這項研究提出了一種名為"球形利奇量化(Spherical Leech Quantization,簡稱Λ24-SQ)"的全新技術,成功將AI圖像生成的詞匯表規(guī)模擴展到近20萬個單詞,首次讓AI模型在生成圖像時達到了接近人類專家評估標準的完美水平。參與此次研究的還包括Adobe Research的Hanwen Jiang、Mistral AI的Zhenlin Xu以及德克薩斯大學奧斯汀分校的多位研究者。

想象你在和一位外國朋友交流,如果你只會說幾十個單詞,表達就會非常有限和笨拙。同樣的道理,目前的AI圖像生成模型就像只會說"有限詞匯"的學生——它們雖然能創(chuàng)造圖像,但表達能力受到嚴重限制?,F(xiàn)有的視覺AI模型通常只能使用1000到16000個"視覺單詞"來描述和生成圖像,這就好比用極其有限的調(diào)色板來畫一幅復雜的風景畫。

這個問題的根源在于現(xiàn)有的量化技術存在根本缺陷。量化技術就像是AI理解和處理圖像的"字典編制方法"——它決定了AI如何將復雜的視覺信息轉(zhuǎn)換成可以處理的數(shù)字符號。傳統(tǒng)的方法要么效果不夠好,要么在擴大詞匯量時會出現(xiàn)嚴重的技術問題,就像試圖在一本小字典里硬塞進百科全書的內(nèi)容,結果要么塞不下,要么內(nèi)容變得混亂不堪。

研究團隊發(fā)現(xiàn),問題的關鍵在于如何在高維空間中最優(yōu)地排列這些"視覺單詞"。這就像在一個巨大的球形房間里安排座位,如何讓每個座位之間的距離盡可能均勻,同時又能容納盡可能多的座位。傳統(tǒng)方法就像隨意擺放椅子,導致有些地方擁擠不堪,有些地方卻空空蕩蕩。

Yue Zhao團隊的突破性貢獻在于,他們從數(shù)學中的"格子編碼理論"獲得靈感,將各種現(xiàn)有的量化方法統(tǒng)一在一個理論框架下進行分析。這就像發(fā)現(xiàn)所有不同的座椅擺放方法實際上都遵循某種共同的幾何規(guī)律。通過這種統(tǒng)一分析,他們意識到最優(yōu)的解決方案應該基于"最密球面堆積"的數(shù)學原理。

最密球面堆積是一個聽起來很復雜但實際概念很簡單的數(shù)學概念。設想你要在一個球形容器里裝盡可能多的小球,同時讓每個小球都不會擠壓變形。最優(yōu)的裝法就是讓所有小球在球面上均勻分布,彼此之間保持相等的最小距離。這種排列方式在二維空間中是蜂窩狀的六角形排列,而在更高維空間中則變得極其復雜。

研究團隊選擇了24維空間中的"利奇格子"作為他們量化方法的核心。利奇格子是數(shù)學家約翰·利奇在1967年發(fā)現(xiàn)的一種特殊的點陣排列,它在24維空間中實現(xiàn)了理論上可能的最優(yōu)球面堆積。這個選擇就像選擇了一個經(jīng)過數(shù)學證明的、在特定條件下絕對最優(yōu)的座位排列方案。

利奇格子的神奇之處在于它的高度對稱性和均勻分布特性。在24維空間的第一層shell中,利奇格子包含了196,560個精確排列的點。當研究團隊將這些點投影到單位球面上時,它們形成了一個近乎完美的視覺詞匯表,每個"視覺單詞"之間的距離都達到了理論最優(yōu)值。

這種數(shù)學上的完美性直接轉(zhuǎn)化為實際應用中的卓越性能。與傳統(tǒng)方法相比,球形利奇量化帶來了三個顯著優(yōu)勢。首先是簡潔性——由于數(shù)學結構的天然完美,AI模型在訓練時不再需要各種復雜的輔助技術和調(diào)節(jié)參數(shù),就像一臺精密設計的瑞士手表,每個齒輪都恰到好處,不需要額外的潤滑油或調(diào)整。其次是效率——因為詞匯表是固定的數(shù)學結構,它不需要在訓練過程中不斷調(diào)整,大大降低了計算成本和內(nèi)存需求。最后是效果——在圖像重建質(zhì)量方面,新方法將評估指標從1.14提升到0.83,這種提升在AI領域是相當顯著的。

為了驗證這一技術的實際效果,研究團隊在ImageNet-1k數(shù)據(jù)集上進行了comprehensive測試。ImageNet-1k是AI視覺領域的"高考",包含100萬張涵蓋1000個類別的高質(zhì)量圖像。測試結果顯示,使用球形利奇量化的圖像生成模型在多個關鍵指標上都達到了新的高度。

特別值得注意的是,研究團隊首次成功訓練了一個使用近20萬個視覺單詞的圖像生成模型,這個詞匯量已經(jīng)接近目前最先進語言模型的水平。更令人興奮的是,這個模型在生成圖像時達到了1.82的FID分數(shù),非常接近1.78的理論最優(yōu)值(即人類專家評估的標準)。這意味著AI生成的圖像質(zhì)量已經(jīng)達到了幾乎無法與真實圖像區(qū)分的程度。

在圖像壓縮應用中,新技術同樣表現(xiàn)出色。在標準的Kodak測試套件上,球形利奇量化方法在使用更少存儲空間的同時,實現(xiàn)了更高的圖像重建質(zhì)量。這就像發(fā)明了一種新的行李箱,不僅能裝下更多東西,打包和取用也更加方便。

研究團隊還深入探討了為什么傳統(tǒng)方法需要各種復雜的輔助技術。他們發(fā)現(xiàn),這些技術本質(zhì)上都在試圖解決同一個問題:如何讓視覺詞匯在高維空間中均勻分布。傳統(tǒng)的熵正則化方法就像用各種臨時補丁來修復一個根本設計不當?shù)南到y(tǒng),而球形利奇量化則從根本上解決了這個問題,就像用一個天然完美的設計替代了需要不斷修補的臨時方案。

在自回歸圖像生成的具體實現(xiàn)中,研究團隊還解決了大詞匯表帶來的技術挑戰(zhàn)。當詞匯表規(guī)模增長到近20萬時,傳統(tǒng)的處理方法會遇到內(nèi)存不足和訓練不穩(wěn)定等問題。他們借鑒了大型語言模型的訓練技巧,包括Z-loss正則化和分布式正交歸一化更新等技術,成功解決了這些挑戰(zhàn)。

為了處理大詞匯表的預測問題,研究團隊提出了"d-位預測"的概念,這是對傳統(tǒng)"比特預測"的擴展。在利奇格子中,每個點的坐標可以取9個不同的整數(shù)值(從-4到4),因此可以用24個9元分類器來預測一個完整的視覺單詞。這種方法在保持預測準確性的同時,大大簡化了計算復雜度。

實驗結果表明,詞匯表規(guī)模的擴大確實帶來了生成質(zhì)量的提升,這與大型語言模型的發(fā)現(xiàn)相呼應——更大的詞匯表通常意味著更強的表達能力。當模型規(guī)模增長到一定程度時,大詞匯表的優(yōu)勢就會顯著體現(xiàn)出來。這就像學習一門語言,當你的語法掌握到一定程度后,詞匯量的增加就會帶來表達能力的質(zhì)的飛躍。

在與現(xiàn)有最先進方法的對比中,球形利奇量化在幾乎所有評估指標上都取得了顯著進步。在圖像重建任務中,它在PSNR、SSIM、LPIPS等多個指標上都超越了之前的最佳方法。在圖像生成任務中,它不僅達到了接近理論最優(yōu)的FID分數(shù),還在精確度和召回率的平衡上更接近真實數(shù)據(jù)分布。

研究團隊的工作還揭示了一個重要的理論洞察:量化方法的幾何特性直接決定了其性能上限。通過將問題轉(zhuǎn)化為密球堆積的數(shù)學優(yōu)化,他們找到了這一領域的理論最優(yōu)解。這種從根本性數(shù)學原理出發(fā)的研究思路,為未來的相關研究指明了方向。

值得一提的是,球形利奇量化不僅僅是一個理論突破,它還具有很強的實用性。由于利奇格子的數(shù)學性質(zhì)已經(jīng)被完全研究清楚,相關的計算可以高度優(yōu)化,使得這一技術能夠在實際應用中高效運行。研究團隊已經(jīng)開源了相關代碼,為學術界和工業(yè)界的進一步發(fā)展奠定了基礎。

這項研究的意義遠不止于技術層面的突破。它證明了深層數(shù)學理論與實際AI應用之間的密切聯(lián)系,展示了基礎理論研究對推動技術進步的重要作用。正如研究團隊所指出的,球形利奇量化為視覺AI帶來的進步,很可能會推動整個多模態(tài)AI系統(tǒng)的發(fā)展,讓AI在理解和生成視覺內(nèi)容方面更接近人類水平。

隨著這一技術的進一步發(fā)展和應用,我們可以期待看到更高質(zhì)量的AI生成內(nèi)容,更高效的圖像和視頻壓縮技術,以及更強大的視覺AI應用。這項來自德克薩斯大學奧斯?jié)h分校和斯坦福大學的研究,無疑為AI視覺技術的未來發(fā)展開辟了新的道路。

Q&A

Q1:球形利奇量化相比傳統(tǒng)方法有什么優(yōu)勢?

A:球形利奇量化有三個主要優(yōu)勢。首先是簡潔性,它不需要復雜的輔助參數(shù)調(diào)整,訓練過程更簡單。其次是效率,由于使用固定的數(shù)學結構,大大降低了計算和內(nèi)存需求。最后是效果,在圖像重建和生成質(zhì)量方面都顯著超越了現(xiàn)有最佳方法,將評估指標從1.14提升到0.83。

Q2:這種新技術能讓AI圖像生成達到什么水平?

A:使用球形利奇量化的AI模型首次實現(xiàn)了接近完美的圖像生成效果,F(xiàn)ID分數(shù)達到1.82,非常接近1.78的理論最優(yōu)值。這意味著AI生成的圖像質(zhì)量已經(jīng)達到了幾乎無法與真實圖像區(qū)分的程度,同時詞匯表規(guī)模也擴展到近20萬個視覺單詞。

Q3:普通用戶什么時候能體驗到這項技術?

A:研究團隊已經(jīng)開源了相關代碼,為技術的實際應用奠定了基礎。不過從研究成果到消費級產(chǎn)品通常需要一定時間的工程優(yōu)化和產(chǎn)品化過程。這項技術最可能首先應用在專業(yè)的圖像處理、視頻制作和內(nèi)容創(chuàng)作工具中,然后逐步普及到更廣泛的應用場景。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
來聚餐還補工資!東莞一工廠年底聚餐,當晚按工時3.5小時核工資

來聚餐還補工資!東莞一工廠年底聚餐,當晚按工時3.5小時核工資

火山詩話
2025-12-28 11:03:19
內(nèi)訌了?洛夫頓發(fā)文:都不相信我,我要回母校,網(wǎng)友: 趕緊滾吧!

內(nèi)訌了?洛夫頓發(fā)文:都不相信我,我要回母校,網(wǎng)友: 趕緊滾吧!

南海浪花
2025-12-28 12:32:59
女子分享10年前火車上偶遇的唱歌小男孩,竟被當事人刷到:互聯(lián)網(wǎng)讓10年前的“一面之緣”有了續(xù)集

女子分享10年前火車上偶遇的唱歌小男孩,竟被當事人刷到:互聯(lián)網(wǎng)讓10年前的“一面之緣”有了續(xù)集

環(huán)球網(wǎng)資訊
2025-12-28 10:11:35
民族英雄從課本移除,“民族英雄”卻受到吹捧,這事該反思嗎

民族英雄從課本移除,“民族英雄”卻受到吹捧,這事該反思嗎

何氽簡史
2025-12-27 13:45:11
美國經(jīng)濟難于擺脫嚴重衰退 1975年11月19日《人民日報》

美國經(jīng)濟難于擺脫嚴重衰退 1975年11月19日《人民日報》

那些看得見的老照片
2025-12-17 17:13:44
董明珠零下三十度蹲守黑瞎子島,盯著空調(diào)連續(xù)燒了一百小時

董明珠零下三十度蹲守黑瞎子島,盯著空調(diào)連續(xù)燒了一百小時

百態(tài)人間
2025-12-28 05:20:05
中國不跟美國談判?特朗普以最高統(tǒng)帥的身份,下令美軍造更多航母

中國不跟美國談判?特朗普以最高統(tǒng)帥的身份,下令美軍造更多航母

議紀史
2025-12-27 17:25:02
極品領導人高市早苗,創(chuàng)下十年最快紀錄

極品領導人高市早苗,創(chuàng)下十年最快紀錄

陸棄
2025-11-12 08:55:03
攤牌了!72歲唐國強終于承認與劉曉慶的真實關系,曾志偉當場傻眼

攤牌了!72歲唐國強終于承認與劉曉慶的真實關系,曾志偉當場傻眼

觀察鑒娛
2025-12-28 09:51:57
掃地機器人巨頭給全員發(fā)金子,或共超37斤

掃地機器人巨頭給全員發(fā)金子,或共超37斤

21世紀經(jīng)濟報道
2025-12-28 17:13:20
俄國防部前副部長薩多文科上將在莫斯科突然去世,享年56歲

俄國防部前副部長薩多文科上將在莫斯科突然去世,享年56歲

山河路口
2025-12-26 19:47:21
43歲男保姆哭訴:大媽每月給我10000工資,卻讓我每天做這樣的事

43歲男保姆哭訴:大媽每月給我10000工資,卻讓我每天做這樣的事

孢木情感
2025-11-25 07:55:53
腦?!捌珢邸敝袊耍?0%患者都缺一種維生素!

腦?!捌珢邸敝袊??80%患者都缺一種維生素!

孟大夫之家1
2025-12-02 19:46:07
俱樂部對主帥失控,邱彪對球員失控,球隊對輿論失控,山東隊真亂

俱樂部對主帥失控,邱彪對球員失控,球隊對輿論失控,山東隊真亂

姜大叔侃球
2025-12-27 19:46:34
烏專家:中國“榨干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們造出2.0

烏專家:中國“榨干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們造出2.0

混沌錄
2025-12-27 21:33:28
分手后“60后”男子起訴“90后”女友,開庭前在法院門口捅刺女方致重傷二級,法院判了

分手后“60后”男子起訴“90后”女友,開庭前在法院門口捅刺女方致重傷二級,法院判了

大象新聞
2025-12-28 16:53:04
馬斯克語出驚人:“日本若繼續(xù)這樣下去,遲早會從世界上消失!”

馬斯克語出驚人:“日本若繼續(xù)這樣下去,遲早會從世界上消失!”

忠于法紀
2025-11-29 22:02:53
1977 年李敏見親姐楊月花,姐姐提特殊要求,舅舅嘆如母性格

1977 年李敏見親姐楊月花,姐姐提特殊要求,舅舅嘆如母性格

嘮叨說歷史
2025-12-24 09:40:23
河北:降雪時間確定!

河北:降雪時間確定!

掌中邯鄲
2025-12-28 11:07:50
1952 年鄭洞國進京任職,妻嫌薪低改嫁,20 年后哭著找上門

1952 年鄭洞國進京任職,妻嫌薪低改嫁,20 年后哭著找上門

嘮叨說歷史
2025-12-24 14:47:32
2025-12-28 19:07:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當過2年幼兒園老師

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當過2年幼兒園老師

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

房產(chǎn)
本地
親子
數(shù)碼
公開課

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

親子要聞

千萬別把孩子,養(yǎng)成這種“奴隸”?

數(shù)碼要聞

華為FreeClip 2耳夾耳機通過星閃認證,有望近期OTA星閃音頻

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版