国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

麻省理工學院團隊突破3D世界建模難題

2026-04-13 21:44:36　來源: 至頂AI實驗室

北京舉報

0

分享至

這項由麻省理工學院與香港中文大學（深圳）、Meshy AI公司聯(lián)合開展的研究發(fā)表于2026年4月的計算機視覺頂級會議，論文編號為arXiv:2604.02289v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

當我們看到一段文字描述"一只戴著牛仔帽的機器人"時，大腦會瞬間構建出一個立體的畫面。然而對于人工智能來說，要同時理解文字、生成圖像并創(chuàng)造出立體的三維模型，就像要求一個人同時用三種不同的語言思考一樣困難。更讓問題雪上加霜的是，網絡上雖然有數(shù)不清的圖片，但高質量的3D模型卻稀少得就像沙漠中的綠洲。

研究團隊面臨的挑戰(zhàn)就像是要教會一個機器人既會讀書、又會畫畫、還會雕刻，但雕刻的教材卻少得可憐。傳統(tǒng)的解決方案就像是先讓機器人看著書本畫出草圖，再根據草圖進行雕刻，但這種間接的方式往往會讓最終的雕刻作品失去原本的精神內核。

針對這一挑戰(zhàn)，研究團隊開發(fā)出了名為Omni123的智能系統(tǒng)。這個系統(tǒng)的巧妙之處在于它把文字、圖像和3D幾何體都轉化成了相同的"語言"——就像把中文、英文和法文都翻譯成世界語一樣，讓機器能夠在同一個思維空間里處理這三種不同的信息。更重要的是，研究團隊設計了一種"語義-視覺-幾何"循環(huán)訓練方法，讓系統(tǒng)能夠從文字生成圖像，再從圖像生成3D模型，最后又能從3D模型渲染出圖像，形成一個完整的循環(huán)。這就像讓學生不僅會從課本學習，還會通過實踐加深理解，最后能把理解的內容重新表達出來。

實驗結果顯示，Omni123不僅能夠生成質量更高的3D模型，還能根據自然語言指令對3D對象進行精確編輯。比如，當你告訴它"給這個宇航員加上一件和服"時，它就能準確地完成這個任務，就像一個技藝精湛的數(shù)字藝術家一樣。

一、數(shù)據稀缺難題：當3D世界遭遇"營養(yǎng)不良"

在人工智能的世界里，數(shù)據就像是食物，而高質量的3D數(shù)據卻處于嚴重的"營養(yǎng)不良"狀態(tài)。相比于互聯(lián)網上近乎無窮無盡的圖片資源，3D模型的數(shù)量簡直少得可憐。這種差距就像是一座圖書館里有成千上萬本小說，卻只有幾十本立體書一樣。

研究團隊發(fā)現(xiàn)，這種數(shù)據稀缺問題不僅僅是數(shù)量上的不足，更是質量上的參差不齊?，F(xiàn)有的3D數(shù)據集往往充滿了簡單粗糙的模型，就像是用積木搭建的簡易房子，缺乏真實世界中物體應有的細節(jié)和復雜性。而手工制作高質量3D模型的成本極其高昂，就像是要求每一個雕塑都必須是藝術品級別的作品。

為了解決這個根本性難題，研究團隊采用了一種創(chuàng)新的思路：既然2D圖像數(shù)據豐富，為什么不讓這些2D數(shù)據來幫助3D學習呢？這就像是讓一個從未見過立體雕塑的人通過觀察大量的雕塑照片來學習雕刻技藝。研究團隊認為，2D圖像中其實隱含著大量的3D結構信息，包括物體的形狀、紋理、空間關系等，這些信息如果能夠被有效利用，就能夠為3D生成提供強有力的支撐。

然而，簡單地將2D和3D任務混合訓練并不能保證效果。就像是讓一個學生同時學習繪畫和雕刻，如果教學方法不當，兩種技能可能會相互干擾，最終什么都學不好。研究團隊必須找到一種巧妙的方式，讓2D和3D的學習過程能夠相互促進而不是相互干擾。

二、統(tǒng)一語言：讓文字、圖像和3D幾何體"對話"

要讓人工智能同時處理文字、圖像和3D幾何體，首先需要解決一個基礎問題：這三種信息的"語言"完全不同。文字是一串串的符號，圖像是二維的像素矩陣，而3D幾何體是復雜的三維空間結構。這就像是要讓說中文的人、說英文的人和說法文的人在同一個會議室里協(xié)作，必須先找到一種共同的交流方式。

研究團隊的解決方案是將所有這些不同形式的信息都轉換成離散的"標記"，就像是給每一種信息都分配了一個統(tǒng)一的編號系統(tǒng)。對于文字，他們使用了兩套互補的編碼器：CLIP編碼器負責提供與視覺相關的語言理解，而Qwen3編碼器則專注于捕捉更豐富的語言細節(jié)。這就像是配備了兩個不同專長的翻譯員，一個擅長理解圖像相關的描述，另一個精通語言的細微差別。

對于圖像，研究團隊開發(fā)了一種特殊的圖像標記器，采用了兩階段的訓練策略。第一階段先訓練一個連續(xù)的變分自編碼器來學習豐富的視覺表征和高保真度的重建能力，就像是先培養(yǎng)一個藝術家具備扎實的繪畫基礎。第二階段則在預訓練的編碼器基礎上插入一個一維的量化器，專門負責將連續(xù)的特征轉換為離散的標記，這就把復雜的視覺量化任務簡化為純粹的一維緊湊標記提取任務。

對于3D幾何體，研究團隊采用了Cube3D幾何標記器，這是一個基于感知器的向量量化變分自編碼器。它能夠將連續(xù)的形狀表征轉換為適合混合模態(tài)基礎模型的離散標記。這個過程就像是將復雜的雕塑作品轉換成一系列可以用數(shù)字表示的指令，但同時保持了原始幾何體的所有重要特征。

更巧妙的是，所有這些不同模態(tài)的標記最終都會被拼接成一個統(tǒng)一的序列，在同一個自回歸Transformer骨干網絡中進行處理。這意味著模型在處理任何一種模態(tài)時，都能夠利用從其他模態(tài)學到的知識，實現(xiàn)真正的跨模態(tài)知識遷移。

三、架構設計：構建多模態(tài)智能的"大腦"

Omni123的核心架構就像是一個精心設計的智能大腦，它采用了雙流自回歸架構來協(xié)調不同類型的信息處理。這種設計包含一個條件流來承載文本嵌入，以及一個生成流來承載圖像和3D形狀標記。

在雙流層的處理過程中，兩個流分別被投影為查詢、鍵和值，然后在序列維度上拼接并通過單一的聯(lián)合注意力操作進行處理，使用因果掩碼來確保生成的自回歸性質。注意力輸出沿著序列邊界分割，用于通過獨立的前饋子層更新兩個流。在最后的雙流層中，條件流只貢獻鍵和值，它的查詢投影和注意力后更新被省略，使得信息流變成從條件到生成的單向流動。

在生成流內部，圖像和3D形狀標記被拼接成一個平坦的序列，由完全共享的自注意力權重處理。這種設計意味著每個注意力層都隱式地執(zhí)行跨模態(tài)融合，所有生成側的參數(shù)都在模態(tài)間共享，使得從大規(guī)模文本到圖像數(shù)據中學到的視覺先驗能夠直接惠及數(shù)據稀缺的文本到3D任務。

每個變換器層都采用SwiGLU作為前饋網絡，擴展比為4倍，遵循Cube3D的設計。整個架構包含24個雙流層和6個單流層，隱藏維度為1536，注意力頭數(shù)為12，每個頭的維度為128。這種精心調節(jié)的參數(shù)配置確保了模型能夠有效處理復雜的多模態(tài)信息，同時保持計算效率。

四、訓練策略：三階段漸進式學習

Omni123的訓練過程就像是培養(yǎng)一個全才藝術家，需要循序漸進地掌握不同技能。整個訓練分為三個關鍵階段：預訓練、持續(xù)訓練和監(jiān)督微調。

預訓練階段的核心是跨模態(tài)X-to-X范式，涵蓋四個核心生成任務：文本到圖像、文本到3D、圖像到3D以及3D到圖像。所有任務共享單一的自回歸交叉熵損失，在目標標記序列上進行優(yōu)化。這個階段就像是讓學生同時練習閱讀、繪畫和雕刻的基本功，通過大量的練習建立起不同技能之間的聯(lián)系。

訓練數(shù)據的混合策略采用了基于溫度的加權采樣。由于不同數(shù)據池的規(guī)模差異巨大，簡單的按比例采樣會嚴重低估最小但關鍵的文本-3D子集。研究團隊通過手動分配優(yōu)先級權重來解決這個問題：文本-圖像數(shù)據優(yōu)先級為1.0，圖像-3D數(shù)據優(yōu)先級為1.5，文本-3D數(shù)據優(yōu)先級為3.0。這確保了即使是最稀缺的文本-3D數(shù)據也能得到充分的訓練關注。

預訓練分為兩個階段進行。第一階段在256×256分辨率下訓練40萬步，峰值學習率為5e-4，讓模型學習所有四個任務的跨模態(tài)對齊。第二階段將圖像分辨率提高到512×512，繼續(xù)訓練25萬步，學習率降低到1e-4，在保持學習到的跨模態(tài)表征的同時提升視覺保真度。

持續(xù)訓練階段引入了視點感知能力。這個階段通過引入視點標記來彌補預訓練的一個關鍵缺陷：模型缺乏明確的視點概念。研究團隊使用了N=6個可學習的嵌入，每個都綁定到一個固定的規(guī)范視點。通過在目標圖像序列前添加視點標記，模型學會將每個嵌入與特定的相機姿態(tài)關聯(lián)，實現(xiàn)視點可控的生成。

監(jiān)督微調階段通過引入交錯多模態(tài)序列來完成整個訓練循環(huán)。這個階段定義了五個SFT任務，涵蓋所有實際的生成管道。每個任務都被表述為跨交錯模態(tài)標記的單一自回歸序列，通過強制模型在"語義-視覺-幾何"循環(huán)中遍歷，訓練信號自然地強制跨模態(tài)一致性。

五、數(shù)據處理：化腐朽為神奇的數(shù)據煉金術

數(shù)據就是人工智能的燃料，而Omni123項目面臨的挑戰(zhàn)是如何從有限的高質量3D數(shù)據中榨取最大價值，同時充分利用豐富的2D數(shù)據資源。研究團隊的數(shù)據處理策略就像是一場精心編排的煉金術，將不同質量和類型的原材料轉化為訓練所需的黃金數(shù)據。

在文本-圖像對的處理上，研究團隊收集了6370萬張開放域圖像，這些圖像來自專有數(shù)據和Z-Image的合成數(shù)據混合。有一個有趣的決策是，研究團隊故意沒有將來自圖像-3D語料庫的1.2億張渲染圖像包含在文本-圖像預訓練中。這些渲染圖像雖然數(shù)量龐大，但它們展現(xiàn)出統(tǒng)一的光照、合成的材質外觀以及缺乏自然背景，與真實世界的照片存在顯著的分布差異。將兩個域混合在文本-圖像目標中會創(chuàng)造分布沖突，從而降低圖像生成質量。

圖像-3D對構成了最大的子集，總共1.2億對，對于學習2D觀察和3D幾何之間的重建映射至關重要。研究團隊遵循近期大規(guī)模3D數(shù)據工程的既定實踐，通過三階段管道處理這個語料庫。首先是渲染和格式轉換階段，將來自異構源的3D資產轉換為網格，對齊到規(guī)范方向，用PBR紋理標準化，保存為GLB文件，并使用Meshy的內部渲染器進行渲染，光照條件從2000個設置池中采樣。

資產過濾階段則排除了幾何質量差的資產，包括低多邊形計數(shù)、簡單拓撲結構的模型，紋理質量差的資產，如UV缺陷、低分辨率等，嘈雜的攝影測量掃描，以及大型薄壁結構。后者會導致SDF符號不連續(xù)，這會破壞訓練穩(wěn)定性，并在某些視點下薄幾何變得不可見時產生多視圖不一致性。最后的后處理階段，過濾后的網格經歷防水轉換、窄帶SDF采樣和點云采樣。

在文本-3D對的構建上，研究團隊面臨的挑戰(zhàn)是現(xiàn)有的3D對象字幕要么與它們描述的幾何對齊性差，要么缺乏足夠的細節(jié)，這限制了高質量的文本到3D生成。因此研究團隊設計了多粒度字幕管道，利用視覺思維鏈推理來產生多個精確和詳細的文本描述，專注于3D模型的不同方面。

這個管道在每個過濾后的3D資產上運行，包括三個階段。首先是視覺思維鏈分析，將每個資產的多視圖渲染圖像輸入到視覺語言模型中，生成高度詳細的每視圖描述，用作模型執(zhí)行方向和空間對應分析的錨點。在模型識別圖像間的空間對應并因此定向物體后，要求VLM分析模型的外觀、幾何、潛在功能以及在現(xiàn)實世界中的起源。

接下來是字幕和分類階段，VLM采用分析并產生一個段落級的詳細字幕，涵蓋3D模型的所有方面。然后由VLM分配類別，產生粗略的語義分類。最后是人類字幕模仿階段，研究團隊準備了分布在所有類別上的1萬個人工標記的短字幕，并根據評估的類別為每個資產選擇4個隨機示例來執(zhí)行少樣本字幕增強。在這種方式下利用的人類字幕大大提高了字幕的詞匯和句法多樣性。

六、交錯訓練范式：編織多模態(tài)知識網絡

Omni123最核心的創(chuàng)新在于其交錯訓練范式，這種方法就像是編織一張復雜的知識網絡，讓文字、圖像和3D幾何信息能夠在同一個智能系統(tǒng)中無縫協(xié)作。這種范式的精髓在于讓模型不僅學會單獨處理每種模態(tài)，更重要的是學會它們之間的內在聯(lián)系和相互轉換。

交錯訓練的核心思想是構建"語義-視覺-幾何"循環(huán)。當模型接收到一個文本描述時，它首先生成對應的圖像，然后基于這個圖像生成3D模型，最后又能從3D模型渲染出新的圖像。這個循環(huán)過程確保了不同模態(tài)之間的一致性，就像是讓一個藝術家不僅要會根據文字描述畫畫，還要會根據畫作制作雕塑，最后還要能從不同角度重新描繪這個雕塑。

在具體實現(xiàn)上，研究團隊設計了五種不同的訓練任務序列。最簡單的是文本到圖像到3D的序列，這讓模型學會從語言描述開始，逐步構建出完整的三維表示。更復雜的是文本到多視角圖像到3D的序列，其中模型需要生成六個不同角度的圖像，然后基于這些多視角信息構建3D模型。這種方法特別有效，因為它模擬了人類理解三維物體的過程——我們通常需要從多個角度觀察一個物體才能完全理解其結構。

交錯訓練的另一個巧妙之處在于它如何處理視角一致性問題。研究團隊引入了可學習的視角標記，就像是給每個攝像機位置分配了一個身份證號。模型通過這些視角標記學會了將二維圖像與三維空間中的特定觀察角度關聯(lián)起來，這使得它能夠生成從任意指定角度觀察物體的圖像。

這種訓練方式的效果是顯著的。與傳統(tǒng)的分別訓練不同模態(tài)模型的方法相比，交錯訓練讓模型獲得了更強的跨模態(tài)理解能力。當模型處理一個文本描述時，它不僅僅是在生成對應的圖像或3D模型，而是在同時考慮這個描述在所有三個模態(tài)中應該如何表現(xiàn)，這種全局的一致性約束大大提升了生成結果的質量。

七、實驗驗證：理論與實踐的完美結合

為了驗證Omni123系統(tǒng)的有效性，研究團隊設計了一系列全面的實驗，涵蓋文本到3D形狀生成、基于指令的3D編輯以及圖像標記器評估等多個方面。這些實驗就像是對一個全能藝術家進行的綜合考試，測試其在不同任務上的表現(xiàn)。

在文本到3D形狀生成任務上，研究團隊選擇了兩種主流的基準方法進行比較。第一類是級聯(lián)的文本到圖像到3D管道，將領先的圖像生成器與Hunyuan3D2.1配對。具體包括Sana-1.5、Sana、Show-o和LlamaGen等不同參數(shù)規(guī)模的模型。第二類是原生的文本到3D模型，包括ShapeLLM-Omni和Cube3D等專門為3D生成設計的系統(tǒng)。

實驗結果顯示，兩階段管道始終在語義-幾何對齊方面表現(xiàn)不如原生方法，主要受限于圖像生成器和3D提升器之間的固有先驗差距以及級聯(lián)管道中不可避免的誤差累積。相反，基于VLM的原生模型雖然避免了這種切換，但受到3D數(shù)據稀缺、無效知識轉移和次優(yōu)模態(tài)融合的限制。通過利用豐富的2D觀察作為統(tǒng)一的幾何先驗，Omni123的兩個變體都以明顯優(yōu)勢超越了這些基線。值得注意的是，2B模型相比7B的ShapeLLM-Omni實現(xiàn)了更優(yōu)的對齊效果，證明了交錯跨模態(tài)訓練本質上是一種更加參數(shù)高效、可擴展的路線。

在定性比較中，結果更加明顯。兩階段管道雖然產生了引人注目的中間圖像，但它們的圖像到3D切換經常崩潰為充滿偽影的網格——幾何平坦化、分離的肢體和細粒度結構的丟失是常見的失敗模式。原生3D基線繞過了這個脆弱的提升步驟，但它們對稀缺3D數(shù)據的依賴限制了組合泛化能力，復雜提示經常導致糾纏的特征和語義上不忠實的幾何。

在基于指令的3D編輯任務上，研究團隊在Edit3D-Bench上進行了評估，使用其策劃的源-目標網格對進行幾何添加和移除操作。實驗結果顯示，Omni123在所有任務中實現(xiàn)了最低的Chamfer距離，表明與真實目標的結構對齊顯著更緊密。雖然Steer3D在F1分數(shù)上領先，但需要注意的是Edit3D-Bench是使用與Steer3D訓練集相同的數(shù)據管道構建的，這給了它分布優(yōu)勢。盡管如此，Omni123在CD上的一致領先證明了對全局幾何變換和拓撲變化的更精確執(zhí)行。

八、技術突破與創(chuàng)新點

Omni123的技術創(chuàng)新主要體現(xiàn)在幾個關鍵方面，每一個創(chuàng)新都像是解決復雜拼圖的關鍵拼片。首先是統(tǒng)一的標記化策略，這是整個系統(tǒng)的基礎。研究團隊成功將文本、圖像和3D幾何體都轉換為離散標記，這種轉換不是簡單的編碼，而是保持語義信息的智能映射。

圖像標記器的兩階段設計特別值得關注。第一階段訓練連續(xù)VAE學習語義豐富的視覺表征和高保真重建，第二階段在預訓練VAE的基礎上插入1D量化器，專門負責重建連續(xù)特征。這種設計將向量量化簡化為純粹的1D緊湊標記提取任務，大大提高了標記化的質量和效率。

在架構設計上，雙流自回歸架構的采用是另一個重要創(chuàng)新。這種設計允許條件信息和生成信息在獨立流中并行處理，同時通過聯(lián)合注意力機制實現(xiàn)有效的跨模態(tài)交互。更重要的是，在生成流內部，圖像和3D形狀標記完全共享自注意力權重，使得從大規(guī)模文本-圖像數(shù)據學到的視覺先驗能夠直接惠及數(shù)據稀缺的文本-3D任務。

交錯訓練范式的設計體現(xiàn)了深刻的理論洞察。通過強制模型在"語義-視覺-幾何"循環(huán)中遍歷，系統(tǒng)學會了跨模態(tài)生成一致性作為隱式結構約束。這種方法不僅避免了簡單任務混合可能帶來的有害干擾，還通過循環(huán)一致性確保了不同模態(tài)表示之間的內在聯(lián)系。

視點感知機制的引入解決了3D生成中的一個關鍵問題。通過可學習的視點嵌入，模型獲得了對三維空間的顯式理解，能夠生成從指定角度觀察的圖像，這為后續(xù)的3D重建和編輯提供了重要的幾何約束。

九、實際應用與影響

Omni123技術的應用前景廣闊，其影響將深入到數(shù)字內容創(chuàng)作、娛樂產業(yè)、教育培訓等多個領域。在游戲開發(fā)領域，傳統(tǒng)的3D建模需要專業(yè)藝術家花費大量時間手工制作每一個模型，而Omni123能夠根據簡單的文字描述快速生成高質量的3D資產，大大縮短開發(fā)周期并降低成本。

在電影和動畫制作中，這項技術能夠幫助概念設計師快速將創(chuàng)意想法轉化為可視化的3D模型。導演只需要用文字描述想要的場景或角色，系統(tǒng)就能生成初步的3D模型供進一步細化，這將極大地加速前期概念設計的流程。

教育領域的應用同樣令人期待。教師可以通過簡單的文字描述生成教學用的3D模型，比如描述"古代埃及金字塔的內部結構"就能得到詳細的三維模型，讓學生能夠更直觀地理解復雜的概念。這種應用將使得高質量的3D教學資源不再局限于專業(yè)機構，普通教師也能輕松創(chuàng)建豐富的教學內容。

在建筑和工業(yè)設計領域，Omni123能夠幫助設計師快速將設計概念轉化為三維模型。設計師可以用自然語言描述產品特征，系統(tǒng)生成初步的3D模型后，再進行專業(yè)的細化和優(yōu)化，這將大大提高設計效率。

電子商務平臺也將從這項技術中受益。商家可以通過文字描述快速生成產品的3D展示模型，消費者能夠從各個角度查看商品，獲得更好的購物體驗。這對于那些難以通過平面圖片完全展示特征的商品特別有價值。

在個性化內容創(chuàng)作方面，普通用戶將能夠通過簡單的文字描述創(chuàng)建屬于自己的3D虛擬形象或裝飾品，這為數(shù)字藝術的民主化開辟了新的道路。未來，我們可能看到更多的個人用戶參與到3D內容的創(chuàng)作中來。

十、技術限制與未來發(fā)展

盡管Omni123在多模態(tài)3D生成方面取得了顯著突破，但這項技術仍然面臨一些限制和挑戰(zhàn)。當前系統(tǒng)中3D標記器的固定網格分辨率是一個重要限制。就像早期的數(shù)碼相機被像素數(shù)量限制一樣，固定分辨率意味著生成的3D模型在細節(jié)表現(xiàn)上存在上限。對于需要極高精度的應用場景，比如工業(yè)設計或醫(yī)學建模，這種限制可能影響實用性。

視點的規(guī)范化也帶來了一定的約束。目前系統(tǒng)依賴于固定的規(guī)范視點，這在處理一些具有復雜空間關系或非標準朝向的對象時可能出現(xiàn)困難。就像是只有固定幾個拍照角度的相機，雖然能夠滿足大部分需求，但在特殊場景下可能無法獲得最佳效果。

訓練數(shù)據的質量和多樣性仍然是制約因素。雖然研究團隊采用了巧妙的數(shù)據合成和增強策略，但高質量3D數(shù)據的根本稀缺問題并沒有完全解決。這就像是雖然找到了更好的烹飪方法，但優(yōu)質食材本身的供應仍然有限。

計算資源的需求也是一個現(xiàn)實考慮。當前的訓練和推理過程需要大量的GPU資源，這限制了技術的普及和應用。就像是需要大型工廠才能生產的產品，雖然質量很高，但成本和門檻也相對較高。

面向未來，研究團隊已經明確了幾個重要的發(fā)展方向。自適應分辨率標記化是一個關鍵目標，這將允許系統(tǒng)根據具體需求動態(tài)調整生成質量，在保持效率的同時提供更高的細節(jié)表現(xiàn)。場景級生成能力的擴展也在計劃之中，這將使系統(tǒng)能夠處理包含多個對象的復雜3D場景，而不僅僅是單個物體。

材質和物理建模的集成是另一個重要方向。未來的系統(tǒng)將不僅能夠生成幾何結構，還能理解和生成物體的材質屬性、物理行為等特征，使得生成的3D模型更加真實和實用。這種擴展將為游戲開發(fā)、仿真等應用提供更強大的支持。

說到底，Omni123代表了人工智能在理解和生成三維世界方面的重要進展。它巧妙地解決了3D數(shù)據稀缺的根本問題，通過統(tǒng)一多模態(tài)表示和交錯訓練范式，讓機器獲得了更接近人類的空間理解能力。雖然目前還存在一些技術限制，但這項研究為未來的3D內容生成技術奠定了堅實基礎。

這項技術的意義不僅在于它能夠生成高質量的3D模型，更在于它展示了一種新的思路：當面臨單一模態(tài)數(shù)據不足的問題時，我們可以通過巧妙的多模態(tài)學習策略來破解困局。這種思路對于人工智能的其他領域也具有重要的啟發(fā)意義。隨著技術的不斷完善和計算資源的持續(xù)提升，我們有理由期待在不久的將來，高質量的3D內容創(chuàng)作將變得像今天的圖片編輯一樣簡單和普及。

Q&A

Q1：Omni123與傳統(tǒng)3D建模軟件有什么區(qū)別？

A：傳統(tǒng)3D建模軟件需要專業(yè)技能手工制作模型，而Omni123只需要用文字描述就能自動生成3D模型。就像傳統(tǒng)建模是手工雕刻，Omni123是智能雕刻師，大大降低了創(chuàng)作門檻。

Q2：為什么Omni123能同時處理文字、圖像和3D模型？

A：Omni123的核心創(chuàng)新是將文字、圖像和3D幾何體都轉換成統(tǒng)一的"標記語言"，就像把不同語言都翻譯成世界語，讓機器能在同一個思維空間里處理這三種不同信息，并通過循環(huán)訓練確保它們之間的一致性。

Q3：Omni123生成的3D模型質量如何？

A：實驗顯示Omni123生成的3D模型在幾何一致性和語義對齊方面都明顯優(yōu)于現(xiàn)有方法。它避免了傳統(tǒng)兩階段方法中圖像到3D轉換時的質量損失，能生成結構完整、細節(jié)豐富的高質量3D模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

可用即脆弱？VENOM擊穿縱向聯(lián)邦學習

機器之心Pro 2026-04-15 12:27:44
0 跟貼 0
MIT團隊給機器人裝上透視眼，藏在紙箱里的東西也能看見

DeepTech深科技 2026-03-24 14:52:33
0 跟貼 0

中國工程院院士鄭緯民：從模型服務走向詞元服務，是智能體時代對基礎設施的必然要求

每日經濟新聞 2026-04-15 22:24:08
0 跟貼 0

算力新變局|深度

財聯(lián)社 2026-04-15 21:28:11
0 跟貼 0
給“人造太陽”裝上大腦，是一門什么樣的生意？

虎嗅APP 2026-04-16 00:28:09
0 跟貼 0

不用一個字，MIT團隊讓細胞自動機教會了大模型推理

DeepTech深科技 2026-03-23 18:28:08
0 跟貼 0

麻省理工學院給研究生的文獻閱讀方法

尚曦讀史 2026-04-12 08:27:03
2 跟貼 2
SpatialActor通過解耦語義與幾何，為具身智能注入強魯棒空間基因

機器之心Pro 2025-12-05 13:50:29
0 跟貼 0

微軟提出Computer-Using World Model，教智能體理解動作的后果

機器之心Pro 2026-03-09 11:59:44
0 跟貼 0
Nvidia砸了10年搞超寫實，科學家卻盯上了VR里藏著的情緒開關

像素與芯片 2026-04-14 08:46:40
4 跟貼 4
目標更重要？國內公司超越Generalist，進化到動作中心世界模型

機器之心Pro 2026-04-14 15:32:50
0 跟貼 0
高效智能體幕后推手是誰？一篇綜述帶你從記憶×工具學習×規(guī)劃看透

機器之心Pro 2026-01-27 15:24:36
0 跟貼 0
為啥沙漠里有這么多神秘網格？

科學大搜索 2026-04-13 14:46:47
185 跟貼 185
數(shù)學藝術作品賞析8：Benjamin Johnso的函數(shù)木雕

宇宙文明領路人 2026-04-15 21:03:05
0 跟貼 0
手雷布滿“網格”而同期的迫擊炮彈卻光滑如鏡？

哈勃科普 2026-04-14 16:54:33
4 跟貼 4
七十架軍機抵以色列，伊朗承壓，巴基斯坦馳援沙特意味幾何？

徠芬科技 2026-04-14 07:17:28
0 跟貼 0
輕舟試驗飛船已在軌完成多項關鍵技術驗證

央視新聞客戶端 2026-04-15 17:16:50
2306 跟貼 2306
張雪宣布：計劃于今年六七月份，在重慶挑戰(zhàn)騎摩托車飛躍長江；網友勸阻別拿命開玩笑，此前挑戰(zhàn)連續(xù)失敗4次

魯中晨報 2026-04-15 15:00:10
2874 跟貼 2874
美媒擔憂：美國的“中國通” 要斷代了

澎湃新聞 2026-04-15 08:55:58
1510 跟貼 1510
揭秘年銷10億的爆款宋柚汁：“宋柚”是商標，柚含量不到3%，主配料為糖水，品牌號稱全國銷量第一

藍鯨新聞 2026-04-15 09:44:24
924 跟貼 924
起拍價34萬！一輛滬A牌照摩托車將被司法拍賣：車牌估值48萬，已有3人報名

紅星新聞 2026-04-15 12:35:19
1747 跟貼 1747
邵陽武岡發(fā)現(xiàn)大量古錢幣！

瀟湘晨報 2026-04-15 17:11:13
41 跟貼 41
世界杯將至義務迎來“銷量爆發(fā)式增長”

環(huán)球網資訊 2026-04-14 22:03:34
1628 跟貼 1628
網友自制磁場可視化教具，把看不見的物理變得觸手可及，網友：讓磁場看得見

鶴視頻 2026-04-14 19:26:17
0 跟貼 0
6小時，200美元，0人類代碼：Anthropic把AI編程推過了臨界點

新智元 2026-03-31 12:34:21
28 跟貼 28
文章新開面館口味評分3.6分，網友：30多元一碗面有點貴

紅星新聞 2026-04-13 17:22:41
1228 跟貼 1228
“牛頓蘋果樹”落戶浙江湖州吳興區(qū)錢山漾

上觀新聞 2026-04-14 23:27:04
1155 跟貼 1155
MeshCoder：大語言模型驅動，點云到可編輯結構化物體代碼的革新

機器之心Pro 2025-11-10 15:28:58
0 跟貼 0
佛山一大橋存在安全隱患，將封閉施工

南方都市報 2026-04-15 19:36:09
41 跟貼 41
大模型解剖圖火了，30多個開源模型架構差異一目了然，還可接入AI

DeepTech深科技 2026-03-16 17:33:15
18 跟貼 18
地球再次被證實不是平的

喜之春 2026-04-12 07:18:49
753 跟貼 753
從一維到三維的變化，很奇妙

香蕉皮兒 2026-04-12 15:54:49
20 跟貼 20
"水果皇后"藍莓跌下神壇:曾經上百一斤如今街頭賣9.9

紅星新聞 2026-04-15 16:39:54
750 跟貼 750
百度又開源！消費級GPU可跑，文字渲染能力對標Nano Banana

智東西 2026-04-15 23:46:59
0 跟貼 0
鄭州：這4所中小學，已停止招生！

大象新聞 2026-04-15 12:57:02
284 跟貼 284
中國民航大學趙桂紅：解鎖中西亞市場，當前布局西向航空通道正處“黃金窗口期”

每日經濟新聞 2026-04-15 21:40:06
0 跟貼 0
有了這個Agent，上班路上也能做表了

智東西 2026-04-15 10:54:09
0 跟貼 0
ReconVLA：具身智能研究首次獲得AI頂級會議最佳論文獎

機器之心Pro 2026-01-26 13:51:30
0 跟貼 0
廣東“莫氏雞煲大公主”爆火前后反差大，晚上干到凌晨2點才收工，發(fā)文吐槽：這個雞你們是非吃不可嗎

大象新聞 2026-04-15 12:57:04
0 跟貼 0
中央定調！2026年養(yǎng)老金調整希望大增，漲幅幾何？消息啥時公布？

社保小達人 2026-04-16 00:00:00
0 跟貼 0

浙大名嘴揭開殘酷真相：當年恒大倒臺，壓根不是因為2萬億負債！

浙大名嘴揭開殘酷真相：當年恒大倒臺，壓根不是因為2萬億負債！

阿器談史

2026-04-02 13:31:44

上海隊20連勝顫顫巍巍，大王命中唯一關鍵罰球，盧偉指導正式表態(tài)

上海隊20連勝顫顫巍巍，大王命中唯一關鍵罰球，盧偉指導正式表態(tài)

大飛說籃球

2026-04-15 23:55:57

王崇秋給妻子楊潔掃墓！妻子病逝9年，3個繼子繼女與他不來往

王崇秋給妻子楊潔掃墓！妻子病逝9年，3個繼子繼女與他不來往

喜歡歷史的阿繁

2026-04-16 01:18:34

果然越不體面小生意往往悶聲發(fā)大財！網友：一年不低于50萬

果然越不體面小生意往往悶聲發(fā)大財！網友：一年不低于50萬

科學發(fā)掘

2026-04-15 07:34:42

四連勝！廣東男籃季后賽對手基本敲定！徐杰崔永熙賽后霸氣攤牌

四連勝！廣東男籃季后賽對手基本敲定！徐杰崔永熙賽后霸氣攤牌

大國侃球

2026-04-15 12:14:24

上海一奧迪女銷售請客戶吃飯，細節(jié)被爆出，父母：臉都被丟盡了

上海一奧迪女銷售請客戶吃飯，細節(jié)被爆出，父母：臉都被丟盡了

紅豆講堂

2025-04-14 12:25:10

長沙正在流行“新型出軌”:不開房、不暖昧，卻比肉體背叛更誅心

長沙正在流行“新型出軌”:不開房、不暖昧，卻比肉體背叛更誅心

風起見你

2026-04-16 02:29:16

“中方考慮限制對美出口”

觀察者網

2026-04-15 19:40:08

6顆激光雷達十全主動底盤，金新問界M9這回是在“掀桌子”啊

6顆激光雷達十全主動底盤，金新問界M9這回是在“掀桌子”啊

華庭講美食

2026-04-15 14:25:42

重磅！遼寧一機場復航！

新浪財經

2026-04-15 18:03:06

53歲董卿近況曝光，在上海與父母同住，離婚傳聞背后真相浮出水面

53歲董卿近況曝光，在上海與父母同住，離婚傳聞背后真相浮出水面

喜歡歷史的阿繁

2026-04-12 03:03:57

為啥有錢人屋檐難見燕子？老輩人說：燕子來家，是在提醒你3件事

為啥有錢人屋檐難見燕子？老輩人說：燕子來家，是在提醒你3件事

老特有話說

2026-04-13 14:45:52

中俄談完！俄外長預警193國：特朗普此舉不簡單，全球將被收割

中俄談完！俄外長預警193國：特朗普此舉不簡單，全球將被收割

動漫里的童話

2026-04-16 01:41:35

退休后才發(fā)現(xiàn)，一個人有錢沒錢，一眼就能看出：沒錢的人，大多有這3個“窮習慣”

退休后才發(fā)現(xiàn)，一個人有錢沒錢，一眼就能看出：沒錢的人，大多有這3個“窮習慣”

風起見你

2026-04-11 15:31:29

山東回應“舉債3.68億、總投資超7億的農業(yè)基地不干農業(yè)，卻有健身房、棋牌室等”：成立聯(lián)合調查組，嚴肅追責問責

山東回應“舉債3.68億、總投資超7億的農業(yè)基地不干農業(yè)，卻有健身房、棋牌室等”：成立聯(lián)合調查組，嚴肅追責問責

大象新聞

2026-04-15 09:45:04

你最接近生理極限的一次經歷是什么？網友分享讓人目瞪口呆！

你最接近生理極限的一次經歷是什么？網友分享讓人目瞪口呆！

夜深愛雜談

2026-04-09 19:39:13

江西省人才發(fā)展集團有限公司專職外部董事周付德被查

江西省人才發(fā)展集團有限公司專職外部董事周付德被查

界面新聞

2026-04-15 19:10:50

油價要跌破天了！4月15日油價迎來大幅暴跌，調價后全國油價價格

油價要跌破天了！4月15日油價迎來大幅暴跌，調價后全國油價價格

劉哥談體育

2026-04-15 04:05:53

你永遠想不到醫(yī)院的八卦能有多炸裂？一件提神醒腦，兩件直接撂倒

你永遠想不到醫(yī)院的八卦能有多炸裂？一件提神醒腦，兩件直接撂倒

另子維愛讀史

2026-01-22 18:21:09

張子強團伙中，唯一聽了李嘉誠建議買28套豪宅的青年，后來如何了

張子強團伙中，唯一聽了李嘉誠建議買28套豪宅的青年，后來如何了

深度報

2026-04-14 22:45:47

至頂AI實驗室

一個專注于探索生成式AI前沿技術及其應用的實驗室。

3259文章數(shù) 169關注度

往期回顧全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

法國全票通過 “將不義之財歸還中國”

頭條要聞

法國全票通過 “將不義之財歸還中國”

體育要聞

三球準絕殺戴大金鏈：轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城，牽手女兒溫馨有愛

財經要聞

業(yè)績失速的Lululemon:"健康"人設崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數(shù)碼

家居

手機

旅游

房產

數(shù)碼要聞

明基新款顯示器首發(fā)12499元：4K專業(yè)級色彩校準根據環(huán)境光自動調整

家居要聞

簡而不減暖居之道

現(xiàn)代融合自然靈動
復古風格自然簡約
清新自然復古風尚

手機要聞

一加Ace6至尊版再次被確認：魔改天璣9500+165Hz屏，本月發(fā)布！

旅游要聞

拉豬車繞關闖禁區(qū)：隱秘危險游該踩剎車了

房產要聞

重磅調規(guī)！341畝商改住+中小學用地！寶龍城這把穩(wěn)了？

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版