- 探索游戲策略,《動物:森林法則》戰(zhàn)斗場景特殊棋格介紹
- 任務詳解攻略,《三角洲行動》零號大壩破壁者任務攻略
- 揭秘技能魅力,《無盡夢回》放假之夢技能介紹
- 探索未知之地,《三角洲行動》航天基地金點刷新位置
- 快速上手指南,《崩壞星穹鐵道》史瓦羅夢境速通攻略
- 快速上手攻略,《崩壞:星穹鐵道》夢境訓練彥卿速通攻略
- 揭開奇妙角色,《動物:森林法則》波波英雄介紹
- 新手必讀,《三角洲行動》出售物品方法介紹
- 玩家必看,《硬核機甲啟示》公測返利規(guī)則介紹
- 解鎖游戲交易秘訣,《三角洲行動》交易行交易方法
聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。
蘭宇時期,NTU的MMLab博士生,指導老師是Chen Change Loy。本科畢業(yè)于北京郵電大學,目前的主要研究方向包括基于神經(jīng)渲染的3D生成模型、3D重建與編輯。
盡管3D內容生成技術已經(jīng)取得了顯著進展,但現(xiàn)有方法在輸入格式、潛空間設計和輸出表示等方面仍面臨挑戰(zhàn)。
在ICLR 2025會議上,研究團隊在基于Flow Matching技術的全新3D生成框架GaussianAnything的研究中取得突破,該框架通過引入交互式的點云結構化隱空間,實現(xiàn)了可擴展性和高質量的3D生成,同時支持幾何-紋理解耦的生成與可控編輯能力。
該方法經(jīng)過在Objaverse數(shù)據(jù)集上的大規(guī)模訓練,并在基于文本、圖像和點云的3D生成任務中展現(xiàn)了超越現(xiàn)有原生3D生成方法的性能。
目前,項目組的所有模型和測試/訓練代碼均已全面開源至Github/Huggingface平臺,并支持多卡并行、自動混合精度(AMP)訓練、flash-attention技術和BF16加速等技術。
研究背景
近年來,基于可微渲染和生成模型的神經(jīng)渲染技術取得了顯著進展,在新視角合成、3D物體生成和編輯方面表現(xiàn)尤為出色。在現(xiàn)有的LDM框架基礎上,關于原生3D擴散模型的研究也顯示出更好的泛化能力、更快的生成速度和更高的編輯靈活性。
然而,現(xiàn)有技術在設計原生3D擴散模型時仍面臨一些挑戰(zhàn):(1)3D VAE的輸入格式問題,(2)3D隱空間結構設計的復雜性,(3)3D輸出表征的選擇困難。
為了解決上述問題,研究團隊提出了基于Flow Matching技術的可控點云結構化隱空間3D生成模型GaussianAnything,該模型支持多模態(tài)可控生成,能夠高效、高質量地生成高質量的3D資產(chǎn)。
通過引入交互式的點云結構化潛空間,該方法實現(xiàn)了可擴展性和高質量的3D生成,同時支持幾何-紋理解耦的生成與可控編輯能力。
方法概覽圖 (3D VAE 模塊):
研究者所提出的 3D 知覺模型主要包含三個核心模塊:
基于點云結構的 3D VAE 模型
高效且高質量的 3D 壓縮方案
高效的 3D 物體編碼方案
高質量的 3D 高斯上采樣與解碼機制
VAE 模型的訓練過程
基于流匹配的級聯(lián) 3D 生成框架
該級聯(lián)生成框架基于流匹配原理構建
在第二階段,研究者在 3D VAE 編碼空間上進行了基于流匹配的訓練。當輸入為文本或單目圖像時,他們采用了 Cross Attention 進行條件信息編碼,隨后將其輸入到 DiT 框架中進行訓練。訓練過程分為兩步:首先單獨學習幾何特征(稀疏的點云結構),然后分別學習紋理特征(基于點云結構的低維特征)。
具體而言,研究者首先搭建了一個基于稀疏點云結構的Flow Matching模型框架:
在此基礎上,研究者將點云輸出作為生成細節(jié)紋理的條件,并進一步對細節(jié)紋理特征進行提取:
該生成范式充分支持了幾何與紋理的解耦,從而實現(xiàn)了高質量的三維生成與編輯。
實驗結果:
圖像引導的三維生成 | 圖生 3D
考慮到三維內容創(chuàng)作通常依賴于圖片作為參考,本文方法同樣支持在給定單目圖像條件下實現(xiàn)高質量的三維生成。與基于多視圖生成與重建的兩階段方法相比,本文方案在三維生成效果、多樣性以及三維一致性上表現(xiàn)更為穩(wěn)定。
數(shù)值結果:
可視化結果:
文本引導的三維生成 | 文生 3D
在大規(guī)模三維數(shù)據(jù)集Objaverse上,研究者基于Flow Matching的三維生成模型支持從文本描述直接生成高質量且細節(jié)豐富、帶有紋理的三維資產(chǎn),并支持textured-mesh格式的導出。整個生成過程僅需數(shù)秒即可完成。以下為可視化對比結果:
小編在量化指標方面再次證明其優(yōu)勢,GaussianAnything的表現(xiàn)超越了現(xiàn)有方法,即采用現(xiàn)有3D生成技術條件下當前最優(yōu)的解決方案。
如需了解更多信息,請訪問原論文或項目主頁。
參考文獻如下:
[1] CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets. TOG 2024.
[2] CraftsMan: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner. arXiv 2024.
[3] Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene Representations. CVPR 2022
早報精選,美國右翼價值觀明顯傾向俄羅斯 洞察3.10美團部門調整背后的消費趨勢 或 3.10美團部門更名背后的萬億級市場新動向,美團到綜事業(yè)部更名“服務零售事業(yè)部” 星艦爆炸 暫停航空交通 特斯拉股價腰斬 馬斯克重心轉移,"星艦"爆炸,特斯拉股價腰斬,馬斯克成公司"負資產(chǎn)" 醫(yī)生說科學選擇助眠保健品,失眠困擾?助眠保健品該如何選?健康知識為您解答。 加拿大自由黨新領袖馬克·卡尼就任總理加拿大政府采取強硬態(tài)度應對特朗普威脅,人物|卡尼當選加拿大總理:因愛國浪潮助力勝選,曾任央行行長,抨擊特朗普關稅政策說明:1. 原標題較長,信息點分散。改寫后標題保持核心信息,同時更簡潔2. 刪除了部分重復信息和非核心描述3. 調整了語序,使標題更流暢4. 使用更簡潔的詞匯,如"助力勝選"替代"推升政治素人卡尼當選加拿大總理"5. 突出了主要事件和關鍵人物6. 保留了卡尼的背景信息,但表述更簡潔7. 整體保持標題的吸引力和信息完整性 DNF拍賣行手續(xù)費比例及優(yōu)惠券使用說明,《dnf》拍賣行手續(xù)費比例介紹 破界者·閃電般快·高能密度· next-level,奔馳GLC純電動版或成奔馳EQC競爭車型,消息發(fā)布 澤連斯基入北約,烏克蘭總統(tǒng)澤連斯基表示,烏克蘭愿以辭職為條件加入北約。 3月全球具身智能機器人發(fā)展大會,2025具身人工智能發(fā)展會圓滿落幕 耳飾才是搭配的關鍵超實用的小到看不出來耳飾推薦,50款美春日耳飾,誰戴誰好看!