- 探索神秘飛艇的奧秘,《不思議迷宮》蒙特祖瑪屬性技能詳解
- 自然交響曲,《陰陽(yáng)師》花鳥(niǎo)卷圖鑒介紹
- 奇幻情節(jié)揭示,《仙劍奇?zhèn)b傳3》各結(jié)局條件
- 英雄魅力揭曉,《王者榮耀》孫臏英雄屬性圖鑒介紹
- 解鎖職業(yè)賽場(chǎng)的獨(dú)特視角,《LOL》致命節(jié)奏豬妹主宰職業(yè)賽場(chǎng)
- 全能戰(zhàn)神揭秘,《陰陽(yáng)師》荒圖鑒介紹
- 提升游戲角色關(guān)系的策略揭秘,《仙劍奇?zhèn)b傳3》增加好感度
- 即將揭曉的慶典計(jì)劃,《DNF》10周年活動(dòng)時(shí)間預(yù)測(cè)
- 掌控與魅力,《王者榮耀》羋月英雄屬性圖鑒介紹
- 揭開(kāi)意外之旅,《仙劍奇?zhèn)b傳3》小游戲的技巧
聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
蘭宇時(shí)期,NTU的MMLab博士生,指導(dǎo)老師是Chen Change Loy。本科畢業(yè)于北京郵電大學(xué),目前的主要研究方向包括基于神經(jīng)渲染的3D生成模型、3D重建與編輯。
盡管3D內(nèi)容生成技術(shù)已經(jīng)取得了顯著進(jìn)展,但現(xiàn)有方法在輸入格式、潛空間設(shè)計(jì)和輸出表示等方面仍面臨挑戰(zhàn)。
在ICLR 2025會(huì)議上,研究團(tuán)隊(duì)在基于Flow Matching技術(shù)的全新3D生成框架GaussianAnything的研究中取得突破,該框架通過(guò)引入交互式的點(diǎn)云結(jié)構(gòu)化隱空間,實(shí)現(xiàn)了可擴(kuò)展性和高質(zhì)量的3D生成,同時(shí)支持幾何-紋理解耦的生成與可控編輯能力。
該方法經(jīng)過(guò)在Objaverse數(shù)據(jù)集上的大規(guī)模訓(xùn)練,并在基于文本、圖像和點(diǎn)云的3D生成任務(wù)中展現(xiàn)了超越現(xiàn)有原生3D生成方法的性能。
目前,項(xiàng)目組的所有模型和測(cè)試/訓(xùn)練代碼均已全面開(kāi)源至Github/Huggingface平臺(tái),并支持多卡并行、自動(dòng)混合精度(AMP)訓(xùn)練、flash-attention技術(shù)和BF16加速等技術(shù)。
研究背景
近年來(lái),基于可微渲染和生成模型的神經(jīng)渲染技術(shù)取得了顯著進(jìn)展,在新視角合成、3D物體生成和編輯方面表現(xiàn)尤為出色。在現(xiàn)有的LDM框架基礎(chǔ)上,關(guān)于原生3D擴(kuò)散模型的研究也顯示出更好的泛化能力、更快的生成速度和更高的編輯靈活性。
然而,現(xiàn)有技術(shù)在設(shè)計(jì)原生3D擴(kuò)散模型時(shí)仍面臨一些挑戰(zhàn):(1)3D VAE的輸入格式問(wèn)題,(2)3D隱空間結(jié)構(gòu)設(shè)計(jì)的復(fù)雜性,(3)3D輸出表征的選擇困難。
為了解決上述問(wèn)題,研究團(tuán)隊(duì)提出了基于Flow Matching技術(shù)的可控點(diǎn)云結(jié)構(gòu)化隱空間3D生成模型GaussianAnything,該模型支持多模態(tài)可控生成,能夠高效、高質(zhì)量地生成高質(zhì)量的3D資產(chǎn)。
通過(guò)引入交互式的點(diǎn)云結(jié)構(gòu)化潛空間,該方法實(shí)現(xiàn)了可擴(kuò)展性和高質(zhì)量的3D生成,同時(shí)支持幾何-紋理解耦的生成與可控編輯能力。
方法概覽圖 (3D VAE 模塊):
研究者所提出的 3D 知覺(jué)模型主要包含三個(gè)核心模塊:
基于點(diǎn)云結(jié)構(gòu)的 3D VAE 模型
高效且高質(zhì)量的 3D 壓縮方案
高效的 3D 物體編碼方案
高質(zhì)量的 3D 高斯上采樣與解碼機(jī)制
VAE 模型的訓(xùn)練過(guò)程
基于流匹配的級(jí)聯(lián) 3D 生成框架
該級(jí)聯(lián)生成框架基于流匹配原理構(gòu)建
在第二階段,研究者在 3D VAE 編碼空間上進(jìn)行了基于流匹配的訓(xùn)練。當(dāng)輸入為文本或單目圖像時(shí),他們采用了 Cross Attention 進(jìn)行條件信息編碼,隨后將其輸入到 DiT 框架中進(jìn)行訓(xùn)練。訓(xùn)練過(guò)程分為兩步:首先單獨(dú)學(xué)習(xí)幾何特征(稀疏的點(diǎn)云結(jié)構(gòu)),然后分別學(xué)習(xí)紋理特征(基于點(diǎn)云結(jié)構(gòu)的低維特征)。
具體而言,研究者首先搭建了一個(gè)基于稀疏點(diǎn)云結(jié)構(gòu)的Flow Matching模型框架:
在此基礎(chǔ)上,研究者將點(diǎn)云輸出作為生成細(xì)節(jié)紋理的條件,并進(jìn)一步對(duì)細(xì)節(jié)紋理特征進(jìn)行提取:
該生成范式充分支持了幾何與紋理的解耦,從而實(shí)現(xiàn)了高質(zhì)量的三維生成與編輯。
實(shí)驗(yàn)結(jié)果:
圖像引導(dǎo)的三維生成 | 圖生 3D
考慮到三維內(nèi)容創(chuàng)作通常依賴于圖片作為參考,本文方法同樣支持在給定單目圖像條件下實(shí)現(xiàn)高質(zhì)量的三維生成。與基于多視圖生成與重建的兩階段方法相比,本文方案在三維生成效果、多樣性以及三維一致性上表現(xiàn)更為穩(wěn)定。
數(shù)值結(jié)果:
可視化結(jié)果:
文本引導(dǎo)的三維生成 | 文生 3D
在大規(guī)模三維數(shù)據(jù)集Objaverse上,研究者基于Flow Matching的三維生成模型支持從文本描述直接生成高質(zhì)量且細(xì)節(jié)豐富、帶有紋理的三維資產(chǎn),并支持textured-mesh格式的導(dǎo)出。整個(gè)生成過(guò)程僅需數(shù)秒即可完成。以下為可視化對(duì)比結(jié)果:
小編在量化指標(biāo)方面再次證明其優(yōu)勢(shì),GaussianAnything的表現(xiàn)超越了現(xiàn)有方法,即采用現(xiàn)有3D生成技術(shù)條件下當(dāng)前最優(yōu)的解決方案。
如需了解更多信息,請(qǐng)?jiān)L問(wèn)原論文或項(xiàng)目主頁(yè)。
參考文獻(xiàn)如下:
[1] CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets. TOG 2024.
[2] CraftsMan: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner. arXiv 2024.
[3] Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene Representations. CVPR 2022
國(guó)風(fēng)全新,《星球重啟》春日版本活動(dòng)介紹 冷凍大招凍鋒的隱藏能力,怪物獵人荒野快速采集技巧,掌握這些高效實(shí)用方法! 奇門(mén)秘籍屬性分配攻略,《大江湖之蒼龍與白鳥(niǎo)》奇門(mén)提升方法 旋律共鳴,荒野中笛響玉的作用解析荒野笛響玉用途說(shuō)明荒野笛響玉具體作用解析 探索如龍8外傳中的天然刺身之秘,如龍8動(dòng)物全收集方法介紹 超酷賽車(chē),《天天闖關(guān)》一鍵刮卡攻略 1. 納薩力克之王機(jī)關(guān)解謎攻略,《納薩力克之王》解謎玩法攻略 100%煉金術(shù)抗狂珠配方,怪物獵人荒野大euror抗狂珠解鎖制作方法介紹 天塹沙原夜晚8至12區(qū)左側(cè)路邊巨便龜捕捉指南,怪物獵人荒野糞金龜獲取方法指南 凍結(jié)與延遲雙控場(chǎng)黃猿+鶴中將,《海賊王寶藏巡航》技屬性控制隊(duì)陣容推薦