- 游戲之旅指南,《DNF:起源》勇士稱號(hào)獲取指南
- 《地下城與勇士:起源》開啟深淵派對(duì)方法
- 《養(yǎng)兒防老攻略:讓孩子過上好日子》
- 新手指南,《原神》克洛琳德培養(yǎng)攻略
- 植物大戰(zhàn)僵尸新角色亮點(diǎn)揭秘,《植物大戰(zhàn)僵尸雜交版》西瓜堅(jiān)果介紹
- 《整個(gè)活吧》奶奶別送了幫奶奶把車裝滿通關(guān)攻略
- 全新角色攻略指南,《原神》閑云培養(yǎng)攻略
- 全新技能揭秘,《植物大戰(zhàn)僵尸雜交版》仙人三葉花介紹
- 探索新視界,《王者榮耀》黃忠怒海爭(zhēng)鋒特效展示
- 探索蒙德釣魚點(diǎn),《原神》蒙德釣魚點(diǎn)位置介紹
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
機(jī)器之心對(duì)相關(guān)技術(shù)進(jìn)行了報(bào)道
機(jī)器之心編輯部
在AIGC技術(shù)持續(xù)突破視頻生成邊界的同時(shí),音效制作仍是制約整個(gè)AIGC行業(yè)的技術(shù)瓶頸。字節(jié)跳動(dòng)豆包大模型語音團(tuán)隊(duì)提出的最新技術(shù)SeedFoley,通過端到端的架構(gòu)實(shí)現(xiàn)了視頻音效的智能生成,將AI視頻創(chuàng)作帶入「有聲時(shí)代」。相關(guān)功能「AI 音效」已在即夢(mèng)上線,用戶在生成視頻后選擇該功能即可獲得3個(gè)專業(yè)級(jí)音效方案。
App 端
Web 端
效果展示
先「聽」為快,這里展示了SeedFoly生成的視頻音效效果。
視頻鏈接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg
技術(shù)方案
SeedFoly是一種端到端的視頻音效生成架構(gòu),通過融合時(shí)空視頻特征與改進(jìn)的擴(kuò)散生成模型,實(shí)現(xiàn)了音效與視頻的高度同步。首先,對(duì)視頻序列進(jìn)行幀率固定的抽幀提取,然后使用視頻編碼器提取視頻的表征信息,并將視頻表征投射到條件空間中。在改進(jìn)的擴(kuò)散模型框架下構(gòu)建音效生成路徑。
在訓(xùn)練階段,提取與語音和音樂相關(guān)的標(biāo)簽作為multi conditions的形式輸入,這種設(shè)計(jì)實(shí)現(xiàn)了音效與非音效的解耦。SeedFoly支持可變長(zhǎng)度的視頻輸入,在音效準(zhǔn)確性、音效同步性和音效匹配度等方面均表現(xiàn)出色,處于行業(yè)領(lǐng)先水平。
圖1:SeedFoly的模型架構(gòu)
視頻編碼器
在視頻編碼器部分,采用快慢特征融合的方法,通過提取高幀率下的局部運(yùn)動(dòng)信息和低幀率下的語義信息,實(shí)現(xiàn)了在低計(jì)算資源下高效提取8fps幀級(jí)別的視頻特征。通過Transformer結(jié)構(gòu)融合快慢特征,有效提升了視頻的時(shí)空特征提取能力。在提升訓(xùn)練效果和訓(xùn)練效率方面,SeedFoly采用了多批次訓(xùn)練策略,顯著提升了語義對(duì)齊效果,同時(shí)優(yōu)化了損失函數(shù),使用sigmoid loss而非傳統(tǒng)的softmax loss,從而在計(jì)算資源有限的情況下實(shí)現(xiàn)了與大批次訓(xùn)練相當(dāng)?shù)男Ч?/p>
圖2:SeedFoly的視頻編碼器
音頻表征模型
對(duì)于擴(kuò)散模型而言,通常采用VAE生成的潛在表征(latent representation)作為音頻特征編碼。與基于梅爾頻譜(mel-spectrum)的VAE模型不同,SeedFoly采用了原始波形(raw waveform)作為輸入,經(jīng)過編碼后得到1D的表征,相較于傳統(tǒng)mel-VAE模型,在重構(gòu)和生成建模上更具優(yōu)勢(shì)。這里,音頻采用了32k的采樣率,以確保高頻信息的保留。每秒鐘的音頻提取到32個(gè)音頻潛在表征,可以有效提升音頻在時(shí)序上的分辨率,提升音效的細(xì)膩程度。
在音頻表征模型中,采用了一種兩階段聯(lián)合訓(xùn)練策略:第一階段使用掩碼策略,將音頻表征中的相位信息進(jìn)行剝離,將去相位后的潛在表征作為擴(kuò)散模型的優(yōu)化目標(biāo);第二階段則利用音頻解碼器從去相位表征中重建相位信息。這種方法降低了擴(kuò)散模型對(duì)表征的預(yù)測(cè)難度,最終實(shí)現(xiàn)了高質(zhì)量的音頻潛在表征生成和還原。
擴(kuò)散模型
在擴(kuò)散模型部分,SeedFoly采用了Diffusion Transformer框架,通過優(yōu)化概率路徑上的連續(xù)映射關(guān)系,實(shí)現(xiàn)了從高斯噪聲分布到目標(biāo)音頻表征空間的概率匹配。相較于傳統(tǒng)擴(kuò)散模型依賴馬爾可夫鏈?zhǔn)讲蓸拥奶匦裕琒eedFoly通過構(gòu)建連續(xù)變換路徑,有效減少推理步數(shù),降低推理成本。
在訓(xùn)練階段,分別提取視頻特征與音頻語義標(biāo)簽,并將其編碼為隱式向量空間。通過沿通道維度進(jìn)行拼接(Channel-wise Concatenation),將隱式向量空間與時(shí)間編碼(Time Embedding)及噪聲信號(hào)進(jìn)行融合,形成一個(gè)聯(lián)合條件輸入。該方法通過顯式建模跨模態(tài)時(shí)序相關(guān)性,有效提升了音效與視頻畫面在時(shí)序上的一致性,并顯著增強(qiáng)了內(nèi)容的理解能力。
在推理階段,通過調(diào)節(jié) CFG 系數(shù)可以靈活調(diào)節(jié)視覺信息的控制強(qiáng)度與生成質(zhì)量之間的關(guān)系。通過逐步轉(zhuǎn)換噪聲分布,將噪聲信號(hào)逐步引導(dǎo)至目標(biāo)數(shù)據(jù)分布。通過強(qiáng)制指定人聲與音樂標(biāo)簽,可以有效避免音效中混雜人聲或背景音樂的可能性,從而顯著提升了音效的清晰度與質(zhì)感。最后將音頻表征輸入至音頻解碼網(wǎng)絡(luò),獲取音效音頻。
結(jié)語
SeedFoley 通過將視頻內(nèi)容與音頻生成深度融合,實(shí)現(xiàn)了精準(zhǔn)提取視頻幀級(jí)視覺信息的能力。通過分析多幀畫面信息,能夠準(zhǔn)確識(shí)別視頻中的發(fā)聲主體及其對(duì)應(yīng)的場(chǎng)景動(dòng)作。無論是節(jié)奏感強(qiáng)烈的音樂片段,還是電影中的緊張情節(jié),SeedFoley 都能夠精準(zhǔn)捕捉關(guān)鍵幀,為視頻的音頻生成提供高質(zhì)量的參考,從而營(yíng)造出逼真且身臨其境的音效體驗(yàn)。此外,該系統(tǒng)還具備智能區(qū)分動(dòng)作音效與環(huán)境音效的能力,顯著提升了視頻的敘事張力與情感傳遞效率。
「AI 音效」功能現(xiàn)已上線,用戶在生成視頻后,選擇「AI 音效」功能即可自動(dòng)生成 3 個(gè)專業(yè)級(jí)音效方案。在 AI 視頻、生活 Vlog、短片制作和游戲制作等高頻場(chǎng)景中,用戶無需面對(duì)「無聲尷尬」的困境,便捷地制作出配有多款專業(yè)音效的高質(zhì)量視頻。
團(tuán)隊(duì)介紹
豆包大模型語音團(tuán)隊(duì) 以多模態(tài)語音技術(shù)為核心,致力于豐富交互與創(chuàng)作方式。團(tuán)隊(duì)專注于語音與音頻、音樂、自然語言理解和多模態(tài)深度學(xué)習(xí)等領(lǐng)域的前沿研究與產(chǎn)品創(chuàng)新,為AI交互與創(chuàng)作領(lǐng)域持續(xù)探索新的可能性。
city car driving 2.0 instant download,City Car Driving 2下載地址有哪些?如何找到最佳下載途徑?City Car Driving 2游戲下載地址推薦:實(shí)用的下載指南City Car Driving 2下載攻略:如何快速獲取游戲鏈接?City Car Driving 2下載地址:官方渠道與第三方平臺(tái)推薦City Car Driving 2游戲下載地址:全面解析與下載技巧City Car Driving 2下載地址:官方鏈接與快速獲取方法 趣味挑戰(zhàn),《腦洞非常大》爺青回通關(guān)攻略 捕捉輕松但挑戰(zhàn)依然存在,怪物獵人荒野回復(fù)蜜蟲怎么收集?回復(fù)蜜蟲收集方法解析 購(gòu)車超值限時(shí)優(yōu)惠,嵐圖汽車2月同比增長(zhǎng)152%,交付8013輛新車說明:1. 保持了原意,但使標(biāo)題更簡(jiǎn)潔2. 調(diào)整了語序,使信息呈現(xiàn)更流暢3. 去掉了"漲"字,用"增長(zhǎng)"替代4. 使用"交付"替代"銷售",更符合行業(yè)用語5. 保留了品牌名稱和關(guān)鍵數(shù)據(jù)6. 增加了月份信息7. 使標(biāo)題更符合新聞稿的正式風(fēng)格8. 保持了信息的完整性,沒有遺漏關(guān)鍵數(shù)據(jù) 如何獲取,《唱舞星計(jì)劃》音潮頭飾獲取攻略 City Car Driving 2.0 Just Launched,City Car Driving 2游戲平臺(tái)推薦 深圳機(jī)器人創(chuàng)新未來,從“七劍客”變成“七十劍客”的廣東步伐 腦洞大開詭異謎題反轉(zhuǎn)攻略,《腦洞非常大》女寢之夜通關(guān)攻略 如何通過Steam下載《城市汽車駕駛2.0》,City Car Driving 2安裝指南 輕松應(yīng)對(duì)林中曲BOSS挑戰(zhàn),《夢(mèng)幻西游》林中曲boss機(jī)制打法攻略