- 升級(jí)秘笈揭秘,《桃源記2》勇士培養(yǎng)升級(jí)方法
- 探索指南,《無(wú)限暖暖》樸實(shí)幫手設(shè)計(jì)圖獲取攻略
- 趣味任務(wù)指南,《無(wú)限暖暖》我是愿望神給我噗靈任務(wù)攻略
- 全新版本揭秘,《DNF:幽暗島附魔屬性攻略》
- 探索新手必備訣竅,《世界計(jì)劃》新手攻略
- 探索職業(yè)潛能,《蛋仔派對(duì)》電電蛛技能搭配
- 挑戰(zhàn)極限距離,《小黃人快跑》公園一日游成就完成攻略
- 游戲進(jìn)階指南,《桃源深處有人家》建筑物升級(jí)方法一覽
- 全新視角,《江南百景圖》棣棠介紹
- 游戲世界中的精彩旅程,《小黃人快跑》成就介紹
聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
機(jī)器之心對(duì)相關(guān)技術(shù)進(jìn)行了報(bào)道
機(jī)器之心編輯部
在AIGC技術(shù)持續(xù)突破視頻生成邊界的同時(shí),音效制作仍是制約整個(gè)AIGC行業(yè)的技術(shù)瓶頸。字節(jié)跳動(dòng)豆包大模型語(yǔ)音團(tuán)隊(duì)提出的最新技術(shù)SeedFoley,通過(guò)端到端的架構(gòu)實(shí)現(xiàn)了視頻音效的智能生成,將AI視頻創(chuàng)作帶入「有聲時(shí)代」。相關(guān)功能「AI 音效」已在即夢(mèng)上線,用戶(hù)在生成視頻后選擇該功能即可獲得3個(gè)專(zhuān)業(yè)級(jí)音效方案。
App 端
Web 端
效果展示
先「聽(tīng)」為快,這里展示了SeedFoly生成的視頻音效效果。
視頻鏈接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg
技術(shù)方案
SeedFoly是一種端到端的視頻音效生成架構(gòu),通過(guò)融合時(shí)空視頻特征與改進(jìn)的擴(kuò)散生成模型,實(shí)現(xiàn)了音效與視頻的高度同步。首先,對(duì)視頻序列進(jìn)行幀率固定的抽幀提取,然后使用視頻編碼器提取視頻的表征信息,并將視頻表征投射到條件空間中。在改進(jìn)的擴(kuò)散模型框架下構(gòu)建音效生成路徑。
在訓(xùn)練階段,提取與語(yǔ)音和音樂(lè)相關(guān)的標(biāo)簽作為multi conditions的形式輸入,這種設(shè)計(jì)實(shí)現(xiàn)了音效與非音效的解耦。SeedFoly支持可變長(zhǎng)度的視頻輸入,在音效準(zhǔn)確性、音效同步性和音效匹配度等方面均表現(xiàn)出色,處于行業(yè)領(lǐng)先水平。
圖1:SeedFoly的模型架構(gòu)
視頻編碼器
在視頻編碼器部分,采用快慢特征融合的方法,通過(guò)提取高幀率下的局部運(yùn)動(dòng)信息和低幀率下的語(yǔ)義信息,實(shí)現(xiàn)了在低計(jì)算資源下高效提取8fps幀級(jí)別的視頻特征。通過(guò)Transformer結(jié)構(gòu)融合快慢特征,有效提升了視頻的時(shí)空特征提取能力。在提升訓(xùn)練效果和訓(xùn)練效率方面,SeedFoly采用了多批次訓(xùn)練策略,顯著提升了語(yǔ)義對(duì)齊效果,同時(shí)優(yōu)化了損失函數(shù),使用sigmoid loss而非傳統(tǒng)的softmax loss,從而在計(jì)算資源有限的情況下實(shí)現(xiàn)了與大批次訓(xùn)練相當(dāng)?shù)男Ч?/p>
圖2:SeedFoly的視頻編碼器
音頻表征模型
對(duì)于擴(kuò)散模型而言,通常采用VAE生成的潛在表征(latent representation)作為音頻特征編碼。與基于梅爾頻譜(mel-spectrum)的VAE模型不同,SeedFoly采用了原始波形(raw waveform)作為輸入,經(jīng)過(guò)編碼后得到1D的表征,相較于傳統(tǒng)mel-VAE模型,在重構(gòu)和生成建模上更具優(yōu)勢(shì)。這里,音頻采用了32k的采樣率,以確保高頻信息的保留。每秒鐘的音頻提取到32個(gè)音頻潛在表征,可以有效提升音頻在時(shí)序上的分辨率,提升音效的細(xì)膩程度。
在音頻表征模型中,采用了一種兩階段聯(lián)合訓(xùn)練策略:第一階段使用掩碼策略,將音頻表征中的相位信息進(jìn)行剝離,將去相位后的潛在表征作為擴(kuò)散模型的優(yōu)化目標(biāo);第二階段則利用音頻解碼器從去相位表征中重建相位信息。這種方法降低了擴(kuò)散模型對(duì)表征的預(yù)測(cè)難度,最終實(shí)現(xiàn)了高質(zhì)量的音頻潛在表征生成和還原。
擴(kuò)散模型
在擴(kuò)散模型部分,SeedFoly采用了Diffusion Transformer框架,通過(guò)優(yōu)化概率路徑上的連續(xù)映射關(guān)系,實(shí)現(xiàn)了從高斯噪聲分布到目標(biāo)音頻表征空間的概率匹配。相較于傳統(tǒng)擴(kuò)散模型依賴(lài)馬爾可夫鏈?zhǔn)讲蓸拥奶匦?,SeedFoly通過(guò)構(gòu)建連續(xù)變換路徑,有效減少推理步數(shù),降低推理成本。
在訓(xùn)練階段,分別提取視頻特征與音頻語(yǔ)義標(biāo)簽,并將其編碼為隱式向量空間。通過(guò)沿通道維度進(jìn)行拼接(Channel-wise Concatenation),將隱式向量空間與時(shí)間編碼(Time Embedding)及噪聲信號(hào)進(jìn)行融合,形成一個(gè)聯(lián)合條件輸入。該方法通過(guò)顯式建模跨模態(tài)時(shí)序相關(guān)性,有效提升了音效與視頻畫(huà)面在時(shí)序上的一致性,并顯著增強(qiáng)了內(nèi)容的理解能力。
在推理階段,通過(guò)調(diào)節(jié) CFG 系數(shù)可以靈活調(diào)節(jié)視覺(jué)信息的控制強(qiáng)度與生成質(zhì)量之間的關(guān)系。通過(guò)逐步轉(zhuǎn)換噪聲分布,將噪聲信號(hào)逐步引導(dǎo)至目標(biāo)數(shù)據(jù)分布。通過(guò)強(qiáng)制指定人聲與音樂(lè)標(biāo)簽,可以有效避免音效中混雜人聲或背景音樂(lè)的可能性,從而顯著提升了音效的清晰度與質(zhì)感。最后將音頻表征輸入至音頻解碼網(wǎng)絡(luò),獲取音效音頻。
結(jié)語(yǔ)
SeedFoley 通過(guò)將視頻內(nèi)容與音頻生成深度融合,實(shí)現(xiàn)了精準(zhǔn)提取視頻幀級(jí)視覺(jué)信息的能力。通過(guò)分析多幀畫(huà)面信息,能夠準(zhǔn)確識(shí)別視頻中的發(fā)聲主體及其對(duì)應(yīng)的場(chǎng)景動(dòng)作。無(wú)論是節(jié)奏感強(qiáng)烈的音樂(lè)片段,還是電影中的緊張情節(jié),SeedFoley 都能夠精準(zhǔn)捕捉關(guān)鍵幀,為視頻的音頻生成提供高質(zhì)量的參考,從而營(yíng)造出逼真且身臨其境的音效體驗(yàn)。此外,該系統(tǒng)還具備智能區(qū)分動(dòng)作音效與環(huán)境音效的能力,顯著提升了視頻的敘事張力與情感傳遞效率。
「AI 音效」功能現(xiàn)已上線,用戶(hù)在生成視頻后,選擇「AI 音效」功能即可自動(dòng)生成 3 個(gè)專(zhuān)業(yè)級(jí)音效方案。在 AI 視頻、生活 Vlog、短片制作和游戲制作等高頻場(chǎng)景中,用戶(hù)無(wú)需面對(duì)「無(wú)聲尷尬」的困境,便捷地制作出配有多款專(zhuān)業(yè)音效的高質(zhì)量視頻。
團(tuán)隊(duì)介紹
豆包大模型語(yǔ)音團(tuán)隊(duì) 以多模態(tài)語(yǔ)音技術(shù)為核心,致力于豐富交互與創(chuàng)作方式。團(tuán)隊(duì)專(zhuān)注于語(yǔ)音與音頻、音樂(lè)、自然語(yǔ)言理解和多模態(tài)深度學(xué)習(xí)等領(lǐng)域的前沿研究與產(chǎn)品創(chuàng)新,為AI交互與創(chuàng)作領(lǐng)域持續(xù)探索新的可能性。
全新春日激活,《星球重啟》春日版本活動(dòng)介紹 美國(guó)雅典娜著陸器即將發(fā)射,美國(guó)發(fā)射雅典娜著陸器,開(kāi)啟月球探測(cè)之旅 神秘冒險(xiǎn),將標(biāo)題改寫(xiě)為:despelote 官網(wǎng) 地址 | 官網(wǎng)地址介紹 戰(zhàn)甲里的倉(cāng)鼠,《星際戰(zhàn)甲》倉(cāng)鼠介紹 屬性斬斧的最佳搭配護(hù)鎖刃與耐絕珠在生存技能中的應(yīng)用,屬性斬斧如何搭配 2023年12月露娜世冠皮膚雪女主題上線,《王者榮耀》露娜世冠皮膚上線時(shí)間預(yù)測(cè) 探索煙雨,《逆水寒手游》說(shuō)英雄卡一舟煙雨獲得方法 游客投喂引發(fā)海龜胃鏡檢查,游客誤喂食物導(dǎo)致12只海龜緊急檢查!園方回應(yīng)處理 雷鄂兩件套如何正確配裝升級(jí)優(yōu)化精神狀態(tài),怪物獵人荒野:渾身走地流操蟲(chóng)棍神裝搭配秘籍分享! 一套套件掌控全場(chǎng),《星隕計(jì)劃》暗11陣容搭配推薦