- 探秘馴龍高手的關(guān)鍵角色,《馴龍高手:旅程》肉球技能攻略
- 冒險者必讀,《仙境傳說RO:新啟航》蜂后打法攻略
- 《塔瑞斯世界》7.17全職業(yè)輸出分析
- 游戲成就攻略揭秘,《崩壞:星穹鐵道》魔陰身考成就獲取攻略
- 深入探索,《馴龍高手:旅程》風里飛技能攻略
- 全新機制搶先看,《率土之濱》陳壽特性卡功能介紹
- 快速掌握,《崩壞:星穹鐵道》更改簽名顏色方法
- 段位揭秘之旅,《極品飛車:集結(jié)》段位等級一覽
- 揭秘小嗝嗝的絕技,《馴龍高手:旅程》小嗝嗝技能介紹
- 探索塔瑞斯職業(yè)選擇的關(guān)鍵因素,《塔瑞斯世界》煉金強度分析
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
機器之心發(fā)布
機器之心編輯部
隨著 AIGC 技術(shù)在視頻生成領(lǐng)域的持續(xù)突破,音效制作已成為制約行業(yè)發(fā)展的重要瓶頸。近期,字節(jié)跳動豆包大模型語音團隊推出的 SeedFoley 模型通過端到端架構(gòu)實現(xiàn)了視頻音效的智能生成,為 AI 視頻創(chuàng)作注入了「有聲時代」的元素。這一創(chuàng)新功能「AI 音效」已在即夢平臺上線,用戶在生成視頻后選擇該功能即可獲得 3 個專業(yè)級音效方案。
App 端
Web 端
視頻效果展示
請先「聽」為快,下面展示了一組由 SeedFoley 生成的視頻音效效果。
視頻鏈接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg
技術(shù)方案
SeedFoley 是一種基于端到端架構(gòu)的視頻音效生成方案,通過融合時空視頻特征與改進的擴散生成模型,實現(xiàn)了音效與視頻的精準同步。具體而言,該方案首先以固定幀率對視頻序列進行幀提取,隨后利用視頻編碼器提取視頻特征信息,并通過多層線形變換將特征投射到改進的條件空間中。在擴散模型框架中構(gòu)建音效生成路徑,實現(xiàn)了音效生成的高效與自然。
在訓練過程中,我們獲取了語音與音樂相關(guān)的標簽,并將其作為多條件輸入形式供模型使用,從而實現(xiàn)了音效與非音效的解耦。該模型支持可變長度的視頻輸入,并在音效準確性、音效同步性以及音效匹配度等多個關(guān)鍵指標上實現(xiàn)了超越現(xiàn)有技術(shù)的性能表現(xiàn)。
圖 1:SeedFoley 的模型架構(gòu)
視頻編碼器
在視頻編碼器部分,我們采用了快慢特征融合的方式進行處理。在高幀率場景下,模型能夠高效提取幀間的局部運動信息;而在低幀率情況下,則能夠有效捕獲視頻的語義信息。通過快慢特征的融合,既保留了運動特征的細節(jié),又顯著降低了計算開銷。這種設(shè)計使得我們在低計算資源下實現(xiàn)了 8fps 的幀級別視頻特征提取,從而能夠精準定位復雜的精細動作。最終,通過 Transformer 結(jié)構(gòu)對快慢特征進行融合,進一步提升了視頻的時空特征提取效果。在提升訓練效果和訓練效率方面,我們通過在一個批次中引入多個困難樣本,顯著提升了語義對齊效果,同時采用 Sigmoid 損失函數(shù)而非 Softmax 損失函數(shù),能夠在更小的計算資源上實現(xiàn)與大批次訓練效果相當?shù)男阅堋?/p>
圖 2:SeedFoly 的視頻編碼器
音頻表征模型
相較于擴散模型的傳統(tǒng)方法,SeedFoly 采用了直接基于原始波形的音頻輸入,經(jīng)過編碼后獲得 1D 的音頻表征。這種方法相較于基于梅爾頻譜的傳統(tǒng) VAE 模型,在音頻重構(gòu)和建模能力上具有明顯優(yōu)勢。值得注意的是,為了確保高頻信息的完整保留,我們采用了 32k 采樣率的音頻輸入,并將每秒音頻信號分割為 32 個音頻潛在表征,從而在時序維度上顯著提升了音頻的分辨率,進一步增強了音頻細節(jié)的刻畫能力。
在音頻表征模型中,我們采用了雙階段聯(lián)合訓練策略。在第一階段,我們采用遮蔽策略,將音頻表征中的相位信息進行剝離,將去相位后的潛在表征作為擴散模型的優(yōu)化目標;在第二階段,則利用音頻解碼器從去相位表征中重建相位信息。這種設(shè)計有效地降低了擴散模型對表征預測難度,最終實現(xiàn)了高質(zhì)量的音頻潛在表征生成與還原。
擴散模型
在擴散模型的設(shè)計中,我們采用了 Diffusion Transformer 框架,通過優(yōu)化概率路徑上的連續(xù)映射關(guān)系,實現(xiàn)了從高斯噪聲分布到目標音頻表征空間的概率匹配。相較于傳統(tǒng)擴散模型依賴馬爾可夫鏈采樣機制的特點,我們的方法通過構(gòu)建連續(xù)變換路徑,成功地將推理步數(shù)減少至理論下限,從而顯著降低了推理成本。
在訓練階段,我們提取視頻和音頻的特征并分別對其進行時間維度的表征。通過通道維度的拼接(Channel-wise Concatenation),我們將視頻特征、音頻語義標簽、時間編碼(Time Embedding)和噪聲信號進行融合,生成一個聯(lián)合條件輸入。該方法通過顯式建模多模態(tài)時序相關(guān)性,有效提升了音效與視頻畫面在時間上的同步性,同時顯著提升了對場景內(nèi)容的理解能力。
在推理階段,我們通過調(diào)整CFG參數(shù)來調(diào)節(jié)視覺信息的權(quán)重與生成質(zhì)量之間的平衡。通過迭代優(yōu)化噪聲分布,將噪聲逐步轉(zhuǎn)換為目標數(shù)據(jù)分布。為確保音效的純凈度,我們強制設(shè)定人聲與音樂標簽,從而有效避免音效中混雜人聲或背景音樂的干擾,最終生成清晰、富有質(zhì)感的音效音頻。
結(jié)語
SeedFoley通過深度融合視頻內(nèi)容與音頻生成技術(shù),實現(xiàn)了精準的視頻幀級信息提取。該系統(tǒng)能夠通過多幀畫面分析,準確識別視頻中的發(fā)聲主體及場景動作,無論是節(jié)奏感強烈的音樂片段,還是電影中的緊張情節(jié),都能精準觸發(fā),營造出沉浸式的體驗氛圍。此外,SeedFoley能夠智能區(qū)分動作音效與環(huán)境音效,顯著提升了視頻的敘事張力和情感傳遞效率。
「AI音效」功能已正式上線,用戶在生成視頻后,選擇該功能即可獲得3個專業(yè)級音效方案。在AI視頻、生活Vlog、短片制作及游戲制作等領(lǐng)域,該功能能夠有效解決AI視頻的「無聲尷尬」問題,幫助用戶便捷地制作出高質(zhì)量的配音視頻。
團隊介紹
豆包大模型語音團隊致力于探索多模態(tài)語音技術(shù),以豐富交互與創(chuàng)作的可能性。團隊聚焦于語音與音頻、音樂、自然語言理解等前沿領(lǐng)域,致力于推動多模態(tài)深度學習技術(shù)的研究與產(chǎn)品創(chuàng)新,為用戶提供更優(yōu)質(zhì)的技術(shù)服務(wù)與產(chǎn)品體驗。
文字來找茬翻新孤兒院移動操作,《文字來找茬》翻新孤兒院通關(guān)攻略 時裝背后的戲劇性自我,公共洗手間成了一道風景線,Valentino的展示卻讓人感覺過于前衛(wèi)! 明日方舟終末地男管理員最強六星主C,《明日方舟:終末地》男管理員介紹 技能探秘,《銀與血》戰(zhàn)爭之種阿加雷斯立約技能介紹 冠軍里程碑,德弗里尋求周末復出,小因扎吉呼吁關(guān)注球員健康(解釋:標題進行了調(diào)整,將"希望"改為更簡潔的"尋求",去掉了"和很多球員都有身體問題"的表述,使標題更加簡潔明了,同時保留了主要信息,即德弗里尋求復出和球員健康問題。) 螞蟻莊園100年3月8日的“三八”紀念,標題改寫:中國三八國際婦女節(jié)的歷史有多長 原神日落莓莓茶配方獲取攻略,《原神》日落莓莓茶配方購買位置一覽 METAL EDEN發(fā)布預加載,METAL EDEN發(fā)售日期介紹 謹慎采摘健康保障,在野地里"挖呀挖呀挖"?野菜不識莫亂吃 3月5日停掉美烏情報共享機制烏軍遠程打擊能力喪失,外媒:美斷供聚焦數(shù)據(jù),海馬斯在烏作用喪失