- 新手必讀指南,《凡人傳說》萌新必備攻略
- 揭開神秘序幕,仙劍世界虎嘯風(fēng)技能介紹
- 奇幻探秘,仙劍世界玉蘿童子技能介紹
- 財(cái)富之路,文明7黃金獲取-最佳方法分享
- 快速探索指南,《精靈王國》二圖谷Boss位置詳解
- 揭秘奇幻世界,仙劍世界松果精技能介紹
- 游戲?qū)傩越颐?,《龍息神寂》精通作用介紹
- 選擇制勝武器之道,破門而入2北方特遣隊(duì)武器推薦心得
- 奇幻冒險(xiǎn)揭曉,仙劍世界青蔥精技能介紹
- 揭秘攻略,《精靈王國》月牙河畔Boss位置詳解
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
機(jī)器之心發(fā)布
機(jī)器之心編輯部
在AIGC技術(shù)持續(xù)突破視頻生成邊界的同時(shí),音效制作仍然是制約行業(yè)發(fā)展的重要瓶頸。字節(jié)跳動(dòng)豆包大模型語音團(tuán)隊(duì)近期提出的SeedFoley模型,通過端到端的架構(gòu)實(shí)現(xiàn)了視頻音效的智能生成,為AI視頻創(chuàng)作注入了「有聲時(shí)代」的元素。該功能已正式接入即夢平臺(tái),用戶在生成視頻后,選擇「AI 音效」功能,即可獲得3套專業(yè)級音效方案。
App端
Web端
效果展示
立即觀看生成的音效效果展示,這里展示了SeedFoley模型生成的視頻音效實(shí)例。
視頻鏈接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg
技術(shù)方案
SeedFoley是一種基于端到端的視頻音效生成架構(gòu),通過融合時(shí)空視頻特征與擴(kuò)散生成模型,實(shí)現(xiàn)了音效與視頻的高度同步。具體來說,該模型首先以固定幀率對視頻序列進(jìn)行幀提取,然后通過視頻編碼器提取視頻的表征信息,將視頻特征投射到改進(jìn)的條件空間中,并在此框架下構(gòu)建音效生成路徑。
在訓(xùn)練階段,系統(tǒng)收集與語音和音樂相關(guān)的標(biāo)簽,并以多條件形式輸入,從而實(shí)現(xiàn)聲學(xué)特征與非聲學(xué)特征的解耦。該系統(tǒng)采用先進(jìn)的技術(shù)架構(gòu),支持不同長度的視頻輸入,并在聲學(xué)準(zhǔn)確性、同步性和匹配度等方面表現(xiàn)出顯著優(yōu)勢。
圖 1 展示了 SeedFoley 的模型架構(gòu)。
視頻編碼器部分
在 SeedFoly 的視頻編碼器中,采用了快慢特征結(jié)合的技術(shù)。在高幀率下,系統(tǒng)提取幀間局部運(yùn)動(dòng)信息;在低幀率下,則提取視頻語義信息。通過快慢特征的結(jié)合,既保留了運(yùn)動(dòng)特征,又有效降低了計(jì)算成本。系統(tǒng)能夠在低計(jì)算資源下實(shí)現(xiàn) 8fps 的幀級視頻特征提取,從而實(shí)現(xiàn)動(dòng)作的精細(xì)定位。通過 Transformer 結(jié)構(gòu)融合快慢特征,系統(tǒng)實(shí)現(xiàn)了視頻時(shí)空特征的高效提取。在提升訓(xùn)練效果和訓(xùn)練效率方面,系統(tǒng)通過一次批次引入多個(gè)難度樣本,顯著提升了語義對齊效果。與傳統(tǒng)的 Softmax loss 不同,該系統(tǒng)采用 sigmoid loss,能在資源消耗較低的情況下,實(shí)現(xiàn)與大批次訓(xùn)練效果相媲美。
圖 2 展示了 SeedFoly 的視頻編碼器架構(gòu)。
音頻表征模型部分
對于擴(kuò)散模型,傳統(tǒng)方法多采用基于梅爾頻譜的 VAE 模型,但 SeedFoly 采用了基于原始波形的輸入方式,經(jīng)編碼后生成 1D 表征。與傳統(tǒng) mel-VAE 模型相比,該方法在重建和建模能力上更為出色。系統(tǒng)采用了 32k 采樣率,以確保高頻信息的完整性。每秒生成 32 個(gè)音頻潛在表征,顯著提升了音頻時(shí)序分辨率和細(xì)膩程度。
在音頻表征模型中,SeedFoly 采用了雙階段聯(lián)合訓(xùn)練策略。第一階段采用掩膜策略,剝離相位信息,將去相位后的潛在表征作為擴(kuò)散模型的優(yōu)化目標(biāo);第二階段則利用音頻解碼器,從去相位表征中重建相位信息。這種策略降低了模型對潛在表征預(yù)測的難度,從而實(shí)現(xiàn)了高質(zhì)量的音頻潛在表征生成和還原。
擴(kuò)散模型部分
SeedFoly 采用基于 Diffusion Transformer 的框架,通過優(yōu)化概率路徑上的連續(xù)變換關(guān)系,實(shí)現(xiàn)了從高斯噪聲到目標(biāo)音頻表征的精確匹配。與傳統(tǒng)擴(kuò)散模型依賴馬爾可夫鏈采樣的方式不同,該系統(tǒng)構(gòu)建了連續(xù)變換路徑,有效降低了推理步數(shù)和計(jì)算成本。
在訓(xùn)練階段,我們將視頻特征和音頻語義標(biāo)簽分別編碼為隱式向量空間。通過在通道維度上進(jìn)行拼接操作(Channel-wise Concatenation),將隱式向量空間與時(shí)間編碼(Time Embedding)和噪聲信號進(jìn)行混合,生成一個(gè)聯(lián)合條件輸入。該方法通過顯式建??缒B(tài)時(shí)序相關(guān)性,有效提升了音效和視頻畫面在時(shí)序上的一致性,同時(shí)顯著提升了內(nèi)容的理解能力。
在推理階段,通過調(diào)整CFG系數(shù)可以優(yōu)化視覺信息的控制強(qiáng)度與生成質(zhì)量之間的關(guān)系。通過逐步優(yōu)化噪聲分布,將噪聲信號逐步轉(zhuǎn)換為目標(biāo)數(shù)據(jù)分布。為了解決音效中可能出現(xiàn)的人聲或背景音樂干擾問題,我們通過強(qiáng)制設(shè)定人聲和音樂標(biāo)簽,可以有效避免音效中夾雜人聲或背景音樂的可能性,從而顯著提升了音效的清晰度和質(zhì)感。最后,將音頻表征輸入到音頻解碼網(wǎng)絡(luò)中,得到高質(zhì)量的音效音頻。
結(jié)語
SeedFoley實(shí)現(xiàn)了視頻內(nèi)容與音頻生成的深度融合,能夠精確提取視頻幀級的視覺信息。通過分析多幀畫面信息,系統(tǒng)能夠精準(zhǔn)識(shí)別視頻中的發(fā)聲主體及所處的動(dòng)作場景。無論是節(jié)奏感強(qiáng)烈的音樂瞬間,還是電影中的緊張情節(jié),都能精準(zhǔn)捕獲關(guān)鍵幀,營造出身臨其境的逼真體驗(yàn)。另外,SeedFoley能夠智能區(qū)分動(dòng)作音效與環(huán)境音效,這一特性顯著提升了視頻的敘事張力和情感傳遞效率。
「AI音效」功能已正式上線,用戶在生成視頻后,選擇「AI音效」功能即可生成三個(gè)專業(yè)級音效方案。在AI視頻、生活Vlog、短片制作以及游戲制作等高頻場景中,用戶可以便捷地制作出配有多專業(yè)音效的高質(zhì)量視頻,有效擺脫了AI視頻「無聲尷尬」的困擾。
團(tuán)隊(duì)介紹
豆包大模型語音團(tuán)隊(duì)致力于利用多模態(tài)語音技術(shù),為交互和創(chuàng)作方式提供更多的可能性。團(tuán)隊(duì)聚焦于語音與音頻、音樂、自然語言理解和多模態(tài)深度學(xué)習(xí)等前沿領(lǐng)域,致力于推動(dòng)相關(guān)技術(shù)研究與產(chǎn)品創(chuàng)新。
選擇搭配輕松掌握游戲中角色的搭配策略,《開放空間》角色強(qiáng)度排行 玩轉(zhuǎn)如何獲取食物,《逆境重生》食品獲取方法 夜之影凱薩奧義必殺技大解析,《天下布魔ma》夜之影凱薩技能介紹 探索 Bugaboo 的世界,Bugaboo Pocket游戲官網(wǎng)在哪里?地址介紹 Exclusive to邁凱倫車隊(duì),邁凱倫車隊(duì)與皮亞斯特里達(dá)成多年續(xù)約 拆解下樓取咖啡,"下樓取咖啡:如何拆解,機(jī)器人處理能力如何?"這個(gè)改寫版本:1. 去掉了重復(fù)的"分幾步",簡化了表述2. 使用"如何拆解"替代原句中的"分幾步"3. 將"機(jī)器人的'大腦'"簡化為"機(jī)器人處理能力"4. 整體保持了簡潔明了的表達(dá)5. 同時(shí)保留了原文的核心意義:任務(wù)分解與機(jī)器人能力 萌趣牧場經(jīng)營,Time to Morp下載安裝指南 關(guān)稅引發(fā)市場動(dòng)蕩,特朗普:不排除美國經(jīng)濟(jì)衰退可能 第四章【最終黎明-實(shí)驗(yàn)室】的主線關(guān)卡中月亮市集彩蛋,黑暗之魂篝火彩蛋位置解析!超全彩蛋位置圖解 電音律動(dòng)沙魚之謎,雙影奇境沙丘沙蟲彩蛋位置分享