- 揭秘角色技能全解析,《超時空跑跑》唐霜技能介紹
- 游戲攻略揭秘,《王者榮耀》不知火舞2025 S38出裝銘文推薦
- 新手必讀,《虛天守衛(wèi)者》萌新開局玩法介紹
- 全新英雄揭秘,《世界啟元》王陽明技能解析
- 職業(yè)選擇指南,《劍網(wǎng)3無界》平民職業(yè)選擇推薦
- 夢幻造型指南,《無限暖暖》極夜寒夢屬性一覽
- 神秘獎勵揭秘,《虛天守衛(wèi)者》兌換碼大全
- 游戲入門指南,《燕云十六聲》初始屬性加點推薦
- 全新英雄揭秘,《世界啟元》朱元璋技能解析
- 煉丹秘技探索之旅,《鬼谷八荒》化神丹獲取攻略
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
機器之心上線了新的內(nèi)容
機器之心團隊對AIGC領(lǐng)域的發(fā)展做出了重要貢獻
在生成式人工智能技術(shù)不斷拓展視頻生成邊界的同時,音效制作仍然是制約行業(yè)發(fā)展的關(guān)鍵因素。近期,字節(jié)跳動豆包大模型語音團隊推出的SeedFoley模型,通過端到端架構(gòu)實現(xiàn)了視頻音效的智能生成,為AI視頻創(chuàng)作注入了新的活力,標志著這一領(lǐng)域已進入「有聲時代」。這一創(chuàng)新功能「AI 音效」已在即夢平臺正式上線,用戶在使用即夢生成視頻后,選擇該功能即可快速獲得三個專業(yè)級音效方案。
App 端體驗
Web 端訪問
效果展示
這里展示了SeedFoley模型生成的精彩音效效果,供您欣賞。
視頻鏈接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg
技術(shù)方案解析
SeedFoley 是一種基于端到端架構(gòu)的視頻音效生成模型,通過融合時空視頻特征與改進的擴散生成模型,實現(xiàn)了音效與視頻的精準同步。具體流程如下:首先,采用固定的視頻幀率對視頻序列進行幀提取,隨后利用視頻編碼器提取視頻表征信息,并將其投影到改進的條件空間中,最后在擴散模型框架中構(gòu)建音效生成路徑,從而實現(xiàn)了音效與視頻的深度協(xié)同生成。
在訓(xùn)練過程中,系統(tǒng)通過提取語音和音樂相關(guān)標簽,構(gòu)建多模態(tài)條件輸入,成功實現(xiàn)了音效與非音效的解耦。SeedFoly支持處理變長視頻輸入,并在音效準確性、同步性和匹配度等方面展現(xiàn)出顯著優(yōu)勢。
圖1展示了SeedFoly的模型架構(gòu)。
視頻編碼器
在視頻編碼器方面,SeedFoly采用了快慢特征整合的方式。在高幀率場景下,系統(tǒng)通過提取幀間局部運動信息;在低幀率下,則聚焦于視頻語義信息。這種快慢特征的結(jié)合方式,既能有效保留運動特征,又能顯著降低計算成本。通過這種方式,系統(tǒng)可在低計算資源下實現(xiàn)8fps的幀級別特征提取,從而實現(xiàn)動作的精細定位。最后,系統(tǒng)通過Transformer結(jié)構(gòu)融合快慢特征,完成了視頻時空特征的提取。在提升訓(xùn)練效果和效率方面,通過在一個批次中引入多個難度樣本,SeedFoly顯著提升了語義對齊效果。與傳統(tǒng)的Softmax損失不同,該系統(tǒng)采用sigmoid損失,從而在資源較低的情況下實現(xiàn)了與批量訓(xùn)練效果相當?shù)男阅堋?/p>
圖2展示了SeedFoly的視頻編碼器。
音頻表征模型
對于擴散模型而言,傳統(tǒng)方法多采用VAE生成的潛在表征(latent representation)作為音頻特征編碼。與基于梅爾頻譜(mel-spectrum)的VAE模型不同,SeedFoly直接采用原始波形(raw waveform)作為輸入,經(jīng)編碼后得到1D表征。相較于傳統(tǒng)mel-VAE模型,這種表征方式在音頻重構(gòu)和建模上具有顯著優(yōu)勢。此外,采用32k采樣率可以有效保留高頻信息,同時每秒音頻被劃分為32個潛在表征,顯著提升了音頻時序分辨率和細膩度。
針對音頻表征模型,SeedFoly采用了創(chuàng)新的兩階段聯(lián)合訓(xùn)練策略。第一階段采用掩膜策略,去除相位信息,將去相位后的潛在表征作為擴散模型的優(yōu)化目標;第二階段則利用音頻解碼器,從去相位表征中重建相位信息。這種策略顯著降低了擴散模型對表征預(yù)測的難度,最終實現(xiàn)了高質(zhì)量的潛在表征生成與還原。
擴散模型
在擴散模型方面,SeedFoly采用了Diffusion Transformer框架。通過優(yōu)化概率路徑上的連續(xù)映射關(guān)系,該系統(tǒng)實現(xiàn)了從高斯噪聲到目標音頻表征空間的概率匹配。相較于傳統(tǒng)擴散模型依賴馬爾可夫鏈采樣的特性,SeedFoly通過構(gòu)建連續(xù)變換路徑,成功降低了推理步數(shù)和計算成本。
小編將為您介紹一個整合視頻與音頻生成技術(shù)的創(chuàng)新解決方案——SeedFoley。該系統(tǒng)通過多模態(tài)語音團隊的前沿研究和產(chǎn)品創(chuàng)新,實現(xiàn)了視頻內(nèi)容與音頻生成的深度融合。
在訓(xùn)練階段,我們將視頻特征和音頻語義標簽分別轉(zhuǎn)換為隱空間向量表示。通過一種稱為"通道維度的拼接操作"的方法,將這些向量與時間編碼(Time Embedding)及噪聲信號進行融合,從而形成一個聯(lián)合條件輸入。這種設(shè)計通過顯式建??缒B(tài)的時間序列相關(guān)性,有效提升了音效與視頻畫面在時序上的一致性,同時顯著增強了對內(nèi)容的理解能力。
在推理階段,我們通過調(diào)節(jié)CFG參數(shù)來優(yōu)化生成效果。具體而言,調(diào)整CFG系數(shù)可以有效控制視覺信息的生成強度,并在生成質(zhì)量之間找到平衡。此外,通過迭代優(yōu)化噪聲分布,將噪聲逐步轉(zhuǎn)換為目標數(shù)據(jù)分布,從而實現(xiàn)更自然的音頻生成。在這一過程中,我們通過強制設(shè)定人聲與音樂標簽,可以有效避免音效中混雜人聲或背景音樂的情況,從而提升音效的清晰度與質(zhì)感。最后,將音頻表征輸入至音頻解碼模塊,生成高質(zhì)量的音效音頻。
結(jié)語部分將詳細闡述SeedFoley的核心功能和優(yōu)勢。
在視頻內(nèi)容與音頻生成方面,SeedFoley能夠精準提取視頻幀級的視覺信息,并通過分析多幀畫面信息,準確識別視頻中的發(fā)聲主體及動作場景。無論是節(jié)奏感強烈的音樂片段,還是電影中的緊張情節(jié),系統(tǒng)都能精準捕捉關(guān)鍵點,營造出身臨其境的沉浸式體驗。此外,SeedFoley還具備智能區(qū)分動作音效與環(huán)境音效的能力,這一特點顯著提升了視頻的敘事張力與情感傳遞效率。
對于用戶而言,這一功能的實現(xiàn)標志著AI音頻生成技術(shù)的進一步成熟。通過使用即夢生成視頻后,用戶即可輕松獲得3個專業(yè)級音效方案。在AI視頻、生活Vlog、短片制作以及游戲制作等高頻場景中,這一功能能夠有效避免"AI視頻無聲尷尬"的問題,幫助用戶便捷地制作出高質(zhì)量的配音視頻。
我們的團隊致力于探索和應(yīng)用多模態(tài)語音技術(shù),以豐富交互與創(chuàng)作方式。我們專注于語音與音頻、音樂、自然語言理解和多模態(tài)深度學(xué)習(xí)等領(lǐng)域的前沿研究與產(chǎn)品創(chuàng)新,致力于為用戶提供更優(yōu)質(zhì)的產(chǎn)品體驗。
聚賢林任務(wù)挑戰(zhàn)全解析,《大江湖之蒼龍與白鳥》聚賢林任務(wù)攻略 洛克王國號兒魚技能解析物理輸出魔法傷害速度提升天氣變化,《洛克王國:世界》號兒魚介紹 上海浦東-阿布扎比新航線,東方航空開通上海至阿布扎比直航,4月28日開通 腦洞大開放大鏡里的證據(jù),《腦洞非常大》撞車風(fēng)云通關(guān)攻略 捕捉“冰冷蓑衣蟲”超簡單獵人冷飲免費使用,怪物獵人荒野 冷靜蓑衣蟲 收集方法 賬號被搶,51歲的吳綺莉百萬資產(chǎn)被盜,盡管遭受欺凌卻無力維權(quán) Cheze開發(fā)的銀河奶牛放置聯(lián)機游戲,Milky Way Idle游戲官網(wǎng)地址在哪 “虧損困境”,奈雪的茶為何在首次盈利后血的教訓(xùn)? 突破導(dǎo)流錐創(chuàng)新設(shè)計,商業(yè)航天發(fā)射工位有什么特別之處?——聚焦高密度發(fā)射 天塹沙原回復(fù)藥,《荒野回天蟲如何收集》 《荒野蓑衣蟲收集方法》 《回天蟲收集技巧》 《荒野回天蟲收集方法》