- AI訂閱服務(wù),"三星AI訂閱服務(wù)受歡迎,一半高端用戶選擇訂閱"
- 安卓與iOS能否無縫互通,《皮卡堂之夢(mèng)想起源:安卓與蘋果互通情況分析》
- ES90發(fā)布溜背轎跑與激光雷達(dá),激光雷達(dá)與800V架構(gòu)融合,沃爾沃發(fā)布ES90純電旗艦車型
- 科技合作新突破,順豐航空采購百架大疆無人機(jī),支線物流布局全面展開
- 男子騎車與貓相撞,小伙騎車與貓相撞摔傷 責(zé)任誰擔(dān)?
- 優(yōu)雅穿搭,中年女性,穿衣打扮懂 subtracting age!早春這樣穿搭優(yōu)雅又減齡
- 限時(shí)抽取皮膚,《元夢(mèng)之星》妲己"時(shí)之奇旅"皮膚獲取方法一覽
- 明星 past mistakes 網(wǎng)友抵制惡 zero-tolerance,孟耿如因拒絕復(fù)出道歉,黃子佼不再復(fù)出,女兒社交賬號(hào)被暫停
- ?;?對(duì)話,俄烏沖突或迎轉(zhuǎn)機(jī):俄稱可能同意烏克蘭"有條件撤退"(說明:這個(gè)改寫版本對(duì)原標(biāo)題進(jìn)行了簡(jiǎn)化和提煉,通過"或迎轉(zhuǎn)機(jī)"的表達(dá)方式,既保持了原意,又使標(biāo)題更具吸引力。"俄稱可能同意烏克蘭'有條件撤退'"的表達(dá),既保留了關(guān)鍵信息,又使表述更加簡(jiǎn)潔有力。)
- 3月5日商業(yè)航天新突破,全國人大代表張濤:鼓勵(lì)商業(yè)航天拓展海外市場(chǎng)(說明:這個(gè)改寫版本保留了原文的核心信息,即全國人大代表張濤在報(bào)告中提到要鼓勵(lì)商業(yè)航天拓展海外市場(chǎng),同時(shí)通過簡(jiǎn)化標(biāo)題,使表達(dá)更加簡(jiǎn)潔明了。)
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
機(jī)器之心對(duì)相關(guān)技術(shù)進(jìn)行了報(bào)道
機(jī)器之心編輯部
在AIGC技術(shù)持續(xù)突破視頻生成邊界的同時(shí),音效制作仍是制約整個(gè)AIGC行業(yè)的技術(shù)瓶頸。字節(jié)跳動(dòng)豆包大模型語音團(tuán)隊(duì)提出的最新技術(shù)SeedFoley,通過端到端的架構(gòu)實(shí)現(xiàn)了視頻音效的智能生成,將AI視頻創(chuàng)作帶入「有聲時(shí)代」。相關(guān)功能「AI 音效」已在即夢(mèng)上線,用戶在生成視頻后選擇該功能即可獲得3個(gè)專業(yè)級(jí)音效方案。
App 端
Web 端
效果展示
先「聽」為快,這里展示了SeedFoly生成的視頻音效效果。
視頻鏈接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg
技術(shù)方案
SeedFoly是一種端到端的視頻音效生成架構(gòu),通過融合時(shí)空視頻特征與改進(jìn)的擴(kuò)散生成模型,實(shí)現(xiàn)了音效與視頻的高度同步。首先,對(duì)視頻序列進(jìn)行幀率固定的抽幀提取,然后使用視頻編碼器提取視頻的表征信息,并將視頻表征投射到條件空間中。在改進(jìn)的擴(kuò)散模型框架下構(gòu)建音效生成路徑。
在訓(xùn)練階段,提取與語音和音樂相關(guān)的標(biāo)簽作為multi conditions的形式輸入,這種設(shè)計(jì)實(shí)現(xiàn)了音效與非音效的解耦。SeedFoly支持可變長(zhǎng)度的視頻輸入,在音效準(zhǔn)確性、音效同步性和音效匹配度等方面均表現(xiàn)出色,處于行業(yè)領(lǐng)先水平。
圖1:SeedFoly的模型架構(gòu)
視頻編碼器
在視頻編碼器部分,采用快慢特征融合的方法,通過提取高幀率下的局部運(yùn)動(dòng)信息和低幀率下的語義信息,實(shí)現(xiàn)了在低計(jì)算資源下高效提取8fps幀級(jí)別的視頻特征。通過Transformer結(jié)構(gòu)融合快慢特征,有效提升了視頻的時(shí)空特征提取能力。在提升訓(xùn)練效果和訓(xùn)練效率方面,SeedFoly采用了多批次訓(xùn)練策略,顯著提升了語義對(duì)齊效果,同時(shí)優(yōu)化了損失函數(shù),使用sigmoid loss而非傳統(tǒng)的softmax loss,從而在計(jì)算資源有限的情況下實(shí)現(xiàn)了與大批次訓(xùn)練相當(dāng)?shù)男Ч?/p>
圖2:SeedFoly的視頻編碼器
音頻表征模型
對(duì)于擴(kuò)散模型而言,通常采用VAE生成的潛在表征(latent representation)作為音頻特征編碼。與基于梅爾頻譜(mel-spectrum)的VAE模型不同,SeedFoly采用了原始波形(raw waveform)作為輸入,經(jīng)過編碼后得到1D的表征,相較于傳統(tǒng)mel-VAE模型,在重構(gòu)和生成建模上更具優(yōu)勢(shì)。這里,音頻采用了32k的采樣率,以確保高頻信息的保留。每秒鐘的音頻提取到32個(gè)音頻潛在表征,可以有效提升音頻在時(shí)序上的分辨率,提升音效的細(xì)膩程度。
在音頻表征模型中,采用了一種兩階段聯(lián)合訓(xùn)練策略:第一階段使用掩碼策略,將音頻表征中的相位信息進(jìn)行剝離,將去相位后的潛在表征作為擴(kuò)散模型的優(yōu)化目標(biāo);第二階段則利用音頻解碼器從去相位表征中重建相位信息。這種方法降低了擴(kuò)散模型對(duì)表征的預(yù)測(cè)難度,最終實(shí)現(xiàn)了高質(zhì)量的音頻潛在表征生成和還原。
擴(kuò)散模型
在擴(kuò)散模型部分,SeedFoly采用了Diffusion Transformer框架,通過優(yōu)化概率路徑上的連續(xù)映射關(guān)系,實(shí)現(xiàn)了從高斯噪聲分布到目標(biāo)音頻表征空間的概率匹配。相較于傳統(tǒng)擴(kuò)散模型依賴馬爾可夫鏈?zhǔn)讲蓸拥奶匦裕琒eedFoly通過構(gòu)建連續(xù)變換路徑,有效減少推理步數(shù),降低推理成本。
在訓(xùn)練階段,分別提取視頻特征與音頻語義標(biāo)簽,并將其編碼為隱式向量空間。通過沿通道維度進(jìn)行拼接(Channel-wise Concatenation),將隱式向量空間與時(shí)間編碼(Time Embedding)及噪聲信號(hào)進(jìn)行融合,形成一個(gè)聯(lián)合條件輸入。該方法通過顯式建??缒B(tài)時(shí)序相關(guān)性,有效提升了音效與視頻畫面在時(shí)序上的一致性,并顯著增強(qiáng)了內(nèi)容的理解能力。
在推理階段,通過調(diào)節(jié) CFG 系數(shù)可以靈活調(diào)節(jié)視覺信息的控制強(qiáng)度與生成質(zhì)量之間的關(guān)系。通過逐步轉(zhuǎn)換噪聲分布,將噪聲信號(hào)逐步引導(dǎo)至目標(biāo)數(shù)據(jù)分布。通過強(qiáng)制指定人聲與音樂標(biāo)簽,可以有效避免音效中混雜人聲或背景音樂的可能性,從而顯著提升了音效的清晰度與質(zhì)感。最后將音頻表征輸入至音頻解碼網(wǎng)絡(luò),獲取音效音頻。
結(jié)語
SeedFoley 通過將視頻內(nèi)容與音頻生成深度融合,實(shí)現(xiàn)了精準(zhǔn)提取視頻幀級(jí)視覺信息的能力。通過分析多幀畫面信息,能夠準(zhǔn)確識(shí)別視頻中的發(fā)聲主體及其對(duì)應(yīng)的場(chǎng)景動(dòng)作。無論是節(jié)奏感強(qiáng)烈的音樂片段,還是電影中的緊張情節(jié),SeedFoley 都能夠精準(zhǔn)捕捉關(guān)鍵幀,為視頻的音頻生成提供高質(zhì)量的參考,從而營(yíng)造出逼真且身臨其境的音效體驗(yàn)。此外,該系統(tǒng)還具備智能區(qū)分動(dòng)作音效與環(huán)境音效的能力,顯著提升了視頻的敘事張力與情感傳遞效率。
「AI 音效」功能現(xiàn)已上線,用戶在生成視頻后,選擇「AI 音效」功能即可自動(dòng)生成 3 個(gè)專業(yè)級(jí)音效方案。在 AI 視頻、生活 Vlog、短片制作和游戲制作等高頻場(chǎng)景中,用戶無需面對(duì)「無聲尷尬」的困境,便捷地制作出配有多款專業(yè)音效的高質(zhì)量視頻。
團(tuán)隊(duì)介紹
豆包大模型語音團(tuán)隊(duì) 以多模態(tài)語音技術(shù)為核心,致力于豐富交互與創(chuàng)作方式。團(tuán)隊(duì)專注于語音與音頻、音樂、自然語言理解和多模態(tài)深度學(xué)習(xí)等領(lǐng)域的前沿研究與產(chǎn)品創(chuàng)新,為AI交互與創(chuàng)作領(lǐng)域持續(xù)探索新的可能性。
投射器陷阱遠(yuǎn)程控制,怪物獵人荒野:誘導(dǎo)彈有什么作用 掌握飛撲與跳躍,《蛋仔派對(duì)》同心圓玩法攻略 真相揭露,金秀賢和金賽綸的親吻照流出,女方曾發(fā)短信求救,希望她別難過 離世與離婚的小玥兒,小玥兒走出陰影,與汪小菲、馬筱梅一同出行,完美重現(xiàn)大S美貌 聽證會(huì)揭示中國芯片的命運(yùn),美國要開聽證會(huì)調(diào)查中國傳統(tǒng)芯片 探索阿德拉大陸獲取稀有獎(jiǎng)勵(lì),《點(diǎn)點(diǎn)勇者》材料獲取方式 比亞迪元PLUS智駕版升級(jí)發(fā)布,降級(jí)增配!比亞迪PLUS智駕版上市 全系搭載天神之眼 游戲配置要求,BAPBAP配置要求說明 1. 黑道秘籍暝角色終極技能組合解析2. 黜角色組隊(duì)必刷高傷害技能全解析3. 黜角色高傷害組隊(duì)玩法全解析4. 黜神明角色技能解析秘籍5. 黜角色高傷害技能全解析,《黑色信標(biāo)》明玩法介紹 超有趣,《爆梗找茬王》八戒桃花網(wǎng)通關(guān)攻略