- 最新更新活動攻略揭秘,《食之契約》伊始的陪伴外觀獲得方法
- 游戲更新?lián)屜瓤?,《食之契約》12月27日更新內(nèi)容
- 《崩壞3》王后花園眼淚池塘怎么打
- 游戲技巧揭秘,《絕地求生:刺激戰(zhàn)場》閃身槍技巧攻略
- 冒險前瞻,《崩壞3》王后花園盡頭怎么打
- 冒險攻略揭秘,《崩壞3》王后花園深處2怎么打
- 闖關秘笈揭秘之旅,《崩壞3》王后花園深處1怎么打
- 探索秘境之旅,《崩壞3》王后花園入口怎么打
- 活動攻略指南,《崩壞3》王后花園怎么通關
- 獲取指南揭秘,《陰陽師》八岐大蛇繪卷碎片獲取攻略
聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。
機器之心上線了新的內(nèi)容
機器之心團隊對AIGC領域的發(fā)展做出了重要貢獻
在生成式人工智能技術不斷拓展視頻生成邊界的同時,音效制作仍然是制約行業(yè)發(fā)展的關鍵因素。近期,字節(jié)跳動豆包大模型語音團隊推出的SeedFoley模型,通過端到端架構實現(xiàn)了視頻音效的智能生成,為AI視頻創(chuàng)作注入了新的活力,標志著這一領域已進入「有聲時代」。這一創(chuàng)新功能「AI 音效」已在即夢平臺正式上線,用戶在使用即夢生成視頻后,選擇該功能即可快速獲得三個專業(yè)級音效方案。
App 端體驗
Web 端訪問
效果展示
這里展示了SeedFoley模型生成的精彩音效效果,供您欣賞。
視頻鏈接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg
技術方案解析
SeedFoley 是一種基于端到端架構的視頻音效生成模型,通過融合時空視頻特征與改進的擴散生成模型,實現(xiàn)了音效與視頻的精準同步。具體流程如下:首先,采用固定的視頻幀率對視頻序列進行幀提取,隨后利用視頻編碼器提取視頻表征信息,并將其投影到改進的條件空間中,最后在擴散模型框架中構建音效生成路徑,從而實現(xiàn)了音效與視頻的深度協(xié)同生成。
在訓練過程中,系統(tǒng)通過提取語音和音樂相關標簽,構建多模態(tài)條件輸入,成功實現(xiàn)了音效與非音效的解耦。SeedFoly支持處理變長視頻輸入,并在音效準確性、同步性和匹配度等方面展現(xiàn)出顯著優(yōu)勢。
圖1展示了SeedFoly的模型架構。
視頻編碼器
在視頻編碼器方面,SeedFoly采用了快慢特征整合的方式。在高幀率場景下,系統(tǒng)通過提取幀間局部運動信息;在低幀率下,則聚焦于視頻語義信息。這種快慢特征的結合方式,既能有效保留運動特征,又能顯著降低計算成本。通過這種方式,系統(tǒng)可在低計算資源下實現(xiàn)8fps的幀級別特征提取,從而實現(xiàn)動作的精細定位。最后,系統(tǒng)通過Transformer結構融合快慢特征,完成了視頻時空特征的提取。在提升訓練效果和效率方面,通過在一個批次中引入多個難度樣本,SeedFoly顯著提升了語義對齊效果。與傳統(tǒng)的Softmax損失不同,該系統(tǒng)采用sigmoid損失,從而在資源較低的情況下實現(xiàn)了與批量訓練效果相當?shù)男阅堋?/p>
圖2展示了SeedFoly的視頻編碼器。
音頻表征模型
對于擴散模型而言,傳統(tǒng)方法多采用VAE生成的潛在表征(latent representation)作為音頻特征編碼。與基于梅爾頻譜(mel-spectrum)的VAE模型不同,SeedFoly直接采用原始波形(raw waveform)作為輸入,經(jīng)編碼后得到1D表征。相較于傳統(tǒng)mel-VAE模型,這種表征方式在音頻重構和建模上具有顯著優(yōu)勢。此外,采用32k采樣率可以有效保留高頻信息,同時每秒音頻被劃分為32個潛在表征,顯著提升了音頻時序分辨率和細膩度。
針對音頻表征模型,SeedFoly采用了創(chuàng)新的兩階段聯(lián)合訓練策略。第一階段采用掩膜策略,去除相位信息,將去相位后的潛在表征作為擴散模型的優(yōu)化目標;第二階段則利用音頻解碼器,從去相位表征中重建相位信息。這種策略顯著降低了擴散模型對表征預測的難度,最終實現(xiàn)了高質量的潛在表征生成與還原。
擴散模型
在擴散模型方面,SeedFoly采用了Diffusion Transformer框架。通過優(yōu)化概率路徑上的連續(xù)映射關系,該系統(tǒng)實現(xiàn)了從高斯噪聲到目標音頻表征空間的概率匹配。相較于傳統(tǒng)擴散模型依賴馬爾可夫鏈采樣的特性,SeedFoly通過構建連續(xù)變換路徑,成功降低了推理步數(shù)和計算成本。
小編將為您介紹一個整合視頻與音頻生成技術的創(chuàng)新解決方案——SeedFoley。該系統(tǒng)通過多模態(tài)語音團隊的前沿研究和產(chǎn)品創(chuàng)新,實現(xiàn)了視頻內(nèi)容與音頻生成的深度融合。
在訓練階段,我們將視頻特征和音頻語義標簽分別轉換為隱空間向量表示。通過一種稱為"通道維度的拼接操作"的方法,將這些向量與時間編碼(Time Embedding)及噪聲信號進行融合,從而形成一個聯(lián)合條件輸入。這種設計通過顯式建??缒B(tài)的時間序列相關性,有效提升了音效與視頻畫面在時序上的一致性,同時顯著增強了對內(nèi)容的理解能力。
在推理階段,我們通過調節(jié)CFG參數(shù)來優(yōu)化生成效果。具體而言,調整CFG系數(shù)可以有效控制視覺信息的生成強度,并在生成質量之間找到平衡。此外,通過迭代優(yōu)化噪聲分布,將噪聲逐步轉換為目標數(shù)據(jù)分布,從而實現(xiàn)更自然的音頻生成。在這一過程中,我們通過強制設定人聲與音樂標簽,可以有效避免音效中混雜人聲或背景音樂的情況,從而提升音效的清晰度與質感。最后,將音頻表征輸入至音頻解碼模塊,生成高質量的音效音頻。
結語部分將詳細闡述SeedFoley的核心功能和優(yōu)勢。
在視頻內(nèi)容與音頻生成方面,SeedFoley能夠精準提取視頻幀級的視覺信息,并通過分析多幀畫面信息,準確識別視頻中的發(fā)聲主體及動作場景。無論是節(jié)奏感強烈的音樂片段,還是電影中的緊張情節(jié),系統(tǒng)都能精準捕捉關鍵點,營造出身臨其境的沉浸式體驗。此外,SeedFoley還具備智能區(qū)分動作音效與環(huán)境音效的能力,這一特點顯著提升了視頻的敘事張力與情感傳遞效率。
對于用戶而言,這一功能的實現(xiàn)標志著AI音頻生成技術的進一步成熟。通過使用即夢生成視頻后,用戶即可輕松獲得3個專業(yè)級音效方案。在AI視頻、生活Vlog、短片制作以及游戲制作等高頻場景中,這一功能能夠有效避免"AI視頻無聲尷尬"的問題,幫助用戶便捷地制作出高質量的配音視頻。
我們的團隊致力于探索和應用多模態(tài)語音技術,以豐富交互與創(chuàng)作方式。我們專注于語音與音頻、音樂、自然語言理解和多模態(tài)深度學習等領域的前沿研究與產(chǎn)品創(chuàng)新,致力于為用戶提供更優(yōu)質的產(chǎn)品體驗。
洛克王國氪金點大解析,《洛克王國:世界》氪金點一覽 澳烏軍事合作再升級,美暫停向烏軍援,澳方"愿意考慮"向烏派遣維和部隊 雙刀武器的鬼人連斬,怪物獵人荒野雙劍鬼人連斬使用方法及技巧分享說明:1. 原標題較長,重復性較高,改寫后更簡潔2. 保持核心內(nèi)容不變,同時提升標題吸引力3. 使用"使用方法及技巧"替代"怎么用",更專業(yè)4. 去掉重復的"雙劍鬼人連斬",簡化結構5. 采用"解析"等專業(yè)詞匯,提升標題專業(yè)性6. 整體保持簡潔明了,便于傳播和記憶 下載《Dead in Antares》即將登陸EPIC和PS平臺,Dead in Antares游戲下載地址推薦 海關+民航雙前置創(chuàng)新高效,白云機場首例"雙前置"貨站投用說明:1. 原標題中的"全國首個"被簡化為"首例",突出新意2. "雙前置貨站"被簡化為"雙前置貨站"3. "白云機場口岸"被簡化為"白云機場"4. "投入使用"被簡化為"投用",更簡潔有力5. 整體標題更簡短,同時保留了所有關鍵信息6. 保持了專業(yè)性的同時,更符合新聞標題的簡潔風格7. 通過去掉不必要的修飾詞,標題更加直接和有力8. 保持了標題的準確性和信息完整性9. 符合用戶要求的簡短化和同義詞替換10. 保持了原意不變,同時提升了表達的簡潔性 經(jīng)濟危機,他當選后美股大跌,經(jīng)濟大麻煩來了(解釋:改寫后的標題:1. 刪除了重復的"當選",使標題更簡潔2. 將"血流成河"改為"大跌",更符合中文表達習慣3. 調整了語序,使標題更流暢4. 保持了原意,同時更符合新聞標題的表達方式5. 去掉了一些冗余詞匯,使標題更精煉) 橫版闖關 | 經(jīng)典英雄再聚首 | 流暢打擊體驗 | 一幣通關,《街機恐龍》恐龍英雄冒險之旅 青鬼藍莓溫泉之謎,青鬼藍莓溫泉之謎游戲配置解析The Horror of Blueberry Onsen游戲配置要求解析 馬自達最新車型發(fā)布設計與動力革新不容錯過,馬自達新一代CX-5最快年內(nèi)發(fā)布,或成同級別最佳選擇 多平臺冒險,Despelote官網(wǎng)地址介紹