亚洲国产另类久久久精品小说,美女黄18以下禁止观看

聲明:本文來自于（ID:ykqsd.com）授權(quán)轉(zhuǎn)載發(fā)布。

機(jī)器之心發(fā)布

機(jī)器之心編輯部

在AIGC技術(shù)持續(xù)突破視頻生成邊界的同時(shí)，音效制作仍然是制約行業(yè)發(fā)展的重要瓶頸。字節(jié)跳動(dòng)豆包大模型語音團(tuán)隊(duì)近期提出的SeedFoley模型，通過端到端的架構(gòu)實(shí)現(xiàn)了視頻音效的智能生成，為AI視頻創(chuàng)作注入了「有聲時(shí)代」的元素。該功能已正式接入即夢平臺(tái)，用戶在生成視頻后，選擇「AI 音效」功能，即可獲得3套專業(yè)級音效方案。

App端

Web端

效果展示

立即觀看生成的音效效果展示，這里展示了SeedFoley模型生成的視頻音效實(shí)例。

視頻鏈接：https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg

技術(shù)方案

SeedFoley是一種基于端到端的視頻音效生成架構(gòu)，通過融合時(shí)空視頻特征與擴(kuò)散生成模型，實(shí)現(xiàn)了音效與視頻的高度同步。具體來說，該模型首先以固定幀率對視頻序列進(jìn)行幀提取，然后通過視頻編碼器提取視頻的表征信息，將視頻特征投射到改進(jìn)的條件空間中，并在此框架下構(gòu)建音效生成路徑。

在訓(xùn)練階段，系統(tǒng)收集與語音和音樂相關(guān)的標(biāo)簽，并以多條件形式輸入，從而實(shí)現(xiàn)聲學(xué)特征與非聲學(xué)特征的解耦。該系統(tǒng)采用先進(jìn)的技術(shù)架構(gòu)，支持不同長度的視頻輸入，并在聲學(xué)準(zhǔn)確性、同步性和匹配度等方面表現(xiàn)出顯著優(yōu)勢。

圖 1 展示了 SeedFoley 的模型架構(gòu)。

視頻編碼器部分

在 SeedFoly 的視頻編碼器中，采用了快慢特征結(jié)合的技術(shù)。在高幀率下，系統(tǒng)提取幀間局部運(yùn)動(dòng)信息；在低幀率下，則提取視頻語義信息。通過快慢特征的結(jié)合，既保留了運(yùn)動(dòng)特征，又有效降低了計(jì)算成本。系統(tǒng)能夠在低計(jì)算資源下實(shí)現(xiàn) 8fps 的幀級視頻特征提取，從而實(shí)現(xiàn)動(dòng)作的精細(xì)定位。通過 Transformer 結(jié)構(gòu)融合快慢特征，系統(tǒng)實(shí)現(xiàn)了視頻時(shí)空特征的高效提取。在提升訓(xùn)練效果和訓(xùn)練效率方面，系統(tǒng)通過一次批次引入多個(gè)難度樣本，顯著提升了語義對齊效果。與傳統(tǒng)的 Softmax loss 不同，該系統(tǒng)采用 sigmoid loss，能在資源消耗較低的情況下，實(shí)現(xiàn)與大批次訓(xùn)練效果相媲美。

圖 2 展示了 SeedFoly 的視頻編碼器架構(gòu)。

音頻表征模型部分

對于擴(kuò)散模型，傳統(tǒng)方法多采用基于梅爾頻譜的 VAE 模型，但 SeedFoly 采用了基于原始波形的輸入方式，經(jīng)編碼后生成 1D 表征。與傳統(tǒng) mel-VAE 模型相比，該方法在重建和建模能力上更為出色。系統(tǒng)采用了 32k 采樣率，以確保高頻信息的完整性。每秒生成 32 個(gè)音頻潛在表征，顯著提升了音頻時(shí)序分辨率和細(xì)膩程度。

在音頻表征模型中，SeedFoly 采用了雙階段聯(lián)合訓(xùn)練策略。第一階段采用掩膜策略，剝離相位信息，將去相位后的潛在表征作為擴(kuò)散模型的優(yōu)化目標(biāo)；第二階段則利用音頻解碼器，從去相位表征中重建相位信息。這種策略降低了模型對潛在表征預(yù)測的難度，從而實(shí)現(xiàn)了高質(zhì)量的音頻潛在表征生成和還原。

擴(kuò)散模型部分

SeedFoly 采用基于 Diffusion Transformer 的框架，通過優(yōu)化概率路徑上的連續(xù)變換關(guān)系，實(shí)現(xiàn)了從高斯噪聲到目標(biāo)音頻表征的精確匹配。與傳統(tǒng)擴(kuò)散模型依賴馬爾可夫鏈采樣的方式不同，該系統(tǒng)構(gòu)建了連續(xù)變換路徑，有效降低了推理步數(shù)和計(jì)算成本。

在訓(xùn)練階段，我們將視頻特征和音頻語義標(biāo)簽分別編碼為隱式向量空間。通過在通道維度上進(jìn)行拼接操作（Channel-wise Concatenation），將隱式向量空間與時(shí)間編碼（Time Embedding）和噪聲信號進(jìn)行混合，生成一個(gè)聯(lián)合條件輸入。該方法通過顯式建?？缒B(tài)時(shí)序相關(guān)性，有效提升了音效和視頻畫面在時(shí)序上的一致性，同時(shí)顯著提升了內(nèi)容的理解能力。

在推理階段，通過調(diào)整CFG系數(shù)可以優(yōu)化視覺信息的控制強(qiáng)度與生成質(zhì)量之間的關(guān)系。通過逐步優(yōu)化噪聲分布，將噪聲信號逐步轉(zhuǎn)換為目標(biāo)數(shù)據(jù)分布。為了解決音效中可能出現(xiàn)的人聲或背景音樂干擾問題，我們通過強(qiáng)制設(shè)定人聲和音樂標(biāo)簽，可以有效避免音效中夾雜人聲或背景音樂的可能性，從而顯著提升了音效的清晰度和質(zhì)感。最后，將音頻表征輸入到音頻解碼網(wǎng)絡(luò)中，得到高質(zhì)量的音效音頻。

結(jié)語

SeedFoley實(shí)現(xiàn)了視頻內(nèi)容與音頻生成的深度融合，能夠精確提取視頻幀級的視覺信息。通過分析多幀畫面信息，系統(tǒng)能夠精準(zhǔn)識(shí)別視頻中的發(fā)聲主體及所處的動(dòng)作場景。無論是節(jié)奏感強(qiáng)烈的音樂瞬間，還是電影中的緊張情節(jié)，都能精準(zhǔn)捕獲關(guān)鍵幀，營造出身臨其境的逼真體驗(yàn)。另外，SeedFoley能夠智能區(qū)分動(dòng)作音效與環(huán)境音效，這一特性顯著提升了視頻的敘事張力和情感傳遞效率。

「AI音效」功能已正式上線，用戶在生成視頻后，選擇「AI音效」功能即可生成三個(gè)專業(yè)級音效方案。在AI視頻、生活Vlog、短片制作以及游戲制作等高頻場景中，用戶可以便捷地制作出配有多專業(yè)音效的高質(zhì)量視頻，有效擺脫了AI視頻「無聲尷尬」的困擾。

團(tuán)隊(duì)介紹

豆包大模型語音團(tuán)隊(duì)致力于利用多模態(tài)語音技術(shù)，為交互和創(chuàng)作方式提供更多的可能性。團(tuán)隊(duì)聚焦于語音與音頻、音樂、自然語言理解和多模態(tài)深度學(xué)習(xí)等前沿領(lǐng)域，致力于推動(dòng)相關(guān)技術(shù)研究與產(chǎn)品創(chuàng)新。

選擇搭配輕松掌握游戲中角色的搭配策略，《開放空間》角色強(qiáng)度排行玩轉(zhuǎn)如何獲取食物，《逆境重生》食品獲取方法夜之影凱薩奧義必殺技大解析，《天下布魔ma》夜之影凱薩技能介紹探索 Bugaboo 的世界，Bugaboo Pocket游戲官網(wǎng)在哪里？地址介紹 Exclusive to邁凱倫車隊(duì)，邁凱倫車隊(duì)與皮亞斯特里達(dá)成多年續(xù)約拆解下樓取咖啡，"下樓取咖啡：如何拆解，機(jī)器人處理能力如何？"這個(gè)改寫版本：1. 去掉了重復(fù)的"分幾步"，簡化了表述2. 使用"如何拆解"替代原句中的"分幾步"3. 將"機(jī)器人的'大腦'"簡化為"機(jī)器人處理能力"4. 整體保持了簡潔明了的表達(dá)5. 同時(shí)保留了原文的核心意義：任務(wù)分解與機(jī)器人能力萌趣牧場經(jīng)營，Time to Morp下載安裝指南關(guān)稅引發(fā)市場動(dòng)蕩，特朗普：不排除美國經(jīng)濟(jì)衰退可能第四章【最終黎明-實(shí)驗(yàn)室】的主線關(guān)卡中月亮市集彩蛋，黑暗之魂篝火彩蛋位置解析！超全彩蛋位置圖解電音律動(dòng)沙魚之謎，雙影奇境沙丘沙蟲彩蛋位置分享