五月激情婷婷综合免费视频,丁香五月综合久久激情

聲明:本文來自于（ID:ykqsd.com）授權(quán)轉(zhuǎn)載發(fā)布。

機器之心發(fā)布

機器之心編輯部

隨著 AIGC 技術(shù)在視頻生成領(lǐng)域的持續(xù)突破，音效制作已成為制約行業(yè)發(fā)展的重要瓶頸。近期，字節(jié)跳動豆包大模型語音團隊推出的 SeedFoley 模型通過端到端架構(gòu)實現(xiàn)了視頻音效的智能生成，為 AI 視頻創(chuàng)作注入了「有聲時代」的元素。這一創(chuàng)新功能「AI 音效」已在即夢平臺上線，用戶在生成視頻后選擇該功能即可獲得 3 個專業(yè)級音效方案。

App 端

Web 端

視頻效果展示

請先「聽」為快，下面展示了一組由 SeedFoley 生成的視頻音效效果。

視頻鏈接：https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg

技術(shù)方案

SeedFoley 是一種基于端到端架構(gòu)的視頻音效生成方案，通過融合時空視頻特征與改進的擴散生成模型，實現(xiàn)了音效與視頻的精準同步。具體而言，該方案首先以固定幀率對視頻序列進行幀提取，隨后利用視頻編碼器提取視頻特征信息，并通過多層線形變換將特征投射到改進的條件空間中。在擴散模型框架中構(gòu)建音效生成路徑，實現(xiàn)了音效生成的高效與自然。

在訓練過程中，我們獲取了語音與音樂相關(guān)的標簽，并將其作為多條件輸入形式供模型使用，從而實現(xiàn)了音效與非音效的解耦。該模型支持可變長度的視頻輸入，并在音效準確性、音效同步性以及音效匹配度等多個關(guān)鍵指標上實現(xiàn)了超越現(xiàn)有技術(shù)的性能表現(xiàn)。

圖 1：SeedFoley 的模型架構(gòu)

視頻編碼器

在視頻編碼器部分，我們采用了快慢特征融合的方式進行處理。在高幀率場景下，模型能夠高效提取幀間的局部運動信息；而在低幀率情況下，則能夠有效捕獲視頻的語義信息。通過快慢特征的融合，既保留了運動特征的細節(jié)，又顯著降低了計算開銷。這種設(shè)計使得我們在低計算資源下實現(xiàn)了 8fps 的幀級別視頻特征提取，從而能夠精準定位復雜的精細動作。最終，通過 Transformer 結(jié)構(gòu)對快慢特征進行融合，進一步提升了視頻的時空特征提取效果。在提升訓練效果和訓練效率方面，我們通過在一個批次中引入多個困難樣本，顯著提升了語義對齊效果，同時采用 Sigmoid 損失函數(shù)而非 Softmax 損失函數(shù)，能夠在更小的計算資源上實現(xiàn)與大批次訓練效果相當?shù)男阅堋?/p>

圖 2：SeedFoly 的視頻編碼器

音頻表征模型

相較于擴散模型的傳統(tǒng)方法，SeedFoly 采用了直接基于原始波形的音頻輸入，經(jīng)過編碼后獲得 1D 的音頻表征。這種方法相較于基于梅爾頻譜的傳統(tǒng) VAE 模型，在音頻重構(gòu)和建模能力上具有明顯優(yōu)勢。值得注意的是，為了確保高頻信息的完整保留，我們采用了 32k 采樣率的音頻輸入，并將每秒音頻信號分割為 32 個音頻潛在表征，從而在時序維度上顯著提升了音頻的分辨率，進一步增強了音頻細節(jié)的刻畫能力。

在音頻表征模型中，我們采用了雙階段聯(lián)合訓練策略。在第一階段，我們采用遮蔽策略，將音頻表征中的相位信息進行剝離，將去相位后的潛在表征作為擴散模型的優(yōu)化目標；在第二階段，則利用音頻解碼器從去相位表征中重建相位信息。這種設(shè)計有效地降低了擴散模型對表征預測難度，最終實現(xiàn)了高質(zhì)量的音頻潛在表征生成與還原。

擴散模型

在擴散模型的設(shè)計中，我們采用了 Diffusion Transformer 框架，通過優(yōu)化概率路徑上的連續(xù)映射關(guān)系，實現(xiàn)了從高斯噪聲分布到目標音頻表征空間的概率匹配。相較于傳統(tǒng)擴散模型依賴馬爾可夫鏈采樣機制的特點，我們的方法通過構(gòu)建連續(xù)變換路徑，成功地將推理步數(shù)減少至理論下限，從而顯著降低了推理成本。

在訓練階段，我們提取視頻和音頻的特征并分別對其進行時間維度的表征。通過通道維度的拼接（Channel-wise Concatenation），我們將視頻特征、音頻語義標簽、時間編碼（Time Embedding）和噪聲信號進行融合，生成一個聯(lián)合條件輸入。該方法通過顯式建模多模態(tài)時序相關(guān)性，有效提升了音效與視頻畫面在時間上的同步性，同時顯著提升了對場景內(nèi)容的理解能力。

在推理階段，我們通過調(diào)整CFG參數(shù)來調(diào)節(jié)視覺信息的權(quán)重與生成質(zhì)量之間的平衡。通過迭代優(yōu)化噪聲分布，將噪聲逐步轉(zhuǎn)換為目標數(shù)據(jù)分布。為確保音效的純凈度，我們強制設(shè)定人聲與音樂標簽，從而有效避免音效中混雜人聲或背景音樂的干擾，最終生成清晰、富有質(zhì)感的音效音頻。

結(jié)語

SeedFoley通過深度融合視頻內(nèi)容與音頻生成技術(shù)，實現(xiàn)了精準的視頻幀級信息提取。該系統(tǒng)能夠通過多幀畫面分析，準確識別視頻中的發(fā)聲主體及場景動作，無論是節(jié)奏感強烈的音樂片段，還是電影中的緊張情節(jié)，都能精準觸發(fā)，營造出沉浸式的體驗氛圍。此外，SeedFoley能夠智能區(qū)分動作音效與環(huán)境音效，顯著提升了視頻的敘事張力和情感傳遞效率。

「AI音效」功能已正式上線，用戶在生成視頻后，選擇該功能即可獲得3個專業(yè)級音效方案。在AI視頻、生活Vlog、短片制作及游戲制作等領(lǐng)域，該功能能夠有效解決AI視頻的「無聲尷尬」問題，幫助用戶便捷地制作出高質(zhì)量的配音視頻。

團隊介紹

豆包大模型語音團隊致力于探索多模態(tài)語音技術(shù)，以豐富交互與創(chuàng)作的可能性。團隊聚焦于語音與音頻、音樂、自然語言理解等前沿領(lǐng)域，致力于推動多模態(tài)深度學習技術(shù)的研究與產(chǎn)品創(chuàng)新，為用戶提供更優(yōu)質(zhì)的技術(shù)服務(wù)與產(chǎn)品體驗。

文字來找茬翻新孤兒院移動操作，《文字來找茬》翻新孤兒院通關(guān)攻略時裝背后的戲劇性自我，公共洗手間成了一道風景線，Valentino的展示卻讓人感覺過于前衛(wèi)！明日方舟終末地男管理員最強六星主C，《明日方舟：終末地》男管理員介紹技能探秘，《銀與血》戰(zhàn)爭之種阿加雷斯立約技能介紹冠軍里程碑，德弗里尋求周末復出，小因扎吉呼吁關(guān)注球員健康（解釋：標題進行了調(diào)整，將"希望"改為更簡潔的"尋求"，去掉了"和很多球員都有身體問題"的表述，使標題更加簡潔明了，同時保留了主要信息，即德弗里尋求復出和球員健康問題。）螞蟻莊園100年3月8日的“三八”紀念，標題改寫：中國三八國際婦女節(jié)的歷史有多長原神日落莓莓茶配方獲取攻略，《原神》日落莓莓茶配方購買位置一覽 METAL EDEN發(fā)布預加載，METAL EDEN發(fā)售日期介紹謹慎采摘健康保障，在野地里＂挖呀挖呀挖＂？野菜不識莫亂吃 3月5日停掉美烏情報共享機制烏軍遠程打擊能力喪失，外媒：美斷供聚焦數(shù)據(jù)，海馬斯在烏作用喪失