一区二区三区在线国产视频,岛国大片中文字幕一区二区

聲明:本文來自于（ID:ykqsd.com）授權轉載發(fā)布。

機器之心上線了新的內(nèi)容

機器之心團隊對AIGC領域的發(fā)展做出了重要貢獻

在生成式人工智能技術不斷拓展視頻生成邊界的同時，音效制作仍然是制約行業(yè)發(fā)展的關鍵因素。近期，字節(jié)跳動豆包大模型語音團隊推出的SeedFoley模型，通過端到端架構實現(xiàn)了視頻音效的智能生成，為AI視頻創(chuàng)作注入了新的活力，標志著這一領域已進入「有聲時代」。這一創(chuàng)新功能「AI 音效」已在即夢平臺正式上線，用戶在使用即夢生成視頻后，選擇該功能即可快速獲得三個專業(yè)級音效方案。

App 端體驗

Web 端訪問

效果展示

這里展示了SeedFoley模型生成的精彩音效效果，供您欣賞。

視頻鏈接：https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg

技術方案解析

SeedFoley 是一種基于端到端架構的視頻音效生成模型，通過融合時空視頻特征與改進的擴散生成模型，實現(xiàn)了音效與視頻的精準同步。具體流程如下：首先，采用固定的視頻幀率對視頻序列進行幀提取，隨后利用視頻編碼器提取視頻表征信息，并將其投影到改進的條件空間中，最后在擴散模型框架中構建音效生成路徑，從而實現(xiàn)了音效與視頻的深度協(xié)同生成。

在訓練過程中，系統(tǒng)通過提取語音和音樂相關標簽，構建多模態(tài)條件輸入，成功實現(xiàn)了音效與非音效的解耦。SeedFoly支持處理變長視頻輸入，并在音效準確性、同步性和匹配度等方面展現(xiàn)出顯著優(yōu)勢。

圖1展示了SeedFoly的模型架構。

視頻編碼器

在視頻編碼器方面，SeedFoly采用了快慢特征整合的方式。在高幀率場景下，系統(tǒng)通過提取幀間局部運動信息；在低幀率下，則聚焦于視頻語義信息。這種快慢特征的結合方式，既能有效保留運動特征，又能顯著降低計算成本。通過這種方式，系統(tǒng)可在低計算資源下實現(xiàn)8fps的幀級別特征提取，從而實現(xiàn)動作的精細定位。最后，系統(tǒng)通過Transformer結構融合快慢特征，完成了視頻時空特征的提取。在提升訓練效果和效率方面，通過在一個批次中引入多個難度樣本，SeedFoly顯著提升了語義對齊效果。與傳統(tǒng)的Softmax損失不同，該系統(tǒng)采用sigmoid損失，從而在資源較低的情況下實現(xiàn)了與批量訓練效果相當?shù)男阅堋?/p>

圖2展示了SeedFoly的視頻編碼器。

音頻表征模型

對于擴散模型而言，傳統(tǒng)方法多采用VAE生成的潛在表征（latent representation）作為音頻特征編碼。與基于梅爾頻譜（mel-spectrum）的VAE模型不同，SeedFoly直接采用原始波形（raw waveform）作為輸入，經(jīng)編碼后得到1D表征。相較于傳統(tǒng)mel-VAE模型，這種表征方式在音頻重構和建模上具有顯著優(yōu)勢。此外，采用32k采樣率可以有效保留高頻信息，同時每秒音頻被劃分為32個潛在表征，顯著提升了音頻時序分辨率和細膩度。

針對音頻表征模型，SeedFoly采用了創(chuàng)新的兩階段聯(lián)合訓練策略。第一階段采用掩膜策略，去除相位信息，將去相位后的潛在表征作為擴散模型的優(yōu)化目標；第二階段則利用音頻解碼器，從去相位表征中重建相位信息。這種策略顯著降低了擴散模型對表征預測的難度，最終實現(xiàn)了高質量的潛在表征生成與還原。

擴散模型

在擴散模型方面，SeedFoly采用了Diffusion Transformer框架。通過優(yōu)化概率路徑上的連續(xù)映射關系，該系統(tǒng)實現(xiàn)了從高斯噪聲到目標音頻表征空間的概率匹配。相較于傳統(tǒng)擴散模型依賴馬爾可夫鏈采樣的特性，SeedFoly通過構建連續(xù)變換路徑，成功降低了推理步數(shù)和計算成本。

小編將為您介紹一個整合視頻與音頻生成技術的創(chuàng)新解決方案——SeedFoley。該系統(tǒng)通過多模態(tài)語音團隊的前沿研究和產(chǎn)品創(chuàng)新，實現(xiàn)了視頻內(nèi)容與音頻生成的深度融合。

在訓練階段，我們將視頻特征和音頻語義標簽分別轉換為隱空間向量表示。通過一種稱為"通道維度的拼接操作"的方法，將這些向量與時間編碼（Time Embedding）及噪聲信號進行融合，從而形成一個聯(lián)合條件輸入。這種設計通過顯式建?？缒B(tài)的時間序列相關性，有效提升了音效與視頻畫面在時序上的一致性，同時顯著增強了對內(nèi)容的理解能力。

在推理階段，我們通過調節(jié)CFG參數(shù)來優(yōu)化生成效果。具體而言，調整CFG系數(shù)可以有效控制視覺信息的生成強度，并在生成質量之間找到平衡。此外，通過迭代優(yōu)化噪聲分布，將噪聲逐步轉換為目標數(shù)據(jù)分布，從而實現(xiàn)更自然的音頻生成。在這一過程中，我們通過強制設定人聲與音樂標簽，可以有效避免音效中混雜人聲或背景音樂的情況，從而提升音效的清晰度與質感。最后，將音頻表征輸入至音頻解碼模塊，生成高質量的音效音頻。

結語部分將詳細闡述SeedFoley的核心功能和優(yōu)勢。

在視頻內(nèi)容與音頻生成方面，SeedFoley能夠精準提取視頻幀級的視覺信息，并通過分析多幀畫面信息，準確識別視頻中的發(fā)聲主體及動作場景。無論是節(jié)奏感強烈的音樂片段，還是電影中的緊張情節(jié)，系統(tǒng)都能精準捕捉關鍵點，營造出身臨其境的沉浸式體驗。此外，SeedFoley還具備智能區(qū)分動作音效與環(huán)境音效的能力，這一特點顯著提升了視頻的敘事張力與情感傳遞效率。

對于用戶而言，這一功能的實現(xiàn)標志著AI音頻生成技術的進一步成熟。通過使用即夢生成視頻后，用戶即可輕松獲得3個專業(yè)級音效方案。在AI視頻、生活Vlog、短片制作以及游戲制作等高頻場景中，這一功能能夠有效避免"AI視頻無聲尷尬"的問題，幫助用戶便捷地制作出高質量的配音視頻。

我們的團隊致力于探索和應用多模態(tài)語音技術，以豐富交互與創(chuàng)作方式。我們專注于語音與音頻、音樂、自然語言理解和多模態(tài)深度學習等領域的前沿研究與產(chǎn)品創(chuàng)新，致力于為用戶提供更優(yōu)質的產(chǎn)品體驗。

洛克王國氪金點大解析，《洛克王國：世界》氪金點一覽澳烏軍事合作再升級，美暫停向烏軍援，澳方"愿意考慮"向烏派遣維和部隊雙刀武器的鬼人連斬，怪物獵人荒野雙劍鬼人連斬使用方法及技巧分享說明：1. 原標題較長，重復性較高，改寫后更簡潔2. 保持核心內(nèi)容不變，同時提升標題吸引力3. 使用"使用方法及技巧"替代"怎么用"，更專業(yè)4. 去掉重復的"雙劍鬼人連斬"，簡化結構5. 采用"解析"等專業(yè)詞匯，提升標題專業(yè)性6. 整體保持簡潔明了，便于傳播和記憶下載《Dead in Antares》即將登陸EPIC和PS平臺，Dead in Antares游戲下載地址推薦海關+民航雙前置創(chuàng)新高效，白云機場首例"雙前置"貨站投用說明：1. 原標題中的"全國首個"被簡化為"首例"，突出新意2. "雙前置貨站"被簡化為"雙前置貨站"3. "白云機場口岸"被簡化為"白云機場"4. "投入使用"被簡化為"投用"，更簡潔有力5. 整體標題更簡短，同時保留了所有關鍵信息6. 保持了專業(yè)性的同時，更符合新聞標題的簡潔風格7. 通過去掉不必要的修飾詞，標題更加直接和有力8. 保持了標題的準確性和信息完整性9. 符合用戶要求的簡短化和同義詞替換10. 保持了原意不變，同時提升了表達的簡潔性經(jīng)濟危機，他當選后美股大跌，經(jīng)濟大麻煩來了（解釋：改寫后的標題：1. 刪除了重復的"當選"，使標題更簡潔2. 將"血流成河"改為"大跌"，更符合中文表達習慣3. 調整了語序，使標題更流暢4. 保持了原意，同時更符合新聞標題的表達方式5. 去掉了一些冗余詞匯，使標題更精煉）橫版闖關 | 經(jīng)典英雄再聚首 | 流暢打擊體驗 | 一幣通關，《街機恐龍》恐龍英雄冒險之旅青鬼藍莓溫泉之謎，青鬼藍莓溫泉之謎游戲配置解析The Horror of Blueberry Onsen游戲配置要求解析馬自達最新車型發(fā)布設計與動力革新不容錯過，馬自達新一代CX-5最快年內(nèi)發(fā)布，或成同級別最佳選擇多平臺冒險，Despelote官網(wǎng)地址介紹