国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長之家 - 業(yè)界 2025-03-12 15:54:51

革新音效智能生成,字節(jié)音效模型上線,一鍵生成大片音效!上線即用

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

機器之心發(fā)布

機器之心編輯部

隨著 AIGC 技術(shù)在視頻生成領(lǐng)域的持續(xù)突破,音效制作已成為制約行業(yè)發(fā)展的重要瓶頸。近期,字節(jié)跳動豆包大模型語音團隊推出的 SeedFoley 模型通過端到端架構(gòu)實現(xiàn)了視頻音效的智能生成,為 AI 視頻創(chuàng)作注入了「有聲時代」的元素。這一創(chuàng)新功能「AI 音效」已在即夢平臺上線,用戶在生成視頻后選擇該功能即可獲得 3 個專業(yè)級音效方案。

App 端

Web 端

視頻效果展示

請先「聽」為快,下面展示了一組由 SeedFoley 生成的視頻音效效果。

視頻鏈接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg

技術(shù)方案

SeedFoley 是一種基于端到端架構(gòu)的視頻音效生成方案,通過融合時空視頻特征與改進的擴散生成模型,實現(xiàn)了音效與視頻的精準同步。具體而言,該方案首先以固定幀率對視頻序列進行幀提取,隨后利用視頻編碼器提取視頻特征信息,并通過多層線形變換將特征投射到改進的條件空間中。在擴散模型框架中構(gòu)建音效生成路徑,實現(xiàn)了音效生成的高效與自然。

在訓練過程中,我們獲取了語音與音樂相關(guān)的標簽,并將其作為多條件輸入形式供模型使用,從而實現(xiàn)了音效與非音效的解耦。該模型支持可變長度的視頻輸入,并在音效準確性、音效同步性以及音效匹配度等多個關(guān)鍵指標上實現(xiàn)了超越現(xiàn)有技術(shù)的性能表現(xiàn)。

圖 1:SeedFoley 的模型架構(gòu)

視頻編碼器

在視頻編碼器部分,我們采用了快慢特征融合的方式進行處理。在高幀率場景下,模型能夠高效提取幀間的局部運動信息;而在低幀率情況下,則能夠有效捕獲視頻的語義信息。通過快慢特征的融合,既保留了運動特征的細節(jié),又顯著降低了計算開銷。這種設(shè)計使得我們在低計算資源下實現(xiàn)了 8fps 的幀級別視頻特征提取,從而能夠精準定位復雜的精細動作。最終,通過 Transformer 結(jié)構(gòu)對快慢特征進行融合,進一步提升了視頻的時空特征提取效果。在提升訓練效果和訓練效率方面,我們通過在一個批次中引入多個困難樣本,顯著提升了語義對齊效果,同時采用 Sigmoid 損失函數(shù)而非 Softmax 損失函數(shù),能夠在更小的計算資源上實現(xiàn)與大批次訓練效果相當?shù)男阅堋?/p>

圖 2:SeedFoly 的視頻編碼器

音頻表征模型

相較于擴散模型的傳統(tǒng)方法,SeedFoly 采用了直接基于原始波形的音頻輸入,經(jīng)過編碼后獲得 1D 的音頻表征。這種方法相較于基于梅爾頻譜的傳統(tǒng) VAE 模型,在音頻重構(gòu)和建模能力上具有明顯優(yōu)勢。值得注意的是,為了確保高頻信息的完整保留,我們采用了 32k 采樣率的音頻輸入,并將每秒音頻信號分割為 32 個音頻潛在表征,從而在時序維度上顯著提升了音頻的分辨率,進一步增強了音頻細節(jié)的刻畫能力。

在音頻表征模型中,我們采用了雙階段聯(lián)合訓練策略。在第一階段,我們采用遮蔽策略,將音頻表征中的相位信息進行剝離,將去相位后的潛在表征作為擴散模型的優(yōu)化目標;在第二階段,則利用音頻解碼器從去相位表征中重建相位信息。這種設(shè)計有效地降低了擴散模型對表征預測難度,最終實現(xiàn)了高質(zhì)量的音頻潛在表征生成與還原。

擴散模型

在擴散模型的設(shè)計中,我們采用了 Diffusion Transformer 框架,通過優(yōu)化概率路徑上的連續(xù)映射關(guān)系,實現(xiàn)了從高斯噪聲分布到目標音頻表征空間的概率匹配。相較于傳統(tǒng)擴散模型依賴馬爾可夫鏈采樣機制的特點,我們的方法通過構(gòu)建連續(xù)變換路徑,成功地將推理步數(shù)減少至理論下限,從而顯著降低了推理成本。

在訓練階段,我們提取視頻和音頻的特征并分別對其進行時間維度的表征。通過通道維度的拼接(Channel-wise Concatenation),我們將視頻特征、音頻語義標簽、時間編碼(Time Embedding)和噪聲信號進行融合,生成一個聯(lián)合條件輸入。該方法通過顯式建模多模態(tài)時序相關(guān)性,有效提升了音效與視頻畫面在時間上的同步性,同時顯著提升了對場景內(nèi)容的理解能力。

在推理階段,我們通過調(diào)整CFG參數(shù)來調(diào)節(jié)視覺信息的權(quán)重與生成質(zhì)量之間的平衡。通過迭代優(yōu)化噪聲分布,將噪聲逐步轉(zhuǎn)換為目標數(shù)據(jù)分布。為確保音效的純凈度,我們強制設(shè)定人聲與音樂標簽,從而有效避免音效中混雜人聲或背景音樂的干擾,最終生成清晰、富有質(zhì)感的音效音頻。

結(jié)語

SeedFoley通過深度融合視頻內(nèi)容與音頻生成技術(shù),實現(xiàn)了精準的視頻幀級信息提取。該系統(tǒng)能夠通過多幀畫面分析,準確識別視頻中的發(fā)聲主體及場景動作,無論是節(jié)奏感強烈的音樂片段,還是電影中的緊張情節(jié),都能精準觸發(fā),營造出沉浸式的體驗氛圍。此外,SeedFoley能夠智能區(qū)分動作音效與環(huán)境音效,顯著提升了視頻的敘事張力和情感傳遞效率。

「AI音效」功能已正式上線,用戶在生成視頻后,選擇該功能即可獲得3個專業(yè)級音效方案。在AI視頻、生活Vlog、短片制作及游戲制作等領(lǐng)域,該功能能夠有效解決AI視頻的「無聲尷尬」問題,幫助用戶便捷地制作出高質(zhì)量的配音視頻。

團隊介紹

豆包大模型語音團隊致力于探索多模態(tài)語音技術(shù),以豐富交互與創(chuàng)作的可能性。團隊聚焦于語音與音頻、音樂、自然語言理解等前沿領(lǐng)域,致力于推動多模態(tài)深度學習技術(shù)的研究與產(chǎn)品創(chuàng)新,為用戶提供更優(yōu)質(zhì)的技術(shù)服務(wù)與產(chǎn)品體驗。

文字來找茬翻新孤兒院移動操作,《文字來找茬》翻新孤兒院通關(guān)攻略 時裝背后的戲劇性自我,公共洗手間成了一道風景線,Valentino的展示卻讓人感覺過于前衛(wèi)! 明日方舟終末地男管理員最強六星主C,《明日方舟:終末地》男管理員介紹 技能探秘,《銀與血》戰(zhàn)爭之種阿加雷斯立約技能介紹 冠軍里程碑,德弗里尋求周末復出,小因扎吉呼吁關(guān)注球員健康(解釋:標題進行了調(diào)整,將"希望"改為更簡潔的"尋求",去掉了"和很多球員都有身體問題"的表述,使標題更加簡潔明了,同時保留了主要信息,即德弗里尋求復出和球員健康問題。) 螞蟻莊園100年3月8日的“三八”紀念,標題改寫:中國三八國際婦女節(jié)的歷史有多長 原神日落莓莓茶配方獲取攻略,《原神》日落莓莓茶配方購買位置一覽 METAL EDEN發(fā)布預加載,METAL EDEN發(fā)售日期介紹 謹慎采摘健康保障,在野地里"挖呀挖呀挖"?野菜不識莫亂吃 3月5日停掉美烏情報共享機制烏軍遠程打擊能力喪失,外媒:美斷供聚焦數(shù)據(jù),海馬斯在烏作用喪失
     
稀飯網(wǎng)

稀飯網(wǎng)

大?。?em>67mb更新:2025-03-12 15:54:51

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 稀飯網(wǎng)
  • 稀飯網(wǎng)
  • 稀飯網(wǎng)

游戲特色

只是這琴音實在太輕淡,若是不細聽,根本無法聽清。楊弼站在空中,微風徐來,吹動他的長衣,向后飄蕩。他屹立在風中,年紀不大,風華正茂,正是十七八歲的年紀。

突然,他的食指輕輕動彈一下。陳實四周的空間劇烈震蕩,讓眾人的視野變得模糊,陳實也變得模糊不清?!板P!”

一縷琴音響起,綿綿悠長。陳實驚訝的抬起頭來,望向琴音來源的方向。仙光之上,正在撫琴的不是人,而是一道符箓。那道符箓光芒燦燦,形如仙人在撫琴。

“玉皇九天譜?”他心頭大震,玉皇九天譜是真王墓藏書閣中的記載的仙法!當年他進入真王墓藏書閣,翻開《玉皇九天譜》,但沒有多久,便因為心神耗損嚴重而昏死過去!真王墓藏書閣中很多藏書,與玉皇九天譜差不多,觀看極為損耗心神,讓陳實一次又一次的昏死。

最終,他選擇的是霄瑯帝章功。霄瑯帝章功雖然也是仙級功法,但比《玉皇九天譜》要遜色許多,他因此可以觀看全書,并且硬生生背誦下來。

他雖然沒有閱覽玉皇九天譜的全書,但憑借強大的記憶力,還是記下只言片語。這琴音,正是玉皇九天譜的攻擊手段!

空間震動,無形的刃隨著琴音飛來,陳實瞳孔驟縮。他的四周突然山澤涌現(xiàn),浮現(xiàn)出一個個巨大的卦象,乾、坤、巽、震、坎、離、艮、兌,八卦排列。隨即八卦兩兩結(jié)合,演變成澤天、火天、雷天、風天、水天等六十四種不同的卦象!“嗡!”

澤天卦演變,以他為中心,方圓十里之地頓時化作一片汪洋大海,海懸于天!只聽嗤的一聲刺耳的聲響傳來,倒懸天空的大海被一道無形的刃平平分開,那道無形之刃寬達十多里,經(jīng)過層層疊疊的海浪阻撓,依舊威力驚人,深入他的道場之中,向前劈來!山澤卦運行到陳實面前,道場化作山澤變,一座座山峰拔地而起,隨即一座座大山被攔腰斬斷。

陳實道場黑風呼嘯,雷聲大作,巽風雷霆擊打在那無形的刃上,終于將這一擊的威力擋下!陳實身軀大震,被巨大的力量壓迫著向后滑去,連退數(shù)里,堪堪止??!正在此時琴音再起,云光之上的符箓陡然一變,化作另一種符箓,形如老者,俯身做彈奏狀。

陳實臉色頓變,周圍道場火天變、雷天變、風天變等各種鬼神領(lǐng)域在道場中不斷演變,阻擋玉皇九天譜的第二招!“他學到了玉皇九天譜的多少種法術(shù)?”

游戲亮點

向太后聽著趙煦的話,也看著這個孩子認真的模樣。心中的郁結(jié)和委屈,一下子就消散了許多。她看著趙煦懂事乖巧孝順的樣子,輕輕撫摸著趙煦頭上的帽子,道:“母后只是思念先帝了……”

這自然是一句謊言!她和先帝,其實沒什么感情,與其說是夫妻,不如說是陌生人。尤其是元豐以后,先帝留宿長秋的日子加起來,十個指頭都數(shù)得清。

她也知趣,所以很少出來,一直在長秋宮中吃齋念佛,就連節(jié)慶也只是露個面,就繼續(xù)回去念她的經(jīng),祈她的福去了。

但她也只能托詞于此了。因為她是個體面人。不想讓這個孩子知道太多,上一代人的齟齬。趙煦對向太后的性子,也算了解了。

游戲玩法

然而。還未等他把話說完?!按L!船長!”一道帶著驚慌的聲音傳來。頓時讓原本還在幻想著自己未來的蒂奇以及同樣帶著期待的拉斐特一同轉(zhuǎn)過頭,不滿得看著慌慌張張跑了進來,身著海軍制服,卻沒有一點正義氣質(zhì)的男子。

這家伙是他新收的小弟,雖然之前也是大海上有名的海賊,但如今同樣海軍本部內(nèi)一位身披正義的海軍!“慌慌張張的像什么樣子?可別忘了我們現(xiàn)在的身份!”蒂奇冷哼了一聲,又大口吃著櫻桃派,說道,“發(fā)生什么事了?”

“黃金,黃金……”“什么黃金?難不成黃金還不夠?”蒂奇皺起了眉頭,“黑市那群家伙還真是貪心?。〔皇钦f前段時間那東海海軍首領(lǐng)搞死了幾個黑暗之王嗎?居然還敢如此貪心,也罷。”

評測

逆水寒赤狐魅語模型解析,《逆水寒手游》赤狐魅語價格和模型展示

等級要求,《百味食光》研發(fā)新菜品攻略

黑暗信標戰(zhàn)斗技能詳解與策略搭配,《黑色信標》明玩法介紹

大贏家贏紅包,阿里健康大藥房包含以下哪些服務(wù)

回合制奇幻冒險,Portal Fantasy下載地址- portals fantasy游戲下載指南

顯示全部

熱門推薦
玩家評論
我要跟貼
取消
最新手游