国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長(zhǎng)之家 - 業(yè)界 2025-03-12 15:02:29

AI音效突破,字節(jié)全新音效生成模型上線,一鍵式大片感音效體驗(yàn)等你來用!

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

機(jī)器之心對(duì)相關(guān)技術(shù)進(jìn)行了報(bào)道

機(jī)器之心編輯部

在AIGC技術(shù)持續(xù)突破視頻生成邊界的同時(shí),音效制作仍是制約整個(gè)AIGC行業(yè)的技術(shù)瓶頸。字節(jié)跳動(dòng)豆包大模型語音團(tuán)隊(duì)提出的最新技術(shù)SeedFoley,通過端到端的架構(gòu)實(shí)現(xiàn)了視頻音效的智能生成,將AI視頻創(chuàng)作帶入「有聲時(shí)代」。相關(guān)功能「AI 音效」已在即夢(mèng)上線,用戶在生成視頻后選擇該功能即可獲得3個(gè)專業(yè)級(jí)音效方案。

App 端

Web 端

效果展示

先「聽」為快,這里展示了SeedFoly生成的視頻音效效果。

視頻鏈接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg

技術(shù)方案

SeedFoly是一種端到端的視頻音效生成架構(gòu),通過融合時(shí)空視頻特征與改進(jìn)的擴(kuò)散生成模型,實(shí)現(xiàn)了音效與視頻的高度同步。首先,對(duì)視頻序列進(jìn)行幀率固定的抽幀提取,然后使用視頻編碼器提取視頻的表征信息,并將視頻表征投射到條件空間中。在改進(jìn)的擴(kuò)散模型框架下構(gòu)建音效生成路徑。

在訓(xùn)練階段,提取與語音和音樂相關(guān)的標(biāo)簽作為multi conditions的形式輸入,這種設(shè)計(jì)實(shí)現(xiàn)了音效與非音效的解耦。SeedFoly支持可變長(zhǎng)度的視頻輸入,在音效準(zhǔn)確性、音效同步性和音效匹配度等方面均表現(xiàn)出色,處于行業(yè)領(lǐng)先水平。

圖1:SeedFoly的模型架構(gòu)

視頻編碼器

在視頻編碼器部分,采用快慢特征融合的方法,通過提取高幀率下的局部運(yùn)動(dòng)信息和低幀率下的語義信息,實(shí)現(xiàn)了在低計(jì)算資源下高效提取8fps幀級(jí)別的視頻特征。通過Transformer結(jié)構(gòu)融合快慢特征,有效提升了視頻的時(shí)空特征提取能力。在提升訓(xùn)練效果和訓(xùn)練效率方面,SeedFoly采用了多批次訓(xùn)練策略,顯著提升了語義對(duì)齊效果,同時(shí)優(yōu)化了損失函數(shù),使用sigmoid loss而非傳統(tǒng)的softmax loss,從而在計(jì)算資源有限的情況下實(shí)現(xiàn)了與大批次訓(xùn)練相當(dāng)?shù)男Ч?/p>

圖2:SeedFoly的視頻編碼器

音頻表征模型

對(duì)于擴(kuò)散模型而言,通常采用VAE生成的潛在表征(latent representation)作為音頻特征編碼。與基于梅爾頻譜(mel-spectrum)的VAE模型不同,SeedFoly采用了原始波形(raw waveform)作為輸入,經(jīng)過編碼后得到1D的表征,相較于傳統(tǒng)mel-VAE模型,在重構(gòu)和生成建模上更具優(yōu)勢(shì)。這里,音頻采用了32k的采樣率,以確保高頻信息的保留。每秒鐘的音頻提取到32個(gè)音頻潛在表征,可以有效提升音頻在時(shí)序上的分辨率,提升音效的細(xì)膩程度。

在音頻表征模型中,采用了一種兩階段聯(lián)合訓(xùn)練策略:第一階段使用掩碼策略,將音頻表征中的相位信息進(jìn)行剝離,將去相位后的潛在表征作為擴(kuò)散模型的優(yōu)化目標(biāo);第二階段則利用音頻解碼器從去相位表征中重建相位信息。這種方法降低了擴(kuò)散模型對(duì)表征的預(yù)測(cè)難度,最終實(shí)現(xiàn)了高質(zhì)量的音頻潛在表征生成和還原。

擴(kuò)散模型

在擴(kuò)散模型部分,SeedFoly采用了Diffusion Transformer框架,通過優(yōu)化概率路徑上的連續(xù)映射關(guān)系,實(shí)現(xiàn)了從高斯噪聲分布到目標(biāo)音頻表征空間的概率匹配。相較于傳統(tǒng)擴(kuò)散模型依賴馬爾可夫鏈?zhǔn)讲蓸拥奶匦裕琒eedFoly通過構(gòu)建連續(xù)變換路徑,有效減少推理步數(shù),降低推理成本。

在訓(xùn)練階段,分別提取視頻特征與音頻語義標(biāo)簽,并將其編碼為隱式向量空間。通過沿通道維度進(jìn)行拼接(Channel-wise Concatenation),將隱式向量空間與時(shí)間編碼(Time Embedding)及噪聲信號(hào)進(jìn)行融合,形成一個(gè)聯(lián)合條件輸入。該方法通過顯式建??缒B(tài)時(shí)序相關(guān)性,有效提升了音效與視頻畫面在時(shí)序上的一致性,并顯著增強(qiáng)了內(nèi)容的理解能力。

在推理階段,通過調(diào)節(jié) CFG 系數(shù)可以靈活調(diào)節(jié)視覺信息的控制強(qiáng)度與生成質(zhì)量之間的關(guān)系。通過逐步轉(zhuǎn)換噪聲分布,將噪聲信號(hào)逐步引導(dǎo)至目標(biāo)數(shù)據(jù)分布。通過強(qiáng)制指定人聲與音樂標(biāo)簽,可以有效避免音效中混雜人聲或背景音樂的可能性,從而顯著提升了音效的清晰度與質(zhì)感。最后將音頻表征輸入至音頻解碼網(wǎng)絡(luò),獲取音效音頻。

結(jié)語

SeedFoley 通過將視頻內(nèi)容與音頻生成深度融合,實(shí)現(xiàn)了精準(zhǔn)提取視頻幀級(jí)視覺信息的能力。通過分析多幀畫面信息,能夠準(zhǔn)確識(shí)別視頻中的發(fā)聲主體及其對(duì)應(yīng)的場(chǎng)景動(dòng)作。無論是節(jié)奏感強(qiáng)烈的音樂片段,還是電影中的緊張情節(jié),SeedFoley 都能夠精準(zhǔn)捕捉關(guān)鍵幀,為視頻的音頻生成提供高質(zhì)量的參考,從而營(yíng)造出逼真且身臨其境的音效體驗(yàn)。此外,該系統(tǒng)還具備智能區(qū)分動(dòng)作音效與環(huán)境音效的能力,顯著提升了視頻的敘事張力與情感傳遞效率。

「AI 音效」功能現(xiàn)已上線,用戶在生成視頻后,選擇「AI 音效」功能即可自動(dòng)生成 3 個(gè)專業(yè)級(jí)音效方案。在 AI 視頻、生活 Vlog、短片制作和游戲制作等高頻場(chǎng)景中,用戶無需面對(duì)「無聲尷尬」的困境,便捷地制作出配有多款專業(yè)音效的高質(zhì)量視頻。

團(tuán)隊(duì)介紹

豆包大模型語音團(tuán)隊(duì) 以多模態(tài)語音技術(shù)為核心,致力于豐富交互與創(chuàng)作方式。團(tuán)隊(duì)專注于語音與音頻、音樂、自然語言理解和多模態(tài)深度學(xué)習(xí)等領(lǐng)域的前沿研究與產(chǎn)品創(chuàng)新,為AI交互與創(chuàng)作領(lǐng)域持續(xù)探索新的可能性。

投射器陷阱遠(yuǎn)程控制,怪物獵人荒野:誘導(dǎo)彈有什么作用 掌握飛撲與跳躍,《蛋仔派對(duì)》同心圓玩法攻略 真相揭露,金秀賢和金賽綸的親吻照流出,女方曾發(fā)短信求救,希望她別難過 離世與離婚的小玥兒,小玥兒走出陰影,與汪小菲、馬筱梅一同出行,完美重現(xiàn)大S美貌 聽證會(huì)揭示中國芯片的命運(yùn),美國要開聽證會(huì)調(diào)查中國傳統(tǒng)芯片 探索阿德拉大陸獲取稀有獎(jiǎng)勵(lì),《點(diǎn)點(diǎn)勇者》材料獲取方式 比亞迪元PLUS智駕版升級(jí)發(fā)布,降級(jí)增配!比亞迪PLUS智駕版上市 全系搭載天神之眼 游戲配置要求,BAPBAP配置要求說明 1. 黑道秘籍暝角色終極技能組合解析2. 黜角色組隊(duì)必刷高傷害技能全解析3. 黜角色高傷害組隊(duì)玩法全解析4. 黜神明角色技能解析秘籍5. 黜角色高傷害技能全解析,《黑色信標(biāo)》明玩法介紹 超有趣,《爆梗找茬王》八戒桃花網(wǎng)通關(guān)攻略
     
唐曉白

唐曉白

大?。?em>77mb更新:2025-03-12 15:02:29

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 唐曉白
  • 唐曉白
  • 唐曉白

游戲特色

“我之意,打開魂匣,一觀老祖魂牌,若魂牌無礙,我等自該放心,若魂牌亦是破碎……那我等,就該為延我派道脈,及時(shí)找尋出路了。不然,萬事毀矣!”

戴佑深吸一口氣,凝聲道。話音落下,在場(chǎng)眾修頓時(shí)面面相覷,只有少數(shù)幾人,才敢出聲應(yīng)和?;昱?,內(nèi)蘊(yùn)修士的一縷精魂,人亡牌毀。

反之,這魂牌也是修士的一個(gè)要緊之物,雖不足以要挾修士性命,但若有心算計(jì)施法的話,足以讓魂牌主人身受重傷了。

所以,如金鯊老祖這些一派老祖的魂牌,都是被層層保護(hù)的,非遇宗門覆滅危機(jī),不會(huì)輕易讓門下弟子接觸。換言之,此事若做,就會(huì)犯了大忌——倘若金鯊老祖無礙,回來治罪,在場(chǎng)沒有幾人能輕易擔(dān)待住。

但“戴佑”既然將門內(nèi)眾修召集至此,自不會(huì)臨時(shí)放棄,他環(huán)視了一眼眾修后,便深吸一口氣,以掌門令打開了玉臺(tái)上的重重禁制,在最中心的位置,取下了放有金鯊老祖魂牌的玉匣。

“咔嚓”一聲,玉匣打開,露出了一面雕紋精密、靈壓強(qiáng)大、而且完美無缺的魂牌……“老祖無礙!幸甚!”見此,在場(chǎng)眾修因?yàn)榫o張而屏住的呼吸,頓時(shí)松了下來,如釋重負(fù)。

只是——此刻,他們也不禁疑惑起了,現(xiàn)今金鯊老祖到底在干什么?搞得像失蹤一般,無蹤無信了。不過,此刻,他們也不再為金鯊老祖的安危感到擔(dān)心了,畢竟這歸墟海雖大,但還從未有過,能困住金鯊老祖的存在……

惟一的解釋,便是金鯊老祖有事耽擱了,或者忘記及時(shí)給宗門發(fā)回傳音符了,讓他們這些門下弟子大驚小怪了?!罢崎T,三派共同進(jìn)退,現(xiàn)在老祖有事耽擱,還無音信,是否要通知童尊者、鼎陽老怪二人?”

這時(shí),有神岳門長(zhǎng)老問道。倘若金鯊老祖是突遇強(qiáng)敵,致使回來遲了……那么若能及時(shí)請(qǐng)來童尊者、鼎陽老怪二人相幫的話,或許亦能轉(zhuǎn)危為安。

“不著急,再等等?!贝饔铀妓髌?,看了一眼“完好無缺”的魂牌,緩緩搖了搖頭。三派聯(lián)盟共同進(jìn)退不假,但這是門人弟子層面的,在化神老祖這一層,金鯊老祖與另外二人,是隱隱有所競(jìng)爭(zhēng)的。

游戲亮點(diǎn)

蕭杰心中冷哼一聲,這劉強(qiáng)倒還真有些本事呢。他一邊后退閃避一邊迅速觀察,這火龍由火焰構(gòu)成,并沒有血條,顯然不是什么召喚生物,更像是一種帶有跟蹤特性的火焰法術(shù),和火球那種飛彈型法術(shù)不同,這火龍飛行起來要慢得多,似乎受到空氣力學(xué)的影響。

蕭杰心中一動(dòng),想到了克制的方法。妖法——呼風(fēng)術(shù)!狂風(fēng)一起,那火龍被狂風(fēng)吹的偏離了方向,一頭撞在一座二層木樓上,風(fēng)助火勢(shì),眨眼間便將周圍一大片建筑都引燃了起來。

沒等劉強(qiáng)再次施法,蕭杰猛地直撲了上去,沖過火焰,直取劉強(qiáng)。劉強(qiáng)急退,對(duì)于和蕭杰近身肉搏顯然心存忌憚。

一邊退一邊瘋狂丟出火遁,也不管能不能命中,炸的周圍到處都是燃燒的房屋,就連聞聲趕來的城市守衛(wèi)都被燒的慘叫連連。

游戲玩法

他現(xiàn)在還是家族中,最快突破到筑基、結(jié)丹、元嬰以及化神的修士,化神之后,單單是化神初期到中期,他就完全比不上老祖。

就算他現(xiàn)在突破到化神中期,突破的總體時(shí)間也要長(zhǎng)于李前慶。“化神期當(dāng)是靈力積累快沒用,更重要的還是對(duì)天地之力的掌握?!崩钋皯c微笑著回復(fù),“在這方面,我領(lǐng)悟力高,比較有優(yōu)勢(shì)?!?/p>

關(guān)于他的領(lǐng)悟力,家族修士有目共睹?!澳F(xiàn)在掌握多少成天地之力?”李同鑫好奇的問道。“已經(jīng)超過八成?!?/p>

評(píng)測(cè)

3.10-3.17兌換碼,《開放空間》飯前測(cè)試兌換碼分享

投射器組合問題,怪物獵人荒野投射器使用特點(diǎn)解析

雙段增傷太刀武器,太刀連擊技能解析:荒野之息太刀連擊全解析或者:太刀連擊技能全解析:荒野之息太刀連擊詳細(xì)解析這兩個(gè)改寫后的標(biāo)題都保持了原文的核心內(nèi)容,即對(duì)太刀連擊技能的解析,但通過簡(jiǎn)化表述和調(diào)整語序,使標(biāo)題更加簡(jiǎn)潔明了,適合目標(biāo)讀者快速了解文章內(nèi)容。同時(shí),使用了同義詞替換(如“解析”替代“詳解”,“全解析”替代“詳述”)來豐富表達(dá)方式,避免重復(fù)。

監(jiān)控出口安保策略小偷偽裝攝像頭無法抓住罪犯,雙點(diǎn)博物館小偷防治指南

龍乳結(jié)晶高效打怪技巧,怪物獵人荒野龍都打BO技巧分享

顯示全部

熱門推薦
玩家評(píng)論
我要跟貼
取消
最新手游