- 新春更新?lián)屜润w驗(yàn),《明日之后》1月31日更新預(yù)告
- 解鎖獲取秘訣,《暖暖環(huán)游世界》戰(zhàn)車套裝獲取方法
- 揭秘活動(dòng)亮點(diǎn),《戀與制作人》傾心戀曲活動(dòng)
- 游戲攻略指南,《戀與制作人》手捧花怎么獲得
- 新皮膚亮相,《決戰(zhàn)平安京》面靈氣春節(jié)皮膚怎么樣
- 深入解析,《旋英雄譚》弗蘭芳絲圖鑒
- 玩家實(shí)用指南,《皇帝成長(zhǎng)計(jì)劃2》皇子躁郁值怎么減少
- 新手必看攻略,《皇帝成長(zhǎng)計(jì)劃2》怎么給皇子換老師
- 快速掌握,《一小時(shí)人生》土窖制作方法
- 揭秘英雄,《螺旋英雄譚》啟真圖鑒
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
自 Sora 誕生以來,視頻內(nèi)容創(chuàng)作已進(jìn)入快車道,AI 技術(shù)賦能內(nèi)容生產(chǎn)的時(shí)代已經(jīng)到來。
今年 4 月,生數(shù)科技聯(lián)合清華大學(xué)推出首個(gè)基于 U-ViT 的國(guó)產(chǎn)全自研視頻大模型 Vidu,打破了國(guó)外技術(shù)封鎖,支持一鍵生成 16 秒高清視頻,展現(xiàn)了我國(guó)科技企業(yè)的創(chuàng)新能力。自 7 月上線以來,Vidu 已服務(wù)數(shù)千萬用戶,極大促進(jìn)了視頻內(nèi)容的智能創(chuàng)作。近期,騰訊混元、阿里通義萬相等開源視頻生成模型相繼亮相,可生成 5-6 秒視頻,降低了視頻創(chuàng)作門檻。
盡管如此,目前國(guó)內(nèi)外視頻社區(qū)仍有用戶反映現(xiàn)有開源模型在生成時(shí)長(zhǎng)受限于 5-6 秒的短視頻,難以滿足需求。
今天,Vidu 團(tuán)隊(duì)帶來了 RIFLEx 解決方案——一個(gè)簡(jiǎn)潔優(yōu)雅的解決方案。新方案只需一行代碼,無需額外訓(xùn)練即可突破視頻生成模型時(shí)長(zhǎng)限制,打破了「短視頻魔咒」。目前該項(xiàng)目已經(jīng)開源,體現(xiàn)了團(tuán)隊(duì)對(duì)開源社區(qū)的積極回饋和貢獻(xiàn)。
RIFLEx 適用于基于 RoPE 的各類 Video Diffusion Transformer,例如 CogvideoX、混元(參考之前推送)和通義萬相(參考之前推送)。
下列開源模型無需任何訓(xùn)練即可將視頻時(shí)長(zhǎng)外推兩倍至10秒:
- 示例 1:prompt: 一只棕白相間的動(dòng)畫豪豬好奇地審視著緞帶裝飾的綠色盒子,靈動(dòng)的眼神與細(xì)膩的3D動(dòng)畫風(fēng)格營(yíng)造出溫馨而精致的視覺體驗(yàn)。
- 示例 2:prompt: 荒涼空地上的簡(jiǎn)易營(yíng)地散布著無人機(jī)與物資,軍人與平民共處,一名男子絕望抱頭,女子憂慮注視,沉重氛圍暗示剛經(jīng)歷重大事件,鏡頭穩(wěn)定細(xì)膩,突出緊張與不安感。
- 示例 3:sora的經(jīng)典長(zhǎng)毛猛犸象prompt
- 示例 4:在短視頻微調(diào)幾千步可進(jìn)一步提升性能。
在馬車內(nèi),一位留著胡須、穿著格子襯衫的guys專注地端詳一枚硬幣。他與一名女子進(jìn)行交談,鏡頭切換展現(xiàn)了歷史劇風(fēng)格與戲劇氛圍。
動(dòng)畫中的兔子和老鼠穿著探險(xiǎn)裝備,正面臨著生死時(shí)刻。它們急速墜入一個(gè)黑暗且未知的空間,隨后在寧靜的水下世界中漂浮并游動(dòng)。緊張而堅(jiān)定的表情通過中景與特寫鏡頭展現(xiàn),高質(zhì)量的3D動(dòng)畫風(fēng)格增強(qiáng)了影片的沉浸感。
留著胡須的guys穿著一件格子襯衫,坐在吉他前深情地演唱。他的室內(nèi)環(huán)境簡(jiǎn)潔,背景是一面純灰色墻壁,左側(cè)放著一個(gè)吉他音箱和麥克風(fēng)架,右側(cè)則擺放著一疊書籍。
此外,RIFLEx不僅支持基于時(shí)間維度的外推功能,還可以擴(kuò)展至空間維度,比如通過局部畫面超分辨率重建、修復(fù)缺失區(qū)域或擴(kuò)展視頻邊界內(nèi)容。此外,RIFLEx還支持時(shí)空外推,例如生成未來高分辨率視頻序列或動(dòng)態(tài)擴(kuò)展視頻的時(shí)空內(nèi)容,兼顧時(shí)間連續(xù)性與空間一致性。
圖片分為兩部分,左側(cè)為訓(xùn)練尺寸,右側(cè)為外推結(jié)果
訓(xùn)練尺寸:480x720x49
外推結(jié)果:960x1440x97
這項(xiàng)研究成果一經(jīng)發(fā)布,立刻引起了廣泛關(guān)注。
著名博主 Ak 是第一人轉(zhuǎn)發(fā),海外科技公司與博主對(duì)其表示高度贊賞,稱其為「視頻擴(kuò)散模型領(lǐng)域的突破性創(chuàng)新」。
Diffusers核心貢獻(xiàn)者 sayakpaul 和 a-r-r-o-w 也收藏了代碼,并在評(píng)論區(qū)表示贊賞。
目前,RIFLEx 已被集成到多個(gè)知名視頻生成倉庫中。
本研究揭示了 RIFLEx:通過簡(jiǎn)化復(fù)雜性,直接觸及技術(shù)本質(zhì)。
在大型語言模型中,外推長(zhǎng)度問題已有研究,但在視頻生成中,這些方法常遇到瓶頸,導(dǎo)致重復(fù)或拖動(dòng)效果。外推導(dǎo)致視頻重復(fù),紅色框標(biāo)識(shí)開始與視頻開頭重復(fù)。
同時(shí),結(jié)合外推與內(nèi)插編碼(Yarn)也會(huì)導(dǎo)致慢動(dòng)作效果。
為解決這一難題,Vidu 團(tuán)隊(duì)深入分析了 RoPE 的頻率成分特性:
1. 時(shí)間依賴距離:不同頻率成分僅能捕捉特定周期長(zhǎng)度的幀間依賴關(guān)系。當(dāng)幀數(shù)超過周期長(zhǎng)度時(shí),周期特性導(dǎo)致位置編碼重復(fù),從而使視頻內(nèi)容出現(xiàn)重復(fù)。
2. 運(yùn)動(dòng)速度:不同頻率成分捕捉不同的運(yùn)動(dòng)速度,由該頻率位置編碼變化率決定。高頻成分捕捉快速運(yùn)動(dòng),低頻成分捕捉慢速運(yùn)動(dòng)。
當(dāng)所有頻率成分結(jié)合時(shí),存在一個(gè)“內(nèi)在頻率”,即周期距離首次觀測(cè)重復(fù)幀最近的成分,它決定了視頻外推時(shí)的重復(fù)模式。
基于此,團(tuán)隊(duì)提出 RIFLEx:通過降低內(nèi)在頻率,確保外推后的視頻長(zhǎng)度在一個(gè)周期內(nèi),從而避免內(nèi)容重復(fù)。該方法僅需在經(jīng)典 RoPE 編碼中添加一行代碼即可實(shí)現(xiàn)。
這一創(chuàng)新思路為視頻生成技術(shù)的發(fā)展提供了新方向,具有廣闊的應(yīng)用前景。
團(tuán)隊(duì)介紹
本團(tuán)隊(duì)是世界頂尖的人工智能研究力量之一,專注于推動(dòng)擴(kuò)散模型技術(shù)的發(fā)展。核心成員趙敏,現(xiàn)為清華大學(xué)TSAIL實(shí)驗(yàn)室研究員,其研究方向聚焦于基于擴(kuò)散模型的視覺內(nèi)容生成技術(shù)。作為生數(shù)科技的重要成員,趙敏在TSAIL團(tuán)隊(duì)中承擔(dān)著核心職責(zé),曾以第一作者身份在NeurIPS、ICLR、ECCV等國(guó)際頂級(jí)會(huì)議和期刊發(fā)表多篇高水平論文,并受邀入選2024年清華大學(xué)"水木學(xué)者"計(jì)劃。她的個(gè)人主頁可通過鏈接https://gracezhao1997.github.io/訪問。
清華大學(xué)TSAIL團(tuán)隊(duì)長(zhǎng)期專注于擴(kuò)散模型領(lǐng)域的創(chuàng)新研究,取得了一系列重要成果。包括開發(fā)出Analytic-DPM(該成果曾榮獲ICLR 2022 "杰出論文獎(jiǎng)")、U-ViT、DPM-solver等創(chuàng)新性算法,并研制出一個(gè)與Sora相媲美的視頻生成大模型Vidu。該團(tuán)隊(duì)的其他成員均為TSAIL實(shí)驗(yàn)室的研究生,其中何冠德和朱泓舟參與了Vidu的研發(fā)工作,陳亦逍為計(jì)算機(jī)系在讀本科生,李崇軒則已成為人民大學(xué)高瓴人工智能學(xué)院的副教授。他們的研究為擴(kuò)散模型技術(shù)的應(yīng)用提供了堅(jiān)實(shí)的技術(shù)支撐。
(注:視頻鏈接保持不變:https://mp.weixin.qq.com/s/q5Z9v2SekkD8Dv4w5E2RAA)
突破管道挑戰(zhàn),雙影奇境筆記本任務(wù)觸發(fā)方法 材料配方與刷取地點(diǎn),如龍8閃耀戒指獲取方法說明 保險(xiǎn)避債法律探討被證偽,鞍山市法院:保險(xiǎn)避債問題,保單現(xiàn)金價(jià)值可強(qiáng)制執(zhí)行 20-20-20法則護(hù)眼妙招+合理安排時(shí)間,陶勇:家教網(wǎng)課 12個(gè)護(hù)眼小貼士 全球化學(xué)品國(guó)際天然氣與低碳能源投資,能源巨頭:向美國(guó)天然氣大舉投資,短期內(nèi)提升供應(yīng)量(這個(gè)標(biāo)題保持了原意,簡(jiǎn)化了內(nèi)容,使用"大舉投資"和"提升供應(yīng)量"等簡(jiǎn)潔表達(dá),同時(shí)去掉了過于夸張的措辭,使標(biāo)題更加專業(yè)和明了。) 戀愛風(fēng)波,金秀賢寫給金賽綸信曝光,深情告白女方,親臉合影 第六章彩蛋雙人,雙影奇境彩蛋位置在哪?分享主角彩蛋位置 洛克王國(guó)喵喵獲取方法,《洛克王國(guó):世界》喵喵獲取方法 幻象拉克絲飛行與速度的秘密,《洛克王國(guó):世界》幻象拉克絲介紹 視覺絕唱,《第五人格》作曲家澄明的理性皮膚介紹