- 游戲任務(wù)指南揭秘,《劍網(wǎng)3手游》征伐利甲玄宮列任務(wù)攻略
- 新手必看成長指南,《劍嘯江湖》醫(yī)毒成長攻略思路
- 全新玩法解析,《火影忍者手游》艾連招指南
- 任務(wù)輕松指南,《原神》鏡與謎煙的彼方任務(wù)攻略
- 全新升級(jí)指南,《劍嘯江湖》內(nèi)功玩法攻略
- 游戲策略揭秘,《萬龍覺醒》快速提升戰(zhàn)力攻略
- 輕松上手,《明日方舟》GO-1通關(guān)攻略
- 探索必備玩法,《上古修仙》宗門玩法介紹
- 游戲攻略揭秘,《原神》席卷而來的暗潮任務(wù)攻略
- 冬季魔法指南揭秘,《哈利波特:魔法覺醒》堆雪人攻略
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
自 Sora 誕生以來,視頻內(nèi)容創(chuàng)作已進(jìn)入快車道,AI 技術(shù)賦能內(nèi)容生產(chǎn)的時(shí)代已經(jīng)到來。
今年 4 月,生數(shù)科技聯(lián)合清華大學(xué)推出首個(gè)基于 U-ViT 的國產(chǎn)全自研視頻大模型 Vidu,打破了國外技術(shù)封鎖,支持一鍵生成 16 秒高清視頻,展現(xiàn)了我國科技企業(yè)的創(chuàng)新能力。自 7 月上線以來,Vidu 已服務(wù)數(shù)千萬用戶,極大促進(jìn)了視頻內(nèi)容的智能創(chuàng)作。近期,騰訊混元、阿里通義萬相等開源視頻生成模型相繼亮相,可生成 5-6 秒視頻,降低了視頻創(chuàng)作門檻。
盡管如此,目前國內(nèi)外視頻社區(qū)仍有用戶反映現(xiàn)有開源模型在生成時(shí)長受限于 5-6 秒的短視頻,難以滿足需求。
今天,Vidu 團(tuán)隊(duì)帶來了 RIFLEx 解決方案——一個(gè)簡潔優(yōu)雅的解決方案。新方案只需一行代碼,無需額外訓(xùn)練即可突破視頻生成模型時(shí)長限制,打破了「短視頻魔咒」。目前該項(xiàng)目已經(jīng)開源,體現(xiàn)了團(tuán)隊(duì)對開源社區(qū)的積極回饋和貢獻(xiàn)。
RIFLEx 適用于基于 RoPE 的各類 Video Diffusion Transformer,例如 CogvideoX、混元(參考之前推送)和通義萬相(參考之前推送)。
下列開源模型無需任何訓(xùn)練即可將視頻時(shí)長外推兩倍至10秒:
- 示例 1:prompt: 一只棕白相間的動(dòng)畫豪豬好奇地審視著緞帶裝飾的綠色盒子,靈動(dòng)的眼神與細(xì)膩的3D動(dòng)畫風(fēng)格營造出溫馨而精致的視覺體驗(yàn)。
- 示例 2:prompt: 荒涼空地上的簡易營地散布著無人機(jī)與物資,軍人與平民共處,一名男子絕望抱頭,女子憂慮注視,沉重氛圍暗示剛經(jīng)歷重大事件,鏡頭穩(wěn)定細(xì)膩,突出緊張與不安感。
- 示例 3:sora的經(jīng)典長毛猛犸象prompt
- 示例 4:在短視頻微調(diào)幾千步可進(jìn)一步提升性能。
在馬車內(nèi),一位留著胡須、穿著格子襯衫的guys專注地端詳一枚硬幣。他與一名女子進(jìn)行交談,鏡頭切換展現(xiàn)了歷史劇風(fēng)格與戲劇氛圍。
動(dòng)畫中的兔子和老鼠穿著探險(xiǎn)裝備,正面臨著生死時(shí)刻。它們急速墜入一個(gè)黑暗且未知的空間,隨后在寧靜的水下世界中漂浮并游動(dòng)。緊張而堅(jiān)定的表情通過中景與特寫鏡頭展現(xiàn),高質(zhì)量的3D動(dòng)畫風(fēng)格增強(qiáng)了影片的沉浸感。
留著胡須的guys穿著一件格子襯衫,坐在吉他前深情地演唱。他的室內(nèi)環(huán)境簡潔,背景是一面純灰色墻壁,左側(cè)放著一個(gè)吉他音箱和麥克風(fēng)架,右側(cè)則擺放著一疊書籍。
此外,RIFLEx不僅支持基于時(shí)間維度的外推功能,還可以擴(kuò)展至空間維度,比如通過局部畫面超分辨率重建、修復(fù)缺失區(qū)域或擴(kuò)展視頻邊界內(nèi)容。此外,RIFLEx還支持時(shí)空外推,例如生成未來高分辨率視頻序列或動(dòng)態(tài)擴(kuò)展視頻的時(shí)空內(nèi)容,兼顧時(shí)間連續(xù)性與空間一致性。
圖片分為兩部分,左側(cè)為訓(xùn)練尺寸,右側(cè)為外推結(jié)果
訓(xùn)練尺寸:480x720x49
外推結(jié)果:960x1440x97
這項(xiàng)研究成果一經(jīng)發(fā)布,立刻引起了廣泛關(guān)注。
著名博主 Ak 是第一人轉(zhuǎn)發(fā),海外科技公司與博主對其表示高度贊賞,稱其為「視頻擴(kuò)散模型領(lǐng)域的突破性創(chuàng)新」。
Diffusers核心貢獻(xiàn)者 sayakpaul 和 a-r-r-o-w 也收藏了代碼,并在評論區(qū)表示贊賞。
目前,RIFLEx 已被集成到多個(gè)知名視頻生成倉庫中。
本研究揭示了 RIFLEx:通過簡化復(fù)雜性,直接觸及技術(shù)本質(zhì)。
在大型語言模型中,外推長度問題已有研究,但在視頻生成中,這些方法常遇到瓶頸,導(dǎo)致重復(fù)或拖動(dòng)效果。外推導(dǎo)致視頻重復(fù),紅色框標(biāo)識(shí)開始與視頻開頭重復(fù)。
同時(shí),結(jié)合外推與內(nèi)插編碼(Yarn)也會(huì)導(dǎo)致慢動(dòng)作效果。
為解決這一難題,Vidu 團(tuán)隊(duì)深入分析了 RoPE 的頻率成分特性:
1. 時(shí)間依賴距離:不同頻率成分僅能捕捉特定周期長度的幀間依賴關(guān)系。當(dāng)幀數(shù)超過周期長度時(shí),周期特性導(dǎo)致位置編碼重復(fù),從而使視頻內(nèi)容出現(xiàn)重復(fù)。
2. 運(yùn)動(dòng)速度:不同頻率成分捕捉不同的運(yùn)動(dòng)速度,由該頻率位置編碼變化率決定。高頻成分捕捉快速運(yùn)動(dòng),低頻成分捕捉慢速運(yùn)動(dòng)。
當(dāng)所有頻率成分結(jié)合時(shí),存在一個(gè)“內(nèi)在頻率”,即周期距離首次觀測重復(fù)幀最近的成分,它決定了視頻外推時(shí)的重復(fù)模式。
基于此,團(tuán)隊(duì)提出 RIFLEx:通過降低內(nèi)在頻率,確保外推后的視頻長度在一個(gè)周期內(nèi),從而避免內(nèi)容重復(fù)。該方法僅需在經(jīng)典 RoPE 編碼中添加一行代碼即可實(shí)現(xiàn)。
這一創(chuàng)新思路為視頻生成技術(shù)的發(fā)展提供了新方向,具有廣闊的應(yīng)用前景。
團(tuán)隊(duì)介紹
本團(tuán)隊(duì)是世界頂尖的人工智能研究力量之一,專注于推動(dòng)擴(kuò)散模型技術(shù)的發(fā)展。核心成員趙敏,現(xiàn)為清華大學(xué)TSAIL實(shí)驗(yàn)室研究員,其研究方向聚焦于基于擴(kuò)散模型的視覺內(nèi)容生成技術(shù)。作為生數(shù)科技的重要成員,趙敏在TSAIL團(tuán)隊(duì)中承擔(dān)著核心職責(zé),曾以第一作者身份在NeurIPS、ICLR、ECCV等國際頂級(jí)會(huì)議和期刊發(fā)表多篇高水平論文,并受邀入選2024年清華大學(xué)"水木學(xué)者"計(jì)劃。她的個(gè)人主頁可通過鏈接https://gracezhao1997.github.io/訪問。
清華大學(xué)TSAIL團(tuán)隊(duì)長期專注于擴(kuò)散模型領(lǐng)域的創(chuàng)新研究,取得了一系列重要成果。包括開發(fā)出Analytic-DPM(該成果曾榮獲ICLR 2022 "杰出論文獎(jiǎng)")、U-ViT、DPM-solver等創(chuàng)新性算法,并研制出一個(gè)與Sora相媲美的視頻生成大模型Vidu。該團(tuán)隊(duì)的其他成員均為TSAIL實(shí)驗(yàn)室的研究生,其中何冠德和朱泓舟參與了Vidu的研發(fā)工作,陳亦逍為計(jì)算機(jī)系在讀本科生,李崇軒則已成為人民大學(xué)高瓴人工智能學(xué)院的副教授。他們的研究為擴(kuò)散模型技術(shù)的應(yīng)用提供了堅(jiān)實(shí)的技術(shù)支撐。
(注:視頻鏈接保持不變:https://mp.weixin.qq.com/s/q5Z9v2SekkD8Dv4w5E2RAA)
春日優(yōu)雅,標(biāo)題改寫:春季穿搭,4件單品讓你輕松擁有一身好氣場改寫說明:1. 原標(biāo)題較長,信息量大,改寫后標(biāo)題更簡潔有力2. "日系熟齡風(fēng)"簡化為"日系風(fēng)格"3. "春季首選"改為"春季穿搭",更符合整體標(biāo)題風(fēng)格4. "輕松打造熟齡美"改為"輕松擁有一身好氣場",更具吸引力5. "真好看"改為"好氣場",既保留了原意又提升了表達(dá)效果改寫后的標(biāo)題更符合現(xiàn)代女性的審美需求,同時(shí)保持了簡潔明了的特點(diǎn),適合推廣或宣傳使用。 陳冠希退圈本山大叔黑帽下的普通人崛起,陳冠希:44歲,54歲,卻活成幸福的樣子! 翅膀搭配的秘密,《天天闖關(guān)》背飾系統(tǒng)攻略 烏克蘭與沙特和平談判,美烏在沙特會(huì)談前,澤連斯基發(fā)聲 Effaclar Duo乳液注意召回,知名品牌因致癌風(fēng)波陷危機(jī),歐萊雅回應(yīng)表示不涉及中國市場 庫爾斯克州俄羅斯軍隊(duì)行動(dòng)全面進(jìn)攻警惕上升,俄在美烏會(huì)談前對庫爾克斯大規(guī)模突襲,管道行動(dòng)奪回3村。 多特蒙德傳奇健康挑戰(zhàn)下的超級(jí)突破,吉拉西:傷中求戰(zhàn)狀態(tài)依舊在線,不食不 optimum反而給了我更多動(dòng)力(解釋:這個(gè)改寫版本保持了原文的核心信息,但通過更簡潔有力的語言,突出了吉拉西的堅(jiān)韌和激勵(lì)作用。"傷中求戰(zhàn)"比"帶傷作戰(zhàn)"更有力量感,"狀態(tài)依舊在線"比"未影響我狀態(tài)"更口語化且更有沖擊力,"不食不 optimum"比"齋戒也不是問題"更簡潔自然,"更多動(dòng)力"比"很多力量"更有激勵(lì)性。整體上更符合社交媒體或新聞報(bào)道的表達(dá)習(xí)慣。) 2025載人航天工程,神舟二十號(hào)、二十一號(hào)航天員乘組正在開展訓(xùn)練 1. 治愈系桌面寵物 2. 新玩家必看 3. 桌面小貓娘下載 4. 治愈小萌貓,Desktop Kitten Girl游戲下載地址合集 高爆發(fā)傷害暴擊率加成核心裝備與天賦點(diǎn)數(shù)解析,《英雄冒險(xiǎn)團(tuán)》T0火法玩法介紹