- 探索游戲資源,《鬼谷八荒手游》昆侖神木介紹
- 神秘演繹,《上古河圖》妖族碧蟾咕嚕角色揭秘
- 劍碑任務(wù)攻略揭秘,《鬼谷八荒》劍碑完成方法
- 《上古河圖》妖族妖狐阿白角色揭秘
- 深入探索,《燕云十六聲》葉萬山BOSS打法攻略
- 深入探索角色力量,《超凡守衛(wèi)戰(zhàn):守衛(wèi)劍閣》雷神技能介紹
- 游戲福利大揭秘,《神隱之子》破繭測試活動福利內(nèi)容一覽
- 游戲裝備指南,《決勝巔峰》佛朗哥最強出裝推薦
- 揭開強者的秘密,《超凡守衛(wèi)戰(zhàn):守衛(wèi)劍閣》海拉技能介紹
- 《再刷一把2:金色傳說》無名神殿通關(guān)攻略
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
自 Sora 誕生以來,視頻內(nèi)容創(chuàng)作已進入快車道,AI 技術(shù)賦能內(nèi)容生產(chǎn)的時代已經(jīng)到來。
今年 4 月,生數(shù)科技聯(lián)合清華大學(xué)推出首個基于 U-ViT 的國產(chǎn)全自研視頻大模型 Vidu,打破了國外技術(shù)封鎖,支持一鍵生成 16 秒高清視頻,展現(xiàn)了我國科技企業(yè)的創(chuàng)新能力。自 7 月上線以來,Vidu 已服務(wù)數(shù)千萬用戶,極大促進了視頻內(nèi)容的智能創(chuàng)作。近期,騰訊混元、阿里通義萬相等開源視頻生成模型相繼亮相,可生成 5-6 秒視頻,降低了視頻創(chuàng)作門檻。
盡管如此,目前國內(nèi)外視頻社區(qū)仍有用戶反映現(xiàn)有開源模型在生成時長受限于 5-6 秒的短視頻,難以滿足需求。
今天,Vidu 團隊帶來了 RIFLEx 解決方案——一個簡潔優(yōu)雅的解決方案。新方案只需一行代碼,無需額外訓(xùn)練即可突破視頻生成模型時長限制,打破了「短視頻魔咒」。目前該項目已經(jīng)開源,體現(xiàn)了團隊對開源社區(qū)的積極回饋和貢獻。
RIFLEx 適用于基于 RoPE 的各類 Video Diffusion Transformer,例如 CogvideoX、混元(參考之前推送)和通義萬相(參考之前推送)。
下列開源模型無需任何訓(xùn)練即可將視頻時長外推兩倍至10秒:
- 示例 1:prompt: 一只棕白相間的動畫豪豬好奇地審視著緞帶裝飾的綠色盒子,靈動的眼神與細膩的3D動畫風格營造出溫馨而精致的視覺體驗。
- 示例 2:prompt: 荒涼空地上的簡易營地散布著無人機與物資,軍人與平民共處,一名男子絕望抱頭,女子憂慮注視,沉重氛圍暗示剛經(jīng)歷重大事件,鏡頭穩(wěn)定細膩,突出緊張與不安感。
- 示例 3:sora的經(jīng)典長毛猛犸象prompt
- 示例 4:在短視頻微調(diào)幾千步可進一步提升性能。
在馬車內(nèi),一位留著胡須、穿著格子襯衫的guys專注地端詳一枚硬幣。他與一名女子進行交談,鏡頭切換展現(xiàn)了歷史劇風格與戲劇氛圍。
動畫中的兔子和老鼠穿著探險裝備,正面臨著生死時刻。它們急速墜入一個黑暗且未知的空間,隨后在寧靜的水下世界中漂浮并游動。緊張而堅定的表情通過中景與特寫鏡頭展現(xiàn),高質(zhì)量的3D動畫風格增強了影片的沉浸感。
留著胡須的guys穿著一件格子襯衫,坐在吉他前深情地演唱。他的室內(nèi)環(huán)境簡潔,背景是一面純灰色墻壁,左側(cè)放著一個吉他音箱和麥克風架,右側(cè)則擺放著一疊書籍。
此外,RIFLEx不僅支持基于時間維度的外推功能,還可以擴展至空間維度,比如通過局部畫面超分辨率重建、修復(fù)缺失區(qū)域或擴展視頻邊界內(nèi)容。此外,RIFLEx還支持時空外推,例如生成未來高分辨率視頻序列或動態(tài)擴展視頻的時空內(nèi)容,兼顧時間連續(xù)性與空間一致性。
圖片分為兩部分,左側(cè)為訓(xùn)練尺寸,右側(cè)為外推結(jié)果
訓(xùn)練尺寸:480x720x49
外推結(jié)果:960x1440x97
這項研究成果一經(jīng)發(fā)布,立刻引起了廣泛關(guān)注。
著名博主 Ak 是第一人轉(zhuǎn)發(fā),海外科技公司與博主對其表示高度贊賞,稱其為「視頻擴散模型領(lǐng)域的突破性創(chuàng)新」。
Diffusers核心貢獻者 sayakpaul 和 a-r-r-o-w 也收藏了代碼,并在評論區(qū)表示贊賞。
目前,RIFLEx 已被集成到多個知名視頻生成倉庫中。
本研究揭示了 RIFLEx:通過簡化復(fù)雜性,直接觸及技術(shù)本質(zhì)。
在大型語言模型中,外推長度問題已有研究,但在視頻生成中,這些方法常遇到瓶頸,導(dǎo)致重復(fù)或拖動效果。外推導(dǎo)致視頻重復(fù),紅色框標識開始與視頻開頭重復(fù)。
同時,結(jié)合外推與內(nèi)插編碼(Yarn)也會導(dǎo)致慢動作效果。
為解決這一難題,Vidu 團隊深入分析了 RoPE 的頻率成分特性:
1. 時間依賴距離:不同頻率成分僅能捕捉特定周期長度的幀間依賴關(guān)系。當幀數(shù)超過周期長度時,周期特性導(dǎo)致位置編碼重復(fù),從而使視頻內(nèi)容出現(xiàn)重復(fù)。
2. 運動速度:不同頻率成分捕捉不同的運動速度,由該頻率位置編碼變化率決定。高頻成分捕捉快速運動,低頻成分捕捉慢速運動。
當所有頻率成分結(jié)合時,存在一個“內(nèi)在頻率”,即周期距離首次觀測重復(fù)幀最近的成分,它決定了視頻外推時的重復(fù)模式。
基于此,團隊提出 RIFLEx:通過降低內(nèi)在頻率,確保外推后的視頻長度在一個周期內(nèi),從而避免內(nèi)容重復(fù)。該方法僅需在經(jīng)典 RoPE 編碼中添加一行代碼即可實現(xiàn)。
這一創(chuàng)新思路為視頻生成技術(shù)的發(fā)展提供了新方向,具有廣闊的應(yīng)用前景。
團隊介紹
本團隊是世界頂尖的人工智能研究力量之一,專注于推動擴散模型技術(shù)的發(fā)展。核心成員趙敏,現(xiàn)為清華大學(xué)TSAIL實驗室研究員,其研究方向聚焦于基于擴散模型的視覺內(nèi)容生成技術(shù)。作為生數(shù)科技的重要成員,趙敏在TSAIL團隊中承擔著核心職責,曾以第一作者身份在NeurIPS、ICLR、ECCV等國際頂級會議和期刊發(fā)表多篇高水平論文,并受邀入選2024年清華大學(xué)"水木學(xué)者"計劃。她的個人主頁可通過鏈接https://gracezhao1997.github.io/訪問。
清華大學(xué)TSAIL團隊長期專注于擴散模型領(lǐng)域的創(chuàng)新研究,取得了一系列重要成果。包括開發(fā)出Analytic-DPM(該成果曾榮獲ICLR 2022 "杰出論文獎")、U-ViT、DPM-solver等創(chuàng)新性算法,并研制出一個與Sora相媲美的視頻生成大模型Vidu。該團隊的其他成員均為TSAIL實驗室的研究生,其中何冠德和朱泓舟參與了Vidu的研發(fā)工作,陳亦逍為計算機系在讀本科生,李崇軒則已成為人民大學(xué)高瓴人工智能學(xué)院的副教授。他們的研究為擴散模型技術(shù)的應(yīng)用提供了堅實的技術(shù)支撐。
(注:視頻鏈接保持不變:https://mp.weixin.qq.com/s/q5Z9v2SekkD8Dv4w5E2RAA)
奧利弗·參數(shù)超能,《驅(qū)入虛空》比克曼先生奧利弗技能介紹 Mastering the Art of Choosing a Point Guard in Basketball,《美職籃全明星》得分后衛(wèi)介紹 新陰流多變策略攻擊多樣,柳生新陰流招式解析 溫暖的小玥,小玥兒與汪小菲、馬筱梅一同現(xiàn)身,完美重現(xiàn)大S魅力 1秒通關(guān),《就我眼神好》火鍋配料通關(guān)攻略 大錘武器RT鍵蓄力解析,怪物獵人荒野大錘大錘蓄力技巧解析怪物獵人荒野大錘大錘如何蓄力指南 1. 示例流體術(shù)攻擊流 2. 瘋狗拜年攻擊速度流 3. 反復(fù)持續(xù)輸出流 4. 春嵐蜻蜓追蹤效果流,浪人崛起示現(xiàn)流怎么樣-示現(xiàn)流特點介紹 美國為何直接與哈馬斯談判解讀三重考量,"為何美國與之直接接觸?專家解讀:三重考量" 挑戰(zhàn)者法則位移見長戰(zhàn)術(shù)高手石火追加一刀招式精研位移見長追加見真章flow of tactics位移見長追加見真章,浪人崛起柳生新陰流招式解析 完全電鋸模式打樁樂趣玩家可以盡情享受但可能會出現(xiàn)漏洞,怪物獵人荒野盾斧玩法介紹