- 手術何時開始哪些情況需手術治療,健康科普:別讓痔瘡困擾,何時做手術?
- 大錘三連擊,荒野大錘基礎操作指南
- 白晝15區(qū)帳篷外輕松捕捉,【怪物獵人荒野】瓦斯蛙收集方法解析
- 癌癥數據,最新中國癌癥數據出爐,5大癌種最常見
- 球拍重量調整讓擊球更順暢,阿卡:球拍變重后觸感Feedback更棒,揮動更順暢,球速提升顯著。
- 奧義·真魔手,《天下布魔ma》夜之影凱薩技能介紹
- 嫦娥六號月球背面玄武巖巖屑重大發(fā)現,月球巖漿洋模型驗證嫦娥六號月球背面樣本最新成果公布
- 荒野天塹稀有生物指南,怪物獵人荒野風切龍和黑風切龍的風切龍及黑風切龍收集方法介紹
- 荒野探險大小金刷法全解析,大小金刷法技巧解析刷大小金技巧全解析
- 香辣鮮香美味食譜大集合,《扶搖一夢》食譜配方分享
聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。
自 Sora 誕生以來,視頻內容創(chuàng)作已進入快車道,AI 技術賦能內容生產的時代已經到來。
今年 4 月,生數科技聯(lián)合清華大學推出首個基于 U-ViT 的國產全自研視頻大模型 Vidu,打破了國外技術封鎖,支持一鍵生成 16 秒高清視頻,展現了我國科技企業(yè)的創(chuàng)新能力。自 7 月上線以來,Vidu 已服務數千萬用戶,極大促進了視頻內容的智能創(chuàng)作。近期,騰訊混元、阿里通義萬相等開源視頻生成模型相繼亮相,可生成 5-6 秒視頻,降低了視頻創(chuàng)作門檻。
盡管如此,目前國內外視頻社區(qū)仍有用戶反映現有開源模型在生成時長受限于 5-6 秒的短視頻,難以滿足需求。
今天,Vidu 團隊帶來了 RIFLEx 解決方案——一個簡潔優(yōu)雅的解決方案。新方案只需一行代碼,無需額外訓練即可突破視頻生成模型時長限制,打破了「短視頻魔咒」。目前該項目已經開源,體現了團隊對開源社區(qū)的積極回饋和貢獻。
RIFLEx 適用于基于 RoPE 的各類 Video Diffusion Transformer,例如 CogvideoX、混元(參考之前推送)和通義萬相(參考之前推送)。
下列開源模型無需任何訓練即可將視頻時長外推兩倍至10秒:
- 示例 1:prompt: 一只棕白相間的動畫豪豬好奇地審視著緞帶裝飾的綠色盒子,靈動的眼神與細膩的3D動畫風格營造出溫馨而精致的視覺體驗。
- 示例 2:prompt: 荒涼空地上的簡易營地散布著無人機與物資,軍人與平民共處,一名男子絕望抱頭,女子憂慮注視,沉重氛圍暗示剛經歷重大事件,鏡頭穩(wěn)定細膩,突出緊張與不安感。
- 示例 3:sora的經典長毛猛犸象prompt
- 示例 4:在短視頻微調幾千步可進一步提升性能。
在馬車內,一位留著胡須、穿著格子襯衫的guys專注地端詳一枚硬幣。他與一名女子進行交談,鏡頭切換展現了歷史劇風格與戲劇氛圍。
動畫中的兔子和老鼠穿著探險裝備,正面臨著生死時刻。它們急速墜入一個黑暗且未知的空間,隨后在寧靜的水下世界中漂浮并游動。緊張而堅定的表情通過中景與特寫鏡頭展現,高質量的3D動畫風格增強了影片的沉浸感。
留著胡須的guys穿著一件格子襯衫,坐在吉他前深情地演唱。他的室內環(huán)境簡潔,背景是一面純灰色墻壁,左側放著一個吉他音箱和麥克風架,右側則擺放著一疊書籍。
此外,RIFLEx不僅支持基于時間維度的外推功能,還可以擴展至空間維度,比如通過局部畫面超分辨率重建、修復缺失區(qū)域或擴展視頻邊界內容。此外,RIFLEx還支持時空外推,例如生成未來高分辨率視頻序列或動態(tài)擴展視頻的時空內容,兼顧時間連續(xù)性與空間一致性。
圖片分為兩部分,左側為訓練尺寸,右側為外推結果
訓練尺寸:480x720x49
外推結果:960x1440x97
這項研究成果一經發(fā)布,立刻引起了廣泛關注。
著名博主 Ak 是第一人轉發(fā),海外科技公司與博主對其表示高度贊賞,稱其為「視頻擴散模型領域的突破性創(chuàng)新」。
Diffusers核心貢獻者 sayakpaul 和 a-r-r-o-w 也收藏了代碼,并在評論區(qū)表示贊賞。
目前,RIFLEx 已被集成到多個知名視頻生成倉庫中。
本研究揭示了 RIFLEx:通過簡化復雜性,直接觸及技術本質。
在大型語言模型中,外推長度問題已有研究,但在視頻生成中,這些方法常遇到瓶頸,導致重復或拖動效果。外推導致視頻重復,紅色框標識開始與視頻開頭重復。
同時,結合外推與內插編碼(Yarn)也會導致慢動作效果。
為解決這一難題,Vidu 團隊深入分析了 RoPE 的頻率成分特性:
1. 時間依賴距離:不同頻率成分僅能捕捉特定周期長度的幀間依賴關系。當幀數超過周期長度時,周期特性導致位置編碼重復,從而使視頻內容出現重復。
2. 運動速度:不同頻率成分捕捉不同的運動速度,由該頻率位置編碼變化率決定。高頻成分捕捉快速運動,低頻成分捕捉慢速運動。
當所有頻率成分結合時,存在一個“內在頻率”,即周期距離首次觀測重復幀最近的成分,它決定了視頻外推時的重復模式。
基于此,團隊提出 RIFLEx:通過降低內在頻率,確保外推后的視頻長度在一個周期內,從而避免內容重復。該方法僅需在經典 RoPE 編碼中添加一行代碼即可實現。
這一創(chuàng)新思路為視頻生成技術的發(fā)展提供了新方向,具有廣闊的應用前景。
團隊介紹
本團隊是世界頂尖的人工智能研究力量之一,專注于推動擴散模型技術的發(fā)展。核心成員趙敏,現為清華大學TSAIL實驗室研究員,其研究方向聚焦于基于擴散模型的視覺內容生成技術。作為生數科技的重要成員,趙敏在TSAIL團隊中承擔著核心職責,曾以第一作者身份在NeurIPS、ICLR、ECCV等國際頂級會議和期刊發(fā)表多篇高水平論文,并受邀入選2024年清華大學"水木學者"計劃。她的個人主頁可通過鏈接https://gracezhao1997.github.io/訪問。
清華大學TSAIL團隊長期專注于擴散模型領域的創(chuàng)新研究,取得了一系列重要成果。包括開發(fā)出Analytic-DPM(該成果曾榮獲ICLR 2022 "杰出論文獎")、U-ViT、DPM-solver等創(chuàng)新性算法,并研制出一個與Sora相媲美的視頻生成大模型Vidu。該團隊的其他成員均為TSAIL實驗室的研究生,其中何冠德和朱泓舟參與了Vidu的研發(fā)工作,陳亦逍為計算機系在讀本科生,李崇軒則已成為人民大學高瓴人工智能學院的副教授。他們的研究為擴散模型技術的應用提供了堅實的技術支撐。
(注:視頻鏈接保持不變:https://mp.weixin.qq.com/s/q5Z9v2SekkD8Dv4w5E2RAA)
燒腦解謎線索,《你是不是蝦》十年之約通關攻略 海南商業(yè)航天發(fā)射場高效能發(fā)射新標桿,我國首個商業(yè)航天發(fā)射場實現雙工位發(fā)射能力 技能詳解青焰與爆炎,《鬼谷八荒》熾羽技能介紹 1. 無與倫比2. 無懈可擊3. 完美無 match 能擋4. 無 match 能擋5. 無與倫比6. 無懈可擊7. 完美無 match 能擋8. 無 match 能擋,怪物獵人荒野:片手打黑絲攻略及實用技巧分享 隱藏在華夫餅上,雙人成行哈金博士彩蛋位置在哪 夜深人靜的冒險,怪物獵人荒野:虹色大獨角仙獲取方法介紹 科技賦能 數字金融,微眾銀行:數字化普惠服務,助力國家戰(zhàn)略數字化轉型 探索夏威夷東海岸神簽位置4次3次2次1次,如龍8外傳:神簽位置全解析 質疑普拉達外套,高價買皮鞋,發(fā)現有質量隱患! Bugaboo’s,Bugaboo Pocket游戲游玩指南:如何使用Bugaboo Pocket平臺