- 《奇趣博物館》精靈招募方法介紹
- 新手必看,《時空中的繪旅人》遠山活動攻略
- 游戲攻略指南,《白荊回廊》明月塵茶憩配方一覽
- 獲取攻略指南,《明日方舟》揭幕者們PV-9過關攻略
- 探索冒險的秘訣,《我的世界》去地牢方法介紹
- 明日方舟攻略技巧,《明日方舟》揭幕者們PV-10過關攻略
- 深入探索《封神幻想世界》奇遇攻略系列,《封神幻想》傳家之劍任務攻略
- 活動上線指南,《陰陽師》夜探鬼市陣容搭配推薦
- 《封神幻想世界》奇遇任務攻略系列,《封神幻想世界》任務39窮寇之跡攻略
- 探秘奇遇,《封神幻想》奇遇任務38山神攻略
聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。
這一項研究首次將DeepSeek的同款RLVR算法應用于全模態(tài)大語言模型,包括處理視頻內容的能力。
在完成開源項目的開發(fā)后,薄列峰團隊又推出了R1-Omni版本,該版本進一步完善了全模態(tài)LLM的功能。
在杭州的另一項目中,團隊提出了一個被稱為「開源雙feng」的創(chuàng)新方案,目前尚未對外公布具體內容。
團隊近期完成了哪些重要工作?
DeepSeek-R1項目的成功使得RLVR算法得到了廣泛應用,此前已有研究團隊將RLVR應用于圖像-文本雙模態(tài)的大語言模型,取得了顯著的性能提升,特別是在幾何推理和視覺計數(shù)等任務方面表現(xiàn)尤為出色。
然而,目前的研究還未能將RLVR算法與包含音頻、動態(tài)視覺等多種模態(tài)的全模態(tài)大語言模型相結合。
薄列峰團隊首次實現(xiàn)了RLVR算法與全模態(tài)LLM的結合,重點應用于視覺和音頻模態(tài)均發(fā)揮關鍵作用的情感識別任務。
在經過一系列實驗后,團隊發(fā)現(xiàn)了模型在三個核心指標上的顯著提升:
RLVR算法的引入不僅顯著提升了模型在訓練集上的性能表現(xiàn),而且在測試集上的魯棒性表現(xiàn)也得到了明顯增強。
這一改進更關鍵的是,使得模型在情感識別過程中各模態(tài)的交互作用分析變得更加清晰和直觀。
R1-Omni在X上的熱度也得到了不少網(wǎng)友的關注:
可解釋性機制+多模態(tài)學習被認為是下一代AI研究的重點方向。
本文將重點介紹R1-Omni的相關技術。
R1-Omni長啥樣?
論文中首先介紹了DeepSeek同款的RLVR和GRPO算法。
RLVR是一種創(chuàng)新的訓練范式,其核心思想是通過驗證函數(shù)直接評估輸出,無需依賴傳統(tǒng)的人類反饋強化學習(RLHF)中基于單獨獎勵模型的訓練過程。
具體來說,給定輸入問題q,策略模型πθ生成響應o,隨后應用可驗證獎勵函數(shù)R(q,o)進行評估,最終的目標是最大化驗證獎勵與基于KL散度的正則化項之間的差值。
通過這種方式,RLVR在簡化了獎勵機制的同時,確保了其與任務內在正確性標準保持一致。
GRPO則是一種全新的強化學習方法,其與傳統(tǒng)方法如PPO存在顯著差異,PPO依賴評論家模型對候選策略進行性能評估,而GRPO直接比較生成的響應組,避免了額外的評論家模型使用,從而簡化了整個訓練流程。
通過引入歸一化評分機制,GRPO進一步增強了模型在區(qū)分高質量和低質量輸出方面的能力。
在DeepSeek-R1的框架指導下,研究團隊將GRPO與RLVR進行了融合創(chuàng)新。
在構建R1-Omni模型時,團隊采用了基于DeepSeek-R1訓練方法啟發(fā)的冷啟動策略。
該研究在包含232個可解釋多模態(tài)(視覺和音頻)情感推理數(shù)據(jù)集(EMER)樣本和348個手動標注的HumanOmni數(shù)據(jù)集樣本的組合數(shù)據(jù)集上,對HumanOmni-0.5B進行了微調,使其具備初步的情感推理能力,并能夠解釋視覺和音頻線索如何影響情感識別。
通過RLVR訓練方法優(yōu)化模型,獎勵函數(shù)由兩部分組成:準確率獎勵和格式獎勵。準確率獎勵評估了模型預測情感與真實情感的一致性,而格式獎勵確保了模型輸出符合指定的HTML標簽格式。
模型輸出預期包含兩部分:推理過程,封裝在""標簽內,用于解釋模型如何整合視覺和音頻線索得出預測;情感標簽,封裝在""標簽內,表示最終預測的情感。
推理/理解/泛化三方面提升
在實驗評估中,研究者將R1-Omni與三個基線模型進行了比較,包括原始的HumanOmni-0.5B、在EMER數(shù)據(jù)集上進行監(jiān)督微調的模型EMER-SFT,以及直接在MAFW和DFEW訓練集上基于HumanOmni-0.5B進行監(jiān)督微調的模型MAFW-DFEW-SFT。
評估指標包括無加權平均召回率(UAR)和加權平均召回率(WAR),這些指標衡量了模型在不同情感類別中準確分類情感的能力。
在實驗中,所有評估均在開放詞匯情感測試(OV-emotion)協(xié)議下進行。在這種設置下,模型無需預定義情感類別,而是直接從輸入數(shù)據(jù)中生成情感標簽,這增加了評估的挑戰(zhàn)性和實際應用價值。
實驗結果顯示,R1-Omni在三個關鍵方面優(yōu)于其他三個對比模型:推理能力顯著增強,理解能力顯著提高,泛化能力更強。
研究者展示了多個可視化示例,比較了R1-Omni與其他三個模型的輸出,結果顯示R1-Omni提供了更為連貫、準確且可解釋的推理過程。
相比之下,原始HumanOmni-0.5B和MAFW-DFEW-SFT模型在推理能力方面表現(xiàn)有限,而EMER-SFT雖然具備一定推理能力,但其推理過程連貫性較差且容易產生幻覺。
基于MAFW和DFEW數(shù)據(jù)集,R1-Omni在UAR和WAR指標上表現(xiàn)更優(yōu),顯著優(yōu)于其他模型。
例如,在DFEW數(shù)據(jù)集上,R1-Omni取得了65.83%的UAR和56.27%的WAR,明顯優(yōu)于MAFW-DFEW-SFT的60.23%UAR和44.39%WAR。
作為分布外測試集,研究者在RAVDESS數(shù)據(jù)集上進行了實驗。由于其數(shù)據(jù)分布顯著不同于MAFW和DFEW的電影片段集,RAVDESS成為評估模型泛化能力的理想基準。
由于其數(shù)據(jù)分布顯著不同于MAFW和DFEW的電影片段集,RAVDESS成為評估模型泛化能力的理想基準。
相較于MAFW-DFEW-SFT模型,R1-Omni在RAVDESS數(shù)據(jù)集上取得了顯著提升,實現(xiàn)了43.00%的UAR和44.69%的WAR。
目前,基礎模型HumanOmni-0.5B、冷啟動模型EMER-SFT,以及MAFW-DFEW-SFT和最終模型R1-Omni均已開源。
[1]https://arxiv.org/abs/2503.05379[2]https://github.com/HumanMLLM/R1-Omni
存檔自由自定義模式,博物館沙盒模式選項解析:作用與功能解析 探索模式自由無限,雙點沙盒模式:其特點及應用說明:1. 將"雙點博物館沙盒模式有什么特點"改為"雙點沙盒模式:其特點及應用",簡化標題,突出要點2. 去掉了"有什么特點",用更簡潔的表達方式3. 將"沙盒模式特點介紹"合并到標題主體,使標題更緊湊4. 保持了核心信息"雙點沙盒模式",同時增加了"其特點及應用"的描述,突出其應用價值 材料路線,如龍8外傳閃耀戒指獲取方法解析 滑動小技巧洗衣機電子貓眼智能手機電瓶車,《文字來找茬》懷舊下面條通關攻略 怪物獵人荒野捕捉美聲歌鸮,怪物獵人荒野:泡歌鸮和美聲歌鸮的收集方法解析 隨機事件解析,《崩壞:星穹鐵道》阮梅事件觸發(fā)條件 Y鍵連段攻擊,怪物獵人荒野長槍:長槍基礎操作指南 海濱大道上的冒險,如龍8外傳下身裝備怎么獲取-全下身裝備獲取方法介紹 捕捉陸螢蝦的秘密,怪物獵人:荒野中獲取陸螢蝦的方法介紹 探索隱藏裝備,龍8外傳上身衣服獲取方法解析