国产精品一区二区欧美亚洲,被强硬侵犯的漂亮人妻,在线欧美中文亚洲精品

聲明:本文來自于（ID:ykqsd.com）授權轉載發(fā)布。

這一項研究首次將DeepSeek的同款RLVR算法應用于全模態(tài)大語言模型，包括處理視頻內容的能力。

在完成開源項目的開發(fā)后，薄列峰團隊又推出了R1-Omni版本，該版本進一步完善了全模態(tài)LLM的功能。

在杭州的另一項目中，團隊提出了一個被稱為「開源雙feng」的創(chuàng)新方案，目前尚未對外公布具體內容。

團隊近期完成了哪些重要工作？

DeepSeek-R1項目的成功使得RLVR算法得到了廣泛應用，此前已有研究團隊將RLVR應用于圖像-文本雙模態(tài)的大語言模型，取得了顯著的性能提升，特別是在幾何推理和視覺計數(shù)等任務方面表現(xiàn)尤為出色。

然而，目前的研究還未能將RLVR算法與包含音頻、動態(tài)視覺等多種模態(tài)的全模態(tài)大語言模型相結合。

薄列峰團隊首次實現(xiàn)了RLVR算法與全模態(tài)LLM的結合，重點應用于視覺和音頻模態(tài)均發(fā)揮關鍵作用的情感識別任務。

在經過一系列實驗后，團隊發(fā)現(xiàn)了模型在三個核心指標上的顯著提升：

RLVR算法的引入不僅顯著提升了模型在訓練集上的性能表現(xiàn)，而且在測試集上的魯棒性表現(xiàn)也得到了明顯增強。

這一改進更關鍵的是，使得模型在情感識別過程中各模態(tài)的交互作用分析變得更加清晰和直觀。

R1-Omni在X上的熱度也得到了不少網(wǎng)友的關注：

可解釋性機制+多模態(tài)學習被認為是下一代AI研究的重點方向。

本文將重點介紹R1-Omni的相關技術。

R1-Omni長啥樣？

論文中首先介紹了DeepSeek同款的RLVR和GRPO算法。

RLVR是一種創(chuàng)新的訓練范式，其核心思想是通過驗證函數(shù)直接評估輸出，無需依賴傳統(tǒng)的人類反饋強化學習（RLHF）中基于單獨獎勵模型的訓練過程。

具體來說，給定輸入問題q，策略模型πθ生成響應o，隨后應用可驗證獎勵函數(shù)R(q,o)進行評估，最終的目標是最大化驗證獎勵與基于KL散度的正則化項之間的差值。

通過這種方式，RLVR在簡化了獎勵機制的同時，確保了其與任務內在正確性標準保持一致。

GRPO則是一種全新的強化學習方法，其與傳統(tǒng)方法如PPO存在顯著差異，PPO依賴評論家模型對候選策略進行性能評估，而GRPO直接比較生成的響應組，避免了額外的評論家模型使用，從而簡化了整個訓練流程。

通過引入歸一化評分機制，GRPO進一步增強了模型在區(qū)分高質量和低質量輸出方面的能力。

在DeepSeek-R1的框架指導下，研究團隊將GRPO與RLVR進行了融合創(chuàng)新。

在構建R1-Omni模型時，團隊采用了基于DeepSeek-R1訓練方法啟發(fā)的冷啟動策略。

該研究在包含232個可解釋多模態(tài)（視覺和音頻）情感推理數(shù)據(jù)集（EMER）樣本和348個手動標注的HumanOmni數(shù)據(jù)集樣本的組合數(shù)據(jù)集上，對HumanOmni-0.5B進行了微調，使其具備初步的情感推理能力，并能夠解釋視覺和音頻線索如何影響情感識別。

通過RLVR訓練方法優(yōu)化模型，獎勵函數(shù)由兩部分組成：準確率獎勵和格式獎勵。準確率獎勵評估了模型預測情感與真實情感的一致性，而格式獎勵確保了模型輸出符合指定的HTML標簽格式。

模型輸出預期包含兩部分：推理過程，封裝在""標簽內，用于解釋模型如何整合視覺和音頻線索得出預測；情感標簽，封裝在""標簽內，表示最終預測的情感。

推理/理解/泛化三方面提升

在實驗評估中，研究者將R1-Omni與三個基線模型進行了比較，包括原始的HumanOmni-0.5B、在EMER數(shù)據(jù)集上進行監(jiān)督微調的模型EMER-SFT，以及直接在MAFW和DFEW訓練集上基于HumanOmni-0.5B進行監(jiān)督微調的模型MAFW-DFEW-SFT。

評估指標包括無加權平均召回率（UAR）和加權平均召回率（WAR），這些指標衡量了模型在不同情感類別中準確分類情感的能力。

在實驗中，所有評估均在開放詞匯情感測試（OV-emotion）協(xié)議下進行。在這種設置下，模型無需預定義情感類別，而是直接從輸入數(shù)據(jù)中生成情感標簽，這增加了評估的挑戰(zhàn)性和實際應用價值。

實驗結果顯示，R1-Omni在三個關鍵方面優(yōu)于其他三個對比模型：推理能力顯著增強，理解能力顯著提高，泛化能力更強。

研究者展示了多個可視化示例，比較了R1-Omni與其他三個模型的輸出，結果顯示R1-Omni提供了更為連貫、準確且可解釋的推理過程。

相比之下，原始HumanOmni-0.5B和MAFW-DFEW-SFT模型在推理能力方面表現(xiàn)有限，而EMER-SFT雖然具備一定推理能力，但其推理過程連貫性較差且容易產生幻覺。

基于MAFW和DFEW數(shù)據(jù)集，R1-Omni在UAR和WAR指標上表現(xiàn)更優(yōu)，顯著優(yōu)于其他模型。

例如，在DFEW數(shù)據(jù)集上，R1-Omni取得了65.83%的UAR和56.27%的WAR，明顯優(yōu)于MAFW-DFEW-SFT的60.23%UAR和44.39%WAR。

作為分布外測試集，研究者在RAVDESS數(shù)據(jù)集上進行了實驗。由于其數(shù)據(jù)分布顯著不同于MAFW和DFEW的電影片段集，RAVDESS成為評估模型泛化能力的理想基準。

由于其數(shù)據(jù)分布顯著不同于MAFW和DFEW的電影片段集，RAVDESS成為評估模型泛化能力的理想基準。

相較于MAFW-DFEW-SFT模型，R1-Omni在RAVDESS數(shù)據(jù)集上取得了顯著提升，實現(xiàn)了43.00%的UAR和44.69%的WAR。

目前，基礎模型HumanOmni-0.5B、冷啟動模型EMER-SFT，以及MAFW-DFEW-SFT和最終模型R1-Omni均已開源。

[1]https://arxiv.org/abs/2503.05379[2]https://github.com/HumanMLLM/R1-Omni