欧美一区二区三区综合在线,最新永久无码av网址,日韩内射激情视频在线播放免费

聲明:本文來自于（ID:ykqsd.com）授權轉載發(fā)布。

首次嘗試將官方同款RLVR應用于全模態(tài)大語言模型，尤其是在視頻相關領域取得了突破。

在杭州，阿里通義實驗室薄列峰團隊又開卷了，開源項目R1-Omni來了。

同樣在杭州，這是在搞什么「開源雙頂流」（頂流）？

他們又做了些什么？

DeepSeek-R1帶火了RLVR（可驗證獎勵強化學習），此前已有團隊將RLVR用于圖像-文本多模態(tài)LLM，證明其在幾何推理和視覺計數(shù)等任務上表現(xiàn)優(yōu)異。

然而，還未深入探索將其與包含音頻、動態(tài)視覺內容的全模態(tài)LLM結合。

薄列峰團隊首次嘗試將RLVR與全模態(tài)LLM結合，聚焦的是視覺和音頻模態(tài)都提供關鍵作用的情感識別任務。

團隊實驗發(fā)現(xiàn)，模型在三個關鍵指標上有顯著提升：

RLVR的引入不僅提升了模型在訓練數(shù)據(jù)集上的表現(xiàn)，還在測試數(shù)據(jù)集上表現(xiàn)出更強的魯棒性。

更重要的是，提升后的推理能力使得我們能夠清晰地分析在情感識別過程中不同模態(tài)所起的作用。

在X平臺，R1-Omni同樣受到了不少網(wǎng)友的關注：

還有部分網(wǎng)友表示，可解釋性與多模態(tài)學習將成為下一代AI研究的重點方向。

現(xiàn)在，讓我們一起深入探討一下R1-Omni的技術原理。

R1-Omni長啥樣？

在論文方法論部分，作者首先介紹了與DeepSeek同款的RLVR和GRPO算法。

RLVR是一種創(chuàng)新的訓練范式，其核心思想是通過驗證函數(shù)直接評估輸出的質量，無需像傳統(tǒng)的人類反饋強化學習（RLHF）那樣依賴單獨的獎勵模型來根據(jù)人類偏好進行訓練。

具體來說，當給定輸入問題q時，策略模型πθ生成響應o，隨后利用可驗證獎勵函數(shù)R(q,o)對其進行評估，其優(yōu)化目標是最大化驗證獎勵減去基于KL散度的正則化項。

這種RLVR方法在簡化了獎勵機制的同時，確保了其與任務內在正確性標準的一致性。

GRPO則是一種全新的強化學習方法，與傳統(tǒng)的方法如PPO有所不同，PPO依賴于一個評論家模型來評估候選策略的性能，而GRPO直接比較生成的響應組，避免了使用額外的評論家模型，從而簡化了整個訓練過程。

通過引入歸一化評分機制，GRPO能夠鼓勵模型在組內優(yōu)先選擇獎勵值更高的響應，從而增強了模型區(qū)分高質量和低質量輸出的能力。

在DeepSeek-R1方法的啟發(fā)下，研究團隊將GRPO與RLVR相結合，進一步提升了模型的性能。

在R1-Omni模型構建方面，團隊參考了DeepSeek-R1的訓練方法，采用了一種適用于 cold-start 的策略。

該研究在包含232個可解釋多模態(tài)（視覺和音頻）情感推理數(shù)據(jù)集（EMER）樣本和348個手動標注的HumanOmni數(shù)據(jù)集樣本的綜合數(shù)據(jù)集上，對HumanOmni-0.5B進行了微調。通過這種方式，模型獲得了基本的推理能力，并能夠理解視覺和音頻線索如何影響情感識別。具體而言，模型能夠識別出視覺和音頻線索如何共同作用以得出情感預測結論。

在微調過程中，研究者采用了基于強化學習的方法。獎勵函數(shù)由兩部分組成：準確率獎勵和格式獎勵。準確率獎勵用于評估模型預測的情感與真實情感之間的匹配程度，而格式獎勵則確保模型輸出符合預定義的HTML標簽格式。

模型的輸出結果分為兩個部分：推理過程部分嵌入""標簽中，用于解釋模型如何整合視覺和音頻線索得出情感預測；情感標簽部分嵌入""標簽中，用于表示模型最終預測的情感。

推理/理解/泛化三方面提升

在實驗評估中，研究者將R1-Omni與三個基線模型進行了比較。這些基線模型包括：原始的HumanOmni-0.5B、在EMER數(shù)據(jù)集上進行監(jiān)督微調的模型EMER-SFT，以及直接在MAFW和DFEW訓練集上基于HumanOmni-0.5B進行監(jiān)督微調的模型MAFW-DFEW-SFT。

評估指標包括無加權平均召回率（UAR）和加權平均召回率（WAR）。這些指標用于量化模型在不同情感類別中準確分類情感的能力。UAR和WAR的計算考慮了所有情感類別的權重，因此能夠更全面地反映模型的性能。

該研究特別強調了所有評估均在開放詞匯情感測試（OV-emotion）協(xié)議下進行。在該協(xié)議下，模型無需依賴預定義的情感類別，而是直接從輸入數(shù)據(jù)中生成情感標簽。這種設置增加了評估的挑戰(zhàn)性和實際應用價值，因為真實世界中的情感表達往往是多樣的且不固定的。

實驗結果表明，R1-Omni在三個關鍵方面顯著優(yōu)于其他三個對比模型：推理能力的提升、理解能力的增強以及泛化能力的顯著提高。

研究者通過一系列可視化示例展示了R1-Omni與其它三個模型的輸出對比。結果顯示，R1-Omni的推理過程更加連貫、準確且易于解釋。相比之下，原始HumanOmni-0.5B和MAFW-DFEW-SFT模型在推理能力方面表現(xiàn)有限，而EMER-SFT模型雖然具備一定的推理能力，但其推理過程的連貫性較差且容易導致幻覺。

通過對比實驗，研究者進一步驗證了R1-Omni模型在多模態(tài)情感識別任務中的優(yōu)越性。

在MAFW和DFEW兩個數(shù)據(jù)集上，R1-Omni模型在UAR和WAR指標上均優(yōu)于其他現(xiàn)有模型。

例如，在DFEW數(shù)據(jù)集上，R1-Omni模型獲得了65.83%的UAR和56.27%的WAR，這一成績顯著優(yōu)于MAFW-DFEW-SFT模型的60.23% UAR和44.39% WAR。

為了評估模型的泛化能力，研究者在RAVDESS數(shù)據(jù)集上進行了實驗研究。與MAFW和DFEW數(shù)據(jù)集相比，RAVDESS數(shù)據(jù)集的獨特之處在于，其特點是專業(yè)演員使用中性北美口音表達陳述，這種顯著的語料分布差異使其成為評估模型在未見場景下泛化能力的理想測試基準。

在RAVDESS數(shù)據(jù)集上，相較于MAFW-DFEW-SFT模型，R1-Omni取得了顯著提升，實現(xiàn)了43.00%的UAR和44.69%的WAR。

目前，基礎模型HumanOmni-0.5B、冷啟動模型EMER-SFT、MAFW-DFEW-SFT模型以及最終優(yōu)化后的R1-Omni模型均已開源發(fā)布。

[1]https://arxiv.org/abs/2503.05379

[2]https://github.com/HumanMLLM/R1-Omni

荒野中的快捷鍵全解析，怪物獵人荒野特殊狀態(tài)全解析及實用技巧分享游戲設置大優(yōu)化，浪人崛起：降低戰(zhàn)斗難度的方法介紹花色屬性游戲體驗與視覺效果，《天天闖關》花色屬性介紹腦洞茬里王通關秘籍職場新垣腦洞大開，《腦洞茬里王》貴婦迷案通關攻略怪物之家2解謎勇冠章冠 - Steam購買鏈接https//store.steampowered.com/app/3532890/2/，怪物之家2勛章官網(wǎng)地址 | 游戲官網(wǎng)地址查詢說明：我已將標題進行了簡化和調整，主要做了以下優(yōu)化：1. 去掉了重復的部分（在哪、介紹）2. 使用了更簡潔的表達方式3. 保留了核心信息：怪物之家2、勛章、官網(wǎng)地址4. 保持了專業(yè)性和易讀性這個標題既簡潔又準確，能夠有效傳達你需要的信息。月亮市集支線任務，雙影奇境月亮市集觸發(fā)任務說明攻速易傷流，《口袋斗蛐蛐》巨熊之靈流派攻略短劇《180天》，周雨彤搭檔吳越，新劇《好東西》難登8分位夜空啟航，《第五人格》弓箭手違格危魯弗皮膚分享神裝哪吒技能狂飆傷害真實，《幻境旅者》英靈選擇推薦