欧美午夜精品久久久久久浪潮,久久99久国产麻精品66,青青视频精品观看视频

聲明:本文來自于（ID:ykqsd.com）授權轉載發(fā)布。

首次實現(xiàn)DeepSeek同款RLVR技術在全模態(tài)大語言模型中的應用，特別強調其視頻處理能力。

阿里通義實驗室薄列峰團隊近期推出了一個基于開源項目的R1-Omni模型。

同樣在杭州，團隊的開源項目引發(fā)了廣泛討論，有人戲稱"開源雙feng"（狗頭保命）。

他們在這方面取得了哪些成果？

DeepSeek-R1模型結合了RLVR技術，已經在幾何推理和視覺計數(shù)等任務上展現(xiàn)了出色表現(xiàn)。

然而，目前該技術尚未被擴展至涵蓋音頻和動態(tài)視覺內容的全模態(tài)LLM。

薄列峰團隊首次將RLVR與全模態(tài)LLM結合，聚焦于視覺和音頻模態(tài)共同發(fā)揮作用的情感識別任務。

團隊的實驗表明，改進后的模型在多個關鍵指標上均取得了顯著提升。

RLVR技術的引入不僅提升了模型在常規(guī)數(shù)據集上的性能，還在分布外數(shù)據集上增強了魯棒性。

更為重要的是，改進后的模型能夠更清晰地分析不同模態(tài)在情感識別過程中的具體作用。

R1-Omni在X領域同樣獲得了廣泛關注：

還有觀點認為，可解釋性機制與多模態(tài)學習構成了下一代AI技術的核心方向：

讓我們深入了解R1-Omni的表現(xiàn)：

R1-Omni長啥樣？

在研究方法上，論文中介紹了與DeepSeek同款的RLVR和GRPO兩種訓練方法：

其中，RLVR是一種創(chuàng)新的訓練范式，其基本思路是通過驗證函數(shù)直接評估輸出結果，無需像傳統(tǒng)的人類反饋強化學習（RLHF）那樣依賴單獨的獎勵模型來根據人類偏好進行訓練：

具體來說，給定一個問題q，策略模型πθ生成一個響應o，隨后使用驗證獎勵函數(shù)R(q,o)對其進行評估，其優(yōu)化目標是最大化驗證獎勵與基于KL散度的正則化項的差值：

該方法在簡化獎勵機制的同時，確保了與其任務目標保持一致的內在正確性標準：

GRPO則是一種全新的強化學習方法，與常見的PPO方法不同，PPO依賴評論家模型來評估候選策略的性能，而GRPO直接比較生成的響應組，避免了額外的評論家模型，從而簡化了訓練過程：

通過引入歸一化評分機制，GRPO能夠鼓勵模型在響應組內優(yōu)先選擇獎勵值較高的輸出，從而增強了模型區(qū)分高質量和低質量輸出的能力：

團隊在遵循DeepSeek-R1提出的框架基礎上，將GRPO與RLVR相結合，進一步提升了模型性能。

本篇文章詳細介紹了R1-Omni模型的構建過程及其在情感識別任務中的應用。以下是改寫后的文章：

1. 在構建R1-Omni模型時，團隊參考了DeepSeek-R1的訓練方法，設計了一種冷啟動策略。具體而言，他們將該策略應用于融合了232個可解釋多模態(tài)（視覺和音頻）情感推理數(shù)據集（EMER）樣本和348個人工標注的HumanOmni數(shù)據集樣本的綜合數(shù)據集上，對專門針對人類場景理解的開源全模態(tài)模型HumanOmni-0.5B進行微調訓練。

2. 通過RLVR（可能為某種訓練優(yōu)化方法）對模型進行了訓練優(yōu)化，獎勵函數(shù)由兩部分組成：情感預測的準確率獎勵和格式符合度獎勵。準確率獎勵用于評估預測情感與真實情感的匹配度，而格式獎勵則確保模型輸出符合指定的HTML標簽格式。

3. 模型的輸出結果包含兩個部分：第一部分是對推理過程的詳細描述，嵌入""標簽中，闡述模型如何整合視覺和音頻信息進行情感預測；第二部分是情感標簽，嵌入""標簽中，直接給出情感預測結果。

推理/理解/泛化三方面提升

4. 在實驗評估階段，研究者將R1-Omni與以下三個基線模型進行了比較：原始的開源全模態(tài)模型HumanOmni-0.5B、基于EMER數(shù)據集進行監(jiān)督微調的模型EMER-SFT，以及基于MAFW和DFEW訓練集的監(jiān)督微調模型MAFW-DFEW-SFT。評估指標包括無加權平均召回率（UAR）和加權平均召回率（WAR），這兩者衡量了模型在不同情感類別中準確分類情感的能力。

5. 實驗結果表明，R1-Omni在推理能力、理解深度和泛化能力三個方面均顯著優(yōu)于其他三個對比模型。研究者通過一系列可視化示例對比了R1-Omni與另外三個模型的輸出結果，發(fā)現(xiàn)R1-Omni在推理過程的連貫性、準確性和可解釋性方面均顯著優(yōu)于其他模型。

6. 與原始HumanOmni-0.5B相比，R1-Omni在推理能力上有所提升。同時，與基于MAFW和DFEW訓練的MAFW-DFEW-SFT模型相比，R1-Omni在推理過程的連貫性和準確性上表現(xiàn)更為突出。相比之下，EMER-SFT模型雖然具備一定的推理能力，但其推理過程的連貫性較差，且容易產生幻覺。

7. 在情感識別任務中，R1-Omni模型展現(xiàn)出顯著的優(yōu)勢，特別是在處理復雜的情感場景時。研究者通過實驗驗證了該模型在不同情感類別上的分類能力，并展示了其在實際應用中的潛力。

8. 該研究的另一個重要發(fā)現(xiàn)是，R1-Omni模型在情感識別任務中的表現(xiàn)不僅依賴于模型本身的復雜性，還與其所使用的訓練數(shù)據密切相關。通過引入新的多模態(tài)數(shù)據集，研究者成功提升了模型的泛化能力，使其能夠更好地適應各種實際應用場景。

9. 總體而言，R1-Omni模型的構建過程和實驗結果表明，該模型在情感識別任務中表現(xiàn)優(yōu)異。其在推理能力、理解深度和泛化能力方面的優(yōu)勢，使其成為當前研究領域中的一個重要突破。未來，研究者計劃進一步優(yōu)化模型的性能，并探索其在更多實際應用中的潛力。

在MAFW數(shù)據集組和DFEW數(shù)據集組上，R1-Omni模型在UAR和WAR指標上均優(yōu)于其他現(xiàn)有模型。

例如，在DFEW數(shù)據集組上，R1-Omni模型實現(xiàn)了65.83%的UAR和56.27%的WAR，顯著優(yōu)于MAFW-DFEW-SFT模型的60.23%UAR和44.39%WAR。

為了驗證模型的泛化性能，研究者在RAVDESS數(shù)據集上進行了實驗。與MAFW和DFEW數(shù)據集不同，RAVDESS數(shù)據集的特點是專業(yè)演員以中性北美口音進行詞匯匹配的陳述，這種顯著不同的數(shù)據分布特性使得RAVDESS成為評估模型在未見場景下泛化能力的理想測試集。

R1-Omni模型在RAVDESS數(shù)據集上相較于MAFW-DFEW-SFT模型實現(xiàn)了顯著提升，具體表現(xiàn)是43.00%的UAR和44.69%的WAR。

目前，基礎模型HumanOmni-0.5B、冷啟動模型EMER-SFT、MAFW-DFEW-SFT以及最終優(yōu)化后的R1-Omni模型均已開源共享。

[1]https://arxiv.org/abs/2503.05379

[2]https://github.com/HumanMLLM/R1-Omni

實驗室紅藍·小路，月亮市集任務觸發(fā)指南美烏官員將在沙特會談解決沖突，美烏高官下周將在沙特會面談些什么？戰(zhàn)斗版超能警戒無人機，《逆境重生》AI機械體-警戒無人機圖鑒長槍開掛凍結波輕松擊敗，標題可以改寫為："怪物獵人荒野凍峰龍攻略" 或者 "怪物獵人荒野打凍峰龍攻略"這兩者都保留了核心信息，同時縮短了標題長度，保持了原意。進躍凌云副本，《夢幻西游》躍凌云看戲副本攻略保留優(yōu)雅早春時尚短款呢大衣的輕盈剪裁與時尚感，春季學日雜穿搭，時尚優(yōu)雅又高級！空中絕美，成都淮州機場新添3條低空賞花航線，空中觀賞新體驗！電離鎮(zhèn)波冷卻0.1秒消耗25點能量，《驅入虛空》鎮(zhèn)暴專家基洛夫技能介紹 Hour-Long Master of Distance and Precision in The Lancer’s Gauntlet，大劍浪人打法指南：照相館攻略 Roguelike - 配置要求低，9Kings游戲配置要求解析