- 解鎖個性化裝扮技巧,《重構:阿塔提斯》頭像框更換方法
- 游戲新動態(tài)揭曉,《星痕共鳴》正式上線時間公布
- 快速掌握新功能,《重構:阿塔提斯》綁定邀請碼指南
- 輕松掌握顏值提升技巧,《職場浮生記》顏值提升攻略
- 即將消失的游戲模式揭秘,《暗區(qū)突圍》和平使者模式下架時間
- 探索真島的多樣風格,如龍8外傳服裝類型解析
- 游戲活動指南,《光與夜之戀》奇想游樂夜活動玩法介紹
- 冒險新體驗,邁克徒步旅行官網地址介紹
- 探索指南之旅,《無限暖暖》第12號拍照點位置
- 設置指南,《航海王壯志雄心》排行榜匿名設置方法
聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。
首次實現(xiàn)DeepSeek同款RLVR技術在全模態(tài)大語言模型中的應用,特別強調其視頻處理能力。
阿里通義實驗室薄列峰團隊近期推出了一個基于開源項目的R1-Omni模型。
同樣在杭州,團隊的開源項目引發(fā)了廣泛討論,有人戲稱"開源雙feng"(狗頭保命)。
他們在這方面取得了哪些成果?
DeepSeek-R1模型結合了RLVR技術,已經在幾何推理和視覺計數(shù)等任務上展現(xiàn)了出色表現(xiàn)。
然而,目前該技術尚未被擴展至涵蓋音頻和動態(tài)視覺內容的全模態(tài)LLM。
薄列峰團隊首次將RLVR與全模態(tài)LLM結合,聚焦于視覺和音頻模態(tài)共同發(fā)揮作用的情感識別任務。
團隊的實驗表明,改進后的模型在多個關鍵指標上均取得了顯著提升。
RLVR技術的引入不僅提升了模型在常規(guī)數(shù)據集上的性能,還在分布外數(shù)據集上增強了魯棒性。
更為重要的是,改進后的模型能夠更清晰地分析不同模態(tài)在情感識別過程中的具體作用。
R1-Omni在X領域同樣獲得了廣泛關注:
還有觀點認為,可解釋性機制與多模態(tài)學習構成了下一代AI技術的核心方向:
讓我們深入了解R1-Omni的表現(xiàn):
R1-Omni長啥樣?
在研究方法上,論文中介紹了與DeepSeek同款的RLVR和GRPO兩種訓練方法:
其中,RLVR是一種創(chuàng)新的訓練范式,其基本思路是通過驗證函數(shù)直接評估輸出結果,無需像傳統(tǒng)的人類反饋強化學習(RLHF)那樣依賴單獨的獎勵模型來根據人類偏好進行訓練:
具體來說,給定一個問題q,策略模型πθ生成一個響應o,隨后使用驗證獎勵函數(shù)R(q,o)對其進行評估,其優(yōu)化目標是最大化驗證獎勵與基于KL散度的正則化項的差值:
該方法在簡化獎勵機制的同時,確保了與其任務目標保持一致的內在正確性標準:
GRPO則是一種全新的強化學習方法,與常見的PPO方法不同,PPO依賴評論家模型來評估候選策略的性能,而GRPO直接比較生成的響應組,避免了額外的評論家模型,從而簡化了訓練過程:
通過引入歸一化評分機制,GRPO能夠鼓勵模型在響應組內優(yōu)先選擇獎勵值較高的輸出,從而增強了模型區(qū)分高質量和低質量輸出的能力:
團隊在遵循DeepSeek-R1提出的框架基礎上,將GRPO與RLVR相結合,進一步提升了模型性能。
本篇文章詳細介紹了R1-Omni模型的構建過程及其在情感識別任務中的應用。以下是改寫后的文章:
1. 在構建R1-Omni模型時,團隊參考了DeepSeek-R1的訓練方法,設計了一種冷啟動策略。具體而言,他們將該策略應用于融合了232個可解釋多模態(tài)(視覺和音頻)情感推理數(shù)據集(EMER)樣本和348個人工標注的HumanOmni數(shù)據集樣本的綜合數(shù)據集上,對專門針對人類場景理解的開源全模態(tài)模型HumanOmni-0.5B進行微調訓練。
2. 通過RLVR(可能為某種訓練優(yōu)化方法)對模型進行了訓練優(yōu)化,獎勵函數(shù)由兩部分組成:情感預測的準確率獎勵和格式符合度獎勵。準確率獎勵用于評估預測情感與真實情感的匹配度,而格式獎勵則確保模型輸出符合指定的HTML標簽格式。
3. 模型的輸出結果包含兩個部分:第一部分是對推理過程的詳細描述,嵌入""標簽中,闡述模型如何整合視覺和音頻信息進行情感預測;第二部分是情感標簽,嵌入""標簽中,直接給出情感預測結果。
推理/理解/泛化三方面提升
4. 在實驗評估階段,研究者將R1-Omni與以下三個基線模型進行了比較:原始的開源全模態(tài)模型HumanOmni-0.5B、基于EMER數(shù)據集進行監(jiān)督微調的模型EMER-SFT,以及基于MAFW和DFEW訓練集的監(jiān)督微調模型MAFW-DFEW-SFT。評估指標包括無加權平均召回率(UAR)和加權平均召回率(WAR),這兩者衡量了模型在不同情感類別中準確分類情感的能力。
5. 實驗結果表明,R1-Omni在推理能力、理解深度和泛化能力三個方面均顯著優(yōu)于其他三個對比模型。研究者通過一系列可視化示例對比了R1-Omni與另外三個模型的輸出結果,發(fā)現(xiàn)R1-Omni在推理過程的連貫性、準確性和可解釋性方面均顯著優(yōu)于其他模型。
6. 與原始HumanOmni-0.5B相比,R1-Omni在推理能力上有所提升。同時,與基于MAFW和DFEW訓練的MAFW-DFEW-SFT模型相比,R1-Omni在推理過程的連貫性和準確性上表現(xiàn)更為突出。相比之下,EMER-SFT模型雖然具備一定的推理能力,但其推理過程的連貫性較差,且容易產生幻覺。
7. 在情感識別任務中,R1-Omni模型展現(xiàn)出顯著的優(yōu)勢,特別是在處理復雜的情感場景時。研究者通過實驗驗證了該模型在不同情感類別上的分類能力,并展示了其在實際應用中的潛力。
8. 該研究的另一個重要發(fā)現(xiàn)是,R1-Omni模型在情感識別任務中的表現(xiàn)不僅依賴于模型本身的復雜性,還與其所使用的訓練數(shù)據密切相關。通過引入新的多模態(tài)數(shù)據集,研究者成功提升了模型的泛化能力,使其能夠更好地適應各種實際應用場景。
9. 總體而言,R1-Omni模型的構建過程和實驗結果表明,該模型在情感識別任務中表現(xiàn)優(yōu)異。其在推理能力、理解深度和泛化能力方面的優(yōu)勢,使其成為當前研究領域中的一個重要突破。未來,研究者計劃進一步優(yōu)化模型的性能,并探索其在更多實際應用中的潛力。
在MAFW數(shù)據集組和DFEW數(shù)據集組上,R1-Omni模型在UAR和WAR指標上均優(yōu)于其他現(xiàn)有模型。
例如,在DFEW數(shù)據集組上,R1-Omni模型實現(xiàn)了65.83%的UAR和56.27%的WAR,顯著優(yōu)于MAFW-DFEW-SFT模型的60.23%UAR和44.39%WAR。
為了驗證模型的泛化性能,研究者在RAVDESS數(shù)據集上進行了實驗。與MAFW和DFEW數(shù)據集不同,RAVDESS數(shù)據集的特點是專業(yè)演員以中性北美口音進行詞匯匹配的陳述,這種顯著不同的數(shù)據分布特性使得RAVDESS成為評估模型在未見場景下泛化能力的理想測試集。
R1-Omni模型在RAVDESS數(shù)據集上相較于MAFW-DFEW-SFT模型實現(xiàn)了顯著提升,具體表現(xiàn)是43.00%的UAR和44.69%的WAR。
目前,基礎模型HumanOmni-0.5B、冷啟動模型EMER-SFT、MAFW-DFEW-SFT以及最終優(yōu)化后的R1-Omni模型均已開源共享。
[1]https://arxiv.org/abs/2503.05379
[2]https://github.com/HumanMLLM/R1-Omni
實驗室紅藍·小路,月亮市集任務觸發(fā)指南 美烏官員將在沙特會談解決沖突,美烏高官下周將在沙特會面 談些什么? 戰(zhàn)斗版超能警戒無人機,《逆境重生》AI機械體-警戒無人機圖鑒 長槍開掛凍結波輕松擊敗,標題可以改寫為:"怪物獵人荒野凍峰龍攻略" 或者 "怪物獵人荒野打凍峰龍攻略"這兩者都保留了核心信息,同時縮短了標題長度,保持了原意。 進躍凌云副本,《夢幻西游》躍凌云看戲副本攻略 保留優(yōu)雅早春時尚短款呢大衣的輕盈剪裁與時尚感,春季學日雜穿搭,時尚優(yōu)雅又高級! 空中絕美,成都淮州機場新添3條低空賞花航線,空中觀賞新體驗! 電離鎮(zhèn)波冷卻0.1秒消耗25點能量,《驅入虛空》鎮(zhèn)暴專家基洛夫技能介紹 Hour-Long Master of Distance and Precision in The Lancer’s Gauntlet,大劍浪人打法指南:照相館攻略 Roguelike - 配置要求低,9Kings游戲配置要求解析