- 攻略指南揭秘,《植物大戰(zhàn)僵尸雜交版》冒險1關(guān)通關(guān)攻略
- 新手必看,《鳴潮》舊數(shù)據(jù)集收集指南
- 揭秘獲取秘訣,《植物大戰(zhàn)僵尸雜交版》金卡獲取攻略
- 游戲攻略揭秘,《絕區(qū)零》飆速布邦布屬性一覽
- 新玩法揭秘,《植物大戰(zhàn)僵尸雜交版》挖寶玩法介紹
- 游戲攻略指南,《鳴潮》古今多少故事中曲臺地任務(wù)攻略
- 攻略揭秘,《植物大戰(zhàn)僵尸雜交版》頭腦風(fēng)暴達成攻略
- 揭秘新角色,《永夜降臨:復(fù)蘇》伊麗莎白介紹
- 深度解析,《鈴蘭之劍》奧古斯特加點攻略
- 游戲攻略揭秘,《絕區(qū)零》發(fā)令布邦布介紹
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
首次嘗試將官方同款RLVR應(yīng)用于全模態(tài)大語言模型,尤其是在視頻相關(guān)領(lǐng)域取得了突破。
在杭州,阿里通義實驗室薄列峰團隊又開卷了,開源項目R1-Omni來了。
同樣在杭州,這是在搞什么「開源雙頂流」(頂流)?
他們又做了些什么?
DeepSeek-R1帶火了RLVR(可驗證獎勵強化學(xué)習(xí)),此前已有團隊將RLVR用于圖像-文本多模態(tài)LLM,證明其在幾何推理和視覺計數(shù)等任務(wù)上表現(xiàn)優(yōu)異。
然而,還未深入探索將其與包含音頻、動態(tài)視覺內(nèi)容的全模態(tài)LLM結(jié)合。
薄列峰團隊首次嘗試將RLVR與全模態(tài)LLM結(jié)合,聚焦的是視覺和音頻模態(tài)都提供關(guān)鍵作用的情感識別任務(wù)。
團隊實驗發(fā)現(xiàn),模型在三個關(guān)鍵指標上有顯著提升:
RLVR的引入不僅提升了模型在訓(xùn)練數(shù)據(jù)集上的表現(xiàn),還在測試數(shù)據(jù)集上表現(xiàn)出更強的魯棒性。
更重要的是,提升后的推理能力使得我們能夠清晰地分析在情感識別過程中不同模態(tài)所起的作用。
在X平臺,R1-Omni同樣受到了不少網(wǎng)友的關(guān)注:
還有部分網(wǎng)友表示,可解釋性與多模態(tài)學(xué)習(xí)將成為下一代AI研究的重點方向。
現(xiàn)在,讓我們一起深入探討一下R1-Omni的技術(shù)原理。
R1-Omni長啥樣?
在論文方法論部分,作者首先介紹了與DeepSeek同款的RLVR和GRPO算法。
RLVR是一種創(chuàng)新的訓(xùn)練范式,其核心思想是通過驗證函數(shù)直接評估輸出的質(zhì)量,無需像傳統(tǒng)的人類反饋強化學(xué)習(xí)(RLHF)那樣依賴單獨的獎勵模型來根據(jù)人類偏好進行訓(xùn)練。
具體來說,當給定輸入問題q時,策略模型πθ生成響應(yīng)o,隨后利用可驗證獎勵函數(shù)R(q,o)對其進行評估,其優(yōu)化目標是最大化驗證獎勵減去基于KL散度的正則化項。
這種RLVR方法在簡化了獎勵機制的同時,確保了其與任務(wù)內(nèi)在正確性標準的一致性。
GRPO則是一種全新的強化學(xué)習(xí)方法,與傳統(tǒng)的方法如PPO有所不同,PPO依賴于一個評論家模型來評估候選策略的性能,而GRPO直接比較生成的響應(yīng)組,避免了使用額外的評論家模型,從而簡化了整個訓(xùn)練過程。
通過引入歸一化評分機制,GRPO能夠鼓勵模型在組內(nèi)優(yōu)先選擇獎勵值更高的響應(yīng),從而增強了模型區(qū)分高質(zhì)量和低質(zhì)量輸出的能力。
在DeepSeek-R1方法的啟發(fā)下,研究團隊將GRPO與RLVR相結(jié)合,進一步提升了模型的性能。
在R1-Omni模型構(gòu)建方面,團隊參考了DeepSeek-R1的訓(xùn)練方法,采用了一種適用于 cold-start 的策略。
該研究在包含232個可解釋多模態(tài)(視覺和音頻)情感推理數(shù)據(jù)集(EMER)樣本和348個手動標注的HumanOmni數(shù)據(jù)集樣本的綜合數(shù)據(jù)集上,對HumanOmni-0.5B進行了微調(diào)。通過這種方式,模型獲得了基本的推理能力,并能夠理解視覺和音頻線索如何影響情感識別。具體而言,模型能夠識別出視覺和音頻線索如何共同作用以得出情感預(yù)測結(jié)論。
在微調(diào)過程中,研究者采用了基于強化學(xué)習(xí)的方法。獎勵函數(shù)由兩部分組成:準確率獎勵和格式獎勵。準確率獎勵用于評估模型預(yù)測的情感與真實情感之間的匹配程度,而格式獎勵則確保模型輸出符合預(yù)定義的HTML標簽格式。
模型的輸出結(jié)果分為兩個部分:推理過程部分嵌入""標簽中,用于解釋模型如何整合視覺和音頻線索得出情感預(yù)測;情感標簽部分嵌入""標簽中,用于表示模型最終預(yù)測的情感。
推理/理解/泛化三方面提升
在實驗評估中,研究者將R1-Omni與三個基線模型進行了比較。這些基線模型包括:原始的HumanOmni-0.5B、在EMER數(shù)據(jù)集上進行監(jiān)督微調(diào)的模型EMER-SFT,以及直接在MAFW和DFEW訓(xùn)練集上基于HumanOmni-0.5B進行監(jiān)督微調(diào)的模型MAFW-DFEW-SFT。
評估指標包括無加權(quán)平均召回率(UAR)和加權(quán)平均召回率(WAR)。這些指標用于量化模型在不同情感類別中準確分類情感的能力。UAR和WAR的計算考慮了所有情感類別的權(quán)重,因此能夠更全面地反映模型的性能。
該研究特別強調(diào)了所有評估均在開放詞匯情感測試(OV-emotion)協(xié)議下進行。在該協(xié)議下,模型無需依賴預(yù)定義的情感類別,而是直接從輸入數(shù)據(jù)中生成情感標簽。這種設(shè)置增加了評估的挑戰(zhàn)性和實際應(yīng)用價值,因為真實世界中的情感表達往往是多樣的且不固定的。
實驗結(jié)果表明,R1-Omni在三個關(guān)鍵方面顯著優(yōu)于其他三個對比模型:推理能力的提升、理解能力的增強以及泛化能力的顯著提高。
研究者通過一系列可視化示例展示了R1-Omni與其它三個模型的輸出對比。結(jié)果顯示,R1-Omni的推理過程更加連貫、準確且易于解釋。相比之下,原始HumanOmni-0.5B和MAFW-DFEW-SFT模型在推理能力方面表現(xiàn)有限,而EMER-SFT模型雖然具備一定的推理能力,但其推理過程的連貫性較差且容易導(dǎo)致幻覺。
通過對比實驗,研究者進一步驗證了R1-Omni模型在多模態(tài)情感識別任務(wù)中的優(yōu)越性。
在MAFW和DFEW兩個數(shù)據(jù)集上,R1-Omni模型在UAR和WAR指標上均優(yōu)于其他現(xiàn)有模型。
例如,在DFEW數(shù)據(jù)集上,R1-Omni模型獲得了65.83%的UAR和56.27%的WAR,這一成績顯著優(yōu)于MAFW-DFEW-SFT模型的60.23% UAR和44.39% WAR。
為了評估模型的泛化能力,研究者在RAVDESS數(shù)據(jù)集上進行了實驗研究。與MAFW和DFEW數(shù)據(jù)集相比,RAVDESS數(shù)據(jù)集的獨特之處在于,其特點是專業(yè)演員使用中性北美口音表達陳述,這種顯著的語料分布差異使其成為評估模型在未見場景下泛化能力的理想測試基準。
在RAVDESS數(shù)據(jù)集上,相較于MAFW-DFEW-SFT模型,R1-Omni取得了顯著提升,實現(xiàn)了43.00%的UAR和44.69%的WAR。
目前,基礎(chǔ)模型HumanOmni-0.5B、冷啟動模型EMER-SFT、MAFW-DFEW-SFT模型以及最終優(yōu)化后的R1-Omni模型均已開源發(fā)布。
[1]https://arxiv.org/abs/2503.05379
[2]https://github.com/HumanMLLM/R1-Omni
1. 維珍銀河私人探索 2. 維珍銀河2024年四季度財務(wù)表現(xiàn) 3. 維珍銀河制造未來,維珍銀河德爾塔級首次飛行計劃在2026年夏季,私人航天員飛行同樣在秋季啟動 主線任務(wù)解鎖沙魚傳奇,雙影奇境沙魚傳奇任務(wù)觸發(fā)方法及步驟說明 免費 機甲戰(zhàn)斗 多人,War Robots Frontiers官網(wǎng)查詢 勝訴,長沙銀行5.9億貸款糾紛終審認定,資產(chǎn)質(zhì)量存疑 擊敗少林山門必過,《大江湖之蒼龍與白鳥》少林線通關(guān)攻略 俄烏沖突無人機打擊與重大損失,俄烏互稱擊落對方百余架無人機并繼續(xù)激戰(zhàn) 曼聯(lián)或哲凱賴什夏季轉(zhuǎn)會窗的可能性分析,哲凱拒絕曼聯(lián),英超三支下家曝光!阿莫林考察葡萄牙超級聯(lián)賽射手 隊友更替的奧秘,《大江湖之蒼龍與白鳥》換隊友方法 生存小貼士,怪物獵人荒野游玩知識全解析 探索星際戰(zhàn)甲氏族的深度內(nèi)容,《星際戰(zhàn)甲》加入氏族攻略