- 黑鉆養(yǎng)成指南全地圖成長全方面解析,《黑色信標(biāo)》養(yǎng)成方法介紹
- 鎖刃護(hù)石解鎖材料解析,怪物獵人荒野鎖刃護(hù)石怎么獲得-護(hù)石解鎖方式解析這個(gè)改寫后的標(biāo)題:1. 去掉了冗余的詞語,如"怎么解鎖"中的"怎么","解鎖方法介紹"中的"介紹"2. 使用更簡潔的表達(dá)方式"護(hù)石怎么獲得"和"護(hù)石解鎖方式解析"3. 保持了核心信息:怪物獵人荒野鎖刃護(hù)石的解鎖方法4. 突出了獲取護(hù)石的核心目的5. 整體長度更短,信息更直接這樣的改寫既保持了原意,又簡化了內(nèi)容,使標(biāo)題更加簡潔明了。
- 刷夜兌換,怪物獵人荒野survival一夜花有什么作用-使用技巧全解析
- 兌換碼合集 2024最新 VIPSVIP渠道版本兌換碼合集,《憶游十三道》2024最新碼合集
- 輸出與策略,《荒野國度》土系陣容搭配攻略
- 沙雕模擬器通緝犯位置,《沙雕模擬器》兩個(gè)通緝犯位置一覽
- 美起60長鳴珠,《燕云十六聲》松花玉蘭套裝價(jià)格
- 百味食光用主線任務(wù)速升餐廳等級,《百味食光》經(jīng)驗(yàn)獲取攻略
- 奇喵派對現(xiàn)已上線,Jumping Jazz Cats游戲平臺推薦:玩轉(zhuǎn)有趣游戲
- 探索與解鎖雷暴天氣下的臨時(shí)任務(wù),怪物獵人荒野煌雷龍任務(wù)解鎖方法介紹
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
首次嘗試將官方同款RLVR應(yīng)用于全模態(tài)大語言模型,尤其是在視頻相關(guān)領(lǐng)域取得了突破。
在杭州,阿里通義實(shí)驗(yàn)室薄列峰團(tuán)隊(duì)又開卷了,開源項(xiàng)目R1-Omni來了。
同樣在杭州,這是在搞什么「開源雙頂流」(頂流)?
他們又做了些什么?
DeepSeek-R1帶火了RLVR(可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)),此前已有團(tuán)隊(duì)將RLVR用于圖像-文本多模態(tài)LLM,證明其在幾何推理和視覺計(jì)數(shù)等任務(wù)上表現(xiàn)優(yōu)異。
然而,還未深入探索將其與包含音頻、動態(tài)視覺內(nèi)容的全模態(tài)LLM結(jié)合。
薄列峰團(tuán)隊(duì)首次嘗試將RLVR與全模態(tài)LLM結(jié)合,聚焦的是視覺和音頻模態(tài)都提供關(guān)鍵作用的情感識別任務(wù)。
團(tuán)隊(duì)實(shí)驗(yàn)發(fā)現(xiàn),模型在三個(gè)關(guān)鍵指標(biāo)上有顯著提升:
RLVR的引入不僅提升了模型在訓(xùn)練數(shù)據(jù)集上的表現(xiàn),還在測試數(shù)據(jù)集上表現(xiàn)出更強(qiáng)的魯棒性。
更重要的是,提升后的推理能力使得我們能夠清晰地分析在情感識別過程中不同模態(tài)所起的作用。
在X平臺,R1-Omni同樣受到了不少網(wǎng)友的關(guān)注:
還有部分網(wǎng)友表示,可解釋性與多模態(tài)學(xué)習(xí)將成為下一代AI研究的重點(diǎn)方向。
現(xiàn)在,讓我們一起深入探討一下R1-Omni的技術(shù)原理。
R1-Omni長啥樣?
在論文方法論部分,作者首先介紹了與DeepSeek同款的RLVR和GRPO算法。
RLVR是一種創(chuàng)新的訓(xùn)練范式,其核心思想是通過驗(yàn)證函數(shù)直接評估輸出的質(zhì)量,無需像傳統(tǒng)的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)那樣依賴單獨(dú)的獎(jiǎng)勵(lì)模型來根據(jù)人類偏好進(jìn)行訓(xùn)練。
具體來說,當(dāng)給定輸入問題q時(shí),策略模型πθ生成響應(yīng)o,隨后利用可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)R(q,o)對其進(jìn)行評估,其優(yōu)化目標(biāo)是最大化驗(yàn)證獎(jiǎng)勵(lì)減去基于KL散度的正則化項(xiàng)。
這種RLVR方法在簡化了獎(jiǎng)勵(lì)機(jī)制的同時(shí),確保了其與任務(wù)內(nèi)在正確性標(biāo)準(zhǔn)的一致性。
GRPO則是一種全新的強(qiáng)化學(xué)習(xí)方法,與傳統(tǒng)的方法如PPO有所不同,PPO依賴于一個(gè)評論家模型來評估候選策略的性能,而GRPO直接比較生成的響應(yīng)組,避免了使用額外的評論家模型,從而簡化了整個(gè)訓(xùn)練過程。
通過引入歸一化評分機(jī)制,GRPO能夠鼓勵(lì)模型在組內(nèi)優(yōu)先選擇獎(jiǎng)勵(lì)值更高的響應(yīng),從而增強(qiáng)了模型區(qū)分高質(zhì)量和低質(zhì)量輸出的能力。
在DeepSeek-R1方法的啟發(fā)下,研究團(tuán)隊(duì)將GRPO與RLVR相結(jié)合,進(jìn)一步提升了模型的性能。
在R1-Omni模型構(gòu)建方面,團(tuán)隊(duì)參考了DeepSeek-R1的訓(xùn)練方法,采用了一種適用于 cold-start 的策略。
該研究在包含232個(gè)可解釋多模態(tài)(視覺和音頻)情感推理數(shù)據(jù)集(EMER)樣本和348個(gè)手動標(biāo)注的HumanOmni數(shù)據(jù)集樣本的綜合數(shù)據(jù)集上,對HumanOmni-0.5B進(jìn)行了微調(diào)。通過這種方式,模型獲得了基本的推理能力,并能夠理解視覺和音頻線索如何影響情感識別。具體而言,模型能夠識別出視覺和音頻線索如何共同作用以得出情感預(yù)測結(jié)論。
在微調(diào)過程中,研究者采用了基于強(qiáng)化學(xué)習(xí)的方法。獎(jiǎng)勵(lì)函數(shù)由兩部分組成:準(zhǔn)確率獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。準(zhǔn)確率獎(jiǎng)勵(lì)用于評估模型預(yù)測的情感與真實(shí)情感之間的匹配程度,而格式獎(jiǎng)勵(lì)則確保模型輸出符合預(yù)定義的HTML標(biāo)簽格式。
模型的輸出結(jié)果分為兩個(gè)部分:推理過程部分嵌入""標(biāo)簽中,用于解釋模型如何整合視覺和音頻線索得出情感預(yù)測;情感標(biāo)簽部分嵌入""標(biāo)簽中,用于表示模型最終預(yù)測的情感。
推理/理解/泛化三方面提升
在實(shí)驗(yàn)評估中,研究者將R1-Omni與三個(gè)基線模型進(jìn)行了比較。這些基線模型包括:原始的HumanOmni-0.5B、在EMER數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)的模型EMER-SFT,以及直接在MAFW和DFEW訓(xùn)練集上基于HumanOmni-0.5B進(jìn)行監(jiān)督微調(diào)的模型MAFW-DFEW-SFT。
評估指標(biāo)包括無加權(quán)平均召回率(UAR)和加權(quán)平均召回率(WAR)。這些指標(biāo)用于量化模型在不同情感類別中準(zhǔn)確分類情感的能力。UAR和WAR的計(jì)算考慮了所有情感類別的權(quán)重,因此能夠更全面地反映模型的性能。
該研究特別強(qiáng)調(diào)了所有評估均在開放詞匯情感測試(OV-emotion)協(xié)議下進(jìn)行。在該協(xié)議下,模型無需依賴預(yù)定義的情感類別,而是直接從輸入數(shù)據(jù)中生成情感標(biāo)簽。這種設(shè)置增加了評估的挑戰(zhàn)性和實(shí)際應(yīng)用價(jià)值,因?yàn)檎鎸?shí)世界中的情感表達(dá)往往是多樣的且不固定的。
實(shí)驗(yàn)結(jié)果表明,R1-Omni在三個(gè)關(guān)鍵方面顯著優(yōu)于其他三個(gè)對比模型:推理能力的提升、理解能力的增強(qiáng)以及泛化能力的顯著提高。
研究者通過一系列可視化示例展示了R1-Omni與其它三個(gè)模型的輸出對比。結(jié)果顯示,R1-Omni的推理過程更加連貫、準(zhǔn)確且易于解釋。相比之下,原始HumanOmni-0.5B和MAFW-DFEW-SFT模型在推理能力方面表現(xiàn)有限,而EMER-SFT模型雖然具備一定的推理能力,但其推理過程的連貫性較差且容易導(dǎo)致幻覺。
通過對比實(shí)驗(yàn),研究者進(jìn)一步驗(yàn)證了R1-Omni模型在多模態(tài)情感識別任務(wù)中的優(yōu)越性。
在MAFW和DFEW兩個(gè)數(shù)據(jù)集上,R1-Omni模型在UAR和WAR指標(biāo)上均優(yōu)于其他現(xiàn)有模型。
例如,在DFEW數(shù)據(jù)集上,R1-Omni模型獲得了65.83%的UAR和56.27%的WAR,這一成績顯著優(yōu)于MAFW-DFEW-SFT模型的60.23% UAR和44.39% WAR。
為了評估模型的泛化能力,研究者在RAVDESS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)研究。與MAFW和DFEW數(shù)據(jù)集相比,RAVDESS數(shù)據(jù)集的獨(dú)特之處在于,其特點(diǎn)是專業(yè)演員使用中性北美口音表達(dá)陳述,這種顯著的語料分布差異使其成為評估模型在未見場景下泛化能力的理想測試基準(zhǔn)。
在RAVDESS數(shù)據(jù)集上,相較于MAFW-DFEW-SFT模型,R1-Omni取得了顯著提升,實(shí)現(xiàn)了43.00%的UAR和44.69%的WAR。
目前,基礎(chǔ)模型HumanOmni-0.5B、冷啟動模型EMER-SFT、MAFW-DFEW-SFT模型以及最終優(yōu)化后的R1-Omni模型均已開源發(fā)布。
[1]https://arxiv.org/abs/2503.05379
[2]https://github.com/HumanMLLM/R1-Omni
優(yōu)化供應(yīng)鏈,不許亂花錢!李斌開始狠抓成本 疾速極簡,《驅(qū)入虛空》光翼裝甲朱莉技能介紹 金秀賢為何要求21歲的小妹妹這背后的原因是什么,"解析金秀賢原生家庭不佳為何他的擇偶標(biāo)準(zhǔn)這么離奇" 混亂與秩序,塔爾圖斯街頭沖突后,敘利亞華人回憶:心 still 敢’t open the window 股價(jià)暴跌銷量下降,特斯拉市值蒸發(fā)8000億美元,股價(jià)創(chuàng)五年最大跌幅 白金魚捕捉指南,怪物獵人:荒野白金魚位置在哪里?白金魚位置介紹 深夜胡塞武裝呼吁四天內(nèi)解決加沙物資運(yùn)輸問題,胡塞武裝恢復(fù)打擊行動,針對以色列船只(說明:這個(gè)改寫版本保持了原文的核心信息,但更加簡潔明了,同時(shí)調(diào)整了語序以更符合新聞標(biāo)題的表達(dá)方式。關(guān)鍵點(diǎn)包括胡塞武裝的恢復(fù)打擊行動、針對對象是以色列船只,以及時(shí)間背景四天后。) 道歉與進(jìn)展,美烏特使稱烏方已向特朗普道歉!烏克蘭軍方對莫斯科發(fā)動最大規(guī)模無人機(jī)襲擊,已造成1死3傷,多個(gè)機(jī)場被管制 限定發(fā)布5.15,Capcom Fighting Collection 2發(fā)售日期介紹 Breakthrough Growth,Anthropic月均營收突破14億美元,Claude助"Manus"AI代理走紅