- 深度解析,榮耀戰(zhàn)國吳起:是否值得培養(yǎng)?
- 探索之旅,[哈利波特5]畫像全攻略
- 深入探索榮耀戰(zhàn)國中的傳奇角色揭秘,《榮耀戰(zhàn)國》武將孫臏介紹
- 深入探索了解榮耀戰(zhàn)國中的傳奇醫(yī)生,《榮耀戰(zhàn)國》武將扁鵲介紹
- 深入探索,《鋼鐵巨炮》蘇聯(lián)-戈沃羅夫圖鑒介紹
- 冒險(xiǎn)者的稱號(hào)之旅,[風(fēng)色幻想6]所有隱藏支線劇情攻略
- 戰(zhàn)場策略揭秘,《鋼鐵巨炮》蘇聯(lián)-T34圖鑒介紹
- 探索坦克科技,《鋼鐵巨炮》中國-62式圖鑒介紹
- 深度解析,《鋼鐵巨炮》英元帥圖鑒介紹
- 探索地雷與水雷的驚人特性,[最高指揮官]戰(zhàn)場的無冕之王
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
首次將DeepSeek同款的RLVR技術(shù)成功應(yīng)用于全模態(tài)大語言模型,并特別關(guān)注含視頻內(nèi)容的場景。
通義實(shí)驗(yàn)室的薄列峰團(tuán)隊(duì)再次推出了開源的R1-Omni模型。
同樣在杭州,通義實(shí)驗(yàn)室的開源活動(dòng)引發(fā)了關(guān)注,有人戲稱"開源雙feng",寓意著開源的力量。
他們又做了哪些創(chuàng)新工作?
DeepSeek-R1模型成功推動(dòng)了RLVR技術(shù)的普及,此前的研究團(tuán)隊(duì)已將RLVR應(yīng)用于圖像-文本多模態(tài)LLM,其在幾何推理和視覺計(jì)數(shù)等任務(wù)中展現(xiàn)出卓越的性能。
盡管如此,目前尚未有研究將RLVR技術(shù)與包含音頻和動(dòng)態(tài)視覺內(nèi)容的全模態(tài)LLM進(jìn)行結(jié)合。
通義實(shí)驗(yàn)室的薄列峰團(tuán)隊(duì)首次將RLVR技術(shù)應(yīng)用于全模態(tài)LLM,重點(diǎn)研究了視覺和音頻模態(tài)協(xié)同作用的情感識(shí)別任務(wù)。
實(shí)驗(yàn)結(jié)果表明,該模型在多個(gè)關(guān)鍵指標(biāo)上取得了顯著提升:
引入RLVR技術(shù)不僅提升了模型在訓(xùn)練數(shù)據(jù)集上的性能表現(xiàn),還在分布外數(shù)據(jù)集上表現(xiàn)出更強(qiáng)的魯棒性。
改進(jìn)后的模型在推理速度和資源利用率上都有顯著提升,更重要的是,其在情感識(shí)別過程中各模態(tài)之間的相互作用分析能力得到了明顯增強(qiáng)。
R1-Omni在這一領(lǐng)域也受到了不少網(wǎng)友的關(guān)注:
可解釋性與多模態(tài)學(xué)習(xí)被認(rèn)為是下一代AI研究的重要方向之一。
讓我們具體了解一下R1-Omni。
R1-Omni長啥樣?
在研究方法上,論文首先介紹了與DeepSeek同款的RLVR和GRPO算法。
RLVR是一種創(chuàng)新的訓(xùn)練方法,其核心思想是通過驗(yàn)證函數(shù)直接評(píng)估輸出結(jié)果,無需依賴傳統(tǒng)的人類偏好導(dǎo)向的獎(jiǎng)勵(lì)模型。
當(dāng)給定輸入問題q時(shí),策略模型πθ生成響應(yīng)o,隨后應(yīng)用可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)R(q,o)對(duì)其進(jìn)行評(píng)估,其核心目標(biāo)是通過最大化驗(yàn)證獎(jiǎng)勵(lì)減去KL散度正則化項(xiàng)來優(yōu)化模型。
該方法在簡化獎(jiǎng)勵(lì)機(jī)制的同時(shí),確保了其與任務(wù)內(nèi)在評(píng)價(jià)標(biāo)準(zhǔn)的一致性。
GRPO是一種全新的強(qiáng)化學(xué)習(xí)方法,與現(xiàn)有的PPO等傳統(tǒng)方法不同,PPO依賴于一個(gè)評(píng)論家模型來評(píng)估候選策略的性能,而GRPO直接比較生成的響應(yīng)組,無需依賴額外的評(píng)論家模型,從而簡化了整個(gè)訓(xùn)練流程。
通過引入歸一化評(píng)分機(jī)制,GRPO算法鼓勵(lì)模型在組內(nèi)優(yōu)先選擇獎(jiǎng)勵(lì)值更高的響應(yīng),從而增強(qiáng)了模型區(qū)分高質(zhì)量和低質(zhì)量輸出的能力。
參考DeepSeek-R1中的方法論,研究團(tuán)隊(duì)將GRPO與RLVR進(jìn)行了整合,形成了新的研究框架。
在R1-Omni模型的開發(fā)過程中,團(tuán)隊(duì)基于DeepSeek-R1訓(xùn)練方法的啟發(fā),設(shè)計(jì)了一種冷啟動(dòng)方案。
該研究在整合了232個(gè)可解釋多模態(tài)數(shù)據(jù)集(包含視覺和音頻樣本)以及348個(gè)人工標(biāo)注的HumanOmni數(shù)據(jù)集樣本的綜合數(shù)據(jù)集上,對(duì)開源全模態(tài)模型HumanOmni-0.5B進(jìn)行了微調(diào)訓(xùn)練,以提升其情感識(shí)別能力。通過這一過程,模型能夠初步理解視覺和音頻線索對(duì)情感識(shí)別的影響。
在微調(diào)優(yōu)化階段,研究團(tuán)隊(duì)采用了基于RLVR的訓(xùn)練方法,其獎(jiǎng)勵(lì)函數(shù)由準(zhǔn)確率獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)組成。準(zhǔn)確率獎(jiǎng)勵(lì)用于評(píng)估模型預(yù)測情感與真實(shí)情感的匹配度,而格式獎(jiǎng)勵(lì)則確保了模型輸出符合指定的HTML標(biāo)簽格式。
模型輸出設(shè)計(jì)包括兩個(gè)主要部分:第一部分是一個(gè)推理過程,內(nèi)容被封裝在特定的標(biāo)簽內(nèi),詳細(xì)解釋了模型如何整合視覺和音頻信息得出預(yù)測結(jié)論;第二部分則是一個(gè)情感標(biāo)簽,同樣被封裝在標(biāo)簽內(nèi),表示最終預(yù)測的情感。
推理/理解/泛化三方面提升
在實(shí)驗(yàn)評(píng)估中,研究者將R1-Omni與三個(gè)基線模型進(jìn)行了對(duì)比:原始的HumanOmni-0.5B、在EMER數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)的模型EMER-SFT,以及直接在MAFW和DFEW訓(xùn)練集上基于HumanOmni-0.5B進(jìn)行監(jiān)督微調(diào)的模型MAFW-DFEW-SFT。
評(píng)估指標(biāo)主要采用無加權(quán)平均召回率(UAR)和加權(quán)平均召回率(WAR),這些指標(biāo)能夠有效衡量模型在不同情感類別中準(zhǔn)確分類情感的能力。
值得注意的是,所有評(píng)估實(shí)驗(yàn)均在開放詞匯情感測試(OV-emotion)協(xié)議下進(jìn)行。在這種設(shè)置下,模型無需依賴預(yù)定義的情感類別,而是能夠直接從輸入數(shù)據(jù)中生成情感標(biāo)簽,這不僅增加了評(píng)估的挑戰(zhàn)性,也為實(shí)際應(yīng)用提供了更高的價(jià)值。
實(shí)驗(yàn)結(jié)果顯示,R1-Omni在三個(gè)關(guān)鍵指標(biāo)上均優(yōu)于其他三個(gè)對(duì)比模型:推理能力的提升、理解能力的增強(qiáng)、以及泛化能力的顯著提高。
研究者通過一系列可視化示例展示了R1-Omni與其它三個(gè)模型的輸出對(duì)比,結(jié)果顯示R1-Omni能夠提供更加連貫、準(zhǔn)確且易于理解的推理過程。
相比之下,原始HumanOmni-0.5B模型在推理能力方面表現(xiàn)較為有限,而EMER-SFT模型雖然具備一定的推理能力,但其推理過程的連貫性較差且容易產(chǎn)生主觀臆斷。MAFW-DFEW-SFT模型雖然在某些方面有所提升,但整體表現(xiàn)仍無法與R1-Omni相媲美。
在MAFW和DFEW數(shù)據(jù)集上,R1-Omni在UAR和WAR指標(biāo)上均表現(xiàn)優(yōu)于其他模型。
例如,在DFEW數(shù)據(jù)集上,R1-Omni實(shí)現(xiàn)了65.83%的UAR和56.27%的WAR,顯著優(yōu)于MAFW-DFEW-SFT的60.23%UAR和44.39%WAR。
為了評(píng)估模型的泛化能力,研究者在RAVDESS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集被用作分布外(OOD)測試集。
與主要由電影片段組成的MAFW和DFEW數(shù)據(jù)集不同,RAVDESS數(shù)據(jù)集的特點(diǎn)是以中性北美口音發(fā)表詞匯匹配的陳述,這種顯著的數(shù)據(jù)分布差異使得RAVDESS成為評(píng)估模型在未見場景下泛化能力的理想基準(zhǔn)。
R1-Omni在RAVDESS數(shù)據(jù)集上相較于MAFW-DFEW-SFT模型實(shí)現(xiàn)了顯著提升,UAR和WAR分別為43.00%和44.69%。
目前,基礎(chǔ)模型HumanOmni-0.5B、冷啟動(dòng)模型EMER-SFT,以及MAFW-DFEW-SFT和最終模型R1-Omni均已開源。
[1]https://arxiv.org/abs/2503.05379[2]https://github.com/HumanMLLM/R1-Omni
南桃北柳,楊柳青年畫的南北二派 疾風(fēng)勁弓,怪物獵人荒野:輪椅弓配裝方法介紹 招募系統(tǒng)技巧干員獲取全解析,《明日方舟:終末地》招募攻略 合作速遞,曝某新勢力與法拉利合作 腦洞大開的攻略,《腦洞非常大》擺爛通關(guān)攻略 25分鐘啟航開啟低空交通新時(shí)代,上海浦東低空交通運(yùn)輸體系建設(shè)今日試飛部分航線 硬核實(shí)力派,全球首款純電SUV 10.98萬起售,直擊自主新能源領(lǐng)域——豐田推出全新緊湊型SUV(解釋:1. "全球第一拼了!"改為"全球首款",更簡潔明了2. "豐田純電緊湊型SUV"改為"全新緊湊型SUV",更符合中文表達(dá)習(xí)慣3. "10.98萬起售"保留,價(jià)格信息不變4. "硬剛自主新能源"改為"直擊自主新能源領(lǐng)域",更簡潔有力5. 語序調(diào)整為先講車型,再講價(jià)格,最后點(diǎn)出挑戰(zhàn)領(lǐng)域,邏輯更清晰6. 整體標(biāo)題更簡潔有力,同時(shí)準(zhǔn)確傳達(dá)了豐田推出新車型的核心信息) 合作開源違規(guī)整頓辟謠 truth,早資道 | 阿里通義回應(yīng)與Manus的合作;華為內(nèi)部通報(bào)整頓"違規(guī)招聘" 夏季防曬飲食小貼士,防曬食譜:意想不到的"光敏感食物"大集合說明:1. 保持了原文的核心內(nèi)容,將"防曬飲食攻略"改為更簡潔的"防曬食譜"2. 將"揭秘你意想不到的"改為更口語化的"意想不到的"3. 使用"大集合"使標(biāo)題更完整4. 調(diào)整了語序,使標(biāo)題更流暢5. 保留了關(guān)鍵信息:防曬、光敏食物6. 整體標(biāo)題更加簡潔明了,易于理解 荒野裝備蟲棍畢業(yè)裝搭配與飛行騎乘技巧,怪物獵人荒野之息蟲棍畢業(yè)裝搭配推薦-蟲棍畢業(yè)配裝指南