- 疾風(fēng)突襲 疾馳突襲 疾進(jìn)疾突 疾突破陣 疾風(fēng)突襲 疾風(fēng)突襲,《攻城模擬器》前鋒營介紹
- BlendoGames《Skin Deep》沉浸式體驗(yàn),Skin Deep怎么玩?平臺推薦Skin Deep游戲攻略:平臺解析
- 掌握捕獲小丑金魚的技巧,釣小金魚技巧分享
- 稀有蛋白石 油谷與龍都,怪物獵人荒野創(chuàng)世:創(chuàng)世蛋白石位置在哪?具體位置介紹
- 冒險(xiǎn)探索與戰(zhàn)斗指南,《重生之最強(qiáng)輸出》從萌新到大佬最強(qiáng)攻略
- 荒野探索攻略,怪物獵人荒野一夜花高效刷法推薦
- 下載地址,Badlands Crew游戲哪里下載?下載地址分享
- 亞林塔攻擊傷害與生命值成長,《黑星勇者成名錄》亞林塔特性技能介紹
- 從Steam到Epic輕松獲取游戲只需創(chuàng)建賬號并完成購買流程即可,達(dá)愿福神社·Promise Mascot Agency下載安裝教程
- 群星紀(jì)元采礦小技巧,《群星紀(jì)元》采礦流程介紹
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
這一項(xiàng)研究首次將DeepSeek的同款RLVR算法應(yīng)用于全模態(tài)大語言模型,包括處理視頻內(nèi)容的能力。
在完成開源項(xiàng)目的開發(fā)后,薄列峰團(tuán)隊(duì)又推出了R1-Omni版本,該版本進(jìn)一步完善了全模態(tài)LLM的功能。
在杭州的另一項(xiàng)目中,團(tuán)隊(duì)提出了一個(gè)被稱為「開源雙feng」的創(chuàng)新方案,目前尚未對外公布具體內(nèi)容。
團(tuán)隊(duì)近期完成了哪些重要工作?
DeepSeek-R1項(xiàng)目的成功使得RLVR算法得到了廣泛應(yīng)用,此前已有研究團(tuán)隊(duì)將RLVR應(yīng)用于圖像-文本雙模態(tài)的大語言模型,取得了顯著的性能提升,特別是在幾何推理和視覺計(jì)數(shù)等任務(wù)方面表現(xiàn)尤為出色。
然而,目前的研究還未能將RLVR算法與包含音頻、動(dòng)態(tài)視覺等多種模態(tài)的全模態(tài)大語言模型相結(jié)合。
薄列峰團(tuán)隊(duì)首次實(shí)現(xiàn)了RLVR算法與全模態(tài)LLM的結(jié)合,重點(diǎn)應(yīng)用于視覺和音頻模態(tài)均發(fā)揮關(guān)鍵作用的情感識別任務(wù)。
在經(jīng)過一系列實(shí)驗(yàn)后,團(tuán)隊(duì)發(fā)現(xiàn)了模型在三個(gè)核心指標(biāo)上的顯著提升:
RLVR算法的引入不僅顯著提升了模型在訓(xùn)練集上的性能表現(xiàn),而且在測試集上的魯棒性表現(xiàn)也得到了明顯增強(qiáng)。
這一改進(jìn)更關(guān)鍵的是,使得模型在情感識別過程中各模態(tài)的交互作用分析變得更加清晰和直觀。
R1-Omni在X上的熱度也得到了不少網(wǎng)友的關(guān)注:
可解釋性機(jī)制+多模態(tài)學(xué)習(xí)被認(rèn)為是下一代AI研究的重點(diǎn)方向。
本文將重點(diǎn)介紹R1-Omni的相關(guān)技術(shù)。
R1-Omni長啥樣?
論文中首先介紹了DeepSeek同款的RLVR和GRPO算法。
RLVR是一種創(chuàng)新的訓(xùn)練范式,其核心思想是通過驗(yàn)證函數(shù)直接評估輸出,無需依賴傳統(tǒng)的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)中基于單獨(dú)獎(jiǎng)勵(lì)模型的訓(xùn)練過程。
具體來說,給定輸入問題q,策略模型πθ生成響應(yīng)o,隨后應(yīng)用可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)R(q,o)進(jìn)行評估,最終的目標(biāo)是最大化驗(yàn)證獎(jiǎng)勵(lì)與基于KL散度的正則化項(xiàng)之間的差值。
通過這種方式,RLVR在簡化了獎(jiǎng)勵(lì)機(jī)制的同時(shí),確保了其與任務(wù)內(nèi)在正確性標(biāo)準(zhǔn)保持一致。
GRPO則是一種全新的強(qiáng)化學(xué)習(xí)方法,其與傳統(tǒng)方法如PPO存在顯著差異,PPO依賴評論家模型對候選策略進(jìn)行性能評估,而GRPO直接比較生成的響應(yīng)組,避免了額外的評論家模型使用,從而簡化了整個(gè)訓(xùn)練流程。
通過引入歸一化評分機(jī)制,GRPO進(jìn)一步增強(qiáng)了模型在區(qū)分高質(zhì)量和低質(zhì)量輸出方面的能力。
在DeepSeek-R1的框架指導(dǎo)下,研究團(tuán)隊(duì)將GRPO與RLVR進(jìn)行了融合創(chuàng)新。
在構(gòu)建R1-Omni模型時(shí),團(tuán)隊(duì)采用了基于DeepSeek-R1訓(xùn)練方法啟發(fā)的冷啟動(dòng)策略。
該研究在包含232個(gè)可解釋多模態(tài)(視覺和音頻)情感推理數(shù)據(jù)集(EMER)樣本和348個(gè)手動(dòng)標(biāo)注的HumanOmni數(shù)據(jù)集樣本的組合數(shù)據(jù)集上,對HumanOmni-0.5B進(jìn)行了微調(diào),使其具備初步的情感推理能力,并能夠解釋視覺和音頻線索如何影響情感識別。
通過RLVR訓(xùn)練方法優(yōu)化模型,獎(jiǎng)勵(lì)函數(shù)由兩部分組成:準(zhǔn)確率獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。準(zhǔn)確率獎(jiǎng)勵(lì)評估了模型預(yù)測情感與真實(shí)情感的一致性,而格式獎(jiǎng)勵(lì)確保了模型輸出符合指定的HTML標(biāo)簽格式。
模型輸出預(yù)期包含兩部分:推理過程,封裝在""標(biāo)簽內(nèi),用于解釋模型如何整合視覺和音頻線索得出預(yù)測;情感標(biāo)簽,封裝在""標(biāo)簽內(nèi),表示最終預(yù)測的情感。
推理/理解/泛化三方面提升
在實(shí)驗(yàn)評估中,研究者將R1-Omni與三個(gè)基線模型進(jìn)行了比較,包括原始的HumanOmni-0.5B、在EMER數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)的模型EMER-SFT,以及直接在MAFW和DFEW訓(xùn)練集上基于HumanOmni-0.5B進(jìn)行監(jiān)督微調(diào)的模型MAFW-DFEW-SFT。
評估指標(biāo)包括無加權(quán)平均召回率(UAR)和加權(quán)平均召回率(WAR),這些指標(biāo)衡量了模型在不同情感類別中準(zhǔn)確分類情感的能力。
在實(shí)驗(yàn)中,所有評估均在開放詞匯情感測試(OV-emotion)協(xié)議下進(jìn)行。在這種設(shè)置下,模型無需預(yù)定義情感類別,而是直接從輸入數(shù)據(jù)中生成情感標(biāo)簽,這增加了評估的挑戰(zhàn)性和實(shí)際應(yīng)用價(jià)值。
實(shí)驗(yàn)結(jié)果顯示,R1-Omni在三個(gè)關(guān)鍵方面優(yōu)于其他三個(gè)對比模型:推理能力顯著增強(qiáng),理解能力顯著提高,泛化能力更強(qiáng)。
研究者展示了多個(gè)可視化示例,比較了R1-Omni與其他三個(gè)模型的輸出,結(jié)果顯示R1-Omni提供了更為連貫、準(zhǔn)確且可解釋的推理過程。
相比之下,原始HumanOmni-0.5B和MAFW-DFEW-SFT模型在推理能力方面表現(xiàn)有限,而EMER-SFT雖然具備一定推理能力,但其推理過程連貫性較差且容易產(chǎn)生幻覺。
基于MAFW和DFEW數(shù)據(jù)集,R1-Omni在UAR和WAR指標(biāo)上表現(xiàn)更優(yōu),顯著優(yōu)于其他模型。
例如,在DFEW數(shù)據(jù)集上,R1-Omni取得了65.83%的UAR和56.27%的WAR,明顯優(yōu)于MAFW-DFEW-SFT的60.23%UAR和44.39%WAR。
作為分布外測試集,研究者在RAVDESS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。由于其數(shù)據(jù)分布顯著不同于MAFW和DFEW的電影片段集,RAVDESS成為評估模型泛化能力的理想基準(zhǔn)。
由于其數(shù)據(jù)分布顯著不同于MAFW和DFEW的電影片段集,RAVDESS成為評估模型泛化能力的理想基準(zhǔn)。
相較于MAFW-DFEW-SFT模型,R1-Omni在RAVDESS數(shù)據(jù)集上取得了顯著提升,實(shí)現(xiàn)了43.00%的UAR和44.69%的WAR。
目前,基礎(chǔ)模型HumanOmni-0.5B、冷啟動(dòng)模型EMER-SFT,以及MAFW-DFEW-SFT和最終模型R1-Omni均已開源。
[1]https://arxiv.org/abs/2503.05379[2]https://github.com/HumanMLLM/R1-Omni
探索口袋Roguelike,9Kings游戲平臺位置及游玩指南 探索魔力之源收集三個(gè)噩夢碎片,《洛克王國:世界》黑巫師之影任務(wù)通完成小技巧 停火談判,烏官員:烏或?qū)⑻嶙h與俄達(dá)成空中海上停火 沙特八小時(shí)談判,標(biāo)題改寫:美國與俄羅斯直接對話:烏克蘭已作出讓步,俄羅斯掌握和平主動(dòng)權(quán)。 限定活動(dòng)開啟,卡普空戰(zhàn)格斗合集2發(fā)布日期公布-Capcom Fighting Collection 2 Release Date Revealed 驚心科技股一夜崩盤,大奇跡日!美股血流成河,A股竟然翻紅了 驚險(xiǎn)人生贏家的代價(jià)是什么,金燕玲:兩次婚姻兩次離婚,三次重病,在生命最后階段,她選擇與同性伴侶共度余年! 巴黎圣日耳曼焦點(diǎn)戰(zhàn),"利物浦輸球,斯洛特首賽季沖擊英超冠、聯(lián)賽杯" 神秘,《逆水寒手游》一沸聞水聲奇遇攻略 Secrets of War力提升,《金色傳說》戰(zhàn)力提升攻略技巧