- 全新版本解析,《爐石傳說》深暗領(lǐng)域奧丁戰(zhàn)卡組構(gòu)筑
- 全新體驗(yàn)即將開啟,《三國殺:一將成名》開服福利活動(dòng)分享
- 攻略技巧揭秘,《保衛(wèi)蘿卜4》法老歸來第96關(guān)通關(guān)攻略
- 深入解析游戲機(jī)制,《新月同行》碎銀子介紹
- 新手必讀,《星露谷物語》哈維8心事件解鎖方法
- 生存冒險(xiǎn)指南,《七日世界》火喉圣域?qū)毾涫占椒?/span>
- 更新前瞻,《塵白禁區(qū)》荒谷詭影活動(dòng)玩法介紹
- 《三國殺:一將成名》常見問題FAQ
- 最新擴(kuò)展預(yù)覽,《爐石傳說》深暗領(lǐng)域星體賊卡組構(gòu)筑
- 最新游戲更新揭示,《蛋仔派對》道士鬼月介紹
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
首次實(shí)現(xiàn)DeepSeek同款RLVR技術(shù)在全模態(tài)大語言模型中的應(yīng)用,特別強(qiáng)調(diào)其視頻處理能力。
阿里通義實(shí)驗(yàn)室薄列峰團(tuán)隊(duì)近期推出了一個(gè)基于開源項(xiàng)目的R1-Omni模型。
同樣在杭州,團(tuán)隊(duì)的開源項(xiàng)目引發(fā)了廣泛討論,有人戲稱"開源雙feng"(狗頭保命)。
他們在這方面取得了哪些成果?
DeepSeek-R1模型結(jié)合了RLVR技術(shù),已經(jīng)在幾何推理和視覺計(jì)數(shù)等任務(wù)上展現(xiàn)了出色表現(xiàn)。
然而,目前該技術(shù)尚未被擴(kuò)展至涵蓋音頻和動(dòng)態(tài)視覺內(nèi)容的全模態(tài)LLM。
薄列峰團(tuán)隊(duì)首次將RLVR與全模態(tài)LLM結(jié)合,聚焦于視覺和音頻模態(tài)共同發(fā)揮作用的情感識別任務(wù)。
團(tuán)隊(duì)的實(shí)驗(yàn)表明,改進(jìn)后的模型在多個(gè)關(guān)鍵指標(biāo)上均取得了顯著提升。
RLVR技術(shù)的引入不僅提升了模型在常規(guī)數(shù)據(jù)集上的性能,還在分布外數(shù)據(jù)集上增強(qiáng)了魯棒性。
更為重要的是,改進(jìn)后的模型能夠更清晰地分析不同模態(tài)在情感識別過程中的具體作用。
R1-Omni在X領(lǐng)域同樣獲得了廣泛關(guān)注:
還有觀點(diǎn)認(rèn)為,可解釋性機(jī)制與多模態(tài)學(xué)習(xí)構(gòu)成了下一代AI技術(shù)的核心方向:
讓我們深入了解R1-Omni的表現(xiàn):
R1-Omni長啥樣?
在研究方法上,論文中介紹了與DeepSeek同款的RLVR和GRPO兩種訓(xùn)練方法:
其中,RLVR是一種創(chuàng)新的訓(xùn)練范式,其基本思路是通過驗(yàn)證函數(shù)直接評估輸出結(jié)果,無需像傳統(tǒng)的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)那樣依賴單獨(dú)的獎(jiǎng)勵(lì)模型來根據(jù)人類偏好進(jìn)行訓(xùn)練:
具體來說,給定一個(gè)問題q,策略模型πθ生成一個(gè)響應(yīng)o,隨后使用驗(yàn)證獎(jiǎng)勵(lì)函數(shù)R(q,o)對其進(jìn)行評估,其優(yōu)化目標(biāo)是最大化驗(yàn)證獎(jiǎng)勵(lì)與基于KL散度的正則化項(xiàng)的差值:
該方法在簡化獎(jiǎng)勵(lì)機(jī)制的同時(shí),確保了與其任務(wù)目標(biāo)保持一致的內(nèi)在正確性標(biāo)準(zhǔn):
GRPO則是一種全新的強(qiáng)化學(xué)習(xí)方法,與常見的PPO方法不同,PPO依賴評論家模型來評估候選策略的性能,而GRPO直接比較生成的響應(yīng)組,避免了額外的評論家模型,從而簡化了訓(xùn)練過程:
通過引入歸一化評分機(jī)制,GRPO能夠鼓勵(lì)模型在響應(yīng)組內(nèi)優(yōu)先選擇獎(jiǎng)勵(lì)值較高的輸出,從而增強(qiáng)了模型區(qū)分高質(zhì)量和低質(zhì)量輸出的能力:
團(tuán)隊(duì)在遵循DeepSeek-R1提出的框架基礎(chǔ)上,將GRPO與RLVR相結(jié)合,進(jìn)一步提升了模型性能。
本篇文章詳細(xì)介紹了R1-Omni模型的構(gòu)建過程及其在情感識別任務(wù)中的應(yīng)用。以下是改寫后的文章:
1. 在構(gòu)建R1-Omni模型時(shí),團(tuán)隊(duì)參考了DeepSeek-R1的訓(xùn)練方法,設(shè)計(jì)了一種冷啟動(dòng)策略。具體而言,他們將該策略應(yīng)用于融合了232個(gè)可解釋多模態(tài)(視覺和音頻)情感推理數(shù)據(jù)集(EMER)樣本和348個(gè)人工標(biāo)注的HumanOmni數(shù)據(jù)集樣本的綜合數(shù)據(jù)集上,對專門針對人類場景理解的開源全模態(tài)模型HumanOmni-0.5B進(jìn)行微調(diào)訓(xùn)練。
2. 通過RLVR(可能為某種訓(xùn)練優(yōu)化方法)對模型進(jìn)行了訓(xùn)練優(yōu)化,獎(jiǎng)勵(lì)函數(shù)由兩部分組成:情感預(yù)測的準(zhǔn)確率獎(jiǎng)勵(lì)和格式符合度獎(jiǎng)勵(lì)。準(zhǔn)確率獎(jiǎng)勵(lì)用于評估預(yù)測情感與真實(shí)情感的匹配度,而格式獎(jiǎng)勵(lì)則確保模型輸出符合指定的HTML標(biāo)簽格式。
3. 模型的輸出結(jié)果包含兩個(gè)部分:第一部分是對推理過程的詳細(xì)描述,嵌入""標(biāo)簽中,闡述模型如何整合視覺和音頻信息進(jìn)行情感預(yù)測;第二部分是情感標(biāo)簽,嵌入""標(biāo)簽中,直接給出情感預(yù)測結(jié)果。
推理/理解/泛化三方面提升
4. 在實(shí)驗(yàn)評估階段,研究者將R1-Omni與以下三個(gè)基線模型進(jìn)行了比較:原始的開源全模態(tài)模型HumanOmni-0.5B、基于EMER數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)的模型EMER-SFT,以及基于MAFW和DFEW訓(xùn)練集的監(jiān)督微調(diào)模型MAFW-DFEW-SFT。評估指標(biāo)包括無加權(quán)平均召回率(UAR)和加權(quán)平均召回率(WAR),這兩者衡量了模型在不同情感類別中準(zhǔn)確分類情感的能力。
5. 實(shí)驗(yàn)結(jié)果表明,R1-Omni在推理能力、理解深度和泛化能力三個(gè)方面均顯著優(yōu)于其他三個(gè)對比模型。研究者通過一系列可視化示例對比了R1-Omni與另外三個(gè)模型的輸出結(jié)果,發(fā)現(xiàn)R1-Omni在推理過程的連貫性、準(zhǔn)確性和可解釋性方面均顯著優(yōu)于其他模型。
6. 與原始HumanOmni-0.5B相比,R1-Omni在推理能力上有所提升。同時(shí),與基于MAFW和DFEW訓(xùn)練的MAFW-DFEW-SFT模型相比,R1-Omni在推理過程的連貫性和準(zhǔn)確性上表現(xiàn)更為突出。相比之下,EMER-SFT模型雖然具備一定的推理能力,但其推理過程的連貫性較差,且容易產(chǎn)生幻覺。
7. 在情感識別任務(wù)中,R1-Omni模型展現(xiàn)出顯著的優(yōu)勢,特別是在處理復(fù)雜的情感場景時(shí)。研究者通過實(shí)驗(yàn)驗(yàn)證了該模型在不同情感類別上的分類能力,并展示了其在實(shí)際應(yīng)用中的潛力。
8. 該研究的另一個(gè)重要發(fā)現(xiàn)是,R1-Omni模型在情感識別任務(wù)中的表現(xiàn)不僅依賴于模型本身的復(fù)雜性,還與其所使用的訓(xùn)練數(shù)據(jù)密切相關(guān)。通過引入新的多模態(tài)數(shù)據(jù)集,研究者成功提升了模型的泛化能力,使其能夠更好地適應(yīng)各種實(shí)際應(yīng)用場景。
9. 總體而言,R1-Omni模型的構(gòu)建過程和實(shí)驗(yàn)結(jié)果表明,該模型在情感識別任務(wù)中表現(xiàn)優(yōu)異。其在推理能力、理解深度和泛化能力方面的優(yōu)勢,使其成為當(dāng)前研究領(lǐng)域中的一個(gè)重要突破。未來,研究者計(jì)劃進(jìn)一步優(yōu)化模型的性能,并探索其在更多實(shí)際應(yīng)用中的潛力。
在MAFW數(shù)據(jù)集組和DFEW數(shù)據(jù)集組上,R1-Omni模型在UAR和WAR指標(biāo)上均優(yōu)于其他現(xiàn)有模型。
例如,在DFEW數(shù)據(jù)集組上,R1-Omni模型實(shí)現(xiàn)了65.83%的UAR和56.27%的WAR,顯著優(yōu)于MAFW-DFEW-SFT模型的60.23%UAR和44.39%WAR。
為了驗(yàn)證模型的泛化性能,研究者在RAVDESS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。與MAFW和DFEW數(shù)據(jù)集不同,RAVDESS數(shù)據(jù)集的特點(diǎn)是專業(yè)演員以中性北美口音進(jìn)行詞匯匹配的陳述,這種顯著不同的數(shù)據(jù)分布特性使得RAVDESS成為評估模型在未見場景下泛化能力的理想測試集。
R1-Omni模型在RAVDESS數(shù)據(jù)集上相較于MAFW-DFEW-SFT模型實(shí)現(xiàn)了顯著提升,具體表現(xiàn)是43.00%的UAR和44.69%的WAR。
目前,基礎(chǔ)模型HumanOmni-0.5B、冷啟動(dòng)模型EMER-SFT、MAFW-DFEW-SFT以及最終優(yōu)化后的R1-Omni模型均已開源共享。
[1]https://arxiv.org/abs/2503.05379
[2]https://github.com/HumanMLLM/R1-Omni
改善睡眠的助眠保健品該怎么選,健康知識:失眠困擾,如何選擇助眠保健品? 全新五星迅刀不滅航路解析,《鳴潮》五星迅刀不滅航路屬性介紹 烤制全熟肉技巧,怪物獵人荒野12個(gè)全熟肉烤法全解析-烤制12個(gè)全熟肉技巧全解析 星際戰(zhàn)甲金星探索攻略,《星際戰(zhàn)甲》金星玩法攻略 輕松掌握游戲技巧,1. 刷滿月輕松掌握:怪物獵人荒野大euroripus實(shí)用方法2. 刷滿月技巧解析:怪物獵人荒野大euroripus快速進(jìn)階攻略3. 刷滿月輕松掌握:怪物獵人荒野大euroripus刷卡技巧全解析4. 刷滿月實(shí)用技巧分享:怪物獵人荒野大euroripus卡池刷卡攻略5. 刷滿月方法解析:怪物獵人荒野大euroripus卡池刷卡技巧全解析6. 刷滿月技巧全解析:怪物獵人荒野大euroripus快速刷卡方法分享7. 刷滿月實(shí)用技巧:怪物獵人荒野大euroripus卡池刷卡攻略8. 刷滿月方法全解析:怪物獵人荒野大euroripus刷卡技巧全解析9. 刷滿月實(shí)用方法:怪物獵人荒野大euroripus卡池刷卡攻略10. 刷滿月技巧全解析:怪物獵人荒野大euroripus快速刷卡方法 直降4萬超值優(yōu)惠,長安馬自達(dá)EZ-6官方指導(dǎo)價(jià)9.98萬元起,疊加國補(bǔ)后至2萬元說明:1. 去除冗長的表達(dá),將"官方補(bǔ)貼2萬元"簡化為"官方補(bǔ)貼至2萬元"2. 調(diào)整語序,先講品牌,再講價(jià)格和補(bǔ)貼3. 保持專業(yè)性,同時(shí)更加簡潔4. 關(guān)鍵信息"疊加國補(bǔ)后至2萬元"保留5. 使用"官方指導(dǎo)價(jià)"替代"官方補(bǔ)貼",保持專業(yè)性6. 整體長度較原文縮短約30%7. 保留所有核心信息 孕呼吸健康,健康科普:孕期失眠原因有哪些? Tbjbu2《Star Crafter》即將上線,Star Crafter游玩平臺推薦 閃光彈捕捉,荒野光蟲光蟲收集方法解析 冒險(xiǎn)自由,F(xiàn)REERIDE游戲官網(wǎng)地址:FREERIDE官網(wǎng)地址