日韩美女网站在线看,一区二区三区国产高清视频在线

聲明:本文來自于（ID:ykqsd.com）授權(quán)轉(zhuǎn)載發(fā)布。

首次將DeepSeek同款的RLVR技術(shù)成功應(yīng)用于全模態(tài)大語言模型，并特別關(guān)注含視頻內(nèi)容的場景。

通義實(shí)驗(yàn)室的薄列峰團(tuán)隊(duì)再次推出了開源的R1-Omni模型。

同樣在杭州，通義實(shí)驗(yàn)室的開源活動(dòng)引發(fā)了關(guān)注，有人戲稱"開源雙feng"，寓意著開源的力量。

他們又做了哪些創(chuàng)新工作？

DeepSeek-R1模型成功推動(dòng)了RLVR技術(shù)的普及，此前的研究團(tuán)隊(duì)已將RLVR應(yīng)用于圖像-文本多模態(tài)LLM，其在幾何推理和視覺計(jì)數(shù)等任務(wù)中展現(xiàn)出卓越的性能。

盡管如此，目前尚未有研究將RLVR技術(shù)與包含音頻和動(dòng)態(tài)視覺內(nèi)容的全模態(tài)LLM進(jìn)行結(jié)合。

通義實(shí)驗(yàn)室的薄列峰團(tuán)隊(duì)首次將RLVR技術(shù)應(yīng)用于全模態(tài)LLM，重點(diǎn)研究了視覺和音頻模態(tài)協(xié)同作用的情感識(shí)別任務(wù)。

實(shí)驗(yàn)結(jié)果表明，該模型在多個(gè)關(guān)鍵指標(biāo)上取得了顯著提升：

引入RLVR技術(shù)不僅提升了模型在訓(xùn)練數(shù)據(jù)集上的性能表現(xiàn)，還在分布外數(shù)據(jù)集上表現(xiàn)出更強(qiáng)的魯棒性。

改進(jìn)后的模型在推理速度和資源利用率上都有顯著提升，更重要的是，其在情感識(shí)別過程中各模態(tài)之間的相互作用分析能力得到了明顯增強(qiáng)。

R1-Omni在這一領(lǐng)域也受到了不少網(wǎng)友的關(guān)注：

可解釋性與多模態(tài)學(xué)習(xí)被認(rèn)為是下一代AI研究的重要方向之一。

讓我們具體了解一下R1-Omni。

R1-Omni長啥樣？

在研究方法上，論文首先介紹了與DeepSeek同款的RLVR和GRPO算法。

RLVR是一種創(chuàng)新的訓(xùn)練方法，其核心思想是通過驗(yàn)證函數(shù)直接評(píng)估輸出結(jié)果，無需依賴傳統(tǒng)的人類偏好導(dǎo)向的獎(jiǎng)勵(lì)模型。

當(dāng)給定輸入問題q時(shí)，策略模型πθ生成響應(yīng)o，隨后應(yīng)用可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)R(q,o)對(duì)其進(jìn)行評(píng)估，其核心目標(biāo)是通過最大化驗(yàn)證獎(jiǎng)勵(lì)減去KL散度正則化項(xiàng)來優(yōu)化模型。

該方法在簡化獎(jiǎng)勵(lì)機(jī)制的同時(shí)，確保了其與任務(wù)內(nèi)在評(píng)價(jià)標(biāo)準(zhǔn)的一致性。

GRPO是一種全新的強(qiáng)化學(xué)習(xí)方法，與現(xiàn)有的PPO等傳統(tǒng)方法不同，PPO依賴于一個(gè)評(píng)論家模型來評(píng)估候選策略的性能，而GRPO直接比較生成的響應(yīng)組，無需依賴額外的評(píng)論家模型，從而簡化了整個(gè)訓(xùn)練流程。

通過引入歸一化評(píng)分機(jī)制，GRPO算法鼓勵(lì)模型在組內(nèi)優(yōu)先選擇獎(jiǎng)勵(lì)值更高的響應(yīng)，從而增強(qiáng)了模型區(qū)分高質(zhì)量和低質(zhì)量輸出的能力。

參考DeepSeek-R1中的方法論，研究團(tuán)隊(duì)將GRPO與RLVR進(jìn)行了整合，形成了新的研究框架。

在R1-Omni模型的開發(fā)過程中，團(tuán)隊(duì)基于DeepSeek-R1訓(xùn)練方法的啟發(fā)，設(shè)計(jì)了一種冷啟動(dòng)方案。

該研究在整合了232個(gè)可解釋多模態(tài)數(shù)據(jù)集（包含視覺和音頻樣本）以及348個(gè)人工標(biāo)注的HumanOmni數(shù)據(jù)集樣本的綜合數(shù)據(jù)集上，對(duì)開源全模態(tài)模型HumanOmni-0.5B進(jìn)行了微調(diào)訓(xùn)練，以提升其情感識(shí)別能力。通過這一過程，模型能夠初步理解視覺和音頻線索對(duì)情感識(shí)別的影響。

在微調(diào)優(yōu)化階段，研究團(tuán)隊(duì)采用了基于RLVR的訓(xùn)練方法，其獎(jiǎng)勵(lì)函數(shù)由準(zhǔn)確率獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)組成。準(zhǔn)確率獎(jiǎng)勵(lì)用于評(píng)估模型預(yù)測情感與真實(shí)情感的匹配度，而格式獎(jiǎng)勵(lì)則確保了模型輸出符合指定的HTML標(biāo)簽格式。

模型輸出設(shè)計(jì)包括兩個(gè)主要部分：第一部分是一個(gè)推理過程，內(nèi)容被封裝在特定的標(biāo)簽內(nèi)，詳細(xì)解釋了模型如何整合視覺和音頻信息得出預(yù)測結(jié)論；第二部分則是一個(gè)情感標(biāo)簽，同樣被封裝在標(biāo)簽內(nèi)，表示最終預(yù)測的情感。

推理/理解/泛化三方面提升

在實(shí)驗(yàn)評(píng)估中，研究者將R1-Omni與三個(gè)基線模型進(jìn)行了對(duì)比：原始的HumanOmni-0.5B、在EMER數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)的模型EMER-SFT，以及直接在MAFW和DFEW訓(xùn)練集上基于HumanOmni-0.5B進(jìn)行監(jiān)督微調(diào)的模型MAFW-DFEW-SFT。

評(píng)估指標(biāo)主要采用無加權(quán)平均召回率（UAR）和加權(quán)平均召回率（WAR），這些指標(biāo)能夠有效衡量模型在不同情感類別中準(zhǔn)確分類情感的能力。

值得注意的是，所有評(píng)估實(shí)驗(yàn)均在開放詞匯情感測試（OV-emotion）協(xié)議下進(jìn)行。在這種設(shè)置下，模型無需依賴預(yù)定義的情感類別，而是能夠直接從輸入數(shù)據(jù)中生成情感標(biāo)簽，這不僅增加了評(píng)估的挑戰(zhàn)性，也為實(shí)際應(yīng)用提供了更高的價(jià)值。

實(shí)驗(yàn)結(jié)果顯示，R1-Omni在三個(gè)關(guān)鍵指標(biāo)上均優(yōu)于其他三個(gè)對(duì)比模型：推理能力的提升、理解能力的增強(qiáng)、以及泛化能力的顯著提高。

研究者通過一系列可視化示例展示了R1-Omni與其它三個(gè)模型的輸出對(duì)比，結(jié)果顯示R1-Omni能夠提供更加連貫、準(zhǔn)確且易于理解的推理過程。

相比之下，原始HumanOmni-0.5B模型在推理能力方面表現(xiàn)較為有限，而EMER-SFT模型雖然具備一定的推理能力，但其推理過程的連貫性較差且容易產(chǎn)生主觀臆斷。MAFW-DFEW-SFT模型雖然在某些方面有所提升，但整體表現(xiàn)仍無法與R1-Omni相媲美。

在MAFW和DFEW數(shù)據(jù)集上，R1-Omni在UAR和WAR指標(biāo)上均表現(xiàn)優(yōu)于其他模型。

例如，在DFEW數(shù)據(jù)集上，R1-Omni實(shí)現(xiàn)了65.83%的UAR和56.27%的WAR，顯著優(yōu)于MAFW-DFEW-SFT的60.23%UAR和44.39%WAR。

為了評(píng)估模型的泛化能力，研究者在RAVDESS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，該數(shù)據(jù)集被用作分布外（OOD）測試集。

與主要由電影片段組成的MAFW和DFEW數(shù)據(jù)集不同，RAVDESS數(shù)據(jù)集的特點(diǎn)是以中性北美口音發(fā)表詞匯匹配的陳述，這種顯著的數(shù)據(jù)分布差異使得RAVDESS成為評(píng)估模型在未見場景下泛化能力的理想基準(zhǔn)。

R1-Omni在RAVDESS數(shù)據(jù)集上相較于MAFW-DFEW-SFT模型實(shí)現(xiàn)了顯著提升，UAR和WAR分別為43.00%和44.69%。

目前，基礎(chǔ)模型HumanOmni-0.5B、冷啟動(dòng)模型EMER-SFT，以及MAFW-DFEW-SFT和最終模型R1-Omni均已開源。

[1]https://arxiv.org/abs/2503.05379[2]https://github.com/HumanMLLM/R1-Omni

南桃北柳，楊柳青年畫的南北二派疾風(fēng)勁弓，怪物獵人荒野：輪椅弓配裝方法介紹招募系統(tǒng)技巧干員獲取全解析，《明日方舟：終末地》招募攻略合作速遞，曝某新勢力與法拉利合作腦洞大開的攻略，《腦洞非常大》擺爛通關(guān)攻略 25分鐘啟航開啟低空交通新時(shí)代，上海浦東低空交通運(yùn)輸體系建設(shè)今日試飛部分航線硬核實(shí)力派，全球首款純電SUV 10.98萬起售，直擊自主新能源領(lǐng)域——豐田推出全新緊湊型SUV（解釋：1. "全球第一拼了！"改為"全球首款"，更簡潔明了2. "豐田純電緊湊型SUV"改為"全新緊湊型SUV"，更符合中文表達(dá)習(xí)慣3. "10.98萬起售"保留，價(jià)格信息不變4. "硬剛自主新能源"改為"直擊自主新能源領(lǐng)域"，更簡潔有力5. 語序調(diào)整為先講車型，再講價(jià)格，最后點(diǎn)出挑戰(zhàn)領(lǐng)域，邏輯更清晰6. 整體標(biāo)題更簡潔有力，同時(shí)準(zhǔn)確傳達(dá)了豐田推出新車型的核心信息）合作開源違規(guī)整頓辟謠 truth，早資道 | 阿里通義回應(yīng)與Manus的合作；華為內(nèi)部通報(bào)整頓"違規(guī)招聘" 夏季防曬飲食小貼士，防曬食譜：意想不到的"光敏感食物"大集合說明：1. 保持了原文的核心內(nèi)容，將"防曬飲食攻略"改為更簡潔的"防曬食譜"2. 將"揭秘你意想不到的"改為更口語化的"意想不到的"3. 使用"大集合"使標(biāo)題更完整4. 調(diào)整了語序，使標(biāo)題更流暢5. 保留了關(guān)鍵信息：防曬、光敏食物6. 整體標(biāo)題更加簡潔明了，易于理解荒野裝備蟲棍畢業(yè)裝搭配與飛行騎乘技巧，怪物獵人荒野之息蟲棍畢業(yè)裝搭配推薦-蟲棍畢業(yè)配裝指南