国产精品久久国产三级国不卡顿,国产成人午夜福利免费无码R,亚洲日本欧美中文幕

聲明:本文來自于（ID:ykqsd.com）授權(quán)轉(zhuǎn)載發(fā)布。

首次實(shí)現(xiàn)DeepSeek同款RLVR技術(shù)在全模態(tài)大語言模型中的應(yīng)用，特別強(qiáng)調(diào)其視頻處理能力。

阿里通義實(shí)驗(yàn)室薄列峰團(tuán)隊(duì)近期推出了一個(gè)基于開源項(xiàng)目的R1-Omni模型。

同樣在杭州，團(tuán)隊(duì)的開源項(xiàng)目引發(fā)了廣泛討論，有人戲稱"開源雙feng"（狗頭保命）。

他們在這方面取得了哪些成果？

DeepSeek-R1模型結(jié)合了RLVR技術(shù)，已經(jīng)在幾何推理和視覺計(jì)數(shù)等任務(wù)上展現(xiàn)了出色表現(xiàn)。

然而，目前該技術(shù)尚未被擴(kuò)展至涵蓋音頻和動(dòng)態(tài)視覺內(nèi)容的全模態(tài)LLM。

薄列峰團(tuán)隊(duì)首次將RLVR與全模態(tài)LLM結(jié)合，聚焦于視覺和音頻模態(tài)共同發(fā)揮作用的情感識別任務(wù)。

團(tuán)隊(duì)的實(shí)驗(yàn)表明，改進(jìn)后的模型在多個(gè)關(guān)鍵指標(biāo)上均取得了顯著提升。

RLVR技術(shù)的引入不僅提升了模型在常規(guī)數(shù)據(jù)集上的性能，還在分布外數(shù)據(jù)集上增強(qiáng)了魯棒性。

更為重要的是，改進(jìn)后的模型能夠更清晰地分析不同模態(tài)在情感識別過程中的具體作用。

R1-Omni在X領(lǐng)域同樣獲得了廣泛關(guān)注：

還有觀點(diǎn)認(rèn)為，可解釋性機(jī)制與多模態(tài)學(xué)習(xí)構(gòu)成了下一代AI技術(shù)的核心方向：

讓我們深入了解R1-Omni的表現(xiàn)：

R1-Omni長啥樣？

在研究方法上，論文中介紹了與DeepSeek同款的RLVR和GRPO兩種訓(xùn)練方法：

其中，RLVR是一種創(chuàng)新的訓(xùn)練范式，其基本思路是通過驗(yàn)證函數(shù)直接評估輸出結(jié)果，無需像傳統(tǒng)的人類反饋強(qiáng)化學(xué)習(xí)（RLHF）那樣依賴單獨(dú)的獎(jiǎng)勵(lì)模型來根據(jù)人類偏好進(jìn)行訓(xùn)練：

具體來說，給定一個(gè)問題q，策略模型πθ生成一個(gè)響應(yīng)o，隨后使用驗(yàn)證獎(jiǎng)勵(lì)函數(shù)R(q,o)對其進(jìn)行評估，其優(yōu)化目標(biāo)是最大化驗(yàn)證獎(jiǎng)勵(lì)與基于KL散度的正則化項(xiàng)的差值：

該方法在簡化獎(jiǎng)勵(lì)機(jī)制的同時(shí)，確保了與其任務(wù)目標(biāo)保持一致的內(nèi)在正確性標(biāo)準(zhǔn)：

GRPO則是一種全新的強(qiáng)化學(xué)習(xí)方法，與常見的PPO方法不同，PPO依賴評論家模型來評估候選策略的性能，而GRPO直接比較生成的響應(yīng)組，避免了額外的評論家模型，從而簡化了訓(xùn)練過程：

通過引入歸一化評分機(jī)制，GRPO能夠鼓勵(lì)模型在響應(yīng)組內(nèi)優(yōu)先選擇獎(jiǎng)勵(lì)值較高的輸出，從而增強(qiáng)了模型區(qū)分高質(zhì)量和低質(zhì)量輸出的能力：

團(tuán)隊(duì)在遵循DeepSeek-R1提出的框架基礎(chǔ)上，將GRPO與RLVR相結(jié)合，進(jìn)一步提升了模型性能。

本篇文章詳細(xì)介紹了R1-Omni模型的構(gòu)建過程及其在情感識別任務(wù)中的應(yīng)用。以下是改寫后的文章：

1. 在構(gòu)建R1-Omni模型時(shí)，團(tuán)隊(duì)參考了DeepSeek-R1的訓(xùn)練方法，設(shè)計(jì)了一種冷啟動(dòng)策略。具體而言，他們將該策略應(yīng)用于融合了232個(gè)可解釋多模態(tài)（視覺和音頻）情感推理數(shù)據(jù)集（EMER）樣本和348個(gè)人工標(biāo)注的HumanOmni數(shù)據(jù)集樣本的綜合數(shù)據(jù)集上，對專門針對人類場景理解的開源全模態(tài)模型HumanOmni-0.5B進(jìn)行微調(diào)訓(xùn)練。

2. 通過RLVR（可能為某種訓(xùn)練優(yōu)化方法）對模型進(jìn)行了訓(xùn)練優(yōu)化，獎(jiǎng)勵(lì)函數(shù)由兩部分組成：情感預(yù)測的準(zhǔn)確率獎(jiǎng)勵(lì)和格式符合度獎(jiǎng)勵(lì)。準(zhǔn)確率獎(jiǎng)勵(lì)用于評估預(yù)測情感與真實(shí)情感的匹配度，而格式獎(jiǎng)勵(lì)則確保模型輸出符合指定的HTML標(biāo)簽格式。

3. 模型的輸出結(jié)果包含兩個(gè)部分：第一部分是對推理過程的詳細(xì)描述，嵌入""標(biāo)簽中，闡述模型如何整合視覺和音頻信息進(jìn)行情感預(yù)測；第二部分是情感標(biāo)簽，嵌入""標(biāo)簽中，直接給出情感預(yù)測結(jié)果。

推理/理解/泛化三方面提升

4. 在實(shí)驗(yàn)評估階段，研究者將R1-Omni與以下三個(gè)基線模型進(jìn)行了比較：原始的開源全模態(tài)模型HumanOmni-0.5B、基于EMER數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)的模型EMER-SFT，以及基于MAFW和DFEW訓(xùn)練集的監(jiān)督微調(diào)模型MAFW-DFEW-SFT。評估指標(biāo)包括無加權(quán)平均召回率（UAR）和加權(quán)平均召回率（WAR），這兩者衡量了模型在不同情感類別中準(zhǔn)確分類情感的能力。

5. 實(shí)驗(yàn)結(jié)果表明，R1-Omni在推理能力、理解深度和泛化能力三個(gè)方面均顯著優(yōu)于其他三個(gè)對比模型。研究者通過一系列可視化示例對比了R1-Omni與另外三個(gè)模型的輸出結(jié)果，發(fā)現(xiàn)R1-Omni在推理過程的連貫性、準(zhǔn)確性和可解釋性方面均顯著優(yōu)于其他模型。

6. 與原始HumanOmni-0.5B相比，R1-Omni在推理能力上有所提升。同時(shí)，與基于MAFW和DFEW訓(xùn)練的MAFW-DFEW-SFT模型相比，R1-Omni在推理過程的連貫性和準(zhǔn)確性上表現(xiàn)更為突出。相比之下，EMER-SFT模型雖然具備一定的推理能力，但其推理過程的連貫性較差，且容易產(chǎn)生幻覺。

7. 在情感識別任務(wù)中，R1-Omni模型展現(xiàn)出顯著的優(yōu)勢，特別是在處理復(fù)雜的情感場景時(shí)。研究者通過實(shí)驗(yàn)驗(yàn)證了該模型在不同情感類別上的分類能力，并展示了其在實(shí)際應(yīng)用中的潛力。

8. 該研究的另一個(gè)重要發(fā)現(xiàn)是，R1-Omni模型在情感識別任務(wù)中的表現(xiàn)不僅依賴于模型本身的復(fù)雜性，還與其所使用的訓(xùn)練數(shù)據(jù)密切相關(guān)。通過引入新的多模態(tài)數(shù)據(jù)集，研究者成功提升了模型的泛化能力，使其能夠更好地適應(yīng)各種實(shí)際應(yīng)用場景。

9. 總體而言，R1-Omni模型的構(gòu)建過程和實(shí)驗(yàn)結(jié)果表明，該模型在情感識別任務(wù)中表現(xiàn)優(yōu)異。其在推理能力、理解深度和泛化能力方面的優(yōu)勢，使其成為當(dāng)前研究領(lǐng)域中的一個(gè)重要突破。未來，研究者計(jì)劃進(jìn)一步優(yōu)化模型的性能，并探索其在更多實(shí)際應(yīng)用中的潛力。

在MAFW數(shù)據(jù)集組和DFEW數(shù)據(jù)集組上，R1-Omni模型在UAR和WAR指標(biāo)上均優(yōu)于其他現(xiàn)有模型。

例如，在DFEW數(shù)據(jù)集組上，R1-Omni模型實(shí)現(xiàn)了65.83%的UAR和56.27%的WAR，顯著優(yōu)于MAFW-DFEW-SFT模型的60.23%UAR和44.39%WAR。

為了驗(yàn)證模型的泛化性能，研究者在RAVDESS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。與MAFW和DFEW數(shù)據(jù)集不同，RAVDESS數(shù)據(jù)集的特點(diǎn)是專業(yè)演員以中性北美口音進(jìn)行詞匯匹配的陳述，這種顯著不同的數(shù)據(jù)分布特性使得RAVDESS成為評估模型在未見場景下泛化能力的理想測試集。

R1-Omni模型在RAVDESS數(shù)據(jù)集上相較于MAFW-DFEW-SFT模型實(shí)現(xiàn)了顯著提升，具體表現(xiàn)是43.00%的UAR和44.69%的WAR。

目前，基礎(chǔ)模型HumanOmni-0.5B、冷啟動(dòng)模型EMER-SFT、MAFW-DFEW-SFT以及最終優(yōu)化后的R1-Omni模型均已開源共享。

[1]https://arxiv.org/abs/2503.05379

[2]https://github.com/HumanMLLM/R1-Omni