国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長之家 - 業(yè)界 2025-03-12 19:08:03

RLVR在視頻大語言模型中的應用,開源項目R1-Omni首次結合全模態(tài)情感識別

聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。

首次嘗試將官方同款RLVR應用于全模態(tài)大語言模型,尤其是在視頻相關領域取得了突破。

在杭州,阿里通義實驗室薄列峰團隊又開卷了,開源項目R1-Omni來了。

同樣在杭州,這是在搞什么「開源雙頂流」(頂流)?

他們又做了些什么?

DeepSeek-R1帶火了RLVR(可驗證獎勵強化學習),此前已有團隊將RLVR用于圖像-文本多模態(tài)LLM,證明其在幾何推理和視覺計數(shù)等任務上表現(xiàn)優(yōu)異。

然而,還未深入探索將其與包含音頻、動態(tài)視覺內容的全模態(tài)LLM結合。

薄列峰團隊首次嘗試將RLVR與全模態(tài)LLM結合,聚焦的是視覺和音頻模態(tài)都提供關鍵作用的情感識別任務。

團隊實驗發(fā)現(xiàn),模型在三個關鍵指標上有顯著提升:

RLVR的引入不僅提升了模型在訓練數(shù)據(jù)集上的表現(xiàn),還在測試數(shù)據(jù)集上表現(xiàn)出更強的魯棒性。

更重要的是,提升后的推理能力使得我們能夠清晰地分析在情感識別過程中不同模態(tài)所起的作用。

在X平臺,R1-Omni同樣受到了不少網(wǎng)友的關注:

還有部分網(wǎng)友表示,可解釋性與多模態(tài)學習將成為下一代AI研究的重點方向。

現(xiàn)在,讓我們一起深入探討一下R1-Omni的技術原理。

R1-Omni長啥樣?

在論文方法論部分,作者首先介紹了與DeepSeek同款的RLVR和GRPO算法。

RLVR是一種創(chuàng)新的訓練范式,其核心思想是通過驗證函數(shù)直接評估輸出的質量,無需像傳統(tǒng)的人類反饋強化學習(RLHF)那樣依賴單獨的獎勵模型來根據(jù)人類偏好進行訓練。

具體來說,當給定輸入問題q時,策略模型πθ生成響應o,隨后利用可驗證獎勵函數(shù)R(q,o)對其進行評估,其優(yōu)化目標是最大化驗證獎勵減去基于KL散度的正則化項。

這種RLVR方法在簡化了獎勵機制的同時,確保了其與任務內在正確性標準的一致性。

GRPO則是一種全新的強化學習方法,與傳統(tǒng)的方法如PPO有所不同,PPO依賴于一個評論家模型來評估候選策略的性能,而GRPO直接比較生成的響應組,避免了使用額外的評論家模型,從而簡化了整個訓練過程。

通過引入歸一化評分機制,GRPO能夠鼓勵模型在組內優(yōu)先選擇獎勵值更高的響應,從而增強了模型區(qū)分高質量和低質量輸出的能力。

在DeepSeek-R1方法的啟發(fā)下,研究團隊將GRPO與RLVR相結合,進一步提升了模型的性能。

在R1-Omni模型構建方面,團隊參考了DeepSeek-R1的訓練方法,采用了一種適用于 cold-start 的策略。

該研究在包含232個可解釋多模態(tài)(視覺和音頻)情感推理數(shù)據(jù)集(EMER)樣本和348個手動標注的HumanOmni數(shù)據(jù)集樣本的綜合數(shù)據(jù)集上,對HumanOmni-0.5B進行了微調。通過這種方式,模型獲得了基本的推理能力,并能夠理解視覺和音頻線索如何影響情感識別。具體而言,模型能夠識別出視覺和音頻線索如何共同作用以得出情感預測結論。

在微調過程中,研究者采用了基于強化學習的方法。獎勵函數(shù)由兩部分組成:準確率獎勵和格式獎勵。準確率獎勵用于評估模型預測的情感與真實情感之間的匹配程度,而格式獎勵則確保模型輸出符合預定義的HTML標簽格式。

模型的輸出結果分為兩個部分:推理過程部分嵌入""標簽中,用于解釋模型如何整合視覺和音頻線索得出情感預測;情感標簽部分嵌入""標簽中,用于表示模型最終預測的情感。

推理/理解/泛化三方面提升

在實驗評估中,研究者將R1-Omni與三個基線模型進行了比較。這些基線模型包括:原始的HumanOmni-0.5B、在EMER數(shù)據(jù)集上進行監(jiān)督微調的模型EMER-SFT,以及直接在MAFW和DFEW訓練集上基于HumanOmni-0.5B進行監(jiān)督微調的模型MAFW-DFEW-SFT。

評估指標包括無加權平均召回率(UAR)和加權平均召回率(WAR)。這些指標用于量化模型在不同情感類別中準確分類情感的能力。UAR和WAR的計算考慮了所有情感類別的權重,因此能夠更全面地反映模型的性能。

該研究特別強調了所有評估均在開放詞匯情感測試(OV-emotion)協(xié)議下進行。在該協(xié)議下,模型無需依賴預定義的情感類別,而是直接從輸入數(shù)據(jù)中生成情感標簽。這種設置增加了評估的挑戰(zhàn)性和實際應用價值,因為真實世界中的情感表達往往是多樣的且不固定的。

實驗結果表明,R1-Omni在三個關鍵方面顯著優(yōu)于其他三個對比模型:推理能力的提升、理解能力的增強以及泛化能力的顯著提高。

研究者通過一系列可視化示例展示了R1-Omni與其它三個模型的輸出對比。結果顯示,R1-Omni的推理過程更加連貫、準確且易于解釋。相比之下,原始HumanOmni-0.5B和MAFW-DFEW-SFT模型在推理能力方面表現(xiàn)有限,而EMER-SFT模型雖然具備一定的推理能力,但其推理過程的連貫性較差且容易導致幻覺。

通過對比實驗,研究者進一步驗證了R1-Omni模型在多模態(tài)情感識別任務中的優(yōu)越性。

在MAFW和DFEW兩個數(shù)據(jù)集上,R1-Omni模型在UAR和WAR指標上均優(yōu)于其他現(xiàn)有模型。

例如,在DFEW數(shù)據(jù)集上,R1-Omni模型獲得了65.83%的UAR和56.27%的WAR,這一成績顯著優(yōu)于MAFW-DFEW-SFT模型的60.23% UAR和44.39% WAR。

為了評估模型的泛化能力,研究者在RAVDESS數(shù)據(jù)集上進行了實驗研究。與MAFW和DFEW數(shù)據(jù)集相比,RAVDESS數(shù)據(jù)集的獨特之處在于,其特點是專業(yè)演員使用中性北美口音表達陳述,這種顯著的語料分布差異使其成為評估模型在未見場景下泛化能力的理想測試基準。

在RAVDESS數(shù)據(jù)集上,相較于MAFW-DFEW-SFT模型,R1-Omni取得了顯著提升,實現(xiàn)了43.00%的UAR和44.69%的WAR。

目前,基礎模型HumanOmni-0.5B、冷啟動模型EMER-SFT、MAFW-DFEW-SFT模型以及最終優(yōu)化后的R1-Omni模型均已開源發(fā)布。

[1]https://arxiv.org/abs/2503.05379

[2]https://github.com/HumanMLLM/R1-Omni

荒野中的快捷鍵全解析,怪物獵人荒野特殊狀態(tài)全解析及實用技巧分享 游戲設置大優(yōu)化,浪人崛起:降低戰(zhàn)斗難度的方法介紹 花色屬性游戲體驗與視覺效果,《天天闖關》花色屬性介紹 腦洞茬里王通關秘籍職場新垣腦洞大開,《腦洞茬里王》貴婦迷案通關攻略 怪物之家2解謎勇冠章冠 - Steam購買鏈接https//store.steampowered.com/app/3532890/2/,怪物之家2勛章官網(wǎng)地址 | 游戲官網(wǎng)地址查詢說明:我已將標題進行了簡化和調整,主要做了以下優(yōu)化:1. 去掉了重復的部分(在哪、介紹)2. 使用了更簡潔的表達方式3. 保留了核心信息:怪物之家2、勛章、官網(wǎng)地址4. 保持了專業(yè)性和易讀性這個標題既簡潔又準確,能夠有效傳達你需要的信息。 月亮市集支線任務,雙影奇境月亮市集觸發(fā)任務說明 攻速易傷流,《口袋斗蛐蛐》巨熊之靈流派攻略 短劇《180天》,周雨彤搭檔吳越,新劇《好東西》難登8分位 夜空啟航,《第五人格》弓箭手違格危魯弗皮膚分享 神裝哪吒技能狂飆傷害真實,《幻境旅者》英靈選擇推薦
     
殺狗現(xiàn)場

殺狗現(xiàn)場

大小:79mb更新:2025-03-12 19:08:03

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 殺狗現(xiàn)場
  • 殺狗現(xiàn)場
  • 殺狗現(xiàn)場

游戲特色

‘我該如何提醒?’安德魯靠在椅子上,停止了加入舍友的對話,開始默默思考補救方案來。還來得及,是真的可以搶救一波卡卡洛夫他們的。

萬幸今天和修斯聊起來,談論卡卡洛夫的生平,不然他都不會注意到這個大坑。將心比心,他是沒鼻子,他也得先把卡卡洛夫弄死——哪怕是那個魂器也不例外。

本來就膈應人,還老是在眼前跳來跳去的,不殺才奇怪了?!以撊绾翁嵝涯??’‘我該不該知道魂器?’‘該,上次院長說過了,就在我把冠冕交上去后?!?/p>

‘那卡卡洛夫是叛徒的事情?’‘也可以,我本來不知道,但是修斯調查過,這是個好借口?!畯突钸@件事,也好推測出來,那么暗殺卡卡洛夫這件事,確實我能知道?!?/p>

‘那還等什么?’安德魯站起身來,“你們先聊,我得出去一趟?!薄安皇?,安德魯,沒聊具體內容,我們只是在說有不少學姐提供了非常強力的參考文獻來著?!?/p>

哈爾快速解釋著?!安皇?,參考文獻?”安德魯愣了下,“什么參考文獻?”話音剛剛落下,他就后悔了——還能是啥?“從麻瓜世界里帶過來的刊物,麻瓜貴族的一些奇怪的記錄,還有一些市場上流行的奇怪的書刊,她們偷偷帶進來學校好些呢?!?/p>

哈爾顯然是做過功課的,舉例舉的非常全面?!揖椭?!但這玩意出的越快,卡卡洛夫死的越慘啊!’失鼻者的黑魔法不是開玩笑的,他那個人也從來不喜歡開玩笑——尤其是天王星牽扯到他的時候。

本來卡卡洛夫就一身的buff了,再加上一點,那真的是一點就炸啊。安德魯匆匆聽完哈爾解釋,然后直接朝著校長辦公室跑去。

鄧布利多此刻正在準備今晚的開學演講,在看到安德魯?shù)臅r候還在笑,但在發(fā)現(xiàn)安德魯臉上的匆忙之后整個人表情一下子嚴肅起來了。

“安德魯,發(fā)生什么事情了,這么急匆匆的?”“我有個事情需要匯報,校長,不過不是校內的?!卑驳卖斂焖偕昝髌饋怼〉目雌饋硪惑@一乍的。

游戲亮點

自己是修仙正道,身上哪來的邪氣?“不只你有,黃二體內也有。”師父自顧自的道:“你不能留在這里太久,你得回到屬于你的時代?!?/p>

“可是師父,我還有很多疑惑。”陳黃皮道:“我身上的那些金黑色的文字,究竟是什么東西?它們真是我的伴生文字嗎?”

“那個啊……”師父猶豫了一會兒,便說道:“倒也不是什么大事,還記得當年追殺你的那些蟲豸嗎?”“當然記得,它們有的還吃了我的力量,變成了蒼青色的大蛾子?!?/p>

“不過后來那些蟲豸都被師父你給殺了?!薄暗@和我身上的文字有什么關系?”“你身上的文字,不屬于此界。”

游戲玩法

但隨后,眾人卻覺察到了一絲異樣。這位來自地府的大人物雖然嘴上說著算了,但是卻并沒有就此離開,也沒有散去周圍的無邊黑霧。

各方勢力都代表,依舊被困在這無邊黑暗之中。能夠第一時間搶到介入靈氣復蘇任務,在場的眾人哪個不是人老成精?稍作思索之后,眾人心中已然明白了其中的原因,儲卓群更是直接恭敬開口道:

“北邙禁地之亂絕非尊上所致,尊上何必自責?禁地既然已經(jīng)墜入人間,我等身為人間各方勢力的代表,自然是責無旁貸。還請尊上指點,如何才能解決北邙禁地之禍?!?/p>

評測

METAL EDEN5月7日發(fā)布5月6日預載,METAL EDEN發(fā)布日期是什么時候

機匣戰(zhàn)場,《逆水寒手游》說英雄卡機匣專家獲得方法

《街機恐龍》漢娜 women hero's strategic guide,《街機恐龍》漢娜英雄技能介紹

Mastering Longsword Pairing in Monster Hunter Wild,怪物獵人荒野:長槍配裝思路分享

一起越野跨平臺合作大作戰(zhàn),一起越野 Off Road Together游戲官網(wǎng)地址

顯示全部

熱門推薦
玩家評論
我要跟貼
取消
最新手游