国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長之家 - 業(yè)界 2025-03-12 15:50:41

RLVR在視頻大語言模型中的應(yīng)用,開源項目R1-Omni首次結(jié)合全模態(tài)情感識別

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

首次嘗試將官方同款RLVR應(yīng)用于全模態(tài)大語言模型,尤其是在視頻相關(guān)領(lǐng)域取得了突破。

在杭州,阿里通義實驗室薄列峰團隊又開卷了,開源項目R1-Omni來了。

同樣在杭州,這是在搞什么「開源雙頂流」(頂流)?

他們又做了些什么?

DeepSeek-R1帶火了RLVR(可驗證獎勵強化學(xué)習(xí)),此前已有團隊將RLVR用于圖像-文本多模態(tài)LLM,證明其在幾何推理和視覺計數(shù)等任務(wù)上表現(xiàn)優(yōu)異。

然而,還未深入探索將其與包含音頻、動態(tài)視覺內(nèi)容的全模態(tài)LLM結(jié)合。

薄列峰團隊首次嘗試將RLVR與全模態(tài)LLM結(jié)合,聚焦的是視覺和音頻模態(tài)都提供關(guān)鍵作用的情感識別任務(wù)。

團隊實驗發(fā)現(xiàn),模型在三個關(guān)鍵指標上有顯著提升:

RLVR的引入不僅提升了模型在訓(xùn)練數(shù)據(jù)集上的表現(xiàn),還在測試數(shù)據(jù)集上表現(xiàn)出更強的魯棒性。

更重要的是,提升后的推理能力使得我們能夠清晰地分析在情感識別過程中不同模態(tài)所起的作用。

在X平臺,R1-Omni同樣受到了不少網(wǎng)友的關(guān)注:

還有部分網(wǎng)友表示,可解釋性與多模態(tài)學(xué)習(xí)將成為下一代AI研究的重點方向。

現(xiàn)在,讓我們一起深入探討一下R1-Omni的技術(shù)原理。

R1-Omni長啥樣?

在論文方法論部分,作者首先介紹了與DeepSeek同款的RLVR和GRPO算法。

RLVR是一種創(chuàng)新的訓(xùn)練范式,其核心思想是通過驗證函數(shù)直接評估輸出的質(zhì)量,無需像傳統(tǒng)的人類反饋強化學(xué)習(xí)(RLHF)那樣依賴單獨的獎勵模型來根據(jù)人類偏好進行訓(xùn)練。

具體來說,當給定輸入問題q時,策略模型πθ生成響應(yīng)o,隨后利用可驗證獎勵函數(shù)R(q,o)對其進行評估,其優(yōu)化目標是最大化驗證獎勵減去基于KL散度的正則化項。

這種RLVR方法在簡化了獎勵機制的同時,確保了其與任務(wù)內(nèi)在正確性標準的一致性。

GRPO則是一種全新的強化學(xué)習(xí)方法,與傳統(tǒng)的方法如PPO有所不同,PPO依賴于一個評論家模型來評估候選策略的性能,而GRPO直接比較生成的響應(yīng)組,避免了使用額外的評論家模型,從而簡化了整個訓(xùn)練過程。

通過引入歸一化評分機制,GRPO能夠鼓勵模型在組內(nèi)優(yōu)先選擇獎勵值更高的響應(yīng),從而增強了模型區(qū)分高質(zhì)量和低質(zhì)量輸出的能力。

在DeepSeek-R1方法的啟發(fā)下,研究團隊將GRPO與RLVR相結(jié)合,進一步提升了模型的性能。

在R1-Omni模型構(gòu)建方面,團隊參考了DeepSeek-R1的訓(xùn)練方法,采用了一種適用于 cold-start 的策略。

該研究在包含232個可解釋多模態(tài)(視覺和音頻)情感推理數(shù)據(jù)集(EMER)樣本和348個手動標注的HumanOmni數(shù)據(jù)集樣本的綜合數(shù)據(jù)集上,對HumanOmni-0.5B進行了微調(diào)。通過這種方式,模型獲得了基本的推理能力,并能夠理解視覺和音頻線索如何影響情感識別。具體而言,模型能夠識別出視覺和音頻線索如何共同作用以得出情感預(yù)測結(jié)論。

在微調(diào)過程中,研究者采用了基于強化學(xué)習(xí)的方法。獎勵函數(shù)由兩部分組成:準確率獎勵和格式獎勵。準確率獎勵用于評估模型預(yù)測的情感與真實情感之間的匹配程度,而格式獎勵則確保模型輸出符合預(yù)定義的HTML標簽格式。

模型的輸出結(jié)果分為兩個部分:推理過程部分嵌入""標簽中,用于解釋模型如何整合視覺和音頻線索得出情感預(yù)測;情感標簽部分嵌入""標簽中,用于表示模型最終預(yù)測的情感。

推理/理解/泛化三方面提升

在實驗評估中,研究者將R1-Omni與三個基線模型進行了比較。這些基線模型包括:原始的HumanOmni-0.5B、在EMER數(shù)據(jù)集上進行監(jiān)督微調(diào)的模型EMER-SFT,以及直接在MAFW和DFEW訓(xùn)練集上基于HumanOmni-0.5B進行監(jiān)督微調(diào)的模型MAFW-DFEW-SFT。

評估指標包括無加權(quán)平均召回率(UAR)和加權(quán)平均召回率(WAR)。這些指標用于量化模型在不同情感類別中準確分類情感的能力。UAR和WAR的計算考慮了所有情感類別的權(quán)重,因此能夠更全面地反映模型的性能。

該研究特別強調(diào)了所有評估均在開放詞匯情感測試(OV-emotion)協(xié)議下進行。在該協(xié)議下,模型無需依賴預(yù)定義的情感類別,而是直接從輸入數(shù)據(jù)中生成情感標簽。這種設(shè)置增加了評估的挑戰(zhàn)性和實際應(yīng)用價值,因為真實世界中的情感表達往往是多樣的且不固定的。

實驗結(jié)果表明,R1-Omni在三個關(guān)鍵方面顯著優(yōu)于其他三個對比模型:推理能力的提升、理解能力的增強以及泛化能力的顯著提高。

研究者通過一系列可視化示例展示了R1-Omni與其它三個模型的輸出對比。結(jié)果顯示,R1-Omni的推理過程更加連貫、準確且易于解釋。相比之下,原始HumanOmni-0.5B和MAFW-DFEW-SFT模型在推理能力方面表現(xiàn)有限,而EMER-SFT模型雖然具備一定的推理能力,但其推理過程的連貫性較差且容易導(dǎo)致幻覺。

通過對比實驗,研究者進一步驗證了R1-Omni模型在多模態(tài)情感識別任務(wù)中的優(yōu)越性。

在MAFW和DFEW兩個數(shù)據(jù)集上,R1-Omni模型在UAR和WAR指標上均優(yōu)于其他現(xiàn)有模型。

例如,在DFEW數(shù)據(jù)集上,R1-Omni模型獲得了65.83%的UAR和56.27%的WAR,這一成績顯著優(yōu)于MAFW-DFEW-SFT模型的60.23% UAR和44.39% WAR。

為了評估模型的泛化能力,研究者在RAVDESS數(shù)據(jù)集上進行了實驗研究。與MAFW和DFEW數(shù)據(jù)集相比,RAVDESS數(shù)據(jù)集的獨特之處在于,其特點是專業(yè)演員使用中性北美口音表達陳述,這種顯著的語料分布差異使其成為評估模型在未見場景下泛化能力的理想測試基準。

在RAVDESS數(shù)據(jù)集上,相較于MAFW-DFEW-SFT模型,R1-Omni取得了顯著提升,實現(xiàn)了43.00%的UAR和44.69%的WAR。

目前,基礎(chǔ)模型HumanOmni-0.5B、冷啟動模型EMER-SFT、MAFW-DFEW-SFT模型以及最終優(yōu)化后的R1-Omni模型均已開源發(fā)布。

[1]https://arxiv.org/abs/2503.05379

[2]https://github.com/HumanMLLM/R1-Omni

1. 維珍銀河私人探索 2. 維珍銀河2024年四季度財務(wù)表現(xiàn) 3. 維珍銀河制造未來,維珍銀河德爾塔級首次飛行計劃在2026年夏季,私人航天員飛行同樣在秋季啟動 主線任務(wù)解鎖沙魚傳奇,雙影奇境沙魚傳奇任務(wù)觸發(fā)方法及步驟說明 免費 機甲戰(zhàn)斗 多人,War Robots Frontiers官網(wǎng)查詢 勝訴,長沙銀行5.9億貸款糾紛終審認定,資產(chǎn)質(zhì)量存疑 擊敗少林山門必過,《大江湖之蒼龍與白鳥》少林線通關(guān)攻略 俄烏沖突無人機打擊與重大損失,俄烏互稱擊落對方百余架無人機并繼續(xù)激戰(zhàn) 曼聯(lián)或哲凱賴什夏季轉(zhuǎn)會窗的可能性分析,哲凱拒絕曼聯(lián),英超三支下家曝光!阿莫林考察葡萄牙超級聯(lián)賽射手 隊友更替的奧秘,《大江湖之蒼龍與白鳥》換隊友方法 生存小貼士,怪物獵人荒野游玩知識全解析 探索星際戰(zhàn)甲氏族的深度內(nèi)容,《星際戰(zhàn)甲》加入氏族攻略
     
陳思揚

陳思揚

大?。?em>69mb更新:2025-03-12 15:50:41

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 陳思揚
  • 陳思揚
  • 陳思揚

游戲特色

就當有緣無分!反正老夫這輩子輸?shù)娜?,單拎出來說,不算丟臉,認了!”白發(fā)老者的聲音落寞,好似意興闌珊。

自負功體蓋世,宇內(nèi)無雙又能如何。照樣跟舊紀元的老前輩一樣,把本事帶到棺材,含恨九泉之下?!皬垺拜?,我聽別人講,你的《宇內(nèi)烘爐秘典》可以修復(fù)彌補,一切先天后天之傷,確保晉升專職級后,將功體推進到百分之百,是不是真的?”

老梁似乎好奇,主動問道?!胺抢戏蜃再u自夸。舊武十大傳承,除去宴海山,寧元亥那等行至盡頭的武神。便是賀嵐禪他的《虛空冥想法》,祁無相的《日月羅天萬神咒》,于功體修煉上,也不如老夫的《宇內(nèi)烘爐秘典》。”

白發(fā)老者傲然應(yīng)答?!扒拜吺菍⑿r看成關(guān)門弟子的人選么?”老梁又問道?!爱斎?。老夫已經(jīng)收下九個徒弟,再尋不著合適根苗,就徹底死心了?!?/p>

白發(fā)老者嘆氣,感覺自己的運氣太差,窮盡數(shù)座行政星球,始終沒有找到中意的好苗子?!叭绻?,前輩你愿意立誓,傾盡傳授小時《宇內(nèi)烘爐秘典》,我可以勸他承接南煌道館衣缽。”

老梁閉著眼睛思索片刻,隨后睜開說道?!澳闵岬茫俊卑装l(fā)老者詫異。坦白而說,秦時此子論天賦,也并非千古無二,獨步星海。

但他勝在各方都很全面,毫無短板,乃絕佳的鑄功體之選擇!可謂天生契合南煌道館最終傳承?!罢f實話,我一直在猶豫,洪圣的百相煉勢是水磨法子,三年五載顯不出厲害,賀嵐禪是修煉到大后期才展現(xiàn)威能。

而我除此之外,只會一門從軍行伍學(xué)到的《兵伐戰(zhàn)法》。就我個人的理解,《兵伐戰(zhàn)法》形成的生命場域,可謂至強。我覺得很適合小時!”

白發(fā)老者頃刻明白,沉著眉頭說道:“原來你出自第四戰(zhàn)團……秦帥所創(chuàng)的《兵伐戰(zhàn)法》,的確是大道至簡,但它弊端在于損耗潛能,累積傷病,幾乎鑄不成功體,正需要《宇內(nèi)烘爐秘典》調(diào)和。你倒用心良苦?!?/p>

老梁低頭笑了一下,摸著那條瘸腿:“我沒啥本事,換不到資源,也幫不到小時什么,他想走得遠,路會很坎坷。

游戲亮點

“一半植物與一半亡靈?”司壇認真地想了一下,最后還是點了點頭,“還真是這樣,看來你對自己的紅裝已經(jīng)了解到很高的水平了。”

“一般,這一次只是運氣好?!鳖櫹⒔忉屃艘幌?,“司令,接下來我們要怎么做,還有七個星球沒有處理呢?!薄暗认?,這一次發(fā)現(xiàn)了一具上古神尸,利爾亞星域想要再恢復(fù)原本狀態(tài),怕是難了?!?/p>

“上古神尸?這個我還真不聽說過,能不能解釋一下?!弊鳛橐幻鲮`法師,顧息哪類的尸體沒有聽說過,上古神尸,聽起來就很大氣的名字,要是他早知道有這種尸體,他肯定想辦法去搞一具來的。

見顧息不知道這一切,司壇也就立刻向顧息普及起來?!吧瞎派袷鋵嵕褪枪派竦氖w,古神你知道吧?!鳖櫹⒊聊艘幌拢佰憾即蟮勰欠N算嗎?”

游戲玩法

不過隨著【黑暗本源】的屬性吸收的越來越多,血神分身明顯感覺到自己對【黑暗本源】的感悟越發(fā)深入了,有一種即將踏入另一個層面的感覺。

他不知道這是不是錯覺。因為如今的他與王騰本尊,根本無法確認九階圓滿的本源法則之力后面是什么境界,更無法確認到底還有沒有境界。

那種感覺太玄乎了,尋常人可能真會當成是一種錯覺。“不管那么多,有屬性吸收就是了?!毖穹稚頁u了搖頭,感覺自己完全是杞人憂天,自尋煩惱。

評測

沙漠捕捉粉塵攻略,荒野版不死蟲收集方法全解析

煉金稀有珠,怪物獵人荒野抗狂珠制作方法指南

焦點對決 1/8決賽次回合戰(zhàn),馬競vs皇馬名單:馬競主力格列茲曼、阿爾瓦雷斯領(lǐng)銜,皇馬主力德保羅出戰(zhàn)

游戲展示界面渴望看到向日葵的瞬間,《第五人格》愛哭鬼善惡的本性皮膚介紹

荒野獵人必看蜂蜜采集全技巧,怪物獵人荒野:收集物品技巧全解析

顯示全部

熱門推薦
玩家評論
我要跟貼
取消
最新手游