国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長之家 - 業(yè)界 2025-03-12 18:54:31

RLVR在視頻大語言模型中的應(yīng)用,開源項(xiàng)目R1-Omni首次結(jié)合全模態(tài)情感識別

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

首次嘗試將官方同款RLVR應(yīng)用于全模態(tài)大語言模型,尤其是在視頻相關(guān)領(lǐng)域取得了突破。

在杭州,阿里通義實(shí)驗(yàn)室薄列峰團(tuán)隊(duì)又開卷了,開源項(xiàng)目R1-Omni來了。

同樣在杭州,這是在搞什么「開源雙頂流」(頂流)?

他們又做了些什么?

DeepSeek-R1帶火了RLVR(可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)),此前已有團(tuán)隊(duì)將RLVR用于圖像-文本多模態(tài)LLM,證明其在幾何推理和視覺計(jì)數(shù)等任務(wù)上表現(xiàn)優(yōu)異。

然而,還未深入探索將其與包含音頻、動態(tài)視覺內(nèi)容的全模態(tài)LLM結(jié)合。

薄列峰團(tuán)隊(duì)首次嘗試將RLVR與全模態(tài)LLM結(jié)合,聚焦的是視覺和音頻模態(tài)都提供關(guān)鍵作用的情感識別任務(wù)。

團(tuán)隊(duì)實(shí)驗(yàn)發(fā)現(xiàn),模型在三個(gè)關(guān)鍵指標(biāo)上有顯著提升:

RLVR的引入不僅提升了模型在訓(xùn)練數(shù)據(jù)集上的表現(xiàn),還在測試數(shù)據(jù)集上表現(xiàn)出更強(qiáng)的魯棒性。

更重要的是,提升后的推理能力使得我們能夠清晰地分析在情感識別過程中不同模態(tài)所起的作用。

在X平臺,R1-Omni同樣受到了不少網(wǎng)友的關(guān)注:

還有部分網(wǎng)友表示,可解釋性與多模態(tài)學(xué)習(xí)將成為下一代AI研究的重點(diǎn)方向。

現(xiàn)在,讓我們一起深入探討一下R1-Omni的技術(shù)原理。

R1-Omni長啥樣?

在論文方法論部分,作者首先介紹了與DeepSeek同款的RLVR和GRPO算法。

RLVR是一種創(chuàng)新的訓(xùn)練范式,其核心思想是通過驗(yàn)證函數(shù)直接評估輸出的質(zhì)量,無需像傳統(tǒng)的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)那樣依賴單獨(dú)的獎(jiǎng)勵(lì)模型來根據(jù)人類偏好進(jìn)行訓(xùn)練。

具體來說,當(dāng)給定輸入問題q時(shí),策略模型πθ生成響應(yīng)o,隨后利用可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)R(q,o)對其進(jìn)行評估,其優(yōu)化目標(biāo)是最大化驗(yàn)證獎(jiǎng)勵(lì)減去基于KL散度的正則化項(xiàng)。

這種RLVR方法在簡化了獎(jiǎng)勵(lì)機(jī)制的同時(shí),確保了其與任務(wù)內(nèi)在正確性標(biāo)準(zhǔn)的一致性。

GRPO則是一種全新的強(qiáng)化學(xué)習(xí)方法,與傳統(tǒng)的方法如PPO有所不同,PPO依賴于一個(gè)評論家模型來評估候選策略的性能,而GRPO直接比較生成的響應(yīng)組,避免了使用額外的評論家模型,從而簡化了整個(gè)訓(xùn)練過程。

通過引入歸一化評分機(jī)制,GRPO能夠鼓勵(lì)模型在組內(nèi)優(yōu)先選擇獎(jiǎng)勵(lì)值更高的響應(yīng),從而增強(qiáng)了模型區(qū)分高質(zhì)量和低質(zhì)量輸出的能力。

在DeepSeek-R1方法的啟發(fā)下,研究團(tuán)隊(duì)將GRPO與RLVR相結(jié)合,進(jìn)一步提升了模型的性能。

在R1-Omni模型構(gòu)建方面,團(tuán)隊(duì)參考了DeepSeek-R1的訓(xùn)練方法,采用了一種適用于 cold-start 的策略。

該研究在包含232個(gè)可解釋多模態(tài)(視覺和音頻)情感推理數(shù)據(jù)集(EMER)樣本和348個(gè)手動標(biāo)注的HumanOmni數(shù)據(jù)集樣本的綜合數(shù)據(jù)集上,對HumanOmni-0.5B進(jìn)行了微調(diào)。通過這種方式,模型獲得了基本的推理能力,并能夠理解視覺和音頻線索如何影響情感識別。具體而言,模型能夠識別出視覺和音頻線索如何共同作用以得出情感預(yù)測結(jié)論。

在微調(diào)過程中,研究者采用了基于強(qiáng)化學(xué)習(xí)的方法。獎(jiǎng)勵(lì)函數(shù)由兩部分組成:準(zhǔn)確率獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。準(zhǔn)確率獎(jiǎng)勵(lì)用于評估模型預(yù)測的情感與真實(shí)情感之間的匹配程度,而格式獎(jiǎng)勵(lì)則確保模型輸出符合預(yù)定義的HTML標(biāo)簽格式。

模型的輸出結(jié)果分為兩個(gè)部分:推理過程部分嵌入""標(biāo)簽中,用于解釋模型如何整合視覺和音頻線索得出情感預(yù)測;情感標(biāo)簽部分嵌入""標(biāo)簽中,用于表示模型最終預(yù)測的情感。

推理/理解/泛化三方面提升

在實(shí)驗(yàn)評估中,研究者將R1-Omni與三個(gè)基線模型進(jìn)行了比較。這些基線模型包括:原始的HumanOmni-0.5B、在EMER數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)的模型EMER-SFT,以及直接在MAFW和DFEW訓(xùn)練集上基于HumanOmni-0.5B進(jìn)行監(jiān)督微調(diào)的模型MAFW-DFEW-SFT。

評估指標(biāo)包括無加權(quán)平均召回率(UAR)和加權(quán)平均召回率(WAR)。這些指標(biāo)用于量化模型在不同情感類別中準(zhǔn)確分類情感的能力。UAR和WAR的計(jì)算考慮了所有情感類別的權(quán)重,因此能夠更全面地反映模型的性能。

該研究特別強(qiáng)調(diào)了所有評估均在開放詞匯情感測試(OV-emotion)協(xié)議下進(jìn)行。在該協(xié)議下,模型無需依賴預(yù)定義的情感類別,而是直接從輸入數(shù)據(jù)中生成情感標(biāo)簽。這種設(shè)置增加了評估的挑戰(zhàn)性和實(shí)際應(yīng)用價(jià)值,因?yàn)檎鎸?shí)世界中的情感表達(dá)往往是多樣的且不固定的。

實(shí)驗(yàn)結(jié)果表明,R1-Omni在三個(gè)關(guān)鍵方面顯著優(yōu)于其他三個(gè)對比模型:推理能力的提升、理解能力的增強(qiáng)以及泛化能力的顯著提高。

研究者通過一系列可視化示例展示了R1-Omni與其它三個(gè)模型的輸出對比。結(jié)果顯示,R1-Omni的推理過程更加連貫、準(zhǔn)確且易于解釋。相比之下,原始HumanOmni-0.5B和MAFW-DFEW-SFT模型在推理能力方面表現(xiàn)有限,而EMER-SFT模型雖然具備一定的推理能力,但其推理過程的連貫性較差且容易導(dǎo)致幻覺。

通過對比實(shí)驗(yàn),研究者進(jìn)一步驗(yàn)證了R1-Omni模型在多模態(tài)情感識別任務(wù)中的優(yōu)越性。

在MAFW和DFEW兩個(gè)數(shù)據(jù)集上,R1-Omni模型在UAR和WAR指標(biāo)上均優(yōu)于其他現(xiàn)有模型。

例如,在DFEW數(shù)據(jù)集上,R1-Omni模型獲得了65.83%的UAR和56.27%的WAR,這一成績顯著優(yōu)于MAFW-DFEW-SFT模型的60.23% UAR和44.39% WAR。

為了評估模型的泛化能力,研究者在RAVDESS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)研究。與MAFW和DFEW數(shù)據(jù)集相比,RAVDESS數(shù)據(jù)集的獨(dú)特之處在于,其特點(diǎn)是專業(yè)演員使用中性北美口音表達(dá)陳述,這種顯著的語料分布差異使其成為評估模型在未見場景下泛化能力的理想測試基準(zhǔn)。

在RAVDESS數(shù)據(jù)集上,相較于MAFW-DFEW-SFT模型,R1-Omni取得了顯著提升,實(shí)現(xiàn)了43.00%的UAR和44.69%的WAR。

目前,基礎(chǔ)模型HumanOmni-0.5B、冷啟動模型EMER-SFT、MAFW-DFEW-SFT模型以及最終優(yōu)化后的R1-Omni模型均已開源發(fā)布。

[1]https://arxiv.org/abs/2503.05379

[2]https://github.com/HumanMLLM/R1-Omni

優(yōu)化供應(yīng)鏈,不許亂花錢!李斌開始狠抓成本 疾速極簡,《驅(qū)入虛空》光翼裝甲朱莉技能介紹 金秀賢為何要求21歲的小妹妹這背后的原因是什么,"解析金秀賢原生家庭不佳為何他的擇偶標(biāo)準(zhǔn)這么離奇" 混亂與秩序,塔爾圖斯街頭沖突后,敘利亞華人回憶:心 still 敢’t open the window 股價(jià)暴跌銷量下降,特斯拉市值蒸發(fā)8000億美元,股價(jià)創(chuàng)五年最大跌幅 白金魚捕捉指南,怪物獵人:荒野白金魚位置在哪里?白金魚位置介紹 深夜胡塞武裝呼吁四天內(nèi)解決加沙物資運(yùn)輸問題,胡塞武裝恢復(fù)打擊行動,針對以色列船只(說明:這個(gè)改寫版本保持了原文的核心信息,但更加簡潔明了,同時(shí)調(diào)整了語序以更符合新聞標(biāo)題的表達(dá)方式。關(guān)鍵點(diǎn)包括胡塞武裝的恢復(fù)打擊行動、針對對象是以色列船只,以及時(shí)間背景四天后。) 道歉與進(jìn)展,美烏特使稱烏方已向特朗普道歉!烏克蘭軍方對莫斯科發(fā)動最大規(guī)模無人機(jī)襲擊,已造成1死3傷,多個(gè)機(jī)場被管制 限定發(fā)布5.15,Capcom Fighting Collection 2發(fā)售日期介紹 Breakthrough Growth,Anthropic月均營收突破14億美元,Claude助"Manus"AI代理走紅
     
淮南特色美食

淮南特色美食

大小:14mb更新:2025-03-12 18:54:31

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 淮南特色美食
  • 淮南特色美食
  • 淮南特色美食

游戲特色

“沒錯(cuò),當(dāng)然不能就這么算了,就算死也要拉他們一起,趙青云、阿福、阿鬼、阿凱……有一個(gè)算一個(gè),統(tǒng)統(tǒng)都要死!咱們兄弟幾個(gè)幾天就玩把大的!走——?dú)⑷巳?!?/p>

劉強(qiáng)獰笑著,手中的火焰將鼠標(biāo)瞬間融化?!皶L,劉顧問死了!”不遠(yuǎn)處的一臺電腦前,一個(gè)玩家忽然站起來沖著趙青云喊道。

這人是趙青云特意留在城里的探子,沒有加入青龍會,以散人玩家的身份見證了剛剛發(fā)生的一切。趙青云嘴角露出一絲微笑,還真是個(gè)好消息啊。

“會長,劉強(qiáng)會不會搞事啊?”一旁的阿福擔(dān)心的問道。“不是會不會,而是一定會,不過沒關(guān)系,我都已經(jīng)安排好了……”

這一切趙青云自然都已經(jīng)算到了,人在必死的情況下會做出些什么瘋狂的事情來,這些年他可是見過的太多了。就算基地內(nèi)部對游戲的秘密隱瞞的再好,工作室里也難免會有幾個(gè)發(fā)現(xiàn)端倪的聰明人,這些人通常都不會暴露自己發(fā)現(xiàn)秘密的真相,而是偷偷尋找逃命的機(jī)會。

不過最終他們都難逃一死,有的人黯然等死,更多的卻是在臨死前奮然一搏。這基地里的雇傭兵可不就是為了這種情況而準(zhǔn)備的么。

幾年來他們都忠實(shí)的履行職責(zé),在有充分準(zhǔn)備以及數(shù)量優(yōu)勢的情況下,現(xiàn)代武器的威力要遠(yuǎn)遠(yuǎn)大過普通的武林高手。

輕功再好,也快不過子彈的速度。硬功再硬,也扛不住反器材狙擊槍和RPG的轟殺。刀劍雖利,卻又怎抵得過亂槍掃射。

不過過去應(yīng)付的都是些物理系的一般高手,而且大都對自己的能力運(yùn)用的不是很到位。這一次要對付劉強(qiáng)五人,考慮到劉強(qiáng)五人的實(shí)力水平,趙青云還是做了精心準(zhǔn)備的。

——————?jiǎng)?qiáng)五人剛走到基地主樓的門外,就看到了荷槍實(shí)彈的士兵,以及緊閉的安全門??吹轿迦吮砬椴簧频淖哌^來,有的人手里還拿著家伙,立刻就有人攔了上來。

游戲亮點(diǎn)

陳士俊早就知道范無眠特別喜歡企鵝股,也看過炒股暴賺的相關(guān)新聞。然而跟許多硅谷創(chuàng)業(yè)者一樣,他也認(rèn)為企鵝股存在一個(gè)巨大的短板——被限制在內(nèi)地,無法開辟海外市場。

硅谷公司的市場覆蓋全球各國,企鵝集團(tuán)卻只在內(nèi)地和周邊發(fā)展,用硅谷的主流思維方式來看,這注定了天花板比較低,前景有限。

見范無眠居然想用Youtube原始股換取企鵝股,陳士俊心底難免有點(diǎn)不服氣,跟另外兩位聯(lián)合創(chuàng)始人一起,開始拿他當(dāng)做“外人”看待。

實(shí)際上就在幾個(gè)小時(shí)前,被長期置頂?shù)摹禞ar Of Love》這首歌,已經(jīng)被另一位聯(lián)合創(chuàng)始人悄悄撤掉了。

游戲玩法

一招秒了一具防御力出眾的怒拳戰(zhàn)爭傀儡,即便雷恩有著鋼鐵之心高級冥想法的施術(shù)加成,這也有點(diǎn)過了。唯一合理的解釋就是.很可能,雷恩在金屬系方面的資質(zhì),還要在他預(yù)計(jì)之上。

這時(shí),雷恩轉(zhuǎn)身走了回來,笑了笑,道:“派主,我剛剛切斷了它們體內(nèi)能源裝置和關(guān)鍵部位,主體結(jié)構(gòu)也基本沒有破壞,這樣的話,等下次學(xué)派巖石系的大師們過來的時(shí)候,應(yīng)該可以好好研究下?!?/p>

“說不定,即便沒有制作圖紙,也能從成品上反推出來?!甭牭竭@話,莫利亞不禁笑了起來?!袄锥?,你又一次給了我驚喜,我都沒想到你能做到這種程度?!?/p>

評測

綠色嘔吐尋找獵物,緩慢的嘴怪物的特點(diǎn)是什么?——解析緩慢的嘴怪物特點(diǎn)

技能大解析,《銀與血》狩魂大魔拜馮特技能介紹

達(dá)美航空機(jī)艙問題緊急返回波士頓,機(jī)艙內(nèi)發(fā)現(xiàn)煙霧異味,達(dá)美航空航班緊急返航

年輕風(fēng)暴即將橫掃,東體報(bào)道,久帥執(zhí)教國奧的可能性已降至低概率,安東尼奧將是新任主教練的有力競爭者。

wild crowd went crazy,墨西哥總統(tǒng)辛鮑姆民眾支持率創(chuàng)下歷史紀(jì)錄,達(dá)85%,其政策成效獲民眾高度認(rèn)可。分析顯示,辛鮑姆在應(yīng)對特朗普發(fā)起的關(guān)稅戰(zhàn)中成功贏得民眾支持。

顯示全部

熱門推薦
玩家評論
我要跟貼
取消
最新手游