国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長之家 - 業(yè)界 2025-03-12 20:32:49

小樣本訓(xùn)練模仿訓(xùn)練的突破,SFT煥發(fā)新生!全球華人學(xué)者提出全新"批判式微調(diào)"方法,超越DeepSeek復(fù)刻版本

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

報道來源:新智元

編輯:Peter東、喬楊

【新智元導(dǎo)讀】在處理復(fù)雜推理任務(wù)時,SFT往往表現(xiàn)不佳。最近,由多所高校的華人團隊提出的批判性微調(diào)方法(CFT)僅在50K樣本上進行微調(diào),便在多數(shù)基準(zhǔn)測試中超越了使用超過200萬個樣本的強化學(xué)習(xí)方法。

模仿是傳統(tǒng)語言模型進行訓(xùn)練的主要方式。LLM在解決現(xiàn)實世界問題方面表現(xiàn)出的優(yōu)異性能,其中一項核心技術(shù)是監(jiān)督微調(diào)(SFT)。

在SFT的過程中,模型被要求模仿人類標(biāo)注或合成的高質(zhì)量回復(fù),以增強其對通用指令的遵循能力。這類SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進行構(gòu)建。

然而,這種方法存在明顯的局限性。當(dāng)數(shù)據(jù)集規(guī)模和質(zhì)量進一步提升時,SFT的邊際效益可能會下降,尤其是在基礎(chǔ)模型已經(jīng)表現(xiàn)出較強性能的情況下,使用SFT可能反而會導(dǎo)致性能下降。

最近,由多所高校的華人學(xué)者共同提出的批判式監(jiān)督微調(diào)方法(CFT)旨在提升模型的模仿能力。

論文鏈接:https://arxiv.org/pdf/2501.17703

批判式監(jiān)督微調(diào):讓SFT重新偉大

CFT將重點從簡單模仿轉(zhuǎn)向基于批判的學(xué)習(xí),其核心思想是讓模型學(xué)會批判性思維,而非簡單模仿,這一方法 borrow from human learning processes.

學(xué)霸在學(xué)習(xí)過程中不只是模仿答案,而是進行分析、批判和自我改進。在CFT數(shù)據(jù)集中,模型為錯誤的模型響應(yīng)提供了相應(yīng)的批評,幫助LLM識別其缺陷并提出改進建議,從而驗證其正確性。

這種方法不僅能夠提升模型的推理能力,還能增強其在復(fù)雜任務(wù)中的適應(yīng)性和靈活性。

比如,針對如下問題:在直角三角形中,兩條直角邊的長度分別為3個單位和4個單位,構(gòu)造一個正方形。求五邊形$ABCDE$的面積(單位:平方單位)。

在SFT模式下,模型會逐步進行計算,首先應(yīng)用勾股定理得出斜邊長度為5,隨后計算正方形面積為25,三角形面積為6,最終模型給出答案25減去6。

在CFT模式下,模型會對上述回答進行批評,指出錯誤在于應(yīng)加而非減三角形面積,并提供正確答案31。

下圖展示了SFT和CFT兩種模式的數(shù)據(jù)樣本。

SFT模式讓大模型直接模仿答案,而CFT模式讓大模型模仿對錯誤回答的批評。

CFT模式具有更高的訓(xùn)練效率。

那么,如何獲取CFT訓(xùn)練所需的數(shù)據(jù)呢?

該研究基于WebInstruct構(gòu)建了一個包含50,000個帶有批評意見的問答對的數(shù)據(jù)集,其中的批評意見由GPT-4等高級模型生成,上述數(shù)學(xué)問題便是其中一例。

分析CFT數(shù)據(jù)集與其他SFT數(shù)據(jù)集的異同

在CFT數(shù)據(jù)集上,采用7B規(guī)模、未經(jīng)指令微調(diào)的LLM進行訓(xùn)練,包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math等模型。

CFT方法的訓(xùn)練目標(biāo)非常明確:將問題x和錯誤回答y進行拼接作為輸入,優(yōu)化模型參數(shù)以生成評論c,這相當(dāng)于訓(xùn)練模型具備批判性思維能力。

實驗中,作者對比了LLM在經(jīng)過指令微調(diào)與批判性微調(diào)后,在數(shù)學(xué)相關(guān)基準(zhǔn)上的性能提升。結(jié)果顯示,CFT訓(xùn)練的模型在性能上持續(xù)優(yōu)于SFT訓(xùn)練的最佳模型。

相比SFT,CFT的準(zhǔn)確率平均高出4-10個百分點。此外,訓(xùn)練效率更高,能夠在較少的訓(xùn)練數(shù)據(jù)量上實現(xiàn)更快的收斂,因此CFT方法有望成為開發(fā)數(shù)學(xué)推理模型的一種更有效方法。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math任務(wù)上不同方法的訓(xùn)練動態(tài)對比,橫軸為訓(xùn)練步數(shù),縱軸為模型準(zhǔn)確率。

在同樣規(guī)模的50k樣本數(shù)據(jù)集上,不同基座模型在使用CFT與SFT訓(xùn)練后的性能提升情況值得觀察。

如果僅關(guān)注Qwen2.5-Math-7B這一模型,可以看出,CFT的訓(xùn)練效果在各類數(shù)據(jù)集和任務(wù)上都能全面超越SFT。

論文對比了訓(xùn)練后的Qwen2.5-Math-7B-CFT與知名模型,包括Llama、GPT系列,以及Deepseek、Mathstral、Numina等系列模型,并通過表格展示了具體對比結(jié)果。

Qwen2.5-Math-7B-CFT的平均性能(48.1%)優(yōu)于參數(shù)量10倍的Llama-3.1-70B-Instruct(40.4%)和NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)相當(dāng)。

此外,基于CFT訓(xùn)練的模型在性能上與采用140倍計算資源訓(xùn)練的Deepseek R1開源版本(SimpleRL模型的復(fù)制版)相比,具有不相上下之處。值得注意的是,CFT模型的GPU運行時縮短至1/144,這相當(dāng)于大幅降低了計算成本。

研究人員對CFT的多個關(guān)鍵因素進行了系統(tǒng)性消融研究。結(jié)果表明,CFT模型在數(shù)據(jù)來源的魯棒性、噪聲響應(yīng)的抗干擾能力以及教師批判模型選擇的穩(wěn)定性等方面表現(xiàn)出較強的能力。

舉例來說,即使使用較弱的GPT-4o-mini生成器輸出批評意見,CFT模型仍然能夠顯著提升性能。

局限性與擴展方向

在CFT訓(xùn)練數(shù)據(jù)集中,作為基準(zhǔn)的批評數(shù)據(jù)全部由LLM生成。經(jīng)過作者的手動檢查,發(fā)現(xiàn)其中有20%的批評意見本身就存在明顯的錯誤。這些錯誤可能會對模型的訓(xùn)練效果造成一定干擾,從而影響其最終性能。

此外,CFT訓(xùn)練的模型目前尚未實現(xiàn)自我批評機制,因此尚未觀察到自我改進的效果。

該研究的數(shù)據(jù)集在代表性方面仍存在不足,目前主要集中在數(shù)學(xué)問題領(lǐng)域,而在編程、科學(xué)推理以及人文相關(guān)推理問題等方面,CFT模式的適用性仍需進一步驗證。

CFT的主要優(yōu)勢在于顯著提升模型的推理能力以及優(yōu)化數(shù)據(jù)使用效率。通過模型學(xué)會批判性思維,相當(dāng)于讓大模型完成一次強化學(xué)習(xí)訓(xùn)練。

相比于現(xiàn)有的自我修正(Self-Correction)、獎勵模型(Reward Models)等方法,CFT的目標(biāo)是通過批判學(xué)習(xí)提升模型對問題的深入理解,而不是直接估計獎勵分?jǐn)?shù)或進行自我修正。這種方法在推理任務(wù)中展現(xiàn)出更強的適應(yīng)性和靈活性。

最為關(guān)鍵的是,CFT的數(shù)據(jù)構(gòu)建和訓(xùn)練流程相對簡單,計算成本較低,因此在實際應(yīng)用中具有較高的可行性和經(jīng)濟性。未來研究將重點突破批判數(shù)據(jù)質(zhì)量的提升和模型自我批判機制的實現(xiàn)。

首先是構(gòu)建自動驗證工具或開發(fā)人類驗證機制,以優(yōu)化批判數(shù)據(jù)的質(zhì)量;同時,要使大模型具備自我批判與自我改進的能力,需使其通過用戶反饋實現(xiàn)持續(xù)優(yōu)化。

進一步的研究也可能探討將CFT與SFT、RL等其他訓(xùn)練范式結(jié)合,應(yīng)用于多模態(tài)場景,并深入研究其理論基礎(chǔ)。

參考資料:

https://arxiv.org/pdf/2501.17703

輕松捕捉森盞蟹,森盞蟹收集指南 Metal Eden發(fā)布,METAL EDEN發(fā)售日期介紹 “耶”情緒,超度大S,具俊曄爭遺產(chǎn),小S家暴案 你知道嗎番石榴和石榴是同一類水果嗎,番石榴和石榴是同一種水果嗎 SpaceX星艦火箭首次回收技術(shù)測試失敗,建議標(biāo)題:美國太空探索技術(shù)公司計劃開展“星艦”火箭8次發(fā)射任務(wù)說明:這個標(biāo)題保持了原文的核心信息,但進行了以下簡化和調(diào)整:1. 去掉了"計劃進行",使表達(dá)更簡潔2. 將"第八次試飛"簡化為"8次發(fā)射任務(wù)"3. 保留了"美國太空探索技術(shù)公司"和"星艦"火箭的核心信息4. 使用"任務(wù)"替代"試飛",使表述更正式和專業(yè)5. 整體結(jié)構(gòu)更緊湊,信息傳遞更直接這個標(biāo)題既保持了原意,又更加簡潔明了,適合用于正式的新聞報道或宣傳材料。 超值掉落狂歡,《夢幻西游》植樹節(jié)加成一覽 捕捉千羽蝶,怪物獵人荒野:千羽蝶收集方法 探索與發(fā)現(xiàn),荒野泡歌鸮及美聲歌鸮收集方法 捕捉輕松回復(fù)藥G荒野中神秘的搬葉蟻,怪物獵人:荒野之息搬葉蟻捕獲方法指南 長槍超級耐力提升搭配 totally 強,荒野長槍配裝指南:思路與技巧分享!趕緊保存!
     
星艦戰(zhàn)將

星艦戰(zhàn)將

大小:82mb更新:2025-03-12 20:32:49

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 星艦戰(zhàn)將
  • 星艦戰(zhàn)將
  • 星艦戰(zhàn)將

游戲特色

劉強卻毫不猶豫的閃身后退,他可還記得昨天會議上看到的對蕭杰的能力分析,時間停止的大招他可不想挨上。這廝輕功卻是極為高明,顯然也是敏捷型加點,蕭杰一連三段飛縱,劉強也一臉三段跳躍,雙方竟然絲毫沒有拉進彼此的距離。

“哈哈,你以為我不知道你的能耐么?不過是時間停止的把戲,只要離得夠遠(yuǎn)你又能奈我何?!眲娊袊讨?,手上卻沒閑著。

火遁——飛火流星!雙手連彈,幾道流星般的火球疾射而來。蕭杰一個殘影步閃避開來,身后瞬間傳來幾聲爆炸聲,那火球看似不過拳頭大小,威力卻著實不弱。

金遁——刃之舞!刷刷刷,又是十幾枚奇型飛刀亂射而來,這一招看似暗器,實際上卻是以法術(shù)幻化出來的?;糜盁o蹤!蕭杰再次閃避,眼看著劉強趁機拉開距離,又要出招,蕭杰知道對方是想要風(fēng)箏他。

心中不由得冷笑,以為我只有那一個大招么?想太多了。長刀高舉,直接開大。里·奧義——長河落日斬太虛!這一招他從領(lǐng)悟之后從未用過,就是為劉強準(zhǔn)備的。

氣機鎖定住劉強,一刀揮出,劉強眼前的屏幕中忽然浮現(xiàn)出一條虛幻大河的幻影,那是一條由無數(shù)光芒匯聚的時光長河,其中仿佛有無數(shù)流光幻舞,又仿佛有無數(shù)星辰幻滅流逝。

絢麗的特效讓劉強頓時大驚,這是什么招式?這么遠(yuǎn)都能鎖定自己?他想要閃避卻根本無處可躲,眨眼間,時光長河從他身上沖刷而過,也沒看到自己的角色受到什么傷害,那時光長河便消失不見,再看血量,一滴血都沒掉。

反倒是出現(xiàn)了一條系統(tǒng)提示?!鞠到y(tǒng)提示:你受到時光之力的影響,你失去了三十年壽命,你獲得特質(zhì)【蒼老之人】所有基礎(chǔ)屬性降低15%?!?/p>

“哈哈哈哈,就這?你憋了半天就給我上了個狀態(tài)?”劉強不由得一陣狂笑,這種減屬性的狀態(tài)雖然惡心,但要說有什么威脅完全不至于,他隨便吃一顆靈丹都能加了十幾點屬性。

蕭杰卻是一聲冷笑,“不是狀態(tài),看看你的角色,頭上有DEBUFF么?”劉強一愣,不是狀態(tài)?瞄了一眼頭頂,果然,他頭上根本沒有任何DEBUFF。

游戲亮點

要知道當(dāng)初齊寧拍《上天堂》的時候如果不是林星愿意投資加出演的話,那么齊寧這部電影是根本就拍不出來的。

不要忘記了當(dāng)初齊寧可是被歐陽青給封殺了呢,誰敢投資齊寧呢??結(jié)果倒好,齊寧拍攝了《上天堂》一下子成了30億+的導(dǎo)演俱樂部成員,然后他和歐陽青竟然把手言和了。

要知道歐陽青和林星可是撕了好幾次呢。這已經(jīng)屬于白眼狼了吧。但林星卻并不怎么在意,在這個圈子里你不能指望所有的人都有感恩的心,大家只要不背后捅刀子就行了。

當(dāng)初《火線追擊》的首映禮上雖然齊寧是跟著歐陽青一起來的,但是他同樣是和林星打了招呼,雖然沒有參加《爆火街頭》的首映禮,但齊寧后來也包了幾場算是支持林星。

游戲玩法

聽到這個日期,劉霜的手一抖,臉上的表情極其夸張。她和柳青檸是大學(xué)舍友,自然知道這是對方的生日。好家伙,這是什么天大的排場?

一句話讓蘇漁的新專輯改日期!這可是蘇漁啊!柳青檸深吸口氣,低聲道:“莫總,你別嚇我?!薄昂呛?,別緊張青檸,歌都已經(jīng)寫好了,就是小漁太懶,沒有心思錄專輯,我回頭跟她好好聊聊,相信她會振作起來,快點把專輯做出來的?!?/p>

“哦,好的。”聽著兩人的聊天,秦映雪低垂的目光微微閃爍。金董事的安排果然是有道理的。…夜色越來越深,窗外的霓虹越來越璀璨。

評測

小米SU7 Max/Ultra 超值投資,有的小米二手車,居然比新車還貴?

洛克王國火花捕捉地點與技巧,《洛克王國:世界》火花捕捉地點一覽

零跑B10酷炫新SUV,零跑B10預(yù)售10.98萬起12萬即可配備激光雷達(dá)!超值!

AI,IBM首席執(zhí)行官表示AI不會很快取代程序員

bell蘭之劍 《 bell蘭之劍 》技能解析雙刀擊全解析 bell蘭之劍 《 bell蘭之劍 》技能解析祝福之刺全解析,《鈴蘭之劍》光輝使者角色解析或《鈴蘭之劍》光輝使者角色分析

顯示全部

熱門推薦
玩家評論
我要跟貼
取消
最新手游