- 俄羅斯前外交官繼任駐美大使,俄羅斯 new appointment to USAmbassador: Strongly Pragmatic Diplomacy Role, Viewed as Long-term Appointment
- 突破極限,《元夢之星》管道穿梭通關攻略
- 俄羅斯對烏克蘭軍事目標的打擊,俄稱打擊烏軍用機場 烏稱擊退俄軍進攻
- 巴克斯配方的秘密,《元氣騎士前傳》巴克斯解鎖方法一覽
- AI新星 Manus hype,Manus出圈:讓時間來檢驗
- 韓國前總統(tǒng)尹錫悅2025年1月內(nèi)亂罪被拘押,尹錫悅為何“突然被釋放”?
- 復星旅文的轉型之路,復星旅文何以復興
- 白荊回廊穹頂樞紐解析,《白荊回廊》中央控制室作用介紹一覽
- 對話破裂,"美指烏克蘭需新領導人,澤連斯基辭職有條件,英法支持,俄大舉進攻,俄方回應"
- 一年半減肥成功,272斤減到128斤!女子自行減肥稱女兒給她很大動力!網(wǎng)友:想要學習經(jīng)驗!
聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。
新智元相關報道
編輯:Peter東 喬楊
【新智元導讀】在面對復雜的推理任務時,SFT(Supervised Fine-Tuning)往往無法充分發(fā)揮大模型的優(yōu)勢。近期,由CMU、滑鐵盧大學等華人研究團隊提出的"批判性微調"(CFT)方法,在僅使用5萬樣本的訓練過程中,便在多數(shù)基準測試中超越了使用超過200萬個樣本的強化學習方法。
模仿是傳統(tǒng)語言模型訓練的主要方式。LLM(Large Language Model)在解決現(xiàn)實世界問題方面展現(xiàn)出的卓越性能,其中一項核心技術正是SFT(Supervised Fine-Tuning)。
在SFT的過程中,模型被要求模仿人類標注或合成的高質量回復,以增強其執(zhí)行通用指令的能力。這類SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進行構建。
然而,這種方法存在明顯的局限性。隨著數(shù)據(jù)集規(guī)模和質量的提升,SFT的邊際效益逐漸降低,尤其是在訓練后的效果已經(jīng)較為出色的基礎模型上應用SFT,反而可能導致性能下降。
最近,CMU、滑鐵盧大學等機構的3名華人學者在一篇論文中對SFT做出了進一步的改進,提出了批判性監(jiān)督微調方法(CFT,Critique Fine-Tuning)。這一方法旨在通過批判性學習,使模型更有效地模仿數(shù)據(jù)集。
論文鏈接:https://arxiv.org/pdf/2501.17703
批判性監(jiān)督微調:讓SFT煥發(fā)新生
CFT將重點從簡單的模仿轉向基于批判的學習,其核心思想是讓模型學會"批判",而非簡單地模仿。這一理念靈感來源于人類的學習過程。
學霸群體在學習過程中不僅止于復制答案,而是通過深入分析、批判性思考和持續(xù)改進來提升自身能力。同樣,CFT數(shù)據(jù)集為模型提供錯誤樣本,使其能夠識別和糾正生成內(nèi)容中的缺陷,從而提出改進建議并驗證正確性。
這種方法不僅有助于提升模型的推理能力,還能增強其在復雜任務中表現(xiàn)出的適應性和靈活性。
例如,針對如下問題:在直角三角形的兩條直角邊分別為3個單位和4個單位的情況下,構造一個正方形。求五邊形$ABCDE$的面積(單位:平方單位)。
在SFT模式下,模型會按照步驟進行計算:首先應用勾股定理計算出斜邊長度為5,接著計算正方形的面積為25,再計算三角形面積為6,最后給出答案25-6。
而在CFT模式下,模型會對上述回答進行批評,指出應加上而非減去三角形的面積,并給出正確答案31。
下圖展示了典型的SFT和CFT數(shù)據(jù)樣例。
SFT模式下,模型直接模仿答案;而CFT模式下,模型模仿對錯誤回答的批評
CFT模式具有更高的訓練效率
那么,如何獲取CFT模式所需的訓練數(shù)據(jù)呢?
該研究基于WebInstruct平臺,構建了一個包含50,000對問答樣本的數(shù)據(jù)集,其中的批評意見由GPT-4等高級模型生成。這些樣本主要聚焦于數(shù)學領域(占65%),同時涵蓋了物理、化學和商業(yè)等其他主題。
對比分析CFT數(shù)據(jù)集與SFT數(shù)據(jù)集之間的差異
隨后,在CFT數(shù)據(jù)集上進行未經(jīng)指令微調的7B規(guī)模LLM模型訓練,包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math。
CFT訓練方法的目標明確:將問題x與錯誤回答y拼接作為輸入,優(yōu)化模型參數(shù)以生成評論c,這等價于訓練模型培養(yǎng)批判性思維能力。
實驗結果顯示,作者考察了LLM在經(jīng)過指令微調和批判性微調后在數(shù)學相關基準上的性能提升。結果表明,CFT訓練的模型在性能上優(yōu)于SFT訓練的最佳模型。
相較于SFT,CFT方法的準確率平均高出4-10個百分點。此外,訓練效率更高,能夠在較少的訓練數(shù)據(jù)量下更快收斂,因此具有開發(fā)數(shù)學推理模型的更高效方法潛力。
圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math基準上的訓練動態(tài)對比,包括CFT與兩種SFT變體方法,橫軸代表訓練步數(shù),縱軸顯示準確率。
在相同的50k樣本規(guī)模下,不同基座模型在經(jīng)過CFT和SFT訓練后的性能提升情況得以比較。
僅以Qwen2.5-Math-7B模型為例,可以看出其在各類數(shù)據(jù)集和任務上的CFT訓練效果全面超越了SFT方法。
論文將訓練后的Qwen2.5-Math-7B-CFT模型與知名Llama、GPT系列模型,以及專長推理的Deepseek、Mathstral、Numina等系列模型進行了對比,具體結果如表所示。
Qwen2.5-Math-7B-CFT模型的平均性能(48.1%)甚至超越了參數(shù)量10倍的Llama-3.1-70B-Instruct(40.4%)和NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)的性能接近。
此外,CFT訓練的系統(tǒng)在效能上與使用140倍計算資源訓練的SimpleRL模型(Deepseek R1的公開參考版本)不相上下,其GPU運行時間降低至1/144,相當于大幅降低了計算成本。
研究人員對CFT的多因素消融分析表明,該系統(tǒng)對于數(shù)據(jù)來源、噪聲響應以及教師批判模型的選用均展現(xiàn)出較強的魯棒性。
例如,即使采用較弱版本的模型生成批評意見,CFT仍能顯著提升效能。
局限與擴展
CFT訓練數(shù)據(jù)集中的基準標準是通過LLM生成的批評數(shù)據(jù)。作者手動審閱了50份批評意見,發(fā)現(xiàn)其中20%存在明顯錯誤,這些錯誤可能對模型的訓練產(chǎn)生一定干擾,影響最終效果。
此外,CFT訓練的系統(tǒng)目前尚未實現(xiàn)自我改進機制。
該研究的局限性在于數(shù)據(jù)集的代表性不足,目前僅聚焦于數(shù)學問題,而編程、科學推理以及人文推理等領域仍需進一步探索是否適用類似的CFT模式。
CFT的優(yōu)勢在于顯著提升了模型的推理能力,同時實現(xiàn)了高效的數(shù)據(jù)利用率。通過讓模型學會批判,等效于進行一次強化學習訓練。
與現(xiàn)有的自我修正機制和獎勵模型相比,CFT采用了批判學習方法,其目標是通過深入理解問題來提升模型能力,而非直接估計獎勵分數(shù)或進行自我修正。這種方法在推理任務中展現(xiàn)出更強的適應性和靈活性。
更為關鍵的是,CFT的數(shù)據(jù)構建和訓練流程相對簡單,計算成本較低,因此具有較高的實際應用價值和經(jīng)濟性。未來研究可能從數(shù)據(jù)質量提升和自我批判機制探索兩個方向推進。
首先,小編將重點放在構建自動驗證工具和生成批判性數(shù)據(jù)集上,以提升批判性數(shù)據(jù)的質量。同時,要實現(xiàn)模型的自我批判和持續(xù)改進能力,需要通過用戶反饋機制,使模型能夠不斷優(yōu)化自身。
未來研究的方向可能還包括將CFT與其他訓練范式(如SFT和RL)相結合,擴展其應用范圍至多模態(tài)環(huán)境,并深入研究其理論基礎。
參考資料:
https://arxiv.org/pdf/2501.17703
合成小妙招,《明日方舟》心扉之樂合成攻略 冰霧荒蕪期輕松捕捉溫暖蓑衣蟲,怪物獵人荒野溫暖蓑衣蟲收集攻略:輕松掌握高效技巧 從Real Madrid到Milan,阿萊士-希門尼斯在皇馬度過了艱難時光,愛上了米蘭的一切 奧義-橫斷大地踐踏技戰(zhàn)術-閃金劍氣,《銀與血》閃金騎士里奧技能介紹 對話專家王暢醫(yī)生解讀痔瘡手術治療何時必要,健康科普:痔瘡手術何時進行?"痔"青年關注起來?。ń忉專哼@個改寫版本保留了原文的核心信息,同時進行了以下優(yōu)化:1. 將"健康公開課"簡化為"健康科普"2. 將"哪種情況需要做痔瘡手術"改為更簡潔的"痔瘡手術何時進行"3. 將"有"痔"青年必知"改為更口語化的"‘痔’青年關注起來"4. 整體調整語序,使標題更流暢、更有吸引力5. 刪除了原文中"有"的重復表述,使標題更簡潔) Free Ride Explore the Wild Frontier Now Available on Steam,F(xiàn)REERIDE游戲平臺:去哪玩 掛機自動模式,《全明星街球派對王朝模式陣容搭配攻略》 輕松捕獲冷蓑衣蟲限定冷飲免費獲取,怪物獵人荒野捕捉冰冷蓑衣蟲方法解析 2016年中國癌癥病例統(tǒng)計,最新中國癌癥數(shù)據(jù)出爐,5大癌種最常見 突破 | 快速迭代AI技術對企業(yè)的影響,企業(yè)AI落地需深度賦能——DeepSeek助力新升級