伊人久久精品无码二区无码,国产片婬乱一级毛片视频1

聲明:本文來自于（ID:ykqsd.com）授權轉載發(fā)布。

新智元相關報道

編輯：Peter東喬楊

【新智元導讀】在面對復雜的推理任務時，SFT（Supervised Fine-Tuning）往往無法充分發(fā)揮大模型的優(yōu)勢。近期，由CMU、滑鐵盧大學等華人研究團隊提出的"批判性微調"（CFT）方法，在僅使用5萬樣本的訓練過程中，便在多數(shù)基準測試中超越了使用超過200萬個樣本的強化學習方法。

模仿是傳統(tǒng)語言模型訓練的主要方式。LLM（Large Language Model）在解決現(xiàn)實世界問題方面展現(xiàn)出的卓越性能，其中一項核心技術正是SFT（Supervised Fine-Tuning）。

在SFT的過程中，模型被要求模仿人類標注或合成的高質量回復，以增強其執(zhí)行通用指令的能力。這類SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進行構建。

然而，這種方法存在明顯的局限性。隨著數(shù)據(jù)集規(guī)模和質量的提升，SFT的邊際效益逐漸降低，尤其是在訓練后的效果已經(jīng)較為出色的基礎模型上應用SFT，反而可能導致性能下降。

最近，CMU、滑鐵盧大學等機構的3名華人學者在一篇論文中對SFT做出了進一步的改進，提出了批判性監(jiān)督微調方法（CFT，Critique Fine-Tuning）。這一方法旨在通過批判性學習，使模型更有效地模仿數(shù)據(jù)集。

論文鏈接：https://arxiv.org/pdf/2501.17703

批判性監(jiān)督微調：讓SFT煥發(fā)新生

CFT將重點從簡單的模仿轉向基于批判的學習，其核心思想是讓模型學會"批判"，而非簡單地模仿。這一理念靈感來源于人類的學習過程。

學霸群體在學習過程中不僅止于復制答案，而是通過深入分析、批判性思考和持續(xù)改進來提升自身能力。同樣，CFT數(shù)據(jù)集為模型提供錯誤樣本，使其能夠識別和糾正生成內(nèi)容中的缺陷，從而提出改進建議并驗證正確性。

這種方法不僅有助于提升模型的推理能力，還能增強其在復雜任務中表現(xiàn)出的適應性和靈活性。

例如，針對如下問題：在直角三角形的兩條直角邊分別為3個單位和4個單位的情況下，構造一個正方形。求五邊形$ABCDE$的面積（單位：平方單位）。

在SFT模式下，模型會按照步驟進行計算：首先應用勾股定理計算出斜邊長度為5，接著計算正方形的面積為25，再計算三角形面積為6，最后給出答案25-6。

而在CFT模式下，模型會對上述回答進行批評，指出應加上而非減去三角形的面積，并給出正確答案31。

下圖展示了典型的SFT和CFT數(shù)據(jù)樣例。

SFT模式下，模型直接模仿答案；而CFT模式下，模型模仿對錯誤回答的批評

CFT模式具有更高的訓練效率

那么，如何獲取CFT模式所需的訓練數(shù)據(jù)呢？

該研究基于WebInstruct平臺，構建了一個包含50,000對問答樣本的數(shù)據(jù)集，其中的批評意見由GPT-4等高級模型生成。這些樣本主要聚焦于數(shù)學領域（占65%），同時涵蓋了物理、化學和商業(yè)等其他主題。

對比分析CFT數(shù)據(jù)集與SFT數(shù)據(jù)集之間的差異

隨后，在CFT數(shù)據(jù)集上進行未經(jīng)指令微調的7B規(guī)模LLM模型訓練，包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math。

CFT訓練方法的目標明確：將問題x與錯誤回答y拼接作為輸入，優(yōu)化模型參數(shù)以生成評論c，這等價于訓練模型培養(yǎng)批判性思維能力。

實驗結果顯示，作者考察了LLM在經(jīng)過指令微調和批判性微調后在數(shù)學相關基準上的性能提升。結果表明，CFT訓練的模型在性能上優(yōu)于SFT訓練的最佳模型。

相較于SFT，CFT方法的準確率平均高出4-10個百分點。此外，訓練效率更高，能夠在較少的訓練數(shù)據(jù)量下更快收斂，因此具有開發(fā)數(shù)學推理模型的更高效方法潛力。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math基準上的訓練動態(tài)對比，包括CFT與兩種SFT變體方法，橫軸代表訓練步數(shù)，縱軸顯示準確率。

在相同的50k樣本規(guī)模下，不同基座模型在經(jīng)過CFT和SFT訓練后的性能提升情況得以比較。

僅以Qwen2.5-Math-7B模型為例，可以看出其在各類數(shù)據(jù)集和任務上的CFT訓練效果全面超越了SFT方法。

論文將訓練后的Qwen2.5-Math-7B-CFT模型與知名Llama、GPT系列模型，以及專長推理的Deepseek、Mathstral、Numina等系列模型進行了對比，具體結果如表所示。

Qwen2.5-Math-7B-CFT模型的平均性能（48.1%）甚至超越了參數(shù)量10倍的Llama-3.1-70B-Instruct（40.4%）和NuminaMath-72B-CoT（39.1%），與Qwen2.5-Math-72B-Instruct（56.4%）的性能接近。

此外，CFT訓練的系統(tǒng)在效能上與使用140倍計算資源訓練的SimpleRL模型（Deepseek R1的公開參考版本）不相上下，其GPU運行時間降低至1/144，相當于大幅降低了計算成本。

研究人員對CFT的多因素消融分析表明，該系統(tǒng)對于數(shù)據(jù)來源、噪聲響應以及教師批判模型的選用均展現(xiàn)出較強的魯棒性。

例如，即使采用較弱版本的模型生成批評意見，CFT仍能顯著提升效能。

局限與擴展

CFT訓練數(shù)據(jù)集中的基準標準是通過LLM生成的批評數(shù)據(jù)。作者手動審閱了50份批評意見，發(fā)現(xiàn)其中20%存在明顯錯誤，這些錯誤可能對模型的訓練產(chǎn)生一定干擾，影響最終效果。

此外，CFT訓練的系統(tǒng)目前尚未實現(xiàn)自我改進機制。

該研究的局限性在于數(shù)據(jù)集的代表性不足，目前僅聚焦于數(shù)學問題，而編程、科學推理以及人文推理等領域仍需進一步探索是否適用類似的CFT模式。

CFT的優(yōu)勢在于顯著提升了模型的推理能力，同時實現(xiàn)了高效的數(shù)據(jù)利用率。通過讓模型學會批判，等效于進行一次強化學習訓練。

與現(xiàn)有的自我修正機制和獎勵模型相比，CFT采用了批判學習方法，其目標是通過深入理解問題來提升模型能力，而非直接估計獎勵分數(shù)或進行自我修正。這種方法在推理任務中展現(xiàn)出更強的適應性和靈活性。

更為關鍵的是，CFT的數(shù)據(jù)構建和訓練流程相對簡單，計算成本較低，因此具有較高的實際應用價值和經(jīng)濟性。未來研究可能從數(shù)據(jù)質量提升和自我批判機制探索兩個方向推進。

首先，小編將重點放在構建自動驗證工具和生成批判性數(shù)據(jù)集上，以提升批判性數(shù)據(jù)的質量。同時，要實現(xiàn)模型的自我批判和持續(xù)改進能力，需要通過用戶反饋機制，使模型能夠不斷優(yōu)化自身。

未來研究的方向可能還包括將CFT與其他訓練范式（如SFT和RL）相結合，擴展其應用范圍至多模態(tài)環(huán)境，并深入研究其理論基礎。

參考資料：

https://arxiv.org/pdf/2501.17703

合成小妙招，《明日方舟》心扉之樂合成攻略冰霧荒蕪期輕松捕捉溫暖蓑衣蟲，怪物獵人荒野溫暖蓑衣蟲收集攻略：輕松掌握高效技巧從Real Madrid到Milan，阿萊士-希門尼斯在皇馬度過了艱難時光，愛上了米蘭的一切奧義-橫斷大地踐踏技戰(zhàn)術-閃金劍氣，《銀與血》閃金騎士里奧技能介紹對話專家王暢醫(yī)生解讀痔瘡手術治療何時必要，健康科普：痔瘡手術何時進行？"痔"青年關注起來?。ń忉專哼@個改寫版本保留了原文的核心信息，同時進行了以下優(yōu)化：1. 將"健康公開課"簡化為"健康科普"2. 將"哪種情況需要做痔瘡手術"改為更簡潔的"痔瘡手術何時進行"3. 將"有"痔"青年必知"改為更口語化的"‘痔’青年關注起來"4. 整體調整語序，使標題更流暢、更有吸引力5. 刪除了原文中"有"的重復表述，使標題更簡潔） Free Ride Explore the Wild Frontier Now Available on Steam，F(xiàn)REERIDE游戲平臺：去哪玩掛機自動模式，《全明星街球派對王朝模式陣容搭配攻略》輕松捕獲冷蓑衣蟲限定冷飲免費獲取，怪物獵人荒野捕捉冰冷蓑衣蟲方法解析 2016年中國癌癥病例統(tǒng)計，最新中國癌癥數(shù)據(jù)出爐，5大癌種最常見突破 | 快速迭代AI技術對企業(yè)的影響，企業(yè)AI落地需深度賦能——DeepSeek助力新升級

国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

首頁

IT業(yè)界

熱點視頻

站長資訊

好物榜

更多分類

更多主題

道標

游戲特色

游戲亮點

游戲玩法

評測