十八禁午夜福利免费网站,亚洲精品nv久久久久久久,亚洲一区二区三区97

聲明:本文來自于（ID:ykqsd.com）授權(quán)轉(zhuǎn)載發(fā)布。

報道來源：新智元

編輯：Peter東、喬楊

【新智元導(dǎo)讀】在處理復(fù)雜推理任務(wù)時，SFT往往表現(xiàn)不佳。最近，由多所高校的華人團隊提出的批判性微調(diào)方法（CFT）僅在50K樣本上進行微調(diào)，便在多數(shù)基準(zhǔn)測試中超越了使用超過200萬個樣本的強化學(xué)習(xí)方法。

模仿是傳統(tǒng)語言模型進行訓(xùn)練的主要方式。LLM在解決現(xiàn)實世界問題方面表現(xiàn)出的優(yōu)異性能，其中一項核心技術(shù)是監(jiān)督微調(diào)（SFT）。

在SFT的過程中，模型被要求模仿人類標(biāo)注或合成的高質(zhì)量回復(fù)，以增強其對通用指令的遵循能力。這類SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進行構(gòu)建。

然而，這種方法存在明顯的局限性。當(dāng)數(shù)據(jù)集規(guī)模和質(zhì)量進一步提升時，SFT的邊際效益可能會下降，尤其是在基礎(chǔ)模型已經(jīng)表現(xiàn)出較強性能的情況下，使用SFT可能反而會導(dǎo)致性能下降。

最近，由多所高校的華人學(xué)者共同提出的批判式監(jiān)督微調(diào)方法（CFT）旨在提升模型的模仿能力。

論文鏈接：https://arxiv.org/pdf/2501.17703

批判式監(jiān)督微調(diào)：讓SFT重新偉大

CFT將重點從簡單模仿轉(zhuǎn)向基于批判的學(xué)習(xí)，其核心思想是讓模型學(xué)會批判性思維，而非簡單模仿，這一方法 borrow from human learning processes.

學(xué)霸在學(xué)習(xí)過程中不只是模仿答案，而是進行分析、批判和自我改進。在CFT數(shù)據(jù)集中，模型為錯誤的模型響應(yīng)提供了相應(yīng)的批評，幫助LLM識別其缺陷并提出改進建議，從而驗證其正確性。

這種方法不僅能夠提升模型的推理能力，還能增強其在復(fù)雜任務(wù)中的適應(yīng)性和靈活性。

比如，針對如下問題：在直角三角形中，兩條直角邊的長度分別為3個單位和4個單位，構(gòu)造一個正方形。求五邊形$ABCDE$的面積（單位：平方單位）。

在SFT模式下，模型會逐步進行計算，首先應(yīng)用勾股定理得出斜邊長度為5，隨后計算正方形面積為25，三角形面積為6，最終模型給出答案25減去6。

在CFT模式下，模型會對上述回答進行批評，指出錯誤在于應(yīng)加而非減三角形面積，并提供正確答案31。

下圖展示了SFT和CFT兩種模式的數(shù)據(jù)樣本。

SFT模式讓大模型直接模仿答案，而CFT模式讓大模型模仿對錯誤回答的批評。

CFT模式具有更高的訓(xùn)練效率。

那么，如何獲取CFT訓(xùn)練所需的數(shù)據(jù)呢？

該研究基于WebInstruct構(gòu)建了一個包含50,000個帶有批評意見的問答對的數(shù)據(jù)集，其中的批評意見由GPT-4等高級模型生成，上述數(shù)學(xué)問題便是其中一例。

分析CFT數(shù)據(jù)集與其他SFT數(shù)據(jù)集的異同

在CFT數(shù)據(jù)集上，采用7B規(guī)模、未經(jīng)指令微調(diào)的LLM進行訓(xùn)練，包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math等模型。

CFT方法的訓(xùn)練目標(biāo)非常明確：將問題x和錯誤回答y進行拼接作為輸入，優(yōu)化模型參數(shù)以生成評論c，這相當(dāng)于訓(xùn)練模型具備批判性思維能力。

實驗中，作者對比了LLM在經(jīng)過指令微調(diào)與批判性微調(diào)后，在數(shù)學(xué)相關(guān)基準(zhǔn)上的性能提升。結(jié)果顯示，CFT訓(xùn)練的模型在性能上持續(xù)優(yōu)于SFT訓(xùn)練的最佳模型。

相比SFT，CFT的準(zhǔn)確率平均高出4-10個百分點。此外，訓(xùn)練效率更高，能夠在較少的訓(xùn)練數(shù)據(jù)量上實現(xiàn)更快的收斂，因此CFT方法有望成為開發(fā)數(shù)學(xué)推理模型的一種更有效方法。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math任務(wù)上不同方法的訓(xùn)練動態(tài)對比，橫軸為訓(xùn)練步數(shù)，縱軸為模型準(zhǔn)確率。

在同樣規(guī)模的50k樣本數(shù)據(jù)集上，不同基座模型在使用CFT與SFT訓(xùn)練后的性能提升情況值得觀察。

如果僅關(guān)注Qwen2.5-Math-7B這一模型，可以看出，CFT的訓(xùn)練效果在各類數(shù)據(jù)集和任務(wù)上都能全面超越SFT。

論文對比了訓(xùn)練后的Qwen2.5-Math-7B-CFT與知名模型，包括Llama、GPT系列，以及Deepseek、Mathstral、Numina等系列模型，并通過表格展示了具體對比結(jié)果。

Qwen2.5-Math-7B-CFT的平均性能（48.1%）優(yōu)于參數(shù)量10倍的Llama-3.1-70B-Instruct（40.4%）和NuminaMath-72B-CoT（39.1%），與Qwen2.5-Math-72B-Instruct（56.4%）相當(dāng)。

此外，基于CFT訓(xùn)練的模型在性能上與采用140倍計算資源訓(xùn)練的Deepseek R1開源版本（SimpleRL模型的復(fù)制版）相比，具有不相上下之處。值得注意的是，CFT模型的GPU運行時縮短至1/144，這相當(dāng)于大幅降低了計算成本。

研究人員對CFT的多個關(guān)鍵因素進行了系統(tǒng)性消融研究。結(jié)果表明，CFT模型在數(shù)據(jù)來源的魯棒性、噪聲響應(yīng)的抗干擾能力以及教師批判模型選擇的穩(wěn)定性等方面表現(xiàn)出較強的能力。

舉例來說，即使使用較弱的GPT-4o-mini生成器輸出批評意見，CFT模型仍然能夠顯著提升性能。

局限性與擴展方向

在CFT訓(xùn)練數(shù)據(jù)集中，作為基準(zhǔn)的批評數(shù)據(jù)全部由LLM生成。經(jīng)過作者的手動檢查，發(fā)現(xiàn)其中有20%的批評意見本身就存在明顯的錯誤。這些錯誤可能會對模型的訓(xùn)練效果造成一定干擾，從而影響其最終性能。

此外，CFT訓(xùn)練的模型目前尚未實現(xiàn)自我批評機制，因此尚未觀察到自我改進的效果。

該研究的數(shù)據(jù)集在代表性方面仍存在不足，目前主要集中在數(shù)學(xué)問題領(lǐng)域，而在編程、科學(xué)推理以及人文相關(guān)推理問題等方面，CFT模式的適用性仍需進一步驗證。

CFT的主要優(yōu)勢在于顯著提升模型的推理能力以及優(yōu)化數(shù)據(jù)使用效率。通過模型學(xué)會批判性思維，相當(dāng)于讓大模型完成一次強化學(xué)習(xí)訓(xùn)練。

相比于現(xiàn)有的自我修正（Self-Correction）、獎勵模型（Reward Models）等方法，CFT的目標(biāo)是通過批判學(xué)習(xí)提升模型對問題的深入理解，而不是直接估計獎勵分?jǐn)?shù)或進行自我修正。這種方法在推理任務(wù)中展現(xiàn)出更強的適應(yīng)性和靈活性。

最為關(guān)鍵的是，CFT的數(shù)據(jù)構(gòu)建和訓(xùn)練流程相對簡單，計算成本較低，因此在實際應(yīng)用中具有較高的可行性和經(jīng)濟性。未來研究將重點突破批判數(shù)據(jù)質(zhì)量的提升和模型自我批判機制的實現(xiàn)。

首先是構(gòu)建自動驗證工具或開發(fā)人類驗證機制，以優(yōu)化批判數(shù)據(jù)的質(zhì)量；同時，要使大模型具備自我批判與自我改進的能力，需使其通過用戶反饋實現(xiàn)持續(xù)優(yōu)化。

進一步的研究也可能探討將CFT與SFT、RL等其他訓(xùn)練范式結(jié)合，應(yīng)用于多模態(tài)場景，并深入研究其理論基礎(chǔ)。

參考資料：

https://arxiv.org/pdf/2501.17703

輕松捕捉森盞蟹，森盞蟹收集指南 Metal Eden發(fā)布，METAL EDEN發(fā)售日期介紹 “耶”情緒，超度大S，具俊曄爭遺產(chǎn)，小S家暴案你知道嗎番石榴和石榴是同一類水果嗎，番石榴和石榴是同一種水果嗎 SpaceX星艦火箭首次回收技術(shù)測試失敗，建議標(biāo)題：美國太空探索技術(shù)公司計劃開展“星艦”火箭8次發(fā)射任務(wù)說明：這個標(biāo)題保持了原文的核心信息，但進行了以下簡化和調(diào)整：1. 去掉了"計劃進行"，使表達(dá)更簡潔2. 將"第八次試飛"簡化為"8次發(fā)射任務(wù)"3. 保留了"美國太空探索技術(shù)公司"和"星艦"火箭的核心信息4. 使用"任務(wù)"替代"試飛"，使表述更正式和專業(yè)5. 整體結(jié)構(gòu)更緊湊，信息傳遞更直接這個標(biāo)題既保持了原意，又更加簡潔明了，適合用于正式的新聞報道或宣傳材料。超值掉落狂歡，《夢幻西游》植樹節(jié)加成一覽捕捉千羽蝶，怪物獵人荒野：千羽蝶收集方法探索與發(fā)現(xiàn)，荒野泡歌鸮及美聲歌鸮收集方法捕捉輕松回復(fù)藥G荒野中神秘的搬葉蟻，怪物獵人：荒野之息搬葉蟻捕獲方法指南長槍超級耐力提升搭配 totally 強，荒野長槍配裝指南：思路與技巧分享！趕緊保存！