美女扒开下面让男生桶白浆,BBW与WB和老妇女,扒开双腿猛进入的视频黄

聲明:本文來(lái)自于（ID:ykqsd.com）授權(quán)轉(zhuǎn)載發(fā)布。

新智元相關(guān)報(bào)道

編輯：Peter東喬楊

【新智元導(dǎo)讀】在面對(duì)復(fù)雜的推理任務(wù)時(shí)，SFT（Supervised Fine-Tuning）往往無(wú)法充分發(fā)揮大模型的優(yōu)勢(shì)。近期，由CMU、滑鐵盧大學(xué)等華人研究團(tuán)隊(duì)提出的"批判性微調(diào)"（CFT）方法，在僅使用5萬(wàn)樣本的訓(xùn)練過(guò)程中，便在多數(shù)基準(zhǔn)測(cè)試中超越了使用超過(guò)200萬(wàn)個(gè)樣本的強(qiáng)化學(xué)習(xí)方法。

模仿是傳統(tǒng)語(yǔ)言模型訓(xùn)練的主要方式。LLM（Large Language Model）在解決現(xiàn)實(shí)世界問(wèn)題方面展現(xiàn)出的卓越性能，其中一項(xiàng)核心技術(shù)正是SFT（Supervised Fine-Tuning）。

在SFT的過(guò)程中，模型被要求模仿人類標(biāo)注或合成的高質(zhì)量回復(fù)，以增強(qiáng)其執(zhí)行通用指令的能力。這類SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進(jìn)行構(gòu)建。

然而，這種方法存在明顯的局限性。隨著數(shù)據(jù)集規(guī)模和質(zhì)量的提升，SFT的邊際效益逐漸降低，尤其是在訓(xùn)練后的效果已經(jīng)較為出色的基礎(chǔ)模型上應(yīng)用SFT，反而可能導(dǎo)致性能下降。

最近，CMU、滑鐵盧大學(xué)等機(jī)構(gòu)的3名華人學(xué)者在一篇論文中對(duì)SFT做出了進(jìn)一步的改進(jìn)，提出了批判性監(jiān)督微調(diào)方法（CFT，Critique Fine-Tuning）。這一方法旨在通過(guò)批判性學(xué)習(xí)，使模型更有效地模仿數(shù)據(jù)集。

論文鏈接：https://arxiv.org/pdf/2501.17703

批判性監(jiān)督微調(diào)：讓SFT煥發(fā)新生

CFT將重點(diǎn)從簡(jiǎn)單的模仿轉(zhuǎn)向基于批判的學(xué)習(xí)，其核心思想是讓模型學(xué)會(huì)"批判"，而非簡(jiǎn)單地模仿。這一理念靈感來(lái)源于人類的學(xué)習(xí)過(guò)程。

學(xué)霸群體在學(xué)習(xí)過(guò)程中不僅止于復(fù)制答案，而是通過(guò)深入分析、批判性思考和持續(xù)改進(jìn)來(lái)提升自身能力。同樣，CFT數(shù)據(jù)集為模型提供錯(cuò)誤樣本，使其能夠識(shí)別和糾正生成內(nèi)容中的缺陷，從而提出改進(jìn)建議并驗(yàn)證正確性。

這種方法不僅有助于提升模型的推理能力，還能增強(qiáng)其在復(fù)雜任務(wù)中表現(xiàn)出的適應(yīng)性和靈活性。

例如，針對(duì)如下問(wèn)題：在直角三角形的兩條直角邊分別為3個(gè)單位和4個(gè)單位的情況下，構(gòu)造一個(gè)正方形。求五邊形$ABCDE$的面積（單位：平方單位）。

在SFT模式下，模型會(huì)按照步驟進(jìn)行計(jì)算：首先應(yīng)用勾股定理計(jì)算出斜邊長(zhǎng)度為5，接著計(jì)算正方形的面積為25，再計(jì)算三角形面積為6，最后給出答案25-6。

而在CFT模式下，模型會(huì)對(duì)上述回答進(jìn)行批評(píng)，指出應(yīng)加上而非減去三角形的面積，并給出正確答案31。

下圖展示了典型的SFT和CFT數(shù)據(jù)樣例。

SFT模式下，模型直接模仿答案；而CFT模式下，模型模仿對(duì)錯(cuò)誤回答的批評(píng)

CFT模式具有更高的訓(xùn)練效率

那么，如何獲取CFT模式所需的訓(xùn)練數(shù)據(jù)呢？

該研究基于WebInstruct平臺(tái)，構(gòu)建了一個(gè)包含50,000對(duì)問(wèn)答樣本的數(shù)據(jù)集，其中的批評(píng)意見(jiàn)由GPT-4等高級(jí)模型生成。這些樣本主要聚焦于數(shù)學(xué)領(lǐng)域（占65%），同時(shí)涵蓋了物理、化學(xué)和商業(yè)等其他主題。

對(duì)比分析CFT數(shù)據(jù)集與SFT數(shù)據(jù)集之間的差異

隨后，在CFT數(shù)據(jù)集上進(jìn)行未經(jīng)指令微調(diào)的7B規(guī)模LLM模型訓(xùn)練，包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math。

CFT訓(xùn)練方法的目標(biāo)明確：將問(wèn)題x與錯(cuò)誤回答y拼接作為輸入，優(yōu)化模型參數(shù)以生成評(píng)論c，這等價(jià)于訓(xùn)練模型培養(yǎng)批判性思維能力。

實(shí)驗(yàn)結(jié)果顯示，作者考察了LLM在經(jīng)過(guò)指令微調(diào)和批判性微調(diào)后在數(shù)學(xué)相關(guān)基準(zhǔn)上的性能提升。結(jié)果表明，CFT訓(xùn)練的模型在性能上優(yōu)于SFT訓(xùn)練的最佳模型。

相較于SFT，CFT方法的準(zhǔn)確率平均高出4-10個(gè)百分點(diǎn)。此外，訓(xùn)練效率更高，能夠在較少的訓(xùn)練數(shù)據(jù)量下更快收斂，因此具有開(kāi)發(fā)數(shù)學(xué)推理模型的更高效方法潛力。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math基準(zhǔn)上的訓(xùn)練動(dòng)態(tài)對(duì)比，包括CFT與兩種SFT變體方法，橫軸代表訓(xùn)練步數(shù)，縱軸顯示準(zhǔn)確率。

在相同的50k樣本規(guī)模下，不同基座模型在經(jīng)過(guò)CFT和SFT訓(xùn)練后的性能提升情況得以比較。

僅以Qwen2.5-Math-7B模型為例，可以看出其在各類數(shù)據(jù)集和任務(wù)上的CFT訓(xùn)練效果全面超越了SFT方法。

論文將訓(xùn)練后的Qwen2.5-Math-7B-CFT模型與知名Llama、GPT系列模型，以及專長(zhǎng)推理的Deepseek、Mathstral、Numina等系列模型進(jìn)行了對(duì)比，具體結(jié)果如表所示。

Qwen2.5-Math-7B-CFT模型的平均性能（48.1%）甚至超越了參數(shù)量10倍的Llama-3.1-70B-Instruct（40.4%）和NuminaMath-72B-CoT（39.1%），與Qwen2.5-Math-72B-Instruct（56.4%）的性能接近。

此外，CFT訓(xùn)練的系統(tǒng)在效能上與使用140倍計(jì)算資源訓(xùn)練的SimpleRL模型（Deepseek R1的公開(kāi)參考版本）不相上下，其GPU運(yùn)行時(shí)間降低至1/144，相當(dāng)于大幅降低了計(jì)算成本。

研究人員對(duì)CFT的多因素消融分析表明，該系統(tǒng)對(duì)于數(shù)據(jù)來(lái)源、噪聲響應(yīng)以及教師批判模型的選用均展現(xiàn)出較強(qiáng)的魯棒性。

例如，即使采用較弱版本的模型生成批評(píng)意見(jiàn)，CFT仍能顯著提升效能。

局限與擴(kuò)展

CFT訓(xùn)練數(shù)據(jù)集中的基準(zhǔn)標(biāo)準(zhǔn)是通過(guò)LLM生成的批評(píng)數(shù)據(jù)。作者手動(dòng)審閱了50份批評(píng)意見(jiàn)，發(fā)現(xiàn)其中20%存在明顯錯(cuò)誤，這些錯(cuò)誤可能對(duì)模型的訓(xùn)練產(chǎn)生一定干擾，影響最終效果。

此外，CFT訓(xùn)練的系統(tǒng)目前尚未實(shí)現(xiàn)自我改進(jìn)機(jī)制。

該研究的局限性在于數(shù)據(jù)集的代表性不足，目前僅聚焦于數(shù)學(xué)問(wèn)題，而編程、科學(xué)推理以及人文推理等領(lǐng)域仍需進(jìn)一步探索是否適用類似的CFT模式。

CFT的優(yōu)勢(shì)在于顯著提升了模型的推理能力，同時(shí)實(shí)現(xiàn)了高效的數(shù)據(jù)利用率。通過(guò)讓模型學(xué)會(huì)批判，等效于進(jìn)行一次強(qiáng)化學(xué)習(xí)訓(xùn)練。

與現(xiàn)有的自我修正機(jī)制和獎(jiǎng)勵(lì)模型相比，CFT采用了批判學(xué)習(xí)方法，其目標(biāo)是通過(guò)深入理解問(wèn)題來(lái)提升模型能力，而非直接估計(jì)獎(jiǎng)勵(lì)分?jǐn)?shù)或進(jìn)行自我修正。這種方法在推理任務(wù)中展現(xiàn)出更強(qiáng)的適應(yīng)性和靈活性。

更為關(guān)鍵的是，CFT的數(shù)據(jù)構(gòu)建和訓(xùn)練流程相對(duì)簡(jiǎn)單，計(jì)算成本較低，因此具有較高的實(shí)際應(yīng)用價(jià)值和經(jīng)濟(jì)性。未來(lái)研究可能從數(shù)據(jù)質(zhì)量提升和自我批判機(jī)制探索兩個(gè)方向推進(jìn)。

首先，小編將重點(diǎn)放在構(gòu)建自動(dòng)驗(yàn)證工具和生成批判性數(shù)據(jù)集上，以提升批判性數(shù)據(jù)的質(zhì)量。同時(shí)，要實(shí)現(xiàn)模型的自我批判和持續(xù)改進(jìn)能力，需要通過(guò)用戶反饋機(jī)制，使模型能夠不斷優(yōu)化自身。

未來(lái)研究的方向可能還包括將CFT與其他訓(xùn)練范式（如SFT和RL）相結(jié)合，擴(kuò)展其應(yīng)用范圍至多模態(tài)環(huán)境，并深入研究其理論基礎(chǔ)。

參考資料：

https://arxiv.org/pdf/2501.17703

科技股巨震，特斯拉：分析師看空，交付數(shù)據(jù)或不理想國(guó)際乒聯(lián)停賽后爭(zhēng)議徐克被停10年與聽(tīng)證條款不符，徐克三點(diǎn)半將去女方房間，已證實(shí)關(guān)系維生素D，失眠困擾、腰酸背痛，更年期女性保健品推薦！網(wǎng)絡(luò)直播，委員建議直播打賞建立消費(fèi)冷靜期，設(shè)置上限并無(wú)條件可退。 31000名美國(guó)國(guó)防部雇員將被裁員，美國(guó)國(guó)防部裁減3萬(wàn)員工 2023年航空發(fā)動(dòng)機(jī)技術(shù)革新，航空發(fā)動(dòng)機(jī)再首飛再創(chuàng)新高！三款新機(jī)型首飛進(jìn)度領(lǐng)先說(shuō)明：1. 采用"再"字，突出時(shí)間上的連續(xù)性2. 使用"創(chuàng)新高"等表達(dá)，強(qiáng)調(diào)突破3. 調(diào)整語(yǔ)序，更符合新聞寫(xiě)作習(xí)慣4. 突出重點(diǎn)：首飛成功、進(jìn)度領(lǐng)先5. 保持簡(jiǎn)潔明了6. 同義詞替換，避免重復(fù)7. 調(diào)整了語(yǔ)序和結(jié)構(gòu)，使標(biāo)題更流暢有力8. 保留了所有必要信息，同時(shí)更簡(jiǎn)潔有力更年期常見(jiàn)癥狀及就醫(yī)須知，別讓更年期悄悄成為你的"痛經(jīng)"！這三種情況一定要看醫(yī)生?。ㄕf(shuō)明：這個(gè)改寫(xiě)標(biāo)題：1. 保持了原意的核心信息2. 去除了口語(yǔ)化表達(dá)"忍忍就好了"3. 調(diào)整了語(yǔ)序，使標(biāo)題更簡(jiǎn)潔有力4. 使用"別讓..."、"一定要..."等引導(dǎo)性詞語(yǔ)，增強(qiáng)標(biāo)題的緊迫感5. 將"看醫(yī)生"作為關(guān)鍵行動(dòng)點(diǎn)突顯出來(lái)6. 用"痛經(jīng)"作為比喻，使標(biāo)題更口語(yǔ)化、親切化7. 保留了關(guān)鍵的三種情況提示信息）負(fù)債巨懸 | 大方送禮，奧克斯因 legal disputes with格力轉(zhuǎn)赴港股IPO之路（IPO研究院）意甲 Focus，佛羅倫薩教練：下半場(chǎng)表現(xiàn)滿意，歐協(xié)聯(lián)比賽必贏佤族夜生活，昆明機(jī)場(chǎng)首次呈現(xiàn)佤族舞蹈演繹民族文化魅力