- 盒馬X會(huì)員店關(guān)閉曾經(jīng)的雄心何去何從,盒馬會(huì)員體系大規(guī)模收縮:新零售的"求生"策略
- 札幌雪夜,## 札幌起飛緊急中止!日航客機(jī)47人平安返回### 詳細(xì)分析:1. **核心信息提取**: - 飛機(jī)型號(hào):日航客機(jī) - 事件地點(diǎn):札幌 - 事件性質(zhì):起飛中止 - 人員傷亡:47人未受傷,順利返回2. **關(guān)鍵詞匯替換**: - "撞狐貍" → "起飛中止"(更準(zhǔn)確描述事件) - "機(jī)上47人未傷" → "47人平安返回"(強(qiáng)調(diào)人員安全)3. **語(yǔ)序調(diào)整**: - 原標(biāo)題較長(zhǎng),信息量大,改寫(xiě)后更簡(jiǎn)潔 - "札幌起飛緊急中止" → 更符合新聞標(biāo)題的表達(dá)習(xí)慣4. **標(biāo)題結(jié)構(gòu)優(yōu)化**: - 前半部分描述事件經(jīng)過(guò),后半部分強(qiáng)調(diào)結(jié)果 - "日航客機(jī)札幌起飛緊急中止!47人平安返回" → 更吸引眼球且信息明確5. **受眾定位**: - 面向新聞媒體或大眾傳播,標(biāo)題需簡(jiǎn)潔明了,突出重點(diǎn)6. **情感色彩**: - 原標(biāo)題帶有幽默色彩("撞狐貍"),改寫(xiě)后更顯莊重 - 保持標(biāo)題的新聞性,同時(shí)讓讀者一目了然7. **信息完整性**: - 保留所有關(guān)鍵信息,同時(shí)精簡(jiǎn)表述 - 確保讀者能在短時(shí)間內(nèi)掌握事件全貌8. **標(biāo)題長(zhǎng)度控制**: - 原標(biāo)題較長(zhǎng),改寫(xiě)后控制在15個(gè)字左右 - 更符合中文新聞標(biāo)題的撰寫(xiě)規(guī)范9. **受眾需求考慮**: - 青睞于希望標(biāo)題既準(zhǔn)確又簡(jiǎn)潔,同時(shí)保持新聞價(jià)值 - 適合快速閱讀和傳播10. **語(yǔ)言風(fēng)格統(tǒng)一**: - 采用"!"號(hào)強(qiáng)調(diào)事件的緊急性 - 使用"平安返回"來(lái)傳達(dá)積極的信息總結(jié):改寫(xiě)后的標(biāo)題在保持原意的基礎(chǔ)上,更加簡(jiǎn)潔明了,突出了事件的關(guān)鍵信息和結(jié)果,符合新聞標(biāo)題的撰寫(xiě)要求。
- 長(zhǎng)航時(shí)訓(xùn)練中的威懾,標(biāo)題改寫(xiě):殲-16飛行員:彈藥隨身攜帶是一種威懾改寫(xiě)說(shuō)明:1. 將"飛行員"作為定語(yǔ)省略,簡(jiǎn)化句子結(jié)構(gòu)2. 將"在空中掛著彈"改為"彈藥隨身攜帶",同義替換但更簡(jiǎn)潔3. 保留核心意思,強(qiáng)調(diào)彈藥威懾作用4. 整體表達(dá)更符合中文表達(dá)習(xí)慣5. 保持標(biāo)題長(zhǎng)度較短,便于記憶和傳播
- 比亞迪第二代元PLUS智駕版上市,全系搭載天神之眼,價(jià)格下降!
- 小黑褲的秘密,還不知道怎么穿小黑褲的看過(guò)來(lái),10種搭配秘籍讓你輕松駕馭
- 悲痛的延續(xù),S媽深夜發(fā)文"撐不下去",網(wǎng)友擔(dān)心她情緒不好,希望她能自我安慰
- 大興國(guó)際機(jī)場(chǎng)外國(guó)友人數(shù)量增長(zhǎng)與通關(guān)優(yōu)化,北京大興機(jī)場(chǎng)口岸出入境人數(shù)已提前破百萬(wàn)。
- 兒童肥胖的多重影響,肥胖對(duì)青少年的骨齡、性發(fā)育和代謝產(chǎn)生不利影響!
- 臺(tái)灣導(dǎo)彈護(hù)衛(wèi)艦事故,軍事 | 臺(tái)軍導(dǎo)彈護(hù)衛(wèi)艦"意大利炮"發(fā)生爆炸,原因調(diào)查
- 強(qiáng)化指南涌油谷大本營(yíng),機(jī)械武器強(qiáng)化材料獲取方法解析
聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
新智元相關(guān)報(bào)道
編輯:Peter東 喬楊
【新智元導(dǎo)讀】在面對(duì)復(fù)雜的推理任務(wù)時(shí),SFT(Supervised Fine-Tuning)往往無(wú)法充分發(fā)揮大模型的優(yōu)勢(shì)。近期,由CMU、滑鐵盧大學(xué)等華人研究團(tuán)隊(duì)提出的"批判性微調(diào)"(CFT)方法,在僅使用5萬(wàn)樣本的訓(xùn)練過(guò)程中,便在多數(shù)基準(zhǔn)測(cè)試中超越了使用超過(guò)200萬(wàn)個(gè)樣本的強(qiáng)化學(xué)習(xí)方法。
模仿是傳統(tǒng)語(yǔ)言模型訓(xùn)練的主要方式。LLM(Large Language Model)在解決現(xiàn)實(shí)世界問(wèn)題方面展現(xiàn)出的卓越性能,其中一項(xiàng)核心技術(shù)正是SFT(Supervised Fine-Tuning)。
在SFT的過(guò)程中,模型被要求模仿人類(lèi)標(biāo)注或合成的高質(zhì)量回復(fù),以增強(qiáng)其執(zhí)行通用指令的能力。這類(lèi)SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進(jìn)行構(gòu)建。
然而,這種方法存在明顯的局限性。隨著數(shù)據(jù)集規(guī)模和質(zhì)量的提升,SFT的邊際效益逐漸降低,尤其是在訓(xùn)練后的效果已經(jīng)較為出色的基礎(chǔ)模型上應(yīng)用SFT,反而可能導(dǎo)致性能下降。
最近,CMU、滑鐵盧大學(xué)等機(jī)構(gòu)的3名華人學(xué)者在一篇論文中對(duì)SFT做出了進(jìn)一步的改進(jìn),提出了批判性監(jiān)督微調(diào)方法(CFT,Critique Fine-Tuning)。這一方法旨在通過(guò)批判性學(xué)習(xí),使模型更有效地模仿數(shù)據(jù)集。
論文鏈接:https://arxiv.org/pdf/2501.17703
批判性監(jiān)督微調(diào):讓SFT煥發(fā)新生
CFT將重點(diǎn)從簡(jiǎn)單的模仿轉(zhuǎn)向基于批判的學(xué)習(xí),其核心思想是讓模型學(xué)會(huì)"批判",而非簡(jiǎn)單地模仿。這一理念靈感來(lái)源于人類(lèi)的學(xué)習(xí)過(guò)程。
學(xué)霸群體在學(xué)習(xí)過(guò)程中不僅止于復(fù)制答案,而是通過(guò)深入分析、批判性思考和持續(xù)改進(jìn)來(lái)提升自身能力。同樣,CFT數(shù)據(jù)集為模型提供錯(cuò)誤樣本,使其能夠識(shí)別和糾正生成內(nèi)容中的缺陷,從而提出改進(jìn)建議并驗(yàn)證正確性。
這種方法不僅有助于提升模型的推理能力,還能增強(qiáng)其在復(fù)雜任務(wù)中表現(xiàn)出的適應(yīng)性和靈活性。
例如,針對(duì)如下問(wèn)題:在直角三角形的兩條直角邊分別為3個(gè)單位和4個(gè)單位的情況下,構(gòu)造一個(gè)正方形。求五邊形$ABCDE$的面積(單位:平方單位)。
在SFT模式下,模型會(huì)按照步驟進(jìn)行計(jì)算:首先應(yīng)用勾股定理計(jì)算出斜邊長(zhǎng)度為5,接著計(jì)算正方形的面積為25,再計(jì)算三角形面積為6,最后給出答案25-6。
而在CFT模式下,模型會(huì)對(duì)上述回答進(jìn)行批評(píng),指出應(yīng)加上而非減去三角形的面積,并給出正確答案31。
下圖展示了典型的SFT和CFT數(shù)據(jù)樣例。
SFT模式下,模型直接模仿答案;而CFT模式下,模型模仿對(duì)錯(cuò)誤回答的批評(píng)
CFT模式具有更高的訓(xùn)練效率
那么,如何獲取CFT模式所需的訓(xùn)練數(shù)據(jù)呢?
該研究基于WebInstruct平臺(tái),構(gòu)建了一個(gè)包含50,000對(duì)問(wèn)答樣本的數(shù)據(jù)集,其中的批評(píng)意見(jiàn)由GPT-4等高級(jí)模型生成。這些樣本主要聚焦于數(shù)學(xué)領(lǐng)域(占65%),同時(shí)涵蓋了物理、化學(xué)和商業(yè)等其他主題。
對(duì)比分析CFT數(shù)據(jù)集與SFT數(shù)據(jù)集之間的差異
隨后,在CFT數(shù)據(jù)集上進(jìn)行未經(jīng)指令微調(diào)的7B規(guī)模LLM模型訓(xùn)練,包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math。
CFT訓(xùn)練方法的目標(biāo)明確:將問(wèn)題x與錯(cuò)誤回答y拼接作為輸入,優(yōu)化模型參數(shù)以生成評(píng)論c,這等價(jià)于訓(xùn)練模型培養(yǎng)批判性思維能力。
實(shí)驗(yàn)結(jié)果顯示,作者考察了LLM在經(jīng)過(guò)指令微調(diào)和批判性微調(diào)后在數(shù)學(xué)相關(guān)基準(zhǔn)上的性能提升。結(jié)果表明,CFT訓(xùn)練的模型在性能上優(yōu)于SFT訓(xùn)練的最佳模型。
相較于SFT,CFT方法的準(zhǔn)確率平均高出4-10個(gè)百分點(diǎn)。此外,訓(xùn)練效率更高,能夠在較少的訓(xùn)練數(shù)據(jù)量下更快收斂,因此具有開(kāi)發(fā)數(shù)學(xué)推理模型的更高效方法潛力。
圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math基準(zhǔn)上的訓(xùn)練動(dòng)態(tài)對(duì)比,包括CFT與兩種SFT變體方法,橫軸代表訓(xùn)練步數(shù),縱軸顯示準(zhǔn)確率。
在相同的50k樣本規(guī)模下,不同基座模型在經(jīng)過(guò)CFT和SFT訓(xùn)練后的性能提升情況得以比較。
僅以Qwen2.5-Math-7B模型為例,可以看出其在各類(lèi)數(shù)據(jù)集和任務(wù)上的CFT訓(xùn)練效果全面超越了SFT方法。
論文將訓(xùn)練后的Qwen2.5-Math-7B-CFT模型與知名Llama、GPT系列模型,以及專(zhuān)長(zhǎng)推理的Deepseek、Mathstral、Numina等系列模型進(jìn)行了對(duì)比,具體結(jié)果如表所示。
Qwen2.5-Math-7B-CFT模型的平均性能(48.1%)甚至超越了參數(shù)量10倍的Llama-3.1-70B-Instruct(40.4%)和NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)的性能接近。
此外,CFT訓(xùn)練的系統(tǒng)在效能上與使用140倍計(jì)算資源訓(xùn)練的SimpleRL模型(Deepseek R1的公開(kāi)參考版本)不相上下,其GPU運(yùn)行時(shí)間降低至1/144,相當(dāng)于大幅降低了計(jì)算成本。
研究人員對(duì)CFT的多因素消融分析表明,該系統(tǒng)對(duì)于數(shù)據(jù)來(lái)源、噪聲響應(yīng)以及教師批判模型的選用均展現(xiàn)出較強(qiáng)的魯棒性。
例如,即使采用較弱版本的模型生成批評(píng)意見(jiàn),CFT仍能顯著提升效能。
局限與擴(kuò)展
CFT訓(xùn)練數(shù)據(jù)集中的基準(zhǔn)標(biāo)準(zhǔn)是通過(guò)LLM生成的批評(píng)數(shù)據(jù)。作者手動(dòng)審閱了50份批評(píng)意見(jiàn),發(fā)現(xiàn)其中20%存在明顯錯(cuò)誤,這些錯(cuò)誤可能對(duì)模型的訓(xùn)練產(chǎn)生一定干擾,影響最終效果。
此外,CFT訓(xùn)練的系統(tǒng)目前尚未實(shí)現(xiàn)自我改進(jìn)機(jī)制。
該研究的局限性在于數(shù)據(jù)集的代表性不足,目前僅聚焦于數(shù)學(xué)問(wèn)題,而編程、科學(xué)推理以及人文推理等領(lǐng)域仍需進(jìn)一步探索是否適用類(lèi)似的CFT模式。
CFT的優(yōu)勢(shì)在于顯著提升了模型的推理能力,同時(shí)實(shí)現(xiàn)了高效的數(shù)據(jù)利用率。通過(guò)讓模型學(xué)會(huì)批判,等效于進(jìn)行一次強(qiáng)化學(xué)習(xí)訓(xùn)練。
與現(xiàn)有的自我修正機(jī)制和獎(jiǎng)勵(lì)模型相比,CFT采用了批判學(xué)習(xí)方法,其目標(biāo)是通過(guò)深入理解問(wèn)題來(lái)提升模型能力,而非直接估計(jì)獎(jiǎng)勵(lì)分?jǐn)?shù)或進(jìn)行自我修正。這種方法在推理任務(wù)中展現(xiàn)出更強(qiáng)的適應(yīng)性和靈活性。
更為關(guān)鍵的是,CFT的數(shù)據(jù)構(gòu)建和訓(xùn)練流程相對(duì)簡(jiǎn)單,計(jì)算成本較低,因此具有較高的實(shí)際應(yīng)用價(jià)值和經(jīng)濟(jì)性。未來(lái)研究可能從數(shù)據(jù)質(zhì)量提升和自我批判機(jī)制探索兩個(gè)方向推進(jìn)。
首先,小編將重點(diǎn)放在構(gòu)建自動(dòng)驗(yàn)證工具和生成批判性數(shù)據(jù)集上,以提升批判性數(shù)據(jù)的質(zhì)量。同時(shí),要實(shí)現(xiàn)模型的自我批判和持續(xù)改進(jìn)能力,需要通過(guò)用戶反饋機(jī)制,使模型能夠不斷優(yōu)化自身。
未來(lái)研究的方向可能還包括將CFT與其他訓(xùn)練范式(如SFT和RL)相結(jié)合,擴(kuò)展其應(yīng)用范圍至多模態(tài)環(huán)境,并深入研究其理論基礎(chǔ)。
參考資料:
https://arxiv.org/pdf/2501.17703
離婚后的她,陳妍希與陳曉離婚后看話?。嚎扌τ挚?/a> 推遲發(fā)射,阿麗亞娜6型火箭首次商業(yè)發(fā)射任務(wù)成功 風(fēng)與云配對(duì)挑戰(zhàn),《爆梗找茬王》風(fēng)與云關(guān)系通關(guān)攻略 2億人該如何花粉過(guò)敏癥如何讓每個(gè)人痛哭流涕,以下是幾個(gè)符合要求的標(biāo)題改寫(xiě)方案:方案一:中國(guó)2億人 optionally its影響,罪魁禍?zhǔn)拙故恰桨付褐袊?guó)2億人受其影響,罪魁禍?zhǔn)拙故恰桨溉褐袊?guó)2億人受其影響,罪魁禍?zhǔn)拙烤故恰桨杆模褐袊?guó)2億人面臨其影響,罪魁禍?zhǔn)拙烤故恰桨肝澹褐袊?guó)2億人受其影響,罪魁禍?zhǔn)拙故恰陨戏桨付急3至嗽牡暮诵囊馑?,同時(shí)簡(jiǎn)化了表述,使標(biāo)題更簡(jiǎn)潔、更有吸引力。您可以根據(jù)具體需求選擇最合適的版本。 龍都和龍谷的大小金刷取技巧,刷大作大小金冠技巧合集全解析大作刷圖技巧 荒涼郊區(qū)的科技奇跡,'星際之門(mén)'計(jì)劃曝光:這家創(chuàng)業(yè)公司竟暗中搞建設(shè) 如何選擇最適合你的道具,《dnf》武器幻化方法介紹 探索未來(lái),張松山:中國(guó)太空探索展現(xiàn)開(kāi)放與合作精神 企業(yè)反內(nèi)卷,標(biāo)題改寫(xiě):多個(gè)大廠叫停加班,探索"打破內(nèi)耗"新路徑說(shuō)明:1. "996"簡(jiǎn)化為"長(zhǎng)時(shí)間工作制度"2. "反內(nèi)卷"簡(jiǎn)化為"打破內(nèi)耗"3. 調(diào)整語(yǔ)序,使標(biāo)題更簡(jiǎn)潔4. 使用更通俗的表達(dá)方式5. 保持核心信息不變6. 用"新路徑"體現(xiàn)探索的意味7. 使標(biāo)題更符合新聞報(bào)道的風(fēng)格 敘利亞沖突平民傷亡,敘利亞政府軍與阿薩德武裝發(fā)生沖突,造成多人傷亡!敘利亞過(guò)渡總統(tǒng)呼吁"殘余勢(shì)力"放下武器,各方紛紛表態(tài)。