国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長之家 - 業(yè)界 2025-03-12 02:03:32

突破訓練效率,SFT煥發(fā)新活力:CMU等華人學者提出創(chuàng)新方法:批判式微調,與DeepSeek平分秋色(解釋:這個改寫版本:1. 刪除了"讓"字,使表達更簡潔2. 簡化了"讓SFT重新偉大"為"SFT煥發(fā)新活力"3. 使用"創(chuàng)新方法"替代"全新「批判式微調」"4. "與DeepSeek平分秋色"替代"媲美復刻版DeepSeek"5. 保持了核心信息,同時使標題更簡潔明了)

聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。

新智元相關報道

編輯:Peter東 喬楊

【新智元導讀】在面對復雜的推理任務時,SFT(Supervised Fine-Tuning)往往無法充分發(fā)揮大模型的優(yōu)勢。近期,由CMU、滑鐵盧大學等華人研究團隊提出的"批判性微調"(CFT)方法,在僅使用5萬樣本的訓練過程中,便在多數(shù)基準測試中超越了使用超過200萬個樣本的強化學習方法。

模仿是傳統(tǒng)語言模型訓練的主要方式。LLM(Large Language Model)在解決現(xiàn)實世界問題方面展現(xiàn)出的卓越性能,其中一項核心技術正是SFT(Supervised Fine-Tuning)。

在SFT的過程中,模型被要求模仿人類標注或合成的高質量回復,以增強其執(zhí)行通用指令的能力。這類SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進行構建。

然而,這種方法存在明顯的局限性。隨著數(shù)據(jù)集規(guī)模和質量的提升,SFT的邊際效益逐漸降低,尤其是在訓練后的效果已經(jīng)較為出色的基礎模型上應用SFT,反而可能導致性能下降。

最近,CMU、滑鐵盧大學等機構的3名華人學者在一篇論文中對SFT做出了進一步的改進,提出了批判性監(jiān)督微調方法(CFT,Critique Fine-Tuning)。這一方法旨在通過批判性學習,使模型更有效地模仿數(shù)據(jù)集。

論文鏈接:https://arxiv.org/pdf/2501.17703

批判性監(jiān)督微調:讓SFT煥發(fā)新生

CFT將重點從簡單的模仿轉向基于批判的學習,其核心思想是讓模型學會"批判",而非簡單地模仿。這一理念靈感來源于人類的學習過程。

學霸群體在學習過程中不僅止于復制答案,而是通過深入分析、批判性思考和持續(xù)改進來提升自身能力。同樣,CFT數(shù)據(jù)集為模型提供錯誤樣本,使其能夠識別和糾正生成內(nèi)容中的缺陷,從而提出改進建議并驗證正確性。

這種方法不僅有助于提升模型的推理能力,還能增強其在復雜任務中表現(xiàn)出的適應性和靈活性。

例如,針對如下問題:在直角三角形的兩條直角邊分別為3個單位和4個單位的情況下,構造一個正方形。求五邊形$ABCDE$的面積(單位:平方單位)。

在SFT模式下,模型會按照步驟進行計算:首先應用勾股定理計算出斜邊長度為5,接著計算正方形的面積為25,再計算三角形面積為6,最后給出答案25-6。

而在CFT模式下,模型會對上述回答進行批評,指出應加上而非減去三角形的面積,并給出正確答案31。

下圖展示了典型的SFT和CFT數(shù)據(jù)樣例。

SFT模式下,模型直接模仿答案;而CFT模式下,模型模仿對錯誤回答的批評

CFT模式具有更高的訓練效率

那么,如何獲取CFT模式所需的訓練數(shù)據(jù)呢?

該研究基于WebInstruct平臺,構建了一個包含50,000對問答樣本的數(shù)據(jù)集,其中的批評意見由GPT-4等高級模型生成。這些樣本主要聚焦于數(shù)學領域(占65%),同時涵蓋了物理、化學和商業(yè)等其他主題。

對比分析CFT數(shù)據(jù)集與SFT數(shù)據(jù)集之間的差異

隨后,在CFT數(shù)據(jù)集上進行未經(jīng)指令微調的7B規(guī)模LLM模型訓練,包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math。

CFT訓練方法的目標明確:將問題x與錯誤回答y拼接作為輸入,優(yōu)化模型參數(shù)以生成評論c,這等價于訓練模型培養(yǎng)批判性思維能力。

實驗結果顯示,作者考察了LLM在經(jīng)過指令微調和批判性微調后在數(shù)學相關基準上的性能提升。結果表明,CFT訓練的模型在性能上優(yōu)于SFT訓練的最佳模型。

相較于SFT,CFT方法的準確率平均高出4-10個百分點。此外,訓練效率更高,能夠在較少的訓練數(shù)據(jù)量下更快收斂,因此具有開發(fā)數(shù)學推理模型的更高效方法潛力。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math基準上的訓練動態(tài)對比,包括CFT與兩種SFT變體方法,橫軸代表訓練步數(shù),縱軸顯示準確率。

在相同的50k樣本規(guī)模下,不同基座模型在經(jīng)過CFT和SFT訓練后的性能提升情況得以比較。

僅以Qwen2.5-Math-7B模型為例,可以看出其在各類數(shù)據(jù)集和任務上的CFT訓練效果全面超越了SFT方法。

論文將訓練后的Qwen2.5-Math-7B-CFT模型與知名Llama、GPT系列模型,以及專長推理的Deepseek、Mathstral、Numina等系列模型進行了對比,具體結果如表所示。

Qwen2.5-Math-7B-CFT模型的平均性能(48.1%)甚至超越了參數(shù)量10倍的Llama-3.1-70B-Instruct(40.4%)和NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)的性能接近。

此外,CFT訓練的系統(tǒng)在效能上與使用140倍計算資源訓練的SimpleRL模型(Deepseek R1的公開參考版本)不相上下,其GPU運行時間降低至1/144,相當于大幅降低了計算成本。

研究人員對CFT的多因素消融分析表明,該系統(tǒng)對于數(shù)據(jù)來源、噪聲響應以及教師批判模型的選用均展現(xiàn)出較強的魯棒性。

例如,即使采用較弱版本的模型生成批評意見,CFT仍能顯著提升效能。

局限與擴展

CFT訓練數(shù)據(jù)集中的基準標準是通過LLM生成的批評數(shù)據(jù)。作者手動審閱了50份批評意見,發(fā)現(xiàn)其中20%存在明顯錯誤,這些錯誤可能對模型的訓練產(chǎn)生一定干擾,影響最終效果。

此外,CFT訓練的系統(tǒng)目前尚未實現(xiàn)自我改進機制。

該研究的局限性在于數(shù)據(jù)集的代表性不足,目前僅聚焦于數(shù)學問題,而編程、科學推理以及人文推理等領域仍需進一步探索是否適用類似的CFT模式。

CFT的優(yōu)勢在于顯著提升了模型的推理能力,同時實現(xiàn)了高效的數(shù)據(jù)利用率。通過讓模型學會批判,等效于進行一次強化學習訓練。

與現(xiàn)有的自我修正機制和獎勵模型相比,CFT采用了批判學習方法,其目標是通過深入理解問題來提升模型能力,而非直接估計獎勵分數(shù)或進行自我修正。這種方法在推理任務中展現(xiàn)出更強的適應性和靈活性。

更為關鍵的是,CFT的數(shù)據(jù)構建和訓練流程相對簡單,計算成本較低,因此具有較高的實際應用價值和經(jīng)濟性。未來研究可能從數(shù)據(jù)質量提升和自我批判機制探索兩個方向推進。

首先,小編將重點放在構建自動驗證工具和生成批判性數(shù)據(jù)集上,以提升批判性數(shù)據(jù)的質量。同時,要實現(xiàn)模型的自我批判和持續(xù)改進能力,需要通過用戶反饋機制,使模型能夠不斷優(yōu)化自身。

未來研究的方向可能還包括將CFT與其他訓練范式(如SFT和RL)相結合,擴展其應用范圍至多模態(tài)環(huán)境,并深入研究其理論基礎。

參考資料:

https://arxiv.org/pdf/2501.17703

合成小妙招,《明日方舟》心扉之樂合成攻略 冰霧荒蕪期輕松捕捉溫暖蓑衣蟲,怪物獵人荒野溫暖蓑衣蟲收集攻略:輕松掌握高效技巧 從Real Madrid到Milan,阿萊士-希門尼斯在皇馬度過了艱難時光,愛上了米蘭的一切 奧義-橫斷大地踐踏技戰(zhàn)術-閃金劍氣,《銀與血》閃金騎士里奧技能介紹 對話專家王暢醫(yī)生解讀痔瘡手術治療何時必要,健康科普:痔瘡手術何時進行?"痔"青年關注起來?。ń忉專哼@個改寫版本保留了原文的核心信息,同時進行了以下優(yōu)化:1. 將"健康公開課"簡化為"健康科普"2. 將"哪種情況需要做痔瘡手術"改為更簡潔的"痔瘡手術何時進行"3. 將"有"痔"青年必知"改為更口語化的"‘痔’青年關注起來"4. 整體調整語序,使標題更流暢、更有吸引力5. 刪除了原文中"有"的重復表述,使標題更簡潔) Free Ride Explore the Wild Frontier Now Available on Steam,F(xiàn)REERIDE游戲平臺:去哪玩 掛機自動模式,《全明星街球派對王朝模式陣容搭配攻略》 輕松捕獲冷蓑衣蟲限定冷飲免費獲取,怪物獵人荒野捕捉冰冷蓑衣蟲方法解析 2016年中國癌癥病例統(tǒng)計,最新中國癌癥數(shù)據(jù)出爐,5大癌種最常見 突破 | 快速迭代AI技術對企業(yè)的影響,企業(yè)AI落地需深度賦能——DeepSeek助力新升級
     
道標

道標

大?。?em>94mb更新:2025-03-12 02:03:32

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 道標
  • 道標
  • 道標

游戲特色

“我……這……”月影信彥想說不知道,因為他根本沒有啟動炸彈,現(xiàn)在炸彈要爆炸的原因肯定不是他。八大怪人哪里會給他解釋的機會?眼看自己快死了,就不顧一切地對著月影信彥打出最后一擊。

恐怖的破壞力撕碎了月影信彥的身體,八大怪人身體里的炸彈同時爆炸,把月影信彥的身體化為飛灰。這回是真的死透了。

轟——!紅的、黃的能量奔流沖上云霄,如同火山爆發(fā),不同的是能量奔流來自一座灰色的古堡?!昂蔚葔延^!”莫思感嘆道。

就在這時,古堡廢墟里迸出一個黑色巨人。黑暗之王!身高四十五米,體重四萬噸,是大修卡的巨大兵器,全身上下都裝備著武器,可以用眼睛發(fā)出射線、導彈、毒氣等手段進行破壞。

“居然藏著這種兵器……”門矢士心中感慨,自己對大修卡的掌握出乎意料的少,甚至都不知道大修卡基地里還藏著這種東西。

就在這時,他手里忽然出現(xiàn)一張卡片,轉頭對莫思說道:“這里有一張你的卡片?!薄拔业模俊蹦家汇??!澳憧??!遍T矢士把卡面給莫思一看。

卡面的上半部分印著一個裁決獸的上半身,從身體線條來看,顯然是莫思接收裁決獸之魂的狀態(tài)??娴南掳氩糠謩t印著……千年獸!

“?”莫思不解。普通的裁決獸和千年獸根本沒有關系,只有秋山遼那個裁決獸才與千年獸有復雜的聯(lián)系。為什么她的裁決獸之魂也能變成千年獸?難道是她過去的數(shù)碼獸之魂并沒有完全消失,而是以某種形式壓縮在裁決獸之魂里面,然后合成了千年獸的姿態(tài)?莫思說道:“那就試一試吧?!?/p>

門矢士把卡片插入驅動器:“Final FormRide!Moss!”莫思身上發(fā)出光芒?!厩戢F:100%!】

漆黑的巨獸拔地而起。面目猙獰,長有四條手臂,指尖鋒利如刀,背后不僅有個背后靈般的巨獸影子,還裝備著一對無限大炮。

游戲亮點

這十數(shù)年時間,林塵的師兄弟中。修為最高的竟然是小師弟,已經(jīng)到了九轉金丹期。三師兄資質也好,但心性不如小師弟周鐵山,因此只是八轉金丹。

至于師姐和師傅韓繼海,則停留在七轉金丹,距離元嬰尚有很大差距。昔日長春門人中,修為最高的……是李陣乾。

不過相比之前林塵在時,李陣乾的修行速度還是差了許多。或許是因為缺少林塵這個動力,讓李陣乾的修行缺少了壓力。

十幾年過去了,李陣乾還沒修成元嬰真人,只是個半步元嬰?!翱雌饋?,李師弟是缺少渡劫的丹藥……”林塵想了想,還是決定幫李陣乾一把。

游戲玩法

這核心構造當中確實存在大量的符文,密密麻麻的遍布于虛無之上,宛如點綴一般。在這無數(shù)符文之下,則是一顆巨大的暗紅色圓球,正綻放著耀眼的光芒。

圓球上更是布滿了大量的符文,宛如其構成的一部分。一道道暗紅色細絲則是從圓球之上延伸而出,朝著四面八方蔓延,或是與符文相連,或是直接沒入虛無之中。

這一幕情形與王騰本尊在【巨噩魔軀】當中看到的心臟類似。眼前的暗紅色圓球就如同一顆心臟?!敖K于找到了?!毖穹稚硇闹形⑽⑺闪丝跉猓S即按照步驟開始替換那暗紅色圓球之上的符文。

評測

價格下跌 市場波動加劇,比特幣價格跌穿8萬美元關口,超過31萬人爆倉。

連段模式下的強力裝備,怪物獵人荒野太刀看破斬使用技巧分享

南航事件注射針頭扎破,南航客案:乘客被扎傷陷入抑郁情緒索賠13萬說明:1. 去掉"被遺留",使表述更簡潔2. 將"陷入抑郁"改為"陷入抑郁情緒",使表述更具體3. 調整語序,將"索賠13萬"前置,使標題更緊湊4. 保持了原意,同時使標題更符合新聞報道的表述方式5. 語言更加精煉,信息更加明確

《蒼霧世界》機甲少女戰(zhàn)斗策略分享,《蒼霧世界》兌換碼2025

1. 《老》君與金剛鐲2. 初期裝備推薦3. 貼身肉盾與遠程輸出4. 多重箭的正確使用5. 游戲早期寶物獲取6. 輕松擊敗戰(zhàn)團7. 靈活走位指南8. 炮塔火力方向9. 金幣收益提升10. 游戲后期必選裝備,《保衛(wèi)蘿卜4》11月3日攻略

顯示全部

熱門推薦
玩家評論
我要跟貼
取消
最新手游