国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長之家 - 業(yè)界 2025-03-10 19:03:39

小樣本訓(xùn)練模仿訓(xùn)練的突破,SFT煥發(fā)新生!全球華人學(xué)者提出全新"批判式微調(diào)"方法,超越DeepSeek復(fù)刻版本

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

報道來源:新智元

編輯:Peter東、喬楊

【新智元導(dǎo)讀】在處理復(fù)雜推理任務(wù)時,SFT往往表現(xiàn)不佳。最近,由多所高校的華人團(tuán)隊(duì)提出的批判性微調(diào)方法(CFT)僅在50K樣本上進(jìn)行微調(diào),便在多數(shù)基準(zhǔn)測試中超越了使用超過200萬個樣本的強(qiáng)化學(xué)習(xí)方法。

模仿是傳統(tǒng)語言模型進(jìn)行訓(xùn)練的主要方式。LLM在解決現(xiàn)實(shí)世界問題方面表現(xiàn)出的優(yōu)異性能,其中一項(xiàng)核心技術(shù)是監(jiān)督微調(diào)(SFT)。

在SFT的過程中,模型被要求模仿人類標(biāo)注或合成的高質(zhì)量回復(fù),以增強(qiáng)其對通用指令的遵循能力。這類SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進(jìn)行構(gòu)建。

然而,這種方法存在明顯的局限性。當(dāng)數(shù)據(jù)集規(guī)模和質(zhì)量進(jìn)一步提升時,SFT的邊際效益可能會下降,尤其是在基礎(chǔ)模型已經(jīng)表現(xiàn)出較強(qiáng)性能的情況下,使用SFT可能反而會導(dǎo)致性能下降。

最近,由多所高校的華人學(xué)者共同提出的批判式監(jiān)督微調(diào)方法(CFT)旨在提升模型的模仿能力。

論文鏈接:https://arxiv.org/pdf/2501.17703

批判式監(jiān)督微調(diào):讓SFT重新偉大

CFT將重點(diǎn)從簡單模仿轉(zhuǎn)向基于批判的學(xué)習(xí),其核心思想是讓模型學(xué)會批判性思維,而非簡單模仿,這一方法 borrow from human learning processes.

學(xué)霸在學(xué)習(xí)過程中不只是模仿答案,而是進(jìn)行分析、批判和自我改進(jìn)。在CFT數(shù)據(jù)集中,模型為錯誤的模型響應(yīng)提供了相應(yīng)的批評,幫助LLM識別其缺陷并提出改進(jìn)建議,從而驗(yàn)證其正確性。

這種方法不僅能夠提升模型的推理能力,還能增強(qiáng)其在復(fù)雜任務(wù)中的適應(yīng)性和靈活性。

比如,針對如下問題:在直角三角形中,兩條直角邊的長度分別為3個單位和4個單位,構(gòu)造一個正方形。求五邊形$ABCDE$的面積(單位:平方單位)。

在SFT模式下,模型會逐步進(jìn)行計算,首先應(yīng)用勾股定理得出斜邊長度為5,隨后計算正方形面積為25,三角形面積為6,最終模型給出答案25減去6。

在CFT模式下,模型會對上述回答進(jìn)行批評,指出錯誤在于應(yīng)加而非減三角形面積,并提供正確答案31。

下圖展示了SFT和CFT兩種模式的數(shù)據(jù)樣本。

SFT模式讓大模型直接模仿答案,而CFT模式讓大模型模仿對錯誤回答的批評。

CFT模式具有更高的訓(xùn)練效率。

那么,如何獲取CFT訓(xùn)練所需的數(shù)據(jù)呢?

該研究基于WebInstruct構(gòu)建了一個包含50,000個帶有批評意見的問答對的數(shù)據(jù)集,其中的批評意見由GPT-4等高級模型生成,上述數(shù)學(xué)問題便是其中一例。

分析CFT數(shù)據(jù)集與其他SFT數(shù)據(jù)集的異同

在CFT數(shù)據(jù)集上,采用7B規(guī)模、未經(jīng)指令微調(diào)的LLM進(jìn)行訓(xùn)練,包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math等模型。

CFT方法的訓(xùn)練目標(biāo)非常明確:將問題x和錯誤回答y進(jìn)行拼接作為輸入,優(yōu)化模型參數(shù)以生成評論c,這相當(dāng)于訓(xùn)練模型具備批判性思維能力。

實(shí)驗(yàn)中,作者對比了LLM在經(jīng)過指令微調(diào)與批判性微調(diào)后,在數(shù)學(xué)相關(guān)基準(zhǔn)上的性能提升。結(jié)果顯示,CFT訓(xùn)練的模型在性能上持續(xù)優(yōu)于SFT訓(xùn)練的最佳模型。

相比SFT,CFT的準(zhǔn)確率平均高出4-10個百分點(diǎn)。此外,訓(xùn)練效率更高,能夠在較少的訓(xùn)練數(shù)據(jù)量上實(shí)現(xiàn)更快的收斂,因此CFT方法有望成為開發(fā)數(shù)學(xué)推理模型的一種更有效方法。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math任務(wù)上不同方法的訓(xùn)練動態(tài)對比,橫軸為訓(xùn)練步數(shù),縱軸為模型準(zhǔn)確率。

在同樣規(guī)模的50k樣本數(shù)據(jù)集上,不同基座模型在使用CFT與SFT訓(xùn)練后的性能提升情況值得觀察。

如果僅關(guān)注Qwen2.5-Math-7B這一模型,可以看出,CFT的訓(xùn)練效果在各類數(shù)據(jù)集和任務(wù)上都能全面超越SFT。

論文對比了訓(xùn)練后的Qwen2.5-Math-7B-CFT與知名模型,包括Llama、GPT系列,以及Deepseek、Mathstral、Numina等系列模型,并通過表格展示了具體對比結(jié)果。

Qwen2.5-Math-7B-CFT的平均性能(48.1%)優(yōu)于參數(shù)量10倍的Llama-3.1-70B-Instruct(40.4%)和NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)相當(dāng)。

此外,基于CFT訓(xùn)練的模型在性能上與采用140倍計算資源訓(xùn)練的Deepseek R1開源版本(SimpleRL模型的復(fù)制版)相比,具有不相上下之處。值得注意的是,CFT模型的GPU運(yùn)行時縮短至1/144,這相當(dāng)于大幅降低了計算成本。

研究人員對CFT的多個關(guān)鍵因素進(jìn)行了系統(tǒng)性消融研究。結(jié)果表明,CFT模型在數(shù)據(jù)來源的魯棒性、噪聲響應(yīng)的抗干擾能力以及教師批判模型選擇的穩(wěn)定性等方面表現(xiàn)出較強(qiáng)的能力。

舉例來說,即使使用較弱的GPT-4o-mini生成器輸出批評意見,CFT模型仍然能夠顯著提升性能。

局限性與擴(kuò)展方向

在CFT訓(xùn)練數(shù)據(jù)集中,作為基準(zhǔn)的批評數(shù)據(jù)全部由LLM生成。經(jīng)過作者的手動檢查,發(fā)現(xiàn)其中有20%的批評意見本身就存在明顯的錯誤。這些錯誤可能會對模型的訓(xùn)練效果造成一定干擾,從而影響其最終性能。

此外,CFT訓(xùn)練的模型目前尚未實(shí)現(xiàn)自我批評機(jī)制,因此尚未觀察到自我改進(jìn)的效果。

該研究的數(shù)據(jù)集在代表性方面仍存在不足,目前主要集中在數(shù)學(xué)問題領(lǐng)域,而在編程、科學(xué)推理以及人文相關(guān)推理問題等方面,CFT模式的適用性仍需進(jìn)一步驗(yàn)證。

CFT的主要優(yōu)勢在于顯著提升模型的推理能力以及優(yōu)化數(shù)據(jù)使用效率。通過模型學(xué)會批判性思維,相當(dāng)于讓大模型完成一次強(qiáng)化學(xué)習(xí)訓(xùn)練。

相比于現(xiàn)有的自我修正(Self-Correction)、獎勵模型(Reward Models)等方法,CFT的目標(biāo)是通過批判學(xué)習(xí)提升模型對問題的深入理解,而不是直接估計獎勵分?jǐn)?shù)或進(jìn)行自我修正。這種方法在推理任務(wù)中展現(xiàn)出更強(qiáng)的適應(yīng)性和靈活性。

最為關(guān)鍵的是,CFT的數(shù)據(jù)構(gòu)建和訓(xùn)練流程相對簡單,計算成本較低,因此在實(shí)際應(yīng)用中具有較高的可行性和經(jīng)濟(jì)性。未來研究將重點(diǎn)突破批判數(shù)據(jù)質(zhì)量的提升和模型自我批判機(jī)制的實(shí)現(xiàn)。

首先是構(gòu)建自動驗(yàn)證工具或開發(fā)人類驗(yàn)證機(jī)制,以優(yōu)化批判數(shù)據(jù)的質(zhì)量;同時,要使大模型具備自我批判與自我改進(jìn)的能力,需使其通過用戶反饋實(shí)現(xiàn)持續(xù)優(yōu)化。

進(jìn)一步的研究也可能探討將CFT與SFT、RL等其他訓(xùn)練范式結(jié)合,應(yīng)用于多模態(tài)場景,并深入研究其理論基礎(chǔ)。

參考資料:

https://arxiv.org/pdf/2501.17703

挑戰(zhàn)完成,《看你怎么秀》油價亂飆幫通關(guān)攻略 100藍(lán)幣解鎖寵物蛋,《元?dú)怛T士前傳》寵物蛋獲取方法介紹一覽 糖果大王背后的甜蜜記憶,徐福記推出糖果、銀鷺、糕點(diǎn)、零食、餅干、雀巢、巧克力等眾多產(chǎn)品,為知名企業(yè)帶來促銷機(jī)遇。 夜襲實(shí)用海東青分析,《星球重啟》30級金色武器對比分析 宇樹科技人形機(jī)器人租賃市場,“日薪上萬!宇樹機(jī)器人二手 renting 熱門:人形機(jī)器人為誰打工? 特朗普?;馂蹩颂m危機(jī)的新轉(zhuǎn)機(jī),美國停止對烏援助,將帶來什么? 奇幻冒險外星生物奪魔法石,《元?dú)怛T士前傳》美杜莎位置介紹一覽 原神七圣召喚全新角色卡池傷害加成與元素戰(zhàn)技效果解析,《原神》七圣召喚葦海信標(biāo)效果介紹一覽 停火談判即將重啟,美國國務(wù)卿表示,烏克蘭準(zhǔn)備恢復(fù)與美國的談判,烏克蘭可能實(shí)現(xiàn)?;?,俄羅斯可能參與。 未K攻略,《看你怎么秀》我沒k通關(guān)攻略
     
雅化

雅化

大?。?em>38mb更新:2025-03-10 19:03:39

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 雅化
  • 雅化
  • 雅化

游戲特色

可病毒研究所被摧毀了,連拇指雷托納都未能幸免。這件事過后,諾蘭失去了一個重量級客戶的信任,也失去了古甘玉邊境地區(qū)的大把地盤收益。

而造成這一切的罪魁禍?zhǔn)?,如今又殺掉了兩名陰獸,讓他差點(diǎn)直面十老頭的怒火。除此之外,針對另一個罪魁禍?zhǔn)椎陌禋⑽校惨允Ю娼K。

這讓諾蘭意識到,若想確切解決事情,就不能一味的指望他人的力量。所以經(jīng)過考慮之后,諾蘭要將剩下的指頭們調(diào)回來,然后徹底解決這件事。

而這個決定,多少可能會影響到各個大區(qū)的生意產(chǎn)業(yè)的穩(wěn)定性,甚至有可能會引來競爭對手的趁機(jī)發(fā)難。但這也是無可奈何之事。

當(dāng)初野心太大,還沒站穩(wěn)腳跟,就急不可耐的將手伸到自家父親統(tǒng)轄的范圍之外。雖說還是成功將根須扎到外頭去,但過于迅速的發(fā)展,導(dǎo)致麾下的中流砥柱必須分散到各個地區(qū)。

如今調(diào)回指頭們,就得直面一些風(fēng)險。不過相比于這些風(fēng)險,更重要的始終是掃除前行路上的障礙。諾蘭可謂殺意已決。

——————————————9月15號,友克鑫拍賣會結(jié)束的第五天。莫羅和柯特乘坐返航的飛艇,重新回到優(yōu)路比安大陸的薩黑爾塔合眾國。

因?yàn)橹Z蘭·甘比諾就在薩黑爾塔合眾國的某一處地方。而莫羅在大海上空截停了柯特,當(dāng)然就得返航回到薩黑爾塔合眾國。

落地機(jī)場時,莫羅已經(jīng)完成了喬裝打扮。他在柯特的建議下,穿了一套伊爾迷所鐘愛品牌的運(yùn)動服,又戴上假發(fā),以及一副能遮住眼睛的墨鏡。

原本莫羅還想著要穿一套插著不少珠頭針的衣服,只是在聽到柯特的建議后,他才意識到1996年的伊爾迷,還沒有幾年后的那種著裝風(fēng)格。

游戲亮點(diǎn)

實(shí)打?qū)嵉膽?zhàn)績,沒有一點(diǎn)僥幸。其他人也是驚嘆,林奇又刷新了他們的認(rèn)知,連十院的天才都能夠擊敗。還有什么是他做不到的!觀眾席的角落中。

李慶和王芝萱互相對視了一眼,李慶吞了一口唾沫道:“這……”“小師弟這也太牛了!十院天才他都能打贏!”

“如果我沒有看錯,這是小神通吧?”王芝萱也用力地眨了眨眼睛,被震得不輕道:“小師弟已經(jīng)成為大名人了,估計全校,甚至全國武大的學(xué)生都會知道他?!?/p>

……競技場上,林奇并沒有被傳送回觀眾席。周圍的斷壁殘?jiān)块_始消散,變成了一個金色底座,而他身上的小神通也被終止,身上的疼痛,傷勢全部被恢復(fù)。

游戲玩法

免疫!-8!免疫!免疫!-11!免疫!蕭杰身上瞬間冒出一大片白色免疫的字樣。劉強(qiáng)看的氣急,自己得意的遁術(shù)連招竟然只打出了幾十點(diǎn)傷害。

眼看著蕭杰再次殺來,卻也不敢遲疑。木遁——通天樹!腳下猛地長出一棵樹來,猶如變魔術(shù)一般飛速生長,頂著劉強(qiáng)直沖上天。

蕭杰心中震驚,這劉強(qiáng)竟然什么遁術(shù)都能用?這么離譜么?要知道迪達(dá)拉身為五行術(shù)士,正經(jīng)的法爺,也只能使用木火兩系五行術(shù)而已,這貨是怎么做到的?難道說五行遁術(shù)師這么超模的么?不對呀,五行遁術(shù)師僅僅是半法而已。

評測

戰(zhàn)斗護(hù)衛(wèi),《納薩力克:祭司拉娜SSR角色介紹》

加沙停火第二階段未來如何,加沙博弈,三種走向揭示中東危局

蓄勢待發(fā) 2025廣汽埃安UT價格屠夫,廣汽埃安·肖勇:埃安UT月銷需達(dá)1.5萬輛,方能實(shí)現(xiàn)成本覆蓋

蛻變·真實(shí)·十年,梅婷:400萬彩禮,二婚生下雙胞胎,被丈夫?qū)櫝蓪?/a>

暫停軍事援助美歐關(guān)系的微妙變化,美國暫停對烏軍事援助,歐洲和澤連斯基期待特朗普的新報價。

顯示全部

熱門推薦
玩家評論
我要跟貼
取消
最新手游