国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長之家 - 業(yè)界 2025-03-10 22:23:41

小樣本訓(xùn)練模仿訓(xùn)練的突破,SFT煥發(fā)新生!全球華人學(xué)者提出全新"批判式微調(diào)"方法,超越DeepSeek復(fù)刻版本

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

報(bào)道來源:新智元

編輯:Peter東、喬楊

【新智元導(dǎo)讀】在處理復(fù)雜推理任務(wù)時(shí),SFT往往表現(xiàn)不佳。最近,由多所高校的華人團(tuán)隊(duì)提出的批判性微調(diào)方法(CFT)僅在50K樣本上進(jìn)行微調(diào),便在多數(shù)基準(zhǔn)測(cè)試中超越了使用超過200萬個(gè)樣本的強(qiáng)化學(xué)習(xí)方法。

模仿是傳統(tǒng)語言模型進(jìn)行訓(xùn)練的主要方式。LLM在解決現(xiàn)實(shí)世界問題方面表現(xiàn)出的優(yōu)異性能,其中一項(xiàng)核心技術(shù)是監(jiān)督微調(diào)(SFT)。

在SFT的過程中,模型被要求模仿人類標(biāo)注或合成的高質(zhì)量回復(fù),以增強(qiáng)其對(duì)通用指令的遵循能力。這類SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進(jìn)行構(gòu)建。

然而,這種方法存在明顯的局限性。當(dāng)數(shù)據(jù)集規(guī)模和質(zhì)量進(jìn)一步提升時(shí),SFT的邊際效益可能會(huì)下降,尤其是在基礎(chǔ)模型已經(jīng)表現(xiàn)出較強(qiáng)性能的情況下,使用SFT可能反而會(huì)導(dǎo)致性能下降。

最近,由多所高校的華人學(xué)者共同提出的批判式監(jiān)督微調(diào)方法(CFT)旨在提升模型的模仿能力。

論文鏈接:https://arxiv.org/pdf/2501.17703

批判式監(jiān)督微調(diào):讓SFT重新偉大

CFT將重點(diǎn)從簡(jiǎn)單模仿轉(zhuǎn)向基于批判的學(xué)習(xí),其核心思想是讓模型學(xué)會(huì)批判性思維,而非簡(jiǎn)單模仿,這一方法 borrow from human learning processes.

學(xué)霸在學(xué)習(xí)過程中不只是模仿答案,而是進(jìn)行分析、批判和自我改進(jìn)。在CFT數(shù)據(jù)集中,模型為錯(cuò)誤的模型響應(yīng)提供了相應(yīng)的批評(píng),幫助LLM識(shí)別其缺陷并提出改進(jìn)建議,從而驗(yàn)證其正確性。

這種方法不僅能夠提升模型的推理能力,還能增強(qiáng)其在復(fù)雜任務(wù)中的適應(yīng)性和靈活性。

比如,針對(duì)如下問題:在直角三角形中,兩條直角邊的長度分別為3個(gè)單位和4個(gè)單位,構(gòu)造一個(gè)正方形。求五邊形$ABCDE$的面積(單位:平方單位)。

在SFT模式下,模型會(huì)逐步進(jìn)行計(jì)算,首先應(yīng)用勾股定理得出斜邊長度為5,隨后計(jì)算正方形面積為25,三角形面積為6,最終模型給出答案25減去6。

在CFT模式下,模型會(huì)對(duì)上述回答進(jìn)行批評(píng),指出錯(cuò)誤在于應(yīng)加而非減三角形面積,并提供正確答案31。

下圖展示了SFT和CFT兩種模式的數(shù)據(jù)樣本。

SFT模式讓大模型直接模仿答案,而CFT模式讓大模型模仿對(duì)錯(cuò)誤回答的批評(píng)。

CFT模式具有更高的訓(xùn)練效率。

那么,如何獲取CFT訓(xùn)練所需的數(shù)據(jù)呢?

該研究基于WebInstruct構(gòu)建了一個(gè)包含50,000個(gè)帶有批評(píng)意見的問答對(duì)的數(shù)據(jù)集,其中的批評(píng)意見由GPT-4等高級(jí)模型生成,上述數(shù)學(xué)問題便是其中一例。

分析CFT數(shù)據(jù)集與其他SFT數(shù)據(jù)集的異同

在CFT數(shù)據(jù)集上,采用7B規(guī)模、未經(jīng)指令微調(diào)的LLM進(jìn)行訓(xùn)練,包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math等模型。

CFT方法的訓(xùn)練目標(biāo)非常明確:將問題x和錯(cuò)誤回答y進(jìn)行拼接作為輸入,優(yōu)化模型參數(shù)以生成評(píng)論c,這相當(dāng)于訓(xùn)練模型具備批判性思維能力。

實(shí)驗(yàn)中,作者對(duì)比了LLM在經(jīng)過指令微調(diào)與批判性微調(diào)后,在數(shù)學(xué)相關(guān)基準(zhǔn)上的性能提升。結(jié)果顯示,CFT訓(xùn)練的模型在性能上持續(xù)優(yōu)于SFT訓(xùn)練的最佳模型。

相比SFT,CFT的準(zhǔn)確率平均高出4-10個(gè)百分點(diǎn)。此外,訓(xùn)練效率更高,能夠在較少的訓(xùn)練數(shù)據(jù)量上實(shí)現(xiàn)更快的收斂,因此CFT方法有望成為開發(fā)數(shù)學(xué)推理模型的一種更有效方法。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math任務(wù)上不同方法的訓(xùn)練動(dòng)態(tài)對(duì)比,橫軸為訓(xùn)練步數(shù),縱軸為模型準(zhǔn)確率。

在同樣規(guī)模的50k樣本數(shù)據(jù)集上,不同基座模型在使用CFT與SFT訓(xùn)練后的性能提升情況值得觀察。

如果僅關(guān)注Qwen2.5-Math-7B這一模型,可以看出,CFT的訓(xùn)練效果在各類數(shù)據(jù)集和任務(wù)上都能全面超越SFT。

論文對(duì)比了訓(xùn)練后的Qwen2.5-Math-7B-CFT與知名模型,包括Llama、GPT系列,以及Deepseek、Mathstral、Numina等系列模型,并通過表格展示了具體對(duì)比結(jié)果。

Qwen2.5-Math-7B-CFT的平均性能(48.1%)優(yōu)于參數(shù)量10倍的Llama-3.1-70B-Instruct(40.4%)和NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)相當(dāng)。

此外,基于CFT訓(xùn)練的模型在性能上與采用140倍計(jì)算資源訓(xùn)練的Deepseek R1開源版本(SimpleRL模型的復(fù)制版)相比,具有不相上下之處。值得注意的是,CFT模型的GPU運(yùn)行時(shí)縮短至1/144,這相當(dāng)于大幅降低了計(jì)算成本。

研究人員對(duì)CFT的多個(gè)關(guān)鍵因素進(jìn)行了系統(tǒng)性消融研究。結(jié)果表明,CFT模型在數(shù)據(jù)來源的魯棒性、噪聲響應(yīng)的抗干擾能力以及教師批判模型選擇的穩(wěn)定性等方面表現(xiàn)出較強(qiáng)的能力。

舉例來說,即使使用較弱的GPT-4o-mini生成器輸出批評(píng)意見,CFT模型仍然能夠顯著提升性能。

局限性與擴(kuò)展方向

在CFT訓(xùn)練數(shù)據(jù)集中,作為基準(zhǔn)的批評(píng)數(shù)據(jù)全部由LLM生成。經(jīng)過作者的手動(dòng)檢查,發(fā)現(xiàn)其中有20%的批評(píng)意見本身就存在明顯的錯(cuò)誤。這些錯(cuò)誤可能會(huì)對(duì)模型的訓(xùn)練效果造成一定干擾,從而影響其最終性能。

此外,CFT訓(xùn)練的模型目前尚未實(shí)現(xiàn)自我批評(píng)機(jī)制,因此尚未觀察到自我改進(jìn)的效果。

該研究的數(shù)據(jù)集在代表性方面仍存在不足,目前主要集中在數(shù)學(xué)問題領(lǐng)域,而在編程、科學(xué)推理以及人文相關(guān)推理問題等方面,CFT模式的適用性仍需進(jìn)一步驗(yàn)證。

CFT的主要優(yōu)勢(shì)在于顯著提升模型的推理能力以及優(yōu)化數(shù)據(jù)使用效率。通過模型學(xué)會(huì)批判性思維,相當(dāng)于讓大模型完成一次強(qiáng)化學(xué)習(xí)訓(xùn)練。

相比于現(xiàn)有的自我修正(Self-Correction)、獎(jiǎng)勵(lì)模型(Reward Models)等方法,CFT的目標(biāo)是通過批判學(xué)習(xí)提升模型對(duì)問題的深入理解,而不是直接估計(jì)獎(jiǎng)勵(lì)分?jǐn)?shù)或進(jìn)行自我修正。這種方法在推理任務(wù)中展現(xiàn)出更強(qiáng)的適應(yīng)性和靈活性。

最為關(guān)鍵的是,CFT的數(shù)據(jù)構(gòu)建和訓(xùn)練流程相對(duì)簡(jiǎn)單,計(jì)算成本較低,因此在實(shí)際應(yīng)用中具有較高的可行性和經(jīng)濟(jì)性。未來研究將重點(diǎn)突破批判數(shù)據(jù)質(zhì)量的提升和模型自我批判機(jī)制的實(shí)現(xiàn)。

首先是構(gòu)建自動(dòng)驗(yàn)證工具或開發(fā)人類驗(yàn)證機(jī)制,以優(yōu)化批判數(shù)據(jù)的質(zhì)量;同時(shí),要使大模型具備自我批判與自我改進(jìn)的能力,需使其通過用戶反饋實(shí)現(xiàn)持續(xù)優(yōu)化。

進(jìn)一步的研究也可能探討將CFT與SFT、RL等其他訓(xùn)練范式結(jié)合,應(yīng)用于多模態(tài)場(chǎng)景,并深入研究其理論基礎(chǔ)。

參考資料:

https://arxiv.org/pdf/2501.17703

特朗普暫停軍事援助引發(fā)全球關(guān)注,歐洲加強(qiáng)防務(wù),烏克蘭與礦產(chǎn)國家簽署協(xié)議,美暫停對(duì)烏軍援令西方嘩然 芯片計(jì)算能力+小細(xì)節(jié)+隱藏實(shí)力+小米SU7 Ultra vs 特斯拉Model Y,小米SU7ultra智駕為何碾壓特斯拉720?畢竟僅508算力 改善孕期睡眠健康,孕期失眠問題解析:睡眠困擾該如何應(yīng)對(duì)? 蘋果2025款11英寸iPad或采用美國制造的A16芯片,改寫后的標(biāo)題:美版2025款iPad芯片最新消息來自臺(tái)積電美國工廠 戰(zhàn)略新能源,中國一汽與零跑合作,共同推動(dòng)技術(shù)創(chuàng)新與產(chǎn)業(yè)升級(jí) 猛龍性能解析,“龍字頭”國產(chǎn)飛機(jī)大盤點(diǎn),超燃! 何家喜從六妹到直播女王,李嘉琦因《六姊妹》被罵,隨后捐片酬給養(yǎng)老院,背后的真相是什么 權(quán)威專家解析何時(shí)需要手術(shù)治療痔瘡重要性與選擇,健康科普 | 做痔瘡手術(shù)什么時(shí)候?痔瘡青年必看?。ń忉專焊膶懞蟮臉?biāo)題簡(jiǎn)化了原意,通過更短的語句傳達(dá)關(guān)鍵信息,同時(shí)保留了核心內(nèi)容。標(biāo)題采用了更簡(jiǎn)潔的表達(dá)方式,同時(shí)保持了專業(yè)性和吸引力。) 全球首發(fā)溜背版,沃爾沃ES90即將亮相,定于明年發(fā)布,續(xù)航里程突破700公里 破局美國戰(zhàn)略儲(chǔ)備背后的全球加密貨幣之都重塑,馬博:白宮召開首次加密貨幣峰會(huì),所為何
     
陳志銘

陳志銘

大小:31mb更新:2025-03-10 22:23:41

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 陳志銘
  • 陳志銘
  • 陳志銘

游戲特色

當(dāng)香酥蘋果的邊緣觸碰到她的唇瓣,再緩緩送入口中的那一剎那,她瞬間被其獨(dú)特非凡的口感所震撼。酥脆的外皮下,隱藏著清爽軟糯的果肉,一絲絲甘甜在舌尖上緩緩綻放,與蘋果特有的清新果香完美融合在一起,為她帶來了一場(chǎng)與鹵鵝完全不同的味蕾享受。

每咀嚼一口,都能清晰地聽到那清脆悅耳的“咔嚓”聲,伴隨著多汁的口感,讓她深深陶醉其中。這一刻,她終于明白了女兒為何會(huì)對(duì)這道美食如此情有獨(dú)鐘。

的確。如此絕妙的美味,實(shí)在讓人難以抗拒…她心中涌起一股強(qiáng)烈的欲望,想要一口接一口地品嘗下去…但環(huán)顧四周。

她發(fā)現(xiàn)盡管美食當(dāng)前,家長們雖都吃得津津有味,但他們依然保持著一份難得的矜持。沒有人因?yàn)橄矏鄱^度夾取,最多只是順手往自家孩子的碗里添上一些。

看到這一幕,她不得不克制住自己想要大快朵頤的沖動(dòng),矜持地夾起一塊香酥蘋果,再度品嘗了一下后,就沒有頻繁伸筷,以免顯得失禮,讓在場(chǎng)的家長們看了笑話。

當(dāng)其他小朋友還在笨拙地使用勺子舀菜時(shí),磬磬和薇薇已經(jīng)能夠穩(wěn)穩(wěn)地拿住筷子,自如地夾取他們想吃的食物。她們不僅會(huì)自己站起來夾菜,還會(huì)細(xì)心地關(guān)照對(duì)方,互相往對(duì)方的碗里夾一些美食,完全不需要文雪倩的額外照顧。

這一幕讓在場(chǎng)的家長們紛紛投來贊許的目光,他們?nèi)滩蛔≠潎@道:“磬磬、薇薇,你們用筷子用得真好?。 薄爸x謝阿姨夸獎(jiǎng)。”

聽到夸獎(jiǎng),磬磬的臉上泛起了羞澀的紅暈,但她還是禮貌地回應(yīng)一聲。而薇薇則一臉小傲嬌地說:“這是我粑粑教我們的!”

“磬磬爸爸不僅廚藝高超,教育孩子也是一把好手啊!”家長們聽后,更加對(duì)黃駿刮目相看,心中的敬佩之情也更深了,同時(shí)也不免自我反省,覺得與黃駿相比,自己在某些育兒方面確實(shí)有所欠缺。

嗯,是的,得好好向黃駿學(xué)習(xí),努力提升自己的育兒能力。培養(yǎng)孩子的自理能力,讓他們學(xué)會(huì)獨(dú)立,這是每位家長的責(zé)任。

游戲亮點(diǎn)

隨即,他掃視一圈,看到古一沒有任何不滿之色,只是微笑的看著自己。他便明白,古一估計(jì)對(duì)自己獲得時(shí)間寶石這事,是持樂見其成態(tài)度的。

于是,卡爾心里有了底,更加不把在場(chǎng)的復(fù)仇者放在眼里?!案兄x各位超級(jí)英雄替我找到時(shí)間寶石,為表感激,保護(hù)傘將贈(zèng)送200個(gè)太空城名額給復(fù)仇者聯(lián)盟?!?/p>

“各位英雄們,后會(huì)有期?!闭f完,卡爾的身影直接消失?!皠e跑!”卡羅爾急忙開口阻攔,還發(fā)射了一道能量束。

“轟——”能量束擊中卡爾消失的地方,將黢黑的熔巖結(jié)晶地面炸開一個(gè)深坑。待爆炸的煙塵散去,所有人看到空無一人的深坑,沒人覺得卡爾會(huì)被這道能量束干掉。

游戲玩法

而今日,卻是沒想到,竟然在陳莫白身上,得到了驗(yàn)證。法界,練虛生靈!這單獨(dú)一樣還不算什么兩樣加起來,整個(gè)天河界,中央魔道之主只能夠想到太虛縹緲宮。

陳莫白這個(gè)時(shí)候也已經(jīng)跟靈尊大致說了一下中央魔道之主的來歷,表示目前他在一個(gè)純陽大能開辟的異世界中,遇上了這個(gè)修行無上心魔傳承的,正好奪舍了一具巨鯤化身,覺得對(duì)于她的傷勢(shì)恢復(fù)有作用,就惹了過來,送到了法界之中。

“這個(gè)異世界我猜測(cè)應(yīng)當(dāng)是與當(dāng)初的玄宮泯滅有關(guān),那太虛縹緲宮就是中央道場(chǎng)太虛道祖所留下的傳承,法界神通是這個(gè)宗門的標(biāo)志,所以將我認(rèn)錯(cuò)了……”

評(píng)測(cè)

第二階段推進(jìn),哈馬斯呼吁進(jìn)入加沙?;饏f(xié)議第二階段

太刀優(yōu)化如何高效配置太刀詞條,荒野太刀條目怎么配-太刀條目配法介紹

2023科技創(chuàng)新日,首飛+3,多款航空發(fā)動(dòng)機(jī)再創(chuàng)佳績(jī)

被豬咬傷后如何處理傷口及預(yù)防破傷風(fēng),寵物狗咬傷,接種狂犬疫苗是否必要?

春日打卡鞋子別丟,早春第一雙鞋!求你買這幾雙,太好看了吧

顯示全部

熱門推薦
玩家評(píng)論
我要跟貼
取消
最新手游