国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長(zhǎng)之家 - 業(yè)界 2025-03-10 13:30:30

小樣本訓(xùn)練模仿訓(xùn)練的突破,SFT煥發(fā)新生!全球華人學(xué)者提出全新"批判式微調(diào)"方法,超越DeepSeek復(fù)刻版本

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

報(bào)道來源:新智元

編輯:Peter東、喬楊

【新智元導(dǎo)讀】在處理復(fù)雜推理任務(wù)時(shí),SFT往往表現(xiàn)不佳。最近,由多所高校的華人團(tuán)隊(duì)提出的批判性微調(diào)方法(CFT)僅在50K樣本上進(jìn)行微調(diào),便在多數(shù)基準(zhǔn)測(cè)試中超越了使用超過200萬(wàn)個(gè)樣本的強(qiáng)化學(xué)習(xí)方法。

模仿是傳統(tǒng)語(yǔ)言模型進(jìn)行訓(xùn)練的主要方式。LLM在解決現(xiàn)實(shí)世界問題方面表現(xiàn)出的優(yōu)異性能,其中一項(xiàng)核心技術(shù)是監(jiān)督微調(diào)(SFT)。

在SFT的過程中,模型被要求模仿人類標(biāo)注或合成的高質(zhì)量回復(fù),以增強(qiáng)其對(duì)通用指令的遵循能力。這類SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進(jìn)行構(gòu)建。

然而,這種方法存在明顯的局限性。當(dāng)數(shù)據(jù)集規(guī)模和質(zhì)量進(jìn)一步提升時(shí),SFT的邊際效益可能會(huì)下降,尤其是在基礎(chǔ)模型已經(jīng)表現(xiàn)出較強(qiáng)性能的情況下,使用SFT可能反而會(huì)導(dǎo)致性能下降。

最近,由多所高校的華人學(xué)者共同提出的批判式監(jiān)督微調(diào)方法(CFT)旨在提升模型的模仿能力。

論文鏈接:https://arxiv.org/pdf/2501.17703

批判式監(jiān)督微調(diào):讓SFT重新偉大

CFT將重點(diǎn)從簡(jiǎn)單模仿轉(zhuǎn)向基于批判的學(xué)習(xí),其核心思想是讓模型學(xué)會(huì)批判性思維,而非簡(jiǎn)單模仿,這一方法 borrow from human learning processes.

學(xué)霸在學(xué)習(xí)過程中不只是模仿答案,而是進(jìn)行分析、批判和自我改進(jìn)。在CFT數(shù)據(jù)集中,模型為錯(cuò)誤的模型響應(yīng)提供了相應(yīng)的批評(píng),幫助LLM識(shí)別其缺陷并提出改進(jìn)建議,從而驗(yàn)證其正確性。

這種方法不僅能夠提升模型的推理能力,還能增強(qiáng)其在復(fù)雜任務(wù)中的適應(yīng)性和靈活性。

比如,針對(duì)如下問題:在直角三角形中,兩條直角邊的長(zhǎng)度分別為3個(gè)單位和4個(gè)單位,構(gòu)造一個(gè)正方形。求五邊形$ABCDE$的面積(單位:平方單位)。

在SFT模式下,模型會(huì)逐步進(jìn)行計(jì)算,首先應(yīng)用勾股定理得出斜邊長(zhǎng)度為5,隨后計(jì)算正方形面積為25,三角形面積為6,最終模型給出答案25減去6。

在CFT模式下,模型會(huì)對(duì)上述回答進(jìn)行批評(píng),指出錯(cuò)誤在于應(yīng)加而非減三角形面積,并提供正確答案31。

下圖展示了SFT和CFT兩種模式的數(shù)據(jù)樣本。

SFT模式讓大模型直接模仿答案,而CFT模式讓大模型模仿對(duì)錯(cuò)誤回答的批評(píng)。

CFT模式具有更高的訓(xùn)練效率。

那么,如何獲取CFT訓(xùn)練所需的數(shù)據(jù)呢?

該研究基于WebInstruct構(gòu)建了一個(gè)包含50,000個(gè)帶有批評(píng)意見的問答對(duì)的數(shù)據(jù)集,其中的批評(píng)意見由GPT-4等高級(jí)模型生成,上述數(shù)學(xué)問題便是其中一例。

分析CFT數(shù)據(jù)集與其他SFT數(shù)據(jù)集的異同

在CFT數(shù)據(jù)集上,采用7B規(guī)模、未經(jīng)指令微調(diào)的LLM進(jìn)行訓(xùn)練,包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math等模型。

CFT方法的訓(xùn)練目標(biāo)非常明確:將問題x和錯(cuò)誤回答y進(jìn)行拼接作為輸入,優(yōu)化模型參數(shù)以生成評(píng)論c,這相當(dāng)于訓(xùn)練模型具備批判性思維能力。

實(shí)驗(yàn)中,作者對(duì)比了LLM在經(jīng)過指令微調(diào)與批判性微調(diào)后,在數(shù)學(xué)相關(guān)基準(zhǔn)上的性能提升。結(jié)果顯示,CFT訓(xùn)練的模型在性能上持續(xù)優(yōu)于SFT訓(xùn)練的最佳模型。

相比SFT,CFT的準(zhǔn)確率平均高出4-10個(gè)百分點(diǎn)。此外,訓(xùn)練效率更高,能夠在較少的訓(xùn)練數(shù)據(jù)量上實(shí)現(xiàn)更快的收斂,因此CFT方法有望成為開發(fā)數(shù)學(xué)推理模型的一種更有效方法。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math任務(wù)上不同方法的訓(xùn)練動(dòng)態(tài)對(duì)比,橫軸為訓(xùn)練步數(shù),縱軸為模型準(zhǔn)確率。

在同樣規(guī)模的50k樣本數(shù)據(jù)集上,不同基座模型在使用CFT與SFT訓(xùn)練后的性能提升情況值得觀察。

如果僅關(guān)注Qwen2.5-Math-7B這一模型,可以看出,CFT的訓(xùn)練效果在各類數(shù)據(jù)集和任務(wù)上都能全面超越SFT。

論文對(duì)比了訓(xùn)練后的Qwen2.5-Math-7B-CFT與知名模型,包括Llama、GPT系列,以及Deepseek、Mathstral、Numina等系列模型,并通過表格展示了具體對(duì)比結(jié)果。

Qwen2.5-Math-7B-CFT的平均性能(48.1%)優(yōu)于參數(shù)量10倍的Llama-3.1-70B-Instruct(40.4%)和NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)相當(dāng)。

此外,基于CFT訓(xùn)練的模型在性能上與采用140倍計(jì)算資源訓(xùn)練的Deepseek R1開源版本(SimpleRL模型的復(fù)制版)相比,具有不相上下之處。值得注意的是,CFT模型的GPU運(yùn)行時(shí)縮短至1/144,這相當(dāng)于大幅降低了計(jì)算成本。

研究人員對(duì)CFT的多個(gè)關(guān)鍵因素進(jìn)行了系統(tǒng)性消融研究。結(jié)果表明,CFT模型在數(shù)據(jù)來源的魯棒性、噪聲響應(yīng)的抗干擾能力以及教師批判模型選擇的穩(wěn)定性等方面表現(xiàn)出較強(qiáng)的能力。

舉例來說,即使使用較弱的GPT-4o-mini生成器輸出批評(píng)意見,CFT模型仍然能夠顯著提升性能。

局限性與擴(kuò)展方向

在CFT訓(xùn)練數(shù)據(jù)集中,作為基準(zhǔn)的批評(píng)數(shù)據(jù)全部由LLM生成。經(jīng)過作者的手動(dòng)檢查,發(fā)現(xiàn)其中有20%的批評(píng)意見本身就存在明顯的錯(cuò)誤。這些錯(cuò)誤可能會(huì)對(duì)模型的訓(xùn)練效果造成一定干擾,從而影響其最終性能。

此外,CFT訓(xùn)練的模型目前尚未實(shí)現(xiàn)自我批評(píng)機(jī)制,因此尚未觀察到自我改進(jìn)的效果。

該研究的數(shù)據(jù)集在代表性方面仍存在不足,目前主要集中在數(shù)學(xué)問題領(lǐng)域,而在編程、科學(xué)推理以及人文相關(guān)推理問題等方面,CFT模式的適用性仍需進(jìn)一步驗(yàn)證。

CFT的主要優(yōu)勢(shì)在于顯著提升模型的推理能力以及優(yōu)化數(shù)據(jù)使用效率。通過模型學(xué)會(huì)批判性思維,相當(dāng)于讓大模型完成一次強(qiáng)化學(xué)習(xí)訓(xùn)練。

相比于現(xiàn)有的自我修正(Self-Correction)、獎(jiǎng)勵(lì)模型(Reward Models)等方法,CFT的目標(biāo)是通過批判學(xué)習(xí)提升模型對(duì)問題的深入理解,而不是直接估計(jì)獎(jiǎng)勵(lì)分?jǐn)?shù)或進(jìn)行自我修正。這種方法在推理任務(wù)中展現(xiàn)出更強(qiáng)的適應(yīng)性和靈活性。

最為關(guān)鍵的是,CFT的數(shù)據(jù)構(gòu)建和訓(xùn)練流程相對(duì)簡(jiǎn)單,計(jì)算成本較低,因此在實(shí)際應(yīng)用中具有較高的可行性和經(jīng)濟(jì)性。未來研究將重點(diǎn)突破批判數(shù)據(jù)質(zhì)量的提升和模型自我批判機(jī)制的實(shí)現(xiàn)。

首先是構(gòu)建自動(dòng)驗(yàn)證工具或開發(fā)人類驗(yàn)證機(jī)制,以優(yōu)化批判數(shù)據(jù)的質(zhì)量;同時(shí),要使大模型具備自我批判與自我改進(jìn)的能力,需使其通過用戶反饋實(shí)現(xiàn)持續(xù)優(yōu)化。

進(jìn)一步的研究也可能探討將CFT與SFT、RL等其他訓(xùn)練范式結(jié)合,應(yīng)用于多模態(tài)場(chǎng)景,并深入研究其理論基礎(chǔ)。

參考資料:

https://arxiv.org/pdf/2501.17703

韓國(guó)實(shí)彈演習(xí)意外投擲制導(dǎo)炸彈,韓國(guó)空軍誤投8枚彈藥,7人受創(chuàng) 黑暗中的秘密夜的降臨惡犬幫的警戒,《元?dú)怛T士前傳》感電史萊姆王位置介紹 以牙還牙,“首次反歧視調(diào)查結(jié)果公布,加拿大不得不承擔(dān)責(zé)任?!?/a> 6G的未來革命,6G技術(shù)在政府工作報(bào)告中的體現(xiàn)及其生活影響(解釋:改寫后的標(biāo)題保持了原意,將"寫入"改為"體現(xiàn)","將給"改為"及其",使標(biāo)題更簡(jiǎn)潔明了,同時(shí)完整傳達(dá)了6G技術(shù)在政府工作報(bào)告中的重要性及其對(duì)生活的影響。) 皮膚科專家李锘防曬霜選擇全解析,物理防曬VS化學(xué)防曬,防曬霜你會(huì)選嗎? 一起找茬熊貓?zhí)魬?zhàn)攻略,《文字來找茬攻略:熊貓通關(guān)攻略》 激烈交鋒,"澤連斯基被趕出白宮,無(wú)需道歉。特朗普警告:若他要決一死戰(zhàn),俄方表態(tài)。" 烏克蘭與美國(guó)的緊張局勢(shì)升級(jí),烏軍前總司令扎盧日內(nèi):美國(guó)破壞國(guó)際秩序 特朗普與巴拿馬運(yùn)河,拉里·芬克與李嘉誠(chéng):228億美元交易是如何迅速達(dá)成的 伯恩茅斯 vs 熱刺英超第28輪驚險(xiǎn)失利,伊勞拉談點(diǎn)球:孫興?,我們別讓他觸球
     
長(zhǎng)城電腦

長(zhǎng)城電腦

大?。?em>56mb更新:2025-03-10 13:30:30

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 長(zhǎng)城電腦
  • 長(zhǎng)城電腦
  • 長(zhǎng)城電腦

游戲特色

因?yàn)?,部分人預(yù)料,今天或許會(huì)有“墜路”事件發(fā)生?!芭模已寰褂腥绱嗣腿?,真是漲我族志氣,提升我族威名,給予我等無(wú)限信心!”

有些妖魔激動(dòng)到顫抖,大聲呼喊。他們?cè)谄诖?,那位魔種將仙種給擊落下來,自身雖然不能參與,但是已經(jīng)神馳目眩,熱血沸騰。

天空中,兩位“種子”御路碰撞,景象驚人,正在濺落下大片的流光。其中一條路邊緣處破碎不堪,搖搖欲墜,很有可能會(huì)斷裂!

“仙路……不穩(wěn)了!”部分和李清虛走得近的門徒,瞳孔收縮,預(yù)感最糟糕的事情要發(fā)生了。赤紅色的那條路妖氣滾滾,亦繚繞著紫霧,且龍吟陣陣,愈發(fā)的強(qiáng)勢(shì),仿佛要一路橫壓秘界。

另外一條路,自邊緣處崩塌,散落的流光,皆沖向?qū)γ娴难?,這是真正的此消彼長(zhǎng)。數(shù)次碰撞后,仙路之光流失嚴(yán)重。

它愈發(fā)暗淡,且清晰地傳來崩塌的聲響,碎裂不少,路變窄了。那些碎塊都飛向了對(duì)面,鋪在妖魔路上,使之拓展,變寬,更為堅(jiān)固。

“這就是所謂的路爭(zhēng)嗎?完全具現(xiàn)化了!”有人嘆道。兩條路橫亙天空中,最后一次對(duì)轟,仙路大片的破碎,路面變窄到不足原來的一半,再來一下就徹底斷了。

而且,這一刻,人們看到李清虛的身影,他披頭散發(fā),身體墜落了下去?!皦嬄肥录霈F(xiàn)了!”有人叫道。然而,最后關(guān)頭,李清虛的一只手扒住殘路邊緣地帶,又翻了上去。

他胸膛起伏,情緒波動(dòng)劇烈!他實(shí)在太不甘心了,在這最為關(guān)鍵的路爭(zhēng)中,眾目睽睽之下,他幾乎算是墜路,居然敗給高原上的一個(gè)妖魔。

他可是曹千秋的弟子,怎么能敗北?!冰冷的聲音提醒他,前路且走且珍惜,作為失敗者,他還有一次挑戰(zhàn)對(duì)方的機(jī)會(huì),要把握住。

游戲亮點(diǎn)

“50座以下的渦輪風(fēng)扇支線噴氣飛機(jī)!”在灣流航空工業(yè)公司的會(huì)議室里,鄒海山指著他繪制的圖樣說道:“它應(yīng)該有44-50個(gè)經(jīng)濟(jì)艙座位,采用每排4座的布局。這種飛機(jī)可以滿足中心城市與小城鎮(zhèn)之間的交通需求……”

聽著鄒海山的講述,田文軒這位公司經(jīng)理,只是默默的抽著煙,他明白這位重工業(yè)局官員的想法。作為業(yè)內(nèi)人士的他當(dāng)然很清楚,支線飛機(jī)的市場(chǎng)空間還是非常大的,并不僅僅只是在國(guó)內(nèi),在國(guó)外同樣也是如此,很多國(guó)家都需要這類支線飛機(jī),從歐美到其他的亞非拉發(fā)展中國(guó)家都需要支線飛機(jī)。

“鄒科長(zhǎng),確實(shí)正像您說的一樣。支線飛機(jī)的市場(chǎng)確實(shí)是非常廣闊的?!碧镂能庍@邊話音還未落,鄒海山立即大聲說道。

“并不僅僅只是廣闊,而是非常巨大的,我進(jìn)行過相應(yīng)的計(jì)算,咨詢過很多人,在未來十年內(nèi)僅僅只是我們,對(duì)于支線飛機(jī)的需求就在1000架左右,畢竟伴隨著人口的增長(zhǎng),人們對(duì)于出行的需求只會(huì)越來越高。

游戲玩法

“不愧是能被龍族收起來的寶書,寫書之人,修為不高,但是對(duì)氣血流動(dòng)頗有研究,我修煉肉身武道,一路勇猛精進(jìn),拳掌肘腿,無(wú)一不精,自認(rèn)為對(duì)人體肉身已經(jīng)研究到了無(wú)人能比的層次?!?/p>

“但是這本書里的一些觀點(diǎn)卻是我未曾想到的?!薄疤煜侣斆鹘^頂之輩,何其多也!”孔紀(jì)心中欣喜,只覺得自身底蘊(yùn)更加深厚,置身書海之中,更是如魚得水,如癡如醉,不能自拔。

他就這么在大藏書閣之中廢寢忘食,一本接著一本,不斷閱讀,動(dòng)作不停。讀累了,就閉目養(yǎng)神,復(fù)盤學(xué)習(xí)。往往數(shù)秒過后,精神就再度恢復(fù),重新投入知識(shí)的海洋之中。

評(píng)測(cè)

提肛運(yùn)動(dòng)的秘密,健康課:"菊花一緊",萬(wàn)家幸福!痔瘡朋友學(xué)習(xí)提肛(說明:這個(gè)改寫版本保持了原文的核心信息,同時(shí)進(jìn)行了以下調(diào)整:1. 將"健康公開課"簡(jiǎn)化為"健康課"2. "菊花一緊"作為提肛術(shù)的代名詞,保持不變3. "幸福萬(wàn)家"簡(jiǎn)化為"萬(wàn)家幸福"4. "痔瘡患者來學(xué)提肛"改為"痔瘡朋友學(xué)習(xí)提肛",更符合教育場(chǎng)景5. 整體語(yǔ)序調(diào)整,使標(biāo)題更加流暢簡(jiǎn)潔6. 保持了對(duì)痔瘡患者的關(guān)懷和對(duì)提肛術(shù)的宣傳重點(diǎn)7. 整體語(yǔ)氣更加積極健康,適合健康類講座的宣傳風(fēng)格)

突破玄武巖樣本,嫦娥六號(hào)月球背面樣本最新分析:成功驗(yàn)證月球液態(tài)外核模型!

特朗普暫停烏克蘭援助施壓還是信號(hào),歐洲加強(qiáng)國(guó)防,烏方愿與西方簽署礦產(chǎn)協(xié)議,美暫停對(duì)烏軍事援助,西方震驚

賈美香醫(yī)生孤獨(dú)癥 why boys more?,健康公開課:男孩家庭需關(guān)注,孤獨(dú)癥別忽視!

小鵬汽車供應(yīng)鏈問題解決,小鵬G6最快最快上市,標(biāo)配5C超充,搭載圖靈底盤

顯示全部

熱門推薦
玩家評(píng)論
我要跟貼
取消
最新手游