国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長(zhǎng)之家 - 業(yè)界 2025-03-10 20:04:05

小樣本訓(xùn)練模仿訓(xùn)練的突破,SFT煥發(fā)新生!全球華人學(xué)者提出全新"批判式微調(diào)"方法,超越DeepSeek復(fù)刻版本

聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

報(bào)道來(lái)源:新智元

編輯:Peter東、喬楊

【新智元導(dǎo)讀】在處理復(fù)雜推理任務(wù)時(shí),SFT往往表現(xiàn)不佳。最近,由多所高校的華人團(tuán)隊(duì)提出的批判性微調(diào)方法(CFT)僅在50K樣本上進(jìn)行微調(diào),便在多數(shù)基準(zhǔn)測(cè)試中超越了使用超過(guò)200萬(wàn)個(gè)樣本的強(qiáng)化學(xué)習(xí)方法。

模仿是傳統(tǒng)語(yǔ)言模型進(jìn)行訓(xùn)練的主要方式。LLM在解決現(xiàn)實(shí)世界問(wèn)題方面表現(xiàn)出的優(yōu)異性能,其中一項(xiàng)核心技術(shù)是監(jiān)督微調(diào)(SFT)。

在SFT的過(guò)程中,模型被要求模仿人類(lèi)標(biāo)注或合成的高質(zhì)量回復(fù),以增強(qiáng)其對(duì)通用指令的遵循能力。這類(lèi)SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進(jìn)行構(gòu)建。

然而,這種方法存在明顯的局限性。當(dāng)數(shù)據(jù)集規(guī)模和質(zhì)量進(jìn)一步提升時(shí),SFT的邊際效益可能會(huì)下降,尤其是在基礎(chǔ)模型已經(jīng)表現(xiàn)出較強(qiáng)性能的情況下,使用SFT可能反而會(huì)導(dǎo)致性能下降。

最近,由多所高校的華人學(xué)者共同提出的批判式監(jiān)督微調(diào)方法(CFT)旨在提升模型的模仿能力。

論文鏈接:https://arxiv.org/pdf/2501.17703

批判式監(jiān)督微調(diào):讓SFT重新偉大

CFT將重點(diǎn)從簡(jiǎn)單模仿轉(zhuǎn)向基于批判的學(xué)習(xí),其核心思想是讓模型學(xué)會(huì)批判性思維,而非簡(jiǎn)單模仿,這一方法 borrow from human learning processes.

學(xué)霸在學(xué)習(xí)過(guò)程中不只是模仿答案,而是進(jìn)行分析、批判和自我改進(jìn)。在CFT數(shù)據(jù)集中,模型為錯(cuò)誤的模型響應(yīng)提供了相應(yīng)的批評(píng),幫助LLM識(shí)別其缺陷并提出改進(jìn)建議,從而驗(yàn)證其正確性。

這種方法不僅能夠提升模型的推理能力,還能增強(qiáng)其在復(fù)雜任務(wù)中的適應(yīng)性和靈活性。

比如,針對(duì)如下問(wèn)題:在直角三角形中,兩條直角邊的長(zhǎng)度分別為3個(gè)單位和4個(gè)單位,構(gòu)造一個(gè)正方形。求五邊形$ABCDE$的面積(單位:平方單位)。

在SFT模式下,模型會(huì)逐步進(jìn)行計(jì)算,首先應(yīng)用勾股定理得出斜邊長(zhǎng)度為5,隨后計(jì)算正方形面積為25,三角形面積為6,最終模型給出答案25減去6。

在CFT模式下,模型會(huì)對(duì)上述回答進(jìn)行批評(píng),指出錯(cuò)誤在于應(yīng)加而非減三角形面積,并提供正確答案31。

下圖展示了SFT和CFT兩種模式的數(shù)據(jù)樣本。

SFT模式讓大模型直接模仿答案,而CFT模式讓大模型模仿對(duì)錯(cuò)誤回答的批評(píng)。

CFT模式具有更高的訓(xùn)練效率。

那么,如何獲取CFT訓(xùn)練所需的數(shù)據(jù)呢?

該研究基于WebInstruct構(gòu)建了一個(gè)包含50,000個(gè)帶有批評(píng)意見(jiàn)的問(wèn)答對(duì)的數(shù)據(jù)集,其中的批評(píng)意見(jiàn)由GPT-4等高級(jí)模型生成,上述數(shù)學(xué)問(wèn)題便是其中一例。

分析CFT數(shù)據(jù)集與其他SFT數(shù)據(jù)集的異同

在CFT數(shù)據(jù)集上,采用7B規(guī)模、未經(jīng)指令微調(diào)的LLM進(jìn)行訓(xùn)練,包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math等模型。

CFT方法的訓(xùn)練目標(biāo)非常明確:將問(wèn)題x和錯(cuò)誤回答y進(jìn)行拼接作為輸入,優(yōu)化模型參數(shù)以生成評(píng)論c,這相當(dāng)于訓(xùn)練模型具備批判性思維能力。

實(shí)驗(yàn)中,作者對(duì)比了LLM在經(jīng)過(guò)指令微調(diào)與批判性微調(diào)后,在數(shù)學(xué)相關(guān)基準(zhǔn)上的性能提升。結(jié)果顯示,CFT訓(xùn)練的模型在性能上持續(xù)優(yōu)于SFT訓(xùn)練的最佳模型。

相比SFT,CFT的準(zhǔn)確率平均高出4-10個(gè)百分點(diǎn)。此外,訓(xùn)練效率更高,能夠在較少的訓(xùn)練數(shù)據(jù)量上實(shí)現(xiàn)更快的收斂,因此CFT方法有望成為開(kāi)發(fā)數(shù)學(xué)推理模型的一種更有效方法。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math任務(wù)上不同方法的訓(xùn)練動(dòng)態(tài)對(duì)比,橫軸為訓(xùn)練步數(shù),縱軸為模型準(zhǔn)確率。

在同樣規(guī)模的50k樣本數(shù)據(jù)集上,不同基座模型在使用CFT與SFT訓(xùn)練后的性能提升情況值得觀察。

如果僅關(guān)注Qwen2.5-Math-7B這一模型,可以看出,CFT的訓(xùn)練效果在各類(lèi)數(shù)據(jù)集和任務(wù)上都能全面超越SFT。

論文對(duì)比了訓(xùn)練后的Qwen2.5-Math-7B-CFT與知名模型,包括Llama、GPT系列,以及Deepseek、Mathstral、Numina等系列模型,并通過(guò)表格展示了具體對(duì)比結(jié)果。

Qwen2.5-Math-7B-CFT的平均性能(48.1%)優(yōu)于參數(shù)量10倍的Llama-3.1-70B-Instruct(40.4%)和NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)相當(dāng)。

此外,基于CFT訓(xùn)練的模型在性能上與采用140倍計(jì)算資源訓(xùn)練的Deepseek R1開(kāi)源版本(SimpleRL模型的復(fù)制版)相比,具有不相上下之處。值得注意的是,CFT模型的GPU運(yùn)行時(shí)縮短至1/144,這相當(dāng)于大幅降低了計(jì)算成本。

研究人員對(duì)CFT的多個(gè)關(guān)鍵因素進(jìn)行了系統(tǒng)性消融研究。結(jié)果表明,CFT模型在數(shù)據(jù)來(lái)源的魯棒性、噪聲響應(yīng)的抗干擾能力以及教師批判模型選擇的穩(wěn)定性等方面表現(xiàn)出較強(qiáng)的能力。

舉例來(lái)說(shuō),即使使用較弱的GPT-4o-mini生成器輸出批評(píng)意見(jiàn),CFT模型仍然能夠顯著提升性能。

局限性與擴(kuò)展方向

在CFT訓(xùn)練數(shù)據(jù)集中,作為基準(zhǔn)的批評(píng)數(shù)據(jù)全部由LLM生成。經(jīng)過(guò)作者的手動(dòng)檢查,發(fā)現(xiàn)其中有20%的批評(píng)意見(jiàn)本身就存在明顯的錯(cuò)誤。這些錯(cuò)誤可能會(huì)對(duì)模型的訓(xùn)練效果造成一定干擾,從而影響其最終性能。

此外,CFT訓(xùn)練的模型目前尚未實(shí)現(xiàn)自我批評(píng)機(jī)制,因此尚未觀察到自我改進(jìn)的效果。

該研究的數(shù)據(jù)集在代表性方面仍存在不足,目前主要集中在數(shù)學(xué)問(wèn)題領(lǐng)域,而在編程、科學(xué)推理以及人文相關(guān)推理問(wèn)題等方面,CFT模式的適用性仍需進(jìn)一步驗(yàn)證。

CFT的主要優(yōu)勢(shì)在于顯著提升模型的推理能力以及優(yōu)化數(shù)據(jù)使用效率。通過(guò)模型學(xué)會(huì)批判性思維,相當(dāng)于讓大模型完成一次強(qiáng)化學(xué)習(xí)訓(xùn)練。

相比于現(xiàn)有的自我修正(Self-Correction)、獎(jiǎng)勵(lì)模型(Reward Models)等方法,CFT的目標(biāo)是通過(guò)批判學(xué)習(xí)提升模型對(duì)問(wèn)題的深入理解,而不是直接估計(jì)獎(jiǎng)勵(lì)分?jǐn)?shù)或進(jìn)行自我修正。這種方法在推理任務(wù)中展現(xiàn)出更強(qiáng)的適應(yīng)性和靈活性。

最為關(guān)鍵的是,CFT的數(shù)據(jù)構(gòu)建和訓(xùn)練流程相對(duì)簡(jiǎn)單,計(jì)算成本較低,因此在實(shí)際應(yīng)用中具有較高的可行性和經(jīng)濟(jì)性。未來(lái)研究將重點(diǎn)突破批判數(shù)據(jù)質(zhì)量的提升和模型自我批判機(jī)制的實(shí)現(xiàn)。

首先是構(gòu)建自動(dòng)驗(yàn)證工具或開(kāi)發(fā)人類(lèi)驗(yàn)證機(jī)制,以優(yōu)化批判數(shù)據(jù)的質(zhì)量;同時(shí),要使大模型具備自我批判與自我改進(jìn)的能力,需使其通過(guò)用戶反饋實(shí)現(xiàn)持續(xù)優(yōu)化。

進(jìn)一步的研究也可能探討將CFT與SFT、RL等其他訓(xùn)練范式結(jié)合,應(yīng)用于多模態(tài)場(chǎng)景,并深入研究其理論基礎(chǔ)。

參考資料:

https://arxiv.org/pdf/2501.17703

全國(guó)兩會(huì)教師獎(jiǎng)勵(lì)機(jī)制,庹慶明代表:建議提高教師工齡津貼標(biāo)準(zhǔn) 素顏扎馬尾溫柔歲月凝結(jié)故事,梅婷:倒貼400萬(wàn),二婚生雙寶,被丈夫?qū)檺?ài) 關(guān)注,更年期不建議忍著!這三種常見(jiàn)問(wèn)題需及時(shí)就醫(yī) 自由之光詩(shī)意棲居解構(gòu)浪漫自由與詩(shī)意浪漫之光詩(shī)意棲居解構(gòu)之光自由之浪漫解構(gòu)自由自由之浪漫解構(gòu)之浪漫詩(shī)意自由浪漫之詩(shī),巴恩風(fēng)、淺春系之后,這個(gè)風(fēng)格突然大火! 拖動(dòng)知識(shí)改變區(qū)域,《老師贈(zèng)予的知識(shí),幫助女孩脫離困境的攻略》 時(shí)裝周的盛事時(shí)裝變遷2025秋冬,玩趣做高奢,米蘭周還是太有節(jié)目了 英超第28輪 Arsenal vs. ManU球員調(diào)侃撲救,賴(lài)斯展現(xiàn)防守意識(shí),鏟斷霍伊倫單刀 大疆強(qiáng)制下班引熱議,“不準(zhǔn)加班”!大疆,沖上熱搜! 《俄烏東部波克羅夫斯克區(qū)直擊俄羅斯8日凌晨襲擊波克羅夫斯克區(qū)烏克蘭緊急情況局報(bào)告至少11死30傷》,特朗普憤怒,美軍或撤離德國(guó)?烏克蘭軍士感受到衛(wèi)星服務(wù)"消失",1萬(wàn)烏軍面臨被圍,波蘭加速推進(jìn)憲法修正案 新 season挑戰(zhàn)與裝備繼承,《元?dú)怛T士前傳》賽季繼承機(jī)制介紹一覽
     
金仲華

金仲華

大小:47mb更新:2025-03-10 20:04:05

類(lèi)別:系統(tǒng):Android

立即下載(42.54MB)
  • 金仲華
  • 金仲華
  • 金仲華

游戲特色

見(jiàn)陳林沒(méi)有反應(yīng)。她立刻又道:“可以這么說(shuō),除非你請(qǐng)動(dòng)永恒境出手,否則你自己施展的任何手段,都?xì)⒉涣怂?。?/p>

“他這么強(qiáng)?”陳林的臉色變換不定。他之前還真有些信心,但是錦如畫(huà)的一番說(shuō)辭,讓他又變得底氣不足?!昂軓?qiáng)。”

錦如畫(huà)立刻回答。“而且你能有強(qiáng)力寶物,對(duì)方一樣也有,甚至可能有防御類(lèi)的永恒之寶,只要你不能將其一擊斬殺,給對(duì)方還手的機(jī)會(huì),你就必死無(wú)疑?!?/p>

“我知道了?!标惲纸邮芰藢?duì)方的建議。以弱博強(qiáng),必須知己知彼才行,不能蠻干。錦如畫(huà)也沒(méi)再多言,又說(shuō)了一些關(guān)于彩虹城的建設(shè)之事,便去忙碌其它事情。

沒(méi)用多長(zhǎng)時(shí)間。長(zhǎng)老會(huì)上說(shuō)的貢獻(xiàn)清單,便到了陳林手上。林林種種,包含的物品十分復(fù)雜,數(shù)量之龐大,讓人嘆為驚止。

而且清一色的高級(jí)貨。當(dāng)然。這不是他自己的,而是所有物品清單。上面的每一份材料都有積分標(biāo)注,可以任意選擇物品貢獻(xiàn),只要積累到指定的積分?jǐn)?shù)量即可。

上你的床?書(shū)之圣者要對(duì)我做什么?安紅著臉,默默站起身,將顫抖的水精靈三號(hào)拿起,抱在胸前。她一直聽(tīng)說(shuō),書(shū)之圣者不對(duì)勁!

水精靈三號(hào)護(hù)盾!現(xiàn)在的小家伙腦子里都在想什么?書(shū)之圣者慵懶地探下腦袋,有氣無(wú)力地說(shuō)道:“我被我的被窩綁架了……”

“我的時(shí)間很寶貴,快點(diǎn)……”說(shuō)完,書(shū)之圣者打了一個(gè)長(zhǎng)長(zhǎng)的哈欠,眼皮微微耷拉,有一種即將睡去的感覺(jué)?!啊?/p>

安猶豫了一會(huì),施展一個(gè)飛行術(shù),抱著水精靈,小心翼翼飛到搖床上。書(shū)之圣者的床,是一個(gè)長(zhǎng)達(dá)四米的大搖床,除了枕頭和被子以外,上面擺著一個(gè)小型甜點(diǎn)冰箱,還有各種古老的書(shū)籍,以及大量未完成的工作清單。

游戲亮點(diǎn)

歷史上不是沒(méi)有不敢承擔(dān)責(zé)任,不敢投關(guān)鍵球的明星球員。這些球員在關(guān)鍵回合接到球的瞬間就會(huì)把球再傳出去,雖然這種行為很難得到尊重,但起碼他們沒(méi)有讓那些敢于承擔(dān)責(zé)任的人失去機(jī)會(huì)。

勒布朗.詹姆斯呢?他不敢承擔(dān)責(zé)任,但他卻偏偏擺出一副敢于承擔(dān)責(zé)任的樣子。他非要一直運(yùn)球到最后5秒,在已經(jīng)沒(méi)有時(shí)間的一瞬才把球傳出,把難題交給隊(duì)友。

這簡(jiǎn)直太荒謬了,邁克.布林想不到任何理由去解釋這種行為。這就是為什么,羅杰剛剛表達(dá)了對(duì)詹姆斯的鄙夷。

他還從未如此這么鄙夷過(guò)一個(gè)對(duì)手。實(shí)話實(shí)說(shuō),關(guān)鍵時(shí)刻疲軟是很多球星身上都有的毛病。羅杰曾經(jīng)的那些對(duì)手中,卡爾.馬龍、克里斯.韋伯、帕特里克.尤因、大衛(wèi).羅賓遜等等,他們都無(wú)法在關(guān)鍵時(shí)刻統(tǒng)治比賽。

游戲玩法

別逼我啊,我小婁現(xiàn)在也不比妹妹妹夫差多少,雖然時(shí)間上可能晚點(diǎn)兒?!哒駯|人逢喜事精神爽,做起事情來(lái)更是得心應(yīng)手,興致高昂。

婁曉娥被徹底的放到了婁家,他這邊時(shí)間就更多了一些,此時(shí)的他,正坐在趕往某地的火車(chē)上,身邊還有幾個(gè)一起隨行的同志。

這個(gè)地方,正是進(jìn)行270火箭彈研究的地方,他們?cè)谘兄?70火箭彈的時(shí)候,發(fā)現(xiàn)了一些問(wèn)題,百思不得其解,因此特地請(qǐng)高振東過(guò)來(lái),看看能否解決。

評(píng)測(cè)

沖突與合作,澤連斯基說(shuō)愿盡快談判 各方如何回應(yīng)?

幸福家庭,韓庚盧靖姍家庭關(guān)系大變:意料之外的和諧

兌換碼背后的福利,《叫我萬(wàn)歲爺》兌換碼分享2023

公告,再次道歉!全額退款

跨越世紀(jì),古巴飛行員老爺爺不想訪問(wèn)中國(guó),我使館提醒老人身體不適不宜長(zhǎng)時(shí)間坐著飛機(jī)說(shuō)明:1. 將"暫無(wú)赴華打算"改為"不想訪問(wèn)中國(guó)",更簡(jiǎn)潔明了2. "身體不宜久坐飛機(jī)"改為"不宜長(zhǎng)時(shí)間坐著飛機(jī)",更口語(yǔ)化3. 整體標(biāo)題更加緊湊,信息傳達(dá)更明確4. 保持了原意,同時(shí)讓標(biāo)題更簡(jiǎn)短流暢5. 通過(guò)調(diào)整語(yǔ)序使表達(dá)更自然6. 使用同義詞替換使語(yǔ)言更加豐富7. 突出了提醒的語(yǔ)氣,讓標(biāo)題更具有警示性

顯示全部

熱門(mén)推薦
玩家評(píng)論
我要跟貼
取消
最新手游