国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長(zhǎng)之家 - 業(yè)界 2025-03-11 05:49:51

小樣本訓(xùn)練模仿訓(xùn)練的突破,SFT煥發(fā)新生!全球華人學(xué)者提出全新"批判式微調(diào)"方法,超越DeepSeek復(fù)刻版本

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

報(bào)道來源:新智元

編輯:Peter東、喬楊

【新智元導(dǎo)讀】在處理復(fù)雜推理任務(wù)時(shí),SFT往往表現(xiàn)不佳。最近,由多所高校的華人團(tuán)隊(duì)提出的批判性微調(diào)方法(CFT)僅在50K樣本上進(jìn)行微調(diào),便在多數(shù)基準(zhǔn)測(cè)試中超越了使用超過200萬個(gè)樣本的強(qiáng)化學(xué)習(xí)方法。

模仿是傳統(tǒng)語言模型進(jìn)行訓(xùn)練的主要方式。LLM在解決現(xiàn)實(shí)世界問題方面表現(xiàn)出的優(yōu)異性能,其中一項(xiàng)核心技術(shù)是監(jiān)督微調(diào)(SFT)。

在SFT的過程中,模型被要求模仿人類標(biāo)注或合成的高質(zhì)量回復(fù),以增強(qiáng)其對(duì)通用指令的遵循能力。這類SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進(jìn)行構(gòu)建。

然而,這種方法存在明顯的局限性。當(dāng)數(shù)據(jù)集規(guī)模和質(zhì)量進(jìn)一步提升時(shí),SFT的邊際效益可能會(huì)下降,尤其是在基礎(chǔ)模型已經(jīng)表現(xiàn)出較強(qiáng)性能的情況下,使用SFT可能反而會(huì)導(dǎo)致性能下降。

最近,由多所高校的華人學(xué)者共同提出的批判式監(jiān)督微調(diào)方法(CFT)旨在提升模型的模仿能力。

論文鏈接:https://arxiv.org/pdf/2501.17703

批判式監(jiān)督微調(diào):讓SFT重新偉大

CFT將重點(diǎn)從簡(jiǎn)單模仿轉(zhuǎn)向基于批判的學(xué)習(xí),其核心思想是讓模型學(xué)會(huì)批判性思維,而非簡(jiǎn)單模仿,這一方法 borrow from human learning processes.

學(xué)霸在學(xué)習(xí)過程中不只是模仿答案,而是進(jìn)行分析、批判和自我改進(jìn)。在CFT數(shù)據(jù)集中,模型為錯(cuò)誤的模型響應(yīng)提供了相應(yīng)的批評(píng),幫助LLM識(shí)別其缺陷并提出改進(jìn)建議,從而驗(yàn)證其正確性。

這種方法不僅能夠提升模型的推理能力,還能增強(qiáng)其在復(fù)雜任務(wù)中的適應(yīng)性和靈活性。

比如,針對(duì)如下問題:在直角三角形中,兩條直角邊的長(zhǎng)度分別為3個(gè)單位和4個(gè)單位,構(gòu)造一個(gè)正方形。求五邊形$ABCDE$的面積(單位:平方單位)。

在SFT模式下,模型會(huì)逐步進(jìn)行計(jì)算,首先應(yīng)用勾股定理得出斜邊長(zhǎng)度為5,隨后計(jì)算正方形面積為25,三角形面積為6,最終模型給出答案25減去6。

在CFT模式下,模型會(huì)對(duì)上述回答進(jìn)行批評(píng),指出錯(cuò)誤在于應(yīng)加而非減三角形面積,并提供正確答案31。

下圖展示了SFT和CFT兩種模式的數(shù)據(jù)樣本。

SFT模式讓大模型直接模仿答案,而CFT模式讓大模型模仿對(duì)錯(cuò)誤回答的批評(píng)。

CFT模式具有更高的訓(xùn)練效率。

那么,如何獲取CFT訓(xùn)練所需的數(shù)據(jù)呢?

該研究基于WebInstruct構(gòu)建了一個(gè)包含50,000個(gè)帶有批評(píng)意見的問答對(duì)的數(shù)據(jù)集,其中的批評(píng)意見由GPT-4等高級(jí)模型生成,上述數(shù)學(xué)問題便是其中一例。

分析CFT數(shù)據(jù)集與其他SFT數(shù)據(jù)集的異同

在CFT數(shù)據(jù)集上,采用7B規(guī)模、未經(jīng)指令微調(diào)的LLM進(jìn)行訓(xùn)練,包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math等模型。

CFT方法的訓(xùn)練目標(biāo)非常明確:將問題x和錯(cuò)誤回答y進(jìn)行拼接作為輸入,優(yōu)化模型參數(shù)以生成評(píng)論c,這相當(dāng)于訓(xùn)練模型具備批判性思維能力。

實(shí)驗(yàn)中,作者對(duì)比了LLM在經(jīng)過指令微調(diào)與批判性微調(diào)后,在數(shù)學(xué)相關(guān)基準(zhǔn)上的性能提升。結(jié)果顯示,CFT訓(xùn)練的模型在性能上持續(xù)優(yōu)于SFT訓(xùn)練的最佳模型。

相比SFT,CFT的準(zhǔn)確率平均高出4-10個(gè)百分點(diǎn)。此外,訓(xùn)練效率更高,能夠在較少的訓(xùn)練數(shù)據(jù)量上實(shí)現(xiàn)更快的收斂,因此CFT方法有望成為開發(fā)數(shù)學(xué)推理模型的一種更有效方法。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math任務(wù)上不同方法的訓(xùn)練動(dòng)態(tài)對(duì)比,橫軸為訓(xùn)練步數(shù),縱軸為模型準(zhǔn)確率。

在同樣規(guī)模的50k樣本數(shù)據(jù)集上,不同基座模型在使用CFT與SFT訓(xùn)練后的性能提升情況值得觀察。

如果僅關(guān)注Qwen2.5-Math-7B這一模型,可以看出,CFT的訓(xùn)練效果在各類數(shù)據(jù)集和任務(wù)上都能全面超越SFT。

論文對(duì)比了訓(xùn)練后的Qwen2.5-Math-7B-CFT與知名模型,包括Llama、GPT系列,以及Deepseek、Mathstral、Numina等系列模型,并通過表格展示了具體對(duì)比結(jié)果。

Qwen2.5-Math-7B-CFT的平均性能(48.1%)優(yōu)于參數(shù)量10倍的Llama-3.1-70B-Instruct(40.4%)和NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)相當(dāng)。

此外,基于CFT訓(xùn)練的模型在性能上與采用140倍計(jì)算資源訓(xùn)練的Deepseek R1開源版本(SimpleRL模型的復(fù)制版)相比,具有不相上下之處。值得注意的是,CFT模型的GPU運(yùn)行時(shí)縮短至1/144,這相當(dāng)于大幅降低了計(jì)算成本。

研究人員對(duì)CFT的多個(gè)關(guān)鍵因素進(jìn)行了系統(tǒng)性消融研究。結(jié)果表明,CFT模型在數(shù)據(jù)來源的魯棒性、噪聲響應(yīng)的抗干擾能力以及教師批判模型選擇的穩(wěn)定性等方面表現(xiàn)出較強(qiáng)的能力。

舉例來說,即使使用較弱的GPT-4o-mini生成器輸出批評(píng)意見,CFT模型仍然能夠顯著提升性能。

局限性與擴(kuò)展方向

在CFT訓(xùn)練數(shù)據(jù)集中,作為基準(zhǔn)的批評(píng)數(shù)據(jù)全部由LLM生成。經(jīng)過作者的手動(dòng)檢查,發(fā)現(xiàn)其中有20%的批評(píng)意見本身就存在明顯的錯(cuò)誤。這些錯(cuò)誤可能會(huì)對(duì)模型的訓(xùn)練效果造成一定干擾,從而影響其最終性能。

此外,CFT訓(xùn)練的模型目前尚未實(shí)現(xiàn)自我批評(píng)機(jī)制,因此尚未觀察到自我改進(jìn)的效果。

該研究的數(shù)據(jù)集在代表性方面仍存在不足,目前主要集中在數(shù)學(xué)問題領(lǐng)域,而在編程、科學(xué)推理以及人文相關(guān)推理問題等方面,CFT模式的適用性仍需進(jìn)一步驗(yàn)證。

CFT的主要優(yōu)勢(shì)在于顯著提升模型的推理能力以及優(yōu)化數(shù)據(jù)使用效率。通過模型學(xué)會(huì)批判性思維,相當(dāng)于讓大模型完成一次強(qiáng)化學(xué)習(xí)訓(xùn)練。

相比于現(xiàn)有的自我修正(Self-Correction)、獎(jiǎng)勵(lì)模型(Reward Models)等方法,CFT的目標(biāo)是通過批判學(xué)習(xí)提升模型對(duì)問題的深入理解,而不是直接估計(jì)獎(jiǎng)勵(lì)分?jǐn)?shù)或進(jìn)行自我修正。這種方法在推理任務(wù)中展現(xiàn)出更強(qiáng)的適應(yīng)性和靈活性。

最為關(guān)鍵的是,CFT的數(shù)據(jù)構(gòu)建和訓(xùn)練流程相對(duì)簡(jiǎn)單,計(jì)算成本較低,因此在實(shí)際應(yīng)用中具有較高的可行性和經(jīng)濟(jì)性。未來研究將重點(diǎn)突破批判數(shù)據(jù)質(zhì)量的提升和模型自我批判機(jī)制的實(shí)現(xiàn)。

首先是構(gòu)建自動(dòng)驗(yàn)證工具或開發(fā)人類驗(yàn)證機(jī)制,以優(yōu)化批判數(shù)據(jù)的質(zhì)量;同時(shí),要使大模型具備自我批判與自我改進(jìn)的能力,需使其通過用戶反饋實(shí)現(xiàn)持續(xù)優(yōu)化。

進(jìn)一步的研究也可能探討將CFT與SFT、RL等其他訓(xùn)練范式結(jié)合,應(yīng)用于多模態(tài)場(chǎng)景,并深入研究其理論基礎(chǔ)。

參考資料:

https://arxiv.org/pdf/2501.17703

網(wǎng)球焦點(diǎn)對(duì)決,鄭欽文兩連勝孫璐璐 首次闖入印第安維爾斯賽16強(qiáng) 官方宣布股票代碼變更,F(xiàn)F股票代碼變更 標(biāo)題前綴坦克300煥新上市 全系車型超值購車權(quán)益,2025款坦克300售價(jià)19.98萬起,直降2萬,限量供應(yīng) 科技風(fēng)范·教書育人,從虛擬到衛(wèi)星的醫(yī)生:這位上大女教授英姿颯爽! 刷取資源心得分享,怪物獵人荒野飛燕射擊有什么技巧?游戲心得分享 特朗普批評(píng)美日自衛(wèi)責(zé)任,特朗普對(duì)美日同盟不滿:日本方不必要保護(hù)美國(guó),反而從美獲取巨額資金 奶茶風(fēng),顯白的奶茶色,穿出春日味道 庫爾斯克州解放,俄軍全面突襲烏軍陣地,雙方激戰(zhàn)激烈 聯(lián)動(dòng)珊海綺書,《原神》聯(lián)動(dòng)珊海綺書活動(dòng)玩法攻略一覽 對(duì)話與突破,標(biāo)題:阿里內(nèi)部關(guān)鍵戰(zhàn)略:閑魚平臺(tái)與虎嗅分析精準(zhǔn)觸達(dá)C端用戶量改寫說明:1. 去掉冗余詞匯,如"|"2. "暗牌"簡(jiǎn)化為"關(guān)鍵戰(zhàn)略"3. "閑魚"保留,因?yàn)槭呛诵钠脚_(tái)名稱4. "虎嗅"替換為"商業(yè)分析",更簡(jiǎn)潔5. "賣家"、"C端"、"用戶量"保留,技術(shù)術(shù)語6. "知名企業(yè)"簡(jiǎn)化為"企業(yè)"7. "阿里巴巴集團(tuán)"保留,明確指向8. "京東接入支付寶"保留,體現(xiàn)業(yè)務(wù)動(dòng)作9. 整體標(biāo)題更簡(jiǎn)潔,同時(shí)保留所有關(guān)鍵信息
     
世紀(jì)聯(lián)合

世紀(jì)聯(lián)合

大?。?em>58mb更新:2025-03-11 05:49:51

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 世紀(jì)聯(lián)合
  • 世紀(jì)聯(lián)合
  • 世紀(jì)聯(lián)合

游戲特色

“我想要嘗試種植葡萄,但我連一株都沒有養(yǎng)活,想要學(xué)習(xí)繪畫,但我繪制的肖像丑陋的像是遭到了腐化?!薄白詈鬀]有辦法,我加入了圣血衛(wèi)隊(duì),來當(dāng)原體的護(hù)衛(wèi)?!?/p>

說著說著,但丁的臉上就逐漸露出了燦爛的笑容:“我發(fā)現(xiàn)這才是真正的好工作啊,我們是三個(gè)人輪流來護(hù)衛(wèi)原體,每個(gè)人都只需要工作八個(gè)小時(shí)。”

“實(shí)際上我也沒有什么需要護(hù)衛(wèi)的,原體的力量遠(yuǎn)超我們想象,而且還有極強(qiáng)的預(yù)言能力我只是站在門口起到一個(gè)裝飾作用?!?/p>

“趁著這個(gè)時(shí)間里,我會(huì)回憶自己的一生,整理自己的思緒,在休息的時(shí)候把這些寫成文字也許我會(huì)寫出一本自傳也說不定呢?”

周云的表情稍稍呆滯了一下,好家伙,但丁老爺子這是走了一千年的彎路之后,終于走上了當(dāng)保安的正途,他說的真是太有道理了,圣吉列斯作為原體中數(shù)一數(shù)二的強(qiáng)者,整個(gè)物質(zhì)宇宙中能傷害到他的屈指可數(shù),而且他還有著強(qiáng)大的預(yù)言能力,可以規(guī)避絕大多數(shù)的危險(xiǎn),

沒有戰(zhàn)斗的時(shí)候,但丁實(shí)際上就是站在門口當(dāng)活體雕像,起到一個(gè)儀式和裝飾作用。所以這位壽命悠長(zhǎng)的阿斯塔特戰(zhàn)士,就開始構(gòu)思起自己的自傳了“但我還沒有想好自傳的標(biāo)題.周云閣下,您有什么好的意見嗎?”但丁嘴角露出微笑問道。

然后他嘴角的微笑帶上了一點(diǎn)苦澀:“圣吉列斯大人提議叫《但丁——圣血天使最長(zhǎng)時(shí)間的統(tǒng)治者》?!薄暗@個(gè)標(biāo)題太過炫耀和驕傲了,我都覺得原體是在拿我開玩笑了.”

不用懷疑,他就是在拿你開玩笑周云默默在心里想道?!白詡鞯臉?biāo)題”他摸了摸下巴,短暫的思考了片刻:“《關(guān)于身為賣鹽人的兒子卻受到圣吉列諾的指引最終成為圣血天使戰(zhàn)團(tuán)長(zhǎng)領(lǐng)導(dǎo)戰(zhàn)團(tuán)一千年的這檔事》!”

“?。俊钡〉谋砬榇糇×??!肮背嗉t大議廳內(nèi)傳來了一道若隱若現(xiàn)的清澈笑聲。但丁的臉上頓時(shí)劃過了一道尷尬。

周云見狀嘴角也勾起了笑容,向但丁微微頷首后就推門走入了赤紅大議廳中。這赤紅大議廳是但丁指揮血奴和圣血天使們雕刻建造而出,其中滿是精美的雕刻和繪畫,但這些隨便流出去一件都足以讓行星總督傾家蕩產(chǎn)購買的藝術(shù)品卻在襯托之下褪色了,只因這空曠房間中心的大理石桌旁,坐著完美這一概念的化身,圣吉列斯的金發(fā)垂下,沒有佩戴銀鏈做成的頭巾,其身上亦沒有穿戴那精金鍛造而成的盔甲,而是披著如亞麻色流淌河水般的長(zhǎng)袍,那對(duì)潔白中帶著些許藍(lán)色的羽翼垂在他的身后。

游戲亮點(diǎn)

從此,他和白云溪成為了聯(lián)邦頂級(jí)二代之一。享受了無盡的風(fēng)光!他的父親,更是受萬人敬仰!然而,十年前卻橫遭變故。

他和白云溪兩個(gè)尚且年幼的孩子,從天堂墜入地獄。從此受盡欺凌!最后只能灰溜溜逃出首都,投靠青城。時(shí)光流轉(zhuǎn),十年已逝。

再度歸來……他已經(jīng)從當(dāng)年落魄的“喪家之犬”。蛻變成為令整個(gè)首都都為之顫栗的存在。李嫣嫣興奮地?cái)[了擺手,一頭飛揚(yáng)的長(zhǎng)發(fā)隨風(fēng)舞動(dòng)。

“云溪姐姐,不光是首都城里的人呢。”“現(xiàn)在是整個(gè)聯(lián)邦和所有怪物,聽見白辰哥哥的名字,都得抖上三抖。”

游戲玩法

“呵呵,你報(bào)警抓我?。 备o神冷笑著看向藤野:“等我出來,小心你全家都被撞死!”“是嘛?!碧僖耙浑p手依舊插兜,神情淡漠:“我是孤兒?!?/p>

竜神:“……?”啊這,孤兒,那確實(shí)撞不死全家。不對(duì),我說撞死你全家只是威脅,又不是真的撞死!你說你么你是孤兒啊!竜神愣了一下,忽然感覺到自己被侮辱。

接著惡狠狠道:“不過你是哪里來的小鬼頭,少管閑事!”“小心等會(huì)我連你的頭也給打爆,把你身邊那那個(gè)小姑娘都給抓起來辦了!”

評(píng)測(cè)

加點(diǎn)技巧被動(dòng)與主動(dòng)平衡,《元?dú)怛T士前傳》盜賊加技能點(diǎn)方法介紹

庫茲馬進(jìn)攻不佳三分命中率高,庫茲馬:我們對(duì)進(jìn)攻端表現(xiàn)不滿

對(duì)話AI新物種,360億上海制造業(yè)迎來高需求,DeepSeek助力

優(yōu)雅的春季穿搭顯瘦的秘密武器,春日限定:懶人褲+平底鞋,微胖女孩的穿搭小竅門

注意韓國(guó)民眾報(bào)告誤射炸彈墜入民宅,韓國(guó)空軍戰(zhàn)機(jī)在實(shí)彈演習(xí)中誤投8枚實(shí)彈,造成7人受傷。

顯示全部

熱門推薦
玩家評(píng)論
我要跟貼
取消
最新手游