国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長之家 - 業(yè)界 2025-03-10 15:44:32

小樣本訓練模仿訓練的突破,SFT煥發(fā)新生!全球華人學者提出全新"批判式微調(diào)"方法,超越DeepSeek復刻版本

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

報道來源:新智元

編輯:Peter東、喬楊

【新智元導讀】在處理復雜推理任務(wù)時,SFT往往表現(xiàn)不佳。最近,由多所高校的華人團隊提出的批判性微調(diào)方法(CFT)僅在50K樣本上進行微調(diào),便在多數(shù)基準測試中超越了使用超過200萬個樣本的強化學習方法。

模仿是傳統(tǒng)語言模型進行訓練的主要方式。LLM在解決現(xiàn)實世界問題方面表現(xiàn)出的優(yōu)異性能,其中一項核心技術(shù)是監(jiān)督微調(diào)(SFT)。

在SFT的過程中,模型被要求模仿人類標注或合成的高質(zhì)量回復,以增強其對通用指令的遵循能力。這類SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進行構(gòu)建。

然而,這種方法存在明顯的局限性。當數(shù)據(jù)集規(guī)模和質(zhì)量進一步提升時,SFT的邊際效益可能會下降,尤其是在基礎(chǔ)模型已經(jīng)表現(xiàn)出較強性能的情況下,使用SFT可能反而會導致性能下降。

最近,由多所高校的華人學者共同提出的批判式監(jiān)督微調(diào)方法(CFT)旨在提升模型的模仿能力。

論文鏈接:https://arxiv.org/pdf/2501.17703

批判式監(jiān)督微調(diào):讓SFT重新偉大

CFT將重點從簡單模仿轉(zhuǎn)向基于批判的學習,其核心思想是讓模型學會批判性思維,而非簡單模仿,這一方法 borrow from human learning processes.

學霸在學習過程中不只是模仿答案,而是進行分析、批判和自我改進。在CFT數(shù)據(jù)集中,模型為錯誤的模型響應(yīng)提供了相應(yīng)的批評,幫助LLM識別其缺陷并提出改進建議,從而驗證其正確性。

這種方法不僅能夠提升模型的推理能力,還能增強其在復雜任務(wù)中的適應(yīng)性和靈活性。

比如,針對如下問題:在直角三角形中,兩條直角邊的長度分別為3個單位和4個單位,構(gòu)造一個正方形。求五邊形$ABCDE$的面積(單位:平方單位)。

在SFT模式下,模型會逐步進行計算,首先應(yīng)用勾股定理得出斜邊長度為5,隨后計算正方形面積為25,三角形面積為6,最終模型給出答案25減去6。

在CFT模式下,模型會對上述回答進行批評,指出錯誤在于應(yīng)加而非減三角形面積,并提供正確答案31。

下圖展示了SFT和CFT兩種模式的數(shù)據(jù)樣本。

SFT模式讓大模型直接模仿答案,而CFT模式讓大模型模仿對錯誤回答的批評。

CFT模式具有更高的訓練效率。

那么,如何獲取CFT訓練所需的數(shù)據(jù)呢?

該研究基于WebInstruct構(gòu)建了一個包含50,000個帶有批評意見的問答對的數(shù)據(jù)集,其中的批評意見由GPT-4等高級模型生成,上述數(shù)學問題便是其中一例。

分析CFT數(shù)據(jù)集與其他SFT數(shù)據(jù)集的異同

在CFT數(shù)據(jù)集上,采用7B規(guī)模、未經(jīng)指令微調(diào)的LLM進行訓練,包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math等模型。

CFT方法的訓練目標非常明確:將問題x和錯誤回答y進行拼接作為輸入,優(yōu)化模型參數(shù)以生成評論c,這相當于訓練模型具備批判性思維能力。

實驗中,作者對比了LLM在經(jīng)過指令微調(diào)與批判性微調(diào)后,在數(shù)學相關(guān)基準上的性能提升。結(jié)果顯示,CFT訓練的模型在性能上持續(xù)優(yōu)于SFT訓練的最佳模型。

相比SFT,CFT的準確率平均高出4-10個百分點。此外,訓練效率更高,能夠在較少的訓練數(shù)據(jù)量上實現(xiàn)更快的收斂,因此CFT方法有望成為開發(fā)數(shù)學推理模型的一種更有效方法。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math任務(wù)上不同方法的訓練動態(tài)對比,橫軸為訓練步數(shù),縱軸為模型準確率。

在同樣規(guī)模的50k樣本數(shù)據(jù)集上,不同基座模型在使用CFT與SFT訓練后的性能提升情況值得觀察。

如果僅關(guān)注Qwen2.5-Math-7B這一模型,可以看出,CFT的訓練效果在各類數(shù)據(jù)集和任務(wù)上都能全面超越SFT。

論文對比了訓練后的Qwen2.5-Math-7B-CFT與知名模型,包括Llama、GPT系列,以及Deepseek、Mathstral、Numina等系列模型,并通過表格展示了具體對比結(jié)果。

Qwen2.5-Math-7B-CFT的平均性能(48.1%)優(yōu)于參數(shù)量10倍的Llama-3.1-70B-Instruct(40.4%)和NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)相當。

此外,基于CFT訓練的模型在性能上與采用140倍計算資源訓練的Deepseek R1開源版本(SimpleRL模型的復制版)相比,具有不相上下之處。值得注意的是,CFT模型的GPU運行時縮短至1/144,這相當于大幅降低了計算成本。

研究人員對CFT的多個關(guān)鍵因素進行了系統(tǒng)性消融研究。結(jié)果表明,CFT模型在數(shù)據(jù)來源的魯棒性、噪聲響應(yīng)的抗干擾能力以及教師批判模型選擇的穩(wěn)定性等方面表現(xiàn)出較強的能力。

舉例來說,即使使用較弱的GPT-4o-mini生成器輸出批評意見,CFT模型仍然能夠顯著提升性能。

局限性與擴展方向

在CFT訓練數(shù)據(jù)集中,作為基準的批評數(shù)據(jù)全部由LLM生成。經(jīng)過作者的手動檢查,發(fā)現(xiàn)其中有20%的批評意見本身就存在明顯的錯誤。這些錯誤可能會對模型的訓練效果造成一定干擾,從而影響其最終性能。

此外,CFT訓練的模型目前尚未實現(xiàn)自我批評機制,因此尚未觀察到自我改進的效果。

該研究的數(shù)據(jù)集在代表性方面仍存在不足,目前主要集中在數(shù)學問題領(lǐng)域,而在編程、科學推理以及人文相關(guān)推理問題等方面,CFT模式的適用性仍需進一步驗證。

CFT的主要優(yōu)勢在于顯著提升模型的推理能力以及優(yōu)化數(shù)據(jù)使用效率。通過模型學會批判性思維,相當于讓大模型完成一次強化學習訓練。

相比于現(xiàn)有的自我修正(Self-Correction)、獎勵模型(Reward Models)等方法,CFT的目標是通過批判學習提升模型對問題的深入理解,而不是直接估計獎勵分數(shù)或進行自我修正。這種方法在推理任務(wù)中展現(xiàn)出更強的適應(yīng)性和靈活性。

最為關(guān)鍵的是,CFT的數(shù)據(jù)構(gòu)建和訓練流程相對簡單,計算成本較低,因此在實際應(yīng)用中具有較高的可行性和經(jīng)濟性。未來研究將重點突破批判數(shù)據(jù)質(zhì)量的提升和模型自我批判機制的實現(xiàn)。

首先是構(gòu)建自動驗證工具或開發(fā)人類驗證機制,以優(yōu)化批判數(shù)據(jù)的質(zhì)量;同時,要使大模型具備自我批判與自我改進的能力,需使其通過用戶反饋實現(xiàn)持續(xù)優(yōu)化。

進一步的研究也可能探討將CFT與SFT、RL等其他訓練范式結(jié)合,應(yīng)用于多模態(tài)場景,并深入研究其理論基礎(chǔ)。

參考資料:

https://arxiv.org/pdf/2501.17703

“澤連斯基衣著引發(fā)白宮死亡威脅事件”,白宮:美記者稱澤連斯基著裝引死亡威脅 春日的溫柔,今年春天最好看的4雙鞋,配裙子絕美 兩會聚焦AI,"兩會"關(guān)注生成式人工智能"小快靈"立法說明:1. 原標題較長,信息點分散2. "兩會議政錄"簡化為"兩會",更簡潔明了3. "小快靈"作為形容詞組直接使用,保留原意4. 調(diào)整語序,使標題更加流暢自然5. 同義詞替換,如"推進建議"改為"關(guān)注",更符合中文表達習慣6. 保持了"兩會"這一核心信息,同時突出了會議主題7. 整體長度大幅縮短,但信息量和表達力度保持不變8. 符合新聞報道標題的常見表達方式 萬斯??怂剐侣劷?jīng)濟利益談判,萬斯表示烏克蘭的安全保障讓美國人受益 Zen 6 推出,AMD或即將為下一代CPU配備 Zen 6 核心,每個核心配備 48MB L3 緩存 尹錫悅被釋放韓國法院裁定,韓國法院批準釋放尹錫悅 專業(yè)照護,24小時全程照護!上海三級醫(yī)院試點免陪護病房 ?;饏f(xié)議引發(fā)爭議,持續(xù)向烏克蘭提供軍事支持,歐洲試圖掌握和談主動權(quán),遭美俄強烈批評。 領(lǐng)取,《創(chuàng)造與魔法》兌換碼:11月24日分享2023 2023年11月24日-11月30日,《咸魚之王》時代網(wǎng)吧玩法介紹一覽
     
馬鞭草什么味道

馬鞭草什么味道

大小:61mb更新:2025-03-10 15:44:32

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 馬鞭草什么味道
  • 馬鞭草什么味道
  • 馬鞭草什么味道

游戲特色

在他看來,葉家的寶物至少有很大一部分在凌云峰。這一部分,在他看來就收益無窮,他動手的時機,選擇的是藥王谷突破開始的時機,那個時候,藥王谷的元嬰根本回不來。

“那你就有所不知,這葉家有兩條蛟龍,葉景誠去了藥王谷,至少會留一條,這一條,就不是你能對付的了,更別說遲則生變,還可能有太行山脈的幽冥妖皇和天青妖皇,那兩位,可同樣棘手啊。”天毒真君也再次開口。

意思同樣明顯,他天毒真君為的就是葉家的兩條蛟龍。在他看來,葉景誠去了藥王谷,凌云峰至少會留一條五階蛟龍。

殺了那五階蛟龍是可能讓他的土蛟突破五階后期。那時候,他元嬰后期,加上土蛟妖皇,尋常元嬰后期他都能殺,獸靈宗自然水漲船高,未來獲得一絲化神契機都很有可能。

“放心,若是上面沒有蛟龍,我也不需要其他寶物,葉家的傳承分我一份即可?!笨吹角嗪诱婢€在遲疑,天毒真君便只得補充道。

這次向蓬萊請纓,其實只有青河真君是被準許的,故而他也其實有些怕青河真君同赤血真君和圣云真君去講?!班培?,天毒道友也不要覺得在下斤斤計較,實在是葉家的不少寶物,都是奪得我青河宗的,若不是如此,我青河宗不是什么魔宗,何須拿葉家的紫府金丹出氣?!鼻嗪诱婢颤c點頭。

兩人確定好,靈舟也繼續(xù)朝著靈山而去。只是兩人這一刻,卻略微感覺有些不妙起來?!斑@神識怎么只是紫府神識,而且都是一個神識。”等觀察了一會,青河真君皺起眉頭。

他突然感覺有些異常起來。葉家在他們印象之中是謹小慎微的家族,怎么可能只是一個紫府在查探,這個時候應(yīng)該有金丹修士查探才對。

“不用隱藏了,直接破陣!”旁邊天毒真君也開口。頓時兩人修為不再隱藏,朝著靈山飛去,青河真君更是隨手一擊,一道天河河水,化為水龍滾滾轟去。

轟!陣法瞬間破碎。顯現(xiàn)出凌云峰的一切。亭臺樓宇山谷靈藥園,一切如常,只是修士卻沒有幾個。靈山上,遍地都是穿著隔靈袍面容和修士相像的靈傀,在山谷之上,還有傳送陣剛剛傳送過的痕跡。

游戲亮點

“沒那么簡單……”黑胡子神情凝重,“老實說他的雷神果實雖然麻煩,但如果不是顧及到你們幾個,我還是有把握跟他作戰(zhàn)的?!?/p>

他并不是在吹大氣在手下面前維持自己的面子,而是因為他感覺陸離當時明顯使用了某種爆發(fā)性招式,可能是幻獸種的能力,盡管綜合實力又有提升,但黑胡子覺得他的基礎(chǔ)還是能跟陸離碰一碰的。

拼果實能力和霸氣,他覺得自己不會虛,唯一有點麻煩的就是他沒搞懂陸離當時是如何瞬移的。并且他可以不怕雷神果實,他的手下卻不行,要一邊保護手下一邊戰(zhàn)斗,他肯定沒得打,所以直接撤退了。

“真正麻煩的不是他的個人戰(zhàn)斗力,而是他的身份啊……”黑胡子解釋道,“你們原先不在新世界或許不清楚,百獸凱多可是十分依仗陸離的,若是陸離還活著的消息傳出去,頂上戰(zhàn)爭可能會出現(xiàn)變故。”

游戲玩法

僅剩的那些強大的傳奇罪犯們也都是忌憚的看著陸離,強大極速的雷霆天威,無匹的肉身力量,高端的三色霸氣,當這些特征齊聚在一個人身上時……幾乎無解。

面對雷電的力量,即便在場的高手都有著不俗的武裝色霸氣,也不敢說能抵抗,天然的在遠程戰(zhàn)斗方面就被完全壓制了。

可若是突進打近身戰(zhàn),雨之希留和格斗冠軍巴杰斯的下場,已經(jīng)給他們說明了是不可行的。何況陸離在剛剛的牛刀小試中,根本沒有使用雷神果實的力量,誰也不敢想陸離一邊用體術(shù)和三色霸氣戰(zhàn)斗的同時,再用上雷電會有多么恐怖。

評測

法律與政策的交鋒,全國人大代表付子堂:建議盡快制定《自動駕駛汽車法》

裁判判罰不當言論停賽,裁判報告:安赫爾-科雷亞得牌時當眾斥責裁判

火箭失聯(lián),美“星艦”進行第八次試飛,第二級飛船失聯(lián)

海外媒體全新一代T-ROC探歌上市,大眾全新SUV發(fā)布,首次采用油混動力,外觀參考途觀L

外交智囊連續(xù)五天勸說成功,美媒:澤連斯基向特朗普提供和解建議

顯示全部

熱門推薦
玩家評論
我要跟貼
取消
最新手游