国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長(zhǎng)之家 - 業(yè)界 2025-03-10 20:29:04

小樣本訓(xùn)練模仿訓(xùn)練的突破,SFT煥發(fā)新生!全球華人學(xué)者提出全新"批判式微調(diào)"方法,超越DeepSeek復(fù)刻版本

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

報(bào)道來源:新智元

編輯:Peter東、喬楊

【新智元導(dǎo)讀】在處理復(fù)雜推理任務(wù)時(shí),SFT往往表現(xiàn)不佳。最近,由多所高校的華人團(tuán)隊(duì)提出的批判性微調(diào)方法(CFT)僅在50K樣本上進(jìn)行微調(diào),便在多數(shù)基準(zhǔn)測(cè)試中超越了使用超過200萬個(gè)樣本的強(qiáng)化學(xué)習(xí)方法。

模仿是傳統(tǒng)語言模型進(jìn)行訓(xùn)練的主要方式。LLM在解決現(xiàn)實(shí)世界問題方面表現(xiàn)出的優(yōu)異性能,其中一項(xiàng)核心技術(shù)是監(jiān)督微調(diào)(SFT)。

在SFT的過程中,模型被要求模仿人類標(biāo)注或合成的高質(zhì)量回復(fù),以增強(qiáng)其對(duì)通用指令的遵循能力。這類SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進(jìn)行構(gòu)建。

然而,這種方法存在明顯的局限性。當(dāng)數(shù)據(jù)集規(guī)模和質(zhì)量進(jìn)一步提升時(shí),SFT的邊際效益可能會(huì)下降,尤其是在基礎(chǔ)模型已經(jīng)表現(xiàn)出較強(qiáng)性能的情況下,使用SFT可能反而會(huì)導(dǎo)致性能下降。

最近,由多所高校的華人學(xué)者共同提出的批判式監(jiān)督微調(diào)方法(CFT)旨在提升模型的模仿能力。

論文鏈接:https://arxiv.org/pdf/2501.17703

批判式監(jiān)督微調(diào):讓SFT重新偉大

CFT將重點(diǎn)從簡(jiǎn)單模仿轉(zhuǎn)向基于批判的學(xué)習(xí),其核心思想是讓模型學(xué)會(huì)批判性思維,而非簡(jiǎn)單模仿,這一方法 borrow from human learning processes.

學(xué)霸在學(xué)習(xí)過程中不只是模仿答案,而是進(jìn)行分析、批判和自我改進(jìn)。在CFT數(shù)據(jù)集中,模型為錯(cuò)誤的模型響應(yīng)提供了相應(yīng)的批評(píng),幫助LLM識(shí)別其缺陷并提出改進(jìn)建議,從而驗(yàn)證其正確性。

這種方法不僅能夠提升模型的推理能力,還能增強(qiáng)其在復(fù)雜任務(wù)中的適應(yīng)性和靈活性。

比如,針對(duì)如下問題:在直角三角形中,兩條直角邊的長(zhǎng)度分別為3個(gè)單位和4個(gè)單位,構(gòu)造一個(gè)正方形。求五邊形$ABCDE$的面積(單位:平方單位)。

在SFT模式下,模型會(huì)逐步進(jìn)行計(jì)算,首先應(yīng)用勾股定理得出斜邊長(zhǎng)度為5,隨后計(jì)算正方形面積為25,三角形面積為6,最終模型給出答案25減去6。

在CFT模式下,模型會(huì)對(duì)上述回答進(jìn)行批評(píng),指出錯(cuò)誤在于應(yīng)加而非減三角形面積,并提供正確答案31。

下圖展示了SFT和CFT兩種模式的數(shù)據(jù)樣本。

SFT模式讓大模型直接模仿答案,而CFT模式讓大模型模仿對(duì)錯(cuò)誤回答的批評(píng)。

CFT模式具有更高的訓(xùn)練效率。

那么,如何獲取CFT訓(xùn)練所需的數(shù)據(jù)呢?

該研究基于WebInstruct構(gòu)建了一個(gè)包含50,000個(gè)帶有批評(píng)意見的問答對(duì)的數(shù)據(jù)集,其中的批評(píng)意見由GPT-4等高級(jí)模型生成,上述數(shù)學(xué)問題便是其中一例。

分析CFT數(shù)據(jù)集與其他SFT數(shù)據(jù)集的異同

在CFT數(shù)據(jù)集上,采用7B規(guī)模、未經(jīng)指令微調(diào)的LLM進(jìn)行訓(xùn)練,包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math等模型。

CFT方法的訓(xùn)練目標(biāo)非常明確:將問題x和錯(cuò)誤回答y進(jìn)行拼接作為輸入,優(yōu)化模型參數(shù)以生成評(píng)論c,這相當(dāng)于訓(xùn)練模型具備批判性思維能力。

實(shí)驗(yàn)中,作者對(duì)比了LLM在經(jīng)過指令微調(diào)與批判性微調(diào)后,在數(shù)學(xué)相關(guān)基準(zhǔn)上的性能提升。結(jié)果顯示,CFT訓(xùn)練的模型在性能上持續(xù)優(yōu)于SFT訓(xùn)練的最佳模型。

相比SFT,CFT的準(zhǔn)確率平均高出4-10個(gè)百分點(diǎn)。此外,訓(xùn)練效率更高,能夠在較少的訓(xùn)練數(shù)據(jù)量上實(shí)現(xiàn)更快的收斂,因此CFT方法有望成為開發(fā)數(shù)學(xué)推理模型的一種更有效方法。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math任務(wù)上不同方法的訓(xùn)練動(dòng)態(tài)對(duì)比,橫軸為訓(xùn)練步數(shù),縱軸為模型準(zhǔn)確率。

在同樣規(guī)模的50k樣本數(shù)據(jù)集上,不同基座模型在使用CFT與SFT訓(xùn)練后的性能提升情況值得觀察。

如果僅關(guān)注Qwen2.5-Math-7B這一模型,可以看出,CFT的訓(xùn)練效果在各類數(shù)據(jù)集和任務(wù)上都能全面超越SFT。

論文對(duì)比了訓(xùn)練后的Qwen2.5-Math-7B-CFT與知名模型,包括Llama、GPT系列,以及Deepseek、Mathstral、Numina等系列模型,并通過表格展示了具體對(duì)比結(jié)果。

Qwen2.5-Math-7B-CFT的平均性能(48.1%)優(yōu)于參數(shù)量10倍的Llama-3.1-70B-Instruct(40.4%)和NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)相當(dāng)。

此外,基于CFT訓(xùn)練的模型在性能上與采用140倍計(jì)算資源訓(xùn)練的Deepseek R1開源版本(SimpleRL模型的復(fù)制版)相比,具有不相上下之處。值得注意的是,CFT模型的GPU運(yùn)行時(shí)縮短至1/144,這相當(dāng)于大幅降低了計(jì)算成本。

研究人員對(duì)CFT的多個(gè)關(guān)鍵因素進(jìn)行了系統(tǒng)性消融研究。結(jié)果表明,CFT模型在數(shù)據(jù)來源的魯棒性、噪聲響應(yīng)的抗干擾能力以及教師批判模型選擇的穩(wěn)定性等方面表現(xiàn)出較強(qiáng)的能力。

舉例來說,即使使用較弱的GPT-4o-mini生成器輸出批評(píng)意見,CFT模型仍然能夠顯著提升性能。

局限性與擴(kuò)展方向

在CFT訓(xùn)練數(shù)據(jù)集中,作為基準(zhǔn)的批評(píng)數(shù)據(jù)全部由LLM生成。經(jīng)過作者的手動(dòng)檢查,發(fā)現(xiàn)其中有20%的批評(píng)意見本身就存在明顯的錯(cuò)誤。這些錯(cuò)誤可能會(huì)對(duì)模型的訓(xùn)練效果造成一定干擾,從而影響其最終性能。

此外,CFT訓(xùn)練的模型目前尚未實(shí)現(xiàn)自我批評(píng)機(jī)制,因此尚未觀察到自我改進(jìn)的效果。

該研究的數(shù)據(jù)集在代表性方面仍存在不足,目前主要集中在數(shù)學(xué)問題領(lǐng)域,而在編程、科學(xué)推理以及人文相關(guān)推理問題等方面,CFT模式的適用性仍需進(jìn)一步驗(yàn)證。

CFT的主要優(yōu)勢(shì)在于顯著提升模型的推理能力以及優(yōu)化數(shù)據(jù)使用效率。通過模型學(xué)會(huì)批判性思維,相當(dāng)于讓大模型完成一次強(qiáng)化學(xué)習(xí)訓(xùn)練。

相比于現(xiàn)有的自我修正(Self-Correction)、獎(jiǎng)勵(lì)模型(Reward Models)等方法,CFT的目標(biāo)是通過批判學(xué)習(xí)提升模型對(duì)問題的深入理解,而不是直接估計(jì)獎(jiǎng)勵(lì)分?jǐn)?shù)或進(jìn)行自我修正。這種方法在推理任務(wù)中展現(xiàn)出更強(qiáng)的適應(yīng)性和靈活性。

最為關(guān)鍵的是,CFT的數(shù)據(jù)構(gòu)建和訓(xùn)練流程相對(duì)簡(jiǎn)單,計(jì)算成本較低,因此在實(shí)際應(yīng)用中具有較高的可行性和經(jīng)濟(jì)性。未來研究將重點(diǎn)突破批判數(shù)據(jù)質(zhì)量的提升和模型自我批判機(jī)制的實(shí)現(xiàn)。

首先是構(gòu)建自動(dòng)驗(yàn)證工具或開發(fā)人類驗(yàn)證機(jī)制,以優(yōu)化批判數(shù)據(jù)的質(zhì)量;同時(shí),要使大模型具備自我批判與自我改進(jìn)的能力,需使其通過用戶反饋實(shí)現(xiàn)持續(xù)優(yōu)化。

進(jìn)一步的研究也可能探討將CFT與SFT、RL等其他訓(xùn)練范式結(jié)合,應(yīng)用于多模態(tài)場(chǎng)景,并深入研究其理論基礎(chǔ)。

參考資料:

https://arxiv.org/pdf/2501.17703

解讀2月CPI同比0.7%數(shù)據(jù)影響,2月CPI數(shù)據(jù)分析:假期錯(cuò)位影響通脹疲軟,數(shù)據(jù)磨底需政策支持 玄機(jī)百里玄策全網(wǎng)首發(fā),《王者榮耀》11月23日每日一題答案分享 問界M8實(shí)拍圖發(fā)布,問界M8 4月上市 售價(jià)36.8萬起 揭秘睡眠呼吸暫停綜合征與肥胖的關(guān)聯(lián),打呼嚕與肥胖的關(guān)系是什么?專家解讀 緊急,美國(guó)達(dá)美航空一架航班因?yàn)榭臻g內(nèi)檢測(cè)到"煙霧味" 而不得不緊急返航這個(gè)改寫版本:1. 去掉了重復(fù)的引號(hào),使用更簡(jiǎn)潔的表達(dá)方式2. 使用"因?yàn)榭臻g內(nèi)"替代"因機(jī)艙內(nèi)檢測(cè)到",更符合新聞?dòng)谜Z習(xí)慣3. 同義詞替換:"煙霧異味"改為"煙霧味",更簡(jiǎn)潔有力4. 整體語序調(diào)整,使句子更流暢自然5. 保持了所有關(guān)鍵信息:航空公司、事件原因、航班狀態(tài)6. 采用了更正式的表達(dá)方式,符合新聞標(biāo)題的規(guī)范這個(gè)改寫版本適合用于航空新聞報(bào)道,既保持了原意,又更加簡(jiǎn)潔明了。 聚變堆重大進(jìn)展,中國(guó)新一代"人造太陽"關(guān)鍵系統(tǒng)驗(yàn)收成功 睡眠健康改善秘籍,健康課:失眠怎么辦?不用吃藥的小竅門! 成長(zhǎng)經(jīng)歷從青少年到職業(yè)球員,邦多:偶像亞亞-圖雷,意甲次于英超的世界第二聯(lián)賽 波音KC-46A空加油機(jī)檢查,波音KC-46A加油機(jī)發(fā)現(xiàn)關(guān)鍵部位裂縫,美空軍展開全面檢查 電場(chǎng),《無期迷途》唐技能介紹一覽
     
顧清波

顧清波

大小:47mb更新:2025-03-10 20:29:04

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 顧清波
  • 顧清波
  • 顧清波

游戲特色

游輪自從中心城出發(fā)之后,每一站都會(huì)到港口停靠,上下乘客,顯得與普通游輪沒有什么兩樣。船上服務(wù)員也只知道這次可能有較為重要的客人,其他信息就不知道了。

自從外洋已被兩大國(guó)家企業(yè)控制后,便就大力打擊海上一些聯(lián)邦支持的海盜組織及外洋地方勢(shì)力,目前成效顯著,主要航道上面現(xiàn)在已經(jīng)較為安全了,所以哪怕停留的地方比較多,也在十二月十四日達(dá)到了安英群島,也即海東道中心城所在。

關(guān)于中心城選址其實(shí)是有過爭(zhēng)議,最后還是決定立在了這里。因?yàn)榘灿⑷簫u有一處現(xiàn)成的軍港,島上還有著大量的人口,既是旅游勝地,又有著一定的工業(yè)基礎(chǔ)設(shè)施,是建立中心城絕好地點(diǎn)。

并且這里距離二文島浪濤館不到半天的路程,已經(jīng)接受了大順招攬的風(fēng)鶴守就在一邊,安全上能有絕對(duì)的保證。而大順本土到這里乘坐飛艇最多兩三天,從陸地投放力量到此相對(duì)容易,也不至于太過刺激利納克斯聯(lián)邦。

陳傳到此之后沒有下船,而是站在游輪的最高甲板上遠(yuǎn)眺了下這個(gè)正在新建中的中心城。與半年前他到這里相比較,這里已經(jīng)矗立起了很多棟高樓,有的還在建設(shè)之中,其中就有融合邊界的分部公司大廈。

因?yàn)樯洗纬缘搅瞬簧倌μ燧喒緲I(yè)務(wù),并且有鑒于與陳傳一些牽連關(guān)系,所以融合邊界公司也爭(zhēng)取得到了一批訂單,還被允許成為第一批進(jìn)駐海東道的企業(yè),為此孟姝還特地打電話感謝過他。

這里如果能建設(shè)好,以此為中心絕對(duì)可以建立起一個(gè)強(qiáng)大的輻射帶,將外洋上大部分的島嶼包括進(jìn)來,而以外洋上如今的人口和資源,供應(yīng)兩位格斗家那是沒有問題的。

而就在他向島內(nèi)觀望的時(shí)候,兩個(gè)從中心城到來的年輕人來到了中心城的臨時(shí)信號(hào)管理處,并向這里遞交一封批準(zhǔn)文書。

因?yàn)楸驹碌亩?,正好是某位老先生的八十歲大壽,這個(gè)日子正好是在兩地場(chǎng)域信號(hào)連通之后的第一天。所以有幾個(gè)有想法的后輩都派了人過來,準(zhǔn)備屆時(shí)利用這兩地的場(chǎng)域進(jìn)行遠(yuǎn)程祝壽。

這絕對(duì)是非常有意義和有面子的事,因?yàn)檫@項(xiàng)業(yè)務(wù)只是在連通之后的試開放,有資格申請(qǐng)只是先決條件,還必須經(jīng)過政務(wù)廳審批,他們就屬于特批人選之一了。

游戲亮點(diǎn)

“三哥,小聲點(diǎn)?!睏铊B忙伸手捂住雙耳,只覺耳畔嗡嗡作響,余音不絕?!澳愀艺f那是呂布?!”張飛朝屋內(nèi)瞥了一眼,魁梧的身軀不由自主地微微后縮,嗓音也隨之壓低了幾分,臉上依舊掛滿了難以置信的神色。

若換作旁人對(duì)他言及此事,說那位笑容滿面,與他們親切打招呼的青年,竟是那位曾屠戮百萬生靈,連眼皮都不曾眨一下的呂布?

這變化也太大了吧?他腦海中不斷浮現(xiàn)出那雙令人膽寒的冰冷眼眸,以及那個(gè)無情地?fù)]舞著方天畫戟的少年身影。每當(dāng)夜深人靜之時(shí),這些畫面便成了他夢(mèng)魘的源泉,而最終定格的,卻是剛剛那抹溫暖人心的笑容。

他無法分辨,哪一個(gè)是真正的呂布。劉備、趙云、關(guān)羽瞳孔震動(dòng),望向楊瑾。他們也分不清。只有華雄臉上沒有大驚小怪,不處于戰(zhàn)斗中的呂布,放在人群之中,就是個(gè)平平無奇的普通人。

游戲玩法

他畢竟只是少年,沒有經(jīng)歷過這種場(chǎng)面?!白?!”綱手雷厲風(fēng)行說道。她要是想跑,可以讓蛞蝓使用逆通靈之術(shù)。

但在半藏的毒氣之下,曉組織估計(jì)會(huì)全軍覆沒。她自然不愿意看到這種情況。再說,他們又不是沒有勝算,所以她的想法很干脆,打就完事兒!

眾人剛到曉組織基地的門口,就感覺到了地面的顫動(dòng)。他們下意識(shí)看向了遠(yuǎn)處。一只巨大的山椒魚映入了他們的眼簾。

評(píng)測(cè)

溫暖舒適,早春時(shí)節(jié),基礎(chǔ)色系讓你的日常穿搭既高級(jí)又顯年輕!值得參考的高級(jí)穿搭技巧

火星新發(fā)現(xiàn)古海洋直接證據(jù),祝融號(hào)探測(cè)器在火星中低緯度發(fā)現(xiàn)古代海洋跡象

鈴鐺商人小技巧三種寵物蛋獲取方法,《元?dú)怛T士前傳》寵物蛋獲得方法介紹

融合投影,透明底盤真的看不見車底嗎?

警惕美國(guó)施壓,英媒報(bào)道:美國(guó)可能對(duì)中國(guó)相關(guān)船舶征收港口費(fèi)并施壓盟友效仿,中方已表明立場(chǎng)

顯示全部

熱門推薦
玩家評(píng)論
我要跟貼
取消
最新手游