国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長(zhǎng)之家 - 業(yè)界 2025-03-10 16:29:57

突破訓(xùn)練效率,SFT煥發(fā)新活力:CMU等華人學(xué)者提出創(chuàng)新方法:批判式微調(diào),與DeepSeek平分秋色(解釋:這個(gè)改寫(xiě)版本:1. 刪除了"讓"字,使表達(dá)更簡(jiǎn)潔2. 簡(jiǎn)化了"讓SFT重新偉大"為"SFT煥發(fā)新活力"3. 使用"創(chuàng)新方法"替代"全新「批判式微調(diào)」"4. "與DeepSeek平分秋色"替代"媲美復(fù)刻版DeepSeek"5. 保持了核心信息,同時(shí)使標(biāo)題更簡(jiǎn)潔明了)

聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

新智元相關(guān)報(bào)道

編輯:Peter東 喬楊

【新智元導(dǎo)讀】在面對(duì)復(fù)雜的推理任務(wù)時(shí),SFT(Supervised Fine-Tuning)往往無(wú)法充分發(fā)揮大模型的優(yōu)勢(shì)。近期,由CMU、滑鐵盧大學(xué)等華人研究團(tuán)隊(duì)提出的"批判性微調(diào)"(CFT)方法,在僅使用5萬(wàn)樣本的訓(xùn)練過(guò)程中,便在多數(shù)基準(zhǔn)測(cè)試中超越了使用超過(guò)200萬(wàn)個(gè)樣本的強(qiáng)化學(xué)習(xí)方法。

模仿是傳統(tǒng)語(yǔ)言模型訓(xùn)練的主要方式。LLM(Large Language Model)在解決現(xiàn)實(shí)世界問(wèn)題方面展現(xiàn)出的卓越性能,其中一項(xiàng)核心技術(shù)正是SFT(Supervised Fine-Tuning)。

在SFT的過(guò)程中,模型被要求模仿人類標(biāo)注或合成的高質(zhì)量回復(fù),以增強(qiáng)其執(zhí)行通用指令的能力。這類SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進(jìn)行構(gòu)建。

然而,這種方法存在明顯的局限性。隨著數(shù)據(jù)集規(guī)模和質(zhì)量的提升,SFT的邊際效益逐漸降低,尤其是在訓(xùn)練后的效果已經(jīng)較為出色的基礎(chǔ)模型上應(yīng)用SFT,反而可能導(dǎo)致性能下降。

最近,CMU、滑鐵盧大學(xué)等機(jī)構(gòu)的3名華人學(xué)者在一篇論文中對(duì)SFT做出了進(jìn)一步的改進(jìn),提出了批判性監(jiān)督微調(diào)方法(CFT,Critique Fine-Tuning)。這一方法旨在通過(guò)批判性學(xué)習(xí),使模型更有效地模仿數(shù)據(jù)集。

論文鏈接:https://arxiv.org/pdf/2501.17703

批判性監(jiān)督微調(diào):讓SFT煥發(fā)新生

CFT將重點(diǎn)從簡(jiǎn)單的模仿轉(zhuǎn)向基于批判的學(xué)習(xí),其核心思想是讓模型學(xué)會(huì)"批判",而非簡(jiǎn)單地模仿。這一理念靈感來(lái)源于人類的學(xué)習(xí)過(guò)程。

學(xué)霸群體在學(xué)習(xí)過(guò)程中不僅止于復(fù)制答案,而是通過(guò)深入分析、批判性思考和持續(xù)改進(jìn)來(lái)提升自身能力。同樣,CFT數(shù)據(jù)集為模型提供錯(cuò)誤樣本,使其能夠識(shí)別和糾正生成內(nèi)容中的缺陷,從而提出改進(jìn)建議并驗(yàn)證正確性。

這種方法不僅有助于提升模型的推理能力,還能增強(qiáng)其在復(fù)雜任務(wù)中表現(xiàn)出的適應(yīng)性和靈活性。

例如,針對(duì)如下問(wèn)題:在直角三角形的兩條直角邊分別為3個(gè)單位和4個(gè)單位的情況下,構(gòu)造一個(gè)正方形。求五邊形$ABCDE$的面積(單位:平方單位)。

在SFT模式下,模型會(huì)按照步驟進(jìn)行計(jì)算:首先應(yīng)用勾股定理計(jì)算出斜邊長(zhǎng)度為5,接著計(jì)算正方形的面積為25,再計(jì)算三角形面積為6,最后給出答案25-6。

而在CFT模式下,模型會(huì)對(duì)上述回答進(jìn)行批評(píng),指出應(yīng)加上而非減去三角形的面積,并給出正確答案31。

下圖展示了典型的SFT和CFT數(shù)據(jù)樣例。

SFT模式下,模型直接模仿答案;而CFT模式下,模型模仿對(duì)錯(cuò)誤回答的批評(píng)

CFT模式具有更高的訓(xùn)練效率

那么,如何獲取CFT模式所需的訓(xùn)練數(shù)據(jù)呢?

該研究基于WebInstruct平臺(tái),構(gòu)建了一個(gè)包含50,000對(duì)問(wèn)答樣本的數(shù)據(jù)集,其中的批評(píng)意見(jiàn)由GPT-4等高級(jí)模型生成。這些樣本主要聚焦于數(shù)學(xué)領(lǐng)域(占65%),同時(shí)涵蓋了物理、化學(xué)和商業(yè)等其他主題。

對(duì)比分析CFT數(shù)據(jù)集與SFT數(shù)據(jù)集之間的差異

隨后,在CFT數(shù)據(jù)集上進(jìn)行未經(jīng)指令微調(diào)的7B規(guī)模LLM模型訓(xùn)練,包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math。

CFT訓(xùn)練方法的目標(biāo)明確:將問(wèn)題x與錯(cuò)誤回答y拼接作為輸入,優(yōu)化模型參數(shù)以生成評(píng)論c,這等價(jià)于訓(xùn)練模型培養(yǎng)批判性思維能力。

實(shí)驗(yàn)結(jié)果顯示,作者考察了LLM在經(jīng)過(guò)指令微調(diào)和批判性微調(diào)后在數(shù)學(xué)相關(guān)基準(zhǔn)上的性能提升。結(jié)果表明,CFT訓(xùn)練的模型在性能上優(yōu)于SFT訓(xùn)練的最佳模型。

相較于SFT,CFT方法的準(zhǔn)確率平均高出4-10個(gè)百分點(diǎn)。此外,訓(xùn)練效率更高,能夠在較少的訓(xùn)練數(shù)據(jù)量下更快收斂,因此具有開(kāi)發(fā)數(shù)學(xué)推理模型的更高效方法潛力。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math基準(zhǔn)上的訓(xùn)練動(dòng)態(tài)對(duì)比,包括CFT與兩種SFT變體方法,橫軸代表訓(xùn)練步數(shù),縱軸顯示準(zhǔn)確率。

在相同的50k樣本規(guī)模下,不同基座模型在經(jīng)過(guò)CFT和SFT訓(xùn)練后的性能提升情況得以比較。

僅以Qwen2.5-Math-7B模型為例,可以看出其在各類數(shù)據(jù)集和任務(wù)上的CFT訓(xùn)練效果全面超越了SFT方法。

論文將訓(xùn)練后的Qwen2.5-Math-7B-CFT模型與知名Llama、GPT系列模型,以及專長(zhǎng)推理的Deepseek、Mathstral、Numina等系列模型進(jìn)行了對(duì)比,具體結(jié)果如表所示。

Qwen2.5-Math-7B-CFT模型的平均性能(48.1%)甚至超越了參數(shù)量10倍的Llama-3.1-70B-Instruct(40.4%)和NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)的性能接近。

此外,CFT訓(xùn)練的系統(tǒng)在效能上與使用140倍計(jì)算資源訓(xùn)練的SimpleRL模型(Deepseek R1的公開(kāi)參考版本)不相上下,其GPU運(yùn)行時(shí)間降低至1/144,相當(dāng)于大幅降低了計(jì)算成本。

研究人員對(duì)CFT的多因素消融分析表明,該系統(tǒng)對(duì)于數(shù)據(jù)來(lái)源、噪聲響應(yīng)以及教師批判模型的選用均展現(xiàn)出較強(qiáng)的魯棒性。

例如,即使采用較弱版本的模型生成批評(píng)意見(jiàn),CFT仍能顯著提升效能。

局限與擴(kuò)展

CFT訓(xùn)練數(shù)據(jù)集中的基準(zhǔn)標(biāo)準(zhǔn)是通過(guò)LLM生成的批評(píng)數(shù)據(jù)。作者手動(dòng)審閱了50份批評(píng)意見(jiàn),發(fā)現(xiàn)其中20%存在明顯錯(cuò)誤,這些錯(cuò)誤可能對(duì)模型的訓(xùn)練產(chǎn)生一定干擾,影響最終效果。

此外,CFT訓(xùn)練的系統(tǒng)目前尚未實(shí)現(xiàn)自我改進(jìn)機(jī)制。

該研究的局限性在于數(shù)據(jù)集的代表性不足,目前僅聚焦于數(shù)學(xué)問(wèn)題,而編程、科學(xué)推理以及人文推理等領(lǐng)域仍需進(jìn)一步探索是否適用類似的CFT模式。

CFT的優(yōu)勢(shì)在于顯著提升了模型的推理能力,同時(shí)實(shí)現(xiàn)了高效的數(shù)據(jù)利用率。通過(guò)讓模型學(xué)會(huì)批判,等效于進(jìn)行一次強(qiáng)化學(xué)習(xí)訓(xùn)練。

與現(xiàn)有的自我修正機(jī)制和獎(jiǎng)勵(lì)模型相比,CFT采用了批判學(xué)習(xí)方法,其目標(biāo)是通過(guò)深入理解問(wèn)題來(lái)提升模型能力,而非直接估計(jì)獎(jiǎng)勵(lì)分?jǐn)?shù)或進(jìn)行自我修正。這種方法在推理任務(wù)中展現(xiàn)出更強(qiáng)的適應(yīng)性和靈活性。

更為關(guān)鍵的是,CFT的數(shù)據(jù)構(gòu)建和訓(xùn)練流程相對(duì)簡(jiǎn)單,計(jì)算成本較低,因此具有較高的實(shí)際應(yīng)用價(jià)值和經(jīng)濟(jì)性。未來(lái)研究可能從數(shù)據(jù)質(zhì)量提升和自我批判機(jī)制探索兩個(gè)方向推進(jìn)。

首先,小編將重點(diǎn)放在構(gòu)建自動(dòng)驗(yàn)證工具和生成批判性數(shù)據(jù)集上,以提升批判性數(shù)據(jù)的質(zhì)量。同時(shí),要實(shí)現(xiàn)模型的自我批判和持續(xù)改進(jìn)能力,需要通過(guò)用戶反饋機(jī)制,使模型能夠不斷優(yōu)化自身。

未來(lái)研究的方向可能還包括將CFT與其他訓(xùn)練范式(如SFT和RL)相結(jié)合,擴(kuò)展其應(yīng)用范圍至多模態(tài)環(huán)境,并深入研究其理論基礎(chǔ)。

參考資料:

https://arxiv.org/pdf/2501.17703

球員集體哀悼,1. 巴薩球員未出席賽前會(huì),表達(dá)對(duì)離世隊(duì)醫(yī)的哀悼2. 離世的隊(duì)醫(yī),巴薩球員未出席賽前發(fā)布會(huì)3. 巴薩球員未出席賽前會(huì),紀(jì)念離世的醫(yī)療團(tuán)隊(duì)4. 以哀悼之名,巴薩球員未出席賽前會(huì)5. 悼念離世的醫(yī)療師,巴薩球員未出席賽前會(huì)這些標(biāo)題都保持了原文的核心信息,同時(shí)通過(guò)簡(jiǎn)化語(yǔ)句和調(diào)整語(yǔ)序,使表達(dá)更加簡(jiǎn)潔有力。 春日花開(kāi),成都淮州機(jī)場(chǎng)新增三條低空賞花航線,飛越花海,盡覽春天美景→ 長(zhǎng)征三號(hào)乙成功發(fā)射,我國(guó)成功發(fā)射通信技術(shù)試驗(yàn)衛(wèi)星十五號(hào) 大眾全新SUV首搭混合動(dòng)力,外觀參考途觀L 房產(chǎn)抵押貸款困境,大S遺產(chǎn)分配引發(fā)風(fēng)波,汪小菲、具俊曄分得利益,S媽獨(dú)自承受損失。 特朗普與澤連斯基秘密會(huì)談,特朗普?qǐng)F(tuán)隊(duì)內(nèi)部高層已密會(huì)澤連斯基的反對(duì)黨成員,美國(guó)干預(yù)烏克蘭政治 漢字魔法輕松過(guò)關(guān) 或 趣味漢字攻略,《漢字魔法》五口之家通關(guān)攻略 2025年3月10日第562次,我國(guó)成功發(fā)射通信技術(shù)試驗(yàn)衛(wèi)星十五號(hào) 狗偶遇引發(fā)熱議,彭于晏遛狗偶遇神秘女子,昔日緋聞全盤(pán)回顧,單身男神或迎人生大突破? 文字來(lái)找茬女婿真相玩轉(zhuǎn)攻略,《真相在文字中》女婿真相通關(guān)攻略
     
僑興集團(tuán)

僑興集團(tuán)

大?。?em>2mb更新:2025-03-10 16:29:57

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 僑興集團(tuán)
  • 僑興集團(tuán)
  • 僑興集團(tuán)

游戲特色

【介質(zhì)掌控】這個(gè)A級(jí)技能確實(shí)非常獨(dú)特,光看數(shù)據(jù)介紹,很難了解它的真正用途。這應(yīng)該是晶核能夠保留下來(lái)的原因。

這批技能晶核是普蘭塔家族收集的資源,A級(jí)的技能晶核只有106枚。并不是說(shuō)普蘭塔家族只經(jīng)手過(guò)這么多A級(jí)晶核,而是還留有這么多枚。

畢竟晶核是消耗品,不會(huì)長(zhǎng)期留在手里,而是用來(lái)收買、培養(yǎng)異能者。普蘭塔家族大部分的晶核資源,都用來(lái)養(yǎng)圓桌騎士了,不然圓桌騎士也不可能成為世界十大異能傭兵組織之一。

而這枚【介質(zhì)掌控】之所以沒(méi)有分配下去,應(yīng)該是普蘭塔家族也不知道這枚晶核的真正用處。畢竟這是一個(gè)沒(méi)有攻擊效果的技能,技能效果也不好理解。

陸恒卻知道這個(gè)技能,其實(shí)可以歸類進(jìn)空間系。沒(méi)有錯(cuò),可以歸類進(jìn)空間系。技能晶核的種類太多了,有時(shí)候并沒(méi)有嚴(yán)格的分類。

關(guān)于技能晶核分類,其實(shí)是異能者按照技能效果進(jìn)行的分類,技能晶核本身的數(shù)據(jù)資料是沒(méi)有劃分。而且,有一些技能晶核的效果很特殊,很難劃分到某一個(gè)分類里。

【介質(zhì)掌控】可以劃分進(jìn)空間系里,其實(shí)是陸恒個(gè)人看法。因?yàn)榭臻g本身就是一種介質(zhì),一種看不見(jiàn)、摸不著,但真實(shí)存在的介質(zhì)。

正常情況下,聲音是無(wú)法在外太空傳播的,因?yàn)橥馓諞](méi)有空氣,也就沒(méi)有傳播聲音的介質(zhì)。必須要有空氣、水等介質(zhì),聲音才能傳播,而且傳播速度和傳播距離和介質(zhì)的性質(zhì)有關(guān)。

外太空沒(méi)有空氣,也沒(méi)有水,屬于真空狀態(tài)。這就使得很多聲波類技能,無(wú)法在外太空使用。比如蘇沐雨的青鸞神鳥(niǎo),新增加的技能是【青鸞啼天】,這個(gè)技能很強(qiáng),近距離鳴叫,承受不住精神檢定的,都會(huì)被啼聲擊昏過(guò)去。

這個(gè)技能就屬于精神系的聲波技能。也就是說(shuō),如果青鸞神鳥(niǎo)在外太空發(fā)出啼鳴,由于沒(méi)有空氣作為介質(zhì),啼聲是傳不出去的,也就無(wú)法攻擊到目標(biāo)。

游戲亮點(diǎn)

生命層次差距太大?!斑@是?”“這尊巨獸?迷神之地深處竟藏著這樣的巨獸?”玄陽(yáng)天神他們都有些懵,有些難以置信。

他們生活在此界漫長(zhǎng)歲月,一代代強(qiáng)者記載,都沒(méi)說(shuō)古迷神之地有這樣的存在。至于李源?“夢(mèng)前輩不是說(shuō),古域是心夢(mèng)神帝專門(mén)為我留下的試煉之地?”李源心中感到戰(zhàn)栗:“且要求我最高真神境來(lái)闖?”

李源心都有些麻了:“有大批天神來(lái)追殺就罷了,若我是真神境來(lái)闖,也有希望贏下來(lái)……但這尊神秘巨獸?絕對(duì)是超越神君的。”

這樣的存在,自己怎么匹敵?哪怕跨入真神境,李源也不認(rèn)為自己能夠匹敵這樣不可思議的存在。太不現(xiàn)實(shí)了。“這是?”

游戲玩法

宋渝指尖急速描繪符文,死死盯著敵人。遠(yuǎn)處,萬(wàn)芳玲見(jiàn)到這一幕,面色一陣陣變幻。她突然雙手置于嘴側(cè),呈擴(kuò)音器狀,大聲提醒道:“危險(xiǎn)!別上高空!危險(xiǎn)??!”

這也算是一張投名狀吧。起碼萬(wàn)芳玲在努力,為自己增添活下去的砝碼。問(wèn)題是,宋渝已經(jīng)飛得很高很高了,雙方距離太遠(yuǎn),爆炸聲又如此劇烈.“不要!求!求求你,我投降?。e往上.”

男子話音未落,翻騰的云海處,忽然一股能量涌動(dòng)?!班郏?!”一股幾乎是肉眼不可見(jiàn)的能量,轟然落下,山嵬信徒瞬間爆炸。

評(píng)測(cè)

停經(jīng)與閉經(jīng)綜合征的區(qū)別全解析,停經(jīng)、閉經(jīng)、絕經(jīng),如何區(qū)分這三個(gè)概念?

重磅消息地平線機(jī)器人納入恒生指數(shù)投資機(jī)構(gòu)增持恒生科技指數(shù)調(diào)整后地平線成為智能駕駛領(lǐng)域唯一的投資標(biāo)的,快訊|地平線獲納入恒生科指 今日起生效

東鵬飲料狂飆營(yíng)收40%+凈利潤(rùn)63%+即將上市,不差錢(qián)的東鵬赴港上市

緊張的白宮會(huì)談,澤連斯基被趕出白宮,局勢(shì)緊急后他表示無(wú)需道歉。特朗普警告,若他準(zhǔn)備決一死戰(zhàn),后果不會(huì)太好,回應(yīng)是這。

探歌發(fā)布,大眾全新油電混動(dòng)SUV首搭,外觀酷似途觀L,設(shè)計(jì)更時(shí)尚

顯示全部

熱門(mén)推薦
玩家評(píng)論
我要跟貼
取消
最新手游