国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長(zhǎng)之家 - 業(yè)界 2025-03-10 15:27:38

突破訓(xùn)練效率,SFT煥發(fā)新活力:CMU等華人學(xué)者提出創(chuàng)新方法:批判式微調(diào),與DeepSeek平分秋色(解釋?zhuān)哼@個(gè)改寫(xiě)版本:1. 刪除了"讓"字,使表達(dá)更簡(jiǎn)潔2. 簡(jiǎn)化了"讓SFT重新偉大"為"SFT煥發(fā)新活力"3. 使用"創(chuàng)新方法"替代"全新「批判式微調(diào)」"4. "與DeepSeek平分秋色"替代"媲美復(fù)刻版DeepSeek"5. 保持了核心信息,同時(shí)使標(biāo)題更簡(jiǎn)潔明了)

聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

新智元相關(guān)報(bào)道

編輯:Peter東 喬楊

【新智元導(dǎo)讀】在面對(duì)復(fù)雜的推理任務(wù)時(shí),SFT(Supervised Fine-Tuning)往往無(wú)法充分發(fā)揮大模型的優(yōu)勢(shì)。近期,由CMU、滑鐵盧大學(xué)等華人研究團(tuán)隊(duì)提出的"批判性微調(diào)"(CFT)方法,在僅使用5萬(wàn)樣本的訓(xùn)練過(guò)程中,便在多數(shù)基準(zhǔn)測(cè)試中超越了使用超過(guò)200萬(wàn)個(gè)樣本的強(qiáng)化學(xué)習(xí)方法。

模仿是傳統(tǒng)語(yǔ)言模型訓(xùn)練的主要方式。LLM(Large Language Model)在解決現(xiàn)實(shí)世界問(wèn)題方面展現(xiàn)出的卓越性能,其中一項(xiàng)核心技術(shù)正是SFT(Supervised Fine-Tuning)。

在SFT的過(guò)程中,模型被要求模仿人類(lèi)標(biāo)注或合成的高質(zhì)量回復(fù),以增強(qiáng)其執(zhí)行通用指令的能力。這類(lèi)SFT數(shù)據(jù)集通常采用Self-Instruct和Evol-Instruct等方法進(jìn)行構(gòu)建。

然而,這種方法存在明顯的局限性。隨著數(shù)據(jù)集規(guī)模和質(zhì)量的提升,SFT的邊際效益逐漸降低,尤其是在訓(xùn)練后的效果已經(jīng)較為出色的基礎(chǔ)模型上應(yīng)用SFT,反而可能導(dǎo)致性能下降。

最近,CMU、滑鐵盧大學(xué)等機(jī)構(gòu)的3名華人學(xué)者在一篇論文中對(duì)SFT做出了進(jìn)一步的改進(jìn),提出了批判性監(jiān)督微調(diào)方法(CFT,Critique Fine-Tuning)。這一方法旨在通過(guò)批判性學(xué)習(xí),使模型更有效地模仿數(shù)據(jù)集。

論文鏈接:https://arxiv.org/pdf/2501.17703

批判性監(jiān)督微調(diào):讓SFT煥發(fā)新生

CFT將重點(diǎn)從簡(jiǎn)單的模仿轉(zhuǎn)向基于批判的學(xué)習(xí),其核心思想是讓模型學(xué)會(huì)"批判",而非簡(jiǎn)單地模仿。這一理念靈感來(lái)源于人類(lèi)的學(xué)習(xí)過(guò)程。

學(xué)霸群體在學(xué)習(xí)過(guò)程中不僅止于復(fù)制答案,而是通過(guò)深入分析、批判性思考和持續(xù)改進(jìn)來(lái)提升自身能力。同樣,CFT數(shù)據(jù)集為模型提供錯(cuò)誤樣本,使其能夠識(shí)別和糾正生成內(nèi)容中的缺陷,從而提出改進(jìn)建議并驗(yàn)證正確性。

這種方法不僅有助于提升模型的推理能力,還能增強(qiáng)其在復(fù)雜任務(wù)中表現(xiàn)出的適應(yīng)性和靈活性。

例如,針對(duì)如下問(wèn)題:在直角三角形的兩條直角邊分別為3個(gè)單位和4個(gè)單位的情況下,構(gòu)造一個(gè)正方形。求五邊形$ABCDE$的面積(單位:平方單位)。

在SFT模式下,模型會(huì)按照步驟進(jìn)行計(jì)算:首先應(yīng)用勾股定理計(jì)算出斜邊長(zhǎng)度為5,接著計(jì)算正方形的面積為25,再計(jì)算三角形面積為6,最后給出答案25-6。

而在CFT模式下,模型會(huì)對(duì)上述回答進(jìn)行批評(píng),指出應(yīng)加上而非減去三角形的面積,并給出正確答案31。

下圖展示了典型的SFT和CFT數(shù)據(jù)樣例。

SFT模式下,模型直接模仿答案;而CFT模式下,模型模仿對(duì)錯(cuò)誤回答的批評(píng)

CFT模式具有更高的訓(xùn)練效率

那么,如何獲取CFT模式所需的訓(xùn)練數(shù)據(jù)呢?

該研究基于WebInstruct平臺(tái),構(gòu)建了一個(gè)包含50,000對(duì)問(wèn)答樣本的數(shù)據(jù)集,其中的批評(píng)意見(jiàn)由GPT-4等高級(jí)模型生成。這些樣本主要聚焦于數(shù)學(xué)領(lǐng)域(占65%),同時(shí)涵蓋了物理、化學(xué)和商業(yè)等其他主題。

對(duì)比分析CFT數(shù)據(jù)集與SFT數(shù)據(jù)集之間的差異

隨后,在CFT數(shù)據(jù)集上進(jìn)行未經(jīng)指令微調(diào)的7B規(guī)模LLM模型訓(xùn)練,包括DeepSeekMath-base、Qwen2.5和Qwen2.5-Math。

CFT訓(xùn)練方法的目標(biāo)明確:將問(wèn)題x與錯(cuò)誤回答y拼接作為輸入,優(yōu)化模型參數(shù)以生成評(píng)論c,這等價(jià)于訓(xùn)練模型培養(yǎng)批判性思維能力。

實(shí)驗(yàn)結(jié)果顯示,作者考察了LLM在經(jīng)過(guò)指令微調(diào)和批判性微調(diào)后在數(shù)學(xué)相關(guān)基準(zhǔn)上的性能提升。結(jié)果表明,CFT訓(xùn)練的模型在性能上優(yōu)于SFT訓(xùn)練的最佳模型。

相較于SFT,CFT方法的準(zhǔn)確率平均高出4-10個(gè)百分點(diǎn)。此外,訓(xùn)練效率更高,能夠在較少的訓(xùn)練數(shù)據(jù)量下更快收斂,因此具有開(kāi)發(fā)數(shù)學(xué)推理模型的更高效方法潛力。

圖表展示了Qwen2.5-Math-7B在MATH和Minerva-Math基準(zhǔn)上的訓(xùn)練動(dòng)態(tài)對(duì)比,包括CFT與兩種SFT變體方法,橫軸代表訓(xùn)練步數(shù),縱軸顯示準(zhǔn)確率。

在相同的50k樣本規(guī)模下,不同基座模型在經(jīng)過(guò)CFT和SFT訓(xùn)練后的性能提升情況得以比較。

僅以Qwen2.5-Math-7B模型為例,可以看出其在各類(lèi)數(shù)據(jù)集和任務(wù)上的CFT訓(xùn)練效果全面超越了SFT方法。

論文將訓(xùn)練后的Qwen2.5-Math-7B-CFT模型與知名Llama、GPT系列模型,以及專(zhuān)長(zhǎng)推理的Deepseek、Mathstral、Numina等系列模型進(jìn)行了對(duì)比,具體結(jié)果如表所示。

Qwen2.5-Math-7B-CFT模型的平均性能(48.1%)甚至超越了參數(shù)量10倍的Llama-3.1-70B-Instruct(40.4%)和NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)的性能接近。

此外,CFT訓(xùn)練的系統(tǒng)在效能上與使用140倍計(jì)算資源訓(xùn)練的SimpleRL模型(Deepseek R1的公開(kāi)參考版本)不相上下,其GPU運(yùn)行時(shí)間降低至1/144,相當(dāng)于大幅降低了計(jì)算成本。

研究人員對(duì)CFT的多因素消融分析表明,該系統(tǒng)對(duì)于數(shù)據(jù)來(lái)源、噪聲響應(yīng)以及教師批判模型的選用均展現(xiàn)出較強(qiáng)的魯棒性。

例如,即使采用較弱版本的模型生成批評(píng)意見(jiàn),CFT仍能顯著提升效能。

局限與擴(kuò)展

CFT訓(xùn)練數(shù)據(jù)集中的基準(zhǔn)標(biāo)準(zhǔn)是通過(guò)LLM生成的批評(píng)數(shù)據(jù)。作者手動(dòng)審閱了50份批評(píng)意見(jiàn),發(fā)現(xiàn)其中20%存在明顯錯(cuò)誤,這些錯(cuò)誤可能對(duì)模型的訓(xùn)練產(chǎn)生一定干擾,影響最終效果。

此外,CFT訓(xùn)練的系統(tǒng)目前尚未實(shí)現(xiàn)自我改進(jìn)機(jī)制。

該研究的局限性在于數(shù)據(jù)集的代表性不足,目前僅聚焦于數(shù)學(xué)問(wèn)題,而編程、科學(xué)推理以及人文推理等領(lǐng)域仍需進(jìn)一步探索是否適用類(lèi)似的CFT模式。

CFT的優(yōu)勢(shì)在于顯著提升了模型的推理能力,同時(shí)實(shí)現(xiàn)了高效的數(shù)據(jù)利用率。通過(guò)讓模型學(xué)會(huì)批判,等效于進(jìn)行一次強(qiáng)化學(xué)習(xí)訓(xùn)練。

與現(xiàn)有的自我修正機(jī)制和獎(jiǎng)勵(lì)模型相比,CFT采用了批判學(xué)習(xí)方法,其目標(biāo)是通過(guò)深入理解問(wèn)題來(lái)提升模型能力,而非直接估計(jì)獎(jiǎng)勵(lì)分?jǐn)?shù)或進(jìn)行自我修正。這種方法在推理任務(wù)中展現(xiàn)出更強(qiáng)的適應(yīng)性和靈活性。

更為關(guān)鍵的是,CFT的數(shù)據(jù)構(gòu)建和訓(xùn)練流程相對(duì)簡(jiǎn)單,計(jì)算成本較低,因此具有較高的實(shí)際應(yīng)用價(jià)值和經(jīng)濟(jì)性。未來(lái)研究可能從數(shù)據(jù)質(zhì)量提升和自我批判機(jī)制探索兩個(gè)方向推進(jìn)。

首先,小編將重點(diǎn)放在構(gòu)建自動(dòng)驗(yàn)證工具和生成批判性數(shù)據(jù)集上,以提升批判性數(shù)據(jù)的質(zhì)量。同時(shí),要實(shí)現(xiàn)模型的自我批判和持續(xù)改進(jìn)能力,需要通過(guò)用戶(hù)反饋機(jī)制,使模型能夠不斷優(yōu)化自身。

未來(lái)研究的方向可能還包括將CFT與其他訓(xùn)練范式(如SFT和RL)相結(jié)合,擴(kuò)展其應(yīng)用范圍至多模態(tài)環(huán)境,并深入研究其理論基礎(chǔ)。

參考資料:

https://arxiv.org/pdf/2501.17703

被孤立的甜馨絕望日常,甜馨被孤立:蹭流量的代價(jià)說(shuō)明:1. 原標(biāo)題"甜馨自曝被蹭流量被孤立,網(wǎng)友:終歸還是孩子來(lái)買(mǎi)單了",核心信息是甜馨被指蹭流量后被孤立,網(wǎng)友評(píng)論提到孩子要買(mǎi)單。2. 簡(jiǎn)化后標(biāo)題"甜馨被孤立:蹭流量的代價(jià)",去掉了"自曝"這一非必要修飾詞,使標(biāo)題更簡(jiǎn)潔有力。3. 調(diào)整語(yǔ)序,將"被孤立"前置,"蹭流量的代價(jià)"作為補(bǔ)充說(shuō)明,使標(biāo)題更符合新聞報(bào)道的簡(jiǎn)潔明了特點(diǎn)。4. 保留了關(guān)鍵信息點(diǎn):被孤立、蹭流量、網(wǎng)友評(píng)論,同時(shí)使標(biāo)題更符合口語(yǔ)化表達(dá)習(xí)慣。5. 通過(guò)去掉不必要的修飾詞和調(diào)整語(yǔ)序,使標(biāo)題更簡(jiǎn)短有力,同時(shí)保留了原意。 智駕新高度,廣豐鉑智3X上市后一小時(shí)內(nèi)即售罄,合資純電車(chē)為何能逆市突圍? 月球著陸探測(cè)器翻倒,雅典娜著陸器著陸時(shí)側(cè)翻任務(wù)提前終止 空客2025年頭兩個(gè)月交付量,空客2025年首兩個(gè)月交付量同比下滑18% 線(xiàn)粒體的異常影響,糖尿病有可能被治愈?最新研究表明胰島素分泌模式改變 發(fā)現(xiàn)竿字位置,《漢字魔法》濫竽充數(shù)通關(guān)攻略 神技合集秒殺裝備,《元?dú)怛T士前傳》刺客職業(yè)介紹一覽 專(zhuān)業(yè)航拍團(tuán)隊(duì)的空域動(dòng)態(tài),塔臺(tái)上的“她”力量 最颯女管制員 時(shí)尚減齡,"羊羔毛毛衣:保暖與優(yōu)雅的完美結(jié)合,中年女性搭配必看" “女性訪談的聲音在成長(zhǎng)”,張?jiān)剑汉玫膶?duì)話(huà)能抵達(dá)所有人
     
青春恰自來(lái)

青春恰自來(lái)

大?。?em>56mb更新:2025-03-10 15:27:38

類(lèi)別:系統(tǒng):Android

立即下載(42.54MB)
  • 青春恰自來(lái)
  • 青春恰自來(lái)
  • 青春恰自來(lái)

游戲特色

或許技術(shù)方面比不過(guò)日本美國(guó),清晰度與聲音也比不上,但先解決有的問(wèn)題,再優(yōu)化,而對(duì)于亞洲普通人來(lái)說(shuō),更便宜的彩電才更有性?xún)r(jià)比。

漫畫(huà)行業(yè)、或者說(shuō)任何其他商品,哪怕是工業(yè)品,都是需要依賴(lài)足夠的渠道的;而想要建立完善的渠道,那就必須有著優(yōu)質(zhì)的內(nèi)容或者性?xún)r(jià)比高的工業(yè)品等等,總之,需要有吸引顧客的東西,然后再配合資本投資、宣傳等等方式組建渠道。

要不然,再大的財(cái)團(tuán)也沒(méi)辦法給沒(méi)有市場(chǎng)需求的商品組建渠道。在之前,長(zhǎng)興文化公司的漫畫(huà)雖然成績(jī)不差,可也只能在華人區(qū)域銷(xiāo)售,而《龍珠》的背景雖然也部分來(lái)自于西游記,可都市與搞笑就足以讓他征服其他地方的人群;

比如原先歷史上,《龍珠》就輕松的在歐美流行,在部分國(guó)家比如墨西哥,知名度更是高到離譜,動(dòng)畫(huà)播出的時(shí)候,據(jù)說(shuō)連本地黑幫都回去看了,社會(huì)犯罪率明顯降低了。

而借著這樣的機(jī)會(huì),一旦將很多渠道建設(shè)完成了,那自己這邊再推廣其他漫畫(huà),就方便多了;這就有些類(lèi)似家電行業(yè),比如海爾,只要冰箱賣(mài)到第一,那再做其他家電,雖然不至于做到第一,可至少有了品牌、售后保底,也能混一個(gè)不差的成績(jī)。

“好的,沒(méi)問(wèn)題?!睆堉具h(yuǎn)頓了頓,又道:“楊生,現(xiàn)如今我們的漫畫(huà)報(bào)紙銷(xiāo)量大漲、單行本也越來(lái)越多,加上長(zhǎng)興傳媒那邊每日日銷(xiāo)也有五六萬(wàn)份報(bào)紙,印刷的壓力也是越來(lái)越大;

不是設(shè)備與人,而是地方,早年印刷廠就在港島中環(huán)邊上的一個(gè)貨倉(cāng),現(xiàn)在空間不夠了,嚴(yán)重?fù)頂D,再加大印刷我擔(dān)心會(huì)有安全隱患?!?/p>

“我倒是忘了這個(gè),那這樣,你們自己跟長(zhǎng)興地產(chǎn)商量一下,換個(gè)大一點(diǎn)的地方,不過(guò)也不要離中環(huán)太遠(yuǎn),不然交通時(shí)間成本就高了?!睏钗臇|點(diǎn)點(diǎn)頭說(shuō)道。

長(zhǎng)興集團(tuán)內(nèi)部的產(chǎn)業(yè)太多了,他雖然關(guān)注漫畫(huà),但也的確沒(méi)關(guān)注過(guò)漫畫(huà)印刷工廠,張志遠(yuǎn)笑道:“好的,而且我們現(xiàn)在的工廠,也是可以建大廈的,位置還不算差?!?/p>

早年在中環(huán)邊上找的貨倉(cāng),如今周?chē)啥奸_(kāi)始建高樓了,現(xiàn)在價(jià)值自然不低,甚至長(zhǎng)興文化這幾年賺的錢(qián),都不一定比的上這一塊地皮。

游戲亮點(diǎn)

“我就怕這頭日后可以進(jìn)化成玄武的雙頭玄龜,死在實(shí)驗(yàn)室中?!薄翱纠谴笕耍阍趯櫕F培育這塊,可是好手,所以我想咨詢(xún)一下你的意見(jiàn)?”

“不然我無(wú)法對(duì)上級(jí)交差啊?!薄斑@也是事關(guān)炎國(guó)的氣運(yùn),所以我不得已才求到你這里?!薄澳阋矌蛶脱讎?guó)的同胞吧。”

杜樹(shù)魁也是沒(méi)有辦法了?!靶邪?,就帶我去看看吧?!比~白點(diǎn)了點(diǎn)頭?!靶校纠谴笕?,請(qǐng)跟我來(lái)。”“順便參觀一下地下實(shí)驗(yàn)室。”

這說(shuō)是實(shí)驗(yàn)室,其實(shí)比研究所都要大。葉白看到了一只擎天巨手,關(guān)鍵那個(gè)手臂竟然還是活的。手心的位置有一顆巨大的眼睛,眼睛的瞳孔為火紅色的。

游戲玩法

所以有一些紅裝大佬的情況他是知道的。掌握星鉆的這位,顧息就知道,甚至還知道,他沒(méi)有自己的星域,而是開(kāi)了一個(gè)鉆石商會(huì),有著全人類(lèi)最強(qiáng)的物流在手。

“不是聯(lián)系不上他,而是他也挑人的。而且他所以說(shuō)的給予一塊鉆石,那是聯(lián)系他的費(fèi)用。傳送的費(fèi)用還要另算。

只有一些有急事的人,才會(huì)借用他的通道,平時(shí)他只負(fù)責(zé)自己鉆石商會(huì)走貨,很少對(duì)外開(kāi)放?!倍嘤嗟脑?huà)就不用司壇再說(shuō)了。

評(píng)測(cè)

切爾西主場(chǎng)1-0勝萊斯特城教練稱(chēng)對(duì)手改用五后衛(wèi)陣型球員表現(xiàn)超乎想象,馬雷斯卡戰(zhàn)術(shù)白練止步萊斯特,帕爾默離場(chǎng)后去上廁所了。

即刻飛往阿布扎比MU237/238每周四班空游新章,中國(guó)東方航空將推出上海飛阿布扎比航線(xiàn),4月28日起開(kāi)通

荀彧BOSS打法技巧必看,《咸魚(yú)之王》俱樂(lè)部荀彧角色通關(guān)一覽

俄羅斯突破烏克蘭防線(xiàn)烏克蘭尋求領(lǐng)土交換,美媒:烏軍可能在兩周內(nèi)撤出庫(kù)爾斯克地區(qū)

陳蓉主任解析更年期癥狀和就醫(yī)建議,更年期如何應(yīng)對(duì)才是健康的選擇?如出現(xiàn)以下三種癥狀,請(qǐng)及時(shí)就醫(yī)。

顯示全部

熱門(mén)推薦
玩家評(píng)論
我要跟貼
取消
最新手游