- 意外車禍,小伙騎車上班摔傷,貓咪逃離現(xiàn)場(chǎng)誰要負(fù)責(zé)?
- AI黑科技 智能新體驗(yàn),智能終端形式多樣,大模型助力新產(chǎn)品普及
- 俄羅斯硬核回應(yīng)烏克蘭危機(jī),俄羅斯不會(huì)向任何人屈服于烏克蘭問題
- 大象新聞 | 魏娜追夢(mèng)人,滯留太空約9個(gè)月,美宇航員準(zhǔn)備返回
- 教齡津貼幾乎消失,庹慶明建議提高教師教齡津貼標(biāo)準(zhǔn)
- 皇馬 vs 巴列卡諾逆轉(zhuǎn)成功,皇馬連贏兩場(chǎng),積分57分,打破多項(xiàng)紀(jì)錄,主場(chǎng)11戰(zhàn)未負(fù),與巴薩齊平。
- 被鼠咬傷怎么辦會(huì)不會(huì)得狂犬病破傷風(fēng)等,被鼠咬后打哪些疫苗?
- 烏克蘭與美國(guó)在沙特阿拉伯會(huì)談,澤連斯基:預(yù)計(jì)下周舉行烏美會(huì)談
- “航空·新 frontier”,三型航空發(fā)動(dòng)機(jī)再創(chuàng)輝煌!首飛三號(hào)cab制式再獲突破說明:1. 去掉"首飛+3"中的" + "號(hào),直接表達(dá)為"首飛三號(hào)"2. 將"三款"簡(jiǎn)化為"三型"3. 調(diào)整語序,使標(biāo)題更加簡(jiǎn)潔有力4. 增加了"cab制式"等專業(yè)術(shù)語,體現(xiàn)專業(yè)性5. 使用"再獲突破"等積極表述,突出成績(jī)6. 保持了對(duì)原意的準(zhǔn)確傳達(dá),同時(shí)提升了標(biāo)題的吸引力7. 采用了更簡(jiǎn)潔的表達(dá)方式,使標(biāo)題更符合宣傳特點(diǎn)
- 湖人 vs 熱火詹姆斯傷情影響勝負(fù)排名第三的湖能否保四冠,Shams:詹姆斯未感知肌肉異常聲息,湖人今年調(diào)整較多這個(gè)改寫版本:1. 保留了"Shams"這個(gè)關(guān)鍵信息2. 簡(jiǎn)化了"未聽到肌肉發(fā)出異響",改為"未感知肌肉異常聲息"3. 將"湖人今年有一定的緩沖空間"改為"湖人今年調(diào)整較多"4. 整體語言更加簡(jiǎn)潔明了,同時(shí)保持了原意5. 通過調(diào)整語序和用詞,使標(biāo)題更符合中文表達(dá)習(xí)慣這個(gè)版本既保持了原文的核心信息,又使標(biāo)題更加簡(jiǎn)潔流暢,適合傳播或展示使用。
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
基于逐步生成解決方案的大語言模型(LLMs)訓(xùn)練范式在人工智能領(lǐng)域引起了廣泛關(guān)注,并已發(fā)展成為行業(yè)內(nèi)的重要方法之一。
例如,OpenAI在其「12 Days of OpenAI」直播系列的第二天推出了針對(duì)O1模型的強(qiáng)化微調(diào)訓(xùn)練方案[1]。這一創(chuàng)新舉措推動(dòng)了AI定制化的發(fā)展。值得注意的是,強(qiáng)化微調(diào)(RFT)/強(qiáng)化監(jiān)督微調(diào)(ReFT)[2]的核心在于使用思維鏈(CoT)注釋[3]進(jìn)行監(jiān)督微調(diào)。在DeepSeek-R1模型中,我們引入了少量長(zhǎng)CoT指導(dǎo)的冷啟動(dòng)數(shù)據(jù),以模擬強(qiáng)化學(xué)習(xí)的代理角色。
然而,為了全面解析采用CoT訓(xùn)練的策略,我們?nèi)孕杞鉀Q兩個(gè)關(guān)鍵問題:
由于實(shí)際訓(xùn)練過程中涉及諸多復(fù)雜因素,分析顯式CoT訓(xùn)練的優(yōu)勢(shì)及其潛在機(jī)制面臨分析難題。為此,我們采用了清晰且可控的數(shù)據(jù)分布進(jìn)行深入研究,并發(fā)現(xiàn)了以下有趣的現(xiàn)象:
(i)與無CoT訓(xùn)練相比,CoT訓(xùn)練顯著提升了推理能力的泛化性能,不僅限于分布內(nèi)(ID)場(chǎng)景,還擴(kuò)展到了分布外(OOD)場(chǎng)景,實(shí)現(xiàn)了系統(tǒng)性泛化(圖1)。同時(shí),CoT訓(xùn)練還加速了收斂速度。
圖表1: 模型在優(yōu)化過程中對(duì)訓(xùn)練和測(cè)試兩跳推理事實(shí)的準(zhǔn)確率對(duì)比。
(ii)即使CoT訓(xùn)練中包含一定范圍的推理錯(cuò)誤,模型仍能通過學(xué)習(xí)推理模式實(shí)現(xiàn)系統(tǒng)性泛化(圖4和圖5)。這一發(fā)現(xiàn)表明,數(shù)據(jù)質(zhì)量可能比訓(xùn)練方法本身更為重要。訓(xùn)練過程中,主要瓶頸在于收集復(fù)雜的長(zhǎng)CoT解決方案,而推理步驟中的少量錯(cuò)誤是可以被接受的。
(i)數(shù)據(jù)分布的關(guān)鍵因素(如比例λ和模式pattern)在決定模型系統(tǒng)性泛化能力方面起著決定性作用。換句話說,僅基于兩跳數(shù)據(jù)進(jìn)行訓(xùn)練的模型無法直接泛化到三跳情況,必須接觸過相關(guān)的模式才能實(shí)現(xiàn)。
(ii)通過運(yùn)用Logit lens和Causal tracing實(shí)驗(yàn),我們發(fā)現(xiàn),基于兩跳事實(shí)的CoT訓(xùn)練使推理步驟被模型內(nèi)化,形成一個(gè)兩階段的泛化電路。該電路的階段數(shù)量與訓(xùn)練過程中顯式推理步驟的數(shù)量保持一致。
進(jìn)一步地,我們將分析擴(kuò)展至包含推理錯(cuò)誤的訓(xùn)練數(shù)據(jù)分布,并驗(yàn)證了上述結(jié)論在現(xiàn)實(shí)數(shù)據(jù)集上的適用性,尤其是在更復(fù)雜架構(gòu)中。
從現(xiàn)有研究來看,我們首次在可控的實(shí)驗(yàn)環(huán)境中探索了CoT訓(xùn)練的優(yōu)勢(shì),并提出了基于電路的CoT訓(xùn)練機(jī)制的解釋模型。這些研究成果為CoT技術(shù)以及大語言模型實(shí)現(xiàn)穩(wěn)健泛化提供了重要的理論指導(dǎo)。
一、基本概念與定義
本節(jié)將介紹研究中所采用的核心符號(hào)定義,具體包括:
基本事實(shí)與多跳事實(shí):研究采用三元組形式表示單跳事實(shí),并通過原子事實(shí)與連接規(guī)則構(gòu)建兩跳事實(shí)及多跳事實(shí)。
二、系統(tǒng)性組合泛化能力研究
本研究的核心焦點(diǎn)是模型的組合能力,即模型需要將不同事實(shí)片段進(jìn)行有效串聯(lián)的能力。盡管顯式推理步驟(如思維鏈推理)能夠顯著提升任務(wù)性能[4-8],但這些方法在大規(guī)模預(yù)訓(xùn)練階段并不適用,而正是在這一關(guān)鍵時(shí)期,模型核心能力的形成與發(fā)展最為活躍[9-10]。已有研究表明,基于Transformer架構(gòu)的語言模型在執(zhí)行隱式組合能力方面存在明顯不足[11-12]。
更具體而言,"組合性鴻溝"現(xiàn)象普遍存在于各類大型語言模型中,盡管這些模型掌握了所有基礎(chǔ)事實(shí),但在實(shí)際應(yīng)用中仍無法實(shí)現(xiàn)有效的組合,這一問題并未因模型規(guī)模的擴(kuò)大而減弱。
更為準(zhǔn)確地說,Wang等人[13]的研究表明,Transformer模型在同分布泛化場(chǎng)景下能夠?qū)W習(xí)隱式推理能力,但在異分布泛化場(chǎng)景下表現(xiàn)欠佳(如圖1左所示)。
這一發(fā)現(xiàn)自然引出以下關(guān)鍵問題:在訓(xùn)練過程中引入顯式推理步驟(即思維鏈訓(xùn)練)會(huì)對(duì)模型的泛化能力產(chǎn)生什么影響?(即回答Q1:與無思維鏈訓(xùn)練相比,基于思維鏈的訓(xùn)練在哪些方面具有顯著優(yōu)勢(shì)?)
思維鏈訓(xùn)練顯著提升了模型在推理泛化能力方面的性能表現(xiàn)
如圖1所示,我們對(duì)模型在訓(xùn)練階段和測(cè)試階段兩跳事實(shí)上的準(zhǔn)確率隨優(yōu)化進(jìn)程的變化進(jìn)行了比較,其中λ值被設(shè)定為7.2。
關(guān)鍵影響因素進(jìn)一步探究
通過消融實(shí)驗(yàn)分析,我們?cè)u(píng)估了不同因素在思維鏈訓(xùn)練中的作用。
圖表2展示了在分布外測(cè)試集上的推理能力發(fā)展速度。
適當(dāng)選擇的λ值能夠顯著提升模型的收斂速度。圖2(左)詳細(xì)比較了不同λ值下的分布外測(cè)試準(zhǔn)確率。研究發(fā)現(xiàn),λ值與推理能力的泛化速度呈現(xiàn)高度相關(guān)性。特別值得注意的是,較小的λ值不僅能夠加速思維鏈訓(xùn)練帶來的分布外泛化能力提升,還能有效減少長(zhǎng)期訓(xùn)練的需求。然而,λ值并非越小越好,因?yàn)檫^小的λ值可能導(dǎo)致模型無法有效學(xué)習(xí)相關(guān)規(guī)則。
我們?cè)谀P蛯訑?shù){2,4,8}和λ{(lán)3.6,7.2,12.6}的條件下進(jìn)行了實(shí)驗(yàn)。研究結(jié)果表明,擴(kuò)大模型規(guī)模并不會(huì)顯著改變其泛化行為,主要表現(xiàn)為較大的模型在更少的優(yōu)化步驟中即可收斂。關(guān)于訓(xùn)練集大小(|E|)的影響,我們的研究結(jié)果與文獻(xiàn)[13]一致,即當(dāng)固定λ值時(shí),訓(xùn)練集大小不會(huì)對(duì)模型的泛化能力產(chǎn)生本質(zhì)性影響。
進(jìn)一步分析了兩跳事實(shí)到多跳事實(shí)的泛化能力。
總結(jié):通過顯式思維鏈訓(xùn)練,我們顯著提升了推理泛化能力,使其能夠同時(shí)涵蓋分布內(nèi)和分布外泛化。數(shù)據(jù)分布的關(guān)鍵因素(如比例和模式)在形成模型的系統(tǒng)性泛化能力中起到了決定性作用。然而,驅(qū)動(dòng)這些改進(jìn)的內(nèi)在機(jī)制尚待深入探索,我們將對(duì)此進(jìn)行進(jìn)一步研究(回答問題Q2:顯式思維鏈訓(xùn)練的潛在機(jī)制是什么?)。
圖表3比較了兩跳事實(shí)訓(xùn)練對(duì)應(yīng)的兩階段泛化電路(模型層數(shù)為8)。
三、兩階段泛化電路
研究主要采用兩種主流方法:logit lens [16] 和 causal tracing [17],本部分研究重點(diǎn)采用兩跳推理作為分析工具。
系統(tǒng)性泛化解釋
(1)兩階段泛化電路表明,通過思維鏈訓(xùn)練可以將推理步驟內(nèi)化到模型中。這解釋了為什么模型在經(jīng)過思維鏈訓(xùn)練后能夠在跨分布測(cè)試數(shù)據(jù)上表現(xiàn)出良好的泛化能力。
(2)該電路由兩個(gè)階段組成,與模型在訓(xùn)練期間處理的顯式推理步驟保持一致。因此,在思維鏈訓(xùn)練期間,模型僅接觸兩跳數(shù)據(jù),但在測(cè)試階段無法直接泛化到三跳場(chǎng)景。
四、更普適的分析
總體而言,我們目前的研究為通過受控?cái)?shù)據(jù)分布上的思維鏈訓(xùn)練來深入理解和增強(qiáng)Transformer的泛化能力奠定了基礎(chǔ)。然而,現(xiàn)實(shí)世界中的訓(xùn)練數(shù)據(jù)分布往往更為復(fù)雜。在本部分中,我們將探討在推理過程中存在錯(cuò)誤的分布情況,并展示思維鏈訓(xùn)練能提高模型泛化能力的結(jié)論在更復(fù)雜場(chǎng)景中的適用性。
數(shù)據(jù)分布帶噪
方法:我們旨在探討思維鏈訓(xùn)練在噪聲訓(xùn)練數(shù)據(jù)下的魯棒性,即模型系統(tǒng)性泛化能力的穩(wěn)定性。具體而言,我們通過隨機(jī)選擇一個(gè)有效實(shí)體向引入噪聲(真實(shí)訓(xùn)練目標(biāo)為):
需要注意的是,噪聲的比例由變量ξ表示,我們將研究不同ξ值對(duì)模型性能的影響。
圖表4:僅第二跳噪聲對(duì)分布內(nèi)與分布外數(shù)據(jù)表現(xiàn)的影響。
圖表 5:模型在不同噪聲比例(兩跳均有噪聲)下的訓(xùn)練和測(cè)試推理事實(shí)的準(zhǔn)確率表現(xiàn)。
結(jié)果:我們對(duì)兩種情況進(jìn)行了深入考察,分別考察了不同 ξ 候選集的影響。其中,僅在第二跳添加噪聲時(shí),考察了 {0.05, 0.2, 0.4, 0.6, 0.8} 這組 ξ 值;而在兩跳均添加噪聲的情況下,則考察了 {0.05, 0.1, 0.2, 0.4} 這組 ξ 值。具體結(jié)果如下:
(1)圖 4 明確展示了僅在第二跳添加噪聲時(shí)對(duì)分布內(nèi)和分布外泛化能力的影響??傮w而言,模型在思維鏈訓(xùn)練條件下仍能從噪聲數(shù)據(jù)中實(shí)現(xiàn)系統(tǒng)性泛化,但其泛化能力會(huì)隨著噪聲比例的增加而逐漸下降。
更具體地說,隨著訓(xùn)練的推進(jìn),分布外泛化能力起初保持不變,隨后隨著噪聲比例的增加而逐步增強(qiáng),而分布內(nèi)泛化能力則呈現(xiàn)出先增加后減少的趨勢(shì)。這一變化趨勢(shì)表明,分布內(nèi)泛化的降低與分布外泛化的增強(qiáng)具有一定的對(duì)應(yīng)關(guān)系。
然而,隨著噪聲比例的進(jìn)一步增加,分布內(nèi)和分布外泛化的最終表現(xiàn)都會(huì)出現(xiàn)明顯下降。值得注意的是,當(dāng)噪聲比例低于 0.2 時(shí),模型的表現(xiàn)幾乎不受影響,這充分體現(xiàn)了思維鏈訓(xùn)練的魯棒性。
此外,我們還對(duì)泛化電路的性能進(jìn)行了考察。由于我們僅在第二跳添加噪聲,因此第一跳的電路學(xué)習(xí)表現(xiàn)相對(duì)較好,而第二跳的電路則受到更大的噪聲影響。
(2)圖 5 比較了兩跳噪聲 ξ 值為 0.05、0.1、0.2 和 0.4 時(shí)的實(shí)驗(yàn)結(jié)果。與僅在第二跳添加噪聲的情況相比,兩跳均添加噪聲時(shí)對(duì)模型泛化能力的抑制效果更加顯著。當(dāng)噪聲比例超過 0.2 時(shí),幾乎可以完全消除模型的分布內(nèi)和分布外泛化能力。
總而言之,即使在訓(xùn)練數(shù)據(jù)存在噪聲的情況下,只要噪聲比例控制在一定范圍內(nèi),思維鏈訓(xùn)練仍能使模型實(shí)現(xiàn)系統(tǒng)性泛化。特別值得一提的是,當(dāng)噪聲比例較小時(shí),這些噪聲數(shù)據(jù)仍然能夠幫助模型有效學(xué)習(xí)泛化電路。
五、討論
總結(jié)
本文深入探討了系統(tǒng)性組合泛化(CoT)在Transformer中的應(yīng)用,重點(diǎn)分析了通過顯式思維鏈(CoT)訓(xùn)練系統(tǒng)性組合泛化的機(jī)制。具體而言:
1. 思維鏈訓(xùn)練與無思維鏈訓(xùn)練相比,顯著提升了其在分布內(nèi)和分布外場(chǎng)景中的推理能力。
2. 通過logit lens和causal tracing實(shí)驗(yàn)發(fā)現(xiàn),思維鏈訓(xùn)練構(gòu)建了一個(gè)兩階段的泛化電路模型。然而,模型的推理能力受限于訓(xùn)練數(shù)據(jù)的復(fù)雜性,難以擴(kuò)展至更長(zhǎng)的推理步驟。
3. 進(jìn)一步研究表明,即使在存在一定噪聲的情況下,思維鏈訓(xùn)練仍可實(shí)現(xiàn)系統(tǒng)性泛化。這可能有助于構(gòu)建更有效的泛化電路。
4. 本文還揭示了思維鏈訓(xùn)練的關(guān)鍵局限性:訓(xùn)練數(shù)據(jù)分布(包括比例λ和模式)在引導(dǎo)模型構(gòu)建泛化電路方面起著決定性作用。模型需要在訓(xùn)練過程中接觸過相關(guān)的模式,特別是思維鏈步驟的數(shù)量。
這些發(fā)現(xiàn)為理解大語言模型(LLMs)的穩(wěn)健泛化提供了重要啟示。盡管取得了一定進(jìn)展,但仍存在一些局限性,例如實(shí)驗(yàn)基于合成數(shù)據(jù),可能無法完全反映現(xiàn)實(shí)世界中的復(fù)雜性。未來研究應(yīng)進(jìn)一步驗(yàn)證這些結(jié)論,并探索大語言模型在連續(xù)潛在空間中的推理潛力,以及反向信息流分析等新方法。
不足與未來展望:
1. 實(shí)驗(yàn)基于合成數(shù)據(jù),可能無法完全反映現(xiàn)實(shí)世界數(shù)據(jù)集和任務(wù)的復(fù)雜性。
2. 當(dāng)前分析僅限于自然語言,未來研究應(yīng)探索模型在連續(xù)潛在空間中的推理潛力。
3. 最近提出的新方法「backward lens」[20],為完善思維鏈訓(xùn)練的潛在機(jī)制分析提供了新視角。
作者簡(jiǎn)介
劉勇,現(xiàn)為中國(guó)人民大學(xué)正高級(jí)研究員,入選國(guó)家"青年人才計(jì)劃",擔(dān)任博士生導(dǎo)師。他的研究聚焦于機(jī)器學(xué)習(xí)理論基礎(chǔ),已在頂級(jí)期刊《機(jī)器學(xué)習(xí)》(JMLR)、《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)、以及人工智能領(lǐng)域頂級(jí)會(huì)議《人工智能》(Artificial Intelligence)發(fā)表論文近50篇。研究領(lǐng)域涵蓋機(jī)器學(xué)習(xí)領(lǐng)域的重要會(huì)議和期刊,如《機(jī)器學(xué)習(xí)》(JMLR)、《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)、《人工智能》(Artificial Intelligence)、《國(guó)際機(jī)器學(xué)習(xí)會(huì)議》(ICML)和《神經(jīng)信息處理系統(tǒng)》(NeurIPS)。劉勇曾榮獲多項(xiàng)重要獎(jiǎng)項(xiàng),包括"杰出學(xué)者"稱號(hào)、"青年創(chuàng)新促進(jìn)會(huì)"成員以及"引進(jìn)優(yōu)青"等榮譽(yù)稱號(hào)。他主持多項(xiàng)國(guó)家級(jí)項(xiàng)目,包括國(guó)家自然科學(xué)基金面上項(xiàng)目、北京市面上項(xiàng)目以及中國(guó)科學(xué)院基礎(chǔ)前沿研究計(jì)劃等。
姚鑫浩,現(xiàn)為中國(guó)人民大學(xué)高瓴人工智能學(xué)院博士研究生,本科期間亦就讀于該學(xué)院。其研究方向主要集中在大模型推理技術(shù)及其在機(jī)器學(xué)習(xí)理論中的應(yīng)用。
參考文獻(xiàn)
[1] OpenAI. "12 Days of OpenAI," https://openai.com/12-days, 2024a.
[2] Trung, L., Zhang, X., Jie, Z., Sun, P., Jin, X., and Li, H. "ReFT: Reasoning with Reinforced Fine-tuning." In the proceedings of the 62nd annual meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.7601–7614, 2024.
[3] Wei, J., Wang, X., Schuurmans, D., Bosma, M., brian ichter, Xia, F., Chi, E. H., Le, Q. V., and Zhou, D. "Chain of Thought Prompting Elicits Reasoning in Large Language Models." In Advances in Neural Information Processing Systems, 2022.
[4] DeepSeek-R1: Incentivizing Reasoning in LLMs via Reinforcement Learning (2025). URL: https://arxiv.org/abs/2501.12948
[5] Lake, B. and Baroni, M. "Generalization without Systematicity: On the Compositional Skills of Sequence-to-Sequence Recurrent Networks." In Proceedings of the International Conference on Machine Learning, pp. 2873–2882, 2018a.
[6] Wang, B., Deng, X., and Sun, H. "Iteratively Prompt Pretrained Language Models for Chain of Thought." In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pp. 2714–2730, 2022.
[7] Zelikman, E., Wu, Y., Mu, J., 和 Goodman, N. 提出了名為 STar 的方法,該方法通過自我重 bootstrapping 實(shí)現(xiàn)了推理能力的提升。該研究發(fā)表于 2022 年的《神經(jīng)信息處理系統(tǒng)進(jìn)展》。
[8] Liu, J., Pasunuru, R., Hajishirzi, H., Choi, Y., 和 Celikyilmaz, A. 提出了 Crystal 方法,通過自我反饋機(jī)制增強(qiáng)了自反推理能力。該研究發(fā)表于 2023 年的《Empirical Methods in Natural Language Processing》會(huì)議論文。
[9] Li, Z., Wallace, E., Shen, S., Lin, K., Keutzer, K., Klein, D., 和 Gonzalez, J. 提出了重新思考模型大小的方法,以提高訓(xùn)練和推理效率。該研究發(fā)表于 2020 年的《機(jī)器學(xué)習(xí)年鑒》。
[10] Zhou, C., Liu, P., Xu, P., Iyer, S., Sun, J., Mao, Y., Ma, X., Efrat, A., Yu, P., YU, L., Zhang, S., Ghosh, G., Lewis, M., Zettlemoyer, L., 和 Levy, O. 提出了 Lima 方法,通過減少對(duì)對(duì)齊的需求提升了性能。該研究發(fā)表于 2023a 年的《神經(jīng)信息處理系統(tǒng)進(jìn)展》。
[11] Press, O., Zhang, M., Min, S., Schmidt, L., Smith, N., 和 Lewis, M. 提出了衡量和縮小語言模型組合性差距的方法。該研究發(fā)表于 2023 年的《計(jì)算語言學(xué)協(xié)會(huì)會(huì)議論文》。
[12] Yang, S., Gribovskaya, E., Kassner, N., Geva, M., 和 Riedel, S. 探討了大型語言模型是否能夠進(jìn)行隱式多跳推理。該研究于 2024 年發(fā)布,詳細(xì)內(nèi)容見 arXiv:2402.16837。
[13] Wang, B., Yue, X., Su, Y., 和 Sun, H. 通過機(jī)制研究揭示了隱式推理在變壓器中的表現(xiàn)。該研究發(fā)表于 2024a 年的《神經(jīng)信息處理系統(tǒng)進(jìn)展》。
[14] Power, A., Burda, Y., Edwards, H., Babuschkin, I., 和 Misra, V. 探討了算法小數(shù)據(jù)集上的通用化能力。該研究于 2022 年發(fā)布,詳細(xì)內(nèi)容見 arXiv:2201.02177。
[15] Cabannes, V., Arnal, C., Bouaziz, W., Yang, X. A., Charton, F., 和 Kempe, J. 提出了迭代頭方法,以深入研究鏈?zhǔn)剿伎?。該研究發(fā)表于 2024 年的《神經(jīng)信息處理系統(tǒng)進(jìn)展》。
[16] Nostalgebraist. 解釋了 GPT 模型的工作原理,詳細(xì)內(nèi)容見 arXiv:2010.00000。
Pearl, J. (2009). 因果關(guān)系模型、推理與推斷. 劍橋大學(xué)出版社.
Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Roziere, B., Goyal, N., Hambro, E., Azhar, F., 等. Llama: 開源高效的基礎(chǔ)語言模型. arXiv預(yù)印本 arXiv:2302.13971, 2023.
Hao, S., Sukhbaatar, S., Su, D., Li, X., Hu, Z., Weston, J., 和 Tian, Y. (2024b). 一種訓(xùn)練大型語言模型使其能夠在連續(xù)潛在空間中進(jìn)行推理的方法. arXiv預(yù)印本 https://arxiv.org/abs/2412.06769.
Katz, S., Belinkov, Y., Geva, M., 和 Wolf, L. (2024). 向詞匯空間投影語言模型梯度的技術(shù). 2024年Empirical Methods in Natural Language Processing會(huì)議論文集, 2390–2422.
Team Ninja《浪人崛起》即將發(fā)布PC平臺(tái)2025年3月11日,浪人崛起PC發(fā)售日期介紹 一起越野新游戲現(xiàn)已上線,一起越野/Off Road Together游戲官網(wǎng)地址 大師賽焦點(diǎn)對(duì)決,"力克西西帕斯晉級(jí),魯內(nèi):整場(chǎng)對(duì)決都非常精彩" 管道探索,雙影奇境筆記本任務(wù)觸發(fā)方法 情感投資 vs. 自動(dòng)販賣機(jī),大S提前布局:孩子韓語班、韓國(guó)房產(chǎn),未來已成!(這個(gè)標(biāo)題保持了原意,同時(shí)簡(jiǎn)化了內(nèi)容,去掉了多余的描述,使標(biāo)題更加簡(jiǎn)潔明了。通過"提前布局"這個(gè)表達(dá),既保留了原意,又讓標(biāo)題更加簡(jiǎn)潔。同時(shí),通過"孩子韓語班、韓國(guó)房產(chǎn),未來已成!"的表達(dá)方式,讓標(biāo)題更具諷刺意味,暗示大S早已規(guī)劃好了孩子的未來。) 大金成就刷法技巧與注意事項(xiàng),刷大小金技巧全解析刷大小金實(shí)用技巧分享 駕駛樂趣指南,越野游戲Off Road Together配置要求全解析 幀數(shù)調(diào)高,浪人崛起:優(yōu)化戰(zhàn)斗難度技巧解析 國(guó)家之光,J羅:榮譽(yù)勝過金錢,國(guó)家隊(duì)隊(duì)長(zhǎng)是他夢(mèng)想 2023年秋冬季,《洛克王國(guó)》萌寵合影集攻略2023