- 背包擴容指南,《地下城與勇士:起源》背包擴充方法介紹
- 游戲探秘指南,《DNF:起源》異界副本進入指南
- 獲取內功的多樣路徑揭秘,《逆水寒手游》1.3.2內功獲取攻略
- 裝備揭秘,《地下城與勇士:起源》瘋狂伊凡召喚屬性詳解
- 探索游戲體驗的關鍵配置,《莊園領主》配置要求介紹
- 即將上線的驚喜揭曉,《鳴潮》公測福利一覽
- 夢幻西游挑戰(zhàn)揭秘,《夢幻西游手游》龍吟打法攻略
- 通關秘訣揭秘,《我是顯眼包》交換命運通關攻略
- 創(chuàng)意游戲攻略,《我是顯眼包》明星與黑粉通關攻略
- 挑戰(zhàn)技巧揭秘,《夢幻西游手游》龍儀打法攻略
聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。
基于逐步生成解決方案的大語言模型(LLMs)訓練范式在人工智能領域引起了廣泛關注,并已發(fā)展成為行業(yè)內的重要方法之一。
例如,OpenAI在其「12 Days of OpenAI」直播系列的第二天推出了針對O1模型的強化微調訓練方案[1]。這一創(chuàng)新舉措推動了AI定制化的發(fā)展。值得注意的是,強化微調(RFT)/強化監(jiān)督微調(ReFT)[2]的核心在于使用思維鏈(CoT)注釋[3]進行監(jiān)督微調。在DeepSeek-R1模型中,我們引入了少量長CoT指導的冷啟動數(shù)據(jù),以模擬強化學習的代理角色。
然而,為了全面解析采用CoT訓練的策略,我們仍需解決兩個關鍵問題:
由于實際訓練過程中涉及諸多復雜因素,分析顯式CoT訓練的優(yōu)勢及其潛在機制面臨分析難題。為此,我們采用了清晰且可控的數(shù)據(jù)分布進行深入研究,并發(fā)現(xiàn)了以下有趣的現(xiàn)象:
(i)與無CoT訓練相比,CoT訓練顯著提升了推理能力的泛化性能,不僅限于分布內(ID)場景,還擴展到了分布外(OOD)場景,實現(xiàn)了系統(tǒng)性泛化(圖1)。同時,CoT訓練還加速了收斂速度。
圖表1: 模型在優(yōu)化過程中對訓練和測試兩跳推理事實的準確率對比。
(ii)即使CoT訓練中包含一定范圍的推理錯誤,模型仍能通過學習推理模式實現(xiàn)系統(tǒng)性泛化(圖4和圖5)。這一發(fā)現(xiàn)表明,數(shù)據(jù)質量可能比訓練方法本身更為重要。訓練過程中,主要瓶頸在于收集復雜的長CoT解決方案,而推理步驟中的少量錯誤是可以被接受的。
(i)數(shù)據(jù)分布的關鍵因素(如比例λ和模式pattern)在決定模型系統(tǒng)性泛化能力方面起著決定性作用。換句話說,僅基于兩跳數(shù)據(jù)進行訓練的模型無法直接泛化到三跳情況,必須接觸過相關的模式才能實現(xiàn)。
(ii)通過運用Logit lens和Causal tracing實驗,我們發(fā)現(xiàn),基于兩跳事實的CoT訓練使推理步驟被模型內化,形成一個兩階段的泛化電路。該電路的階段數(shù)量與訓練過程中顯式推理步驟的數(shù)量保持一致。
進一步地,我們將分析擴展至包含推理錯誤的訓練數(shù)據(jù)分布,并驗證了上述結論在現(xiàn)實數(shù)據(jù)集上的適用性,尤其是在更復雜架構中。
從現(xiàn)有研究來看,我們首次在可控的實驗環(huán)境中探索了CoT訓練的優(yōu)勢,并提出了基于電路的CoT訓練機制的解釋模型。這些研究成果為CoT技術以及大語言模型實現(xiàn)穩(wěn)健泛化提供了重要的理論指導。
一、基本概念與定義
本節(jié)將介紹研究中所采用的核心符號定義,具體包括:
基本事實與多跳事實:研究采用三元組形式表示單跳事實,并通過原子事實與連接規(guī)則構建兩跳事實及多跳事實。
二、系統(tǒng)性組合泛化能力研究
本研究的核心焦點是模型的組合能力,即模型需要將不同事實片段進行有效串聯(lián)的能力。盡管顯式推理步驟(如思維鏈推理)能夠顯著提升任務性能[4-8],但這些方法在大規(guī)模預訓練階段并不適用,而正是在這一關鍵時期,模型核心能力的形成與發(fā)展最為活躍[9-10]。已有研究表明,基于Transformer架構的語言模型在執(zhí)行隱式組合能力方面存在明顯不足[11-12]。
更具體而言,"組合性鴻溝"現(xiàn)象普遍存在于各類大型語言模型中,盡管這些模型掌握了所有基礎事實,但在實際應用中仍無法實現(xiàn)有效的組合,這一問題并未因模型規(guī)模的擴大而減弱。
更為準確地說,Wang等人[13]的研究表明,Transformer模型在同分布泛化場景下能夠學習隱式推理能力,但在異分布泛化場景下表現(xiàn)欠佳(如圖1左所示)。
這一發(fā)現(xiàn)自然引出以下關鍵問題:在訓練過程中引入顯式推理步驟(即思維鏈訓練)會對模型的泛化能力產生什么影響?(即回答Q1:與無思維鏈訓練相比,基于思維鏈的訓練在哪些方面具有顯著優(yōu)勢?)
思維鏈訓練顯著提升了模型在推理泛化能力方面的性能表現(xiàn)
如圖1所示,我們對模型在訓練階段和測試階段兩跳事實上的準確率隨優(yōu)化進程的變化進行了比較,其中λ值被設定為7.2。
關鍵影響因素進一步探究
通過消融實驗分析,我們評估了不同因素在思維鏈訓練中的作用。
圖表2展示了在分布外測試集上的推理能力發(fā)展速度。
適當選擇的λ值能夠顯著提升模型的收斂速度。圖2(左)詳細比較了不同λ值下的分布外測試準確率。研究發(fā)現(xiàn),λ值與推理能力的泛化速度呈現(xiàn)高度相關性。特別值得注意的是,較小的λ值不僅能夠加速思維鏈訓練帶來的分布外泛化能力提升,還能有效減少長期訓練的需求。然而,λ值并非越小越好,因為過小的λ值可能導致模型無法有效學習相關規(guī)則。
我們在模型層數(shù){2,4,8}和λ{3.6,7.2,12.6}的條件下進行了實驗。研究結果表明,擴大模型規(guī)模并不會顯著改變其泛化行為,主要表現(xiàn)為較大的模型在更少的優(yōu)化步驟中即可收斂。關于訓練集大?。▅E|)的影響,我們的研究結果與文獻[13]一致,即當固定λ值時,訓練集大小不會對模型的泛化能力產生本質性影響。
進一步分析了兩跳事實到多跳事實的泛化能力。
總結:通過顯式思維鏈訓練,我們顯著提升了推理泛化能力,使其能夠同時涵蓋分布內和分布外泛化。數(shù)據(jù)分布的關鍵因素(如比例和模式)在形成模型的系統(tǒng)性泛化能力中起到了決定性作用。然而,驅動這些改進的內在機制尚待深入探索,我們將對此進行進一步研究(回答問題Q2:顯式思維鏈訓練的潛在機制是什么?)。
圖表3比較了兩跳事實訓練對應的兩階段泛化電路(模型層數(shù)為8)。
三、兩階段泛化電路
研究主要采用兩種主流方法:logit lens [16] 和 causal tracing [17],本部分研究重點采用兩跳推理作為分析工具。
系統(tǒng)性泛化解釋
(1)兩階段泛化電路表明,通過思維鏈訓練可以將推理步驟內化到模型中。這解釋了為什么模型在經(jīng)過思維鏈訓練后能夠在跨分布測試數(shù)據(jù)上表現(xiàn)出良好的泛化能力。
(2)該電路由兩個階段組成,與模型在訓練期間處理的顯式推理步驟保持一致。因此,在思維鏈訓練期間,模型僅接觸兩跳數(shù)據(jù),但在測試階段無法直接泛化到三跳場景。
四、更普適的分析
總體而言,我們目前的研究為通過受控數(shù)據(jù)分布上的思維鏈訓練來深入理解和增強Transformer的泛化能力奠定了基礎。然而,現(xiàn)實世界中的訓練數(shù)據(jù)分布往往更為復雜。在本部分中,我們將探討在推理過程中存在錯誤的分布情況,并展示思維鏈訓練能提高模型泛化能力的結論在更復雜場景中的適用性。
數(shù)據(jù)分布帶噪
方法:我們旨在探討思維鏈訓練在噪聲訓練數(shù)據(jù)下的魯棒性,即模型系統(tǒng)性泛化能力的穩(wěn)定性。具體而言,我們通過隨機選擇一個有效實體向引入噪聲(真實訓練目標為):
需要注意的是,噪聲的比例由變量ξ表示,我們將研究不同ξ值對模型性能的影響。
圖表4:僅第二跳噪聲對分布內與分布外數(shù)據(jù)表現(xiàn)的影響。
圖表 5:模型在不同噪聲比例(兩跳均有噪聲)下的訓練和測試推理事實的準確率表現(xiàn)。
結果:我們對兩種情況進行了深入考察,分別考察了不同 ξ 候選集的影響。其中,僅在第二跳添加噪聲時,考察了 {0.05, 0.2, 0.4, 0.6, 0.8} 這組 ξ 值;而在兩跳均添加噪聲的情況下,則考察了 {0.05, 0.1, 0.2, 0.4} 這組 ξ 值。具體結果如下:
(1)圖 4 明確展示了僅在第二跳添加噪聲時對分布內和分布外泛化能力的影響??傮w而言,模型在思維鏈訓練條件下仍能從噪聲數(shù)據(jù)中實現(xiàn)系統(tǒng)性泛化,但其泛化能力會隨著噪聲比例的增加而逐漸下降。
更具體地說,隨著訓練的推進,分布外泛化能力起初保持不變,隨后隨著噪聲比例的增加而逐步增強,而分布內泛化能力則呈現(xiàn)出先增加后減少的趨勢。這一變化趨勢表明,分布內泛化的降低與分布外泛化的增強具有一定的對應關系。
然而,隨著噪聲比例的進一步增加,分布內和分布外泛化的最終表現(xiàn)都會出現(xiàn)明顯下降。值得注意的是,當噪聲比例低于 0.2 時,模型的表現(xiàn)幾乎不受影響,這充分體現(xiàn)了思維鏈訓練的魯棒性。
此外,我們還對泛化電路的性能進行了考察。由于我們僅在第二跳添加噪聲,因此第一跳的電路學習表現(xiàn)相對較好,而第二跳的電路則受到更大的噪聲影響。
(2)圖 5 比較了兩跳噪聲 ξ 值為 0.05、0.1、0.2 和 0.4 時的實驗結果。與僅在第二跳添加噪聲的情況相比,兩跳均添加噪聲時對模型泛化能力的抑制效果更加顯著。當噪聲比例超過 0.2 時,幾乎可以完全消除模型的分布內和分布外泛化能力。
總而言之,即使在訓練數(shù)據(jù)存在噪聲的情況下,只要噪聲比例控制在一定范圍內,思維鏈訓練仍能使模型實現(xiàn)系統(tǒng)性泛化。特別值得一提的是,當噪聲比例較小時,這些噪聲數(shù)據(jù)仍然能夠幫助模型有效學習泛化電路。
五、討論
總結
本文深入探討了系統(tǒng)性組合泛化(CoT)在Transformer中的應用,重點分析了通過顯式思維鏈(CoT)訓練系統(tǒng)性組合泛化的機制。具體而言:
1. 思維鏈訓練與無思維鏈訓練相比,顯著提升了其在分布內和分布外場景中的推理能力。
2. 通過logit lens和causal tracing實驗發(fā)現(xiàn),思維鏈訓練構建了一個兩階段的泛化電路模型。然而,模型的推理能力受限于訓練數(shù)據(jù)的復雜性,難以擴展至更長的推理步驟。
3. 進一步研究表明,即使在存在一定噪聲的情況下,思維鏈訓練仍可實現(xiàn)系統(tǒng)性泛化。這可能有助于構建更有效的泛化電路。
4. 本文還揭示了思維鏈訓練的關鍵局限性:訓練數(shù)據(jù)分布(包括比例λ和模式)在引導模型構建泛化電路方面起著決定性作用。模型需要在訓練過程中接觸過相關的模式,特別是思維鏈步驟的數(shù)量。
這些發(fā)現(xiàn)為理解大語言模型(LLMs)的穩(wěn)健泛化提供了重要啟示。盡管取得了一定進展,但仍存在一些局限性,例如實驗基于合成數(shù)據(jù),可能無法完全反映現(xiàn)實世界中的復雜性。未來研究應進一步驗證這些結論,并探索大語言模型在連續(xù)潛在空間中的推理潛力,以及反向信息流分析等新方法。
不足與未來展望:
1. 實驗基于合成數(shù)據(jù),可能無法完全反映現(xiàn)實世界數(shù)據(jù)集和任務的復雜性。
2. 當前分析僅限于自然語言,未來研究應探索模型在連續(xù)潛在空間中的推理潛力。
3. 最近提出的新方法「backward lens」[20],為完善思維鏈訓練的潛在機制分析提供了新視角。
作者簡介
劉勇,現(xiàn)為中國人民大學正高級研究員,入選國家"青年人才計劃",擔任博士生導師。他的研究聚焦于機器學習理論基礎,已在頂級期刊《機器學習》(JMLR)、《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)、以及人工智能領域頂級會議《人工智能》(Artificial Intelligence)發(fā)表論文近50篇。研究領域涵蓋機器學習領域的重要會議和期刊,如《機器學習》(JMLR)、《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)、《人工智能》(Artificial Intelligence)、《國際機器學習會議》(ICML)和《神經(jīng)信息處理系統(tǒng)》(NeurIPS)。劉勇曾榮獲多項重要獎項,包括"杰出學者"稱號、"青年創(chuàng)新促進會"成員以及"引進優(yōu)青"等榮譽稱號。他主持多項國家級項目,包括國家自然科學基金面上項目、北京市面上項目以及中國科學院基礎前沿研究計劃等。
姚鑫浩,現(xiàn)為中國人民大學高瓴人工智能學院博士研究生,本科期間亦就讀于該學院。其研究方向主要集中在大模型推理技術及其在機器學習理論中的應用。
參考文獻
[1] OpenAI. "12 Days of OpenAI," https://openai.com/12-days, 2024a.
[2] Trung, L., Zhang, X., Jie, Z., Sun, P., Jin, X., and Li, H. "ReFT: Reasoning with Reinforced Fine-tuning." In the proceedings of the 62nd annual meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.7601–7614, 2024.
[3] Wei, J., Wang, X., Schuurmans, D., Bosma, M., brian ichter, Xia, F., Chi, E. H., Le, Q. V., and Zhou, D. "Chain of Thought Prompting Elicits Reasoning in Large Language Models." In Advances in Neural Information Processing Systems, 2022.
[4] DeepSeek-R1: Incentivizing Reasoning in LLMs via Reinforcement Learning (2025). URL: https://arxiv.org/abs/2501.12948
[5] Lake, B. and Baroni, M. "Generalization without Systematicity: On the Compositional Skills of Sequence-to-Sequence Recurrent Networks." In Proceedings of the International Conference on Machine Learning, pp. 2873–2882, 2018a.
[6] Wang, B., Deng, X., and Sun, H. "Iteratively Prompt Pretrained Language Models for Chain of Thought." In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pp. 2714–2730, 2022.
[7] Zelikman, E., Wu, Y., Mu, J., 和 Goodman, N. 提出了名為 STar 的方法,該方法通過自我重 bootstrapping 實現(xiàn)了推理能力的提升。該研究發(fā)表于 2022 年的《神經(jīng)信息處理系統(tǒng)進展》。
[8] Liu, J., Pasunuru, R., Hajishirzi, H., Choi, Y., 和 Celikyilmaz, A. 提出了 Crystal 方法,通過自我反饋機制增強了自反推理能力。該研究發(fā)表于 2023 年的《Empirical Methods in Natural Language Processing》會議論文。
[9] Li, Z., Wallace, E., Shen, S., Lin, K., Keutzer, K., Klein, D., 和 Gonzalez, J. 提出了重新思考模型大小的方法,以提高訓練和推理效率。該研究發(fā)表于 2020 年的《機器學習年鑒》。
[10] Zhou, C., Liu, P., Xu, P., Iyer, S., Sun, J., Mao, Y., Ma, X., Efrat, A., Yu, P., YU, L., Zhang, S., Ghosh, G., Lewis, M., Zettlemoyer, L., 和 Levy, O. 提出了 Lima 方法,通過減少對對齊的需求提升了性能。該研究發(fā)表于 2023a 年的《神經(jīng)信息處理系統(tǒng)進展》。
[11] Press, O., Zhang, M., Min, S., Schmidt, L., Smith, N., 和 Lewis, M. 提出了衡量和縮小語言模型組合性差距的方法。該研究發(fā)表于 2023 年的《計算語言學協(xié)會會議論文》。
[12] Yang, S., Gribovskaya, E., Kassner, N., Geva, M., 和 Riedel, S. 探討了大型語言模型是否能夠進行隱式多跳推理。該研究于 2024 年發(fā)布,詳細內容見 arXiv:2402.16837。
[13] Wang, B., Yue, X., Su, Y., 和 Sun, H. 通過機制研究揭示了隱式推理在變壓器中的表現(xiàn)。該研究發(fā)表于 2024a 年的《神經(jīng)信息處理系統(tǒng)進展》。
[14] Power, A., Burda, Y., Edwards, H., Babuschkin, I., 和 Misra, V. 探討了算法小數(shù)據(jù)集上的通用化能力。該研究于 2022 年發(fā)布,詳細內容見 arXiv:2201.02177。
[15] Cabannes, V., Arnal, C., Bouaziz, W., Yang, X. A., Charton, F., 和 Kempe, J. 提出了迭代頭方法,以深入研究鏈式思考。該研究發(fā)表于 2024 年的《神經(jīng)信息處理系統(tǒng)進展》。
[16] Nostalgebraist. 解釋了 GPT 模型的工作原理,詳細內容見 arXiv:2010.00000。
Pearl, J. (2009). 因果關系模型、推理與推斷. 劍橋大學出版社.
Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Roziere, B., Goyal, N., Hambro, E., Azhar, F., 等. Llama: 開源高效的基礎語言模型. arXiv預印本 arXiv:2302.13971, 2023.
Hao, S., Sukhbaatar, S., Su, D., Li, X., Hu, Z., Weston, J., 和 Tian, Y. (2024b). 一種訓練大型語言模型使其能夠在連續(xù)潛在空間中進行推理的方法. arXiv預印本 https://arxiv.org/abs/2412.06769.
Katz, S., Belinkov, Y., Geva, M., 和 Wolf, L. (2024). 向詞匯空間投影語言模型梯度的技術. 2024年Empirical Methods in Natural Language Processing會議論文集, 2390–2422.
捕捉難度低的凈化蜜蟲凈化版位置明確超易捕捉,怪物獵人荒野大eur凈化蜜蟲收集方法 溜背家族化設計運動感十足的英菲尼迪QX65即將發(fā)布,英菲尼迪QX65諜照曝光,定位中大型轎跑SUV 歸化球員即將加入國安國安新援可能成為國足前腰,29歲球星領完身份證!球衣印上“Serj SINAYO”的拼音縮寫 關于延長健康工作壽命的政策研究,50歲后還能健康工作多久?研究給出答案 超限共鳴裝備技能強化的秘密,《蒼霧世界》超限裝備全集解析 街頭籃球經(jīng)典模式,《美職籃全明星》娛樂模式一覽 大錘武器蓄力大招,怪物獵人:大錘蓄力技巧解析大錘作為一種強力武器,在怪物獵人:荒野大錘中擁有獨特的攻擊方式。本文將為大家詳細講解大錘的蓄力攻擊技巧,幫助玩家更好地掌握這一強力武器的使用方法。大錘攻擊模式不同于普通武器,需要玩家通過蓄力來釋放攻擊。正確使用大錘的蓄力技巧可以大幅提升戰(zhàn)斗效率。以下是玩家需要注意的幾個關鍵點:1.蓄力攻擊需要在武器未接觸地面時進行2.攻擊方向要與大錘的重心方向一致3.攻擊時機要與大錘的重心位置相匹配玩家需要根據(jù)大錘的移動軌跡和攻擊模式,提前預判蓄力時機,才能發(fā)揮大錘的最佳效果。通過不斷練習和總結經(jīng)驗,玩家可以更快地掌握大錘的攻擊技巧,提升戰(zhàn)斗表現(xiàn)。 荒野天塹沙原大回復蜜蟲捕獲技巧,怪物獵人荒野:捕捉大回復蜜蟲的技巧全攻略 日產新戰(zhàn)略,日產汽車CEO內田誠即將離任,首席規(guī)劃官繼任 原價機票為何難,3·15調查:490元機票竟附帶230元搭售