久久久久国产一及毛片,亚洲乱码中文论理电影,69无人区码一二三四区别

聲明:本文來自于（ID:ykqsd.com）授權(quán)轉(zhuǎn)載發(fā)布。

**嘉賓：鐘怡然**

**整理工作由劉倩和程曼祺共同完成**

**上期播客中，我們與清華大學(xué)的兩位博士生，肖朝軍和傅天予，就稀疏注意力機(jī)制的改進(jìn)展開了討論，并順著這一線索梳理了大模型優(yōu)化的歷史脈絡(luò)。**

**除了稀疏注意力機(jī)制，我們還探討了另一個重要的改進(jìn)方向：線性注意力。**

**今年1月，Minimax發(fā)布了參數(shù)為4560億的開源大模型Minimax-01，該模型正是采用了他們開發(fā)的線性注意力機(jī)制“Lightning Attention”。**

**為了深入了解這一技術(shù)的開發(fā)歷程，我們邀請了該項(xiàng)目負(fù)責(zé)人、Minimax高級研究總監(jiān)鐘怡然先生，與我們一同探討線性注意力的研發(fā)歷程。鐘怡然在Minimax負(fù)責(zé)大模型網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)工作，目前正致力于開發(fā)多模態(tài)深度推理模型。**

**鐘怡然曾擔(dān)任過上海人工智能實(shí)驗(yàn)室的青年科學(xué)家，是新架構(gòu)探索組的負(fù)責(zé)人；他在澳洲國立大學(xué)獲得了博士學(xué)位，師從李宏東教授和Richard Hartley院士。他的研究團(tuán)隊(duì)已在多個國際頂級學(xué)術(shù)會議和期刊上發(fā)表了超過20篇關(guān)于新模型架構(gòu)的論文，涵蓋了包括線性注意力機(jī)制、長卷積和線性循環(huán)網(wǎng)絡(luò)等在內(nèi)的多種非Transformer架構(gòu)。**

**2021年，隨著線性注意力仍是一個充滿希望但也充滿挑戰(zhàn)的領(lǐng)域，鐘怡然和團(tuán)隊(duì)開始系統(tǒng)性地探索這一技術(shù)的實(shí)現(xiàn)路徑。**

**到了2024年下半年，隨著計(jì)算能力的提升，團(tuán)隊(duì)決定大規(guī)模投入線性架構(gòu)的研究。**

**在訓(xùn)練過程中，團(tuán)隊(duì)通過3700次預(yù)訓(xùn)練測試，驗(yàn)證了這一新架構(gòu)在更大規(guī)模模型上的可行性，盡管這一探索過程充滿了不確定性和風(fēng)險。**

在效率方面，從計(jì)算方式分析，當(dāng)處理的序列變得非常長，線性注意力在效率上的優(yōu)勢將越來越顯著地超過稀疏注意力。

但從實(shí)際效果來看，也就是線性注意力架構(gòu)的模型是否能與 Transformer 模型一樣具有智慧，甚至更聰明。目前還沒有人能夠給出一個令人信服的答案。

這也是 MiniMax 技術(shù)后續(xù)進(jìn)展的一個懸念。

* 這里是本期播客實(shí)錄，有文字精簡。正文中的（注：……）為編者注。

“線性注意力在更大規(guī)模的模型上，優(yōu)勢更加明顯。”

晚點(diǎn)：怡然，可以先和我們的聽眾簡單介紹一下自己？

鐘怡然：我目前是 MiniMax 的高級研究總監(jiān)，主要負(fù)責(zé)模型結(jié)構(gòu)設(shè)計(jì)和多模態(tài)理解大模型。我主導(dǎo)設(shè)計(jì)了 MiniMax-01 新一代的網(wǎng)絡(luò)架構(gòu)，此前曾在上海人工智能實(shí)驗(yàn)室擔(dān)任青年科學(xué)家，負(fù)責(zé)新一代非 Transformer 架構(gòu)的研發(fā)及視聽多模態(tài)融合工作。

我們還在新架構(gòu)的工程實(shí)現(xiàn)上進(jìn)行了一些探索，比如并行策略的應(yīng)用。針對國產(chǎn)集群通信系統(tǒng)效率問題，我們推出了異步優(yōu)化器，并在計(jì)算機(jī)視覺和自然語言處理領(lǐng)域進(jìn)行了有效性驗(yàn)證。

晚點(diǎn)：其實(shí)不只是我們，各家公司都在優(yōu)化注意力機(jī)制，這個背景是什么？

鐘怡然：因?yàn)?Transformer 存在顯存和計(jì)算復(fù)雜度的缺陷：顯存和計(jì)算的開銷呈二次復(fù)雜度增長。FlashAttention 解決了顯存問題，但計(jì)算復(fù)雜度問題依然存在。

學(xué)術(shù)界最早提出稀疏注意力機(jī)制以降低計(jì)算量，但這一方法無法從根本上解決二次復(fù)雜度問題。然而，算力的提升在一定程度上掩蓋了這一問題的緊迫性：從英偉達(dá)的V100到A100再到H100（第三代高性能GPU），計(jì)算能力的增加非常顯著。因此，許多大模型仍然采用Transformer架構(gòu)，這種架構(gòu)的序列長度可以擴(kuò)展到一定的規(guī)模，例如達(dá)到128K、256K等。

我們一直致力于解決計(jì)算復(fù)雜度的二次問題。2021年，當(dāng)線性注意力剛進(jìn)入研究階段時，我們開始探索這一方向。線性注意力的機(jī)制非常簡單：注意力計(jì)算涉及Q、K、V三個矩陣的乘積。

如果按照QK乘以V的方式計(jì)算，計(jì)算復(fù)雜度為二次；如果按照K乘以V再乘以Q的方式，計(jì)算復(fù)雜度則為一次方，不會顯著增加。因此，線性注意力本質(zhì)上是將左乘轉(zhuǎn)換為右乘的形式。

晚點(diǎn)：你們當(dāng)時嘗試過稀疏注意力方向嗎？

鐘怡然：我們2021年時確實(shí)嘗試過，但當(dāng)時的效果和效率都不太理想。其實(shí)和線性注意力面臨的挑戰(zhàn)是一樣的：稀疏注意力的效果并沒有Softmax Attention顯著，速度也只能快一點(diǎn)點(diǎn)。

此外，我注意到稀疏注意力存在逼近上的損失。因?yàn)樽⒁饬仃囀且粋€完整的N×N矩陣，而稀疏注意力僅計(jì)算其中有限個注意力得分。這會顯著降低計(jì)算量，但這種近似方法得不償失。

晚點(diǎn)：你們對NSA、MoBA以及最近微軟亞研院SeerAttention等稀疏注意力方向的研究效果和效率表現(xiàn)有何看法？帶來了哪些新的認(rèn)知？

鐘怡然：目前我們還在進(jìn)行進(jìn)一步的實(shí)驗(yàn)。從我們的實(shí)驗(yàn)來看，Lightning Attention（MiniMax-01中采用的混合注意力機(jī)制）隨著模型參數(shù)的增加，其優(yōu)化效果更為顯著。

我們還測試過兩種改進(jìn)方法：DeepSeek提出的MLA（一種減少顯存開銷的注意力改進(jìn)方法）和清華提出的TPA（注：清華提出的一種減少顯存開銷的注意力改進(jìn)方法）。但發(fā)現(xiàn)這些方法隨著模型規(guī)模的擴(kuò)大，優(yōu)勢逐漸減小，也就是說，它們對模型大小有一定的限制。

相比之下，Lightning Attention在模型規(guī)模擴(kuò)大時，其優(yōu)勢更加明顯。目前發(fā)表的NSA、MoBA、SeerAttention等方法，我們認(rèn)為這些成果尚未真正實(shí)現(xiàn)工業(yè)級的規(guī)模擴(kuò)大（Scale Up）。

晚點(diǎn)：MOBA游戲的代碼是否公開了？它在服務(wù)器上運(yùn)行了一年多。

鐘怡然：在幾百百萬參數(shù)的模型上，我們希望了解稀疏注意力機(jī)制與Transformer的相對優(yōu)勢。目前，它們的性能對比主要集中在7B參數(shù)規(guī)模。而在2023年中期，我們對Lightning Attention機(jī)制的驗(yàn)證工作已經(jīng)完成7B參數(shù)規(guī)模的測試。

晚點(diǎn)：在參數(shù)規(guī)模較小時，稀疏注意力機(jī)制與線性注意力機(jī)制的表現(xiàn)有何不同？

鐘怡然：7B以上規(guī)模的模型中，這種差異會更加明顯。此外，MiniMax-01是一個總參數(shù)量為4560億、激活459億參數(shù)的混合專家模型。

晚點(diǎn)：在學(xué)術(shù)界和工業(yè)界，目前更傾向于研究稀疏注意力機(jī)制還是線性注意力機(jī)制？

鐘怡然：這兩個方向的研究者都不少。2023年之后，線性注意力研究變得熱門，這得益于Mamba模型的興起。

晚點(diǎn)：從Transformer模型的全注意力機(jī)制改進(jìn)程度來看，稀疏注意力機(jī)制的改動相對較小，而線性注意力機(jī)制的改動則更為顯著。

鐘怡然：對，稀疏注意力機(jī)制本質(zhì)上還是基于Transformer架構(gòu)，只是對注意力得分的計(jì)算方式進(jìn)行了改進(jìn)。而線性注意力機(jī)制則是改變了QxKxV矩陣的乘法運(yùn)算。學(xué)術(shù)界對這一機(jī)制的稱呼較多，既可以將其稱為線性注意力機(jī)制，也可以稱之為線性Transformer。

晚點(diǎn)：線性注意力機(jī)制與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）有何區(qū)別？

鐘怡然：它本質(zhì)上也是一種循環(huán)機(jī)制，但與傳統(tǒng)RNN不同的是，線性循環(huán)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)大規(guī)模的并行化。

80%的資源投入，50%的把握

等一下，我們可以從頭開始聊一聊。你們從2021年開始關(guān)注線性注意力，到如今，這個過程是一個怎樣的演變？

鐘怡然：2021年7月，我們在cosFormer項(xiàng)目中啟動，這也是我們首次接觸線性注意力領(lǐng)域。相關(guān)研究成果發(fā)表在ICLR上。如今，cosFormer在線性注意力領(lǐng)域的知名度依然不錯。

當(dāng)時的想法很簡單：一方面，Transform領(lǐng)域已經(jīng)有了許多優(yōu)秀的研究者，即便在這一領(lǐng)域做到極致，也只能算是跟在他人后面。但另一方面，線性注意力作為一個新興方向，關(guān)注者相對較少，與其跟隨他人的步伐，不如另辟蹊徑。

其實(shí)，線性注意力領(lǐng)域的一些論文早在2021年之前就已經(jīng)出現(xiàn)，幾乎與Transformer同時推出。然而，這些方法的效果并不理想，運(yùn)行速度也很慢，因此大家當(dāng)時認(rèn)為這是一個“空中樓閣”，即理論上很有吸引力，但實(shí)際應(yīng)用效果不佳。

2021年至2022年期間，我們在這一領(lǐng)域進(jìn)行了密集探索，提出了一系列方法，包括線性注意力機(jī)制、長卷積和線性循環(huán)網(wǎng)絡(luò)。我們幾乎涵蓋了當(dāng)時所有相關(guān)的線性方案。到2022年底，我們的研究成果在語言建模任務(wù)中，已經(jīng)與Transformer達(dá)到了近乎相同的水平。

等一下，你們當(dāng)時是如何判斷線性架構(gòu)已經(jīng)與Transformer差不多了？

鐘怡然：當(dāng)時我們主要測試了學(xué)術(shù)數(shù)據(jù)集，關(guān)注點(diǎn)包括困惑度、建模精度等指標(biāo)。此外，我們還在一些大型語言模型基準(zhǔn)測試中，將線性方法與Transformer進(jìn)行了對比，甚至測試了Long Range Arena這樣的長文本基準(zhǔn)。

在實(shí)驗(yàn)室階段，我們首先解決了線性注意力的建模精度問題，接著是速度問題。線性注意力雖然在理論上具有線性復(fù)雜度，但在實(shí)際運(yùn)行時卻表現(xiàn)得很慢。這是因?yàn)橛页瞬僮魃婕按罅垦h(huán)操作，這對GPU來說并不友好，導(dǎo)致運(yùn)行效率遠(yuǎn)低于理論復(fù)雜度。為此，我們在2020年推出了TLN和Lightning Attention算法。Lightning Attention通過優(yōu)化，使實(shí)際效率更接近理論計(jì)算復(fù)雜度。

因此，這段經(jīng)歷在我們的實(shí)驗(yàn)室期間，我們認(rèn)為已經(jīng)達(dá)到了"Scale Up ready"的狀態(tài)。我們相信，我們不僅在精度上已經(jīng)解決了一個大問題，還在推理效率上取得了突破。

當(dāng)我們實(shí)現(xiàn)了這個Scale-up ready狀態(tài)時，最大的模型測試規(guī)模是哪一個？

鐘怡然表示，當(dāng)時訓(xùn)練的最大模型規(guī)模是15B參數(shù)。

你們當(dāng)時沒有繼續(xù)進(jìn)行更大的Scaling-up測試，是否是因?yàn)閷?shí)驗(yàn)室資源有限？

鐘怡然表示，要實(shí)現(xiàn)真正的Scaling-up，需要引入外部資金或技術(shù)支持，這確實(shí)是一項(xiàng)挑戰(zhàn)。

那時我是比較著急的，因?yàn)槲遗袛?，最遲在2024年底，基于線性注意力的大模型必然會誕生，不是我們做出來，就是Google、OpenAI等其他機(jī)構(gòu)。既然要誕生，為什么不在我們自己手里了？我們是當(dāng)時最懂線性注意力的人。這一判斷，我們團(tuán)隊(duì)的成員還包括了松林（楊松林），他在我們組內(nèi)工作過。

晚點(diǎn)問，最懂指中國還是指全球？

鐘怡然表示，基本上是全球。包括現(xiàn)在比較活躍的松林（楊松林）之前也是我們組員。

晚點(diǎn)問，你最終找到的投資者是MiniMin嗎？

鐘怡然表示，這其實(shí)是一個雙向的過程。我在商湯工作時，曾在俊杰手下。

晚點(diǎn)問，你是否想過自己創(chuàng)業(yè)？

鐘怡然：我考慮了一下，但這確實(shí)很難?；A(chǔ)架構(gòu)方面的創(chuàng)新需要投入非常大的資金，而我們目前在算法上并沒有明顯的優(yōu)勢。

大模型確實(shí)挺復(fù)雜的，首先架構(gòu)要好，其次訓(xùn)練數(shù)據(jù)要好，最后訓(xùn)練方式也要對，這三個環(huán)節(jié)缺一不可。任何一個環(huán)節(jié)出了問題，都無法證明你真正想要證明的東西。首先我得確保這家公司能在預(yù)訓(xùn)練方面做到一流，這一點(diǎn)已經(jīng)淘汰了很多公司。

晚點(diǎn)：你當(dāng)時問了一些投資人，他們的反饋是怎樣的？

鐘怡然：他們的反饋是，你當(dāng)時需要明確你的應(yīng)用方向是什么？變現(xiàn)渠道是什么？未來如何盈利？

晚點(diǎn)：在公司方面，你當(dāng)時了解的能做一流預(yù)訓(xùn)練的公司有哪些？

鐘怡然：包括大小公司的話，我覺得第一個是字節(jié)跳動，第二個是Minimax。

晚點(diǎn)：Kimi（月之暗面）不是嗎？

鐘怡然：關(guān)于Kimi，我得到的信息不多，所以在當(dāng)時看來，只有兩個選擇，要么海外發(fā)展。

晚點(diǎn)：你和字節(jié)聊了之后，得到了什么反饋？

鐘怡然：我覺得字節(jié)的興致不是很高。雖然作為一家大公司有數(shù)據(jù)和人才，但要讓他們真正轉(zhuǎn)型去投資一個未知的方向，還是比較困難的。

在某個時間點(diǎn)，讓我們回到2023年下半年，你和閆俊杰聊，他的反饋是什么？

鐘怡然：早在2021年時，我和俊杰就非常了解。經(jīng)過交流，我們發(fā)現(xiàn)他對這個工作非常有信心，并且愿意投入大部分精力。

研發(fā)工作需要公司80%-90%的人力資源投入，涉及數(shù)據(jù)、工程和算法等多個部門，需要多部門緊密合作才能完成。

在某個時間點(diǎn)，你比閆俊杰更認(rèn)可我，可能是因?yàn)槲覀冎霸诰€性注意力機(jī)制上有一些共同的探索。

鐘怡然：當(dāng)時他們在下一代模型技術(shù)選型階段，工作量還不大?？〗芸赡苡X得我的工作扎實(shí)可靠，值得信任。

當(dāng)然，俊杰看待這個問題的角度和我不同。我認(rèn)為我們對關(guān)鍵點(diǎn)的把握非常到位，因此相信能夠成功 scalability。

在某個時間點(diǎn)，你認(rèn)為閆俊杰有50%成功的把握，卻愿意投入80%的資源，這個賭性是不是有點(diǎn)大？

鐘怡然：這確實(shí)需要一定的賭性。但我們有 scaling laws 的測試，通過分階段驗(yàn)證來逐步推進(jìn)。我們不是一開始就投入全部資源，而是先在一個成本可控的小規(guī)模模型上進(jìn)行測試，再逐步擴(kuò)大規(guī)模。

在某個時間點(diǎn)，我們一共進(jìn)行了3700次預(yù)訓(xùn)練驗(yàn)證，從“美好的泡泡”到4560億參數(shù)的MiniMax-01。

在某個時間點(diǎn)，你們在一步步驗(yàn)證的過程中，又看到了什么？

鐘怡然：2023年底，我們采用的依然是一個線性架構(gòu)，訓(xùn)練出了一款15B規(guī)模的模型。從實(shí)驗(yàn)結(jié)果來看，其性能與Transformer模型基本持平。

然而，當(dāng)我們擴(kuò)大模型規(guī)模后，發(fā)現(xiàn)無論是采用Lightning注意力機(jī)制，還是其他線性方法，都存在一個顯著的問題——在檢索（Retrieval）能力上表現(xiàn)欠佳。

基于上述問題，我們不得不采取一個權(quán)衡方案。具體來說，我們在模型架構(gòu)中采用混合機(jī)制：每隔7層的線性注意力之后，插入1層Softmax注意力進(jìn)行優(yōu)化。

鐘怡然：可以簡單介紹一下，Retrieval能力指的是什么呢？"大海撈針"任務(wù)又是怎么回事？

鐘怡然：Retrieval能力，簡單來說，就是模型在長文本中發(fā)現(xiàn)異常片段的能力。以"大海撈針"任務(wù)為例，給定一篇長文，其中有一段話或一句話與其他內(nèi)容格格不入，模型需要通過定點(diǎn)召回能力找出這些異常片段。這是一項(xiàng)基礎(chǔ)能力。

線性注意力在執(zhí)行這一任務(wù)時表現(xiàn)出明顯局限性。這是因?yàn)榫€性注意力的KV緩存是一個固定大小的存儲，無論輸入文本長度如何，都會被壓縮到固定大小。這種壓縮過程導(dǎo)致檢索能力顯著下降。

鐘怡然：當(dāng)時壓力很大嗎？因?yàn)槲覀円呀?jīng)在擴(kuò)規(guī)模了。

鐘怡然：當(dāng)時確實(shí)有保底方案，就是混合架構(gòu)。但我們當(dāng)時覺得這個方案不夠美觀。

鐘怡然：所以你們最后采取的改進(jìn)方案是，在技術(shù)報(bào)告中提到每隔十四層或十六層插入一層Softmax注意力？

鐘怡然：對，我們還嘗試了不同的混合比例，測試發(fā)現(xiàn)，檢索能力受到最大影響，而語言建模能力在不同比例下的表現(xiàn)差異不大。

晚點(diǎn)：在實(shí)際操作中，具體采用何種混合比例作為理論指導(dǎo)或依據(jù)？是否有一些理論依據(jù)或預(yù)測值可以用來提前預(yù)判效果？

鐘怡然：這個方案我們是自己探索出來的，沒有現(xiàn)成的理論指導(dǎo)。甚至嘗試過極端情況——僅使用一層Softmax Attention（注：指在大幾十層的模型中，只有一層是Softmax，其他都是線性注意力），結(jié)果也還行。

我們最終選擇這個方案，主要是因?yàn)橐呀?jīng)對架構(gòu)進(jìn)行了較大的調(diào)整，擔(dān)心這樣可能會對效果產(chǎn)生負(fù)面影響，因此選擇了一個相對穩(wěn)妥的1:7的比例。例如，之前采用的Jamba模型也是1:8、1:7這樣的設(shè)置。

（注：Jamba是由AI21 Labs于2024年推出的首個狀態(tài)空間模型-Transformer混合架構(gòu)大模型，支持256K上下文窗口。）

晚點(diǎn)：最開始是如何想到采用混合策略的？

鐘怡然：這其實(shí)是非常符合直覺的一種嘗試。

晚點(diǎn)：在采用了這個混合方案之后，你們的Scaling Laws實(shí)驗(yàn)是如何進(jìn)行的？

鐘怡然：開展Scaling Laws實(shí)驗(yàn)的主要目的是驗(yàn)證這一技術(shù)路線是否存在潛在問題，混合方案的實(shí)驗(yàn)與Scaling Laws測試是同時進(jìn)行的。

我們對多種線性方案進(jìn)行了測試，除了Lightning Attention，還測試了HGRN2、Mamba等。

晚點(diǎn)：這么多實(shí)驗(yàn)，所需資源會非常龐大嗎？

鐘怡然：我們總共訓(xùn)練了3700個模型，最終才發(fā)表了這篇文章。考慮到Scaling Up是一項(xiàng)重大的決策，沒有哪個投資者愿意投入數(shù)千萬資金去訓(xùn)練一個大模型，最后卻以失敗告終。

尤其是這類具有開拓性的研究工作，必須確保在基礎(chǔ)工作上做得非常扎實(shí)。我們需要仔細(xì)選擇參數(shù)和注意力結(jié)構(gòu)，每個方案都需要進(jìn)行一系列基準(zhǔn)測試。最終必須在速度和效果之間找到一個平衡點(diǎn)。因此，一套完整的、嚴(yán)格的對比實(shí)驗(yàn)是必不可少的。如果隨意地決定參數(shù)設(shè)置，雖然可以節(jié)省部分實(shí)驗(yàn)成本，但必然會導(dǎo)致后續(xù)項(xiàng)目失敗的概率增加。

晚點(diǎn)：你們提到訓(xùn)練了3700個模型，是指全部從頭訓(xùn)練，即3700次預(yù)訓(xùn)練嗎？

鐘怡然：是的，所有的模型都是從頭訓(xùn)練的，采用不同大小和不同參數(shù)設(shè)置。因此，開展Scaling Law實(shí)驗(yàn)是一個非常昂貴的過程。

晚點(diǎn)：你們最初預(yù)估需要訓(xùn)練這么多次嗎？整個過程究竟耗費(fèi)了多少資源？

鐘怡然：我們早在項(xiàng)目初期就有預(yù)估，總共需要進(jìn)行3700次預(yù)訓(xùn)練。我們根據(jù)需要的卡數(shù)量、資源數(shù)量和要訓(xùn)練的模型數(shù)量制作了一個Excel表格，按照這個計(jì)劃去執(zhí)行。

晚點(diǎn)：你們的混合線性注意力結(jié)構(gòu)在實(shí)際效率上有怎樣的提升？

鐘怡然：在序列長度為100萬的情況下，相較于全注意力模型，整體處理速度提升了2700倍。

晚點(diǎn)：在速度和效果之間如何保障模型性能？例如，在MiniMax-01、Kimi-k1.5以及DeepSeek-R1發(fā)布之后，我在朋友的電腦上測試了實(shí)際效果，輸入了一篇約2萬字的英文文章，詳細(xì)描述了海外社交媒體的使用方式，其中包含許多功能。我們希望模型回答一個具體問題——人們?nèi)绾问褂蒙缃幻襟w上的短視頻功能。測試結(jié)果顯示，MiniMax-01和DeepSeek-R1的表現(xiàn)都不及Kimi-k1.5，它們會回答一些其他的問題。造成這種差距的原因是什么？

鐘怡然：這主要是由于MiniMax-01和DeepSeek-R1在某些關(guān)鍵組件上的設(shè)計(jì)差異導(dǎo)致的。盡管它們在某些方面表現(xiàn)出了更高的靈活性，但在處理復(fù)雜的邏輯關(guān)系時，卻未能達(dá)到Kimi-k1.5的水平。

鐘怡然：實(shí)際上，您提到的那種能力，與訓(xùn)練數(shù)據(jù)密切相關(guān)。我們只能確保模型具有展現(xiàn)這種能力的潛力，但要真正擁有這種能力，訓(xùn)練數(shù)據(jù)的作用至關(guān)重要。您提出的問題，正是我們下一代模型需要解決的。

晚點(diǎn)：目前 MiniMax-01 不是一個推理模型，像 R1 還有 1.5 它是推理模型。那你們現(xiàn)在這個架構(gòu)去做推理，就是去結(jié)合強(qiáng)化學(xué)習(xí)，它的潛力、方法是怎樣的？

鐘怡然：我 “盜用” 一下另一家國內(nèi)大模型公司的結(jié)論，他們認(rèn)為 Linear 架構(gòu)在推理上會更強(qiáng)一點(diǎn)，他們也在線性架構(gòu)模型上開展過深度推理的相關(guān)實(shí)驗(yàn)，結(jié)果顯示線性模型表現(xiàn)更為出色。

晚點(diǎn)：那你們自己看到的是什么？

鐘怡然：我們正在做，現(xiàn)在還不能說得更詳細(xì)。因?yàn)樽铋_始我們并沒有選擇去馬上跟 o1（這個方向），當(dāng)時國內(nèi)有一大批追隨者，但我們的想法是先扎實(shí)提升自身技術(shù)能力。我們認(rèn)為單純強(qiáng)調(diào)推理能力，可能僅會在某些特定方面增強(qiáng)模型性能。然而，R1 發(fā)布后，我們發(fā)現(xiàn)融入這些推理能力，模型的外推能力顯著提升，泛化能力更好。

晚點(diǎn)：你們當(dāng)時研判要把技術(shù)基礎(chǔ)先做扎實(shí)，這些指的是什么？

鐘怡然：我們希望這個模型能在內(nèi)部榜單上跟 4o 差不多，或者跟世界頂尖模型差不多。當(dāng)時的話 4o 是最先進(jìn)的模型。

晚點(diǎn)：你們會比較去追求多模態(tài)嗎？4o 是一個混合模態(tài)的模型。

鐘怡然：后來我也接手了多模態(tài)理解大模型相關(guān)工作。當(dāng)時在構(gòu)建多模態(tài)模型方面，存在兩條可行路徑：一是原生多模態(tài)，二是基于 adapter（適配器）形式的多模態(tài)。經(jīng)過考量，我判斷我們當(dāng)時應(yīng)采用 adapter 形式。因?yàn)樵谀菚r，原生多模態(tài)的實(shí)現(xiàn)路徑尚未完全打通，比如 Gemini-2.0 還未發(fā)布。

這個方案優(yōu)勢明顯。其一，我們能夠快速驗(yàn)證數(shù)據(jù)是否存在問題；其二，效果能夠迅速顯現(xiàn)。只需投入較小成本，就能獲得性能較好的模型。從我們發(fā)布的 VL01 來看，benchmark 結(jié)果還是不錯的。

晚些時候：可以這樣理解，MiniMax-01 在 MiniMax 主線模型中確實(shí)是一次重大的轉(zhuǎn)型或升級。此前的 ABAB 系列采用的是 Transformer 架構(gòu)，而 MiniMax-01 則采用了線性架構(gòu)——它涵蓋了語言處理、多模態(tài)內(nèi)容以及未來模型進(jìn)展的各個方面。

張遠(yuǎn)：對，這段模型的升級確實(shí)進(jìn)展得比較快。

晚些時候：為什么 MiniMax 選擇投入研發(fā)這個技術(shù)要求相對較高、變革較大的項(xiàng)目？

張遠(yuǎn)：首先，我們想通過這個項(xiàng)目展現(xiàn)自身的技術(shù)實(shí)力。我們是一家勇于創(chuàng)新的公司，敢于押注新技術(shù)。目前，我們已經(jīng)將序列長度提升到了 4 million（400 萬），并且我們也能夠承受將序列長度提升到 10 million（1000 萬）。

不過（如果要做 10 million 的序列長度）：當(dāng)下需要考慮的有兩個問題，一是如何構(gòu)建 10 million 級別的數(shù)據(jù)集，二是提升到 10 million 序列長度后，模型在實(shí)際應(yīng)用中又能實(shí)現(xiàn)什么價值。目前，我們的計(jì)劃是先把 1 million 以內(nèi)的相關(guān)工作做到極致，然后再向外進(jìn)行推廣。

晚些時候：經(jīng)過推理，你們希望探索什么？具體來說，是從 o1 之后全面引入強(qiáng)化學(xué)習(xí)到 Transformer 的整個流程中，接下來可能會有什么樣的技術(shù)變化？

張遠(yuǎn)：目前，行業(yè)還在做深度推理，這一領(lǐng)域的應(yīng)用剛剛起步，我們還處于跟跑階段。但我們認(rèn)為，長文本處理在未來將會是一個重要的趨勢。我們欣喜地看到，像 kim、DeepSeek 這樣的公司，都已經(jīng)推出了各自針對長文本優(yōu)化的模型架構(gòu)，這意味著大家已經(jīng)開始進(jìn)入這條賽道。

在我看來，俊杰也比較清楚：我們走的是長線戰(zhàn)略，短期內(nèi)在應(yīng)用效果上可能會落后一些。因?yàn)槲覀儾捎昧诵碌募軜?gòu)，同樣的計(jì)算能力和資源下，我們的人力有限，無法像其他公司那樣進(jìn)行深度推理。這會導(dǎo)致我們在深度推理的道路上步履維艱。

但另一方面，當(dāng)我們專注于進(jìn)行深度推理研究時——我們前進(jìn)的步伐會很快。因此，在這場競爭中，我們實(shí)際上參與的是長跑的后半段。我們押注的正是未來長文本處理的需求。當(dāng)線性注意力模型在規(guī)模達(dá)到一定程度時，在長文本賽道上就很難再有對手了。

做技術(shù)的“道心”之爭

小北：對稀疏注意力進(jìn)行優(yōu)化后，DeepSeek、Kimi 等公司的效率和效果都有所提升，你覺得這個方向如何？

鐘怡然：他們的主要創(chuàng)新點(diǎn)在于通過極致的工程優(yōu)化，解決了稀疏注意力在速度上不足的問題。但稀疏注意力的上限其實(shí)并不高，我不認(rèn)為 DeepSeek 會繼續(xù)沿用這種策略。因?yàn)楫?dāng)模型尺寸增大，線性注意力相比稀疏注意力的優(yōu)勢會更加明顯，他們在進(jìn)行大規(guī)模模型實(shí)驗(yàn)時也會注意到這一點(diǎn)。

小北：線性注意力的上限較高，而且在實(shí)際應(yīng)用中也能發(fā)揮作用，那么這個觀點(diǎn)在行業(yè)內(nèi)是被廣泛接受的，還是存在爭議？

鐘怡然：這是一個爭議性的觀點(diǎn)。目前，很多人的共識是，認(rèn)為線性注意力在原理上是有損的優(yōu)化。畢竟，從計(jì)算復(fù)雜度上看，使用一次計(jì)算去近似二次計(jì)算，似乎是有損的。但有人認(rèn)為，二次計(jì)算的復(fù)雜性可能在實(shí)際應(yīng)用中是冗余的，而線性注意力其實(shí)可以作為一種無損優(yōu)化，尤其是在混合架構(gòu)中，效果甚至?xí)谩?/p>

小北：有人擔(dān)心這點(diǎn)，可能是因?yàn)?MiniMax-01 的宣傳力度不夠，導(dǎo)致很多人沒注意到。目前很多人的共識是，認(rèn)為線性注意力屬于有損的優(yōu)化。畢竟從原理上看，用一次計(jì)算去逼近二次計(jì)算，好像是有損的。但有沒有可能這種二次計(jì)算復(fù)雜度本身就是冗余的呢？而我們認(rèn)為，它就是一個無損架構(gòu)、一個無損優(yōu)化，特別是變成混合架構(gòu)以后，它的效果甚至還有增強(qiáng)。

鐘怡然：這屬于學(xué)術(shù)界的一個“道心之爭”——技術(shù)判斷和你的信仰是什么。

小北：據(jù)我所知，像 OpenAI、Anthropic 這樣的國外頂尖 AI 公司，他們在嘗試使用線性架構(gòu)嗎？

鐘怡然：他們的架構(gòu)很可能基于 Sliding Window Attention（滑動窗口注意力），這也是一種稀疏注意力。而像 Google 這樣的公司，通常采用的方法可能是滑動窗口加全注意力（Sliding Window Attention + Full Attention）。

小北：所以，他們對線性的信任，也不完全來自全球頂尖公司是否真的做了什么或者沒有做？

鐘怡然：對，他們的信任更多是基于現(xiàn)有的實(shí)驗(yàn)結(jié)果和方法論的創(chuàng)新，而不僅僅是是否采用過某種架構(gòu)。

鐘怡然：是的，我們不僅將論文轉(zhuǎn)化為產(chǎn)品，現(xiàn)在 MiniMax 的產(chǎn)品已經(jīng)開始采用這一架構(gòu)設(shè)計(jì)，這表明我們的技術(shù)確實(shí)具有先進(jìn)性。這篇論文發(fā)表于 24 年初，而產(chǎn)品（開始采用這一架構(gòu)）則是在 24 年底推出。

晚點(diǎn)：你剛才提到，認(rèn)可線性注意力上限大且可行，在業(yè)界這是一個非共識。現(xiàn)在你愿意討論這一觀點(diǎn)嗎？

鐘怡然：不需要介意，我們希望更多人能夠采用線性注意力技術(shù)，也希望更多人共同開發(fā)長文本應(yīng)用。我們選擇開源 MiniMax-01，正是出于這一考慮。

晚點(diǎn)：那么你們對 MiniMax-01 這次開源的反饋和影響力滿意嗎？

鐘怡然：有朋友認(rèn)為這份報(bào)告寫得不錯，工作也扎實(shí)，但為什么沒有更多人知道呢？我覺得這恰恰是需要加強(qiáng)傳播的原因。同時，我們下一代模型將會做得更好。

晚點(diǎn)：在開源 MiniMax-01 時，你們只發(fā)布了最大參數(shù)版本的模型，沒有發(fā)布不同尺寸版本。這是因?yàn)檩^小尺寸的模型更適合學(xué)界、個人開發(fā)者以及小型機(jī)構(gòu)使用，從而讓更多人能夠參與進(jìn)來。

鐘怡然：我們確實(shí)有不同尺寸的模型，但俊杰認(rèn)為更應(yīng)該重視效果，建議先開源效果較好的模型，再考慮開源小模型。此外，開源不同模型需要維護(hù)不同的版本，這也增加了管理上的復(fù)雜性。

晚點(diǎn)： DeepSeek 春節(jié)期間大肆營銷后，你們的內(nèi)部氛圍有什么變化嗎？

鐘怡然： DeepSeek 并沒有讓我們過年（笑）。我們正在加快推理模型的研發(fā)進(jìn)度，并計(jì)劃在性能上超越 R1 模型，甚至達(dá)到 o1 或 o3 水平。

我們選了一個較為激進(jìn)的方案：它將是一個原生多模態(tài)的深度推理模型，最大的挑戰(zhàn)在于如何平衡文本理解和視覺理解能力，使得兩者都能達(dá)到很強(qiáng)的水平。目前的實(shí)驗(yàn)結(jié)果已經(jīng)證明了這一設(shè)想的可行性。

晚點(diǎn)：這次你有多大把握能順利推進(jìn)工作？

鐘怡然：大概七成左右。

晚點(diǎn)：預(yù)計(jì)什么時候能將這個模型推向市場？

鐘怡然：目前我們把全部精力都投入到提升模型的上限，我們認(rèn)為，相比維護(hù)現(xiàn)有產(chǎn)品，提升上限更為重要。

晚點(diǎn)：你如何看待DeepSeek雖然沒有真正落地 usable 的產(chǎn)品，但聲勢浩大？

鐘怡然：我 personally believe，雖然模型效果非常出色，是出圈的基礎(chǔ)，但另一方面，它的火爆還與多方面因素有關(guān)。

我們難以預(yù)判這類突然發(fā)生的事情，但如果有一項(xiàng)新技術(shù)，希望讓更多人了解，該怎么做呢？最好的方法就是將其轉(zhuǎn)化為產(chǎn)品。

晚點(diǎn)：所以你仍然認(rèn)為，一個正常的技術(shù)公司，只靠技術(shù)本身，難以實(shí)現(xiàn)長時間的正面反饋和護(hù)城河。

鐘怡然：對。到了2023年，我們想推出線性注意力模型，也借助了上海人工智能實(shí)驗(yàn)室的一些資源進(jìn)行推廣。但當(dāng)時我發(fā)現(xiàn)，要說服大家確實(shí)很難。

當(dāng)時我就想，我該怎么辦？我只能去找一個愿意相信這個架構(gòu)的人，把它放到產(chǎn)品里——驗(yàn)證一個新技術(shù)有說服力的最好方式就是讓它進(jìn)入市場。

晚點(diǎn)：你對人工智能的追求是什么？

鐘怡然：我希望創(chuàng)建一個能夠真正自我學(xué)習(xí)、自我進(jìn)化的模型。通過將人類所能感知到的所有信息作為輸入，該模型將能夠自主探索不同模態(tài)之間的關(guān)系，并具備文本處理等技能，這些能力也是通過自監(jiān)督學(xué)習(xí)實(shí)現(xiàn)的。

如果要實(shí)現(xiàn)這一目標(biāo)，首先需要構(gòu)建文本模型，接著是多模態(tài)模型，最后探索如何讓模型自主學(xué)習(xí)不同模態(tài)之間的關(guān)系。這一過程與人類的學(xué)習(xí)方式相似，人類也是通過類似的步驟逐步掌握知識的。

附：文中提到的主要工作的 GitHub 或 arXiv 鏈接：

MiniMax-01：

https://github.com/MiniMax-AI/MiniMax-01

Lightning Attention：

https://github.com/OpenNLPLab/lightning-attention

cosFormer：

https://github.com/OpenNLPLab/cosFormer

項(xiàng)目信息如下：

官方GitHub存儲庫：https://github.com/state-spaces/mamba

GitHub個人存儲空間：https://github.com/kyegomez/Jamba

題圖來源：《美麗心靈》電影截圖