国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長之家 - 業(yè)界 2025-03-10 14:23:09

鐘怡然Minimax-01Lightning Attention,線性注意力非共識的3700次預(yù)訓(xùn)練探索:MiniMax-01——開發(fā)者用4年時間探索人工智能新方向

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

**嘉賓:鐘怡然**

**整理工作由劉倩和程曼祺共同完成**

**上期播客中,我們與清華大學(xué)的兩位博士生,肖朝軍和傅天予,就稀疏注意力機制的改進展開了討論,并順著這一線索梳理了大模型優(yōu)化的歷史脈絡(luò)。**

**除了稀疏注意力機制,我們還探討了另一個重要的改進方向:線性注意力。**

**今年1月,Minimax發(fā)布了參數(shù)為4560億的開源大模型Minimax-01,該模型正是采用了他們開發(fā)的線性注意力機制“Lightning Attention”。**

**為了深入了解這一技術(shù)的開發(fā)歷程,我們邀請了該項目負(fù)責(zé)人、Minimax高級研究總監(jiān)鐘怡然先生,與我們一同探討線性注意力的研發(fā)歷程。鐘怡然在Minimax負(fù)責(zé)大模型網(wǎng)絡(luò)架構(gòu)設(shè)計工作,目前正致力于開發(fā)多模態(tài)深度推理模型。**

**鐘怡然曾擔(dān)任過上海人工智能實驗室的青年科學(xué)家,是新架構(gòu)探索組的負(fù)責(zé)人;他在澳洲國立大學(xué)獲得了博士學(xué)位,師從李宏東教授和Richard Hartley院士。他的研究團隊已在多個國際頂級學(xué)術(shù)會議和期刊上發(fā)表了超過20篇關(guān)于新模型架構(gòu)的論文,涵蓋了包括線性注意力機制、長卷積和線性循環(huán)網(wǎng)絡(luò)等在內(nèi)的多種非Transformer架構(gòu)。**

**2021年,隨著線性注意力仍是一個充滿希望但也充滿挑戰(zhàn)的領(lǐng)域,鐘怡然和團隊開始系統(tǒng)性地探索這一技術(shù)的實現(xiàn)路徑。**

**到了2024年下半年,隨著計算能力的提升,團隊決定大規(guī)模投入線性架構(gòu)的研究。**

**在訓(xùn)練過程中,團隊通過3700次預(yù)訓(xùn)練測試,驗證了這一新架構(gòu)在更大規(guī)模模型上的可行性,盡管這一探索過程充滿了不確定性和風(fēng)險。**

在效率方面,從計算方式分析,當(dāng)處理的序列變得非常長,線性注意力在效率上的優(yōu)勢將越來越顯著地超過稀疏注意力。

但從實際效果來看,也就是線性注意力架構(gòu)的模型是否能與 Transformer 模型一樣具有智慧,甚至更聰明。目前還沒有人能夠給出一個令人信服的答案。

這也是 MiniMax 技術(shù)后續(xù)進展的一個懸念。

* 這里是本期播客實錄,有文字精簡。正文中的(注:……)為編者注。

“線性注意力在更大規(guī)模的模型上,優(yōu)勢更加明顯。”

晚點:怡然,可以先和我們的聽眾簡單介紹一下自己?

鐘怡然:我目前是 MiniMax 的高級研究總監(jiān),主要負(fù)責(zé)模型結(jié)構(gòu)設(shè)計和多模態(tài)理解大模型。我主導(dǎo)設(shè)計了 MiniMax-01 新一代的網(wǎng)絡(luò)架構(gòu),此前曾在上海人工智能實驗室擔(dān)任青年科學(xué)家,負(fù)責(zé)新一代非 Transformer 架構(gòu)的研發(fā)及視聽多模態(tài)融合工作。

我們還在新架構(gòu)的工程實現(xiàn)上進行了一些探索,比如并行策略的應(yīng)用。針對國產(chǎn)集群通信系統(tǒng)效率問題,我們推出了異步優(yōu)化器,并在計算機視覺和自然語言處理領(lǐng)域進行了有效性驗證。

晚點:其實不只是我們,各家公司都在優(yōu)化注意力機制,這個背景是什么?

鐘怡然:因為 Transformer 存在顯存和計算復(fù)雜度的缺陷:顯存和計算的開銷呈二次復(fù)雜度增長。FlashAttention 解決了顯存問題,但計算復(fù)雜度問題依然存在。

學(xué)術(shù)界最早提出稀疏注意力機制以降低計算量,但這一方法無法從根本上解決二次復(fù)雜度問題。然而,算力的提升在一定程度上掩蓋了這一問題的緊迫性:從英偉達的V100到A100再到H100(第三代高性能GPU),計算能力的增加非常顯著。因此,許多大模型仍然采用Transformer架構(gòu),這種架構(gòu)的序列長度可以擴展到一定的規(guī)模,例如達到128K、256K等。

我們一直致力于解決計算復(fù)雜度的二次問題。2021年,當(dāng)線性注意力剛進入研究階段時,我們開始探索這一方向。線性注意力的機制非常簡單:注意力計算涉及Q、K、V三個矩陣的乘積。

如果按照QK乘以V的方式計算,計算復(fù)雜度為二次;如果按照K乘以V再乘以Q的方式,計算復(fù)雜度則為一次方,不會顯著增加。因此,線性注意力本質(zhì)上是將左乘轉(zhuǎn)換為右乘的形式。

晚點:你們當(dāng)時嘗試過稀疏注意力方向嗎?

鐘怡然:我們2021年時確實嘗試過,但當(dāng)時的效果和效率都不太理想。其實和線性注意力面臨的挑戰(zhàn)是一樣的:稀疏注意力的效果并沒有Softmax Attention顯著,速度也只能快一點點。

此外,我注意到稀疏注意力存在逼近上的損失。因為注意力矩陣是一個完整的N×N矩陣,而稀疏注意力僅計算其中有限個注意力得分。這會顯著降低計算量,但這種近似方法得不償失。

晚點:你們對NSA、MoBA以及最近微軟亞研院SeerAttention等稀疏注意力方向的研究效果和效率表現(xiàn)有何看法?帶來了哪些新的認(rèn)知?

鐘怡然:目前我們還在進行進一步的實驗。從我們的實驗來看,Lightning Attention(MiniMax-01中采用的混合注意力機制)隨著模型參數(shù)的增加,其優(yōu)化效果更為顯著。

我們還測試過兩種改進方法:DeepSeek提出的MLA(一種減少顯存開銷的注意力改進方法)和清華提出的TPA(注:清華提出的一種減少顯存開銷的注意力改進方法)。但發(fā)現(xiàn)這些方法隨著模型規(guī)模的擴大,優(yōu)勢逐漸減小,也就是說,它們對模型大小有一定的限制。

相比之下,Lightning Attention在模型規(guī)模擴大時,其優(yōu)勢更加明顯。目前發(fā)表的NSA、MoBA、SeerAttention等方法,我們認(rèn)為這些成果尚未真正實現(xiàn)工業(yè)級的規(guī)模擴大(Scale Up)。

晚點:MOBA游戲的代碼是否公開了?它在服務(wù)器上運行了一年多。

鐘怡然:在幾百百萬參數(shù)的模型上,我們希望了解稀疏注意力機制與Transformer的相對優(yōu)勢。目前,它們的性能對比主要集中在7B參數(shù)規(guī)模。而在2023年中期,我們對Lightning Attention機制的驗證工作已經(jīng)完成7B參數(shù)規(guī)模的測試。

晚點:在參數(shù)規(guī)模較小時,稀疏注意力機制與線性注意力機制的表現(xiàn)有何不同?

鐘怡然:7B以上規(guī)模的模型中,這種差異會更加明顯。此外,MiniMax-01是一個總參數(shù)量為4560億、激活459億參數(shù)的混合專家模型。

晚點:在學(xué)術(shù)界和工業(yè)界,目前更傾向于研究稀疏注意力機制還是線性注意力機制?

鐘怡然:這兩個方向的研究者都不少。2023年之后,線性注意力研究變得熱門,這得益于Mamba模型的興起。

晚點:從Transformer模型的全注意力機制改進程度來看,稀疏注意力機制的改動相對較小,而線性注意力機制的改動則更為顯著。

鐘怡然:對,稀疏注意力機制本質(zhì)上還是基于Transformer架構(gòu),只是對注意力得分的計算方式進行了改進。而線性注意力機制則是改變了QxKxV矩陣的乘法運算。學(xué)術(shù)界對這一機制的稱呼較多,既可以將其稱為線性注意力機制,也可以稱之為線性Transformer。

晚點:線性注意力機制與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)有何區(qū)別?

鐘怡然:它本質(zhì)上也是一種循環(huán)機制,但與傳統(tǒng)RNN不同的是,線性循環(huán)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)大規(guī)模的并行化。

80%的資源投入,50%的把握

等一下,我們可以從頭開始聊一聊。你們從2021年開始關(guān)注線性注意力,到如今,這個過程是一個怎樣的演變?

鐘怡然:2021年7月,我們在cosFormer項目中啟動,這也是我們首次接觸線性注意力領(lǐng)域。相關(guān)研究成果發(fā)表在ICLR上。如今,cosFormer在線性注意力領(lǐng)域的知名度依然不錯。

當(dāng)時的想法很簡單:一方面,Transform領(lǐng)域已經(jīng)有了許多優(yōu)秀的研究者,即便在這一領(lǐng)域做到極致,也只能算是跟在他人后面。但另一方面,線性注意力作為一個新興方向,關(guān)注者相對較少,與其跟隨他人的步伐,不如另辟蹊徑。

其實,線性注意力領(lǐng)域的一些論文早在2021年之前就已經(jīng)出現(xiàn),幾乎與Transformer同時推出。然而,這些方法的效果并不理想,運行速度也很慢,因此大家當(dāng)時認(rèn)為這是一個“空中樓閣”,即理論上很有吸引力,但實際應(yīng)用效果不佳。

2021年至2022年期間,我們在這一領(lǐng)域進行了密集探索,提出了一系列方法,包括線性注意力機制、長卷積和線性循環(huán)網(wǎng)絡(luò)。我們幾乎涵蓋了當(dāng)時所有相關(guān)的線性方案。到2022年底,我們的研究成果在語言建模任務(wù)中,已經(jīng)與Transformer達到了近乎相同的水平。

等一下,你們當(dāng)時是如何判斷線性架構(gòu)已經(jīng)與Transformer差不多了?

鐘怡然:當(dāng)時我們主要測試了學(xué)術(shù)數(shù)據(jù)集,關(guān)注點包括困惑度、建模精度等指標(biāo)。此外,我們還在一些大型語言模型基準(zhǔn)測試中,將線性方法與Transformer進行了對比,甚至測試了Long Range Arena這樣的長文本基準(zhǔn)。

在實驗室階段,我們首先解決了線性注意力的建模精度問題,接著是速度問題。線性注意力雖然在理論上具有線性復(fù)雜度,但在實際運行時卻表現(xiàn)得很慢。這是因為右乘操作涉及大量循環(huán)操作,這對GPU來說并不友好,導(dǎo)致運行效率遠(yuǎn)低于理論復(fù)雜度。為此,我們在2020年推出了TLN和Lightning Attention算法。Lightning Attention通過優(yōu)化,使實際效率更接近理論計算復(fù)雜度。

因此,這段經(jīng)歷在我們的實驗室期間,我們認(rèn)為已經(jīng)達到了"Scale Up ready"的狀態(tài)。我們相信,我們不僅在精度上已經(jīng)解決了一個大問題,還在推理效率上取得了突破。

當(dāng)我們實現(xiàn)了這個Scale-up ready狀態(tài)時,最大的模型測試規(guī)模是哪一個?

鐘怡然表示,當(dāng)時訓(xùn)練的最大模型規(guī)模是15B參數(shù)。

你們當(dāng)時沒有繼續(xù)進行更大的Scaling-up測試,是否是因為實驗室資源有限?

鐘怡然表示,要實現(xiàn)真正的Scaling-up,需要引入外部資金或技術(shù)支持,這確實是一項挑戰(zhàn)。

那時我是比較著急的,因為我判斷,最遲在2024年底,基于線性注意力的大模型必然會誕生,不是我們做出來,就是Google、OpenAI等其他機構(gòu)。既然要誕生,為什么不在我們自己手里了?我們是當(dāng)時最懂線性注意力的人。這一判斷,我們團隊的成員還包括了松林(楊松林),他在我們組內(nèi)工作過。

晚點問,最懂指中國還是指全球?

鐘怡然表示,基本上是全球。包括現(xiàn)在比較活躍的松林(楊松林)之前也是我們組員。

晚點問,你最終找到的投資者是MiniMin嗎?

鐘怡然表示,這其實是一個雙向的過程。我在商湯工作時,曾在俊杰手下。

晚點問,你是否想過自己創(chuàng)業(yè)?

鐘怡然:我考慮了一下,但這確實很難?;A(chǔ)架構(gòu)方面的創(chuàng)新需要投入非常大的資金,而我們目前在算法上并沒有明顯的優(yōu)勢。

大模型確實挺復(fù)雜的,首先架構(gòu)要好,其次訓(xùn)練數(shù)據(jù)要好,最后訓(xùn)練方式也要對,這三個環(huán)節(jié)缺一不可。任何一個環(huán)節(jié)出了問題,都無法證明你真正想要證明的東西。首先我得確保這家公司能在預(yù)訓(xùn)練方面做到一流,這一點已經(jīng)淘汰了很多公司。

晚點:你當(dāng)時問了一些投資人,他們的反饋是怎樣的?

鐘怡然:他們的反饋是,你當(dāng)時需要明確你的應(yīng)用方向是什么?變現(xiàn)渠道是什么?未來如何盈利?

晚點:在公司方面,你當(dāng)時了解的能做一流預(yù)訓(xùn)練的公司有哪些?

鐘怡然:包括大小公司的話,我覺得第一個是字節(jié)跳動,第二個是Minimax。

晚點:Kimi(月之暗面)不是嗎?

鐘怡然:關(guān)于Kimi,我得到的信息不多,所以在當(dāng)時看來,只有兩個選擇,要么海外發(fā)展。

晚點:你和字節(jié)聊了之后,得到了什么反饋?

鐘怡然:我覺得字節(jié)的興致不是很高。雖然作為一家大公司有數(shù)據(jù)和人才,但要讓他們真正轉(zhuǎn)型去投資一個未知的方向,還是比較困難的。

在某個時間點,讓我們回到2023年下半年,你和閆俊杰聊,他的反饋是什么?

鐘怡然:早在2021年時,我和俊杰就非常了解。經(jīng)過交流,我們發(fā)現(xiàn)他對這個工作非常有信心,并且愿意投入大部分精力。

研發(fā)工作需要公司80%-90%的人力資源投入,涉及數(shù)據(jù)、工程和算法等多個部門,需要多部門緊密合作才能完成。

在某個時間點,你比閆俊杰更認(rèn)可我,可能是因為我們之前在線性注意力機制上有一些共同的探索。

鐘怡然:當(dāng)時他們在下一代模型技術(shù)選型階段,工作量還不大。俊杰可能覺得我的工作扎實可靠,值得信任。

當(dāng)然,俊杰看待這個問題的角度和我不同。我認(rèn)為我們對關(guān)鍵點的把握非常到位,因此相信能夠成功 scalability。

在某個時間點,你認(rèn)為閆俊杰有50%成功的把握,卻愿意投入80%的資源,這個賭性是不是有點大?

鐘怡然:這確實需要一定的賭性。但我們有 scaling laws 的測試,通過分階段驗證來逐步推進。我們不是一開始就投入全部資源,而是先在一個成本可控的小規(guī)模模型上進行測試,再逐步擴大規(guī)模。

在某個時間點,我們一共進行了3700次預(yù)訓(xùn)練驗證,從“美好的泡泡”到4560億參數(shù)的MiniMax-01。

在某個時間點,你們在一步步驗證的過程中,又看到了什么?

鐘怡然:2023年底,我們采用的依然是一個線性架構(gòu),訓(xùn)練出了一款15B規(guī)模的模型。從實驗結(jié)果來看,其性能與Transformer模型基本持平。

然而,當(dāng)我們擴大模型規(guī)模后,發(fā)現(xiàn)無論是采用Lightning注意力機制,還是其他線性方法,都存在一個顯著的問題——在檢索(Retrieval)能力上表現(xiàn)欠佳。

基于上述問題,我們不得不采取一個權(quán)衡方案。具體來說,我們在模型架構(gòu)中采用混合機制:每隔7層的線性注意力之后,插入1層Softmax注意力進行優(yōu)化。

鐘怡然:可以簡單介紹一下,Retrieval能力指的是什么呢?"大海撈針"任務(wù)又是怎么回事?

鐘怡然:Retrieval能力,簡單來說,就是模型在長文本中發(fā)現(xiàn)異常片段的能力。以"大海撈針"任務(wù)為例,給定一篇長文,其中有一段話或一句話與其他內(nèi)容格格不入,模型需要通過定點召回能力找出這些異常片段。這是一項基礎(chǔ)能力。

線性注意力在執(zhí)行這一任務(wù)時表現(xiàn)出明顯局限性。這是因為線性注意力的KV緩存是一個固定大小的存儲,無論輸入文本長度如何,都會被壓縮到固定大小。這種壓縮過程導(dǎo)致檢索能力顯著下降。

鐘怡然:當(dāng)時壓力很大嗎?因為我們已經(jīng)在擴規(guī)模了。

鐘怡然:當(dāng)時確實有保底方案,就是混合架構(gòu)。但我們當(dāng)時覺得這個方案不夠美觀。

鐘怡然:所以你們最后采取的改進方案是,在技術(shù)報告中提到每隔十四層或十六層插入一層Softmax注意力?

鐘怡然:對,我們還嘗試了不同的混合比例,測試發(fā)現(xiàn),檢索能力受到最大影響,而語言建模能力在不同比例下的表現(xiàn)差異不大。

晚點:在實際操作中,具體采用何種混合比例作為理論指導(dǎo)或依據(jù)?是否有一些理論依據(jù)或預(yù)測值可以用來提前預(yù)判效果?

鐘怡然:這個方案我們是自己探索出來的,沒有現(xiàn)成的理論指導(dǎo)。甚至嘗試過極端情況——僅使用一層Softmax Attention(注:指在大幾十層的模型中,只有一層是Softmax,其他都是線性注意力),結(jié)果也還行。

我們最終選擇這個方案,主要是因為已經(jīng)對架構(gòu)進行了較大的調(diào)整,擔(dān)心這樣可能會對效果產(chǎn)生負(fù)面影響,因此選擇了一個相對穩(wěn)妥的1:7的比例。例如,之前采用的Jamba模型也是1:8、1:7這樣的設(shè)置。

(注:Jamba是由AI21 Labs于2024年推出的首個狀態(tài)空間模型-Transformer混合架構(gòu)大模型,支持256K上下文窗口。)

晚點:最開始是如何想到采用混合策略的?

鐘怡然:這其實是非常符合直覺的一種嘗試。

晚點:在采用了這個混合方案之后,你們的Scaling Laws實驗是如何進行的?

鐘怡然:開展Scaling Laws實驗的主要目的是驗證這一技術(shù)路線是否存在潛在問題,混合方案的實驗與Scaling Laws測試是同時進行的。

我們對多種線性方案進行了測試,除了Lightning Attention,還測試了HGRN2、Mamba等。

晚點:這么多實驗,所需資源會非常龐大嗎?

鐘怡然:我們總共訓(xùn)練了3700個模型,最終才發(fā)表了這篇文章??紤]到Scaling Up是一項重大的決策,沒有哪個投資者愿意投入數(shù)千萬資金去訓(xùn)練一個大模型,最后卻以失敗告終。

尤其是這類具有開拓性的研究工作,必須確保在基礎(chǔ)工作上做得非常扎實。我們需要仔細(xì)選擇參數(shù)和注意力結(jié)構(gòu),每個方案都需要進行一系列基準(zhǔn)測試。最終必須在速度和效果之間找到一個平衡點。因此,一套完整的、嚴(yán)格的對比實驗是必不可少的。如果隨意地決定參數(shù)設(shè)置,雖然可以節(jié)省部分實驗成本,但必然會導(dǎo)致后續(xù)項目失敗的概率增加。

晚點:你們提到訓(xùn)練了3700個模型,是指全部從頭訓(xùn)練,即3700次預(yù)訓(xùn)練嗎?

鐘怡然:是的,所有的模型都是從頭訓(xùn)練的,采用不同大小和不同參數(shù)設(shè)置。因此,開展Scaling Law實驗是一個非常昂貴的過程。

晚點:你們最初預(yù)估需要訓(xùn)練這么多次嗎?整個過程究竟耗費了多少資源?

鐘怡然:我們早在項目初期就有預(yù)估,總共需要進行3700次預(yù)訓(xùn)練。我們根據(jù)需要的卡數(shù)量、資源數(shù)量和要訓(xùn)練的模型數(shù)量制作了一個Excel表格,按照這個計劃去執(zhí)行。

晚點:你們的混合線性注意力結(jié)構(gòu)在實際效率上有怎樣的提升?

鐘怡然:在序列長度為100萬的情況下,相較于全注意力模型,整體處理速度提升了2700倍。

晚點:在速度和效果之間如何保障模型性能?例如,在MiniMax-01、Kimi-k1.5以及DeepSeek-R1發(fā)布之后,我在朋友的電腦上測試了實際效果,輸入了一篇約2萬字的英文文章,詳細(xì)描述了海外社交媒體的使用方式,其中包含許多功能。我們希望模型回答一個具體問題——人們?nèi)绾问褂蒙缃幻襟w上的短視頻功能。測試結(jié)果顯示,MiniMax-01和DeepSeek-R1的表現(xiàn)都不及Kimi-k1.5,它們會回答一些其他的問題。造成這種差距的原因是什么?

鐘怡然:這主要是由于MiniMax-01和DeepSeek-R1在某些關(guān)鍵組件上的設(shè)計差異導(dǎo)致的。盡管它們在某些方面表現(xiàn)出了更高的靈活性,但在處理復(fù)雜的邏輯關(guān)系時,卻未能達到Kimi-k1.5的水平。

鐘怡然:實際上,您提到的那種能力,與訓(xùn)練數(shù)據(jù)密切相關(guān)。我們只能確保模型具有展現(xiàn)這種能力的潛力,但要真正擁有這種能力,訓(xùn)練數(shù)據(jù)的作用至關(guān)重要。您提出的問題,正是我們下一代模型需要解決的。

晚點:目前 MiniMax-01 不是一個推理模型,像 R1 還有 1.5 它是推理模型。那你們現(xiàn)在這個架構(gòu)去做推理,就是去結(jié)合強化學(xué)習(xí),它的潛力、方法是怎樣的?

鐘怡然:我 “盜用” 一下另一家國內(nèi)大模型公司的結(jié)論,他們認(rèn)為 Linear 架構(gòu)在推理上會更強一點,他們也在線性架構(gòu)模型上開展過深度推理的相關(guān)實驗,結(jié)果顯示線性模型表現(xiàn)更為出色。

晚點:那你們自己看到的是什么?

鐘怡然:我們正在做,現(xiàn)在還不能說得更詳細(xì)。因為最開始我們并沒有選擇去馬上跟 o1(這個方向),當(dāng)時國內(nèi)有一大批追隨者,但我們的想法是先扎實提升自身技術(shù)能力。我們認(rèn)為單純強調(diào)推理能力,可能僅會在某些特定方面增強模型性能。然而,R1 發(fā)布后,我們發(fā)現(xiàn)融入這些推理能力,模型的外推能力顯著提升,泛化能力更好。

晚點:你們當(dāng)時研判要把技術(shù)基礎(chǔ)先做扎實,這些指的是什么?

鐘怡然:我們希望這個模型能在內(nèi)部榜單上跟 4o 差不多,或者跟世界頂尖模型差不多。當(dāng)時的話 4o 是最先進的模型。

晚點:你們會比較去追求多模態(tài)嗎?4o 是一個混合模態(tài)的模型。

鐘怡然:后來我也接手了多模態(tài)理解大模型相關(guān)工作。當(dāng)時在構(gòu)建多模態(tài)模型方面,存在兩條可行路徑:一是原生多模態(tài),二是基于 adapter(適配器)形式的多模態(tài)。經(jīng)過考量,我判斷我們當(dāng)時應(yīng)采用 adapter 形式。因為在那時,原生多模態(tài)的實現(xiàn)路徑尚未完全打通,比如 Gemini-2.0 還未發(fā)布。

這個方案優(yōu)勢明顯。其一,我們能夠快速驗證數(shù)據(jù)是否存在問題;其二,效果能夠迅速顯現(xiàn)。只需投入較小成本,就能獲得性能較好的模型。從我們發(fā)布的 VL01 來看,benchmark 結(jié)果還是不錯的。

晚些時候:可以這樣理解,MiniMax-01 在 MiniMax 主線模型中確實是一次重大的轉(zhuǎn)型或升級。此前的 ABAB 系列采用的是 Transformer 架構(gòu),而 MiniMax-01 則采用了線性架構(gòu)——它涵蓋了語言處理、多模態(tài)內(nèi)容以及未來模型進展的各個方面。

張遠(yuǎn):對,這段模型的升級確實進展得比較快。

晚些時候:為什么 MiniMax 選擇投入研發(fā)這個技術(shù)要求相對較高、變革較大的項目?

張遠(yuǎn):首先,我們想通過這個項目展現(xiàn)自身的技術(shù)實力。我們是一家勇于創(chuàng)新的公司,敢于押注新技術(shù)。目前,我們已經(jīng)將序列長度提升到了 4 million(400 萬),并且我們也能夠承受將序列長度提升到 10 million(1000 萬)。

不過(如果要做 10 million 的序列長度):當(dāng)下需要考慮的有兩個問題,一是如何構(gòu)建 10 million 級別的數(shù)據(jù)集,二是提升到 10 million 序列長度后,模型在實際應(yīng)用中又能實現(xiàn)什么價值。目前,我們的計劃是先把 1 million 以內(nèi)的相關(guān)工作做到極致,然后再向外進行推廣。

晚些時候:經(jīng)過推理,你們希望探索什么?具體來說,是從 o1 之后全面引入強化學(xué)習(xí)到 Transformer 的整個流程中,接下來可能會有什么樣的技術(shù)變化?

張遠(yuǎn):目前,行業(yè)還在做深度推理,這一領(lǐng)域的應(yīng)用剛剛起步,我們還處于跟跑階段。但我們認(rèn)為,長文本處理在未來將會是一個重要的趨勢。我們欣喜地看到,像 kim、DeepSeek 這樣的公司,都已經(jīng)推出了各自針對長文本優(yōu)化的模型架構(gòu),這意味著大家已經(jīng)開始進入這條賽道。

在我看來,俊杰也比較清楚:我們走的是長線戰(zhàn)略,短期內(nèi)在應(yīng)用效果上可能會落后一些。因為我們采用了新的架構(gòu),同樣的計算能力和資源下,我們的人力有限,無法像其他公司那樣進行深度推理。這會導(dǎo)致我們在深度推理的道路上步履維艱。

但另一方面,當(dāng)我們專注于進行深度推理研究時——我們前進的步伐會很快。因此,在這場競爭中,我們實際上參與的是長跑的后半段。我們押注的正是未來長文本處理的需求。當(dāng)線性注意力模型在規(guī)模達到一定程度時,在長文本賽道上就很難再有對手了。

做技術(shù)的“道心”之爭

小北:對稀疏注意力進行優(yōu)化后,DeepSeek、Kimi 等公司的效率和效果都有所提升,你覺得這個方向如何?

鐘怡然:他們的主要創(chuàng)新點在于通過極致的工程優(yōu)化,解決了稀疏注意力在速度上不足的問題。但稀疏注意力的上限其實并不高,我不認(rèn)為 DeepSeek 會繼續(xù)沿用這種策略。因為當(dāng)模型尺寸增大,線性注意力相比稀疏注意力的優(yōu)勢會更加明顯,他們在進行大規(guī)模模型實驗時也會注意到這一點。

小北:線性注意力的上限較高,而且在實際應(yīng)用中也能發(fā)揮作用,那么這個觀點在行業(yè)內(nèi)是被廣泛接受的,還是存在爭議?

鐘怡然:這是一個爭議性的觀點。目前,很多人的共識是,認(rèn)為線性注意力在原理上是有損的優(yōu)化。畢竟,從計算復(fù)雜度上看,使用一次計算去近似二次計算,似乎是有損的。但有人認(rèn)為,二次計算的復(fù)雜性可能在實際應(yīng)用中是冗余的,而線性注意力其實可以作為一種無損優(yōu)化,尤其是在混合架構(gòu)中,效果甚至?xí)谩?/p>

小北:有人擔(dān)心這點,可能是因為 MiniMax-01 的宣傳力度不夠,導(dǎo)致很多人沒注意到。目前很多人的共識是,認(rèn)為線性注意力屬于有損的優(yōu)化。畢竟從原理上看,用一次計算去逼近二次計算,好像是有損的。但有沒有可能這種二次計算復(fù)雜度本身就是冗余的呢?而我們認(rèn)為,它就是一個無損架構(gòu)、一個無損優(yōu)化,特別是變成混合架構(gòu)以后,它的效果甚至還有增強。

鐘怡然:這屬于學(xué)術(shù)界的一個“道心之爭”——技術(shù)判斷和你的信仰是什么。

小北:據(jù)我所知,像 OpenAI、Anthropic 這樣的國外頂尖 AI 公司,他們在嘗試使用線性架構(gòu)嗎?

鐘怡然:他們的架構(gòu)很可能基于 Sliding Window Attention(滑動窗口注意力),這也是一種稀疏注意力。而像 Google 這樣的公司,通常采用的方法可能是滑動窗口加全注意力(Sliding Window Attention + Full Attention)。

小北:所以,他們對線性的信任,也不完全來自全球頂尖公司是否真的做了什么或者沒有做?

鐘怡然:對,他們的信任更多是基于現(xiàn)有的實驗結(jié)果和方法論的創(chuàng)新,而不僅僅是是否采用過某種架構(gòu)。

鐘怡然:是的,我們不僅將論文轉(zhuǎn)化為產(chǎn)品,現(xiàn)在 MiniMax 的產(chǎn)品已經(jīng)開始采用這一架構(gòu)設(shè)計,這表明我們的技術(shù)確實具有先進性。這篇論文發(fā)表于 24 年初,而產(chǎn)品(開始采用這一架構(gòu))則是在 24 年底推出。

晚點:你剛才提到,認(rèn)可線性注意力上限大且可行,在業(yè)界這是一個非共識。現(xiàn)在你愿意討論這一觀點嗎?

鐘怡然:不需要介意,我們希望更多人能夠采用線性注意力技術(shù),也希望更多人共同開發(fā)長文本應(yīng)用。我們選擇開源 MiniMax-01,正是出于這一考慮。

晚點:那么你們對 MiniMax-01 這次開源的反饋和影響力滿意嗎?

鐘怡然:有朋友認(rèn)為這份報告寫得不錯,工作也扎實,但為什么沒有更多人知道呢?我覺得這恰恰是需要加強傳播的原因。同時,我們下一代模型將會做得更好。

晚點:在開源 MiniMax-01 時,你們只發(fā)布了最大參數(shù)版本的模型,沒有發(fā)布不同尺寸版本。這是因為較小尺寸的模型更適合學(xué)界、個人開發(fā)者以及小型機構(gòu)使用,從而讓更多人能夠參與進來。

鐘怡然:我們確實有不同尺寸的模型,但俊杰認(rèn)為更應(yīng)該重視效果,建議先開源效果較好的模型,再考慮開源小模型。此外,開源不同模型需要維護不同的版本,這也增加了管理上的復(fù)雜性。

晚點: DeepSeek 春節(jié)期間大肆營銷后,你們的內(nèi)部氛圍有什么變化嗎?

鐘怡然: DeepSeek 并沒有讓我們過年(笑)。我們正在加快推理模型的研發(fā)進度,并計劃在性能上超越 R1 模型,甚至達到 o1 或 o3 水平。

我們選了一個較為激進的方案:它將是一個原生多模態(tài)的深度推理模型,最大的挑戰(zhàn)在于如何平衡文本理解和視覺理解能力,使得兩者都能達到很強的水平。目前的實驗結(jié)果已經(jīng)證明了這一設(shè)想的可行性。

晚點:這次你有多大把握能順利推進工作?

鐘怡然:大概七成左右。

晚點:預(yù)計什么時候能將這個模型推向市場?

鐘怡然:目前我們把全部精力都投入到提升模型的上限,我們認(rèn)為,相比維護現(xiàn)有產(chǎn)品,提升上限更為重要。

晚點:你如何看待DeepSeek雖然沒有真正落地 usable 的產(chǎn)品,但聲勢浩大?

鐘怡然:我 personally believe,雖然模型效果非常出色,是出圈的基礎(chǔ),但另一方面,它的火爆還與多方面因素有關(guān)。

我們難以預(yù)判這類突然發(fā)生的事情,但如果有一項新技術(shù),希望讓更多人了解,該怎么做呢?最好的方法就是將其轉(zhuǎn)化為產(chǎn)品。

晚點:所以你仍然認(rèn)為,一個正常的技術(shù)公司,只靠技術(shù)本身,難以實現(xiàn)長時間的正面反饋和護城河。

鐘怡然:對。到了2023年,我們想推出線性注意力模型,也借助了上海人工智能實驗室的一些資源進行推廣。但當(dāng)時我發(fā)現(xiàn),要說服大家確實很難。

當(dāng)時我就想,我該怎么辦?我只能去找一個愿意相信這個架構(gòu)的人,把它放到產(chǎn)品里——驗證一個新技術(shù)有說服力的最好方式就是讓它進入市場。

晚點:你對人工智能的追求是什么?

鐘怡然:我希望創(chuàng)建一個能夠真正自我學(xué)習(xí)、自我進化的模型。通過將人類所能感知到的所有信息作為輸入,該模型將能夠自主探索不同模態(tài)之間的關(guān)系,并具備文本處理等技能,這些能力也是通過自監(jiān)督學(xué)習(xí)實現(xiàn)的。

如果要實現(xiàn)這一目標(biāo),首先需要構(gòu)建文本模型,接著是多模態(tài)模型,最后探索如何讓模型自主學(xué)習(xí)不同模態(tài)之間的關(guān)系。這一過程與人類的學(xué)習(xí)方式相似,人類也是通過類似的步驟逐步掌握知識的。

附:文中提到的主要工作的 GitHub 或 arXiv 鏈接:

MiniMax-01:

https://github.com/MiniMax-AI/MiniMax-01

Lightning Attention:

https://github.com/OpenNLPLab/lightning-attention

cosFormer:

https://github.com/OpenNLPLab/cosFormer

項目信息如下:

官方GitHub存儲庫:https://github.com/state-spaces/mamba

GitHub個人存儲空間:https://github.com/kyegomez/Jamba

題圖來源:《美麗心靈》電影截圖

注:所有鏈接均已正確轉(zhuǎn)換,保持了原文的信息完整性和準(zhǔn)確性。

戰(zhàn)略新能源,中國一汽與零跑合作,共同推動技術(shù)創(chuàng)新與產(chǎn)業(yè)升級 猛龍性能解析,“龍字頭”國產(chǎn)飛機大盤點,超燃! 何家喜從六妹到直播女王,李嘉琦因《六姊妹》被罵,隨后捐片酬給養(yǎng)老院,背后的真相是什么 權(quán)威專家解析何時需要手術(shù)治療痔瘡重要性與選擇,健康科普 | 做痔瘡手術(shù)什么時候?痔瘡青年必看?。ń忉專焊膶懞蟮臉?biāo)題簡化了原意,通過更短的語句傳達關(guān)鍵信息,同時保留了核心內(nèi)容。標(biāo)題采用了更簡潔的表達方式,同時保持了專業(yè)性和吸引力。) 全球首發(fā)溜背版,沃爾沃ES90即將亮相,定于明年發(fā)布,續(xù)航里程突破700公里 破局美國戰(zhàn)略儲備背后的全球加密貨幣之都重塑,馬博:白宮召開首次加密貨幣峰會,所為何 2016年中國癌癥新增病例關(guān)注,最新中國癌癥數(shù)據(jù)出爐,5大癌種最常見 三亞鳳凰國際機場2月航班全勤,239.15萬!三亞鳳凰機場2月旅客吞吐量創(chuàng)新高 白宮激烈沖突特朗普要求澤連斯基公開道歉,美政府稱礦產(chǎn)協(xié)議談判陷入僵局,除非澤連斯基公開道歉(以上改寫:1. 去掉了"資深白宮記者"等細(xì)節(jié)描述,使標(biāo)題更簡潔2. 將"特朗普政府稱礦產(chǎn)協(xié)議免談"改為更簡潔的"美政府稱礦產(chǎn)協(xié)議談判陷入僵局"3. 將"除非澤連斯基在鏡頭前公開道歉"簡化為"除非澤連斯基公開道歉",去除了"鏡頭前"這一非關(guān)鍵描述4. 整體保持了原文的核心信息和重點,使標(biāo)題更具有可讀性和吸引力) 沈凱揭示痔瘡?fù)饷撝委煀W秘,健康知識:痔瘡脫出怎么辦?痔瘡癥狀:疼痛難忍、坐立難安...
     
宋美英

宋美英

大?。?em>9mb更新:2025-03-10 14:23:09

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 宋美英
  • 宋美英
  • 宋美英

游戲特色

這也是為什么頂級明星賺錢賺的多的原因,第一是從血海中殺出來的,第二就是各種天生因素的結(jié)合,數(shù)量極少。

齊瑞凡笑道:“是的,不過能夠殺到最后總決賽的,只要不是太丑,那我們都會嘗試一下推一把,或許可以走實力派明星路線。”

“嗯,行,這方面你們自己決定。”楊文東點點頭說道:“總之要想方設(shè)法的發(fā)掘并培養(yǎng)人才,不僅僅是香港,東南亞乃至歐美的華人也是可以來參與我們的港姐或者其他競選節(jié)目的,藝人培訓(xùn)班也是一樣;另外,最近幾年來香港的難民也有不少,也可以嘗試挖掘一下,只有群體數(shù)量基數(shù)足夠多,我們才能挑選出更多優(yōu)質(zhì)人才?!?/p>

面對無法定向培養(yǎng)的特殊群體,那就只能養(yǎng)蠱,等最有實力的蠱殺出來再培養(yǎng);甚至很多國家的義務(wù)教育也是一樣,為什么學(xué)習(xí)長大之后基本上不會使用的高等數(shù)學(xué)、外語、幾何、歷史等等,其實就是99%的人陪跑,只是為了篩選出1%的科學(xué)精英.當(dāng)然,剩下的99%也并非真的學(xué)習(xí)了沒用,就算一些知識沒用,但邏輯思維還是有用的。

“是,楊生。”齊瑞凡答應(yīng)說道。如今的長興集團在香港已經(jīng)是影視行業(yè)霸主,在南洋因為有著大量院線,也混的非常不錯;

但整個集團圖謀的并非現(xiàn)在賺多少錢,而是未來。時間很快到了十月;香港北角:“啪啪啪啪啪啪~~”大量的鞭炮響起,一間大型工廠的門口,上百人聚集,還有不少白人鬼佬連TVB都派了專門的攝像組來拍攝;

原因無他,香港一個大型彩色電視機制作工廠正式開始營業(yè),RCA與榮耀電子的合資工廠,完成了竣工?!皸钌访芩瓜壬?,里面請,我們一起進去?!蓖踔救盒χf道。

楊文東也是點點頭,隨后對著身邊白人鬼佬道:“史密斯先生,請。”香港商業(yè)史上因為他的存在改變了很多,比如就多了很多工業(yè)產(chǎn)業(yè),如便利貼、大型塑料生產(chǎn)基地、飲料食品基地等等,而現(xiàn)在則又多了一個大型彩色電視機生產(chǎn)基地。

作為這個時代僅次于汽車的高科技產(chǎn)業(yè),彩電可以說是任何國家地區(qū)都想擁有的產(chǎn)業(yè),即使是歐美日也是如此,香港能夠引進這樣的大型工廠,也是有著很大意義的。

為此,港督府也派來了布政使前來。史密斯笑道:“兩位,一起?!北娙艘黄疬M入工廠,此刻大量工人已經(jīng)在自己的位置上工作,TVB電視拍攝組也跟隨著楊文東等人,在車間內(nèi)部拍攝;王志群以及多名工程師則是邊走邊介紹,從最開始的顯像管生產(chǎn),到最終的電視機組裝完成,發(fā)貨。

游戲亮點

“三鷹計劃,資源一層比一層多,你應(yīng)該有所耳聞。如果……”鄧知玨停頓一秒,盯著周冷的眼睛,緩緩道:“如果你能在四年內(nèi)晉升先天,成為‘學(xué)生先天’,不僅直升神鷹計劃,武衛(wèi)部會為你爭一個‘特選生’的名額和‘圣地’資格,給予你難以想象的獎勵。或者說,你想要什么,都可以開口。”

周冷沉思片刻,問:“咱們武館之前,有過學(xué)生先天嗎?”鄧知玨搖頭道:“學(xué)生先天,一般只在云華金京出,而這兩個學(xué)校,不設(shè)附屬武館。其下的十大,自身都很難出學(xué)生先天,更別說武館生?!?/p>

“武館生,也出過先天,但那是在畢業(yè)以后?!薄八裕闳绻蔀槲漯^的第一個學(xué)生先天,武衛(wèi)部的老家伙們,不會吝嗇獎勵?!?/p>

“四奇身?”周冷問?!翱梢韵嘀@取?!薄拔涫ラT人?”“可以當(dāng)記名弟子?!编囍k道。“無頭神?”鄧知玨愣了一下,道:“應(yīng)該可以獲得一件的使用權(quán),而不是贈送。畢竟,這是目前人類最強兵器。”

游戲玩法

“偉大的因陀羅,愿您戰(zhàn)無不勝,掃清一切不法者吧!”“嗡~禮贊大因陀羅!”……天神們雙手合十,虔誠禮贊道。

因陀羅眨了眨眼,面無表情。此乃實話!他確實有抵擋那些化作解脫者的辦法。只是他想到的抵擋那些解脫者的辦法,是創(chuàng)造出苦海,將這些解脫者毆打過后關(guān)押進去。

然而問題也很明顯,他暫時還沒想出該如何創(chuàng)造苦海!現(xiàn)在的所作所為,更多的是穩(wěn)定軍心,先穩(wěn)住這些天神們,盡量提高自己的實力,提高那些大軍的實力,提前做好在劫難降臨時的準(zhǔn)備。

評測

?;鹫勁性诎讓m爆發(fā),澤連斯基說愿盡快談判 各方如何回應(yīng)?

激烈爭執(zhí),澤連斯基與特朗普吵翻,留下一串問號

具身之舞,聽·見|“具身智能”被政府工作報告提及,帶來了哪些啟示

勇士的低進攻效率與活塞的高防守策略,"勇士隊格林start:Young Core Dominance" (附:庫里、巴特勒、佩頓others) 簡評:標(biāo)題改寫以"start"替代"春天",簡潔突出格林start的重要性,同時用"Young Core Dominance"概括勇士隊年輕陣容的統(tǒng)治力。

探歌發(fā)布,大眾最新SUV重量級發(fā)布,首次搭載油混動力,外觀設(shè)計參考途觀L

顯示全部

熱門推薦
玩家評論
我要跟貼
取消
最新手游