国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長(zhǎng)之家 - 業(yè)界 2025-03-10 10:31:42

鐘怡然Minimax-01Lightning Attention,線性注意力非共識(shí)的3700次預(yù)訓(xùn)練探索:MiniMax-01——開(kāi)發(fā)者用4年時(shí)間探索人工智能新方向

聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

**嘉賓:鐘怡然**

**整理工作由劉倩和程曼祺共同完成**

**上期播客中,我們與清華大學(xué)的兩位博士生,肖朝軍和傅天予,就稀疏注意力機(jī)制的改進(jìn)展開(kāi)了討論,并順著這一線索梳理了大模型優(yōu)化的歷史脈絡(luò)。**

**除了稀疏注意力機(jī)制,我們還探討了另一個(gè)重要的改進(jìn)方向:線性注意力。**

**今年1月,Minimax發(fā)布了參數(shù)為4560億的開(kāi)源大模型Minimax-01,該模型正是采用了他們開(kāi)發(fā)的線性注意力機(jī)制“Lightning Attention”。**

**為了深入了解這一技術(shù)的開(kāi)發(fā)歷程,我們邀請(qǐng)了該項(xiàng)目負(fù)責(zé)人、Minimax高級(jí)研究總監(jiān)鐘怡然先生,與我們一同探討線性注意力的研發(fā)歷程。鐘怡然在Minimax負(fù)責(zé)大模型網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)工作,目前正致力于開(kāi)發(fā)多模態(tài)深度推理模型。**

**鐘怡然曾擔(dān)任過(guò)上海人工智能實(shí)驗(yàn)室的青年科學(xué)家,是新架構(gòu)探索組的負(fù)責(zé)人;他在澳洲國(guó)立大學(xué)獲得了博士學(xué)位,師從李宏?yáng)|教授和Richard Hartley院士。他的研究團(tuán)隊(duì)已在多個(gè)國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊上發(fā)表了超過(guò)20篇關(guān)于新模型架構(gòu)的論文,涵蓋了包括線性注意力機(jī)制、長(zhǎng)卷積和線性循環(huán)網(wǎng)絡(luò)等在內(nèi)的多種非Transformer架構(gòu)。**

**2021年,隨著線性注意力仍是一個(gè)充滿(mǎn)希望但也充滿(mǎn)挑戰(zhàn)的領(lǐng)域,鐘怡然和團(tuán)隊(duì)開(kāi)始系統(tǒng)性地探索這一技術(shù)的實(shí)現(xiàn)路徑。**

**到了2024年下半年,隨著計(jì)算能力的提升,團(tuán)隊(duì)決定大規(guī)模投入線性架構(gòu)的研究。**

**在訓(xùn)練過(guò)程中,團(tuán)隊(duì)通過(guò)3700次預(yù)訓(xùn)練測(cè)試,驗(yàn)證了這一新架構(gòu)在更大規(guī)模模型上的可行性,盡管這一探索過(guò)程充滿(mǎn)了不確定性和風(fēng)險(xiǎn)。**

在效率方面,從計(jì)算方式分析,當(dāng)處理的序列變得非常長(zhǎng),線性注意力在效率上的優(yōu)勢(shì)將越來(lái)越顯著地超過(guò)稀疏注意力。

但從實(shí)際效果來(lái)看,也就是線性注意力架構(gòu)的模型是否能與 Transformer 模型一樣具有智慧,甚至更聰明。目前還沒(méi)有人能夠給出一個(gè)令人信服的答案。

這也是 MiniMax 技術(shù)后續(xù)進(jìn)展的一個(gè)懸念。

* 這里是本期播客實(shí)錄,有文字精簡(jiǎn)。正文中的(注:……)為編者注。

“線性注意力在更大規(guī)模的模型上,優(yōu)勢(shì)更加明顯。”

晚點(diǎn):怡然,可以先和我們的聽(tīng)眾簡(jiǎn)單介紹一下自己?

鐘怡然:我目前是 MiniMax 的高級(jí)研究總監(jiān),主要負(fù)責(zé)模型結(jié)構(gòu)設(shè)計(jì)和多模態(tài)理解大模型。我主導(dǎo)設(shè)計(jì)了 MiniMax-01 新一代的網(wǎng)絡(luò)架構(gòu),此前曾在上海人工智能實(shí)驗(yàn)室擔(dān)任青年科學(xué)家,負(fù)責(zé)新一代非 Transformer 架構(gòu)的研發(fā)及視聽(tīng)多模態(tài)融合工作。

我們還在新架構(gòu)的工程實(shí)現(xiàn)上進(jìn)行了一些探索,比如并行策略的應(yīng)用。針對(duì)國(guó)產(chǎn)集群通信系統(tǒng)效率問(wèn)題,我們推出了異步優(yōu)化器,并在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域進(jìn)行了有效性驗(yàn)證。

晚點(diǎn):其實(shí)不只是我們,各家公司都在優(yōu)化注意力機(jī)制,這個(gè)背景是什么?

鐘怡然:因?yàn)?Transformer 存在顯存和計(jì)算復(fù)雜度的缺陷:顯存和計(jì)算的開(kāi)銷(xiāo)呈二次復(fù)雜度增長(zhǎng)。FlashAttention 解決了顯存問(wèn)題,但計(jì)算復(fù)雜度問(wèn)題依然存在。

學(xué)術(shù)界最早提出稀疏注意力機(jī)制以降低計(jì)算量,但這一方法無(wú)法從根本上解決二次復(fù)雜度問(wèn)題。然而,算力的提升在一定程度上掩蓋了這一問(wèn)題的緊迫性:從英偉達(dá)的V100到A100再到H100(第三代高性能GPU),計(jì)算能力的增加非常顯著。因此,許多大模型仍然采用Transformer架構(gòu),這種架構(gòu)的序列長(zhǎng)度可以擴(kuò)展到一定的規(guī)模,例如達(dá)到128K、256K等。

我們一直致力于解決計(jì)算復(fù)雜度的二次問(wèn)題。2021年,當(dāng)線性注意力剛進(jìn)入研究階段時(shí),我們開(kāi)始探索這一方向。線性注意力的機(jī)制非常簡(jiǎn)單:注意力計(jì)算涉及Q、K、V三個(gè)矩陣的乘積。

如果按照QK乘以V的方式計(jì)算,計(jì)算復(fù)雜度為二次;如果按照K乘以V再乘以Q的方式,計(jì)算復(fù)雜度則為一次方,不會(huì)顯著增加。因此,線性注意力本質(zhì)上是將左乘轉(zhuǎn)換為右乘的形式。

晚點(diǎn):你們當(dāng)時(shí)嘗試過(guò)稀疏注意力方向嗎?

鐘怡然:我們2021年時(shí)確實(shí)嘗試過(guò),但當(dāng)時(shí)的效果和效率都不太理想。其實(shí)和線性注意力面臨的挑戰(zhàn)是一樣的:稀疏注意力的效果并沒(méi)有Softmax Attention顯著,速度也只能快一點(diǎn)點(diǎn)。

此外,我注意到稀疏注意力存在逼近上的損失。因?yàn)樽⒁饬仃囀且粋€(gè)完整的N×N矩陣,而稀疏注意力僅計(jì)算其中有限個(gè)注意力得分。這會(huì)顯著降低計(jì)算量,但這種近似方法得不償失。

晚點(diǎn):你們對(duì)NSA、MoBA以及最近微軟亞研院SeerAttention等稀疏注意力方向的研究效果和效率表現(xiàn)有何看法?帶來(lái)了哪些新的認(rèn)知?

鐘怡然:目前我們還在進(jìn)行進(jìn)一步的實(shí)驗(yàn)。從我們的實(shí)驗(yàn)來(lái)看,Lightning Attention(MiniMax-01中采用的混合注意力機(jī)制)隨著模型參數(shù)的增加,其優(yōu)化效果更為顯著。

我們還測(cè)試過(guò)兩種改進(jìn)方法:DeepSeek提出的MLA(一種減少顯存開(kāi)銷(xiāo)的注意力改進(jìn)方法)和清華提出的TPA(注:清華提出的一種減少顯存開(kāi)銷(xiāo)的注意力改進(jìn)方法)。但發(fā)現(xiàn)這些方法隨著模型規(guī)模的擴(kuò)大,優(yōu)勢(shì)逐漸減小,也就是說(shuō),它們對(duì)模型大小有一定的限制。

相比之下,Lightning Attention在模型規(guī)模擴(kuò)大時(shí),其優(yōu)勢(shì)更加明顯。目前發(fā)表的NSA、MoBA、SeerAttention等方法,我們認(rèn)為這些成果尚未真正實(shí)現(xiàn)工業(yè)級(jí)的規(guī)模擴(kuò)大(Scale Up)。

晚點(diǎn):MOBA游戲的代碼是否公開(kāi)了?它在服務(wù)器上運(yùn)行了一年多。

鐘怡然:在幾百百萬(wàn)參數(shù)的模型上,我們希望了解稀疏注意力機(jī)制與Transformer的相對(duì)優(yōu)勢(shì)。目前,它們的性能對(duì)比主要集中在7B參數(shù)規(guī)模。而在2023年中期,我們對(duì)Lightning Attention機(jī)制的驗(yàn)證工作已經(jīng)完成7B參數(shù)規(guī)模的測(cè)試。

晚點(diǎn):在參數(shù)規(guī)模較小時(shí),稀疏注意力機(jī)制與線性注意力機(jī)制的表現(xiàn)有何不同?

鐘怡然:7B以上規(guī)模的模型中,這種差異會(huì)更加明顯。此外,MiniMax-01是一個(gè)總參數(shù)量為4560億、激活459億參數(shù)的混合專(zhuān)家模型。

晚點(diǎn):在學(xué)術(shù)界和工業(yè)界,目前更傾向于研究稀疏注意力機(jī)制還是線性注意力機(jī)制?

鐘怡然:這兩個(gè)方向的研究者都不少。2023年之后,線性注意力研究變得熱門(mén),這得益于Mamba模型的興起。

晚點(diǎn):從Transformer模型的全注意力機(jī)制改進(jìn)程度來(lái)看,稀疏注意力機(jī)制的改動(dòng)相對(duì)較小,而線性注意力機(jī)制的改動(dòng)則更為顯著。

鐘怡然:對(duì),稀疏注意力機(jī)制本質(zhì)上還是基于Transformer架構(gòu),只是對(duì)注意力得分的計(jì)算方式進(jìn)行了改進(jìn)。而線性注意力機(jī)制則是改變了QxKxV矩陣的乘法運(yùn)算。學(xué)術(shù)界對(duì)這一機(jī)制的稱(chēng)呼較多,既可以將其稱(chēng)為線性注意力機(jī)制,也可以稱(chēng)之為線性Transformer。

晚點(diǎn):線性注意力機(jī)制與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)有何區(qū)別?

鐘怡然:它本質(zhì)上也是一種循環(huán)機(jī)制,但與傳統(tǒng)RNN不同的是,線性循環(huán)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)大規(guī)模的并行化。

80%的資源投入,50%的把握

等一下,我們可以從頭開(kāi)始聊一聊。你們從2021年開(kāi)始關(guān)注線性注意力,到如今,這個(gè)過(guò)程是一個(gè)怎樣的演變?

鐘怡然:2021年7月,我們?cè)赾osFormer項(xiàng)目中啟動(dòng),這也是我們首次接觸線性注意力領(lǐng)域。相關(guān)研究成果發(fā)表在ICLR上。如今,cosFormer在線性注意力領(lǐng)域的知名度依然不錯(cuò)。

當(dāng)時(shí)的想法很簡(jiǎn)單:一方面,Transform領(lǐng)域已經(jīng)有了許多優(yōu)秀的研究者,即便在這一領(lǐng)域做到極致,也只能算是跟在他人后面。但另一方面,線性注意力作為一個(gè)新興方向,關(guān)注者相對(duì)較少,與其跟隨他人的步伐,不如另辟蹊徑。

其實(shí),線性注意力領(lǐng)域的一些論文早在2021年之前就已經(jīng)出現(xiàn),幾乎與Transformer同時(shí)推出。然而,這些方法的效果并不理想,運(yùn)行速度也很慢,因此大家當(dāng)時(shí)認(rèn)為這是一個(gè)“空中樓閣”,即理論上很有吸引力,但實(shí)際應(yīng)用效果不佳。

2021年至2022年期間,我們?cè)谶@一領(lǐng)域進(jìn)行了密集探索,提出了一系列方法,包括線性注意力機(jī)制、長(zhǎng)卷積和線性循環(huán)網(wǎng)絡(luò)。我們幾乎涵蓋了當(dāng)時(shí)所有相關(guān)的線性方案。到2022年底,我們的研究成果在語(yǔ)言建模任務(wù)中,已經(jīng)與Transformer達(dá)到了近乎相同的水平。

等一下,你們當(dāng)時(shí)是如何判斷線性架構(gòu)已經(jīng)與Transformer差不多了?

鐘怡然:當(dāng)時(shí)我們主要測(cè)試了學(xué)術(shù)數(shù)據(jù)集,關(guān)注點(diǎn)包括困惑度、建模精度等指標(biāo)。此外,我們還在一些大型語(yǔ)言模型基準(zhǔn)測(cè)試中,將線性方法與Transformer進(jìn)行了對(duì)比,甚至測(cè)試了Long Range Arena這樣的長(zhǎng)文本基準(zhǔn)。

在實(shí)驗(yàn)室階段,我們首先解決了線性注意力的建模精度問(wèn)題,接著是速度問(wèn)題。線性注意力雖然在理論上具有線性復(fù)雜度,但在實(shí)際運(yùn)行時(shí)卻表現(xiàn)得很慢。這是因?yàn)橛页瞬僮魃婕按罅垦h(huán)操作,這對(duì)GPU來(lái)說(shuō)并不友好,導(dǎo)致運(yùn)行效率遠(yuǎn)低于理論復(fù)雜度。為此,我們?cè)?020年推出了TLN和Lightning Attention算法。Lightning Attention通過(guò)優(yōu)化,使實(shí)際效率更接近理論計(jì)算復(fù)雜度。

因此,這段經(jīng)歷在我們的實(shí)驗(yàn)室期間,我們認(rèn)為已經(jīng)達(dá)到了"Scale Up ready"的狀態(tài)。我們相信,我們不僅在精度上已經(jīng)解決了一個(gè)大問(wèn)題,還在推理效率上取得了突破。

當(dāng)我們實(shí)現(xiàn)了這個(gè)Scale-up ready狀態(tài)時(shí),最大的模型測(cè)試規(guī)模是哪一個(gè)?

鐘怡然表示,當(dāng)時(shí)訓(xùn)練的最大模型規(guī)模是15B參數(shù)。

你們當(dāng)時(shí)沒(méi)有繼續(xù)進(jìn)行更大的Scaling-up測(cè)試,是否是因?yàn)閷?shí)驗(yàn)室資源有限?

鐘怡然表示,要實(shí)現(xiàn)真正的Scaling-up,需要引入外部資金或技術(shù)支持,這確實(shí)是一項(xiàng)挑戰(zhàn)。

那時(shí)我是比較著急的,因?yàn)槲遗袛?,最遲在2024年底,基于線性注意力的大模型必然會(huì)誕生,不是我們做出來(lái),就是Google、OpenAI等其他機(jī)構(gòu)。既然要誕生,為什么不在我們自己手里了?我們是當(dāng)時(shí)最懂線性注意力的人。這一判斷,我們團(tuán)隊(duì)的成員還包括了松林(楊松林),他在我們組內(nèi)工作過(guò)。

晚點(diǎn)問(wèn),最懂指中國(guó)還是指全球?

鐘怡然表示,基本上是全球。包括現(xiàn)在比較活躍的松林(楊松林)之前也是我們組員。

晚點(diǎn)問(wèn),你最終找到的投資者是MiniMin嗎?

鐘怡然表示,這其實(shí)是一個(gè)雙向的過(guò)程。我在商湯工作時(shí),曾在俊杰手下。

晚點(diǎn)問(wèn),你是否想過(guò)自己創(chuàng)業(yè)?

鐘怡然:我考慮了一下,但這確實(shí)很難?;A(chǔ)架構(gòu)方面的創(chuàng)新需要投入非常大的資金,而我們目前在算法上并沒(méi)有明顯的優(yōu)勢(shì)。

大模型確實(shí)挺復(fù)雜的,首先架構(gòu)要好,其次訓(xùn)練數(shù)據(jù)要好,最后訓(xùn)練方式也要對(duì),這三個(gè)環(huán)節(jié)缺一不可。任何一個(gè)環(huán)節(jié)出了問(wèn)題,都無(wú)法證明你真正想要證明的東西。首先我得確保這家公司能在預(yù)訓(xùn)練方面做到一流,這一點(diǎn)已經(jīng)淘汰了很多公司。

晚點(diǎn):你當(dāng)時(shí)問(wèn)了一些投資人,他們的反饋是怎樣的?

鐘怡然:他們的反饋是,你當(dāng)時(shí)需要明確你的應(yīng)用方向是什么?變現(xiàn)渠道是什么?未來(lái)如何盈利?

晚點(diǎn):在公司方面,你當(dāng)時(shí)了解的能做一流預(yù)訓(xùn)練的公司有哪些?

鐘怡然:包括大小公司的話(huà),我覺(jué)得第一個(gè)是字節(jié)跳動(dòng),第二個(gè)是Minimax。

晚點(diǎn):Kimi(月之暗面)不是嗎?

鐘怡然:關(guān)于Kimi,我得到的信息不多,所以在當(dāng)時(shí)看來(lái),只有兩個(gè)選擇,要么海外發(fā)展。

晚點(diǎn):你和字節(jié)聊了之后,得到了什么反饋?

鐘怡然:我覺(jué)得字節(jié)的興致不是很高。雖然作為一家大公司有數(shù)據(jù)和人才,但要讓他們真正轉(zhuǎn)型去投資一個(gè)未知的方向,還是比較困難的。

在某個(gè)時(shí)間點(diǎn),讓我們回到2023年下半年,你和閆俊杰聊,他的反饋是什么?

鐘怡然:早在2021年時(shí),我和俊杰就非常了解。經(jīng)過(guò)交流,我們發(fā)現(xiàn)他對(duì)這個(gè)工作非常有信心,并且愿意投入大部分精力。

研發(fā)工作需要公司80%-90%的人力資源投入,涉及數(shù)據(jù)、工程和算法等多個(gè)部門(mén),需要多部門(mén)緊密合作才能完成。

在某個(gè)時(shí)間點(diǎn),你比閆俊杰更認(rèn)可我,可能是因?yàn)槲覀冎霸诰€性注意力機(jī)制上有一些共同的探索。

鐘怡然:當(dāng)時(shí)他們?cè)谙乱淮P图夹g(shù)選型階段,工作量還不大??〗芸赡苡X(jué)得我的工作扎實(shí)可靠,值得信任。

當(dāng)然,俊杰看待這個(gè)問(wèn)題的角度和我不同。我認(rèn)為我們對(duì)關(guān)鍵點(diǎn)的把握非常到位,因此相信能夠成功 scalability。

在某個(gè)時(shí)間點(diǎn),你認(rèn)為閆俊杰有50%成功的把握,卻愿意投入80%的資源,這個(gè)賭性是不是有點(diǎn)大?

鐘怡然:這確實(shí)需要一定的賭性。但我們有 scaling laws 的測(cè)試,通過(guò)分階段驗(yàn)證來(lái)逐步推進(jìn)。我們不是一開(kāi)始就投入全部資源,而是先在一個(gè)成本可控的小規(guī)模模型上進(jìn)行測(cè)試,再逐步擴(kuò)大規(guī)模。

在某個(gè)時(shí)間點(diǎn),我們一共進(jìn)行了3700次預(yù)訓(xùn)練驗(yàn)證,從“美好的泡泡”到4560億參數(shù)的MiniMax-01。

在某個(gè)時(shí)間點(diǎn),你們?cè)谝徊讲津?yàn)證的過(guò)程中,又看到了什么?

鐘怡然:2023年底,我們采用的依然是一個(gè)線性架構(gòu),訓(xùn)練出了一款15B規(guī)模的模型。從實(shí)驗(yàn)結(jié)果來(lái)看,其性能與Transformer模型基本持平。

然而,當(dāng)我們擴(kuò)大模型規(guī)模后,發(fā)現(xiàn)無(wú)論是采用Lightning注意力機(jī)制,還是其他線性方法,都存在一個(gè)顯著的問(wèn)題——在檢索(Retrieval)能力上表現(xiàn)欠佳。

基于上述問(wèn)題,我們不得不采取一個(gè)權(quán)衡方案。具體來(lái)說(shuō),我們?cè)谀P图軜?gòu)中采用混合機(jī)制:每隔7層的線性注意力之后,插入1層Softmax注意力進(jìn)行優(yōu)化。

鐘怡然:可以簡(jiǎn)單介紹一下,Retrieval能力指的是什么呢?"大海撈針"任務(wù)又是怎么回事?

鐘怡然:Retrieval能力,簡(jiǎn)單來(lái)說(shuō),就是模型在長(zhǎng)文本中發(fā)現(xiàn)異常片段的能力。以"大海撈針"任務(wù)為例,給定一篇長(zhǎng)文,其中有一段話(huà)或一句話(huà)與其他內(nèi)容格格不入,模型需要通過(guò)定點(diǎn)召回能力找出這些異常片段。這是一項(xiàng)基礎(chǔ)能力。

線性注意力在執(zhí)行這一任務(wù)時(shí)表現(xiàn)出明顯局限性。這是因?yàn)榫€性注意力的KV緩存是一個(gè)固定大小的存儲(chǔ),無(wú)論輸入文本長(zhǎng)度如何,都會(huì)被壓縮到固定大小。這種壓縮過(guò)程導(dǎo)致檢索能力顯著下降。

鐘怡然:當(dāng)時(shí)壓力很大嗎?因?yàn)槲覀円呀?jīng)在擴(kuò)規(guī)模了。

鐘怡然:當(dāng)時(shí)確實(shí)有保底方案,就是混合架構(gòu)。但我們當(dāng)時(shí)覺(jué)得這個(gè)方案不夠美觀。

鐘怡然:所以你們最后采取的改進(jìn)方案是,在技術(shù)報(bào)告中提到每隔十四層或十六層插入一層Softmax注意力?

鐘怡然:對(duì),我們還嘗試了不同的混合比例,測(cè)試發(fā)現(xiàn),檢索能力受到最大影響,而語(yǔ)言建模能力在不同比例下的表現(xiàn)差異不大。

晚點(diǎn):在實(shí)際操作中,具體采用何種混合比例作為理論指導(dǎo)或依據(jù)?是否有一些理論依據(jù)或預(yù)測(cè)值可以用來(lái)提前預(yù)判效果?

鐘怡然:這個(gè)方案我們是自己探索出來(lái)的,沒(méi)有現(xiàn)成的理論指導(dǎo)。甚至嘗試過(guò)極端情況——僅使用一層Softmax Attention(注:指在大幾十層的模型中,只有一層是Softmax,其他都是線性注意力),結(jié)果也還行。

我們最終選擇這個(gè)方案,主要是因?yàn)橐呀?jīng)對(duì)架構(gòu)進(jìn)行了較大的調(diào)整,擔(dān)心這樣可能會(huì)對(duì)效果產(chǎn)生負(fù)面影響,因此選擇了一個(gè)相對(duì)穩(wěn)妥的1:7的比例。例如,之前采用的Jamba模型也是1:8、1:7這樣的設(shè)置。

(注:Jamba是由AI21 Labs于2024年推出的首個(gè)狀態(tài)空間模型-Transformer混合架構(gòu)大模型,支持256K上下文窗口。)

晚點(diǎn):最開(kāi)始是如何想到采用混合策略的?

鐘怡然:這其實(shí)是非常符合直覺(jué)的一種嘗試。

晚點(diǎn):在采用了這個(gè)混合方案之后,你們的Scaling Laws實(shí)驗(yàn)是如何進(jìn)行的?

鐘怡然:開(kāi)展Scaling Laws實(shí)驗(yàn)的主要目的是驗(yàn)證這一技術(shù)路線是否存在潛在問(wèn)題,混合方案的實(shí)驗(yàn)與Scaling Laws測(cè)試是同時(shí)進(jìn)行的。

我們對(duì)多種線性方案進(jìn)行了測(cè)試,除了Lightning Attention,還測(cè)試了HGRN2、Mamba等。

晚點(diǎn):這么多實(shí)驗(yàn),所需資源會(huì)非常龐大嗎?

鐘怡然:我們總共訓(xùn)練了3700個(gè)模型,最終才發(fā)表了這篇文章??紤]到Scaling Up是一項(xiàng)重大的決策,沒(méi)有哪個(gè)投資者愿意投入數(shù)千萬(wàn)資金去訓(xùn)練一個(gè)大模型,最后卻以失敗告終。

尤其是這類(lèi)具有開(kāi)拓性的研究工作,必須確保在基礎(chǔ)工作上做得非常扎實(shí)。我們需要仔細(xì)選擇參數(shù)和注意力結(jié)構(gòu),每個(gè)方案都需要進(jìn)行一系列基準(zhǔn)測(cè)試。最終必須在速度和效果之間找到一個(gè)平衡點(diǎn)。因此,一套完整的、嚴(yán)格的對(duì)比實(shí)驗(yàn)是必不可少的。如果隨意地決定參數(shù)設(shè)置,雖然可以節(jié)省部分實(shí)驗(yàn)成本,但必然會(huì)導(dǎo)致后續(xù)項(xiàng)目失敗的概率增加。

晚點(diǎn):你們提到訓(xùn)練了3700個(gè)模型,是指全部從頭訓(xùn)練,即3700次預(yù)訓(xùn)練嗎?

鐘怡然:是的,所有的模型都是從頭訓(xùn)練的,采用不同大小和不同參數(shù)設(shè)置。因此,開(kāi)展Scaling Law實(shí)驗(yàn)是一個(gè)非常昂貴的過(guò)程。

晚點(diǎn):你們最初預(yù)估需要訓(xùn)練這么多次嗎?整個(gè)過(guò)程究竟耗費(fèi)了多少資源?

鐘怡然:我們?cè)缭陧?xiàng)目初期就有預(yù)估,總共需要進(jìn)行3700次預(yù)訓(xùn)練。我們根據(jù)需要的卡數(shù)量、資源數(shù)量和要訓(xùn)練的模型數(shù)量制作了一個(gè)Excel表格,按照這個(gè)計(jì)劃去執(zhí)行。

晚點(diǎn):你們的混合線性注意力結(jié)構(gòu)在實(shí)際效率上有怎樣的提升?

鐘怡然:在序列長(zhǎng)度為100萬(wàn)的情況下,相較于全注意力模型,整體處理速度提升了2700倍。

晚點(diǎn):在速度和效果之間如何保障模型性能?例如,在MiniMax-01、Kimi-k1.5以及DeepSeek-R1發(fā)布之后,我在朋友的電腦上測(cè)試了實(shí)際效果,輸入了一篇約2萬(wàn)字的英文文章,詳細(xì)描述了海外社交媒體的使用方式,其中包含許多功能。我們希望模型回答一個(gè)具體問(wèn)題——人們?nèi)绾问褂蒙缃幻襟w上的短視頻功能。測(cè)試結(jié)果顯示,MiniMax-01和DeepSeek-R1的表現(xiàn)都不及Kimi-k1.5,它們會(huì)回答一些其他的問(wèn)題。造成這種差距的原因是什么?

鐘怡然:這主要是由于MiniMax-01和DeepSeek-R1在某些關(guān)鍵組件上的設(shè)計(jì)差異導(dǎo)致的。盡管它們?cè)谀承┓矫姹憩F(xiàn)出了更高的靈活性,但在處理復(fù)雜的邏輯關(guān)系時(shí),卻未能達(dá)到Kimi-k1.5的水平。

鐘怡然:實(shí)際上,您提到的那種能力,與訓(xùn)練數(shù)據(jù)密切相關(guān)。我們只能確保模型具有展現(xiàn)這種能力的潛力,但要真正擁有這種能力,訓(xùn)練數(shù)據(jù)的作用至關(guān)重要。您提出的問(wèn)題,正是我們下一代模型需要解決的。

晚點(diǎn):目前 MiniMax-01 不是一個(gè)推理模型,像 R1 還有 1.5 它是推理模型。那你們現(xiàn)在這個(gè)架構(gòu)去做推理,就是去結(jié)合強(qiáng)化學(xué)習(xí),它的潛力、方法是怎樣的?

鐘怡然:我 “盜用” 一下另一家國(guó)內(nèi)大模型公司的結(jié)論,他們認(rèn)為 Linear 架構(gòu)在推理上會(huì)更強(qiáng)一點(diǎn),他們也在線性架構(gòu)模型上開(kāi)展過(guò)深度推理的相關(guān)實(shí)驗(yàn),結(jié)果顯示線性模型表現(xiàn)更為出色。

晚點(diǎn):那你們自己看到的是什么?

鐘怡然:我們正在做,現(xiàn)在還不能說(shuō)得更詳細(xì)。因?yàn)樽铋_(kāi)始我們并沒(méi)有選擇去馬上跟 o1(這個(gè)方向),當(dāng)時(shí)國(guó)內(nèi)有一大批追隨者,但我們的想法是先扎實(shí)提升自身技術(shù)能力。我們認(rèn)為單純強(qiáng)調(diào)推理能力,可能僅會(huì)在某些特定方面增強(qiáng)模型性能。然而,R1 發(fā)布后,我們發(fā)現(xiàn)融入這些推理能力,模型的外推能力顯著提升,泛化能力更好。

晚點(diǎn):你們當(dāng)時(shí)研判要把技術(shù)基礎(chǔ)先做扎實(shí),這些指的是什么?

鐘怡然:我們希望這個(gè)模型能在內(nèi)部榜單上跟 4o 差不多,或者跟世界頂尖模型差不多。當(dāng)時(shí)的話(huà) 4o 是最先進(jìn)的模型。

晚點(diǎn):你們會(huì)比較去追求多模態(tài)嗎?4o 是一個(gè)混合模態(tài)的模型。

鐘怡然:后來(lái)我也接手了多模態(tài)理解大模型相關(guān)工作。當(dāng)時(shí)在構(gòu)建多模態(tài)模型方面,存在兩條可行路徑:一是原生多模態(tài),二是基于 adapter(適配器)形式的多模態(tài)。經(jīng)過(guò)考量,我判斷我們當(dāng)時(shí)應(yīng)采用 adapter 形式。因?yàn)樵谀菚r(shí),原生多模態(tài)的實(shí)現(xiàn)路徑尚未完全打通,比如 Gemini-2.0 還未發(fā)布。

這個(gè)方案優(yōu)勢(shì)明顯。其一,我們能夠快速驗(yàn)證數(shù)據(jù)是否存在問(wèn)題;其二,效果能夠迅速顯現(xiàn)。只需投入較小成本,就能獲得性能較好的模型。從我們發(fā)布的 VL01 來(lái)看,benchmark 結(jié)果還是不錯(cuò)的。

晚些時(shí)候:可以這樣理解,MiniMax-01 在 MiniMax 主線模型中確實(shí)是一次重大的轉(zhuǎn)型或升級(jí)。此前的 ABAB 系列采用的是 Transformer 架構(gòu),而 MiniMax-01 則采用了線性架構(gòu)——它涵蓋了語(yǔ)言處理、多模態(tài)內(nèi)容以及未來(lái)模型進(jìn)展的各個(gè)方面。

張遠(yuǎn):對(duì),這段模型的升級(jí)確實(shí)進(jìn)展得比較快。

晚些時(shí)候:為什么 MiniMax 選擇投入研發(fā)這個(gè)技術(shù)要求相對(duì)較高、變革較大的項(xiàng)目?

張遠(yuǎn):首先,我們想通過(guò)這個(gè)項(xiàng)目展現(xiàn)自身的技術(shù)實(shí)力。我們是一家勇于創(chuàng)新的公司,敢于押注新技術(shù)。目前,我們已經(jīng)將序列長(zhǎng)度提升到了 4 million(400 萬(wàn)),并且我們也能夠承受將序列長(zhǎng)度提升到 10 million(1000 萬(wàn))。

不過(guò)(如果要做 10 million 的序列長(zhǎng)度):當(dāng)下需要考慮的有兩個(gè)問(wèn)題,一是如何構(gòu)建 10 million 級(jí)別的數(shù)據(jù)集,二是提升到 10 million 序列長(zhǎng)度后,模型在實(shí)際應(yīng)用中又能實(shí)現(xiàn)什么價(jià)值。目前,我們的計(jì)劃是先把 1 million 以?xún)?nèi)的相關(guān)工作做到極致,然后再向外進(jìn)行推廣。

晚些時(shí)候:經(jīng)過(guò)推理,你們希望探索什么?具體來(lái)說(shuō),是從 o1 之后全面引入強(qiáng)化學(xué)習(xí)到 Transformer 的整個(gè)流程中,接下來(lái)可能會(huì)有什么樣的技術(shù)變化?

張遠(yuǎn):目前,行業(yè)還在做深度推理,這一領(lǐng)域的應(yīng)用剛剛起步,我們還處于跟跑階段。但我們認(rèn)為,長(zhǎng)文本處理在未來(lái)將會(huì)是一個(gè)重要的趨勢(shì)。我們欣喜地看到,像 kim、DeepSeek 這樣的公司,都已經(jīng)推出了各自針對(duì)長(zhǎng)文本優(yōu)化的模型架構(gòu),這意味著大家已經(jīng)開(kāi)始進(jìn)入這條賽道。

在我看來(lái),俊杰也比較清楚:我們走的是長(zhǎng)線戰(zhàn)略,短期內(nèi)在應(yīng)用效果上可能會(huì)落后一些。因?yàn)槲覀儾捎昧诵碌募軜?gòu),同樣的計(jì)算能力和資源下,我們的人力有限,無(wú)法像其他公司那樣進(jìn)行深度推理。這會(huì)導(dǎo)致我們?cè)谏疃韧评淼牡缆飞喜铰木S艱。

但另一方面,當(dāng)我們專(zhuān)注于進(jìn)行深度推理研究時(shí)——我們前進(jìn)的步伐會(huì)很快。因此,在這場(chǎng)競(jìng)爭(zhēng)中,我們實(shí)際上參與的是長(zhǎng)跑的后半段。我們押注的正是未來(lái)長(zhǎng)文本處理的需求。當(dāng)線性注意力模型在規(guī)模達(dá)到一定程度時(shí),在長(zhǎng)文本賽道上就很難再有對(duì)手了。

做技術(shù)的“道心”之爭(zhēng)

小北:對(duì)稀疏注意力進(jìn)行優(yōu)化后,DeepSeek、Kimi 等公司的效率和效果都有所提升,你覺(jué)得這個(gè)方向如何?

鐘怡然:他們的主要?jiǎng)?chuàng)新點(diǎn)在于通過(guò)極致的工程優(yōu)化,解決了稀疏注意力在速度上不足的問(wèn)題。但稀疏注意力的上限其實(shí)并不高,我不認(rèn)為 DeepSeek 會(huì)繼續(xù)沿用這種策略。因?yàn)楫?dāng)模型尺寸增大,線性注意力相比稀疏注意力的優(yōu)勢(shì)會(huì)更加明顯,他們?cè)谶M(jìn)行大規(guī)模模型實(shí)驗(yàn)時(shí)也會(huì)注意到這一點(diǎn)。

小北:線性注意力的上限較高,而且在實(shí)際應(yīng)用中也能發(fā)揮作用,那么這個(gè)觀點(diǎn)在行業(yè)內(nèi)是被廣泛接受的,還是存在爭(zhēng)議?

鐘怡然:這是一個(gè)爭(zhēng)議性的觀點(diǎn)。目前,很多人的共識(shí)是,認(rèn)為線性注意力在原理上是有損的優(yōu)化。畢竟,從計(jì)算復(fù)雜度上看,使用一次計(jì)算去近似二次計(jì)算,似乎是有損的。但有人認(rèn)為,二次計(jì)算的復(fù)雜性可能在實(shí)際應(yīng)用中是冗余的,而線性注意力其實(shí)可以作為一種無(wú)損優(yōu)化,尤其是在混合架構(gòu)中,效果甚至?xí)谩?/p>

小北:有人擔(dān)心這點(diǎn),可能是因?yàn)?MiniMax-01 的宣傳力度不夠,導(dǎo)致很多人沒(méi)注意到。目前很多人的共識(shí)是,認(rèn)為線性注意力屬于有損的優(yōu)化。畢竟從原理上看,用一次計(jì)算去逼近二次計(jì)算,好像是有損的。但有沒(méi)有可能這種二次計(jì)算復(fù)雜度本身就是冗余的呢?而我們認(rèn)為,它就是一個(gè)無(wú)損架構(gòu)、一個(gè)無(wú)損優(yōu)化,特別是變成混合架構(gòu)以后,它的效果甚至還有增強(qiáng)。

鐘怡然:這屬于學(xué)術(shù)界的一個(gè)“道心之爭(zhēng)”——技術(shù)判斷和你的信仰是什么。

小北:據(jù)我所知,像 OpenAI、Anthropic 這樣的國(guó)外頂尖 AI 公司,他們?cè)趪L試使用線性架構(gòu)嗎?

鐘怡然:他們的架構(gòu)很可能基于 Sliding Window Attention(滑動(dòng)窗口注意力),這也是一種稀疏注意力。而像 Google 這樣的公司,通常采用的方法可能是滑動(dòng)窗口加全注意力(Sliding Window Attention + Full Attention)。

小北:所以,他們對(duì)線性的信任,也不完全來(lái)自全球頂尖公司是否真的做了什么或者沒(méi)有做?

鐘怡然:對(duì),他們的信任更多是基于現(xiàn)有的實(shí)驗(yàn)結(jié)果和方法論的創(chuàng)新,而不僅僅是是否采用過(guò)某種架構(gòu)。

鐘怡然:是的,我們不僅將論文轉(zhuǎn)化為產(chǎn)品,現(xiàn)在 MiniMax 的產(chǎn)品已經(jīng)開(kāi)始采用這一架構(gòu)設(shè)計(jì),這表明我們的技術(shù)確實(shí)具有先進(jìn)性。這篇論文發(fā)表于 24 年初,而產(chǎn)品(開(kāi)始采用這一架構(gòu))則是在 24 年底推出。

晚點(diǎn):你剛才提到,認(rèn)可線性注意力上限大且可行,在業(yè)界這是一個(gè)非共識(shí)?,F(xiàn)在你愿意討論這一觀點(diǎn)嗎?

鐘怡然:不需要介意,我們希望更多人能夠采用線性注意力技術(shù),也希望更多人共同開(kāi)發(fā)長(zhǎng)文本應(yīng)用。我們選擇開(kāi)源 MiniMax-01,正是出于這一考慮。

晚點(diǎn):那么你們對(duì) MiniMax-01 這次開(kāi)源的反饋和影響力滿(mǎn)意嗎?

鐘怡然:有朋友認(rèn)為這份報(bào)告寫(xiě)得不錯(cuò),工作也扎實(shí),但為什么沒(méi)有更多人知道呢?我覺(jué)得這恰恰是需要加強(qiáng)傳播的原因。同時(shí),我們下一代模型將會(huì)做得更好。

晚點(diǎn):在開(kāi)源 MiniMax-01 時(shí),你們只發(fā)布了最大參數(shù)版本的模型,沒(méi)有發(fā)布不同尺寸版本。這是因?yàn)檩^小尺寸的模型更適合學(xué)界、個(gè)人開(kāi)發(fā)者以及小型機(jī)構(gòu)使用,從而讓更多人能夠參與進(jìn)來(lái)。

鐘怡然:我們確實(shí)有不同尺寸的模型,但俊杰認(rèn)為更應(yīng)該重視效果,建議先開(kāi)源效果較好的模型,再考慮開(kāi)源小模型。此外,開(kāi)源不同模型需要維護(hù)不同的版本,這也增加了管理上的復(fù)雜性。

晚點(diǎn): DeepSeek 春節(jié)期間大肆營(yíng)銷(xiāo)后,你們的內(nèi)部氛圍有什么變化嗎?

鐘怡然: DeepSeek 并沒(méi)有讓我們過(guò)年(笑)。我們正在加快推理模型的研發(fā)進(jìn)度,并計(jì)劃在性能上超越 R1 模型,甚至達(dá)到 o1 或 o3 水平。

我們選了一個(gè)較為激進(jìn)的方案:它將是一個(gè)原生多模態(tài)的深度推理模型,最大的挑戰(zhàn)在于如何平衡文本理解和視覺(jué)理解能力,使得兩者都能達(dá)到很強(qiáng)的水平。目前的實(shí)驗(yàn)結(jié)果已經(jīng)證明了這一設(shè)想的可行性。

晚點(diǎn):這次你有多大把握能順利推進(jìn)工作?

鐘怡然:大概七成左右。

晚點(diǎn):預(yù)計(jì)什么時(shí)候能將這個(gè)模型推向市場(chǎng)?

鐘怡然:目前我們把全部精力都投入到提升模型的上限,我們認(rèn)為,相比維護(hù)現(xiàn)有產(chǎn)品,提升上限更為重要。

晚點(diǎn):你如何看待DeepSeek雖然沒(méi)有真正落地 usable 的產(chǎn)品,但聲勢(shì)浩大?

鐘怡然:我 personally believe,雖然模型效果非常出色,是出圈的基礎(chǔ),但另一方面,它的火爆還與多方面因素有關(guān)。

我們難以預(yù)判這類(lèi)突然發(fā)生的事情,但如果有一項(xiàng)新技術(shù),希望讓更多人了解,該怎么做呢?最好的方法就是將其轉(zhuǎn)化為產(chǎn)品。

晚點(diǎn):所以你仍然認(rèn)為,一個(gè)正常的技術(shù)公司,只靠技術(shù)本身,難以實(shí)現(xiàn)長(zhǎng)時(shí)間的正面反饋和護(hù)城河。

鐘怡然:對(duì)。到了2023年,我們想推出線性注意力模型,也借助了上海人工智能實(shí)驗(yàn)室的一些資源進(jìn)行推廣。但當(dāng)時(shí)我發(fā)現(xiàn),要說(shuō)服大家確實(shí)很難。

當(dāng)時(shí)我就想,我該怎么辦?我只能去找一個(gè)愿意相信這個(gè)架構(gòu)的人,把它放到產(chǎn)品里——驗(yàn)證一個(gè)新技術(shù)有說(shuō)服力的最好方式就是讓它進(jìn)入市場(chǎng)。

晚點(diǎn):你對(duì)人工智能的追求是什么?

鐘怡然:我希望創(chuàng)建一個(gè)能夠真正自我學(xué)習(xí)、自我進(jìn)化的模型。通過(guò)將人類(lèi)所能感知到的所有信息作為輸入,該模型將能夠自主探索不同模態(tài)之間的關(guān)系,并具備文本處理等技能,這些能力也是通過(guò)自監(jiān)督學(xué)習(xí)實(shí)現(xiàn)的。

如果要實(shí)現(xiàn)這一目標(biāo),首先需要構(gòu)建文本模型,接著是多模態(tài)模型,最后探索如何讓模型自主學(xué)習(xí)不同模態(tài)之間的關(guān)系。這一過(guò)程與人類(lèi)的學(xué)習(xí)方式相似,人類(lèi)也是通過(guò)類(lèi)似的步驟逐步掌握知識(shí)的。

附:文中提到的主要工作的 GitHub 或 arXiv 鏈接:

MiniMax-01:

https://github.com/MiniMax-AI/MiniMax-01

Lightning Attention:

https://github.com/OpenNLPLab/lightning-attention

cosFormer:

https://github.com/OpenNLPLab/cosFormer

項(xiàng)目信息如下:

官方GitHub存儲(chǔ)庫(kù):https://github.com/state-spaces/mamba

GitHub個(gè)人存儲(chǔ)空間:https://github.com/kyegomez/Jamba

題圖來(lái)源:《美麗心靈》電影截圖

注:所有鏈接均已正確轉(zhuǎn)換,保持了原文的信息完整性和準(zhǔn)確性。

投資于人推動(dòng)發(fā)展新機(jī)遇,首提“投資于人”,投向哪里? weeks AI快速迭代的回顧,姚勁波:AI不專(zhuān)有,百花齊發(fā) 合同周薪37.5萬(wàn)英鎊引熱議卡塞米羅狀態(tài)下滑與留隊(duì)存疑,33歲球員不愿離隊(duì),曼聯(lián)累計(jì)支出1.6億歐元,已成累贅 俄羅斯堅(jiān)定回應(yīng)不屈撓烏克蘭問(wèn)題,普京:俄羅斯不會(huì)屈服 殲-10C空中表演殲-10C飛行表演殲-10C空中獻(xiàn)技?xì)?10C空中表演,中國(guó)空軍八一飛行表演隊(duì)在泰國(guó)精彩亮相 2025年國(guó)防預(yù)算增長(zhǎng),解放軍和武警部隊(duì)代表團(tuán)新聞發(fā)言人:2025年國(guó)防預(yù)算安排重大,約1.81萬(wàn)億元 頒獎(jiǎng),英雄祁發(fā)寶,再獲榮譽(yù) AR眼鏡科技先鋒2025大會(huì),標(biāo)題改寫(xiě):現(xiàn)實(shí)中的AR眼鏡何時(shí)走進(jìn)我們的日常生活? 價(jià)格屠夫硬核配置,零跑B10售價(jià)曝光,13萬(wàn)起就能配備激光雷達(dá),價(jià)格新低價(jià)殺手! 3.4 | 肥胖的警鐘,肥胖讓孩子三大健康問(wèn)題浮現(xiàn),孩子身心健康受影響!
     
今日大事件

今日大事件

大?。?em>51mb更新:2025-03-10 10:31:42

類(lèi)別:系統(tǒng):Android

立即下載(42.54MB)
  • 今日大事件
  • 今日大事件
  • 今日大事件

游戲特色

“酒豪爐火!”喬特發(fā)動(dòng)果實(shí)能力,通過(guò)噴灑高濃度酒精并用手指心形運(yùn)動(dòng)彈動(dòng)火來(lái)產(chǎn)生巨大火焰,頓時(shí)漩渦狀的烈焰沖向陸離,范圍之大,還囊括了路飛等人。

就在甚平在想自己要不要出手時(shí),他看到陸離動(dòng)了。只見(jiàn)陸離單手抬起,像是驅(qū)趕蒼蠅一般揮動(dòng),便掀起了狂風(fēng),將大酒桶的火焰扇了回去。

緊接著,暗紫色的閃電如地走龍蛇般騰起,瞬間觸及了喬特的身體。隨后便是一陣?yán)做姄羯眢w的聲音響起,焦糊的肉香味兒彌漫在空氣中,在眾人詫異的目光下,喬特高大的身軀轟然倒塌,生息全無(wú)。

“只是被隨意煽動(dòng)一下,就要攻過(guò)來(lái),你們還真是頭腦簡(jiǎn)單且無(wú)可救藥的惡棍啊?!标戨x聲音平淡,“喜歡玩廝殺游戲的話(huà),我可以奉陪……”

說(shuō)著他邁步走出路飛所在的小隊(duì),“不過(guò)我趕時(shí)間,你們一起上吧?!眰髌婧Y\大酒桶巴斯克·喬特被陸離瞬殺,這強(qiáng)大的戰(zhàn)力,以及雷霆的天威,讓很多海賊驚疑不定。

但他們畢竟是兇惡狂暴之徒,短暫的猶豫后,憤怒便戰(zhàn)勝了那淡淡的恐懼?!罢娓艺f(shuō)啊,殺了他!”“猖狂的小子,現(xiàn)在的海賊后輩都這么囂張了嗎?”

“我要把他的腦袋當(dāng)夜壺,就從那張嘴開(kāi)始灌水好了。”“……”兇惡的罪犯?jìng)儼鼑蜿戨x,口中污言穢語(yǔ)不斷。

“喂,你們這樣也算海賊嗎?那什么天災(zāi),我來(lái)幫你!”路飛很有義氣,他對(duì)自己陣營(yíng)的人一向很支持,可他還沒(méi)出列就被甚平和伊萬(wàn)科夫聯(lián)手拉住了。

路飛還很是不解,只是看到了甚平和伊萬(wàn)科夫凝重的眼神。“別去……會(huì)被牽扯進(jìn)去的?!币寥f(wàn)科夫神情嚴(yán)肅的說(shuō)道,同時(shí)心中感慨,革命軍的情報(bào)部是不是懈怠了?

到底是誰(shuí)說(shuō)天災(zāi)陸離只是個(gè)軍師智囊,正面作戰(zhàn)實(shí)力一般的?“傳言是真的,這種威力的雷霆,果真是天災(zāi)啊……”

游戲亮點(diǎn)

這個(gè)時(shí)候,相田彌生帶著助手中村來(lái)到湘北替補(bǔ)席,開(kāi)始例行的采訪環(huán)節(jié)。她的第一個(gè)目標(biāo)自然是木暮!她是他的球迷!

他也是她的球迷!“木暮,恭喜你率隊(duì)拿下了冬季選拔賽的冠軍,現(xiàn)在你有什么想說(shuō)的嗎?”“這并不是我一個(gè)人的功勞,沒(méi)有隊(duì)友們……教練……”

木暮再次謙虛地回答,贏得了相田彌生的好感。相田彌生開(kāi)始問(wèn)下一個(gè)問(wèn)題:“可以評(píng)價(jià)一下你的對(duì)手高宮本宇嗎?”

木暮嚴(yán)肅地說(shuō)道:“相田記者,我不是說(shuō)他不好,但你們把他和我放在一起比較,就是對(duì)我的不尊重?!彼€有一句話(huà)沒(méi)說(shuō),我要不把他打爆,別人還以為我們是一個(gè)檔次的球員!

游戲玩法

詹姆斯也表態(tài):“沒(méi)錯(cuò),下一場(chǎng)我們將找回尊重?!庇浾咝α似饋?lái):“如果下一場(chǎng)湖人贏了,但你連續(xù)三場(chǎng)比賽得分不到15分,你認(rèn)為這能讓你獲得尊重嗎勒布朗?”

詹姆斯?jié)M臉黑線,他無(wú)法回答這個(gè)問(wèn)題。今天他犧牲數(shù)據(jù),當(dāng)了一次斯科特.皮蓬,結(jié)果呢?球隊(duì)只是接近勝利而已,他又成了笑柄。

他已經(jīng)開(kāi)始無(wú)法忍受這樣的局面。也許,來(lái)洛杉磯就是個(gè)錯(cuò)誤。但無(wú)論如何,他沒(méi)法中途退出。他還是想贏羅杰,而主場(chǎng)之戰(zhàn)將決定一切。

評(píng)測(cè)

全身心投入尤文迎戰(zhàn)關(guān)鍵戰(zhàn)役,盧克曼、夸德拉多、雷特吉擅長(zhǎng)位置布置,我們需要優(yōu)化進(jìn)攻部署

停火即將發(fā)生,俄烏戰(zhàn)爭(zhēng)可能迎來(lái)轉(zhuǎn)機(jī),普京可能同意烏克蘭"有條件地停戰(zhàn)"

春日低空航線絕美成都空域等你云中漫步,成都淮州機(jī)場(chǎng)新增3條低空賞花航線→

被猴子咬傷的高危情況,致死率70%!被猴子咬傷需警惕猴B病毒

AI探索新視圖,杭電DeepSeek選修課:超千人沉浸式AI教育體驗(yàn)

顯示全部

熱門(mén)推薦
玩家評(píng)論
我要跟貼
取消
最新手游