国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長(zhǎng)之家 - 業(yè)界 2025-03-11 07:34:31

稀疏與線性注意力大模型的進(jìn)化,線性注意力探索:MiniMax-01開發(fā)者講述4年技術(shù)之路

聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

客座嘉賓:鐘怡然

整理:劉倩 程曼祺

往期節(jié)目里,我們采訪了清華大學(xué)兩位博士生肖朝軍和傅天予,圍繞稀疏注意力機(jī)制的改進(jìn)展開討論,并通過(guò)注意力機(jī)制的線索,串聯(lián)起大模型的優(yōu)化歷程。

除了稀疏注意力機(jī)制的改進(jìn),我們還深入探討了另一大改進(jìn)方向:線性注意力。

今年1月,開源大模型MiniMax發(fā)布,參數(shù)規(guī)模達(dá)到了4560億,該模型正是采用了他們開發(fā)的線性注意力機(jī)制“Lightning Attention”。

本次特別邀請(qǐng)了該項(xiàng)目的負(fù)責(zé)人、MiniMax高級(jí)研究總監(jiān)鐘怡然,與我們共同探討線性注意力的研發(fā)歷程。鐘怡然目前負(fù)責(zé)大模型網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)工作,正在開發(fā)一個(gè)多模態(tài)深度推理模型。

鐘怡然曾在上海人工智能實(shí)驗(yàn)室擔(dān)任青年科學(xué)家,是新架構(gòu)探索組的負(fù)責(zé)人;他擁有博士學(xué)位,師從李宏?yáng)|教授和澳大利亞科學(xué)院院士Richard Hartley。他在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊上發(fā)表了20多篇關(guān)于模型新架構(gòu)的論文,涵蓋了當(dāng)前多類非Transformer架構(gòu),包括線性注意力機(jī)制、長(zhǎng)卷積和線性循環(huán)網(wǎng)絡(luò)。

2021年,線性注意力的概念還處于理論探討階段,怡然與團(tuán)隊(duì)開始致力于其實(shí)現(xiàn)工作。

到2024年下半年,當(dāng)MiniMax利用大量算力資源訓(xùn)練4560億參數(shù)的新型模型01時(shí),線性架構(gòu)在大規(guī)模模型上的應(yīng)用仍存在疑慮。然而, MiniMax創(chuàng)始人閆俊杰最終決定投入超過(guò)80%的研發(fā)資源。

建模過(guò)程并非投機(jī)取巧式的賭注。在訓(xùn)練MiniMax-01之前,MiniMax團(tuán)隊(duì)進(jìn)行了3700次預(yù)訓(xùn)練測(cè)試,以預(yù)測(cè)這種新架構(gòu)在更大參數(shù)模型上的表現(xiàn)(其中許多是小規(guī)模實(shí)驗(yàn))。

在性能上,從計(jì)算方法推導(dǎo)來(lái)看,當(dāng)處理的序列變得極為長(zhǎng)時(shí),線性注意力在計(jì)算性能上的優(yōu)勢(shì)將逐漸超過(guò)稀疏注意力。

但從實(shí)際效果來(lái)看,也就是線性注意力架構(gòu)的模型是否能達(dá)到甚至超越 Transformer 模型的智力水平。目前還沒(méi)有人能夠給出一個(gè)具有絕對(duì)說(shuō)服力的答案。

這也是 MiniMax 技術(shù)后續(xù)進(jìn)展中可能會(huì)揭示的謎團(tuán)。

* 以下是本期播客節(jié)目實(shí)錄,有文字精簡(jiǎn)。正文中的(注:……)為編輯注釋。

“線性注意力在處理更大規(guī)模的模型時(shí),優(yōu)勢(shì)將更加顯著”

晚點(diǎn):怡然,可以先和我們的聽眾簡(jiǎn)單介紹一下自己?jiǎn)幔?/p>

鐘怡然:我目前是 MiniMax 的高級(jí)研究總監(jiān),主要負(fù)責(zé)模型結(jié)構(gòu)設(shè)計(jì)和多模態(tài)理解大模型。我主導(dǎo)設(shè)計(jì)了 MiniMax-01 新一代的網(wǎng)絡(luò)架構(gòu),此前曾在上海人工智能實(shí)驗(yàn)室擔(dān)任青年科學(xué)家,是新架構(gòu)探索組的負(fù)責(zé)人,負(fù)責(zé)新一代非 Transformer 架構(gòu)的研發(fā)及視聽多模態(tài)融合。

我們同時(shí)也在新架構(gòu)的工程實(shí)現(xiàn)上進(jìn)行深入研究,相當(dāng)于在新架構(gòu)中引入了一些并行優(yōu)化策略。針對(duì)國(guó)產(chǎn)集群通信系統(tǒng)效率不足的問(wèn)題,我們開發(fā)了異步優(yōu)化器,并在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域進(jìn)行了有效性驗(yàn)證。

晚點(diǎn):其實(shí)不只是我們,各大公司都在對(duì)注意力機(jī)制進(jìn)行優(yōu)化,這個(gè)背景是什么?

鐘怡然:因?yàn)?Transformer 有一個(gè)顯著的問(wèn)題:顯存占用和計(jì)算復(fù)雜度呈平方增長(zhǎng)(注:二次復(fù)雜度即平方增長(zhǎng)——隨著模型處理序列長(zhǎng)度的增加,計(jì)算復(fù)雜度呈平方增長(zhǎng))。FlashAttention 解決了顯存問(wèn)題,但計(jì)算復(fù)雜度問(wèn)題仍然存在。

學(xué)術(shù)界最早嘗試采用“稀疏注意力”來(lái)減少計(jì)算量,但這種方法無(wú)法完全解決二次復(fù)雜度的問(wèn)題。不過(guò),在一段時(shí)期內(nèi),計(jì)算能力的提升掩蓋了這一問(wèn)題的緊迫性:從V100到A100再到H100(英偉達(dá)的三代高性能GPU),計(jì)算能力的提升非常顯著。因此,現(xiàn)在很多大型模型仍然采用Transformer架構(gòu),其序列長(zhǎng)度可以達(dá)到一定的擴(kuò)展,例如擴(kuò)展到128K、256K。

我們一直致力于解決計(jì)算中的二次復(fù)雜度問(wèn)題,因此在2021年,當(dāng)線性注意力剛起步時(shí),我們就開始探索這一方向。線性注意力機(jī)制其實(shí)非常簡(jiǎn)單,其核心在于注意力計(jì)算的Q、K、V相乘過(guò)程。

如果按照QK乘以V的方式進(jìn)行計(jì)算,計(jì)算復(fù)雜度是二次的;而如果先進(jìn)行KV乘以Q的操作,計(jì)算復(fù)雜度則可以保持一次(線性)水平,增長(zhǎng)量不會(huì)過(guò)多。因此,線性注意力的本質(zhì)是將左乘轉(zhuǎn)換為右乘的形式。

晚點(diǎn):你們當(dāng)時(shí)有沒(méi)有嘗試過(guò)稀疏注意力的方向?

鐘怡然:在2021年的時(shí)候,我們確實(shí)嘗試過(guò),但當(dāng)時(shí)的效果和運(yùn)行效率都不盡如人意。實(shí)際上,這與線性注意力面臨同樣的挑戰(zhàn):稀疏注意力的效果并不如Softmax Attention,提升的空間非常有限。

此外,我注意到稀疏注意力存在一定的逼近性問(wèn)題。因?yàn)锳ttention Metrics(注意力值矩陣)是一個(gè)完整的N×N矩陣,而稀疏注意力僅計(jì)算其中有限個(gè)注意力分?jǐn)?shù)(Attention Score)。這自然會(huì)降低計(jì)算復(fù)雜度,但這種降維處理是有犧牲的。我們認(rèn)為這得不償失。

晚點(diǎn):你們對(duì)NSA(稀疏注意力)和MoBA(包括最近微軟亞研院SeerAttention在內(nèi)的最新成果)在效果和效率上的表現(xiàn)有何看法?它們帶來(lái)了哪些新的認(rèn)知?

鐘怡然:具體來(lái)說(shuō),我們還在進(jìn)行進(jìn)一步的實(shí)驗(yàn)。從我們目前的實(shí)驗(yàn)結(jié)果來(lái)看,Lightning Attention(MiniMax-01中采用的混合注意力機(jī)制)在模型參數(shù)量越大時(shí),帶來(lái)的優(yōu)化效果越明顯。

我們還測(cè)試了DeepSeek提出的MLA(一種減少顯存開銷的注意力優(yōu)化方法)以及清華提出的TPA(同樣一種減少顯存開銷的注意力優(yōu)化方法)。但發(fā)現(xiàn),這些方法的優(yōu)勢(shì)在模型規(guī)模增大時(shí)會(huì)逐漸消失,也就是說(shuō),它們對(duì)模型大小有一定的限制。

相比之下,Lightning Attention在模型規(guī)模增大時(shí)展現(xiàn)出顯著的優(yōu)勢(shì)。最近發(fā)布的NSA、MoBA、SeerAttention等成果,我們認(rèn)為它們?cè)诠I(yè)級(jí)規(guī)模擴(kuò)展方面還尚未達(dá)到成熟階段。

晚點(diǎn):MOBA 也發(fā)布了工程代碼,運(yùn)行了近一年。

鐘怡然:這需要開源,讓其他開發(fā)者真正能夠查看,在數(shù)百 GB 參數(shù)的模型上,它是否能夠超越 Transformer。目前,它們的性能對(duì)比主要集中在7B規(guī)模。而在2023年上半年,我們對(duì)Lightning Attention的驗(yàn)證就基本完成了7B規(guī)模的驗(yàn)證。

晚點(diǎn):稀疏注意力和線性注意力在不同規(guī)模的模型上表現(xiàn)有何差異,在幾B參數(shù)的模型之后是否會(huì)出現(xiàn)顯著差別?

鐘怡然:在7B以上基本可以看到明顯的區(qū)別。而MiniMin-01是一個(gè)總參數(shù)量為4560億、激活459億的MoE模型。(注:MoE是混合專家系統(tǒng),其核心機(jī)制是通過(guò)動(dòng)態(tài)路由在推理時(shí)僅激活部分子模型,即“專家”,從而顯著降低計(jì)算資源消耗。)

晚點(diǎn):總的來(lái)說(shuō),現(xiàn)在學(xué)界或工業(yè)界更傾向于稀疏注意力還是線性注意力?

鐘怡然:這兩個(gè)方向的研究者都很多。2023年之后,線性注意力變得比較熱門,因?yàn)镸amba那時(shí)候很火,帶動(dòng)了這一方向的發(fā)展。

晚點(diǎn):從對(duì)Transformer的全注意力機(jī)制改動(dòng)的程度來(lái)看,稀疏注意力的改動(dòng)是否相對(duì)少一些,線性注意力的改動(dòng)是否更多一些?

鐘怡然:是的,稀疏注意力本質(zhì)上還是一個(gè)基于Transformer的模型,它只是對(duì)注意力得分的計(jì)算方式進(jìn)行了改進(jìn)。而線性注意力則是改變了QxKxV的乘法方式。學(xué)術(shù)界對(duì)它有不同的稱呼,你可以稱之為線性注意力,也可以稱之為線性Transformer。

晚點(diǎn):線性注意力與Transformer以前的RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))有什么區(qū)別?

鐘怡然:它本質(zhì)上也是一種循環(huán)結(jié)構(gòu),但以前的RNN最大的問(wèn)題是無(wú)法并行化,而線性循環(huán)網(wǎng)絡(luò)(Linear RNN)則使其能夠?qū)崿F(xiàn)大規(guī)模的并行化。

50% 的把握,投入 80% 的資源

晚點(diǎn):接下來(lái)我們可以從頭聊一聊,你們從 2021 年開始探索線性注意力,到現(xiàn)在,這個(gè)過(guò)程有什么變化。

鐘小姐:2021 年 7 月,我們啟動(dòng)了 cosFormer 項(xiàng)目,這也是我們首次深入線性注意力領(lǐng)域,相關(guān)研究成果發(fā)表在了 ICLR 上。cosFormer 在該領(lǐng)域的知名度依然不錯(cuò)。從那時(shí)起,我們發(fā)現(xiàn)這個(gè)方向潛力巨大。

當(dāng)時(shí)的想法很簡(jiǎn)單:一方面,Transformer 領(lǐng)域已經(jīng)有諸多優(yōu)秀研究,但這并不意味著我們需要效仿。而線性注意力作為一個(gè)新興方向,當(dāng)前的研究者們卻鮮有關(guān)注。與其跟隨他人的步伐,不如另辟蹊徑。

實(shí)際上,線性注意力領(lǐng)域的研究早在 2021 年就已初見端倪,與 Transformer 同期推出。但其效果欠佳、運(yùn)行速度較慢,因此當(dāng)時(shí)研究者們認(rèn)為這是一個(gè)“空 bubble”——看上去很有前景,但實(shí)際應(yīng)用效果卻不盡如人意。

2021 年至 2022 年間,我們密集產(chǎn)出了一系列創(chuàng)新成果,包括線性注意力機(jī)制、長(zhǎng)卷積(Long Convolution)和線性循環(huán)網(wǎng)絡(luò)(Linear RNN)。我們對(duì)現(xiàn)有所有線性方案進(jìn)行了系統(tǒng)性探索。到 2022 年底,我們研發(fā)的方法在語(yǔ)言建模方面的表現(xiàn),已與 Transformer 接近不相上下。

晚點(diǎn):當(dāng)時(shí)你們是如何評(píng)估線性架構(gòu)與 Transformer 的差距的?你們測(cè)試了哪些基準(zhǔn)?

鐘小姐:當(dāng)時(shí)我們主要測(cè)試了學(xué)術(shù)數(shù)據(jù)集,關(guān)注指標(biāo)包括困惑度和建模精度等。同時(shí),我們還在一些常用的大模型數(shù)據(jù)榜單上進(jìn)行了對(duì)比測(cè)試,包括 Long Range Arena 這類長(zhǎng)文本基準(zhǔn)。

在實(shí)驗(yàn)室階段,我們首先解決了線性注意力建模精度的問(wèn)題,隨后轉(zhuǎn)向處理速度問(wèn)題。線性注意力雖然在理論復(fù)雜度上是線性的,但在實(shí)際運(yùn)行中卻表現(xiàn)得非常慢,這是因?yàn)橛页瞬僮魃婕耙幌盗醒h(huán)操作,這對(duì) GPU 來(lái)說(shuō)并不友好,導(dǎo)致實(shí)際運(yùn)行效率遠(yuǎn)低于理論復(fù)雜度。為此,我們?cè)?2020 年推出了 TNL 和 Lightning Attention。Lightning Attention 通過(guò)優(yōu)化實(shí)際運(yùn)行效率,使其接近理論計(jì)算復(fù)雜度。

所以,在上海人工智能實(shí)驗(yàn)室期間,我們認(rèn)為線性注意力已經(jīng)達(dá)到了 Scale Up 熟練的狀態(tài)。我們覺(jué)得自己已經(jīng)解決了精度問(wèn)題,也解決了推理效率問(wèn)題。

當(dāng)我們實(shí)現(xiàn)Scale Up準(zhǔn)備狀態(tài)時(shí),最大的測(cè)試是在什么規(guī)模的模型上進(jìn)行的?

最大的測(cè)試是訓(xùn)練到了15B規(guī)模的模型。

你們當(dāng)時(shí)沒(méi)有繼續(xù)向更高規(guī)模的Scaling Up測(cè)試,是因?yàn)樵趯?shí)驗(yàn)室里資源有限制嗎?

當(dāng)時(shí),我必須將這個(gè)方法徹底擴(kuò)展到Scale Up,這就需要尋找投資者。

那時(shí)我感到比較著急,因?yàn)槲翌A(yù)感到,基于線性注意力的大模型最遲在2024年底肯定會(huì)出來(lái),要么是我們,要么是其他機(jī)構(gòu)如Google和OpenAI。

最了解指的是中國(guó),還是指全球?

包括現(xiàn)在比較活躍的松林(楊松林)之前也是我們組員,所以當(dāng)時(shí)的想法是找到愿意投資這種方法的人。

你最后找到的“金主”就是Minimax。

這實(shí)際上是一個(gè)雙向的過(guò)程。之前我在商湯工作期間,就在俊杰手下。

你是不是也想過(guò)自己創(chuàng)業(yè)?

鐘怡然:我之前也考慮過(guò),但目前看來(lái)難度很大。基礎(chǔ)架構(gòu)創(chuàng)新需要大量的資金投入,而我們目前在算法方面還處于領(lǐng)先地位。

大模型確實(shí)很復(fù)雜,首先需要有優(yōu)秀的架構(gòu),其次要有優(yōu)質(zhì)的數(shù)據(jù)集,最后要有高效的訓(xùn)練方法。這三者缺一不可,任何一個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題,都無(wú)法證明你真正的能力。目前來(lái)看,這家公司已經(jīng)淘汰了很多競(jìng)爭(zhēng)對(duì)手,只剩下了字節(jié)跳動(dòng)和Minimax兩家。

晚點(diǎn):投資人對(duì)你的應(yīng)用方向和變現(xiàn)渠道有什么反饋?

鐘怡然:他們更關(guān)注應(yīng)用方向和變現(xiàn)渠道,對(duì)未來(lái)的盈利模式也特別感興趣。投資人會(huì)想知道這個(gè)項(xiàng)目的長(zhǎng)期價(jià)值和商業(yè)潛力。

晚點(diǎn):公司方面,你當(dāng)時(shí)認(rèn)為能夠做到一流預(yù)訓(xùn)練的公司都有哪些?

鐘怡然:包括字節(jié)跳動(dòng)和Minimax,這兩家在預(yù)訓(xùn)練領(lǐng)域確實(shí)處于領(lǐng)先地位。

晚點(diǎn):Kimi(月之暗面)不是嗎?

鐘怡然:關(guān)于Kimi,我了解的信息比較少,所以當(dāng)時(shí)我覺(jué)得只有兩個(gè)選擇:要么海外發(fā)展,要么專注于國(guó)內(nèi)市場(chǎng)的其他方向。

晚點(diǎn):和字節(jié)聊完后,你得到了什么樣的反饋?

鐘怡然:我對(duì)字節(jié)的反饋并不滿意,他們對(duì)這個(gè)未知領(lǐng)域的興趣不高。作為一個(gè)大型公司,雖然有大量數(shù)據(jù)和人才資源,但要真正投入資源去探索一個(gè)未知的方向,這對(duì)他們來(lái)說(shuō)難度較大。

晚點(diǎn):回頭看2023年下半年,你和閆俊杰的交流,他的反饋是什么?

鐘怡然:早在2021年,我和俊杰已經(jīng)非常了解彼此。通過(guò)深入交流,我們發(fā)現(xiàn),他對(duì)嘗試新事物非常愿意,甚至愿意將公司大部分精力投入其中。

因?yàn)檫@個(gè)模型是核心模塊,研發(fā)需要消耗公司80%-90%的資源,牽扯到數(shù)據(jù)團(tuán)隊(duì)、工程團(tuán)隊(duì)、算法團(tuán)隊(duì)等多個(gè)部門,需要大量協(xié)調(diào)才能完成。

晚點(diǎn):閆俊杰對(duì)你的認(rèn)可,是否源于你們?cè)谧⒁饬C(jī)制領(lǐng)域的一些共同探索?

鐘怡然:之前我們?cè)谶@一領(lǐng)域的探索不多,當(dāng)時(shí)正處于下一代模型技術(shù)選型的關(guān)鍵階段??〗芸赡苷J(rèn)為我的工作扎實(shí)可靠,因此對(duì)他比較信任。

當(dāng)然,俊杰對(duì)這件事的看法與我不同。我認(rèn)為成功的概率高達(dá)99%,而對(duì)他而言,成功與失敗的概率各占50%。對(duì)于我們這些長(zhǎng)期深耕的人士來(lái)說(shuō),我們深知其中的關(guān)鍵點(diǎn),因此相信這個(gè)模型可以實(shí)現(xiàn)Scaling Up。

晚點(diǎn):閆俊杰給出50%的成功概率,卻大膽投入80%的資源,這種賭性是不是有點(diǎn)冒險(xiǎn)?

鐘怡然:這確實(shí)是一場(chǎng)需要冒險(xiǎn)的嘗試。但我們有基于Scaling Laws的測(cè)試方法,逐步驗(yàn)證。他并不是一開始就將所有資源投入進(jìn)去,而是先在一個(gè)成本可控的小模型范圍內(nèi)進(jìn)行驗(yàn)證,再逐步擴(kuò)展。

通過(guò)3700次預(yù)訓(xùn)練驗(yàn)證,我們從“美好的泡泡”模型發(fā)展到了擁有4560億參數(shù)的MiniMax-01模型。

晚點(diǎn):在你們一步步驗(yàn)證的過(guò)程中,你們又發(fā)現(xiàn)了什么新的東西?

鐘怡然:今年年底,我們采用的依然是一個(gè)純線性方案,訓(xùn)練出了一套15B規(guī)模的模型,其效果與Transformer方案基本持平。

但隨后我們擴(kuò)大了模型規(guī)模,發(fā)現(xiàn)無(wú)論是Lightning Attention,還是其他線性方法,在檢索能力(Retrieval)方面都存在明顯的缺陷。

因此不得不采取一種折中的方案,即通過(guò)混合架構(gòu)進(jìn)行優(yōu)化:每七層線性注意力中加入一層Softmax注意力。

之后,可以向大家解釋一下,檢索能力是什么?以及在改進(jìn)注意力機(jī)制時(shí),我們會(huì)測(cè)試一個(gè)被稱為"大海撈針"的任務(wù),即在一個(gè)長(zhǎng)文本中找到與主文本格格不入的一段話或句子。

鐘怡然:檢索能力指的是在長(zhǎng)文本中進(jìn)行檢索或召回的能力。以"大海撈針"任務(wù)為例,給定一篇長(zhǎng)文,其中存在一段話或句子與其他內(nèi)容不符,模型就需要通過(guò)定點(diǎn)召回能力找出這些不匹配的內(nèi)容。"大海撈針"任務(wù)是一個(gè)測(cè)試,在很長(zhǎng)的長(zhǎng)文中,模型能否找到這根"不匹配的針",是一項(xiàng)基礎(chǔ)能力。

線性注意力在執(zhí)行這個(gè)任務(wù)時(shí)存在天然的缺陷,這并不奇怪,因?yàn)榫€性注意力的KV緩存是一個(gè)固定值,無(wú)論輸入文本多長(zhǎng),都會(huì)被壓縮到一個(gè)固定大小的存儲(chǔ)空間中。這個(gè)過(guò)程會(huì)導(dǎo)致檢索能力較弱。

晚點(diǎn):當(dāng)時(shí)壓力大嗎?因?yàn)橐呀?jīng)要上規(guī)模了,出現(xiàn)這種情況。

鐘怡然:我們是有保底方案的,就是混合架構(gòu)。但當(dāng)時(shí)覺(jué)得這個(gè)方案不夠優(yōu)雅。

晚點(diǎn):所以你們最后改進(jìn)純線性注意力檢索能力差的方式,就是在技術(shù)報(bào)告中提到的:每七層線性注意力混合一層Softmax注意力?我們還嘗試了每隔十四層、十六層混合一層Softmax注意力,并測(cè)試了不同的混合比例。

鐘怡然:對(duì),我們也嘗試了每隔十四層、十六層混合一層Softmax注意力,并測(cè)試了不同的混合比例。結(jié)果顯示,對(duì)檢索能力的影響最大,而在語(yǔ)言建模任務(wù)中,不同混合比例下的能力差異不大。

在這個(gè)過(guò)程中,具體采用何種比例的混合策略?是否能提供一些理論依據(jù)或指導(dǎo)建議?

我們沒(méi)有現(xiàn)成的方法或框架可用,是通過(guò)自己的實(shí)驗(yàn)來(lái)探索的。我們甚至嘗試了僅采用一層 Softmax Attention 的極端情況,結(jié)果仍然表現(xiàn)出不錯(cuò)的效果。

在架構(gòu)進(jìn)行較大程度調(diào)整后,我們選擇了1:7的比例。例如,之前嘗試的 Jamba 模型采用了 1:8 或 1:7 這樣的混合層數(shù)配置。

(注:Jamba 是由 AI21 Labs 于 2024 年推出的首個(gè) SSM(狀態(tài)空間模型)-Transformer 混合架構(gòu)大模型,支持 256K 上下文窗口。)

最初為什么會(huì)采用混合策略?

這非常符合直覺(jué),是一種自然的選擇。

在實(shí)施混合策略后,我們是如何進(jìn)行 Scaling Laws 實(shí)驗(yàn)的?

我們的主要目的是驗(yàn)證這一技術(shù)方向是否存在潛在問(wèn)題,Scaling Laws 實(shí)驗(yàn)和混合方案的測(cè)試是同時(shí)進(jìn)行的。

我們對(duì)多種線性方案進(jìn)行了測(cè)試,包括 Lightning Attention、HGRN2 和 Mamba。

這樣多的實(shí)驗(yàn)會(huì)消耗多少資源?

鐘怡然:我們總共訓(xùn)練了3700個(gè)模型,發(fā)表了一篇文章。這項(xiàng)"Scaling Up"的決策非常關(guān)鍵,因?yàn)橥度刖揞~資金訓(xùn)練大型模型,最后卻以失敗告終,實(shí)在讓人惋惜。

尤:特別是在開拓性工作中,必須把基礎(chǔ)工作做得扎實(shí)。我們需要仔細(xì)選擇參數(shù)和注意力機(jī)制,每一種方案都需要進(jìn)行一系列基準(zhǔn)測(cè)試,最終要在速度和效果之間找到平衡。因此,一套完整的對(duì)比實(shí)驗(yàn)是必不可少的。如果草率決定,雖然可以節(jié)省部分實(shí)驗(yàn)成本,但無(wú)疑會(huì)增加項(xiàng)目失敗的風(fēng)險(xiǎn)。

晚點(diǎn):這3700個(gè)模型,是指全部從頭訓(xùn)練,意味著進(jìn)行了3700次預(yù)訓(xùn)練嗎?

鐘怡然:是的,所有模型都是從頭開始訓(xùn)練,使用了不同的大小和參數(shù)設(shè)置。因此,開展Scaling Law實(shí)驗(yàn)是一個(gè)成本很高的過(guò)程。

晚點(diǎn):你們最初預(yù)估需要進(jìn)行這么多次嗎?總共有多少資源投入?

鐘怡然:我們最初的預(yù)估就是3700次。我們根據(jù)所需的卡數(shù)、資源數(shù)量和模型數(shù)量制作了一個(gè)Excel表格,根據(jù)這些數(shù)據(jù)進(jìn)行規(guī)劃,順利完成了訓(xùn)練工作。

晚點(diǎn):你們采用的混合線性注意力結(jié)構(gòu)在實(shí)際應(yīng)用中帶來(lái)了多大的效率提升?

鐘怡然:在序列長(zhǎng)度為100萬(wàn)的情況下,這種結(jié)構(gòu)的處理速度比全注意力結(jié)構(gòu)快了2700倍。

晚點(diǎn):在速度和效果之間,這種線性注意力如何保證輸出質(zhì)量?例如,在發(fā)布后的MiniMax-01、Kimi-k1.5和DeepSeek-R1版本中,當(dāng)我測(cè)試一個(gè)2萬(wàn)字英文文章時(shí),模型無(wú)法準(zhǔn)確回答關(guān)于社交媒體短視頻功能的使用問(wèn)題,而是給出了其他回答。這是什么導(dǎo)致的差異呢?

鐘怡然:"探索新架構(gòu)"讓我們?cè)谏疃韧评矸矫孢M(jìn)展相對(duì)緩慢,但我們正在進(jìn)行第二階段的工作。

鐘怡然:實(shí)際上,你提到的那種能力,其與訓(xùn)練數(shù)據(jù)密切相關(guān)。我們只能確保模型具備展現(xiàn)這種能力的潛力,但要真正實(shí)現(xiàn)這一能力,訓(xùn)練數(shù)據(jù)的作用就顯得至關(guān)重要了。你提出的這個(gè)問(wèn)題,正是我們下一代模型需要解決的核心問(wèn)題。

晚點(diǎn):目前,我們的Minimax-01模型還不是一個(gè)專門的推理模型,像R1和1.5版本的模型已經(jīng)是推理型模型了。那么,你們現(xiàn)在采用的這種架構(gòu)進(jìn)行推理,是否可以結(jié)合強(qiáng)化學(xué)習(xí)?這種方法論基礎(chǔ)和實(shí)現(xiàn)路徑是怎樣的呢?

鐘怡然:我從另一家國(guó)內(nèi)大模型公司的研究結(jié)論中得知,他們認(rèn)為L(zhǎng)inear架構(gòu)在推理性能上稍強(qiáng)一些。他們還在Linear架構(gòu)的模型上進(jìn)行了相關(guān)推理實(shí)驗(yàn),結(jié)果顯示這種架構(gòu)在推理能力上表現(xiàn)更為出色。

晚點(diǎn):你們對(duì)目前的技術(shù)狀況有什么看法?

鐘怡然:我們還在研究這一方向,目前還不能詳細(xì)展開。因?yàn)?,最初我們并沒(méi)有立即沿著這一路徑前進(jìn)。當(dāng)時(shí),國(guó)內(nèi)有很多模型在模仿這一方向,但我們認(rèn)為,單純強(qiáng)調(diào)推理能力,可能只能在某些特定領(lǐng)域提升模型性能。然而,等到R1發(fā)布后,我們發(fā)現(xiàn),將這些推理能力融入模型后,其外推能力和泛化能力得到了顯著提升。

晚點(diǎn):你們當(dāng)時(shí)認(rèn)為,技術(shù)基礎(chǔ)應(yīng)該先做好哪些方面?

鐘怡然:我們希望我們的模型在內(nèi)部排行榜上能夠與現(xiàn)有的4o模型(即目前最先進(jìn)的模型)不相上下,甚至接近世界頂尖水平。當(dāng)時(shí),4o模型在相關(guān)領(lǐng)域確實(shí)處于領(lǐng)先地位。

晚點(diǎn):你們是否會(huì)考慮多模態(tài)的結(jié)合?因?yàn)?o模型本身就是一個(gè)多模態(tài)模型。

鐘怡然:后來(lái),我接手了多模態(tài)大模型相關(guān)的工作。在構(gòu)建多模態(tài)模型時(shí),有兩種主要的實(shí)現(xiàn)路徑:一是采用原生多模態(tài)架構(gòu),二是基于adapter(適配器)技術(shù)的多模態(tài)架構(gòu)。經(jīng)過(guò)慎重考慮,我認(rèn)為我們當(dāng)時(shí)應(yīng)該選擇adapter架構(gòu)。因?yàn)樵谀莻€(gè)時(shí)候,原生多模態(tài)技術(shù)的實(shí)現(xiàn)路徑尚不完善,例如,Gemini-2.0模型還沒(méi)有發(fā)布。

晚點(diǎn):這個(gè)方案有哪些優(yōu)勢(shì)?首先,我們能夠快速驗(yàn)證數(shù)據(jù)是否存在質(zhì)量問(wèn)題;其次,效果能夠迅速顯現(xiàn)。投入的成本較低,就能獲得性能較為理想的結(jié)果。從我們發(fā)布的VL01模型來(lái)看,基準(zhǔn)測(cè)試結(jié)果顯示該模型表現(xiàn)相當(dāng)優(yōu)異。

晚點(diǎn):可以這樣理解,MiniMax-01 在 MiniMax 主線模型中確實(shí)是一次重大的轉(zhuǎn)型或升級(jí)。此前的 ABAB 系列采用的是 Transformer 架構(gòu),而 MiniMax-01 則采用了線性架構(gòu)——這是你們語(yǔ)言技術(shù)、多模態(tài)處理以及未來(lái)模型進(jìn)展的重要組成部分。

鐘怡然:對(duì),這段模型的更迭速度確實(shí)很快。

晚點(diǎn):為什么要選擇投入這個(gè)改動(dòng)較大且具有創(chuàng)新性的方案?

鐘怡然:首先,我們有這個(gè)意愿,是因?yàn)槲覀兿胝宫F(xiàn)自身的技術(shù)實(shí)力。我們是一家勇于創(chuàng)新的公司,愿意賭新技術(shù)。目前我們已經(jīng)將序列長(zhǎng)度提升到了 4M(400 萬(wàn)),并且我們有能力將其提升到 10M(1000 萬(wàn))。

但是(如果選擇 10M)當(dāng)前需要解決的問(wèn)題是如何構(gòu)建 10M 數(shù)據(jù)集,以及在實(shí)現(xiàn) 10M 序列長(zhǎng)度后,具體能實(shí)現(xiàn)什么功能。目前我們的計(jì)劃是先將 1M 以內(nèi)的相關(guān)工作做到極致,然后再向外擴(kuò)展。

晚點(diǎn):經(jīng)過(guò)這樣的推理,你們計(jì)劃探索哪些方向?我指的是從 O1 之后全面引入強(qiáng)化學(xué)習(xí)到 Transformer 整個(gè)流程中,未來(lái)會(huì)發(fā)生什么變化?

鐘怡然:目前行業(yè)還在做深度推理,這方面的進(jìn)展還比較新。我們處于追趕階段。但我們認(rèn)為,長(zhǎng)文本處理未來(lái)會(huì)成為一個(gè)趨勢(shì)。我們很高興看到像 Kimi、DeepSeek 這樣的公司,已經(jīng)推出了針對(duì)長(zhǎng)文本優(yōu)化的模型架構(gòu),這表明大家都開始走上這條賽道。

在我看來(lái),俊杰也比較清楚:我們走的是長(zhǎng)線策略。短期內(nèi)在效果上可能會(huì)落后,因?yàn)槲覀儾捎昧诵录軜?gòu),在相同算力和資源下,我們的人力在進(jìn)行深度推理方面會(huì)相對(duì)不足,這意味著我們跟隨深度推理的腳步會(huì)稍微慢一些。

但另一方面,當(dāng)我們真正開始進(jìn)行深度推理時(shí),我們就能迅速趕上。因此,在這場(chǎng)競(jìng)賽中,我們正在參與的是“下半場(chǎng)”。我們押注的未來(lái)趨勢(shì)是長(zhǎng)文本需求。當(dāng)線性注意力的規(guī)模擴(kuò)大到一定程度時(shí),在長(zhǎng)文本賽道上很難有對(duì)手。

做技術(shù)的“道心”之爭(zhēng)

晚點(diǎn):你覺(jué)得這些公司(如DeepSeek、Kimi)在稀疏注意力的改進(jìn)上效率和效果不錯(cuò),對(duì)嗎?

鐘怡然:他們的主要?jiǎng)?chuàng)新點(diǎn)在于通過(guò)極致工程優(yōu)化改善了稀疏注意力過(guò)去計(jì)算速度較慢的問(wèn)題。不過(guò),稀疏注意力的上限較低,我不認(rèn)為DeepSeek會(huì)繼續(xù)沿用這條路線。當(dāng)模型尺寸增大時(shí),線性注意力相比稀疏注意力的優(yōu)勢(shì)會(huì)更加明顯,他們?cè)谶M(jìn)行更大規(guī)模實(shí)驗(yàn)時(shí)也能觀察到這一點(diǎn)。

晚點(diǎn):線性注意力的上限高,而且實(shí)際上它確實(shí)可以應(yīng)用。那么,在行業(yè)內(nèi)這是共識(shí)還是非共識(shí)?

鐘怡然:這是非共識(shí)。即使像MiniMax-01這樣的成果已經(jīng)出來(lái)了,有些人還是擔(dān)心當(dāng)線性注意力規(guī)模擴(kuò)大時(shí)可能會(huì)遇到問(wèn)題。

晚點(diǎn):為什么會(huì)有這種擔(dān)憂?

鐘怡然:可能是MiniMax-01的宣傳力度不夠,導(dǎo)致許多人沒(méi)意識(shí)到它。目前普遍的觀點(diǎn)是,認(rèn)為線性注意力是一種有損的優(yōu)化。從原理上看,用一次計(jì)算來(lái)近似二次計(jì)算似乎是有損的。但有沒(méi)有可能,這種二次計(jì)算的復(fù)雜度其實(shí)是多余的呢?而我們認(rèn)為,它其實(shí)是一個(gè)無(wú)損的架構(gòu),一個(gè)無(wú)損的優(yōu)化,尤其是在混合架構(gòu)的情況下,其效果甚至?xí)谩?/p>

這個(gè)討論屬于技術(shù)界的“道心之爭(zhēng)”——技術(shù)判斷和你的信仰是什么。

晚點(diǎn):據(jù)我所知,像OpenAI、Anthropic這些國(guó)外頂尖AI公司,他們有沒(méi)有嘗試過(guò)采用線性架構(gòu)?

鐘怡然:他們的架構(gòu)很可能是基于滑動(dòng)窗口注意力(Sliding Window Attention),這也是一種稀疏注意力。而像Google等公司采用的方法大抵是滑動(dòng)窗口結(jié)合全注意力(Full Attention)。

晚點(diǎn):所以你們對(duì)線性的信任,也并不一定源于全球頂尖公司有沒(méi)有做或者沒(méi)有做線性架構(gòu)?

鐘怡然:對(duì)的,而且我們是真正把論文轉(zhuǎn)化成了產(chǎn)品的,現(xiàn)在Minimax的產(chǎn)品已經(jīng)在使用這套架構(gòu)了,這說(shuō)明我們的技術(shù)是比較先進(jìn)的。那篇論文是在24年初完成的,產(chǎn)品(應(yīng)用這一架構(gòu))則是在24年底推出的。

晚點(diǎn):你剛才提到,線性注意力的上限大且能工作,在業(yè)界是一個(gè)非共識(shí)。你愿意談?wù)勥@個(gè)觀點(diǎn)嗎?

鐘怡然:我不介意,我們希望更多人能夠嘗試線性注意力,也希望更多人共同開發(fā)長(zhǎng)文本應(yīng)用。其實(shí)我們已經(jīng)開源了Minimax-01,這體現(xiàn)了我們對(duì)這一架構(gòu)的重視。

晚點(diǎn):那么你們對(duì)Minimax-01這次的開源,以及帶來(lái)的反饋和影響力,滿意嗎?

鐘怡然:有朋友認(rèn)為這份報(bào)告寫得不錯(cuò),工作也十分扎實(shí),但為什么卻沒(méi)能引起更多關(guān)注呢?我覺(jué)得這正是加強(qiáng)傳播的契機(jī)。同時(shí),我們下一代模型的目標(biāo)是做得更好。

晚點(diǎn):在開源Minimax-01時(shí),你們?yōu)槭裁粗话l(fā)布了最大參數(shù)版本的模型,而沒(méi)有發(fā)布不同尺寸的版本呢?因?yàn)橐恍┹^小尺寸的模型,對(duì)學(xué)界、個(gè)人開發(fā)者以及小型機(jī)構(gòu)來(lái)說(shuō)更加友好,這正是讓更多人參與進(jìn)來(lái)的關(guān)鍵。

鐘怡然:我們確實(shí)有不同尺寸的模型,但開源不同版本需要維護(hù)更多的模型,這會(huì)增加人力投入。我們更重視的是開源后能夠帶來(lái)良好效果的模型。

晚點(diǎn):DeepSeek在春節(jié)期間取得了很大的成功,你們的團(tuán)隊(duì)內(nèi)部氛圍發(fā)生了什么變化嗎?

鐘怡然:DeepSeek并沒(méi)有讓我們?cè)谶^(guò)年(笑),我們正加快推理模型的開發(fā)節(jié)奏。我們的目標(biāo)是打造比R1更加強(qiáng)大,甚至達(dá)到O1或O3水平的推理模型。

鐘怡然:我們還選擇了比較激進(jìn)的方案,它會(huì)是一個(gè)基于原生多模態(tài)的深度推理模型。這個(gè)項(xiàng)目的難點(diǎn)在于如何平衡文本理解和視覺(jué)理解能力,讓兩者都能達(dá)到很強(qiáng)的水平。目前的實(shí)驗(yàn)結(jié)果已經(jīng)非常令人滿意。

晚點(diǎn):這次你對(duì)完成工作有多大把握?

鐘怡然:大概有七八成的把握。

晚點(diǎn):預(yù)計(jì)什么時(shí)候能推出這個(gè)模型?

鐘怡然:預(yù)計(jì)在4月到5月之間。目前所有的資源都集中在提升模型性能的上限,我們認(rèn)為相比單純維護(hù)產(chǎn)品,提升模型上限更為重要。

晚點(diǎn):你如何看待DeepSeek雖然沒(méi)有一個(gè)好用的產(chǎn)品,但其影響力卻突然爆炸?

鐘怡然:我認(rèn)為,雖然模型效果非常出色,是能夠脫穎而出的基礎(chǔ),但另一方面,其影響力快速擴(kuò)大也與許多其他因素密切相關(guān)。

我們無(wú)法預(yù)測(cè)這類突發(fā)性事件,但我們想,如果我們有一項(xiàng)新技術(shù),希望讓更多人了解,應(yīng)該怎么做呢?最好的方法就是將其轉(zhuǎn)化為產(chǎn)品。

晚點(diǎn):所以你仍然認(rèn)為,一個(gè)正常的技術(shù)公司,僅憑技術(shù)本身,無(wú)法實(shí)現(xiàn)長(zhǎng)時(shí)間的正向反饋和形成壁壘。

鐘怡然:是的。我們?cè)?023年想推出線性注意力模型時(shí),確實(shí)利用了上海人工智能實(shí)驗(yàn)室的一些資源進(jìn)行宣傳。但當(dāng)我向所有人解釋時(shí),卻很難說(shuō)服他們。他們認(rèn)為這個(gè)新架構(gòu)的模型僅在小規(guī)模上進(jìn)行了驗(yàn)證。

那時(shí)我就想,我該怎么辦?我只能找一個(gè)愿意相信這個(gè)新架構(gòu)的人,將其放入產(chǎn)品中——證明一個(gè)新技術(shù)有說(shuō)服力的最好方式就是將其放入產(chǎn)品中進(jìn)行驗(yàn)證。

你對(duì)AI的追求是什么?

鐘怡然:我希望創(chuàng)造一種能夠真正自我學(xué)習(xí)、自我進(jìn)化的模型。當(dāng)人類將所有看到、聽到的信息作為輸入時(shí),它將能夠自主學(xué)習(xí)不同模態(tài)之間的關(guān)系,并具備像文本處理這樣的技能。實(shí)際上,這種文本處理能力也是通過(guò)自學(xué)習(xí)的方式獲得的。

若要實(shí)現(xiàn)我的目標(biāo),首先需要開發(fā)文本模型,其次是多模態(tài)模型,最后是探索如何使模型能夠自主學(xué)習(xí)不同模態(tài)之間的關(guān)系。這個(gè)過(guò)程與人類的學(xué)習(xí)方式非常相似,人類也是通過(guò)類似的方式逐步學(xué)習(xí)的。

附:文中提到的主要工作的GitHub或arXiv鏈接如下:

MiniMax-01:

https://github.com/MiniMax-AI/MiniMax-01

Lightning Attention:

https://github.com/OpenNLPLab/lightning-attention

cosFormer:

https://github.com/OpenNLPLab/cosFormer

Mamba項(xiàng)目:

- 官方GitHub倉(cāng)庫(kù):https://github.com/state-spaces/mamba

2. Jamba:

- 官方GitHub倉(cāng)庫(kù):https://github.com/kyegomez/Jamba

題圖來(lái)源于電影《美麗心靈》的電影截圖。

Hag里夫斯關(guān)于阿森納轉(zhuǎn)會(huì)的建議,哈格里夫斯認(rèn)為鋒線是 Arsenal 最為關(guān)鍵的防守位置,今夏 Arsenal 需著重在鋒線位置進(jìn)行引援,為下賽季的爭(zhēng)冠目標(biāo)做好準(zhǔn)備。這個(gè)改寫標(biāo)題:1. 保持了原文的核心信息:哈格里夫斯的觀點(diǎn)和 Arsenal 的引援需求2. 使用"今夏"替代"夏天",使時(shí)間表達(dá)更簡(jiǎn)潔有力3. "著重"替代"努力",使表達(dá)更專業(yè)4. "吸引"替代"簽",使用詞更符合媒體標(biāo)題風(fēng)格5. 調(diào)整了語(yǔ)序,使標(biāo)題更具節(jié)奏感6. 保持了簡(jiǎn)潔明了的特點(diǎn),同時(shí)增強(qiáng)了吸引力這個(gè)改寫標(biāo)題既保持了原文的核心信息,又提升了標(biāo)題的吸引力和專業(yè)性。 《天堂旅行團(tuán)》三個(gè)半小時(shí),有生之年,又被他治愈一次! 裁員潮,美國(guó)國(guó)防部宣布裁減文職員工,約3萬(wàn)名文職人員已提出辭職(說(shuō)明:這個(gè)改寫版本:1. 保持了原文的核心信息:美國(guó)國(guó)防部裁員、文職員工辭職2. 使用了更正式的表達(dá)方式("宣布裁減"比"開始裁員"更符合官方語(yǔ)氣)3. 簡(jiǎn)化了語(yǔ)序,使標(biāo)題更簡(jiǎn)潔4. 采用了同義詞替換("裁減"替代"裁員","辭職"替代"提出辭職")5. 保持了簡(jiǎn)潔明了的新聞標(biāo)題風(fēng)格6. 信息量與原文完全一致,但表述更加精煉) 《爆梗找茬王》愛心拍照通關(guān)攻略,《爆梗找茬王》愛心拍照通關(guān)攻略 德赫亞9次撲救出色表現(xiàn),佛羅倫薩在對(duì)陣那不勒斯的比賽中失利,德赫亞多次撲救表現(xiàn)突出,獲得全場(chǎng)最高分9.2分。 馬斯克 vs. 魯比奧關(guān)于‘星鏈’的爭(zhēng)執(zhí)美國(guó)政治,"美前副總統(tǒng)與馬斯克交鋒,波蘭外長(zhǎng)呼吁'謝謝'"(對(duì)"內(nèi)訌卻對(duì)外一致"進(jìn)行簡(jiǎn)化,同時(shí)去掉"呼吁謝謝"作為引言內(nèi)容,標(biāo)題更加簡(jiǎn)潔明了。) 《梗找王》六芒星拍照關(guān)卡攻略來(lái)啦左右滑動(dòng)+點(diǎn)觸操作簡(jiǎn)單指南,《爆梗找茬王》六芒星拍照通關(guān)攻略 更年期不可忽視的變化,更年期女性打嗝、耳鳴等"多種癥狀"全解析 3月5日政府工作報(bào)告商業(yè)航天與民營(yíng)企業(yè)發(fā)展,全國(guó)人大代表張濤呼吁商業(yè)航天企業(yè)拓展海外市場(chǎng)或商業(yè)航天:張濤全國(guó)人大代表呼吁拓展海外市場(chǎng)或張濤全國(guó)人大代表:呼吁商業(yè)航天企業(yè)拓展海外市場(chǎng) 酷炫動(dòng)態(tài)深圳眾擎機(jī)器人最新發(fā)布,深圳機(jī)器人跑步,令外國(guó)網(wǎng)友震驚:北馬見
     
王正德

王正德

大?。?em>38mb更新:2025-03-11 07:34:31

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 王正德
  • 王正德
  • 王正德

游戲特色

對(duì)面酒店的人昨天就被屠殺一空,又不是要入住,在一樓大廳臨時(shí)充當(dāng)掩體和休息的地方問(wèn)題不大。明明是個(gè)以暗殺為生的忍者,但到了上忍的級(jí)別,指揮一群人一樣做的井井有條。

匆匆安排好一切,他便跳上屋頂、奔跑離開。【不是瞬身么,看起來(lái)鹽水老師的查克拉確實(shí)是不多了……】林克正想著。

“老大?”鳶尾有點(diǎn)擔(dān)憂的問(wèn)了一句,剛才看到老大半跪下來(lái)實(shí)在嚇了他一跳?!拔覜](méi)事。”林克的呼吸都逐漸均勻起來(lái),體力已經(jīng)恢復(fù)到一定水平,看著兩個(gè)身上都掛了些彩、也很疲憊的同伴,語(yǔ)氣稍微溫和了些許,“你們兩個(gè)去樓上檢查一下還有沒(méi)有潛伏的敵人。”

上忍暫時(shí)脫隊(duì),最強(qiáng)戰(zhàn)斗力不能離開任務(wù)目標(biāo)。他倒也沒(méi)有任由倆同伴直接進(jìn)入樓上狹窄環(huán)境掃雷赴死的想法,將自己的影子也派出去,跟在他們身邊。

在兩個(gè)同伴開始行動(dòng)后,林克模仿著前些日子奈良鹽水的行動(dòng),待在火之國(guó)富商的五米內(nèi),默默的提煉一定程度的查克拉,做好時(shí)刻結(jié)印的準(zhǔn)備。

替身金屬制品早就過(guò)期消散,分身術(shù)和變身術(shù)也沒(méi)有必要長(zhǎng)時(shí)間保留,以他長(zhǎng)時(shí)間鍛煉出來(lái)的結(jié)印速度,分身術(shù)這樣簡(jiǎn)單的忍術(shù)一瞬間就能夠完成結(jié)印釋放。

大概五分鐘后,體力消耗稍微多了一些,他便知曉樓上還有潛伏的敵人——起碼都到了動(dòng)手的程度,自然不會(huì)是友軍亦或者平民。

不多時(shí),跟影子一起上樓探索的倆人回來(lái)?!昂魚嗬!”一個(gè)重傷的武士躺在大廳的地板上,忽然猛地喘息一下,緊接著失去了氣息。

傷勢(shì)太重,沒(méi)能撐下去。林克不能浪費(fèi)自己的查克拉去給他治療,所以死亡來(lái)的如此之快。霞有點(diǎn)猶豫的湊過(guò)來(lái),道:“老大,我想……”她看了一眼正躺在地上等死的武士們,想要過(guò)去幫忙處理一下傷口和治療。

作為想要成為忍醫(yī)的下忍,她平時(shí)還是有在學(xué)習(xí)醫(yī)學(xué)知識(shí)的,用查克拉治愈別人的查克拉控制能力要求也不算特別高。

游戲亮點(diǎn)

陳牧待掌中黑白色的光華一陣變幻后,終于輕輕一收,同時(shí)看向附近的幾人說(shuō)道。立足于身側(cè),觀看他演示生命玄奧之道的,除許紅玉之外,還有陳玥、陳瑤等人,也包括他曾經(jīng)的師尊秦夢(mèng)君,而今眾人皆已登臨神境,不過(guò)境界都在神境的一二重天。

唯有陳瑤,作為他唯一的血脈后裔,承襲了極高的天賦,她成神最晚,但境界卻最高,如今已位列三重天,甚至距離登上四重天都相去不遠(yuǎn)。

大宣世界畢竟從開化至今,也已有數(shù)萬(wàn)界年了,世間已是數(shù)十萬(wàn)年,可謂滄海桑田。陳牧身為神君,甚至已登臨八重天,乃是神君霸主,他作為界主所統(tǒng)御的一方世界,誕生出一些二三重天的神境那無(wú)疑是再尋常不過(guò),甚至現(xiàn)在的大宣世界還遠(yuǎn)稱不上繁華。

以陳牧自身的底蘊(yùn)和根基,大宣世界縱然發(fā)展不到祖魔界的程度,也不會(huì)相差太多,畢竟祖魔界能發(fā)展到那么繁榮,誕生眾多神君乃至無(wú)數(shù)的五六重天的真神,是經(jīng)歷了無(wú)盡歲月不斷擄掠,不斷侵吞其他世界的結(jié)果。

游戲玩法

約定有朝一日,種子生根發(fā)芽,長(zhǎng)成大樹開花結(jié)果時(shí),他會(huì)回來(lái)相見。宋到心說(shuō)這不就是這個(gè)世界的西游記嗎?原主小時(shí)候還看過(guò),叫西行記,劇情跟西游記很相似。

也是講的降妖除魔取真經(jīng)。要不怎么說(shuō)兩個(gè)世界發(fā)展軌跡差不多,連文化都有很多相似之處。但也只是相似,終究是兩朵不同的花。

讓宋到感到驚訝的,是這部電影跟他精品黃金寶箱開出那首歌契合度極高!一直以來(lái),他都在思考一個(gè)問(wèn)題。再經(jīng)典的歌曲,也是需要時(shí)間來(lái)驗(yàn)證的。

評(píng)測(cè)

擊敗藍(lán)觸巨人的戰(zhàn)斗挑戰(zhàn),《星球重啟》藍(lán)觸巨人打法攻略

春日時(shí)尚推薦,開春穿這三件薄外套,溫柔又時(shí)髦,穿誰(shuí)都美!

疑案覓蹤第三天通關(guān)技巧,《劍與遠(yuǎn)征》疑案覓蹤第三天通關(guān)攻略

季度計(jì)劃,特朗普:不排除美國(guó)今年衰退的可能性

兩種風(fēng)格同一個(gè)目標(biāo),標(biāo)題改寫版本:1. 雷軍身后出現(xiàn)的神秘人物走紅,身份讓人意外……2. 雷軍身后出現(xiàn)的神秘人物走紅,身份讓人意外……3. 雷軍身后出現(xiàn)的神秘人物走紅,身份讓人意外……(以上改寫版本都保持了原文的核心信息,同時(shí)簡(jiǎn)化了表達(dá),使用了同義詞替換和調(diào)整語(yǔ)序,使標(biāo)題更加簡(jiǎn)潔明了。)

顯示全部

熱門推薦
玩家評(píng)論
我要跟貼
取消
最新手游