国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長之家 - 業(yè)界 2025-03-10 13:48:43

稀疏與線性注意力大模型的進化,線性注意力探索:MiniMax-01開發(fā)者講述4年技術之路

聲明:本文來自于(ID:ykqsd.com)授權轉(zhuǎn)載發(fā)布。

客座嘉賓:鐘怡然

整理:劉倩 程曼祺

往期節(jié)目里,我們采訪了清華大學兩位博士生肖朝軍和傅天予,圍繞稀疏注意力機制的改進展開討論,并通過注意力機制的線索,串聯(lián)起大模型的優(yōu)化歷程。

除了稀疏注意力機制的改進,我們還深入探討了另一大改進方向:線性注意力。

今年1月,開源大模型MiniMax發(fā)布,參數(shù)規(guī)模達到了4560億,該模型正是采用了他們開發(fā)的線性注意力機制“Lightning Attention”。

本次特別邀請了該項目的負責人、MiniMax高級研究總監(jiān)鐘怡然,與我們共同探討線性注意力的研發(fā)歷程。鐘怡然目前負責大模型網(wǎng)絡架構設計工作,正在開發(fā)一個多模態(tài)深度推理模型。

鐘怡然曾在上海人工智能實驗室擔任青年科學家,是新架構探索組的負責人;他擁有博士學位,師從李宏東教授和澳大利亞科學院院士Richard Hartley。他在國際頂級學術會議和期刊上發(fā)表了20多篇關于模型新架構的論文,涵蓋了當前多類非Transformer架構,包括線性注意力機制、長卷積和線性循環(huán)網(wǎng)絡。

2021年,線性注意力的概念還處于理論探討階段,怡然與團隊開始致力于其實現(xiàn)工作。

到2024年下半年,當MiniMax利用大量算力資源訓練4560億參數(shù)的新型模型01時,線性架構在大規(guī)模模型上的應用仍存在疑慮。然而, MiniMax創(chuàng)始人閆俊杰最終決定投入超過80%的研發(fā)資源。

建模過程并非投機取巧式的賭注。在訓練MiniMax-01之前,MiniMax團隊進行了3700次預訓練測試,以預測這種新架構在更大參數(shù)模型上的表現(xiàn)(其中許多是小規(guī)模實驗)。

在性能上,從計算方法推導來看,當處理的序列變得極為長時,線性注意力在計算性能上的優(yōu)勢將逐漸超過稀疏注意力。

但從實際效果來看,也就是線性注意力架構的模型是否能達到甚至超越 Transformer 模型的智力水平。目前還沒有人能夠給出一個具有絕對說服力的答案。

這也是 MiniMax 技術后續(xù)進展中可能會揭示的謎團。

* 以下是本期播客節(jié)目實錄,有文字精簡。正文中的(注:……)為編輯注釋。

“線性注意力在處理更大規(guī)模的模型時,優(yōu)勢將更加顯著”

晚點:怡然,可以先和我們的聽眾簡單介紹一下自己嗎?

鐘怡然:我目前是 MiniMax 的高級研究總監(jiān),主要負責模型結(jié)構設計和多模態(tài)理解大模型。我主導設計了 MiniMax-01 新一代的網(wǎng)絡架構,此前曾在上海人工智能實驗室擔任青年科學家,是新架構探索組的負責人,負責新一代非 Transformer 架構的研發(fā)及視聽多模態(tài)融合。

我們同時也在新架構的工程實現(xiàn)上進行深入研究,相當于在新架構中引入了一些并行優(yōu)化策略。針對國產(chǎn)集群通信系統(tǒng)效率不足的問題,我們開發(fā)了異步優(yōu)化器,并在計算機視覺和自然語言處理領域進行了有效性驗證。

晚點:其實不只是我們,各大公司都在對注意力機制進行優(yōu)化,這個背景是什么?

鐘怡然:因為 Transformer 有一個顯著的問題:顯存占用和計算復雜度呈平方增長(注:二次復雜度即平方增長——隨著模型處理序列長度的增加,計算復雜度呈平方增長)。FlashAttention 解決了顯存問題,但計算復雜度問題仍然存在。

學術界最早嘗試采用“稀疏注意力”來減少計算量,但這種方法無法完全解決二次復雜度的問題。不過,在一段時期內(nèi),計算能力的提升掩蓋了這一問題的緊迫性:從V100到A100再到H100(英偉達的三代高性能GPU),計算能力的提升非常顯著。因此,現(xiàn)在很多大型模型仍然采用Transformer架構,其序列長度可以達到一定的擴展,例如擴展到128K、256K。

我們一直致力于解決計算中的二次復雜度問題,因此在2021年,當線性注意力剛起步時,我們就開始探索這一方向。線性注意力機制其實非常簡單,其核心在于注意力計算的Q、K、V相乘過程。

如果按照QK乘以V的方式進行計算,計算復雜度是二次的;而如果先進行KV乘以Q的操作,計算復雜度則可以保持一次(線性)水平,增長量不會過多。因此,線性注意力的本質(zhì)是將左乘轉(zhuǎn)換為右乘的形式。

晚點:你們當時有沒有嘗試過稀疏注意力的方向?

鐘怡然:在2021年的時候,我們確實嘗試過,但當時的效果和運行效率都不盡如人意。實際上,這與線性注意力面臨同樣的挑戰(zhàn):稀疏注意力的效果并不如Softmax Attention,提升的空間非常有限。

此外,我注意到稀疏注意力存在一定的逼近性問題。因為Attention Metrics(注意力值矩陣)是一個完整的N×N矩陣,而稀疏注意力僅計算其中有限個注意力分數(shù)(Attention Score)。這自然會降低計算復雜度,但這種降維處理是有犧牲的。我們認為這得不償失。

晚點:你們對NSA(稀疏注意力)和MoBA(包括最近微軟亞研院SeerAttention在內(nèi)的最新成果)在效果和效率上的表現(xiàn)有何看法?它們帶來了哪些新的認知?

鐘怡然:具體來說,我們還在進行進一步的實驗。從我們目前的實驗結(jié)果來看,Lightning Attention(MiniMax-01中采用的混合注意力機制)在模型參數(shù)量越大時,帶來的優(yōu)化效果越明顯。

我們還測試了DeepSeek提出的MLA(一種減少顯存開銷的注意力優(yōu)化方法)以及清華提出的TPA(同樣一種減少顯存開銷的注意力優(yōu)化方法)。但發(fā)現(xiàn),這些方法的優(yōu)勢在模型規(guī)模增大時會逐漸消失,也就是說,它們對模型大小有一定的限制。

相比之下,Lightning Attention在模型規(guī)模增大時展現(xiàn)出顯著的優(yōu)勢。最近發(fā)布的NSA、MoBA、SeerAttention等成果,我們認為它們在工業(yè)級規(guī)模擴展方面還尚未達到成熟階段。

晚點:MOBA 也發(fā)布了工程代碼,運行了近一年。

鐘怡然:這需要開源,讓其他開發(fā)者真正能夠查看,在數(shù)百 GB 參數(shù)的模型上,它是否能夠超越 Transformer。目前,它們的性能對比主要集中在7B規(guī)模。而在2023年上半年,我們對Lightning Attention的驗證就基本完成了7B規(guī)模的驗證。

晚點:稀疏注意力和線性注意力在不同規(guī)模的模型上表現(xiàn)有何差異,在幾B參數(shù)的模型之后是否會出現(xiàn)顯著差別?

鐘怡然:在7B以上基本可以看到明顯的區(qū)別。而MiniMin-01是一個總參數(shù)量為4560億、激活459億的MoE模型。(注:MoE是混合專家系統(tǒng),其核心機制是通過動態(tài)路由在推理時僅激活部分子模型,即“專家”,從而顯著降低計算資源消耗。)

晚點:總的來說,現(xiàn)在學界或工業(yè)界更傾向于稀疏注意力還是線性注意力?

鐘怡然:這兩個方向的研究者都很多。2023年之后,線性注意力變得比較熱門,因為Mamba那時候很火,帶動了這一方向的發(fā)展。

晚點:從對Transformer的全注意力機制改動的程度來看,稀疏注意力的改動是否相對少一些,線性注意力的改動是否更多一些?

鐘怡然:是的,稀疏注意力本質(zhì)上還是一個基于Transformer的模型,它只是對注意力得分的計算方式進行了改進。而線性注意力則是改變了QxKxV的乘法方式。學術界對它有不同的稱呼,你可以稱之為線性注意力,也可以稱之為線性Transformer。

晚點:線性注意力與Transformer以前的RNN(循環(huán)神經(jīng)網(wǎng)絡)有什么區(qū)別?

鐘怡然:它本質(zhì)上也是一種循環(huán)結(jié)構,但以前的RNN最大的問題是無法并行化,而線性循環(huán)網(wǎng)絡(Linear RNN)則使其能夠?qū)崿F(xiàn)大規(guī)模的并行化。

50% 的把握,投入 80% 的資源

晚點:接下來我們可以從頭聊一聊,你們從 2021 年開始探索線性注意力,到現(xiàn)在,這個過程有什么變化。

鐘小姐:2021 年 7 月,我們啟動了 cosFormer 項目,這也是我們首次深入線性注意力領域,相關研究成果發(fā)表在了 ICLR 上。cosFormer 在該領域的知名度依然不錯。從那時起,我們發(fā)現(xiàn)這個方向潛力巨大。

當時的想法很簡單:一方面,Transformer 領域已經(jīng)有諸多優(yōu)秀研究,但這并不意味著我們需要效仿。而線性注意力作為一個新興方向,當前的研究者們卻鮮有關注。與其跟隨他人的步伐,不如另辟蹊徑。

實際上,線性注意力領域的研究早在 2021 年就已初見端倪,與 Transformer 同期推出。但其效果欠佳、運行速度較慢,因此當時研究者們認為這是一個“空 bubble”——看上去很有前景,但實際應用效果卻不盡如人意。

2021 年至 2022 年間,我們密集產(chǎn)出了一系列創(chuàng)新成果,包括線性注意力機制、長卷積(Long Convolution)和線性循環(huán)網(wǎng)絡(Linear RNN)。我們對現(xiàn)有所有線性方案進行了系統(tǒng)性探索。到 2022 年底,我們研發(fā)的方法在語言建模方面的表現(xiàn),已與 Transformer 接近不相上下。

晚點:當時你們是如何評估線性架構與 Transformer 的差距的?你們測試了哪些基準?

鐘小姐:當時我們主要測試了學術數(shù)據(jù)集,關注指標包括困惑度和建模精度等。同時,我們還在一些常用的大模型數(shù)據(jù)榜單上進行了對比測試,包括 Long Range Arena 這類長文本基準。

在實驗室階段,我們首先解決了線性注意力建模精度的問題,隨后轉(zhuǎn)向處理速度問題。線性注意力雖然在理論復雜度上是線性的,但在實際運行中卻表現(xiàn)得非常慢,這是因為右乘操作涉及一系列循環(huán)操作,這對 GPU 來說并不友好,導致實際運行效率遠低于理論復雜度。為此,我們在 2020 年推出了 TNL 和 Lightning Attention。Lightning Attention 通過優(yōu)化實際運行效率,使其接近理論計算復雜度。

所以,在上海人工智能實驗室期間,我們認為線性注意力已經(jīng)達到了 Scale Up 熟練的狀態(tài)。我們覺得自己已經(jīng)解決了精度問題,也解決了推理效率問題。

當我們實現(xiàn)Scale Up準備狀態(tài)時,最大的測試是在什么規(guī)模的模型上進行的?

最大的測試是訓練到了15B規(guī)模的模型。

你們當時沒有繼續(xù)向更高規(guī)模的Scaling Up測試,是因為在實驗室里資源有限制嗎?

當時,我必須將這個方法徹底擴展到Scale Up,這就需要尋找投資者。

那時我感到比較著急,因為我預感到,基于線性注意力的大模型最遲在2024年底肯定會出來,要么是我們,要么是其他機構如Google和OpenAI。

最了解指的是中國,還是指全球?

包括現(xiàn)在比較活躍的松林(楊松林)之前也是我們組員,所以當時的想法是找到愿意投資這種方法的人。

你最后找到的“金主”就是Minimax。

這實際上是一個雙向的過程。之前我在商湯工作期間,就在俊杰手下。

你是不是也想過自己創(chuàng)業(yè)?

鐘怡然:我之前也考慮過,但目前看來難度很大?;A架構創(chuàng)新需要大量的資金投入,而我們目前在算法方面還處于領先地位。

大模型確實很復雜,首先需要有優(yōu)秀的架構,其次要有優(yōu)質(zhì)的數(shù)據(jù)集,最后要有高效的訓練方法。這三者缺一不可,任何一個環(huán)節(jié)出現(xiàn)問題,都無法證明你真正的能力。目前來看,這家公司已經(jīng)淘汰了很多競爭對手,只剩下了字節(jié)跳動和Minimax兩家。

晚點:投資人對你的應用方向和變現(xiàn)渠道有什么反饋?

鐘怡然:他們更關注應用方向和變現(xiàn)渠道,對未來的盈利模式也特別感興趣。投資人會想知道這個項目的長期價值和商業(yè)潛力。

晚點:公司方面,你當時認為能夠做到一流預訓練的公司都有哪些?

鐘怡然:包括字節(jié)跳動和Minimax,這兩家在預訓練領域確實處于領先地位。

晚點:Kimi(月之暗面)不是嗎?

鐘怡然:關于Kimi,我了解的信息比較少,所以當時我覺得只有兩個選擇:要么海外發(fā)展,要么專注于國內(nèi)市場的其他方向。

晚點:和字節(jié)聊完后,你得到了什么樣的反饋?

鐘怡然:我對字節(jié)的反饋并不滿意,他們對這個未知領域的興趣不高。作為一個大型公司,雖然有大量數(shù)據(jù)和人才資源,但要真正投入資源去探索一個未知的方向,這對他們來說難度較大。

晚點:回頭看2023年下半年,你和閆俊杰的交流,他的反饋是什么?

鐘怡然:早在2021年,我和俊杰已經(jīng)非常了解彼此。通過深入交流,我們發(fā)現(xiàn),他對嘗試新事物非常愿意,甚至愿意將公司大部分精力投入其中。

因為這個模型是核心模塊,研發(fā)需要消耗公司80%-90%的資源,牽扯到數(shù)據(jù)團隊、工程團隊、算法團隊等多個部門,需要大量協(xié)調(diào)才能完成。

晚點:閆俊杰對你的認可,是否源于你們在注意力機制領域的一些共同探索?

鐘怡然:之前我們在這一領域的探索不多,當時正處于下一代模型技術選型的關鍵階段??〗芸赡苷J為我的工作扎實可靠,因此對他比較信任。

當然,俊杰對這件事的看法與我不同。我認為成功的概率高達99%,而對他而言,成功與失敗的概率各占50%。對于我們這些長期深耕的人士來說,我們深知其中的關鍵點,因此相信這個模型可以實現(xiàn)Scaling Up。

晚點:閆俊杰給出50%的成功概率,卻大膽投入80%的資源,這種賭性是不是有點冒險?

鐘怡然:這確實是一場需要冒險的嘗試。但我們有基于Scaling Laws的測試方法,逐步驗證。他并不是一開始就將所有資源投入進去,而是先在一個成本可控的小模型范圍內(nèi)進行驗證,再逐步擴展。

通過3700次預訓練驗證,我們從“美好的泡泡”模型發(fā)展到了擁有4560億參數(shù)的MiniMax-01模型。

晚點:在你們一步步驗證的過程中,你們又發(fā)現(xiàn)了什么新的東西?

鐘怡然:今年年底,我們采用的依然是一個純線性方案,訓練出了一套15B規(guī)模的模型,其效果與Transformer方案基本持平。

但隨后我們擴大了模型規(guī)模,發(fā)現(xiàn)無論是Lightning Attention,還是其他線性方法,在檢索能力(Retrieval)方面都存在明顯的缺陷。

因此不得不采取一種折中的方案,即通過混合架構進行優(yōu)化:每七層線性注意力中加入一層Softmax注意力。

之后,可以向大家解釋一下,檢索能力是什么?以及在改進注意力機制時,我們會測試一個被稱為"大海撈針"的任務,即在一個長文本中找到與主文本格格不入的一段話或句子。

鐘怡然:檢索能力指的是在長文本中進行檢索或召回的能力。以"大海撈針"任務為例,給定一篇長文,其中存在一段話或句子與其他內(nèi)容不符,模型就需要通過定點召回能力找出這些不匹配的內(nèi)容。"大海撈針"任務是一個測試,在很長的長文中,模型能否找到這根"不匹配的針",是一項基礎能力。

線性注意力在執(zhí)行這個任務時存在天然的缺陷,這并不奇怪,因為線性注意力的KV緩存是一個固定值,無論輸入文本多長,都會被壓縮到一個固定大小的存儲空間中。這個過程會導致檢索能力較弱。

晚點:當時壓力大嗎?因為已經(jīng)要上規(guī)模了,出現(xiàn)這種情況。

鐘怡然:我們是有保底方案的,就是混合架構。但當時覺得這個方案不夠優(yōu)雅。

晚點:所以你們最后改進純線性注意力檢索能力差的方式,就是在技術報告中提到的:每七層線性注意力混合一層Softmax注意力?我們還嘗試了每隔十四層、十六層混合一層Softmax注意力,并測試了不同的混合比例。

鐘怡然:對,我們也嘗試了每隔十四層、十六層混合一層Softmax注意力,并測試了不同的混合比例。結(jié)果顯示,對檢索能力的影響最大,而在語言建模任務中,不同混合比例下的能力差異不大。

在這個過程中,具體采用何種比例的混合策略?是否能提供一些理論依據(jù)或指導建議?

我們沒有現(xiàn)成的方法或框架可用,是通過自己的實驗來探索的。我們甚至嘗試了僅采用一層 Softmax Attention 的極端情況,結(jié)果仍然表現(xiàn)出不錯的效果。

在架構進行較大程度調(diào)整后,我們選擇了1:7的比例。例如,之前嘗試的 Jamba 模型采用了 1:8 或 1:7 這樣的混合層數(shù)配置。

(注:Jamba 是由 AI21 Labs 于 2024 年推出的首個 SSM(狀態(tài)空間模型)-Transformer 混合架構大模型,支持 256K 上下文窗口。)

最初為什么會采用混合策略?

這非常符合直覺,是一種自然的選擇。

在實施混合策略后,我們是如何進行 Scaling Laws 實驗的?

我們的主要目的是驗證這一技術方向是否存在潛在問題,Scaling Laws 實驗和混合方案的測試是同時進行的。

我們對多種線性方案進行了測試,包括 Lightning Attention、HGRN2 和 Mamba。

這樣多的實驗會消耗多少資源?

鐘怡然:我們總共訓練了3700個模型,發(fā)表了一篇文章。這項"Scaling Up"的決策非常關鍵,因為投入巨額資金訓練大型模型,最后卻以失敗告終,實在讓人惋惜。

尤:特別是在開拓性工作中,必須把基礎工作做得扎實。我們需要仔細選擇參數(shù)和注意力機制,每一種方案都需要進行一系列基準測試,最終要在速度和效果之間找到平衡。因此,一套完整的對比實驗是必不可少的。如果草率決定,雖然可以節(jié)省部分實驗成本,但無疑會增加項目失敗的風險。

晚點:這3700個模型,是指全部從頭訓練,意味著進行了3700次預訓練嗎?

鐘怡然:是的,所有模型都是從頭開始訓練,使用了不同的大小和參數(shù)設置。因此,開展Scaling Law實驗是一個成本很高的過程。

晚點:你們最初預估需要進行這么多次嗎?總共有多少資源投入?

鐘怡然:我們最初的預估就是3700次。我們根據(jù)所需的卡數(shù)、資源數(shù)量和模型數(shù)量制作了一個Excel表格,根據(jù)這些數(shù)據(jù)進行規(guī)劃,順利完成了訓練工作。

晚點:你們采用的混合線性注意力結(jié)構在實際應用中帶來了多大的效率提升?

鐘怡然:在序列長度為100萬的情況下,這種結(jié)構的處理速度比全注意力結(jié)構快了2700倍。

晚點:在速度和效果之間,這種線性注意力如何保證輸出質(zhì)量?例如,在發(fā)布后的MiniMax-01、Kimi-k1.5和DeepSeek-R1版本中,當我測試一個2萬字英文文章時,模型無法準確回答關于社交媒體短視頻功能的使用問題,而是給出了其他回答。這是什么導致的差異呢?

鐘怡然:"探索新架構"讓我們在深度推理方面進展相對緩慢,但我們正在進行第二階段的工作。

鐘怡然:實際上,你提到的那種能力,其與訓練數(shù)據(jù)密切相關。我們只能確保模型具備展現(xiàn)這種能力的潛力,但要真正實現(xiàn)這一能力,訓練數(shù)據(jù)的作用就顯得至關重要了。你提出的這個問題,正是我們下一代模型需要解決的核心問題。

晚點:目前,我們的Minimax-01模型還不是一個專門的推理模型,像R1和1.5版本的模型已經(jīng)是推理型模型了。那么,你們現(xiàn)在采用的這種架構進行推理,是否可以結(jié)合強化學習?這種方法論基礎和實現(xiàn)路徑是怎樣的呢?

鐘怡然:我從另一家國內(nèi)大模型公司的研究結(jié)論中得知,他們認為Linear架構在推理性能上稍強一些。他們還在Linear架構的模型上進行了相關推理實驗,結(jié)果顯示這種架構在推理能力上表現(xiàn)更為出色。

晚點:你們對目前的技術狀況有什么看法?

鐘怡然:我們還在研究這一方向,目前還不能詳細展開。因為,最初我們并沒有立即沿著這一路徑前進。當時,國內(nèi)有很多模型在模仿這一方向,但我們認為,單純強調(diào)推理能力,可能只能在某些特定領域提升模型性能。然而,等到R1發(fā)布后,我們發(fā)現(xiàn),將這些推理能力融入模型后,其外推能力和泛化能力得到了顯著提升。

晚點:你們當時認為,技術基礎應該先做好哪些方面?

鐘怡然:我們希望我們的模型在內(nèi)部排行榜上能夠與現(xiàn)有的4o模型(即目前最先進的模型)不相上下,甚至接近世界頂尖水平。當時,4o模型在相關領域確實處于領先地位。

晚點:你們是否會考慮多模態(tài)的結(jié)合?因為4o模型本身就是一個多模態(tài)模型。

鐘怡然:后來,我接手了多模態(tài)大模型相關的工作。在構建多模態(tài)模型時,有兩種主要的實現(xiàn)路徑:一是采用原生多模態(tài)架構,二是基于adapter(適配器)技術的多模態(tài)架構。經(jīng)過慎重考慮,我認為我們當時應該選擇adapter架構。因為在那個時候,原生多模態(tài)技術的實現(xiàn)路徑尚不完善,例如,Gemini-2.0模型還沒有發(fā)布。

晚點:這個方案有哪些優(yōu)勢?首先,我們能夠快速驗證數(shù)據(jù)是否存在質(zhì)量問題;其次,效果能夠迅速顯現(xiàn)。投入的成本較低,就能獲得性能較為理想的結(jié)果。從我們發(fā)布的VL01模型來看,基準測試結(jié)果顯示該模型表現(xiàn)相當優(yōu)異。

晚點:可以這樣理解,MiniMax-01 在 MiniMax 主線模型中確實是一次重大的轉(zhuǎn)型或升級。此前的 ABAB 系列采用的是 Transformer 架構,而 MiniMax-01 則采用了線性架構——這是你們語言技術、多模態(tài)處理以及未來模型進展的重要組成部分。

鐘怡然:對,這段模型的更迭速度確實很快。

晚點:為什么要選擇投入這個改動較大且具有創(chuàng)新性的方案?

鐘怡然:首先,我們有這個意愿,是因為我們想展現(xiàn)自身的技術實力。我們是一家勇于創(chuàng)新的公司,愿意賭新技術。目前我們已經(jīng)將序列長度提升到了 4M(400 萬),并且我們有能力將其提升到 10M(1000 萬)。

但是(如果選擇 10M)當前需要解決的問題是如何構建 10M 數(shù)據(jù)集,以及在實現(xiàn) 10M 序列長度后,具體能實現(xiàn)什么功能。目前我們的計劃是先將 1M 以內(nèi)的相關工作做到極致,然后再向外擴展。

晚點:經(jīng)過這樣的推理,你們計劃探索哪些方向?我指的是從 O1 之后全面引入強化學習到 Transformer 整個流程中,未來會發(fā)生什么變化?

鐘怡然:目前行業(yè)還在做深度推理,這方面的進展還比較新。我們處于追趕階段。但我們認為,長文本處理未來會成為一個趨勢。我們很高興看到像 Kimi、DeepSeek 這樣的公司,已經(jīng)推出了針對長文本優(yōu)化的模型架構,這表明大家都開始走上這條賽道。

在我看來,俊杰也比較清楚:我們走的是長線策略。短期內(nèi)在效果上可能會落后,因為我們采用了新架構,在相同算力和資源下,我們的人力在進行深度推理方面會相對不足,這意味著我們跟隨深度推理的腳步會稍微慢一些。

但另一方面,當我們真正開始進行深度推理時,我們就能迅速趕上。因此,在這場競賽中,我們正在參與的是“下半場”。我們押注的未來趨勢是長文本需求。當線性注意力的規(guī)模擴大到一定程度時,在長文本賽道上很難有對手。

做技術的“道心”之爭

晚點:你覺得這些公司(如DeepSeek、Kimi)在稀疏注意力的改進上效率和效果不錯,對嗎?

鐘怡然:他們的主要創(chuàng)新點在于通過極致工程優(yōu)化改善了稀疏注意力過去計算速度較慢的問題。不過,稀疏注意力的上限較低,我不認為DeepSeek會繼續(xù)沿用這條路線。當模型尺寸增大時,線性注意力相比稀疏注意力的優(yōu)勢會更加明顯,他們在進行更大規(guī)模實驗時也能觀察到這一點。

晚點:線性注意力的上限高,而且實際上它確實可以應用。那么,在行業(yè)內(nèi)這是共識還是非共識?

鐘怡然:這是非共識。即使像MiniMax-01這樣的成果已經(jīng)出來了,有些人還是擔心當線性注意力規(guī)模擴大時可能會遇到問題。

晚點:為什么會有這種擔憂?

鐘怡然:可能是MiniMax-01的宣傳力度不夠,導致許多人沒意識到它。目前普遍的觀點是,認為線性注意力是一種有損的優(yōu)化。從原理上看,用一次計算來近似二次計算似乎是有損的。但有沒有可能,這種二次計算的復雜度其實是多余的呢?而我們認為,它其實是一個無損的架構,一個無損的優(yōu)化,尤其是在混合架構的情況下,其效果甚至會更好。

這個討論屬于技術界的“道心之爭”——技術判斷和你的信仰是什么。

晚點:據(jù)我所知,像OpenAI、Anthropic這些國外頂尖AI公司,他們有沒有嘗試過采用線性架構?

鐘怡然:他們的架構很可能是基于滑動窗口注意力(Sliding Window Attention),這也是一種稀疏注意力。而像Google等公司采用的方法大抵是滑動窗口結(jié)合全注意力(Full Attention)。

晚點:所以你們對線性的信任,也并不一定源于全球頂尖公司有沒有做或者沒有做線性架構?

鐘怡然:對的,而且我們是真正把論文轉(zhuǎn)化成了產(chǎn)品的,現(xiàn)在Minimax的產(chǎn)品已經(jīng)在使用這套架構了,這說明我們的技術是比較先進的。那篇論文是在24年初完成的,產(chǎn)品(應用這一架構)則是在24年底推出的。

晚點:你剛才提到,線性注意力的上限大且能工作,在業(yè)界是一個非共識。你愿意談談這個觀點嗎?

鐘怡然:我不介意,我們希望更多人能夠嘗試線性注意力,也希望更多人共同開發(fā)長文本應用。其實我們已經(jīng)開源了Minimax-01,這體現(xiàn)了我們對這一架構的重視。

晚點:那么你們對Minimax-01這次的開源,以及帶來的反饋和影響力,滿意嗎?

鐘怡然:有朋友認為這份報告寫得不錯,工作也十分扎實,但為什么卻沒能引起更多關注呢?我覺得這正是加強傳播的契機。同時,我們下一代模型的目標是做得更好。

晚點:在開源Minimax-01時,你們?yōu)槭裁粗话l(fā)布了最大參數(shù)版本的模型,而沒有發(fā)布不同尺寸的版本呢?因為一些較小尺寸的模型,對學界、個人開發(fā)者以及小型機構來說更加友好,這正是讓更多人參與進來的關鍵。

鐘怡然:我們確實有不同尺寸的模型,但開源不同版本需要維護更多的模型,這會增加人力投入。我們更重視的是開源后能夠帶來良好效果的模型。

晚點:DeepSeek在春節(jié)期間取得了很大的成功,你們的團隊內(nèi)部氛圍發(fā)生了什么變化嗎?

鐘怡然:DeepSeek并沒有讓我們在過年(笑),我們正加快推理模型的開發(fā)節(jié)奏。我們的目標是打造比R1更加強大,甚至達到O1或O3水平的推理模型。

鐘怡然:我們還選擇了比較激進的方案,它會是一個基于原生多模態(tài)的深度推理模型。這個項目的難點在于如何平衡文本理解和視覺理解能力,讓兩者都能達到很強的水平。目前的實驗結(jié)果已經(jīng)非常令人滿意。

晚點:這次你對完成工作有多大把握?

鐘怡然:大概有七八成的把握。

晚點:預計什么時候能推出這個模型?

鐘怡然:預計在4月到5月之間。目前所有的資源都集中在提升模型性能的上限,我們認為相比單純維護產(chǎn)品,提升模型上限更為重要。

晚點:你如何看待DeepSeek雖然沒有一個好用的產(chǎn)品,但其影響力卻突然爆炸?

鐘怡然:我認為,雖然模型效果非常出色,是能夠脫穎而出的基礎,但另一方面,其影響力快速擴大也與許多其他因素密切相關。

我們無法預測這類突發(fā)性事件,但我們想,如果我們有一項新技術,希望讓更多人了解,應該怎么做呢?最好的方法就是將其轉(zhuǎn)化為產(chǎn)品。

晚點:所以你仍然認為,一個正常的技術公司,僅憑技術本身,無法實現(xiàn)長時間的正向反饋和形成壁壘。

鐘怡然:是的。我們在2023年想推出線性注意力模型時,確實利用了上海人工智能實驗室的一些資源進行宣傳。但當我向所有人解釋時,卻很難說服他們。他們認為這個新架構的模型僅在小規(guī)模上進行了驗證。

那時我就想,我該怎么辦?我只能找一個愿意相信這個新架構的人,將其放入產(chǎn)品中——證明一個新技術有說服力的最好方式就是將其放入產(chǎn)品中進行驗證。

你對AI的追求是什么?

鐘怡然:我希望創(chuàng)造一種能夠真正自我學習、自我進化的模型。當人類將所有看到、聽到的信息作為輸入時,它將能夠自主學習不同模態(tài)之間的關系,并具備像文本處理這樣的技能。實際上,這種文本處理能力也是通過自學習的方式獲得的。

若要實現(xiàn)我的目標,首先需要開發(fā)文本模型,其次是多模態(tài)模型,最后是探索如何使模型能夠自主學習不同模態(tài)之間的關系。這個過程與人類的學習方式非常相似,人類也是通過類似的方式逐步學習的。

附:文中提到的主要工作的GitHub或arXiv鏈接如下:

MiniMax-01:

https://github.com/MiniMax-AI/MiniMax-01

Lightning Attention:

https://github.com/OpenNLPLab/lightning-attention

cosFormer:

https://github.com/OpenNLPLab/cosFormer

Mamba項目:

- 官方GitHub倉庫:https://github.com/state-spaces/mamba

2. Jamba:

- 官方GitHub倉庫:https://github.com/kyegomez/Jamba

題圖來源于電影《美麗心靈》的電影截圖。

ChatGPT人工智能趨勢報告,調(diào)查顯示 ChatGPT 成為全球職場最受歡迎的AI工具,印度使用率最高 教育改革,全國代表張學武建言|推進九年義務教育與大力發(fā)展職業(yè)教育 德甲 2023年3月9日對決,法蘭克福對陣柏林聯(lián)合:巴舒亞伊和特拉普在首發(fā)名單中,尤拉諾維奇和容諾夫也在出戰(zhàn)。 智腦,李彥宏:2025年將成AI爆發(fā)年,智能經(jīng)濟加速跑 非法AI換臉擬聲受害者與法律困境,雷軍:需加大AI換臉擬聲違法侵權治理 高危提醒猴子咬傷的致命危險,致死率70%!被猴子咬傷需警惕猴B病毒 焰光交匯處六個環(huán)節(jié)操作解析,《未來:1999 火炬?zhèn)鬟f通關攻略》 蘋果推遲Siri升級智能顯示設備計劃推遲及內(nèi)部測試情況,Siri"掉鏈子",蘋果智能顯示屏最新延期發(fā)布 震驚肖戰(zhàn)工作室深夜放大招,肖戰(zhàn)工作室深夜被曝存在重大問題。"小站記"原地復活引發(fā)熱議,解瓜要開始。 全球首例 中方反歧視調(diào)查結(jié)果加拿大被反制,根據(jù)你的要求,我提供以下幾種改寫方案:方案一:首次反歧視報告出爐,加拿大自身原因被指咎由自取。方案二:全球首次反歧視調(diào)查結(jié)果公布,加拿大稱是自身原因?qū)е卤恢妇逃勺匀 7桨溉菏状稳蚍雌缫曊{(diào)查結(jié)果出爐,加拿大自身原因被指咎由自取。方案四:首次全球反歧視調(diào)查結(jié)果公布,加拿大稱自身原因?qū)е卤恢妇逃勺匀?。這些改寫版本都保持了原文的核心信息,同時簡化了表達,使標題更加簡潔明了。你可以根據(jù)具體需要選擇最合適的版本。
     
地球構造

地球構造

大?。?em>71mb更新:2025-03-10 13:48:43

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 地球構造
  • 地球構造
  • 地球構造

游戲特色

玉盒才剛打開,就有一道紅光沖了出來。這紅光交融著毀滅和生機的氣息。紅光沖天而起,隱隱顯出一只鳳凰虛影來。

隱而未現(xiàn)的劍光幕被觸動,一道道劍光射殺下來,將紅光連同里面的鳳凰虛影籠罩住連連絞殺。好一會兒,紅光連同那鳳凰虛影方才散去。

紅光散去之后,左東閣才看清楚,玉盒里擺放著一個火紅剔透的果子。透過剔透果皮,可見里面有一只鳳凰沐浴在火焰中。

鳳凰涅槃,火焰熄滅。果子里多了一個鳥蛋,上面浮動著一個個古老而神秘,充滿生機的符文。鳥蛋破殼而出,生出鳳凰。

后有火焰燃起,鳳凰涅槃,化為鳥蛋。這景象不斷重復出現(xiàn),無比的玄妙??粗矍靶畹囊荒?,左東閣呆若泥塑。

好強好勝了一輩子的老人,終于不知不覺中老淚縱橫,似乎渾然忘了身邊還站著一位弟子。許久,左東閣突然意識到什么,連忙用手抹了把臉,然后深吸一口氣:“為師的金丹品質(zhì)勝過不少人,這也意味著,一旦破裂,就算有涅槃重生果相助,想要破丹重結(jié),成功的機會也很小。

若是成功,為師相當于浴火重生,甚至因為重走結(jié)丹之路,還可以把以前結(jié)丹時的缺陷都給補上,不出意外,有信心踏入元嬰境界。一旦為師成為元嬰修士,將來對你幫助肯定很大。

但很大的可能是重結(jié)金丹失敗,你不僅損失一顆極為珍貴的涅槃重生果,而且為師十有八九會喪命,就算不馬上喪命,也會成為一介凡人,從此之后,你在宗門中失去了一大助力。

而如果你留著這顆涅槃重生果,以此果珍貴的程度,你隨隨便便就能換來足夠你自己,還有巧蓮、文月、藍雪還有魯紫英五人結(jié)丹所需的靈丹?!?/p>

“有了此果,師尊破丹重結(jié)成功的希望竟然還是很???”夏道明心頭不禁猛地一沉,目露擔憂不安之色?!澳鞘亲匀?,破丹重結(jié)不僅可以彌補第一次結(jié)丹的缺陷,而且金丹重鑄,必然更加純煉。這等情況下,不僅元嬰大道希望大增,而且一旦成為元嬰修士,元嬰之強大,也必然比普通元嬰修士勝過不少。

游戲亮點

見諾蘭從樓梯走下來,老人微微側(cè)眸,投去冰冷的眼神。諾蘭只能加快腳下速度,來到老人的身前,低著頭,微微垂眸。

眼前這位老人,地位上代表著全世界黑幫的頂點之一,關系上又是他的親生父親。所以無論如何,在態(tài)度這方面,諾蘭從未有過半點逾越之舉。

老人,也正是十老頭甘比諾。他冷眼看著主動放低姿態(tài)的諾蘭,緩緩道:“你膽子真是越來越大了,為卡金王室勢力研究病毒一事,我睜一只眼閉一只眼,這事也就過了,現(xiàn)在,你都敢冒用我名義去調(diào)遣陰獸?!?/p>

“父親,我知錯了?!敝Z蘭的頭更低了,沒有任何借口,直截了當?shù)恼J錯。甘比諾嘖了一聲,眉眼間透出一絲嚴肅。

游戲玩法

這事要是出現(xiàn),對于巫師界絕對是一次沉重的打擊,甚至嚴重到一舉壓垮巫師們的信念?,F(xiàn)在,伊文的話證實了,青雷之王引起的變動與極獸位面沒半點關系,無疑能打消大家心頭之慮。

“多德魔石礦是在柴那大陸東部區(qū)域嗎?”“沒錯,距離東都不算遠,只是那礦洞中的殘余力場已被我的人清理干凈了,不可能再尋到什么痕跡?!?/p>

“你的人能完全清理掉靈體所在的特殊力場?”聽到他的回答,菲奧琪臉上有些詫異,要知道他當時只是一名二級巫師,手下的人又能強到哪里去。

評測

主播板栗直呼上車,E句話 |趙一博承認戀情了?

驚險魚塘塌陷水面干涸,湖南婁底魚塘塌陷 200斤鯉魚失蹤 調(diào)查指向巖溶塌陷

特朗普 vs. 澤連斯基,特朗普和澤連斯基白宮會晤焦點較多

#劉曉慶緋聞震驚,前男友勒索,劉曉慶回應,心善展現(xiàn)!

2023年12月15日上線 六款限定皮膚 免費獲取 元夢之星與王者榮耀聯(lián)動,《元夢之星》獲取夢奇皮膚方法介紹

顯示全部

熱門推薦
玩家評論
我要跟貼
取消
最新手游