国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長之家 - 業(yè)界 2025-03-12 23:00:11

大語言模型Transformer架構(gòu)的稀疏注意力機制與超長文本處理優(yōu)化,清華大學等基于APB的序列并行推理模型在大規(guī)模文本處理中相比Flash Attention提升10倍的性能

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

機器之心由

機器之心編輯

在 ChatGPT 爆火兩年多的時間里,大語言模型的上下文窗口長度基準線被拉升,以此為基礎(chǔ)所構(gòu)建的長 CoT 推理、多 Agent 協(xié)作等類型的高級應(yīng)用也逐漸增多。

隨之而來的是,長文本推理速度被提出更高要求,而基于現(xiàn)有 Transformer 架構(gòu)的模型受限于注意力機制的二次方復(fù)雜度,難以在較短時延內(nèi)處理超長文本請求。

針對這一痛點,清華大學 NLP 實驗室聯(lián)手中南大學、北京郵電大學以及騰訊微信 AI 實驗室取得了突破,共同提出了APB 框架—— 其核心是一個整合了稀疏注意力機制的序列并行推理框架,通過整合局部 KV 緩存壓縮方式以及精簡的跨 GPU 通信機制,解決了長上下文遠距離語義依賴問題,在無性能損失的前提下大幅度提升超長文本預(yù)填充的效率。

在 128K 文本上,APB 能夠出色地平衡性能與速度,達到相較于傳統(tǒng) Flash Attention 約 10 倍的加速比,在多種任務(wù)上甚至具有超越完整 Attention 計算的性能;與英偉達提出的同為分布式設(shè)定下的Star Attention 相比,APB 也能達到 1.6 倍加速比,在性能、速度以及整體計算量上均優(yōu)于 Star Attention。

這一方法主要用于降低處理長文本請求的首 token 響應(yīng)時間。未來,APB 有潛力運用在具有低首 token 響應(yīng)時間要求的模型服務(wù)上,實現(xiàn)大模型服務(wù)層對長文本請求的高效處理。

瓶頸:加速長文本預(yù)填充效率

長文本預(yù)填充的效率受到計算的制約。由于注意力機制的計算量與序列長度呈二次方關(guān)系,長文本的計算通常是計算瓶頸的。主流加速長文本預(yù)填充的路線有兩種,提升并行度減少計算

然而,簡單地提升并行度和減少計算并不能在加速長文本預(yù)填充上取得足夠的效果。若要將二者結(jié)合又具有極大挑戰(zhàn),這是因為稀疏注意力機制中,決定計算何處注意力通常需要完整輸入序列的信息。在序列并行框架中,每個 GPU 僅持有部分 KV 緩存,無法在不通過大規(guī)模通信的前提下獲得足夠的全局信息來壓縮注意力的計算。

針對這一問題,現(xiàn)有研究提出了兩種關(guān)鍵方法:英偉達提出的 Star Attention 通過去除序列并行中的所有通信,僅計算 GPU 局部區(qū)域的注意力,但這種簡化策略導(dǎo)致顯著的計算效率損失。另一項研究由卡內(nèi)基梅隆大學提出,即 APE 方法,專注于 RAG 桅ma場景下的長文本預(yù)填充加速,通過均勻劃分上下文、縮放注意力計算并調(diào)整 Softmax 溫度,實現(xiàn)了并行編碼。然而,該方法在處理需要遠距離依賴的文本時仍存在一定效率損失。

與上述方法相比,APB 通過創(chuàng)新設(shè)計面向序列并行的低通信稀疏注意力機制,成功構(gòu)建了一個在計算效率和性能表現(xiàn)上均更優(yōu)的長文本加速框架,該框架能夠很好地適應(yīng)通用長文本任務(wù)。

APB:面向序列并行的稀疏注意力機制

相較于現(xiàn)有研究,APB 通過以下方式提出了一種創(chuàng)新的面向序列并行框架的稀疏注意力機制:

以該機制為基礎(chǔ),APB 的推理過程如下:

該方法顯著提升了長文本推理速度的同時保持了較高的計算效率。

研究團隊采用了 Llama-3.1-8B-instruct、Qwen-2.5-14B-instruct 以及 Yi-34B-200K 模型,在 InfiniteBench 和 RULER 平臺上進行了系統(tǒng)評估,全面考察了任務(wù)性能(%)和推理速度(tok/s)指標。

從實驗結(jié)果來看,F(xiàn)lash Attention 作為無序列并行的精準注意力算法,在任務(wù)性能方面表現(xiàn)優(yōu)異,但推理速度最慢;而 Ring Attention 和 Ulysses 作為序列并行的精準注意力算法,通過優(yōu)化并行度顯著提升了推理速度;MInference 作為一種無序列并行的稀疏注意力機制,在性能上也存在一定局限性;Star Attention 則作為序列并行與稀疏注意力結(jié)合的初始嘗試,在推理速度上表現(xiàn)尚可,但計算效率明顯下降。

相較于上述基線算法,APB 在多種模型和任務(wù)場景中展現(xiàn)出更優(yōu)的性能表現(xiàn)和更快的推理速度。這表明,APB 方法實現(xiàn)了計算效率與推理速度的最佳平衡。

此外,研究團隊在不同數(shù)據(jù)長度的場景下對 APB 與基線算法的性能表現(xiàn)和推理速度進行了全面評估,并提供了整體計算量的數(shù)據(jù)支持,結(jié)果表明 APB 在各類場景中均展現(xiàn)出顯著的優(yōu)勢。

From the figure, it can be observed that APB demonstrates superior task performance and inference speed across various input lengths. The speed advantage becomes more pronounced as the input sequence lengthens. APB achieves this improvement because it requires fewer computations, with the computational efficiency gap widening as the sequence becomes longer.

Additionally, researchers conducted a pre-filled time decomposition analysis on both APB and baseline algorithms and found that leveraging sequence parallelism can significantly reduce the time spent on attention and feed-forward (FFN) operations.

Furthermore, the sparse attention mechanism in APB allows for further reduction in attention time. The Star Attention mechanism, however, suffers from significant extra overhead due to its large anchor block, while APB mitigates this issue by utilizing passing blocks to transmit long-range semantic dependencies, thereby enabling a much smaller anchor block size and reducing the extra overhead at the FFN stage.

APB exhibits excellent compatibility, being adaptable to different distributed settings (e.g., number of GPUs) and various model sizes. It achieves impressive performance and inference speed across multiple model configurations and distributed setups.

**Biography of Core Authors**

- **Yuxiang Huang**: An undergraduate student in the fourth year at Tsinghua University, currently a Ph.D. candidate candidate in the 2025 intake at the THUNLP Lab, advised by Prof. Liu Zhiyuan. He has previously participated in projects such as MiniCPM, model efficient fine-tuning, and speculative sampling. His primary research interests revolve around constructing efficient large-model inference systems, with a focus on model compression, speculative sampling, and fast inference techniques for long-text sparse retrieval.

- **Mingyue Li**: An undergraduate student in their third year at Central South University, who joined the THUNLP Lab as an intern in June 2024. He has been involved in the speculative sampling project. His main research interests include accelerating large-model inference, particularly techniques such as speculative sampling and acceleration methods for long-text retrieval.

輕松獲取金色船員,《龍8外傳》桐生一馬最快獲取方法解析 NVIDIA領(lǐng)漲AI板塊狂飆南向資金介入,利空影響持續(xù)!港股和AI板塊午盤暴跌,美股也遭殃。 痔瘡手術(shù)何時適合,痔瘡手術(shù)的哪些情況?痔瘡患者必看健康科普! 如何選擇專精方向黑星勇者專精系統(tǒng)全解析,《黑星勇者成名錄》專精選擇攻略 軍團玩法,《三國問鼎山河》軍團玩法介紹 天塹沙原的閃光彈大本營,怪物獵人荒野光蟲光蟲收集技巧 如何在簡單飛機APP中下載游戲地圖,《簡單飛機》下載地圖手機版 免費多人機甲射擊,戰(zhàn)爭機器人前線官網(wǎng)地址在哪里-War Robots Frontiers游戲官網(wǎng)地址查詢 2023年2月三亞機場旅客吞吐量創(chuàng)新高,三亞鳳凰國際機場2月旅客吞吐量再創(chuàng)歷史新高,達239.15萬人次 捕捉《怪物獵人荒野》中的皇帝蚱蜢超低難度技巧,怪物獵人荒野皇帝蚱蜢獲取方法全解析
     
莎莉娃

莎莉娃

大?。?em>93mb更新:2025-03-12 23:00:11

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 莎莉娃
  • 莎莉娃
  • 莎莉娃

游戲特色

羅陽面色陰沉,他的眸光由始至終,都是落在古月州深處。在圣王可怕的感知下,羅陽自然能夠察覺到,古月州深處所蘊含的恐怖氣息。

此等氣息。讓身為圣王的羅陽都是有些顫栗?!靶八顏須v已是不可探究,但此等種族自然能夠自太古時期留存到現(xiàn)在,殺之不絕,足以說明邪祟的可怕!”

“這一戰(zhàn)!”“我等必須全力以赴,斷然不能給詭天帝任何喘息的機會。”“如若錯過這一次機會的話,后續(xù)再想要將其斬殺,可就沒有那么容易了!”

秦雄道臉上殺意凜然,神態(tài)前所未有的堅決。斬殺邪祟。刻不容緩。如果這一次失敗,那么下一次來的,必定是各大勢力的準帝級強者。

但事情不到那一步,誰也不想動用準帝底蘊。畢竟——對于這些大帝級勢力而言,沉睡的準帝可謂是最后的底牌。

這等底牌,必須要等到一個恰到好處的時間,方可真正出世。任何一尊準帝,都是未來有希望證道大帝的強者。如此存在。

自是不能輕易動用。只要時機到了,自身勢力再出一尊大帝,當可重現(xiàn)昔日頂峰的輝煌。隨后。秦雄道便是率先一步,向著古月州深處而去。

其他人見此,也都是跟著動身。深入古月州。就見許多如同身軀腐爛的邪祟,欲要對幾人發(fā)起攻擊。有的甚至能夠御空而行,展現(xiàn)出強大的實力。

從這些邪祟身上所穿的殘破衣衫,就可看得出來祂們的身份。這些邪祟。皆是當初古月州的修士。但是現(xiàn)在。修士身隕。

受到邪祟力量污染,盡數(shù)墮落?!靶八钤撍溃坏珰埡ξ一墓沤缧奘?,更讓其死后也不得安寧!”日月帝朝的老祖項神通面色陰冷,一掌猛然轟擊出去,只見萬里大地的邪祟肉身爆開,瞬間就是隕滅當場。

游戲亮點

……碧落縣,石門山外二十里。此處也有一片大山,山林中傳出清幽婉轉(zhuǎn)的笛音,飄蕩在林梢之上,遠遠看去,山中平添幾分寂靜。

可若走近就會發(fā)現(xiàn),山林中正有狼群在穿梭圍捕,那些狼每一頭都比尋常野狼要大許多,更是矯健靈動,像是要成精了似的。而更遠處又有堪比金錢豹大小的云豹在暗中埋伏。

山頂高處,一名道人盤坐石頭之上,閉著眼睛,吹著笛子。青天之上忽有白鷺飛來。白鷺背上下來兩道身影,一道是個年輕道人,另一道則是一只白狐,初時很小,落地就已變大。

山中笛聲為之一頓。狐貍剛一落地,便扭過頭,看向山中的動靜,隨即一下變大,乘風而去?!皫熜衷诖顺??”

游戲玩法

微胖的極品身材,顯露無疑。越肩位置的鏡頭,在不斷搖晃著,看似凌亂,卻又有一股詭異的瘆人感撲面而來。這個鏡頭的位置和晃動感,讓人不自覺就聯(lián)想到是有人在尾隨許凌月。

而鏡頭畫面里顆粒分明的彩噪,更是讓這種詭異的感覺加倍呈現(xiàn)。“哇,這組鏡頭好厲害啊?!庇袀€舍友小聲道:“一點看不出是手機拍的,鴻蒙的P系列拍攝功能這么厲害嗎?”

“那是周灝用得好?!绷硪粋€小姐妹立刻說道:“手機那芝麻大的底其實很難應(yīng)付這種暗光環(huán)境的拍攝,會出現(xiàn)大量的噪點,但是周灝巧妙把它運用在了恐怖片的氣氛營造上,反而是化腐朽為神奇了,這家伙真是天才……?。 ?/p>

評測

如何快速提升聲望值,《星際戰(zhàn)甲》聲望獲取攻略

HD Low Requirements,Immortal Hunters游戲配置要求全解析

羅塔花園廣場資源點位分布探索,《開放空間》羅塔花園廣場資源點分布

Direct Download,AFTERBLAST游戲下載地址在哪里

小回環(huán)斬GP大招裝備推薦,怪物獵人荒野斬斧配裝思路解析

顯示全部

熱門推薦
玩家評論
我要跟貼
取消
最新手游