国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長之家 - 業(yè)界 2025-03-12 19:59:33

大語言模型Transformer架構(gòu)的稀疏注意力機(jī)制與超長文本處理優(yōu)化,清華大學(xué)等基于APB的序列并行推理模型在大規(guī)模文本處理中相比Flash Attention提升10倍的性能

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

機(jī)器之心由

機(jī)器之心編輯

在 ChatGPT 爆火兩年多的時間里,大語言模型的上下文窗口長度基準(zhǔn)線被拉升,以此為基礎(chǔ)所構(gòu)建的長 CoT 推理、多 Agent 協(xié)作等類型的高級應(yīng)用也逐漸增多。

隨之而來的是,長文本推理速度被提出更高要求,而基于現(xiàn)有 Transformer 架構(gòu)的模型受限于注意力機(jī)制的二次方復(fù)雜度,難以在較短時延內(nèi)處理超長文本請求。

針對這一痛點(diǎn),清華大學(xué) NLP 實(shí)驗(yàn)室聯(lián)手中南大學(xué)、北京郵電大學(xué)以及騰訊微信 AI 實(shí)驗(yàn)室取得了突破,共同提出了APB 框架—— 其核心是一個整合了稀疏注意力機(jī)制的序列并行推理框架,通過整合局部 KV 緩存壓縮方式以及精簡的跨 GPU 通信機(jī)制,解決了長上下文遠(yuǎn)距離語義依賴問題,在無性能損失的前提下大幅度提升超長文本預(yù)填充的效率。

在 128K 文本上,APB 能夠出色地平衡性能與速度,達(dá)到相較于傳統(tǒng) Flash Attention 約 10 倍的加速比,在多種任務(wù)上甚至具有超越完整 Attention 計算的性能;與英偉達(dá)提出的同為分布式設(shè)定下的Star Attention 相比,APB 也能達(dá)到 1.6 倍加速比,在性能、速度以及整體計算量上均優(yōu)于 Star Attention。

這一方法主要用于降低處理長文本請求的首 token 響應(yīng)時間。未來,APB 有潛力運(yùn)用在具有低首 token 響應(yīng)時間要求的模型服務(wù)上,實(shí)現(xiàn)大模型服務(wù)層對長文本請求的高效處理。

瓶頸:加速長文本預(yù)填充效率

長文本預(yù)填充的效率受到計算的制約。由于注意力機(jī)制的計算量與序列長度呈二次方關(guān)系,長文本的計算通常是計算瓶頸的。主流加速長文本預(yù)填充的路線有兩種,提升并行度減少計算

然而,簡單地提升并行度和減少計算并不能在加速長文本預(yù)填充上取得足夠的效果。若要將二者結(jié)合又具有極大挑戰(zhàn),這是因?yàn)橄∈枳⒁饬C(jī)制中,決定計算何處注意力通常需要完整輸入序列的信息。在序列并行框架中,每個 GPU 僅持有部分 KV 緩存,無法在不通過大規(guī)模通信的前提下獲得足夠的全局信息來壓縮注意力的計算。

針對這一問題,現(xiàn)有研究提出了兩種關(guān)鍵方法:英偉達(dá)提出的 Star Attention 通過去除序列并行中的所有通信,僅計算 GPU 局部區(qū)域的注意力,但這種簡化策略導(dǎo)致顯著的計算效率損失。另一項(xiàng)研究由卡內(nèi)基梅隆大學(xué)提出,即 APE 方法,專注于 RAG 桅ma場景下的長文本預(yù)填充加速,通過均勻劃分上下文、縮放注意力計算并調(diào)整 Softmax 溫度,實(shí)現(xiàn)了并行編碼。然而,該方法在處理需要遠(yuǎn)距離依賴的文本時仍存在一定效率損失。

與上述方法相比,APB 通過創(chuàng)新設(shè)計面向序列并行的低通信稀疏注意力機(jī)制,成功構(gòu)建了一個在計算效率和性能表現(xiàn)上均更優(yōu)的長文本加速框架,該框架能夠很好地適應(yīng)通用長文本任務(wù)。

APB:面向序列并行的稀疏注意力機(jī)制

相較于現(xiàn)有研究,APB 通過以下方式提出了一種創(chuàng)新的面向序列并行框架的稀疏注意力機(jī)制:

以該機(jī)制為基礎(chǔ),APB 的推理過程如下:

該方法顯著提升了長文本推理速度的同時保持了較高的計算效率。

研究團(tuán)隊(duì)采用了 Llama-3.1-8B-instruct、Qwen-2.5-14B-instruct 以及 Yi-34B-200K 模型,在 InfiniteBench 和 RULER 平臺上進(jìn)行了系統(tǒng)評估,全面考察了任務(wù)性能(%)和推理速度(tok/s)指標(biāo)。

從實(shí)驗(yàn)結(jié)果來看,F(xiàn)lash Attention 作為無序列并行的精準(zhǔn)注意力算法,在任務(wù)性能方面表現(xiàn)優(yōu)異,但推理速度最慢;而 Ring Attention 和 Ulysses 作為序列并行的精準(zhǔn)注意力算法,通過優(yōu)化并行度顯著提升了推理速度;MInference 作為一種無序列并行的稀疏注意力機(jī)制,在性能上也存在一定局限性;Star Attention 則作為序列并行與稀疏注意力結(jié)合的初始嘗試,在推理速度上表現(xiàn)尚可,但計算效率明顯下降。

相較于上述基線算法,APB 在多種模型和任務(wù)場景中展現(xiàn)出更優(yōu)的性能表現(xiàn)和更快的推理速度。這表明,APB 方法實(shí)現(xiàn)了計算效率與推理速度的最佳平衡。

此外,研究團(tuán)隊(duì)在不同數(shù)據(jù)長度的場景下對 APB 與基線算法的性能表現(xiàn)和推理速度進(jìn)行了全面評估,并提供了整體計算量的數(shù)據(jù)支持,結(jié)果表明 APB 在各類場景中均展現(xiàn)出顯著的優(yōu)勢。

From the figure, it can be observed that APB demonstrates superior task performance and inference speed across various input lengths. The speed advantage becomes more pronounced as the input sequence lengthens. APB achieves this improvement because it requires fewer computations, with the computational efficiency gap widening as the sequence becomes longer.

Additionally, researchers conducted a pre-filled time decomposition analysis on both APB and baseline algorithms and found that leveraging sequence parallelism can significantly reduce the time spent on attention and feed-forward (FFN) operations.

Furthermore, the sparse attention mechanism in APB allows for further reduction in attention time. The Star Attention mechanism, however, suffers from significant extra overhead due to its large anchor block, while APB mitigates this issue by utilizing passing blocks to transmit long-range semantic dependencies, thereby enabling a much smaller anchor block size and reducing the extra overhead at the FFN stage.

APB exhibits excellent compatibility, being adaptable to different distributed settings (e.g., number of GPUs) and various model sizes. It achieves impressive performance and inference speed across multiple model configurations and distributed setups.

**Biography of Core Authors**

- **Yuxiang Huang**: An undergraduate student in the fourth year at Tsinghua University, currently a Ph.D. candidate candidate in the 2025 intake at the THUNLP Lab, advised by Prof. Liu Zhiyuan. He has previously participated in projects such as MiniCPM, model efficient fine-tuning, and speculative sampling. His primary research interests revolve around constructing efficient large-model inference systems, with a focus on model compression, speculative sampling, and fast inference techniques for long-text sparse retrieval.

- **Mingyue Li**: An undergraduate student in their third year at Central South University, who joined the THUNLP Lab as an intern in June 2024. He has been involved in the speculative sampling project. His main research interests include accelerating large-model inference, particularly techniques such as speculative sampling and acceleration methods for long-text retrieval.

“當(dāng)她們傾聽她們”,王奕芝:“她”可以成為任何模樣 材料需求,《絕區(qū)零》零號安比養(yǎng)成材料一覽 嚙齒動物No.44角色扮演,嚙齒動物No44 Experimental gnawer游戲官網(wǎng)地址在哪 兌換稀有船員蓋瑞·巴斯塔·霍姆斯需6萬點(diǎn),標(biāo)題改寫建議:如龍8外傳船員蓋瑞如何獲得說明:這個改寫:1. 去掉了重復(fù)的"獲得方法"2. 使用"如何"替代"怎么"3. 簡化了標(biāo)題長度4. 保持了核心信息:如龍8外傳、船員蓋瑞、獲得方法5. 更符合標(biāo)題簡短的特點(diǎn)改寫后的標(biāo)題既保持了原意,又更符合標(biāo)題簡短的特點(diǎn)。 2025年空間站運(yùn)行效率高,神舟二十號、二十一號航天員已確定,正開展相關(guān)訓(xùn)練 快速導(dǎo)航技巧,怪物獵人:荒野快速查東西指南 墨西哥總統(tǒng)辛鮑姆 interactive演講,墨西哥總統(tǒng)辛鮑姆支持率達(dá)85%創(chuàng)歷史紀(jì)錄 應(yīng)對特朗普關(guān)稅戰(zhàn)獲民心 小牛戰(zhàn)術(shù)組合,《美職籃全明星》王朝排位玩法介紹 挑戰(zhàn)與神秘,《夢幻西游》躍凌云看戲副本攻略 水兵月變身在龍族國度之崛起開場動畫中隱藏細(xì)節(jié),雙影奇境水兵月彩蛋位置分享
     
內(nèi)存條頻率怎么看

內(nèi)存條頻率怎么看

大?。?em>58.9mb更新:2025-03-12 19:59:33

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 內(nèi)存條頻率怎么看
  • 內(nèi)存條頻率怎么看
  • 內(nèi)存條頻率怎么看

游戲特色

只是劇情早就被陳正給打亂了,亂得不像話,居然還能和原著一模一樣,是他沒想到的。珈藍(lán)又道:“不過有一點(diǎn)你說錯了,方寒挑戰(zhàn)華天都的時間不是十年,而是三年。方寒說你和萬連山曾在玲瓏福地內(nèi)定下三年之約,他也要向你看齊,在三年后親手殺死華天都,找回失去的尊嚴(yán)?!?/p>

陳正眉頭一挑:“這樣么?!狈胶F(xiàn)在只是神通一重,也可能已經(jīng)用陰陽萬壽丹晉升到了第二重,可三年后要追上乃至超過華天都,只怕難度不小。

話又說回來,方寒畢竟是永生之門的器靈轉(zhuǎn)世,或許可以做到。只是做不做得到都無妨了。陳正已經(jīng)打定主意,等回到羽化門,就拿華天都開刀,奪走對方身上的一切,將之壓迫得跪下,狠狠羞辱,看此人還能不能囂張得起來。

“前方就是太白城么?”又和珈藍(lán)說了幾句,陳正已經(jīng)抵達(dá)大玄帝國境內(nèi),隱隱約約可以感覺到,前方地平線極遠(yuǎn)處有一股渾厚的力量在鎮(zhèn)壓著大地元?dú)狻?/p>

那是一座極其雄偉的建筑。遠(yuǎn)遠(yuǎn)望去,雄偉建筑一片純白。飛得越近,就能清晰的看到白色建筑是一座巨大城墻,足有數(shù)百丈之高,一塵不染,好像匍匐在大地上的白色巨龍。

那城墻之內(nèi),到處都是巨大宮殿拔地而起,猶如一座座雄峰。諸多雄峰下方的廣闊街道上人群如蟻,高大房屋鱗次櫛比,一條條河流在城內(nèi)穿行,碧波蕩漾。

天空上也有人飛來飛去,或落入城中,或飛離城池。這種景象,是在天下任何一個國家中都看不到的。而且那座城池極其龐大,南北縱橫數(shù)萬里,比許多王朝都還要大得多,尋常修士根本望不到頭。

“太白城只不過是大玄帝國中的二流城池之一,就有此等景象,也不知道大玄中央的玄黃城又是何等雄偉?!标愓袊@一聲,飛入城池上空,朝下方降落了下去。

他剛落在廣闊的街道上,準(zhǔn)備找個人問一下天道閣在哪里,就聽到旁邊傳來一道驚訝的聲音:“閣下可是那在踏天梯上登頂,一擊碾殺萬羅的陳正公子?”

陳正轉(zhuǎn)首望去,路邊有一座府邸,裝飾得金碧輝煌,一看就是達(dá)官顯貴的住所。府邸門戶大開,里面走出來十幾人,個個氣息協(xié)調(diào),和天人交感,都是神通五重天人境修士,以一位頭戴玉冠,衣著華麗的青年男子為首。

游戲亮點(diǎn)

佩吐溫是來證明自己的,不是真的要來弒父的!托斯汀子爵黑著臉,語氣有些僵,兀自嘴硬:“你這……這是你自己的實(shí)力嗎?你靠的明明是武器的輔助!”

佩吐溫一聽,頓時不樂意了!“怎么就不是我的實(shí)力了?!”“您要覺得有問題,獲取這武器的方法我可以直接告訴您,您大可自己去試試??!”

他都有點(diǎn)懶得跟父親解釋能將一把武器強(qiáng)化到+9究竟是多么困難的一件事!從求知信徒們獲得【強(qiáng)化】神術(shù)開始,直到如今,壓根找不到第二把能夠連續(xù)強(qiáng)化成功9次的武器!

光是為了擁有一把+6武器而“碎掉”的制式裝備,現(xiàn)在少說也得有數(shù)千件了!足夠用來武裝起一片地區(qū)民兵的裝備,全被信徒們砸進(jìn)了強(qiáng)化這個深不見底的大坑。

游戲玩法

所以長門這時候也就沒有繼續(xù)說下去。而在聽到長門說的這些之后,小南其實(shí)也是有些感慨的說道:“長門,你之后準(zhǔn)備做什么呢?!”

其實(shí)對于長門能夠選擇一個新的生活這一點(diǎn)。小南更是支持的。如果說以前的時候,長門還或許是有一些心結(jié)。畢竟也一直沒有到新的生活之中來。

可是現(xiàn)在長門所說的那些,也確實(shí)是讓小南覺得,長門這時候或許已經(jīng)想好了。在長門這里,也已經(jīng)有了能夠走出,并且從此之后,也將會做點(diǎn)其他事情的想法。

評測

飲食如何健康恢復(fù),健康課:痔瘡手術(shù)后恢復(fù)更快的技巧,專家分享!

紅發(fā)海賊團(tuán)船長魯夫的毒血之 握掌控?zé)o盡狂野的初始冷卻時間,《海賊王寶藏巡航》杰克技能介紹

上線,Voxile如何下載-游戲平臺介紹

孟耿如事件發(fā)酵,力挺孟耿如,黃子佼犯罪,夫妻子女皆無罪說明:1. 將"多位大咖為孟耿如聲援"改為"力挺孟耿如"2. "黃子佼犯罪,罪不殃及妻女"改為"黃子佼犯罪,夫妻子女皆無罪"3. 整體標(biāo)題更簡潔有力,同時保留了核心信息4. 使用"力挺"一詞更顯專業(yè)5. 保持了對原意的準(zhǔn)確傳達(dá),同時使標(biāo)題更易讀

如何在Steam平臺下載《Odinfall》,Odynfall怎么下載:教程指南

顯示全部

熱門推薦
玩家評論
我要跟貼
取消
最新手游