- 中國經(jīng)濟(jì)穩(wěn)步向好,“中國廣闊的市場仍是重大機(jī)遇”——專訪英中貿(mào)易協(xié)會總裁白彼得|新視角看兩會
- 特朗普白宮呼吁結(jié)束俄烏沖突,特朗普:與烏克蘭的互動難度增加,烏克蘭面臨無牌可用的境地
- 上海男排25年后奪冠,上海男排三大球聯(lián)賽三冠王,18冠、9連冠、紅火25年
- 特朗普與烏克蘭緊張會談,烏克蘭政治局勢最新發(fā)展!特朗普團(tuán)隊(duì)官員稱與烏克蘭反對者舉行秘密會談美國與烏克蘭政敵秘密會談?特朗普團(tuán)隊(duì)官員稱已安排美國與烏克蘭政敵秘密會談?特朗普團(tuán)隊(duì)官員稱已安排烏克蘭政治局勢最新發(fā)展!特朗普團(tuán)隊(duì)官員稱與烏克蘭反對者舉行秘密會談美國與烏克蘭政敵秘密會談?特朗普團(tuán)隊(duì)官員稱已安排烏克蘭政治局勢最新發(fā)展!特朗普團(tuán)隊(duì)官員稱與烏克蘭反對者舉行秘密會談美國與烏克蘭政敵秘密會談?特朗普團(tuán)隊(duì)官員稱已安排烏克蘭政治局勢最新發(fā)展!特朗普團(tuán)隊(duì)官員稱與烏克蘭反對者舉行秘密會談美國與烏克蘭政敵秘密會談?特朗普團(tuán)隊(duì)官員稱已安排烏克蘭政治局勢最新發(fā)展!特朗普團(tuán)隊(duì)官員稱與烏克蘭反對者舉行秘密會談美國與烏克蘭政敵秘密會談?特朗普團(tuán)隊(duì)官員稱已安排
- 趣味隱藏大冒險,《爆梗找茬王》牛肉火鍋店通關(guān)攻略
- 美烏官員將在沙特會晤 美烏官員將在沙特舉行會談,美烏高官下周將在沙特會面 談些什么?
- 羅伯遜 vs 斯圖爾特-賓漢姆斯諾克世界大獎賽決賽,羅伯遜10-0擊敗賓漢姆,斬獲個人第25冠
- 驚險事件達(dá)拉斯-沃斯堡機(jī)場兩機(jī)相撞,三起飛機(jī)相撞事故或因風(fēng)力影響,美國近期航空事故頻發(fā),過去兩個月已發(fā)生超十起航空事故
- 過去到現(xiàn)在,上下起伏!特斯拉銷量腰斬,市值蒸發(fā)相當(dāng)于三個比亞迪(這個改寫版本:1. 用"上下起伏"簡潔表達(dá)馬斯克 both good and bad 的雙重影響2. "銷量腰斬"具體化了銷量大幅下滑3. "市值蒸發(fā)相當(dāng)于三個比亞迪"量化了市值影響4. 整體結(jié)構(gòu)更緊湊,信息更明確5. 使用"上下起伏"一詞,增加了標(biāo)題的吸引力和新聞價值)
- 亞泰U20國青年輕球員的成長與希望,U20國青無驚喜,年輕一代東南亞早就贏出
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
機(jī)器之心由
機(jī)器之心編輯
在 ChatGPT 爆火兩年多的時間里,大語言模型的上下文窗口長度基準(zhǔn)線被拉升,以此為基礎(chǔ)所構(gòu)建的長 CoT 推理、多 Agent 協(xié)作等類型的高級應(yīng)用也逐漸增多。
隨之而來的是,長文本推理速度被提出更高要求,而基于現(xiàn)有 Transformer 架構(gòu)的模型受限于注意力機(jī)制的二次方復(fù)雜度,難以在較短時延內(nèi)處理超長文本請求。
針對這一痛點(diǎn),清華大學(xué) NLP 實(shí)驗(yàn)室聯(lián)手中南大學(xué)、北京郵電大學(xué)以及騰訊微信 AI 實(shí)驗(yàn)室取得了突破,共同提出了APB 框架—— 其核心是一個整合了稀疏注意力機(jī)制的序列并行推理框架,通過整合局部 KV 緩存壓縮方式以及精簡的跨 GPU 通信機(jī)制,解決了長上下文遠(yuǎn)距離語義依賴問題,在無性能損失的前提下大幅度提升超長文本預(yù)填充的效率。
在 128K 文本上,APB 能夠出色地平衡性能與速度,達(dá)到相較于傳統(tǒng) Flash Attention 約 10 倍的加速比,在多種任務(wù)上甚至具有超越完整 Attention 計算的性能;與英偉達(dá)提出的同為分布式設(shè)定下的Star Attention 相比,APB 也能達(dá)到 1.6 倍加速比,在性能、速度以及整體計算量上均優(yōu)于 Star Attention。
這一方法主要用于降低處理長文本請求的首 token 響應(yīng)時間。未來,APB 有潛力運(yùn)用在具有低首 token 響應(yīng)時間要求的模型服務(wù)上,實(shí)現(xiàn)大模型服務(wù)層對長文本請求的高效處理。
瓶頸:加速長文本預(yù)填充效率
長文本預(yù)填充的效率受到計算的制約。由于注意力機(jī)制的計算量與序列長度呈二次方關(guān)系,長文本的計算通常是計算瓶頸的。主流加速長文本預(yù)填充的路線有兩種,提升并行度減少計算
然而,簡單地提升并行度和減少計算并不能在加速長文本預(yù)填充上取得足夠的效果。若要將二者結(jié)合又具有極大挑戰(zhàn),這是因?yàn)橄∈枳⒁饬C(jī)制中,決定計算何處注意力通常需要完整輸入序列的信息。在序列并行框架中,每個 GPU 僅持有部分 KV 緩存,無法在不通過大規(guī)模通信的前提下獲得足夠的全局信息來壓縮注意力的計算。
針對這一問題,現(xiàn)有研究提出了兩種關(guān)鍵方法:英偉達(dá)提出的 Star Attention 通過去除序列并行中的所有通信,僅計算 GPU 局部區(qū)域的注意力,但這種簡化策略導(dǎo)致顯著的計算效率損失。另一項(xiàng)研究由卡內(nèi)基梅隆大學(xué)提出,即 APE 方法,專注于 RAG 桅ma場景下的長文本預(yù)填充加速,通過均勻劃分上下文、縮放注意力計算并調(diào)整 Softmax 溫度,實(shí)現(xiàn)了并行編碼。然而,該方法在處理需要遠(yuǎn)距離依賴的文本時仍存在一定效率損失。
與上述方法相比,APB 通過創(chuàng)新設(shè)計面向序列并行的低通信稀疏注意力機(jī)制,成功構(gòu)建了一個在計算效率和性能表現(xiàn)上均更優(yōu)的長文本加速框架,該框架能夠很好地適應(yīng)通用長文本任務(wù)。
APB:面向序列并行的稀疏注意力機(jī)制
相較于現(xiàn)有研究,APB 通過以下方式提出了一種創(chuàng)新的面向序列并行框架的稀疏注意力機(jī)制:
以該機(jī)制為基礎(chǔ),APB 的推理過程如下:
該方法顯著提升了長文本推理速度的同時保持了較高的計算效率。
研究團(tuán)隊(duì)采用了 Llama-3.1-8B-instruct、Qwen-2.5-14B-instruct 以及 Yi-34B-200K 模型,在 InfiniteBench 和 RULER 平臺上進(jìn)行了系統(tǒng)評估,全面考察了任務(wù)性能(%)和推理速度(tok/s)指標(biāo)。
從實(shí)驗(yàn)結(jié)果來看,F(xiàn)lash Attention 作為無序列并行的精準(zhǔn)注意力算法,在任務(wù)性能方面表現(xiàn)優(yōu)異,但推理速度最慢;而 Ring Attention 和 Ulysses 作為序列并行的精準(zhǔn)注意力算法,通過優(yōu)化并行度顯著提升了推理速度;MInference 作為一種無序列并行的稀疏注意力機(jī)制,在性能上也存在一定局限性;Star Attention 則作為序列并行與稀疏注意力結(jié)合的初始嘗試,在推理速度上表現(xiàn)尚可,但計算效率明顯下降。
相較于上述基線算法,APB 在多種模型和任務(wù)場景中展現(xiàn)出更優(yōu)的性能表現(xiàn)和更快的推理速度。這表明,APB 方法實(shí)現(xiàn)了計算效率與推理速度的最佳平衡。
此外,研究團(tuán)隊(duì)在不同數(shù)據(jù)長度的場景下對 APB 與基線算法的性能表現(xiàn)和推理速度進(jìn)行了全面評估,并提供了整體計算量的數(shù)據(jù)支持,結(jié)果表明 APB 在各類場景中均展現(xiàn)出顯著的優(yōu)勢。
From the figure, it can be observed that APB demonstrates superior task performance and inference speed across various input lengths. The speed advantage becomes more pronounced as the input sequence lengthens. APB achieves this improvement because it requires fewer computations, with the computational efficiency gap widening as the sequence becomes longer.
Additionally, researchers conducted a pre-filled time decomposition analysis on both APB and baseline algorithms and found that leveraging sequence parallelism can significantly reduce the time spent on attention and feed-forward (FFN) operations.
Furthermore, the sparse attention mechanism in APB allows for further reduction in attention time. The Star Attention mechanism, however, suffers from significant extra overhead due to its large anchor block, while APB mitigates this issue by utilizing passing blocks to transmit long-range semantic dependencies, thereby enabling a much smaller anchor block size and reducing the extra overhead at the FFN stage.
APB exhibits excellent compatibility, being adaptable to different distributed settings (e.g., number of GPUs) and various model sizes. It achieves impressive performance and inference speed across multiple model configurations and distributed setups.
**Biography of Core Authors**
- **Yuxiang Huang**: An undergraduate student in the fourth year at Tsinghua University, currently a Ph.D. candidate candidate in the 2025 intake at the THUNLP Lab, advised by Prof. Liu Zhiyuan. He has previously participated in projects such as MiniCPM, model efficient fine-tuning, and speculative sampling. His primary research interests revolve around constructing efficient large-model inference systems, with a focus on model compression, speculative sampling, and fast inference techniques for long-text sparse retrieval.
- **Mingyue Li**: An undergraduate student in their third year at Central South University, who joined the THUNLP Lab as an intern in June 2024. He has been involved in the speculative sampling project. His main research interests include accelerating large-model inference, particularly techniques such as speculative sampling and acceleration methods for long-text retrieval.
“當(dāng)她們傾聽她們”,王奕芝:“她”可以成為任何模樣 材料需求,《絕區(qū)零》零號安比養(yǎng)成材料一覽 嚙齒動物No.44角色扮演,嚙齒動物No44 Experimental gnawer游戲官網(wǎng)地址在哪 兌換稀有船員蓋瑞·巴斯塔·霍姆斯需6萬點(diǎn),標(biāo)題改寫建議:如龍8外傳船員蓋瑞如何獲得說明:這個改寫:1. 去掉了重復(fù)的"獲得方法"2. 使用"如何"替代"怎么"3. 簡化了標(biāo)題長度4. 保持了核心信息:如龍8外傳、船員蓋瑞、獲得方法5. 更符合標(biāo)題簡短的特點(diǎn)改寫后的標(biāo)題既保持了原意,又更符合標(biāo)題簡短的特點(diǎn)。 2025年空間站運(yùn)行效率高,神舟二十號、二十一號航天員已確定,正開展相關(guān)訓(xùn)練 快速導(dǎo)航技巧,怪物獵人:荒野快速查東西指南 墨西哥總統(tǒng)辛鮑姆 interactive演講,墨西哥總統(tǒng)辛鮑姆支持率達(dá)85%創(chuàng)歷史紀(jì)錄 應(yīng)對特朗普關(guān)稅戰(zhàn)獲民心 小牛戰(zhàn)術(shù)組合,《美職籃全明星》王朝排位玩法介紹 挑戰(zhàn)與神秘,《夢幻西游》躍凌云看戲副本攻略 水兵月變身在龍族國度之崛起開場動畫中隱藏細(xì)節(jié),雙影奇境水兵月彩蛋位置分享