国产亚洲欧美在线观看精品,а√天堂中文在线资源bt种子,国产亚洲精品自在线亚洲页码,日本一区二区不卡高清久久久

站長(zhǎng)之家 - 業(yè)界 2025-03-12 23:27:07

大語(yǔ)言模型Transformer架構(gòu)的稀疏注意力機(jī)制與超長(zhǎng)文本處理優(yōu)化,清華大學(xué)等基于APB的序列并行推理模型在大規(guī)模文本處理中相比Flash Attention提升10倍的性能

聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

機(jī)器之心由

機(jī)器之心編輯

在 ChatGPT 爆火兩年多的時(shí)間里,大語(yǔ)言模型的上下文窗口長(zhǎng)度基準(zhǔn)線被拉升,以此為基礎(chǔ)所構(gòu)建的長(zhǎng) CoT 推理、多 Agent 協(xié)作等類型的高級(jí)應(yīng)用也逐漸增多。

隨之而來(lái)的是,長(zhǎng)文本推理速度被提出更高要求,而基于現(xiàn)有 Transformer 架構(gòu)的模型受限于注意力機(jī)制的二次方復(fù)雜度,難以在較短時(shí)延內(nèi)處理超長(zhǎng)文本請(qǐng)求。

針對(duì)這一痛點(diǎn),清華大學(xué) NLP 實(shí)驗(yàn)室聯(lián)手中南大學(xué)、北京郵電大學(xué)以及騰訊微信 AI 實(shí)驗(yàn)室取得了突破,共同提出了APB 框架—— 其核心是一個(gè)整合了稀疏注意力機(jī)制的序列并行推理框架,通過整合局部 KV 緩存壓縮方式以及精簡(jiǎn)的跨 GPU 通信機(jī)制,解決了長(zhǎng)上下文遠(yuǎn)距離語(yǔ)義依賴問題,在無(wú)性能損失的前提下大幅度提升超長(zhǎng)文本預(yù)填充的效率。

在 128K 文本上,APB 能夠出色地平衡性能與速度,達(dá)到相較于傳統(tǒng) Flash Attention 約 10 倍的加速比,在多種任務(wù)上甚至具有超越完整 Attention 計(jì)算的性能;與英偉達(dá)提出的同為分布式設(shè)定下的Star Attention 相比,APB 也能達(dá)到 1.6 倍加速比,在性能、速度以及整體計(jì)算量上均優(yōu)于 Star Attention。

這一方法主要用于降低處理長(zhǎng)文本請(qǐng)求的首 token 響應(yīng)時(shí)間。未來(lái),APB 有潛力運(yùn)用在具有低首 token 響應(yīng)時(shí)間要求的模型服務(wù)上,實(shí)現(xiàn)大模型服務(wù)層對(duì)長(zhǎng)文本請(qǐng)求的高效處理。

瓶頸:加速長(zhǎng)文本預(yù)填充效率

長(zhǎng)文本預(yù)填充的效率受到計(jì)算的制約。由于注意力機(jī)制的計(jì)算量與序列長(zhǎng)度呈二次方關(guān)系,長(zhǎng)文本的計(jì)算通常是計(jì)算瓶頸的。主流加速長(zhǎng)文本預(yù)填充的路線有兩種,提升并行度減少計(jì)算

然而,簡(jiǎn)單地提升并行度和減少計(jì)算并不能在加速長(zhǎng)文本預(yù)填充上取得足夠的效果。若要將二者結(jié)合又具有極大挑戰(zhàn),這是因?yàn)橄∈枳⒁饬C(jī)制中,決定計(jì)算何處注意力通常需要完整輸入序列的信息。在序列并行框架中,每個(gè) GPU 僅持有部分 KV 緩存,無(wú)法在不通過大規(guī)模通信的前提下獲得足夠的全局信息來(lái)壓縮注意力的計(jì)算。

針對(duì)這一問題,現(xiàn)有研究提出了兩種關(guān)鍵方法:英偉達(dá)提出的 Star Attention 通過去除序列并行中的所有通信,僅計(jì)算 GPU 局部區(qū)域的注意力,但這種簡(jiǎn)化策略導(dǎo)致顯著的計(jì)算效率損失。另一項(xiàng)研究由卡內(nèi)基梅隆大學(xué)提出,即 APE 方法,專注于 RAG 桅ma場(chǎng)景下的長(zhǎng)文本預(yù)填充加速,通過均勻劃分上下文、縮放注意力計(jì)算并調(diào)整 Softmax 溫度,實(shí)現(xiàn)了并行編碼。然而,該方法在處理需要遠(yuǎn)距離依賴的文本時(shí)仍存在一定效率損失。

與上述方法相比,APB 通過創(chuàng)新設(shè)計(jì)面向序列并行的低通信稀疏注意力機(jī)制,成功構(gòu)建了一個(gè)在計(jì)算效率和性能表現(xiàn)上均更優(yōu)的長(zhǎng)文本加速框架,該框架能夠很好地適應(yīng)通用長(zhǎng)文本任務(wù)。

APB:面向序列并行的稀疏注意力機(jī)制

相較于現(xiàn)有研究,APB 通過以下方式提出了一種創(chuàng)新的面向序列并行框架的稀疏注意力機(jī)制:

以該機(jī)制為基礎(chǔ),APB 的推理過程如下:

該方法顯著提升了長(zhǎng)文本推理速度的同時(shí)保持了較高的計(jì)算效率。

研究團(tuán)隊(duì)采用了 Llama-3.1-8B-instruct、Qwen-2.5-14B-instruct 以及 Yi-34B-200K 模型,在 InfiniteBench 和 RULER 平臺(tái)上進(jìn)行了系統(tǒng)評(píng)估,全面考察了任務(wù)性能(%)和推理速度(tok/s)指標(biāo)。

從實(shí)驗(yàn)結(jié)果來(lái)看,F(xiàn)lash Attention 作為無(wú)序列并行的精準(zhǔn)注意力算法,在任務(wù)性能方面表現(xiàn)優(yōu)異,但推理速度最慢;而 Ring Attention 和 Ulysses 作為序列并行的精準(zhǔn)注意力算法,通過優(yōu)化并行度顯著提升了推理速度;MInference 作為一種無(wú)序列并行的稀疏注意力機(jī)制,在性能上也存在一定局限性;Star Attention 則作為序列并行與稀疏注意力結(jié)合的初始嘗試,在推理速度上表現(xiàn)尚可,但計(jì)算效率明顯下降。

相較于上述基線算法,APB 在多種模型和任務(wù)場(chǎng)景中展現(xiàn)出更優(yōu)的性能表現(xiàn)和更快的推理速度。這表明,APB 方法實(shí)現(xiàn)了計(jì)算效率與推理速度的最佳平衡。

此外,研究團(tuán)隊(duì)在不同數(shù)據(jù)長(zhǎng)度的場(chǎng)景下對(duì) APB 與基線算法的性能表現(xiàn)和推理速度進(jìn)行了全面評(píng)估,并提供了整體計(jì)算量的數(shù)據(jù)支持,結(jié)果表明 APB 在各類場(chǎng)景中均展現(xiàn)出顯著的優(yōu)勢(shì)。

From the figure, it can be observed that APB demonstrates superior task performance and inference speed across various input lengths. The speed advantage becomes more pronounced as the input sequence lengthens. APB achieves this improvement because it requires fewer computations, with the computational efficiency gap widening as the sequence becomes longer.

Additionally, researchers conducted a pre-filled time decomposition analysis on both APB and baseline algorithms and found that leveraging sequence parallelism can significantly reduce the time spent on attention and feed-forward (FFN) operations.

Furthermore, the sparse attention mechanism in APB allows for further reduction in attention time. The Star Attention mechanism, however, suffers from significant extra overhead due to its large anchor block, while APB mitigates this issue by utilizing passing blocks to transmit long-range semantic dependencies, thereby enabling a much smaller anchor block size and reducing the extra overhead at the FFN stage.

APB exhibits excellent compatibility, being adaptable to different distributed settings (e.g., number of GPUs) and various model sizes. It achieves impressive performance and inference speed across multiple model configurations and distributed setups.

**Biography of Core Authors**

- **Yuxiang Huang**: An undergraduate student in the fourth year at Tsinghua University, currently a Ph.D. candidate candidate in the 2025 intake at the THUNLP Lab, advised by Prof. Liu Zhiyuan. He has previously participated in projects such as MiniCPM, model efficient fine-tuning, and speculative sampling. His primary research interests revolve around constructing efficient large-model inference systems, with a focus on model compression, speculative sampling, and fast inference techniques for long-text sparse retrieval.

- **Mingyue Li**: An undergraduate student in their third year at Central South University, who joined the THUNLP Lab as an intern in June 2024. He has been involved in the speculative sampling project. His main research interests include accelerating large-model inference, particularly techniques such as speculative sampling and acceleration methods for long-text retrieval.

投射器誘導(dǎo)彈精準(zhǔn)吸引陷阱利用輕松捕捉,怪物獵人投射器誘導(dǎo)彈作用 洛克王國(guó)月會(huì)員卡捕捉稀有寵物戰(zhàn)令系統(tǒng),《洛克王國(guó):世界》氪金點(diǎn)一覽 白金魚池緋紅森林8區(qū)隱藏捕撈點(diǎn),白金魚速刷位置在哪里?位置介紹 強(qiáng)化效果,怪物獵人荒野屬性系雙刀配裝分享 權(quán)藏背后的機(jī)關(guān),《浪人崛起》滑翔機(jī)獲取方法及滑翔翼獲取解析 SPRINGIHGIFT兌換碼,《放置奇兵》兌換碼2025年3月 捕捉地點(diǎn)解析,《洛克王國(guó):世界》火花捕捉地點(diǎn)一覽 食鹽健康陷阱,標(biāo)題:吃鹽過多是否影響顏值?營(yíng)養(yǎng)科專家揭示:鹽的“值”會(huì)影響顏值 資源大放送,《天天闖關(guān)》公會(huì)和魔塊系統(tǒng)攻略 Rogue Lite Experience the Unbeatable Adventure from Lumino Games,體驗(yàn)AFTERBLAST游戲的最佳平臺(tái)在哪里?
     
胡桐

胡桐

大?。?em>42.7mb更新:2025-03-12 23:27:07

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 胡桐
  • 胡桐
  • 胡桐

游戲特色

如果君姐成了軋鋼廠技術(shù)員,或者再進(jìn)一步成為技術(shù)科副科長(zhǎng),確實(shí)有能力把閆解成調(diào)到技術(shù)科當(dāng)實(shí)習(xí)生。雖然閆解成不是中專畢業(yè),也沒上過大學(xué),但畢竟讀過高中,只要有關(guān)系,在技術(shù)科當(dāng)個(gè)實(shí)習(xí)生還是沒問題的。

技術(shù)科總共有幾十個(gè)技術(shù)員跟實(shí)習(xí)生,真正擁有中專跟大學(xué)學(xué)歷的也有占了一半,剩下一半都是只有高中學(xué)歷的人,其中還有不少人是軋鋼廠各級(jí)領(lǐng)導(dǎo)找關(guān)系送進(jìn)來(lái)的。

但閻富貴不屬于軋鋼廠,肯定不清楚這里面的道道。但他剛才攔著自己跟君姐時(shí)卻說(shuō)得明明白白,這里面要說(shuō)沒有人給他幫忙,王東打死都不相信。

沒成想背后出謀劃策想要陷害自己的人竟然是易中海。如果自己收了閻富貴的一百塊好處費(fèi)。等將來(lái)把閆解成調(diào)到技術(shù)科當(dāng)實(shí)習(xí)生,易中海肯定會(huì)以這件事兒來(lái)舉報(bào)君姐,讓她丟掉軋鋼廠的干部身份,甚至被軋鋼廠開除,送進(jìn)監(jiān)獄坐牢。

如果自己不收這一百塊錢,不幫閻富貴把閆解成調(diào)到技術(shù)科,閻富貴還能以這個(gè)理由打壓自己跟君姐在四合院兒的威望,說(shuō)自己跟君姐在軋鋼廠當(dāng)了干部就忘了鄰居,連幫閆解成調(diào)動(dòng)工作這么簡(jiǎn)單的事兒都不肯干。

人都是自私的。四合院兒出了干部,肯定都想將來(lái)哪一天讓王東跟陳君也能幫一幫自己。再加上易中海的蠱惑,肯定會(huì)有不少鄰居站在易中海那一邊,跟著易中海一起來(lái)聲討自己跟君姐。

到時(shí)候自己答應(yīng)給他們幫忙也不行,不答應(yīng)幫忙也不行,無(wú)論怎么做都是錯(cuò)的。看清易中海算計(jì)后,王東也不客氣,直接走到易中海面前:“二大爺……我不知道我跟君姐怎么得罪你了?!?/p>

“竟然想要把我們兩個(gè)往死里算計(jì)。”“你知道我跟君姐剛剛要是收了閻富貴的一百塊錢好處費(fèi),需要承受多大代價(jià)嗎?”

“不僅會(huì)丟了軋鋼廠工作,丟了干部身份,還有可能被送進(jìn)監(jiān)獄坐牢。參加勞動(dòng)改造?!薄拔覀冋φf(shuō)也是同一個(gè)四合院兒的鄰居,你怎么就這么狠?”

易中海聽得滿臉震驚,沒想到王東這么快就知道自己通過閻富貴算計(jì)他跟陳君的事兒??粗車従尤家桓背錆M憤怒跟嘲諷的目光看著自己,易中海腦子里的第一反應(yīng)是不能承認(rèn)這件事兒。

游戲亮點(diǎn)

不只是群聊,好幾個(gè)加了好友的同學(xué)還跟他私聊了。比如周雙。復(fù)讀一年后,這家伙順利考上了星鐵一中高中部,而且還混到了一個(gè)快班。

不過這些私聊的內(nèi)容同樣讓喬喻不知道該怎么回復(fù)。“艸,喬喻,你現(xiàn)在可牛逼大了!昨天不是周六嘛,班主任專門在群里發(fā)通知,所有人都要去看你的新聞片段,還有你被外交大佬點(diǎn)評(píng)的視頻,然后還特么要寫一篇八百字的感想!”

“我都幫你打聽過了,不止是我們班要寫,整個(gè)學(xué)校初中部、高中部都要寫!不過初中部只寫五百字就夠了。我在考慮把你簽名的手稿賣了,應(yīng)該能賣不少?;仡^你幫我證明一下啊?!?/p>

這兩條微信讓喬喻想起了初三時(shí),老好人讓他把字好好練一下時(shí)候的對(duì)話。那時(shí)的喬喻自信滿滿的表示,如果他未來(lái)真的混的很牛逼,還需要去在乎那些無(wú)關(guān)人等覺得他字好不好看嗎?現(xiàn)在喬喻感覺他可以很肯定的回答大概兩年前的自己——在乎!說(shuō)實(shí)話字寫的那么隨心所欲,現(xiàn)在著實(shí)是感覺有那么一點(diǎn)丟人。

游戲玩法

“啊嗚,啊嗚,我也要把你們都統(tǒng)統(tǒng)吃掉……嗯,這味道真是太美妙了…”“……”在寬闊的操場(chǎng)上,小朋友們端端正正地坐在坐位上,當(dāng)看到老師們手捧著色香味俱全的前菜緩緩向他們走來(lái)時(shí),他們一個(gè)個(gè)都興奮得手舞足蹈,小手更是激動(dòng)地指向老師們的方向,滿心歡喜地期待著能夠立刻大快朵頤。

一旁的家長(zhǎng)們雖然內(nèi)心也充滿了欣喜,但表面上依然保持著鎮(zhèn)定,同時(shí)溫柔地安撫著自家那些蠢蠢欲動(dòng)、按捺不住的小家伙們:“寶貝,乖乖坐好哦,不要著急,飯飯馬上就來(lái)啦…”

但遺憾的是……這樣的安撫,并沒有太大的效果。孩子們完全沉浸在對(duì)美食的渴望中,壓根沒有理會(huì)家長(zhǎng)們的話語(yǔ)。

評(píng)測(cè)

原神5.4深淵12層速通攻略,《原神》5.4版本深淵12層第2間滿星通關(guān)技巧

開放世界游戲即將發(fā)布主機(jī)平臺(tái),Voxile游戲下載平臺(tái)在哪里?全面解析

市場(chǎng)驚慌,當(dāng)選后美股大跌,經(jīng)濟(jì)大問題來(lái)了

智駕新勢(shì)力,廣豐純電動(dòng)小車上市一小時(shí)訂單破萬(wàn),合資純電車為何逆風(fēng)翻盤?

獵物資源,荒野生肉獲取指南

顯示全部

熱門推薦
玩家評(píng)論
我要跟貼
取消
最新手游