- 揭秘指南,《作妖計》投石車介紹
- 系統(tǒng)配置要求揭秘,[天下霸圖2]全資料
- 揭秘游戲角色,《作妖計》騎兵介紹
- 深入游戲世界探索,《作妖計》長槍兵介紹
- 揭秘游戲伙伴,《作妖計》刀兵介紹
- 游戲角色揭秘,《作妖計》弓箭手介紹
- 探索指南,《作妖計》骷髏介紹
- 揭秘背后的秘密,《作妖計》電母介紹
- 揭秘潛力,《作妖計》雷公介紹
- 揭秘強力伙伴,《作妖計》馬面介紹
聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。
最近,中國科學技術大學的研究團隊研發(fā)了一種名為AlphaEdit的精準編輯算法,該算法為大型語言模型的知識更新和管理提供了一種高效解決方案。
該算法的核心在于,在對模型進行知識更新時,將參數(shù)變化投影到原始知識的零空間中。這種方法理論上能夠確保在定向更新模型中的錯誤、過時或不安全知識時,不會對模型的通用能力造成干擾。
研究人員在主流編輯方法中僅增加一行代碼,就實現(xiàn)了Llama 3在知識編輯任務上的性能提升達35%。
該方法具有廣泛的適用性,可以應用于大多數(shù)常用的模型編輯算法,并在論文中接受了驗證。
論文的審稿人評價稱:"該研究成功解決了當前模型編輯中知識更新與知識保留之間難以平衡的問題。"
相關論文《AlphaEdit:基于零空間約束的語言模型知識編輯》(AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models)已發(fā)表在國際學習表征會議(ICLR 2025,International Conference on Learning Representations)上,并被選為 orally presentation(僅占投稿總數(shù)的1.8%)。
中國科學技術大學的博士生方俊峰和碩士生姜厚丞是共同第一作者,王翔教授和何向南教授擔任共同通訊作者。
該研究團隊發(fā)現(xiàn),以往研究通常將"加入新知識"和"保留舊知識"這兩個目標放在一起。目前,大多數(shù)研究范式通過調整優(yōu)化目標中兩者的參數(shù)來維持平衡。
然而,現(xiàn)有的平衡方式并不理想,往往會為了保證新知識的成功加入而犧牲一部分舊知識,進而影響模型的語言流暢性和邏輯性。這種權衡在頻繁更新知識的情況下,容易導致模型崩潰。
為了解決上述問題,他們提出:是否可以突破這種限制,每一步只需處理一件事呢?
研究團隊在廣泛查閱數(shù)學文獻和理論后,確定了經典概念——零空間。零空間理論可以在不破壞現(xiàn)有知識的情況下,完美地保持新知識,從而實現(xiàn)模型的無損更新。
方俊峰指出,雖然在算法中添加一行代碼看似簡單,但實際上它將原算法的目標分為兩部分,并通過零空間投影矩陣將結果投影到原始知識的零空間中,從而實現(xiàn)了強大的泛化性,并且適用于目前大部分基于定位的模型編輯算法。
實驗數(shù)據(jù)顯示,AlphaEdit在幾乎所有指標和基礎模型上都表現(xiàn)出色,尤其是在效率和泛化能力方面,與最佳基線方法相比,分別提升了12.54%和16.78%。
此外,AlphaEdit在文本生成的流暢性和連貫性方面也取得了顯著的改進。在對編輯后的大模型進行一般能力測試時,AlphaEdit保持了模型的原始性能,在處理3000個樣本后,平均保留了98.48%的一般能力。
值得注意的是,該方法幾乎不會對模型的語言輸出流暢度造成影響。方俊峰強調,這是目前唯一能夠在理論上徹底避免這種情況的解決方案。
此外,研究人員還驗證了該方法的普適性,它在遺忘學習、持續(xù)學習、概念擦除、模型去偏和多模態(tài)安全等領域,均能實現(xiàn)簡單且有效的效果。
模型編輯是大模型發(fā)展過程中的重要環(huán)節(jié)。隨著模型架構的不斷增大,其性能也在持續(xù)增強。未來,隨著計算能力的提升,可能會出現(xiàn)更大規(guī)模的模型架構。
然而,模型規(guī)模的增大也帶來了新的挑戰(zhàn)。盡管小模型可以通過微調快速更新知識,但對大模型進行微調的難度將隨著規(guī)模的增大而顯著增加。因此,高效的模型編輯在這一背景下顯得尤為重要。
此外,在垂類大模型能力持續(xù)增強的發(fā)展趨勢下,基礎模型的迭代更新可能會被推遲,而模型編輯可以在官方更新緩慢的情況下快速響應市場和用戶的需求,保持模型的時效性和實用性。
盡管目前的模型編輯方法在理論層面不會破壞舊知識,但在實際操作中仍會存在一些近似誤差,導致微小的知識破壞。
小編在《自然》雜志上發(fā)表的論文中指出,盡管該研究團隊在實現(xiàn)大模型編輯方面取得了一定進展,但目前仍無法滿足工業(yè)界對模型編輯的需求。具體來說,此前模型編輯由于破壞較為嚴重難以被工業(yè)界接受,可能需要數(shù)千次更新就會導致模型崩潰。但如今,我們已經將這種破壞降低了 1 個數(shù)量級,這使模型編輯的意義變得更加重大。方俊峰團隊對此表示。
在接下來的研究階段,該課題組計劃將這項技術推廣到更多國內外知名的大模型中,以驗證其通用性和泛化性。
其次,他們計劃探索將零空間應用于不同的垂直領域,例如安全防護或多模態(tài)生成,以在增強大模型安全性、提升特定能力的同時,確保原始存儲知識的邏輯表達能力不受影響。
此外,研究人員還考慮利用零空間來增強大模型的某個特定能力,比如針對藝術、生化、數(shù)學等領域的模型,或定制化模型(如定制家教)。該團隊認為,將這項技術應用于持續(xù)學習等深度學習領域,也是具有研究價值的方向之一。
參考資料:
1.https://openreview.net/forum?id=HvSytvg3Jh
2.https://github.com/jianghoucheng/AlphaEdit
運營/排版:何晨龍、劉雅坤
《180天》用溫暖打破家庭劇的苦澀模式,周雨彤和吳越聯(lián)袂主演的劇集《好東西》因表現(xiàn)不佳而僅獲8分。 周雨彤與吳越合作的電視劇《好東西》因表現(xiàn)不佳而僅得8分。 周雨彤+吳越的《好東西》因表現(xiàn)不佳而只獲8分。 周雨彤和吳越聯(lián)袂主演的劇集《好東西》因表現(xiàn)不佳而僅得8分。 周雨彤與吳越合作的電視劇《好東西》因表現(xiàn)不佳而只獲8分。 上汽榮威純電D6發(fā)布會即將開啟大尺寸長軸距高續(xù)航優(yōu)雅外觀智能內飾時尚車漆與A+級純電轎車型標桿齊飛即將上市改變格局帶來超越預期的卓越體驗,榮威純電D6:A+級純電家轎新標桿首次亮相 奮斗的真相 | 困難的真相,讀博16歲,低保生活成現(xiàn)實?張炘煬的轉折之路該如何解讀? 減去肥胖守護健康,骨齡減緩、性發(fā)育異常、生長發(fā)育停滯……肥胖嚴重影響孩子成長! 2025國防預算,解放軍和武警部隊代表團發(fā)言人:2025年保障國防支出1.81萬億元 AI如何重塑科學論文審查基于AI的工具幫助發(fā)現(xiàn)論文錯誤,科學家發(fā)現(xiàn)癌細胞存在致命DNA缺口(說明:這個改寫版本:1. 去掉了"3月10日"和"外媒科學網站摘要",因為標題重點在于科學家的發(fā)現(xiàn)2. 將"癌細胞的致命DNA缺口"調整為"癌細胞存在致命DNA缺口",使表達更簡潔3. 保持了原意,同時使標題更簡短有力) 債務重組兩年債權人斡旋,合景泰富,最新重組進展曝光 打破常規(guī),杭州一名女子家中涌入200家中介,售價696萬,希望盡快售出。 硬核起飛與安全,資深機長解密山航飛機暴雪中“硬核起降” 智能科技緊湊型SUV,增配無降!比亞迪PLUS智駕版上市搭載天神之眼