- 新手必看,《不一樣的奇遇》玉佩獲取方法位置
- 每日游戲攻略,《鳴潮》曲問(wèn)趣答三任務(wù)攻略
- 強(qiáng)力英雄解讀,《星之破曉》虞姬云霓雀翎技能介紹
- 進(jìn)階攻略指南,《鳴潮》數(shù)據(jù)塢等級(jí)提升方法
- 游戲高手必看,《星之破曉》孫尚香未來(lái)機(jī)甲技能介紹
- 抖音熱門游戲攻略揭秘,《不一樣的奇遇》重返豪門通關(guān)攻略
- 配置指南,《地下城與勇士:起源》徽章選擇指南
- 組隊(duì)策略指南,《鳴潮》鑒心配隊(duì)攻略
- 任務(wù)攻略必備指南,《鳴潮》步法修業(yè)舞獅任務(wù)完成攻略
- 快速攻略指南,《我是顯眼包》修豬蹄通關(guān)攻略
聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
新智元發(fā)布
編輯:LRST
【新智元導(dǎo)讀】近期,武漢大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)和南洋理工大學(xué)的研究團(tuán)隊(duì)發(fā)布了一篇綜述論文,系統(tǒng)性地總結(jié)了大型視覺(jué)語(yǔ)言模型(LVLMs)在安全性上的挑戰(zhàn),并提出了全面的系統(tǒng)化安全分類框架。該綜述涵蓋了攻擊、防御和評(píng)估的各個(gè)方面,還對(duì)當(dāng)前最熱門的模型DeepSeek Janus-Pro進(jìn)行了安全性測(cè)試,發(fā)現(xiàn)其存在明顯的安全短板。
隨著GPT-4o與Qwen-VL等模型的視覺(jué)理解和多模態(tài)生成能力的不斷提升,大型視覺(jué)語(yǔ)言模型(LVLMs)正在以前所未有的速度重塑AI世界。這些能夠理解視覺(jué)信息并生成自然語(yǔ)言的智能系統(tǒng),已在醫(yī)療診斷、自動(dòng)駕駛、金融風(fēng)控等領(lǐng)域展現(xiàn)出顯著的應(yīng)用價(jià)值。
然而,研究者們發(fā)現(xiàn),僅用幾百美元就能突破頂級(jí)模型的安全防線,簡(jiǎn)單的對(duì)抗噪聲圖片就能讓模型輸出危險(xiǎn)內(nèi)容,這種現(xiàn)象是否值得我們深思?
近期,武漢大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)和南洋理工大學(xué)的研究團(tuán)隊(duì)發(fā)布了一篇綜述,系統(tǒng)性地總結(jié)了LVLMs在安全性上的挑戰(zhàn),并提出了全面而系統(tǒng)的安全分類框架。
論文地址:https://arxiv.org/abs/2502.14881
項(xiàng)目主頁(yè):https://github.com/XuankunRong/Awesome-LVLM-Safety
該研究團(tuán)隊(duì)深入分析了LVLM安全性的各個(gè)方面,涵蓋了從攻擊策略到防御機(jī)制,再到評(píng)估方法的全面內(nèi)容。
通過(guò)細(xì)致探討LVLM模型在訓(xùn)練和推理階段面臨的具體安全問(wèn)題,該綜述不僅提供了全面的安全態(tài)勢(shì)分析,還詳細(xì)介紹了應(yīng)對(duì)各類安全風(fēng)險(xiǎn)的有效措施,為提升LVLM的安全性和魯棒性提供了系統(tǒng)性的指導(dǎo)和參考。
突破孤立分析的局限,構(gòu)建了一個(gè)涵蓋攻擊、防御和評(píng)估的統(tǒng)一框架
論文指出,現(xiàn)有研究往往僅關(guān)注LVLM攻擊或防御某一特定方面,這種孤立分析方法難以全面揭示LVLM的安全性特征,導(dǎo)致對(duì)其整體安全態(tài)勢(shì)的認(rèn)知不夠深入。盡管部分研究嘗試同時(shí)探討LLM和LVLM的安全問(wèn)題,但對(duì)LVLM獨(dú)有的安全挑戰(zhàn)關(guān)注不足,論述較為泛泛而談。
研究人員提出了一種系統(tǒng)化分析方法,通過(guò)整合攻擊、防御和評(píng)估這三個(gè)相互關(guān)聯(lián)的維度,全面揭示了LVLM固有漏洞及其可能的應(yīng)對(duì)策略。
通過(guò)系統(tǒng)整合領(lǐng)域內(nèi)的最新研究成果,論文提供了更為深入和全面的LVLM安全性分析,涵蓋了多維度的安全問(wèn)題,彌補(bǔ)了現(xiàn)有研究的空白,推動(dòng)了相關(guān)研究的深入發(fā)展。
圖1. 論文整體架構(gòu)圖
此外,論文基于LVLM生命周期的不同階段(訓(xùn)練與推理)對(duì)相關(guān)研究進(jìn)行了細(xì)致分類,從而提供了更為精準(zhǔn)的分析框架。這種分類方法有助于更清晰地識(shí)別每個(gè)階段面臨的獨(dú)特安全挑戰(zhàn),因?yàn)橛?xùn)練階段和推理階段的安全問(wèn)題本質(zhì)上存在顯著差異。
在訓(xùn)練階段,研究重點(diǎn)圍繞模型學(xué)習(xí)過(guò)程中的數(shù)據(jù)安全性問(wèn)題展開;而在推理階段,則側(cè)重于模型實(shí)際應(yīng)用中的安全風(fēng)險(xiǎn)評(píng)估。通過(guò)對(duì)不同階段安全策略的針對(duì)性分析,研究者能夠更有針對(duì)性地識(shí)別和應(yīng)對(duì)潛在威脅。
例如,在推理階段,攻擊方式可劃分為白盒攻擊、灰盒攻擊和黑盒攻擊(如圖2所示)。
圖2. 白盒、灰盒、黑盒攻擊概要圖
白盒攻擊假設(shè)攻擊者能夠完全訪問(wèn)模型的內(nèi)部結(jié)構(gòu)、參數(shù)和梯度信息,從而精準(zhǔn)操控模型行為;灰盒攻擊則假設(shè)攻擊者具備對(duì)模型架構(gòu)的了解,并通過(guò)構(gòu)建替代模型生成惡意輸入;黑盒攻擊則假設(shè)攻擊者只能通過(guò)輸入輸出方式與模型交互,完全無(wú)法獲取任何內(nèi)部信息,從而模擬了現(xiàn)實(shí)世界中更為復(fù)雜的攻擊場(chǎng)景。
Janus-Pro的安全性評(píng)估研究
研究人員不僅對(duì)現(xiàn)有技術(shù)進(jìn)行了歸納和總結(jié),還對(duì)DeepSeek的最新統(tǒng)一多模態(tài)大模型Janus-Pro進(jìn)行了安全性評(píng)估。
通過(guò)在SIUO和MM-SafetyBench平臺(tái)上的測(cè)試,結(jié)果顯示,盡管Janus-Pro在多模態(tài)理解能力方面取得了顯著成果,但其安全性表現(xiàn)仍存在明顯局限性。在多個(gè)基準(zhǔn)測(cè)試中,該模型未能達(dá)到大多數(shù)其他模型的基本安全水平。
圖3展示了Janus-Pro在SIUO平臺(tái)上的評(píng)估結(jié)果
圖4展示了Janus-Pro在MM-SafetyBench平臺(tái)上的評(píng)估結(jié)果
研究人員推測(cè),這一局限性可能源于模型架構(gòu)設(shè)計(jì)的特殊性:該架構(gòu)旨在同時(shí)處理多模態(tài)理解和圖片生成任務(wù),這可能導(dǎo)致在安全機(jī)制設(shè)計(jì)方面存在不足。
此外,Janus-Pro可能缺乏專門的安全性訓(xùn)練,因此在應(yīng)對(duì)特定安全問(wèn)題時(shí)缺乏有效的防范措施和應(yīng)對(duì)策略,從而在識(shí)別、緩解和防范有害輸入方面的能力相對(duì)有限。鑒于安全性在多模態(tài)模型的實(shí)際應(yīng)用中至關(guān)重要,顯然Janus-Pro的安全性亟待顯著提升。
為提升Janus-Pro在高風(fēng)險(xiǎn)任務(wù)和復(fù)雜場(chǎng)景中的有效性,需要進(jìn)一步優(yōu)化其架構(gòu)和訓(xùn)練方法,特別是加強(qiáng)對(duì)安全性和對(duì)抗性魯棒性的關(guān)注,以確保其在面對(duì)挑戰(zhàn)時(shí)能夠提供更加可靠的防護(hù)。
未來(lái)研究趨勢(shì)
研究人員認(rèn)為,未來(lái)關(guān)于LVLM安全性研究的焦點(diǎn)將集中在以下幾個(gè)關(guān)鍵領(lǐng)域。
大語(yǔ)言模型安全研究方面,黑盒攻擊相關(guān)工作將逐步增加。這種攻擊方式無(wú)需依賴模型內(nèi)部結(jié)構(gòu),而是通過(guò)利用目標(biāo)模型固有的能力(如OCR、邏輯推理等),從而實(shí)現(xiàn)了攻擊的可轉(zhuǎn)移性和資源效率的提升。
在跨模態(tài)安全對(duì)齊研究方面,由于視覺(jué)與文本輸入的結(jié)合可能導(dǎo)致不安全輸出,因此需要在安全性設(shè)計(jì)中加強(qiáng)視覺(jué)模態(tài)與語(yǔ)言模態(tài)的協(xié)同工作,以有效降低潛在風(fēng)險(xiǎn)。
在安全微調(diào)技術(shù)的應(yīng)用中,通過(guò)人類反饋強(qiáng)化學(xué)習(xí)和對(duì)抗訓(xùn)練等方法的多樣化應(yīng)用,將有助于在保持模型高效性能的同時(shí),顯著提升其安全性。
統(tǒng)一的策略基準(zhǔn)框架將被視為研究的重點(diǎn)之一。通過(guò)該框架,可以更有效地比較不同攻擊與防御策略的優(yōu)劣,從而促進(jìn)更高效、更強(qiáng)大的解決方案的出現(xiàn),最終確保目標(biāo)模型(VLLM)在實(shí)際應(yīng)用中具備良好的安全性和魯棒性。
參考文獻(xiàn):
https://arxiv.org/abs/2502.14881
任務(wù)解鎖,《星際戰(zhàn)甲》刷狗蛋方法 科學(xué)選型防曬效果的秘密,物理防曬VS化學(xué)防曬,防曬霜你會(huì)選嗎? 千奇百怪的靈獸誰(shuí)來(lái)教我怎么培養(yǎng),《三千幻世》靈獸培養(yǎng)玩法 稀有彈藥強(qiáng)制返回,怪物獵人荒野版本誘餌彈有什么用處-了解其特殊作用 掌握操蟲棍蓄力飛圓的秘密,怪物獵人:荒野大eur操蟲棍蓄力飛圓技巧解析 極暗深淵探索冰封燈籠魚 冰封解凍發(fā)現(xiàn)極暗深淵之秘,雙點(diǎn)燈籠魚獲取方法-神兵獲取攻略 由Netflix改編 硬核2D格斗 現(xiàn)已上線Steam平臺(tái) 暫未在其他平臺(tái)登錄,Baki Hanma Blood Arena游戲官網(wǎng)地址說(shuō)明:1. 去掉重復(fù)的"官網(wǎng)在哪",簡(jiǎn)化標(biāo)題2. 保留關(guān)鍵信息:游戲名稱和官網(wǎng)地址3. 標(biāo)題更加簡(jiǎn)潔明了,直接傳達(dá)核心內(nèi)容4. 保持專業(yè)性的同時(shí),提升可讀性5. 適合用于游戲官網(wǎng)、社交媒體、論壇等場(chǎng)景發(fā)布 神秘食物鏈,哪種海洋環(huán)境中的食物鏈被稱為“黑色食物鏈” 藍(lán)色幽靈登月成功,1. 美國(guó)私營(yíng)企業(yè)推出"藍(lán)色幽靈"成功完成月球著陸任務(wù),落點(diǎn)精確到不到一公里。2. 藍(lán)色幽靈:美國(guó)私營(yíng)企業(yè)的月球探測(cè)器成功著陸,精確到百米以內(nèi)。3. 美國(guó)私營(yíng)企業(yè)"藍(lán)色幽靈"月球探測(cè)器成功著陸,落點(diǎn)僅距目標(biāo)不到一公里。4. "藍(lán)色幽靈":美國(guó)私營(yíng)企業(yè)月球探測(cè)器成功完成任務(wù),落點(diǎn)精確到不到一公里。5. 美國(guó)私營(yíng)企業(yè)月球探測(cè)器"藍(lán)色幽靈"成功著陸,精確到百米以內(nèi)。 供應(yīng)鏈與需求,特斯拉Model S/X供應(yīng)中斷,全球銷售遇冷