- 奧迪Q5L價(jià)格震驚,奧迪Q5L降價(jià):豪華品牌價(jià)格體系崩塌
- 水果替代主食真的能美顏又減肥嗎,“水果代替三餐”美顏又減肥?不靠譜!
- 德式壓迫亞泰越位最多,謝暉:為亞泰爭(zhēng)取"德式標(biāo)簽" 保級(jí)目標(biāo)略勝去年
- 連對(duì)密碼,《瘋狂梗傳》百家姓6通關(guān)攻略
- 夏季飲食控油小妙招,夏季控油飲食攻略來了!控油人群必看!
- 特朗普政府巨浪費(fèi)暴,驚天數(shù)字!特朗普政府斥資800萬給老鼠變性,470萬改善亞洲教育,還有其他項(xiàng)目讓人難以啟齒
- 硬核增配版 | 捷途山海L7舒享版上市實(shí)名探店,捷途山海L7舒享版上市,售價(jià)14.98萬元起
- 質(zhì)突破等級(jí)提升,《叫我萬歲爺》資質(zhì)突破方法介紹
- 本菲卡的心態(tài)與實(shí)力,本菲卡主帥談巴薩戰(zhàn)事:目標(biāo)取得勝利并成功晉級(jí),球隊(duì)整體狀態(tài)出色
- 成功對(duì)接進(jìn)步MS-30貨運(yùn)飛船,俄羅斯“進(jìn)步MS-30”飛船與國(guó)際空間站對(duì)接
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
背景介紹
近年來,大語(yǔ)言模型(LLM)的快速發(fā)展正推動(dòng)人工智能技術(shù)不斷向前。像DeepSeek-R1這樣的模型憑借其強(qiáng)大的理解和生成能力,在對(duì)話生成、代碼編寫、知識(shí)問答等多個(gè)領(lǐng)域展現(xiàn)出了卓越的性能。如今,LLM的應(yīng)用場(chǎng)景正在不斷拓展,催生了一類新型智能體——基于LLM的GUI智能體(GUI Agents)。這類智能體能夠像人類一樣,通過鼠標(biāo)、鍵盤與計(jì)算機(jī)或手機(jī)進(jìn)行交互操作。
2. AppAgent的解決方案
這類智能體不再依賴傳統(tǒng)的機(jī)器人流程自動(dòng)化(RPA)方式,即基于預(yù)定義規(guī)則和腳本執(zhí)行任務(wù)。相反,它們能夠通過自然語(yǔ)言理解用戶指令,并自主完成操作。例如,它們可以打開應(yīng)用、編輯文檔、瀏覽網(wǎng)頁(yè),甚至完成跨軟件的復(fù)雜任務(wù),無需開發(fā)者編寫繁瑣的自動(dòng)化腳本。與RPA相比,這類智能體的優(yōu)勢(shì)在于其靈活性和泛化能力,能夠適應(yīng)各種不同的任務(wù)場(chǎng)景。
3. 這一趨勢(shì)推動(dòng)AI助手的想象成為現(xiàn)實(shí)??苹秒娪爸械馁Z維斯(Jarvis)能夠理解自然語(yǔ)言并自主操作計(jì)算機(jī),而今天的LLM智能體正在逐步向這一方向發(fā)展。在企業(yè)領(lǐng)域,數(shù)字員工(Digital Workers)的應(yīng)用正逐漸普及,它們可以自動(dòng)完成數(shù)據(jù)錄入、報(bào)表生成、郵件回復(fù)等重復(fù)性任務(wù),從而提高生產(chǎn)力。此外,智能體還在推動(dòng)自動(dòng)化軟件測(cè)試、遠(yuǎn)程控制、智能辦公助手等領(lǐng)域的應(yīng)用,使人們能夠更自然地用語(yǔ)言指令控制計(jì)算機(jī)甚至整個(gè)企業(yè)IT系統(tǒng)。
4. 然而,目前的LLM智能體在實(shí)際應(yīng)用中仍面臨效率問題?,F(xiàn)有方法依賴逐步推理,即每執(zhí)行一個(gè)操作前,模型都要“思考”下一步該做什么。例如,在執(zhí)行簡(jiǎn)單的搜索任務(wù)時(shí),智能體需要分別推理“點(diǎn)擊搜索框”→“輸入關(guān)鍵詞”→“點(diǎn)擊搜索按鈕”,即使是簡(jiǎn)單的步驟,也需要耗費(fèi)額外的計(jì)算資源。這種模式雖然提高了通用性,但在應(yīng)對(duì)大量重復(fù)性任務(wù)時(shí),效率卻遠(yuǎn)不及傳統(tǒng)的RPA解決方案。
5. 因此,一個(gè)關(guān)鍵問題是:是否可以讓智能體既保留推理能力,靈活應(yīng)對(duì)新任務(wù),同時(shí)又能像RPA一樣高效執(zhí)行常見任務(wù)?
6. 為了解決這一問題,西湖大學(xué)AGI實(shí)驗(yàn)室提出了一種進(jìn)化型GUI智能體框架——AppAgent X。這是AppAgent的最新版本,它讓LLM驅(qū)動(dòng)的智能體能夠從自身的操作經(jīng)驗(yàn)中學(xué)習(xí),不斷進(jìn)化更高效的行為模式。簡(jiǎn)單來說,AppAgent X通過識(shí)別重復(fù)性操作模式,將一系列低層級(jí)的操作自動(dòng)歸納為更高級(jí)的“一鍵”操作。例如,智能體可以學(xué)習(xí)到“搜索”這一任務(wù)模式,并將其抽象為一個(gè)高層級(jí)操作,無需每次都推理具體步驟。這意味著,智能體在使用過程中會(huì)變得越來越高效,越用越聰明。
7. 論文的第一作者是來自西湖大學(xué)的研究人員蔣文嘉,指導(dǎo)老師為西湖大學(xué)AGI實(shí)驗(yàn)室的負(fù)責(zé)人張馳助理教授。實(shí)驗(yàn)室的研究方向聚焦于生成式人工智能和多模態(tài)機(jī)器學(xué)習(xí)。
8. AppAgent X的功能示意圖
在大語(yǔ)言模型與屏幕進(jìn)行交互的過程中,核心任務(wù)包括AppAgent等智能體設(shè)計(jì)了一系列模仿人類的典型操作,如點(diǎn)擊、滑動(dòng)、輸入等。這些操作共同構(gòu)建了一個(gè)獨(dú)立于應(yīng)用程序的基本操作空間,用于模擬人類與智能手機(jī)界面的交互行為。
在持續(xù)的屏幕感知與動(dòng)作執(zhí)行的循環(huán)中,任務(wù)最終得以完成。
挑戰(zhàn):智能與效率的權(quán)衡
在基于大模型的GUI智能體中,一個(gè)關(guān)鍵難題是如何在智能決策與執(zhí)行效率之間實(shí)現(xiàn)良好的平衡?,F(xiàn)有方法雖然借助大模型的強(qiáng)大推理能力,能夠理解界面并逐步規(guī)劃點(diǎn)擊、輸入、滑動(dòng)等操作,但這種分步推理的方式往往導(dǎo)致計(jì)算開銷大和執(zhí)行延遲。例如,在執(zhí)行一個(gè)簡(jiǎn)單的搜索任務(wù)時(shí),智能體可能需要依次推理“點(diǎn)擊搜索框、輸入關(guān)鍵詞、點(diǎn)擊搜索按鈕”等步驟,雖然確保了決策的準(zhǔn)確性,卻犧牲了執(zhí)行速度。
相比之下,傳統(tǒng)基于固定腳本的機(jī)器人流程自動(dòng)化(RPA)工具在執(zhí)行速度上具有顯著優(yōu)勢(shì),能夠高效完成預(yù)定義任務(wù)。然而,RPA的靈活性不足限制了其適應(yīng)復(fù)雜或未知界面的能力。在權(quán)衡智能性和效率性時(shí),如何實(shí)現(xiàn)二者的最佳結(jié)合,成為推動(dòng)該技術(shù)落地的重要課題。
4. 進(jìn)化機(jī)制下的AppAgentX
AppAgentX提出了一種具有進(jìn)化能力的GUI智能體框架,使其不僅能像人類一樣自主探索和理解界面,還能通過學(xué)習(xí)自身的歷史交互模式,逐步優(yōu)化執(zhí)行流程,實(shí)現(xiàn)智能性與效率性的最佳結(jié)合。
通過引入鏈?zhǔn)酱鎯?chǔ)機(jī)制和動(dòng)態(tài)匹配執(zhí)行機(jī)制,使得智能體能夠高效記憶、歸納并優(yōu)化自身的操作軌跡,從而在后續(xù)任務(wù)中復(fù)用高效的執(zhí)行策略,顯著減少重復(fù)推理,提高任務(wù)完成速度。
4.1 基于鏈?zhǔn)降拇鎯?chǔ)機(jī)制
研究者設(shè)計(jì)了一種鏈?zhǔn)街R(shí)存儲(chǔ)機(jī)制,用于記錄每次任務(wù)執(zhí)行時(shí)的完整交互流程。具體而言,智能體每次操作都會(huì)被存儲(chǔ)為一個(gè)“鏈”,其中包括:
基于歷史操作路徑,研究團(tuán)隊(duì)利用大模型挖掘出任務(wù)邏輯,并能自動(dòng)總結(jié)出頁(yè)面和交互元素的功能描述。舉例而言,智能體可以識(shí)別出"搜索框 + 確認(rèn)按鈕"這一典型模式,并將其作為高層次的語(yǔ)義單元記錄下來。因此,在遇到類似界面時(shí),智能體無需從零開始推理,而是可以直接調(diào)用已掌握的高效解決方案。
4.2 動(dòng)態(tài)匹配的執(zhí)行機(jī)制
基于存儲(chǔ)的交互鏈,AppAgentX 通過進(jìn)化機(jī)制自動(dòng)提煉出高效的執(zhí)行方式。當(dāng)智能體識(shí)別到某些操作模式具有固定的執(zhí)行順序時(shí)(例如,點(diǎn)擊搜索框 → 輸入內(nèi)容 → 提交搜索),它會(huì)動(dòng)態(tài)創(chuàng)建一個(gè)捷徑節(jié)點(diǎn)(shortcut node),將多個(gè)底層操作整合為一個(gè)更高級(jí)的動(dòng)作,從而減少不必要的推理和執(zhí)行時(shí)間。
3. 在后續(xù)任務(wù)中,智能體優(yōu)先匹配當(dāng)前界面與已有的鏈?zhǔn)酱鎯?chǔ)記錄,并判斷是否可以直接調(diào)用高級(jí)操作節(jié)點(diǎn)。如果匹配成功,智能體無需逐步推理所有低層操作,而是直接執(zhí)行優(yōu)化后的快捷路徑,從而提高任務(wù)執(zhí)行效率。對(duì)于未匹配到的任務(wù),智能體仍可基于基礎(chǔ)動(dòng)作空間進(jìn)行動(dòng)態(tài)推理,確保其智能性和靈活性不受影響。
4. 該機(jī)制的優(yōu)勢(shì)在于,它使智能體的推理能力和執(zhí)行效率能夠動(dòng)態(tài)調(diào)節(jié):
5. 結(jié)論與展望
隨著大語(yǔ)言模型(LLM)的快速發(fā)展,智能體正在逐步從簡(jiǎn)單的文本交互進(jìn)化為能夠直接操作操作系統(tǒng)和 GUI 界面的自主智能體。然而,現(xiàn)有方法在效率和執(zhí)行智能化之間存在權(quán)衡,導(dǎo)致 LLM 智能體在處理重復(fù)性任務(wù)時(shí)表現(xiàn)不夠高效。AppAgent X 提出了一種可進(jìn)化的 GUI 智能體框架,使智能體能夠通過自身的任務(wù)執(zhí)行經(jīng)驗(yàn)學(xué)習(xí),逐步形成更高效的操作策略。通過這一方法,AppAgent X 在保持 LLM 智能體的靈活性的同時(shí),實(shí)現(xiàn)了與 RPA 智能體的執(zhí)行效率相媲美,從而達(dá)到了高效、智能且無需后端訪問的 GUI 操作。
6. 在實(shí)驗(yàn)中,AppAgent X 在多個(gè) GUI 交互任務(wù)上展現(xiàn)了顯著的效率提升,并優(yōu)于現(xiàn)有 SOTA 方法。其進(jìn)化能力使其能夠不斷優(yōu)化自身的操作流程,為未來的智能化人機(jī)交互奠定了新的基礎(chǔ)。
7. 展望未來,GUI 智能體的進(jìn)化將是 LLM 智能體發(fā)展的重要方向之一。我們有理由相信,隨著 LLM 在推理能力上的持續(xù)進(jìn)步,智能體將能夠拓展至更復(fù)雜的應(yīng)用場(chǎng)景,進(jìn)一步推動(dòng)智能化人機(jī)交互的發(fā)展。
刮刮卡獲取攻略,《天天闖關(guān)》刮刮卡獲取方法作用 家庭操作之手,李飛飛團(tuán)隊(duì)具身AI最新研究:全自動(dòng)化家務(wù)服務(wù)或李飛飛團(tuán)隊(duì)具身AI研究:機(jī)器人全接手家務(wù)這兩者都保持了原意,但更簡(jiǎn)潔明了。 零跑三年從虧損到盈利,零跑盈利,給誰上了一課? 長(zhǎng)按隱藏技能全解析,《絕區(qū)零》隱藏技能玩法介紹一覽 上海故事,《蒼山》:冷淡的佳片,郭柯宇帶來教科書級(jí)的演技表現(xiàn) 洛克王國(guó)世界全解析,《洛克王國(guó):世界》氪金點(diǎn)一覽 巴克利與帕金斯的NBA爭(zhēng)論,ESPN聊湖人?A-史密斯:巴克利不懂觀眾興趣所在 鼠咬傷處理指南,被鼠類咬傷需接種哪些疫苗? 猴子咬傷快速處理生命安全,致死率70%!被猴子咬傷需警惕猴B病毒 每日挑戰(zhàn)公會(huì)和魔塊系統(tǒng)探索,《天天闖關(guān)》公會(huì)和魔塊系統(tǒng)攻略