- 傳奇世家傳承,《飛刀又見(jiàn)飛刀》還玉公子俠客圖鑒
- 探索新手攻略,《逆水寒》玉石收集方法
- 武林風(fēng)云,《飛刀又見(jiàn)飛刀》大歡喜俠客圖鑒
- 掌控時(shí)機(jī),[波斯王子3]兩王子秒殺操作
- 爐石新動(dòng)態(tài),《爐石傳說(shuō)》takuotti亞服奇數(shù)賊登頂卡組
- 重要通知,《口袋妖怪復(fù)刻》請(qǐng)假王圖鑒介紹
- 揭示新體驗(yàn),[古墓麗影:傳奇]額外菜單說(shuō)明
- 揭開武俠世界的暗影,《飛刀又見(jiàn)飛刀》伊哭俠客圖鑒
- 了解更多信息,《口袋妖怪復(fù)刻》咕妞妞圖鑒介紹
- 探秘沙漠地圖,《絕地求生》 沙漠圖防空洞位置攻略
聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
背景介紹
近年來(lái),大語(yǔ)言模型(LLM)的快速發(fā)展正推動(dòng)人工智能技術(shù)不斷向前。像DeepSeek-R1這樣的模型憑借其強(qiáng)大的理解和生成能力,在對(duì)話生成、代碼編寫、知識(shí)問(wèn)答等多個(gè)領(lǐng)域展現(xiàn)出了卓越的性能。如今,LLM的應(yīng)用場(chǎng)景正在不斷拓展,催生了一類新型智能體——基于LLM的GUI智能體(GUI Agents)。這類智能體能夠像人類一樣,通過(guò)鼠標(biāo)、鍵盤與計(jì)算機(jī)或手機(jī)進(jìn)行交互操作。
2. AppAgent的解決方案
這類智能體不再依賴傳統(tǒng)的機(jī)器人流程自動(dòng)化(RPA)方式,即基于預(yù)定義規(guī)則和腳本執(zhí)行任務(wù)。相反,它們能夠通過(guò)自然語(yǔ)言理解用戶指令,并自主完成操作。例如,它們可以打開應(yīng)用、編輯文檔、瀏覽網(wǎng)頁(yè),甚至完成跨軟件的復(fù)雜任務(wù),無(wú)需開發(fā)者編寫繁瑣的自動(dòng)化腳本。與RPA相比,這類智能體的優(yōu)勢(shì)在于其靈活性和泛化能力,能夠適應(yīng)各種不同的任務(wù)場(chǎng)景。
3. 這一趨勢(shì)推動(dòng)AI助手的想象成為現(xiàn)實(shí)??苹秒娪爸械馁Z維斯(Jarvis)能夠理解自然語(yǔ)言并自主操作計(jì)算機(jī),而今天的LLM智能體正在逐步向這一方向發(fā)展。在企業(yè)領(lǐng)域,數(shù)字員工(Digital Workers)的應(yīng)用正逐漸普及,它們可以自動(dòng)完成數(shù)據(jù)錄入、報(bào)表生成、郵件回復(fù)等重復(fù)性任務(wù),從而提高生產(chǎn)力。此外,智能體還在推動(dòng)自動(dòng)化軟件測(cè)試、遠(yuǎn)程控制、智能辦公助手等領(lǐng)域的應(yīng)用,使人們能夠更自然地用語(yǔ)言指令控制計(jì)算機(jī)甚至整個(gè)企業(yè)IT系統(tǒng)。
4. 然而,目前的LLM智能體在實(shí)際應(yīng)用中仍面臨效率問(wèn)題?,F(xiàn)有方法依賴逐步推理,即每執(zhí)行一個(gè)操作前,模型都要“思考”下一步該做什么。例如,在執(zhí)行簡(jiǎn)單的搜索任務(wù)時(shí),智能體需要分別推理“點(diǎn)擊搜索框”→“輸入關(guān)鍵詞”→“點(diǎn)擊搜索按鈕”,即使是簡(jiǎn)單的步驟,也需要耗費(fèi)額外的計(jì)算資源。這種模式雖然提高了通用性,但在應(yīng)對(duì)大量重復(fù)性任務(wù)時(shí),效率卻遠(yuǎn)不及傳統(tǒng)的RPA解決方案。
5. 因此,一個(gè)關(guān)鍵問(wèn)題是:是否可以讓智能體既保留推理能力,靈活應(yīng)對(duì)新任務(wù),同時(shí)又能像RPA一樣高效執(zhí)行常見(jiàn)任務(wù)?
6. 為了解決這一問(wèn)題,西湖大學(xué)AGI實(shí)驗(yàn)室提出了一種進(jìn)化型GUI智能體框架——AppAgent X。這是AppAgent的最新版本,它讓LLM驅(qū)動(dòng)的智能體能夠從自身的操作經(jīng)驗(yàn)中學(xué)習(xí),不斷進(jìn)化更高效的行為模式。簡(jiǎn)單來(lái)說(shuō),AppAgent X通過(guò)識(shí)別重復(fù)性操作模式,將一系列低層級(jí)的操作自動(dòng)歸納為更高級(jí)的“一鍵”操作。例如,智能體可以學(xué)習(xí)到“搜索”這一任務(wù)模式,并將其抽象為一個(gè)高層級(jí)操作,無(wú)需每次都推理具體步驟。這意味著,智能體在使用過(guò)程中會(huì)變得越來(lái)越高效,越用越聰明。
7. 論文的第一作者是來(lái)自西湖大學(xué)的研究人員蔣文嘉,指導(dǎo)老師為西湖大學(xué)AGI實(shí)驗(yàn)室的負(fù)責(zé)人張馳助理教授。實(shí)驗(yàn)室的研究方向聚焦于生成式人工智能和多模態(tài)機(jī)器學(xué)習(xí)。
8. AppAgent X的功能示意圖
在大語(yǔ)言模型與屏幕進(jìn)行交互的過(guò)程中,核心任務(wù)包括AppAgent等智能體設(shè)計(jì)了一系列模仿人類的典型操作,如點(diǎn)擊、滑動(dòng)、輸入等。這些操作共同構(gòu)建了一個(gè)獨(dú)立于應(yīng)用程序的基本操作空間,用于模擬人類與智能手機(jī)界面的交互行為。
在持續(xù)的屏幕感知與動(dòng)作執(zhí)行的循環(huán)中,任務(wù)最終得以完成。
挑戰(zhàn):智能與效率的權(quán)衡
在基于大模型的GUI智能體中,一個(gè)關(guān)鍵難題是如何在智能決策與執(zhí)行效率之間實(shí)現(xiàn)良好的平衡。現(xiàn)有方法雖然借助大模型的強(qiáng)大推理能力,能夠理解界面并逐步規(guī)劃點(diǎn)擊、輸入、滑動(dòng)等操作,但這種分步推理的方式往往導(dǎo)致計(jì)算開銷大和執(zhí)行延遲。例如,在執(zhí)行一個(gè)簡(jiǎn)單的搜索任務(wù)時(shí),智能體可能需要依次推理“點(diǎn)擊搜索框、輸入關(guān)鍵詞、點(diǎn)擊搜索按鈕”等步驟,雖然確保了決策的準(zhǔn)確性,卻犧牲了執(zhí)行速度。
相比之下,傳統(tǒng)基于固定腳本的機(jī)器人流程自動(dòng)化(RPA)工具在執(zhí)行速度上具有顯著優(yōu)勢(shì),能夠高效完成預(yù)定義任務(wù)。然而,RPA的靈活性不足限制了其適應(yīng)復(fù)雜或未知界面的能力。在權(quán)衡智能性和效率性時(shí),如何實(shí)現(xiàn)二者的最佳結(jié)合,成為推動(dòng)該技術(shù)落地的重要課題。
4. 進(jìn)化機(jī)制下的AppAgentX
AppAgentX提出了一種具有進(jìn)化能力的GUI智能體框架,使其不僅能像人類一樣自主探索和理解界面,還能通過(guò)學(xué)習(xí)自身的歷史交互模式,逐步優(yōu)化執(zhí)行流程,實(shí)現(xiàn)智能性與效率性的最佳結(jié)合。
通過(guò)引入鏈?zhǔn)酱鎯?chǔ)機(jī)制和動(dòng)態(tài)匹配執(zhí)行機(jī)制,使得智能體能夠高效記憶、歸納并優(yōu)化自身的操作軌跡,從而在后續(xù)任務(wù)中復(fù)用高效的執(zhí)行策略,顯著減少重復(fù)推理,提高任務(wù)完成速度。
4.1 基于鏈?zhǔn)降拇鎯?chǔ)機(jī)制
研究者設(shè)計(jì)了一種鏈?zhǔn)街R(shí)存儲(chǔ)機(jī)制,用于記錄每次任務(wù)執(zhí)行時(shí)的完整交互流程。具體而言,智能體每次操作都會(huì)被存儲(chǔ)為一個(gè)“鏈”,其中包括:
基于歷史操作路徑,研究團(tuán)隊(duì)利用大模型挖掘出任務(wù)邏輯,并能自動(dòng)總結(jié)出頁(yè)面和交互元素的功能描述。舉例而言,智能體可以識(shí)別出"搜索框 + 確認(rèn)按鈕"這一典型模式,并將其作為高層次的語(yǔ)義單元記錄下來(lái)。因此,在遇到類似界面時(shí),智能體無(wú)需從零開始推理,而是可以直接調(diào)用已掌握的高效解決方案。
4.2 動(dòng)態(tài)匹配的執(zhí)行機(jī)制
基于存儲(chǔ)的交互鏈,AppAgentX 通過(guò)進(jìn)化機(jī)制自動(dòng)提煉出高效的執(zhí)行方式。當(dāng)智能體識(shí)別到某些操作模式具有固定的執(zhí)行順序時(shí)(例如,點(diǎn)擊搜索框 → 輸入內(nèi)容 → 提交搜索),它會(huì)動(dòng)態(tài)創(chuàng)建一個(gè)捷徑節(jié)點(diǎn)(shortcut node),將多個(gè)底層操作整合為一個(gè)更高級(jí)的動(dòng)作,從而減少不必要的推理和執(zhí)行時(shí)間。
3. 在后續(xù)任務(wù)中,智能體優(yōu)先匹配當(dāng)前界面與已有的鏈?zhǔn)酱鎯?chǔ)記錄,并判斷是否可以直接調(diào)用高級(jí)操作節(jié)點(diǎn)。如果匹配成功,智能體無(wú)需逐步推理所有低層操作,而是直接執(zhí)行優(yōu)化后的快捷路徑,從而提高任務(wù)執(zhí)行效率。對(duì)于未匹配到的任務(wù),智能體仍可基于基礎(chǔ)動(dòng)作空間進(jìn)行動(dòng)態(tài)推理,確保其智能性和靈活性不受影響。
4. 該機(jī)制的優(yōu)勢(shì)在于,它使智能體的推理能力和執(zhí)行效率能夠動(dòng)態(tài)調(diào)節(jié):
5. 結(jié)論與展望
隨著大語(yǔ)言模型(LLM)的快速發(fā)展,智能體正在逐步從簡(jiǎn)單的文本交互進(jìn)化為能夠直接操作操作系統(tǒng)和 GUI 界面的自主智能體。然而,現(xiàn)有方法在效率和執(zhí)行智能化之間存在權(quán)衡,導(dǎo)致 LLM 智能體在處理重復(fù)性任務(wù)時(shí)表現(xiàn)不夠高效。AppAgent X 提出了一種可進(jìn)化的 GUI 智能體框架,使智能體能夠通過(guò)自身的任務(wù)執(zhí)行經(jīng)驗(yàn)學(xué)習(xí),逐步形成更高效的操作策略。通過(guò)這一方法,AppAgent X 在保持 LLM 智能體的靈活性的同時(shí),實(shí)現(xiàn)了與 RPA 智能體的執(zhí)行效率相媲美,從而達(dá)到了高效、智能且無(wú)需后端訪問(wèn)的 GUI 操作。
6. 在實(shí)驗(yàn)中,AppAgent X 在多個(gè) GUI 交互任務(wù)上展現(xiàn)了顯著的效率提升,并優(yōu)于現(xiàn)有 SOTA 方法。其進(jìn)化能力使其能夠不斷優(yōu)化自身的操作流程,為未來(lái)的智能化人機(jī)交互奠定了新的基礎(chǔ)。
7. 展望未來(lái),GUI 智能體的進(jìn)化將是 LLM 智能體發(fā)展的重要方向之一。我們有理由相信,隨著 LLM 在推理能力上的持續(xù)進(jìn)步,智能體將能夠拓展至更復(fù)雜的應(yīng)用場(chǎng)景,進(jìn)一步推動(dòng)智能化人機(jī)交互的發(fā)展。
直擊直腸鏡手術(shù)前的劇烈疼痛,健康知識(shí):痔瘡患者做腸鏡檢查真的會(huì)很疼嗎? Star Craft Dive into the Craft Universe,1. Star Crafter游戲官方網(wǎng)站位置2. Star Crafter游戲官網(wǎng)地址 開放世界生存,玩Star Crafter的平臺(tái)推薦 挑戰(zhàn)競(jìng)技場(chǎng),《凜冬部落》競(jìng)技場(chǎng)攻略 強(qiáng)力武器操蟲棍,怪物獵人世界操蟲棍蓄力飛圓技巧全技巧教學(xué)攻略分享 如何區(qū)分痔瘡與直腸癌的血便——鮮艷紅的信號(hào),健康課:便血是痔瘡還是直腸癌?專家教你辨別或者:健康課:便血時(shí)別慌,別是直腸癌?專家來(lái)幫你判斷 天塹沙原-輕松捕獲,怪物獵人荒野獲取生肉方法介紹 荒野探索夜深人靜完美咬餌,入道烏賊釣法攻略 操蟲棍蓄力飛圓操作技巧,怪物獵人荒野操蟲棍蓄力飛圓技巧使用方法分享 Explore the Wilds,Star Crafter 官網(wǎng)地址在哪里?星戰(zhàn)克勞德游戲官網(wǎng)地址解析