- 深入探索,《鋼鐵巨炮》法國(guó)-索瑪S35圖鑒介紹
- 揭開歷史英雄的帷幕,《鋼鐵巨炮》英國(guó)-霍伯特圖鑒介紹
- 揭秘裝甲傳奇,《鋼鐵巨炮》德國(guó)-黑豹G型圖鑒介紹
- 探索奇遇之旅,《古劍奇譚》全成就制霸詳細(xì)攻略
- 深入解析,《鋼鐵巨炮》法國(guó)-AMX M4圖鑒介紹
- 揭開傳奇指揮官的面紗,《鋼鐵巨炮》英國(guó)-亞歷山大圖鑒介紹
- 揭秘軍事傳奇,《鋼鐵巨炮》丘吉爾MK.VII圖鑒
- 深入探索偉大將領(lǐng)的傳奇旅程,《鋼鐵巨炮》蘇聯(lián)-瓦杜丁圖鑒介紹
- 揭秘戰(zhàn)斗雄獅的秘密,《鋼鐵巨炮》蘇聯(lián)-KV-2圖鑒介紹
- 深入探索精英指揮官,《鋼鐵巨炮》美國(guó)-德弗斯圖鑒介紹
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
在2025年移動(dòng)世界通信大會(huì)MWC上,我們見證了榮耀與訂餐訂位產(chǎn)品OpenTable的一次創(chuàng)新演示:用戶通過語音命令手機(jī)AI助手,輕松找到一家西班牙餐館并預(yù)訂一個(gè)位子。隨后,手機(jī)屏幕被“接管”,用戶開始獨(dú)立操作。
這一MWC展示實(shí)際上與榮耀去年在Magic 7 Pro發(fā)布會(huì)上策劃的“行為藝術(shù)”項(xiàng)目完全相同。
2025年深圳發(fā)布會(huì)上,時(shí)任榮耀CEO的趙明親自指揮AI代理YOYO操作美團(tuán)。他沒有動(dòng)手,而是YOYO在屏幕上主動(dòng)點(diǎn)選,為一家店點(diǎn)了數(shù)百杯飲料,完成支付后循環(huán)操作,直至最終下單2000杯。整個(gè)過程流暢自然,令人驚嘆。
盡管YOYO的操作看似荒誕,但它在場(chǎng)上的效果卻非常顯著。瑞幸咖啡門店因此出現(xiàn)訂單激增,咖啡師忙得不可開交,訂單騎手甚至要在門店排隊(duì)取餐,場(chǎng)面一度十分混亂。
這次以荒誕效果著稱的事件營(yíng)銷,一定程度上掩蓋了榮耀試圖展示的核心技術(shù)——基于GUI的個(gè)人AI智能體。
如今,AI代理功能已不新鮮,關(guān)鍵點(diǎn)就在于“GUI”這個(gè)關(guān)鍵術(shù)語。
GUI全稱圖形用戶界面。基于GUI的AI代理YOYO不再依賴傳統(tǒng)的API接口,而是擁有一只“虛擬的手”,可以直接在圖形界面進(jìn)行操作。整個(gè)操作過程實(shí)時(shí)發(fā)生,不在“后臺(tái)”,而是直接在“前臺(tái)”呈現(xiàn)。
視頻鏈接:https://s3.ifanr.com/wp-content/uploads/2025/03/10_1741061984.mp4
需要澄清的是,Magic 7 Pro市售機(jī)型的用戶體驗(yàn)與發(fā)布會(huì)演示存在差異。據(jù)財(cái)聯(lián)社報(bào)道,現(xiàn)場(chǎng)演示使用的是測(cè)試機(jī),具備更高的權(quán)限,能夠自動(dòng)免密支付和循環(huán)點(diǎn)單,從而連續(xù)點(diǎn)了2000杯飲料。而市售機(jī)型則需要用戶明確告知點(diǎn)單細(xì)節(jié)(如品牌、品名、杯型、溫度等),并且在支付環(huán)節(jié)需要用戶確認(rèn)。
這個(gè)細(xì)節(jié)雖然重要,但也不至于抹殺這項(xiàng)技術(shù)的意義。相反,我們認(rèn)為,“基于GUI”的實(shí)現(xiàn)路徑具有試驗(yàn)性,非常有趣,是AI代理技術(shù)的一種另類表現(xiàn)形式。
探索AI驅(qū)動(dòng)的界面交互新路徑
榮耀YOYO的創(chuàng)新核心在于其多模態(tài)處理能力,將語言理解與視覺識(shí)別完美結(jié)合。
在缺乏官方細(xì)節(jié)的情況下,我們推測(cè)該技術(shù)通過獲取設(shè)備的底層無障礙功能來實(shí)現(xiàn)這一操作。
雖然這項(xiàng)最后一步看似簡(jiǎn)單,但要實(shí)現(xiàn)規(guī)?;瘧?yīng)用,開發(fā)者需要投入大量時(shí)間和資源,同時(shí)獲得用戶對(duì)第三方應(yīng)用接入的授權(quán)。
過去,這類交互多依賴于API調(diào)用和物聯(lián)網(wǎng)協(xié)議,屬于典型的數(shù)字通信方式。
谷歌在三星旗艦機(jī)型上率先推出了基于Gemini 2.0的智能代理功能,這一合作采用了與傳統(tǒng)API調(diào)用類似的接口擴(kuò)展方式,目前僅支持 Gmail、Google Maps、SAMSUNG日歷、SAMSUNG時(shí)鐘等官方應(yīng)用,以及少量第三方應(yīng)用如Spotify。
對(duì)比之下,采用圖形界面驅(qū)動(dòng)的交互方式,能夠規(guī)避繁瑣的API調(diào)用流程,從而更靈活地?cái)U(kuò)展支持的應(yīng)用場(chǎng)景,提升用戶體驗(yàn)。
成本問題同樣不容忽視。一方面,云服務(wù)費(fèi)用會(huì)隨著調(diào)用規(guī)模擴(kuò)大而成倍增加;另一方面,數(shù)據(jù)交換的價(jià)值也直接影響著API的服務(wù)費(fèi)用。
盡管這一模式在初期具有一定的技術(shù)門檻,但隨著技術(shù)的進(jìn)步和成本控制的優(yōu)化,其應(yīng)用前景將更加廣闊。
需要注意的是,盡管API調(diào)用模式在數(shù)據(jù)價(jià)值和成本控制方面具有優(yōu)勢(shì),但其背后復(fù)雜的商業(yè)博弈和數(shù)據(jù)依賴關(guān)系,也使得這一模式在靈活性和擴(kuò)展性方面顯得稍顯不足。
以美團(tuán)為例,其基礎(chǔ)服務(wù)API的調(diào)用成本為每百次0.15元(前百萬次免費(fèi))。這類基礎(chǔ)服務(wù)API的調(diào)用成本相對(duì)較低,但在需要更高價(jià)值的管理類API時(shí),調(diào)用成本將提升至每百次0.3元,并取消免費(fèi)額度。
API的使用不僅涉及顯性的費(fèi)用支出,還暗含著數(shù)據(jù)交換的雙向性。調(diào)用方獲取了數(shù)據(jù),而數(shù)據(jù)的提供方也向調(diào)用方發(fā)送了信息。在特定條件下,雙方可能會(huì)擔(dān)心資源分配的問題,避免「肥水外流」的現(xiàn)象。
基于圖形用戶界面(GUI)的解決方案中,榮耀方無需承擔(dān)API費(fèi)用,數(shù)據(jù)歸屬和隱私安全等問題也無需擔(dān)心,技術(shù)路徑更加直接。
AI Agent的交互方式雖然簡(jiǎn)單,卻十分原始,但其效率和便利性是顯而易見的。
這種回歸模擬的技術(shù)路徑,可以類比谷歌在2018年推出的AI語音助手Duplex。
Duplex的創(chuàng)新之處在于,它將AI語音與電話交互結(jié)合,模仿人類與餐館通話的過程。這種合成語音不僅自然流暢,還能夠模仿真實(shí)的口音和語氣,甚至加入常見的填充詞如「嗯」和「you know」。
Duplex的技術(shù)演示視頻來源于谷歌。
盡管如今AI生成語音已經(jīng)徹底改變了電話和客服行業(yè),讓人們感到不便,但Duplex提出的「數(shù)字到模擬的轉(zhuǎn)變」方式在當(dāng)時(shí)仍令人耳目一新。
目前榮耀正在推進(jìn)的基于GUI的AI Agent,同樣是一種數(shù)字到模擬的轉(zhuǎn)變,通過原始與先進(jìn)的結(jié)合,開創(chuàng)了全新的交互可能性。
我認(rèn)為榮耀的這一方案在技術(shù)思路上也實(shí)現(xiàn)了類似的轉(zhuǎn)變,為AI與人類交互方式的創(chuàng)新提供了新思路。
基于 GUI 并不是實(shí)現(xiàn)手機(jī) AI Agent 的最佳路徑,但不可否認(rèn)它確實(shí)很有趣,甚至有點(diǎn)「硬碰硬」的意思。
基于 GUI 的 AI Agent,對(duì)傳統(tǒng)人機(jī)交互是一種致敬,同時(shí)也為 AI Agent 的落地和體驗(yàn)提升,提供了降低門檻、提高兼容性的路徑。
有時(shí)候,最順手的工具,真就只是一根干凈利落的大棒。
大模型與人機(jī)交互的結(jié)合,笨 AI 未來可期
在今天用戶的主要需求場(chǎng)景上,有兩種 AI Agent。一種是高智商型,能夠解答復(fù)雜問題,完成困難的工作,比如 DeepSeek、Claude、以及前幾天大熱門的 Manus。這也是現(xiàn)在最受關(guān)注的 AI Agent/Chatbot 種類。
但我們同樣需要另一種「懂事能干」的 AI Agent,它對(duì)用戶的使用技巧沒有很高的門檻,用戶只需輸入一兩句簡(jiǎn)單直白的命令,它就能理解,并且把各種并不復(fù)雜的事給辦好。
今天可以點(diǎn)外賣,將來它還能夠幫你掛機(jī)放置類游戲,好友的朋友圈點(diǎn)贊,甚至自動(dòng)把剛拍下的一張照片修改一下發(fā)到社交網(wǎng)絡(luò)。只要是用戶能做的,基于 GUI 的 AI Agent 一樣能做。低門檻、上限高、適應(yīng)性強(qiáng)、用起來順手,可能是這一類 AI Agent 的主要特色。
這類選手不需要成為理解世界的大學(xué)者,只當(dāng)好執(zhí)行任務(wù)的工具人就足夠了。
2013 年的電影《云端情人》(Her),曾經(jīng)賦予人們無限的遐想。當(dāng)時(shí)也正值 NLP 技術(shù)大爆發(fā),許多優(yōu)秀的語音場(chǎng)景產(chǎn)品和技術(shù)涌現(xiàn)出來。一些研究者和從業(yè)者篤信,自然語言對(duì)話將會(huì)成為 AI 交流的最主流方式。
然而去年曇花一現(xiàn)的硬件產(chǎn)品 AI Pin,以及開發(fā)它的 Humane 公司越走越黑的路,不禁讓人懷疑《云端情人》設(shè)想的烏托邦是否那般美好,語音究竟是不是 Chatbot/Agent 的終極答案。
▲AI 人本圖譜 圖源:人道科技
進(jìn)入智能時(shí)代,人機(jī)交互的門檻大幅降低,以至于連幼年孩童也能夠輕而易舉地掌握。按照AI開發(fā)者常使用的比喻,大模型的"認(rèn)知模式"恰如幼年般的認(rèn)知模式。那么讓AI通過觸屏界面學(xué)習(xí)人類行為,聽起來還是很有希望的。
實(shí)際上,你的伴侶或許不需要一首AI創(chuàng)作的詩,但卻可能需要你輕點(diǎn)屏幕,搶購(gòu)一張周杰倫的演唱會(huì)門票。
前幾天,Manus刷屏的現(xiàn)象再次印證了我們此前的一個(gè)預(yù)測(cè):大模型將成為智能手機(jī)的新一統(tǒng)操作平臺(tái),自然人機(jī)交互界面(NUI)將逐步取代傳統(tǒng)的圖形用戶界面(GUI)。
至少就目前情況來看,經(jīng)過半個(gè)世紀(jì)的發(fā)展,GUI仍是人機(jī)交互的絕對(duì)主流。不過,大模型與人機(jī)交互的結(jié)合,將對(duì)人機(jī)交互進(jìn)行前所未有的重新定義,甚至將人機(jī)交互重新構(gòu)建成一種新的操作系統(tǒng)——這樣的未來,的確越來越清晰了。
搞笑表情,《就我眼神好》補(bǔ)全表情排行榜通關(guān)攻略 2024年度全國(guó)政協(xié)優(yōu)秀委員風(fēng)采,英雄祁發(fā)寶,再獲榮譽(yù) 烏克蘭是否需要選舉,特朗普?qǐng)F(tuán)隊(duì)與烏克蘭反對(duì)派會(huì)談,馬斯克呼吁澤連斯基選舉失敗 探索星系角色冒險(xiǎn)升級(jí),《交錯(cuò)戰(zhàn)線》技能升級(jí)方法一覽 《就我眼神好》拍照小技巧合集,《以眼養(yǎng)顏》奶茶店拍照技巧完美出鏡指南 Type-C來了,"一次搭建勝過一億次編碼,MCP在硅谷大熱!Anthropic協(xié)議解鎖智能體「全能能力」" 逆轉(zhuǎn)決心突破,韓國(guó)法院批準(zhǔn)釋放尹錫悅 停援助烏克蘭,美國(guó)停止對(duì)烏援助,將帶來什么? 機(jī)器人產(chǎn)業(yè)發(fā)展新突破,何小鵬新總部啟動(dòng),小鵬汽車8月布局飛行汽車與機(jī)器人業(yè)務(wù) 美方重啟談判俄羅斯參與重大進(jìn)展,美國(guó)國(guó)務(wù)卿稱烏克蘭準(zhǔn)備實(shí)現(xiàn)?;鸩⒒謴?fù)談判,俄羅斯可能參與