- 角色進(jìn)階指南,《地下城與勇士:起源》女鬼劍轉(zhuǎn)職推薦
- 新手玩家必備指南,《天啟行動(dòng)》新手武器推薦
- 探秘指南,《原神》煅石之輪火之印供奉位置攻略
- 《老婆們大戰(zhàn)牛頭人》禁忌之地boss地獄領(lǐng)主-炎獄打法攻略
- 探索游戲策略,《刃境》體力使用推薦
- 游戲攻略揭秘,《原神》納塔通行證獲取方法
- 夏末奇幻活動(dòng)揭幕,《sky光遇》夏末魔法贈(zèng)禮活動(dòng)介紹
- 《老婆們大戰(zhàn)牛頭人》禁忌之地boss眾神之父-克洛諾斯打法攻略
- 游戲攻略揭秘之旅,《原神》靈璧的洞窟進(jìn)入方法
- 玩家必看,《絕區(qū)零》青衣驅(qū)動(dòng)搭配方案一覽
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
本文來源:時(shí)代財(cái)經(jīng) 作者:龐宇
"開源永存",這是MetaGPT研究員、OpenManus合作者向勁宇在面向時(shí)代財(cái)經(jīng)等媒體的分享中所作的總結(jié)。
最近一周,全球首款通用AI智能體——Manus引發(fā)廣泛關(guān)注,成為科技圈持續(xù)熱議的話題。
在Manus的開源替代方案方面, emergence of such alternatives is rapid. 僅在三天內(nèi),國內(nèi)初創(chuàng)公司DeepWisdom的MetaGPT團(tuán)隊(duì)便利用開源框架成功復(fù)制出了OpenManus;開源社區(qū)CAMEL-AI團(tuán)隊(duì)也以零天時(shí)間復(fù)制出了Manus通用智能體OWL。這種持續(xù)涌現(xiàn)的復(fù)刻現(xiàn)象似乎也傳遞了一個(gè)明確的信息:智能體Agent的準(zhǔn)入門檻并非不可逾越。
但Manus的"護(hù)城河"究竟有多深?Agent賽道的終極競爭力又是什么?業(yè)內(nèi)普遍認(rèn)為2025年有望成為AI Agent爆發(fā)元年,這個(gè)賽道還有哪些未解難題?
近日,OpenManus核心作者向時(shí)代財(cái)經(jīng)等媒體分享了其中的故事,并闡述了他們對Agent的理解。
僅用三天時(shí)間復(fù)制Manus,00后擔(dān)當(dāng)主角
Manus發(fā)布當(dāng)晚,向勁宇感受到身邊的人都很興奮,"大多數(shù)人的興奮似乎來自于AI能夠使用電腦。"
但在他的看法中,這樣的功能在業(yè)內(nèi)并不算稀奇。
"例如,在我們2024年的開源項(xiàng)目Data Interpreter中已經(jīng)有了規(guī)劃能力的實(shí)現(xiàn);而Computer Use和Browser Use等功能則在OpenHands(此前名為OpenDevin,一個(gè)由AI提供支持的軟件開發(fā)代理平臺)以及智譜AutoGLM等多個(gè)項(xiàng)目中已經(jīng)實(shí)現(xiàn)。"向勁宇表示。
在僅一個(gè)試用版本的實(shí)現(xiàn)階段,他判斷“嘗試”將其開源版本提供給他人,“應(yīng)該不難”。
MetaGPT研究員梁新兵和OpenManus核心作者張佳釔等“及時(shí)響應(yīng)”,并“立即”對Manus進(jìn)行全面技術(shù)調(diào)研。當(dāng)天晚上下班后,與團(tuán)隊(duì)討論產(chǎn)品形態(tài)和技術(shù)路線,決定“加班加點(diǎn)”盡快發(fā)布開源版本。
在“僅用約3小時(shí)”后,“大概(晚上)11點(diǎn)左右”,團(tuán)隊(duì)將第一個(gè)版本合并并發(fā)布到GitHub。
項(xiàng)目發(fā)布不到1天,已收獲“超過7000顆”GitHub星星。“當(dāng)時(shí)沒有想到OpenManus會(huì)引發(fā)如此大的關(guān)注?!?/p>
梁新兵曾就讀于華東師范大學(xué),擁有豐富的AI開發(fā)經(jīng)驗(yàn),尤其在Data Interpreter等AI Agent項(xiàng)目上有手頭的工作。向勁宇則來自西南交通大學(xué)應(yīng)用物理系,大四期間與隊(duì)友共同開發(fā)了基于GPT-4和Claude 3的多智能體方案,獲得了阿里巴巴數(shù)學(xué)競賽AI賽道的亞軍。兩人均為00后,已在2024年7月加入MetaGPT團(tuán)隊(duì)。
項(xiàng)目引發(fā)的討論至今仍讓團(tuán)隊(duì)感到“難以置信”。
在發(fā)酵一天后,“早上十點(diǎn)半突然收到大量添加好友”,向勁宇意識到項(xiàng)目可能“爆火”。他試圖休息,但無法入睡,拿起手機(jī)卻發(fā)現(xiàn)消息“來不及回”。
Manus是一款基于大語言模型的AI Agent,其核心技術(shù)包含規(guī)劃(Planning)、記憶(Memory)、工具調(diào)用(Tools)等模塊,用于解決任務(wù)邏輯連貫性問題,完成跨系統(tǒng)任務(wù)。
MetaGPT團(tuán)隊(duì)對Manus的技術(shù)架構(gòu)進(jìn)行了深入解構(gòu),認(rèn)為其是一個(gè)多智能體系統(tǒng),采用基于規(guī)劃工具的線性計(jì)劃方法,動(dòng)態(tài)分配任務(wù)給不同Agent,每個(gè)任務(wù)均采用ReAct循環(huán)模式調(diào)用工具。
團(tuán)隊(duì)是如何在3小時(shí)內(nèi)復(fù)刻Manus的技術(shù)架構(gòu)的?
向勁宇認(rèn)為,一個(gè)簡潔的Agent框架應(yīng)該由可更換的工具和提示詞整合而成?;谶@個(gè)思路,他們開發(fā)了一個(gè)完整的Agent小型框架。
據(jù)了解,決定ReAct Agent效果的關(guān)鍵因素是提示詞的引導(dǎo)作用和工具的使用。在OpenManus中,提示詞主導(dǎo)了Agent的整體行為邏輯,而工具則定義了其行動(dòng)范圍,兩者一旦設(shè)定,就能完整地詮釋一個(gè)ReAct Agent。
"可更換的優(yōu)點(diǎn)是可以整合不同場景下的工具,這樣我就能創(chuàng)造出一個(gè)全新的Agent。定義起來也很方便,不需要單獨(dú)編寫內(nèi)部邏輯,只需要調(diào)整工具空間(Tools)即可。"
在他的觀點(diǎn)中,"我們的工作是讓抽象變得更簡潔。通過提供豐富的工具集合,讓各種Agent能夠靈活地通過裝備工具集來擴(kuò)展在不同場景下的能力。"
其中,規(guī)劃能力尤為重要。因此,OpenManus繼承了Manus在規(guī)劃方面的優(yōu)勢,通過 Planning Tool 實(shí)現(xiàn)任務(wù)分解,從而能夠有效處理現(xiàn)實(shí)世界中的復(fù)雜情況。
討論OpenManus的未來工作時(shí),梁新兵表示,接下來將從增強(qiáng) Planning 能力、引入標(biāo)準(zhǔn)化評測、拓展模型適配(從Claude-3-5擴(kuò)展到DeepSeek V2.5)、實(shí)現(xiàn)容器化部署等多個(gè)方面來提升OpenManus的效果。
OpenManus是否有可能超越Manus?
"Manus的產(chǎn)品交互體驗(yàn)很好,有很多技術(shù)值得借鑒。目前OpenManus的效果還比較有限,我們還沒有單獨(dú)優(yōu)化效果。OpenManus的前期目標(biāo)是達(dá)到原始Manus的相同效果,后續(xù)將依靠龐大的開源社區(qū)不斷優(yōu)化,希望能為OpenManus帶來更高的智能涌現(xiàn)。"
Manus的"護(hù)城河"有多深?
根據(jù)Manus官方網(wǎng)站的介紹,Manus能夠快速操作,一鍵幫助用戶完成旅行規(guī)劃、股票分析、制作PPT、財(cái)報(bào)分析等任務(wù),涵蓋研究、生活、數(shù)據(jù)分析、教育、生產(chǎn)效率等多個(gè)領(lǐng)域。
在官方發(fā)布的視頻中,Manus的表現(xiàn)令人驚嘆,他能夠從規(guī)劃到執(zhí)行完成整個(gè)流程。舉例來說,在分析特斯拉股票的任務(wù)中,Manus只需45秒即可實(shí)現(xiàn)"數(shù)據(jù)抓取→建模→報(bào)告生成"的全流程操作。
簡而言之,用戶只需提供簡單的提示指令,經(jīng)過一定時(shí)間后,就能獲得一個(gè)完美的成品交付。
然而,MetaGPT團(tuán)隊(duì)僅需5人3小時(shí),便通過開源框架復(fù)刻了OpenManus;開源社區(qū)CAMEL-AI團(tuán)隊(duì)也實(shí)現(xiàn)了"0天復(fù)刻",推出了OWL并開源了部分模塊。這些努力讓"Manus缺乏技術(shù)壁壘"的質(zhì)疑聲不斷。
據(jù)此前媒體報(bào)道,Manus的核心模型能力源自Anthropic的Claude。3月10日,Manus創(chuàng)始人季逸超在社交平臺透露,Manus產(chǎn)品采用了基于阿里千問大模型(Qwen)的微調(diào)模型。
有市場人士認(rèn)為,隨著大模型能力的持續(xù)增強(qiáng),這些工具鏈的功能最終會(huì)內(nèi)化到模型中。未來,大模型可能無需再調(diào)用外部工具鏈,而Manus所創(chuàng)造的價(jià)值可能因此逐漸被內(nèi)生能力所涵蓋。
一位參與該討論的AI領(lǐng)域投資人士林亞秋(化名)指出,當(dāng)大模型能力進(jìn)一步提升,一些高頻場景可能會(huì)由模型本身覆蓋,大模型公司也可能因此內(nèi)置這些Agent。
Agent的誕生需要基座模型性能的提升,這是行業(yè)內(nèi)的共識。但為何Manus最先獲得這一關(guān)注?
林亞秋向時(shí)代財(cái)經(jīng)表示,"Manus能夠率先跑出來,一方面是因?yàn)閺慕衲甏汗?jié)前后開始,推理模型的技術(shù)取得了比較大的進(jìn)展。這件事對Manus的幫助很大,因?yàn)橹挥性谕评砟P统墒斓那闆r下才有機(jī)會(huì)去做。Agent有規(guī)劃、工具調(diào)用和記憶這三個(gè)特點(diǎn),每一點(diǎn)的成功率都會(huì)影響最終的成功率。而推理模型的提升會(huì)令第一步——規(guī)劃能力的提升變得至關(guān)重要。"
另一方面,Manus創(chuàng)作團(tuán)隊(duì)本身也具備一定的實(shí)力。"他們的產(chǎn)品能力非常強(qiáng),非常懂用戶的需求,且在功能實(shí)現(xiàn)上做得很好。"林亞秋補(bǔ)充道。據(jù)她了解,Manus創(chuàng)作團(tuán)隊(duì)過去兩年在產(chǎn)品能力方面表現(xiàn)得很出色,這也是團(tuán)隊(duì)擅長的地方。
其實(shí),就算基于MetaGPT在AI場景的自動(dòng)化和智能體框架上多年的技術(shù)積累,3人3小時(shí)實(shí)現(xiàn)對Manus的復(fù)刻也并非易事。
在技術(shù)方案方面,Manus采用了業(yè)內(nèi)共識的核心基礎(chǔ)技術(shù)。盡管如此,Manus本身仍是一份出色的作品。它通過用戶示例,展現(xiàn)了卓越的用戶體驗(yàn)體驗(yàn),并在整體交互效果方面表現(xiàn)良好。該團(tuán)隊(duì)實(shí)現(xiàn)了復(fù)雜的規(guī)劃,包括自行開發(fā)的Post Train模型,這一創(chuàng)新模型在效果和交互體驗(yàn)上均有顯著提升,并為團(tuán)隊(duì)提供了許多發(fā)展思路。
從核心理念來看,Manus團(tuán)隊(duì)倡導(dǎo)“更少的結(jié)構(gòu),更多的智能”(Less structure, more intelligence)。這一理念體現(xiàn)在產(chǎn)品的特性中,賦予AI更大的自主權(quán),以決定如何使用工具和完成任務(wù),從而進(jìn)一步提升了用戶體驗(yàn)。
實(shí)際上,Manus團(tuán)隊(duì)已明確表示,當(dāng)前的Manus距離正式版仍有較大差距。在模型幻覺、交付物友好度、運(yùn)行速度等方面,還有很大的提升空間。
曼us AI團(tuán)隊(duì)產(chǎn)品負(fù)責(zé)人張濤(HideCloud),同時(shí)也是Monica.im產(chǎn)品合伙人,近期在朋友圈發(fā)文表示,過去幾個(gè)小時(shí)對于團(tuán)隊(duì)來說充滿了意外和挑戰(zhàn)。團(tuán)隊(duì)低估了大家的熱情,這原本是產(chǎn)品探索過程中的階段性收獲,因此服務(wù)器資源的準(zhǔn)備水平與demo相當(dāng),卻沒想到會(huì)引起如此大的波瀾。
在Agent元年,成本與技術(shù)難題仍待解決
"2025年有望成為AI Agent元年"似乎已成為行業(yè)的共識。
開源證券指出,隨著大模型性能提升與成本降低,以及在消費(fèi)級顯卡部署門檻降低,為AI大規(guī)模應(yīng)用落地奠定了堅(jiān)實(shí)基礎(chǔ)。Manus的發(fā)布有望加速AI Agent的應(yīng)用落地,重塑各行業(yè)的工作流程。
華泰證券指出,Manus AI的底層架構(gòu)由多模型驅(qū)動(dòng),通過高效的工程化編排,成功滿足了Agent交互過程中的規(guī)劃、自主、準(zhǔn)確三大核心需求。這標(biāo)志著Agent應(yīng)用在Action環(huán)節(jié)的關(guān)鍵突破。目前,該階段正進(jìn)入工程化落地的關(guān)鍵階段,有望在2025年進(jìn)入放量元年。
Manus等AI Agent的誕生,依賴于團(tuán)隊(duì)在基座模型上的持續(xù)投入和進(jìn)化。但另一個(gè)事實(shí)是,隨著大模型能力的提升,許多問題的解決成功率會(huì)提高,但問題本身并不會(huì)消失。MetaGPT研究員、OpenManus合作者之一洪思睿指出。
洪思睿補(bǔ)充道:"人類社會(huì)仍有許多復(fù)雜且長尾的問題,包括機(jī)器學(xué)習(xí)、代碼修復(fù)以及通過搜索組合結(jié)果為用戶提供解決方案的問題。這些都需要通過技術(shù)手段來提升大模型的效果,包括解決幻覺問題。"
一方面,大模型幻覺仍然阻礙著AI的落地。另一方面,行業(yè)內(nèi)目前在規(guī)劃、記憶、工具調(diào)用等方面仍存在一些難點(diǎn)亟待解決。
目前Agent在規(guī)劃方面的進(jìn)展,主要依賴于模型自身能力的提升,同時(shí)也會(huì)借助外部輔助結(jié)構(gòu),即在Agent層面上增加更為復(fù)雜的輔助結(jié)構(gòu)進(jìn)行規(guī)劃支持。
在工具方面,如OpenManus目前主要依賴一些現(xiàn)有的開源工具,“例如Claude和Browser等”。值得注意的是,其他團(tuán)隊(duì)在Browser工具方面的研究顯示,僅僅依靠Claude和Browser等工具,基本就能完成許多任務(wù),已經(jīng)初步形成了Manus的雛形。而據(jù)MetaGPT團(tuán)隊(duì)設(shè)想,未來可能會(huì)賦予Agent自行創(chuàng)建工具的能力。
不過,在洪思??磥恚竽P突駻gent使用工具本身并不算新奇?!暗S著工具數(shù)量的不斷增加,隨之而來的技術(shù)難點(diǎn)也隨之而來:如果存在大量相似工具,Agent在解決同一任務(wù)時(shí)如何做出準(zhǔn)確決策,選擇最合適的工具;以及工具參數(shù)定義不夠明確或不合理時(shí),可能導(dǎo)致大模型在生成工具調(diào)用決策時(shí)出錯(cuò)等問題。這些都是工具使用環(huán)節(jié)中需要解決的關(guān)鍵問題。”
此外,在記憶(Memory)環(huán)節(jié)上,MetaGPT團(tuán)隊(duì)認(rèn)為,目前Agent在處理復(fù)雜、長程任務(wù)(例如在瀏覽網(wǎng)頁時(shí),網(wǎng)頁信息可能非常長)時(shí),如何壓縮并存儲相關(guān)信息,是一個(gè)極具挑戰(zhàn)性的問題,并且要確保壓縮后的關(guān)鍵信息不會(huì)被修改或遺漏。
Memory、推理效率與成本之間直接相關(guān)?!叭绻覀兒雎訫emory,不做壓縮和任何處理,目前的大模型仍然可以處理,但這樣帶來的問題并非質(zhì)量下降,而是會(huì)顯著增加處理時(shí)間和成本,嚴(yán)重影響用戶體驗(yàn)?!绷盒卤硎尽?/p>
降本增效、優(yōu)化成本,是大量應(yīng)用廠商首要任務(wù),也是持續(xù)優(yōu)化的方向。
據(jù)Manus團(tuán)隊(duì)此前透露,目前Manus單任務(wù)成本2美元,已經(jīng)經(jīng)過大量優(yōu)化,但可能仍難以滿足部分用戶的接受度。“對于商用來說,(這個(gè)價(jià)格)還是挺貴的。如果沒有足夠的群眾基礎(chǔ)以及轉(zhuǎn)化率,可能商業(yè)化上就不一定會(huì)特別成功?!绷謥喦锵驎r(shí)代財(cái)經(jīng)表示。
當(dāng)一個(gè)Agent產(chǎn)品推出后,開源社區(qū)很快出現(xiàn)了功能相近的復(fù)刻項(xiàng)目,這引發(fā)了行業(yè)內(nèi)對Agent領(lǐng)域核心競爭力的深度思考:這個(gè)賽道的終極競爭壁壘究竟在哪里?
在洪思??磥?,Agent的商業(yè)化競爭,關(guān)鍵在于能否將真實(shí)場景中的任務(wù)和效果,包括個(gè)性化的功能,做到極致。
目前學(xué)術(shù)界在SWEBench、GAIA等平臺開展的大量Agent測試工作,無論是針對簡單的任務(wù),還是更具挑戰(zhàn)性的任務(wù),任務(wù)完成率都相對較低。這些任務(wù)的成功率如果直接映射到實(shí)際商業(yè)場景中,意味著用戶在面對不同難度的問題時(shí),Agent的性能仍然存在較大局限性。
因此,她認(rèn)為,無論是編程任務(wù),還是數(shù)據(jù)采集與報(bào)告生成任務(wù),只有在各種用戶問題和場景下都能達(dá)到極致,任務(wù)完成率才能提升到令人滿意的水平,真正實(shí)現(xiàn)Agent具備人們所期望的行動(dòng)能力,用戶才會(huì)持續(xù)使用Agent。
同時(shí),展望Agent的未來,洪思睿認(rèn)為,從當(dāng)前技術(shù)發(fā)展的趨勢來看,多智能體在商業(yè)應(yīng)用方面具有明確且強(qiáng)烈的前景,例如在代碼生成這一技術(shù)相對成熟且能較好解決用戶實(shí)際需求的場景下,“目前用戶對于此類服務(wù)的付費(fèi)意愿也是較高的。”
討論Manus的火爆程度對行業(yè)帶來的信心時(shí),林亞秋表示,“Manus的火爆程度不僅在于它獲得了巨大的關(guān)注,更在于它成功普及了公眾對AI Agent的誤解:即AI Agent可以處理大量的繁瑣事務(wù);同時(shí),也吸引了大量的潛在用戶群。但從投資人和創(chuàng)業(yè)者的角度來看,早在2023年左右大家就認(rèn)為,AI Agent作為大語言模型之下的重要應(yīng)用場景具有巨大的發(fā)展?jié)摿?。如今,大家信心提升的一個(gè)重要原因在于模型技術(shù)的進(jìn)步速度,接下來,大家將在Agent技術(shù)、產(chǎn)品化方面進(jìn)行進(jìn)一步探索?!?/p>
據(jù)她了解,市場上有很多團(tuán)隊(duì)正在快速開發(fā)基于推理模型進(jìn)展的產(chǎn)品?!肮烙?jì)今年還會(huì)有更多的類似產(chǎn)品出現(xiàn)。”
驚心數(shù)據(jù)2016年中國癌癥病例全解析,最新中國癌癥數(shù)據(jù)出爐,5大癌種最常見 AR眼鏡蘋果的未來創(chuàng)新突破,蘋果調(diào)整可穿戴設(shè)備策略:Vision Pro表現(xiàn)不佳,AR眼鏡崛起 牛牛將牛肉放到正確位置解謎放置順序,《文字來找茬》牛肉歸位攻略 大贏家瘋了溫尚言跨界途道教育股價(jià)瘋狂漲勢,吳彥祖推出新英語課,398元,合作公司股價(jià)大漲! 藍(lán)空下的光影,有生之年,又被他治愈一次! 忙碌的黃圣依自由飛翔的光芒,黃圣依轉(zhuǎn)型成功,女明星破繭:婚姻不是終點(diǎn),事業(yè)才是底氣 《星球重啟》磁能模塊解謎技巧合集,《星球重啟》磁能鎖解謎攻略 夾子和勺子,《文字來找茬》火鍋?zhàn)灾P(guān)攻略 醫(yī)學(xué)知識,孕婦痔瘡怎么辦?健康課教會(huì)您正確的緩解方法 巴黎的朋友,久違的巴黎,久違的秀場