- 線下冒險盛會指南,《第五人格》2024秋分活動玩法介紹
- 限時活動揭秘,《崩壞:星穹鐵道》夏日聯(lián)歡盛典活動一覽
- 游戲策略指南,《時之幻想曲》新手開服第一天玩法攻略
- 游戲技巧分享,《七日世界》凈化回響石共享方法
- 全新游戲體驗,《天啟行動》兌換碼大全2024
- 游戲裝備指南,《勇敢者歷險記》輔助職業(yè)裝備推薦
- 《燕云十六聲》八方風雷槍武學技能攻略
- 游戲裝備指南之旅,《勇敢者歷險記》法師職業(yè)裝備推薦
- 快速掌握技巧,《七日世界》表情動作使用方法
- 最新游戲攻略發(fā)布,《斗神大陸》命魂命環(huán)最佳匹配對照表
聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。
轉載自:元機器人
3月10日,元推出首個通用具身基座模型——元啟元大模型(Genie Operator-1),它提出了Vision-Language-Latent-Action (ViLLA) 架構。該架構由VLM(多模態(tài)大模型) + MoE(混合專家)組成。其中,VLM借助海量互聯(lián)網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作視頻數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數據獲得精細的動作執(zhí)行能力。在運行時,VLM、Latent Planner和Action Expert三者協(xié)同工作,實現(xiàn)了利用人類視頻學習,完成小樣本快速泛化,降低了具身智能的門檻,并成功集成到元多款機器人本體,持續(xù)進化,推動了具身智能的新臺階。
2024年底,元推出了AgiBot World,包含超過100萬條軌跡、涵蓋217個任務、涉及五大場景的大規(guī)模高質量真機數據集?;贏giBot World,元正式推出元通用具身基座大模型 Genie Operator-1(GO-1)。
01 GO-1:VLA進化到ViLLA
為了充分利用高質量的AgiBot World數據集以及互聯(lián)網大規(guī)模異構視頻數據,增強策略的泛化能力,元提出了 Vision-Language-Latent-Action (ViLLA) 這一創(chuàng)新性架構。GO-1作為首個通用具身基座大模型,基于ViLLA構建。與Vision-Language-Action (VLA) 架構相比,ViLLA 通過預測Latent Action Tokens(隱式動作標記),彌合了圖像-文本輸入與機器人執(zhí)行動作之間的鴻溝。在真實世界的靈巧操作和長時任務方面表現(xiàn)卓越,遠超開源SOTA模型。
ViLLA架構由VLM(多模態(tài)大模型) + MoE(混合專家)組成,其中VLM借助海量互聯(lián)網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數據獲得精細的動作執(zhí)行能力。在推理過程中,VLM、Latent Planner和Action Expert三者協(xié)同工作:
下面詳細闡述MoE中的兩個關鍵組件:Latent Planner和Action Expert。
混合專家一:
Latent Planner(隱式規(guī)劃器)
由于AgiBot World數據集是全球最大的機器人真機示教數據集之一,但高質量帶動作標簽的真機數據量仍然有限,遠少于互聯(lián)網規(guī)模的數據集。為此,我們采用Latent Actions(隱式動作)來建模當前幀和歷史幀之間的隱式變化,然后通過Latent Planner預測這些Latent Actions,從而將異構數據源中真實世界的動作知識轉移到通用操作任務中。
混合型專家二:
Action Expert(動作專家)
為了實現(xiàn)高頻率且靈活的操控,我們引入了行動專家,該專家采用擴散模型作為目標函數,用于建模低層動作的連續(xù)分布。
實驗效果
通過創(chuàng)新性的ViLLA架構,我們在五個不同復雜度的任務中測試了GO-1。與現(xiàn)有最優(yōu)模型相比,GO-1的成功率顯著提升,平均成功率提高了32%(從46%提升至78%)。其中,“倒水”、“清理桌面”和“補充飲料”任務表現(xiàn)出色。此外,我們單獨驗證了架構中潛在計劃器的作用,結果表明增加潛在計劃器可提升12%的成功率(從66%提升至78%)。
02 GO-1:具身智能的全面創(chuàng)新
GO-1大模型憑借人類和多種機器人數據,賦予機器人革命性的學習能力,使其能夠泛化應用到各類環(huán)境和物品中,快速適應新任務、學習新技能。同時,它還支持部署到不同機器人本體,高效完成落地,并在實際應用中持續(xù)快速進化。
這一系列特點可以歸納為四個方面:
智元通用具身基座大模型GO-1的發(fā)布,標志著具身智能正在向通用化、開放化和智能化方向加速發(fā)展。
GO-1大模型將加速具身智能的普及,機器人將從依賴特定任務的工具,發(fā)展為具備通用智能的自主體,在商業(yè)、工業(yè)和家庭等多個領域發(fā)揮更大作用,邁向更加通用全能的智能未來。
請牢記,轉發(fā)請注明出處:上海經信委
特別注明,本文經上觀新聞客戶端“上觀號”入駐媒體授權發(fā)布,僅代表入駐媒體觀點,上觀新聞僅為信息發(fā)布平臺。如您認為內容侵害您的權益,請聯(lián)系刪除!
戰(zhàn)略分歧與直接談判,匈牙利總理敦促歐盟與俄羅斯直接談判 超值兌換七天經典幻獸套裝 超值兌換30天櫻,《cf手游》星星可兌換獎勵一覽 烏克蘭對俄羅斯天然氣管道采取行動,俄稱“土耳其溪”基礎設施遭烏軍攻擊 大S遺產分配法律與家庭,2025的不真實:大S與方大同的遺產與遺言,一嘆 3月6日歐盟峰會“歐洲安全韌性”,歐盟特別峰會同意“重新武裝歐洲”計劃 人形機器人租賃春節(jié)熱出圈,"月入過萬!宇樹機器人二手租賃火爆:機器人背后的真相" 特朗普與澤連斯基的激烈談判,特朗普指出,澤連斯基在烏克蘭問題上的態(tài)度不夠尊重,但目前尚未準備好實現(xiàn)和談,因此可以等待合適的時機再進行溝通。(說明:這個改寫版本在保持原意的基礎上,進行了以下優(yōu)化:1. 用"指出"替代":",使表達更簡潔2. 調整語序,將"不尊重"前置3. 使用"目前尚未準備好實現(xiàn)和談"替代原句,使表達更自然流暢4. 使用"可以"替代",在",使表達更簡潔5. 去掉了"于"字,使表達更簡短6. 使用"等待"替代"準備好",使表達更簡潔7. 保持了關鍵信息,包括人物、事件和關鍵點) 拖拽床頭柜,《瘋狂梗傳》忘記前任,接受禮物,通關攻略 價格屠夫+激光雷達+Orin-X+智駕功能,零跑B10售價13萬起,配備激光雷達,價格點引熱議 年薪375萬狀態(tài)下滑,33歲球員不愿離隊,曼聯(lián)蒙受重大損失,四年支出1.6億英鎊,已成累贅