- 和平精英SS25賽季新武器與玩法上線,《和平精英》SS25賽季新槍械匯總
- 灰燼火龍裝備屬性,《元氣騎士前傳》灰燼火龍裝備介紹一覽
- 世界危機中的神秘BOSS灰燼火龍在哪,《元氣騎士前傳》灰燼火龍位置一覽
- 黑騎士之魂附加效果解析,《元氣騎士前傳》黑騎士之魂效果一覽
- 原神海燈節(jié)新皮膚,《原神》4.4版本新皮膚介紹
- 新角色復刻角色抽取攻略,《原神》4.4版本卡池角色預測一覽
- 擊敗海盜頭目162攻擊熱浪海島,《元氣騎士前傳》海盜王艦炮獲得方法一覽
- 神秘美麗 Shell of the Princess,《夢幻模擬戰(zhàn)》殼中少女皮膚上線時間一覽
- 修仙模擬器新弟子修煉路線秘境招募,《了不起的修仙模擬器》招收弟子方法介紹
- 回聲之林夜話 | 兩件套,《原神》4.3新圣遺物匯總
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
智元機器人推出首個通用具身基座模型——智元啟元大模型Genie Operator-1(GO-1)。該模型采用Vision-Language-Latent-Action(ViLLA)框架,整合了多模態(tài)大模型(VLM)與混合專家(MoE)技術(shù),具備"一網(wǎng)打盡"的高效能力:小樣本快速泛化、適應不同本體、持續(xù)進化,同時能從人類視頻中學習。
此外,智元機器人還計劃在未來幾個月內(nèi)推出基于強化學習的仿真模型,并展示新一代人形機器人。
ViLLA框架由兩部分組成:主干網(wǎng)絡(VLM)與隱式規(guī)劃器(MoE)。主干網(wǎng)絡繼承自開源多模態(tài)大模型5-2B的權(quán)重,通過互聯(lián)網(wǎng)大規(guī)模的純文本與圖文數(shù)據(jù),賦予模型對通用場景的感知與理解能力。
在MoE部分,隱動作專家模型負責規(guī)劃,利用了互聯(lián)網(wǎng)上的大規(guī)模人類操作與跨本體操作視頻,提升模型對動作的理解能力。動作專家模型則通過高質(zhì)量的仿真數(shù)據(jù)與真機數(shù)據(jù),實現(xiàn)動作的精細控制。
Genie Operator-1具備五大顯著特點:
1. 基于具身領(lǐng)域的數(shù)字金字塔構(gòu)建,底層是互聯(lián)網(wǎng)的大規(guī)模純文本與圖文數(shù)據(jù),幫助機器人理解通用知識與場景。
2. 首次提出Vision-Language-Latent-Action框架,整合多模態(tài)與混合專家技術(shù),實現(xiàn)高效學習與適應。
3. 擁有強大的小樣本快速泛化能力,能夠快速適應不同本體環(huán)境。
4. 具備持續(xù)進化能力,能夠不斷優(yōu)化與改進。
5. 能夠從人類視頻中學習,提升自主決策能力。
在互聯(lián)網(wǎng)的大規(guī)模人類操作/跨本體的視頻數(shù)據(jù)之上,機器人可以學習到人類或其他本體的操作模式,幫助其掌握復雜動作。
在這一層級,機器人將接觸到仿真數(shù)據(jù),這些數(shù)據(jù)有助于增強其泛化能力,使其能夠適應不同場景、物體等復雜環(huán)境。
金字塔的頂層則是高質(zhì)量的真機示教數(shù)據(jù),這種數(shù)據(jù)為機器人提供了精準的動作執(zhí)行能力。
GO-1采用基于視覺語言模型和混合專家網(wǎng)絡構(gòu)建的ViLLA框架,能夠?qū)⒍嘞鄼C的視覺信號和人類語言指令直接轉(zhuǎn)化為機器人的動作執(zhí)行。與Vision-Language-Action(VLA)模型相比,ViLLA通過預測隱式動作標記,成功地解決了圖像-文本輸入與機器人動作執(zhí)行之間的技術(shù)瓶頸。
例如,用戶只需用自然的語言告訴機器人要做的事情,如“掛衣服”,模型就能將其分解為具體的步驟來處理:
首先,模型可以根據(jù)所見的畫面信息以及已學習的大規(guī)?;ヂ?lián)網(wǎng)純文本和圖文數(shù)據(jù),理解“掛衣服”在特定語境下的具體含義和操作要求。
其次,模型基于已學習的人類操作視頻以及各種機器人的操作經(jīng)驗,能夠識別出掛衣服這一任務通常涉及哪些步驟和環(huán)節(jié)。
然后,模型結(jié)合仿真數(shù)據(jù),了解掛衣服任務中可能涉及的具體物體(如不同種類的衣服)、環(huán)境(如衣柜的位置)以及操作流程,從而構(gòu)建起完整的任務模型。
最后,基于真機示教數(shù)據(jù),機器人能夠準確地執(zhí)行整個掛衣服任務。
GO-1的強大應用能力體現(xiàn)在它能適應多種場景。例如,早上起床后,機器人可以自動為用戶倒水、烘烤吐司;還可以被派往活動現(xiàn)場協(xié)助工作,負責檢票、發(fā)放物料等任務。
在商務會議中,面對人類發(fā)出的"幫我拿一瓶飲料""幫我拿一個蘋果"的語言指令,GO-1可以通過精準的處理機制迅速回應。
值得一提的是,GO-1還配備了獨特的學習機制,能夠通過數(shù)據(jù)回流持續(xù)優(yōu)化自身能力:例如,在為顧客準備咖啡時不小心將杯子歪放,系統(tǒng)便能夠從這一數(shù)據(jù)中學習,逐步改進,最終順利完成任務。
結(jié)語:具身智能正加速發(fā)展
長期以來,具身智能在擴展性、通用性和指令泛化能力方面面臨諸多挑戰(zhàn):缺乏有效的擴展性,導致指令泛化能力不足;語言理解能力薄弱,限制了指令的泛化應用;難以實現(xiàn)快速學習新技能,影響了實際應用;此外,跨本體部署能力欠佳,限制了其廣泛應用。
GO-1的問世,為機器人替代人類執(zhí)行生活和工作中的各項事務提供了強勁的腦力支持。無論是家庭場景中的餐食準備和桌面收拾,還是辦公場景中的訪客接待和物品發(fā)放,亦或是工業(yè)場景中的各類操作任務,通用具身基座大模型都能快速應對。這不僅加速了具身智能從單一任務向多種任務、從封閉環(huán)境到開放世界的遷移,也推動了指令泛化的進程,使機器人能夠適應更多樣化和真實世界的多變性。
碎片拼圖智慧閃出‘鏡’,《漢字魔法》把碎片拼起來通關(guān)攻略 海諾連招解析大招回血瞬間復活,《王者榮耀》海諾最強連招順序一覽 中俄友好新型大國關(guān)系的恒定力量,王毅:中俄關(guān)系是動蕩世界中的恒量 黃圣依魅力四射,黃圣依轉(zhuǎn)型成功,眾女星破繭重生:婚姻不是事業(yè)的阻礙,事業(yè)才是人生的底氣 巴黎時裝秀時尚 friends的奇妙邂逅,久違的巴黎,久違的秀場 巨蛇霰彈槍新裝備解析,《明日之后》巨蛇霰彈槍玩法介紹 宇樹科技機器人走向生活,宇樹機器人二手租賃高薪!人形機器人為誰打工? 握手烏克蘭與英國的歷史時刻,澤連斯基在倫敦的關(guān)鍵活動后,未來幾天將面臨重大考驗 “美國驅(qū)逐烏克蘭難民”,美政府擬廢止烏克蘭難民合法身份,或為大規(guī)模驅(qū)逐提供鋪路 拼鼓輕松過關(guān),《漢字魔法》振作士氣通關(guān)攻略