- 生存技巧指南,禁閉求生碎片大師成就攻略
- 暗黑新賽季揭秘,《暗黑3》千連殺BOSS分享
- 開荒必備指南,《暗黑破壞神3》隊(duì)伍已鎖解決辦法分享
- 快速入門,戰(zhàn)國(guó)王朝游俠對(duì)戰(zhàn)平臺(tái)聯(lián)機(jī)教程
- 游戲小貼士,《寶可夢(mèng)劍盾》極巨化對(duì)戰(zhàn)問題解決方法
- 冒險(xiǎn)旅途從這里開始,寶可夢(mèng)劍盾自行車在哪
- 探索奇境之旅,冷晶礦最佳采集地推薦
- 探索稀有秘訣,《動(dòng)物園之星》白化動(dòng)物出現(xiàn)方法分享
- 探索互動(dòng)之旅,最終幻想7重生尼福爾海姆對(duì)話選擇及好感度攻略
- 新手玩家必讀,《動(dòng)物園之星》標(biāo)準(zhǔn)版和豪華版區(qū)別一覽
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
智元機(jī)器人推出首個(gè)通用具身基座模型——智元啟元大模型Genie Operator-1(GO-1)。該模型采用Vision-Language-Latent-Action(ViLLA)框架,整合了多模態(tài)大模型(VLM)與混合專家(MoE)技術(shù),具備"一網(wǎng)打盡"的高效能力:小樣本快速泛化、適應(yīng)不同本體、持續(xù)進(jìn)化,同時(shí)能從人類視頻中學(xué)習(xí)。
此外,智元機(jī)器人還計(jì)劃在未來幾個(gè)月內(nèi)推出基于強(qiáng)化學(xué)習(xí)的仿真模型,并展示新一代人形機(jī)器人。
ViLLA框架由兩部分組成:主干網(wǎng)絡(luò)(VLM)與隱式規(guī)劃器(MoE)。主干網(wǎng)絡(luò)繼承自開源多模態(tài)大模型5-2B的權(quán)重,通過互聯(lián)網(wǎng)大規(guī)模的純文本與圖文數(shù)據(jù),賦予模型對(duì)通用場(chǎng)景的感知與理解能力。
在MoE部分,隱動(dòng)作專家模型負(fù)責(zé)規(guī)劃,利用了互聯(lián)網(wǎng)上的大規(guī)模人類操作與跨本體操作視頻,提升模型對(duì)動(dòng)作的理解能力。動(dòng)作專家模型則通過高質(zhì)量的仿真數(shù)據(jù)與真機(jī)數(shù)據(jù),實(shí)現(xiàn)動(dòng)作的精細(xì)控制。
Genie Operator-1具備五大顯著特點(diǎn):
1. 基于具身領(lǐng)域的數(shù)字金字塔構(gòu)建,底層是互聯(lián)網(wǎng)的大規(guī)模純文本與圖文數(shù)據(jù),幫助機(jī)器人理解通用知識(shí)與場(chǎng)景。
2. 首次提出Vision-Language-Latent-Action框架,整合多模態(tài)與混合專家技術(shù),實(shí)現(xiàn)高效學(xué)習(xí)與適應(yīng)。
3. 擁有強(qiáng)大的小樣本快速泛化能力,能夠快速適應(yīng)不同本體環(huán)境。
4. 具備持續(xù)進(jìn)化能力,能夠不斷優(yōu)化與改進(jìn)。
5. 能夠從人類視頻中學(xué)習(xí),提升自主決策能力。
在互聯(lián)網(wǎng)的大規(guī)模人類操作/跨本體的視頻數(shù)據(jù)之上,機(jī)器人可以學(xué)習(xí)到人類或其他本體的操作模式,幫助其掌握復(fù)雜動(dòng)作。
在這一層級(jí),機(jī)器人將接觸到仿真數(shù)據(jù),這些數(shù)據(jù)有助于增強(qiáng)其泛化能力,使其能夠適應(yīng)不同場(chǎng)景、物體等復(fù)雜環(huán)境。
金字塔的頂層則是高質(zhì)量的真機(jī)示教數(shù)據(jù),這種數(shù)據(jù)為機(jī)器人提供了精準(zhǔn)的動(dòng)作執(zhí)行能力。
GO-1采用基于視覺語言模型和混合專家網(wǎng)絡(luò)構(gòu)建的ViLLA框架,能夠?qū)⒍嘞鄼C(jī)的視覺信號(hào)和人類語言指令直接轉(zhuǎn)化為機(jī)器人的動(dòng)作執(zhí)行。與Vision-Language-Action(VLA)模型相比,ViLLA通過預(yù)測(cè)隱式動(dòng)作標(biāo)記,成功地解決了圖像-文本輸入與機(jī)器人動(dòng)作執(zhí)行之間的技術(shù)瓶頸。
例如,用戶只需用自然的語言告訴機(jī)器人要做的事情,如“掛衣服”,模型就能將其分解為具體的步驟來處理:
首先,模型可以根據(jù)所見的畫面信息以及已學(xué)習(xí)的大規(guī)模互聯(lián)網(wǎng)純文本和圖文數(shù)據(jù),理解“掛衣服”在特定語境下的具體含義和操作要求。
其次,模型基于已學(xué)習(xí)的人類操作視頻以及各種機(jī)器人的操作經(jīng)驗(yàn),能夠識(shí)別出掛衣服這一任務(wù)通常涉及哪些步驟和環(huán)節(jié)。
然后,模型結(jié)合仿真數(shù)據(jù),了解掛衣服任務(wù)中可能涉及的具體物體(如不同種類的衣服)、環(huán)境(如衣柜的位置)以及操作流程,從而構(gòu)建起完整的任務(wù)模型。
最后,基于真機(jī)示教數(shù)據(jù),機(jī)器人能夠準(zhǔn)確地執(zhí)行整個(gè)掛衣服任務(wù)。
GO-1的強(qiáng)大應(yīng)用能力體現(xiàn)在它能適應(yīng)多種場(chǎng)景。例如,早上起床后,機(jī)器人可以自動(dòng)為用戶倒水、烘烤吐司;還可以被派往活動(dòng)現(xiàn)場(chǎng)協(xié)助工作,負(fù)責(zé)檢票、發(fā)放物料等任務(wù)。
在商務(wù)會(huì)議中,面對(duì)人類發(fā)出的"幫我拿一瓶飲料""幫我拿一個(gè)蘋果"的語言指令,GO-1可以通過精準(zhǔn)的處理機(jī)制迅速回應(yīng)。
值得一提的是,GO-1還配備了獨(dú)特的學(xué)習(xí)機(jī)制,能夠通過數(shù)據(jù)回流持續(xù)優(yōu)化自身能力:例如,在為顧客準(zhǔn)備咖啡時(shí)不小心將杯子歪放,系統(tǒng)便能夠從這一數(shù)據(jù)中學(xué)習(xí),逐步改進(jìn),最終順利完成任務(wù)。
結(jié)語:具身智能正加速發(fā)展
長(zhǎng)期以來,具身智能在擴(kuò)展性、通用性和指令泛化能力方面面臨諸多挑戰(zhàn):缺乏有效的擴(kuò)展性,導(dǎo)致指令泛化能力不足;語言理解能力薄弱,限制了指令的泛化應(yīng)用;難以實(shí)現(xiàn)快速學(xué)習(xí)新技能,影響了實(shí)際應(yīng)用;此外,跨本體部署能力欠佳,限制了其廣泛應(yīng)用。
GO-1的問世,為機(jī)器人替代人類執(zhí)行生活和工作中的各項(xiàng)事務(wù)提供了強(qiáng)勁的腦力支持。無論是家庭場(chǎng)景中的餐食準(zhǔn)備和桌面收拾,還是辦公場(chǎng)景中的訪客接待和物品發(fā)放,亦或是工業(yè)場(chǎng)景中的各類操作任務(wù),通用具身基座大模型都能快速應(yīng)對(duì)。這不僅加速了具身智能從單一任務(wù)向多種任務(wù)、從封閉環(huán)境到開放世界的遷移,也推動(dòng)了指令泛化的進(jìn)程,使機(jī)器人能夠適應(yīng)更多樣化和真實(shí)世界的多變性。
2023年我國(guó)算力基礎(chǔ)設(shè)施建設(shè)再創(chuàng)新高,我國(guó)新型信息基礎(chǔ)設(shè)施建設(shè)加快 荒野探索小金冠,怪物獵人:荒野迷途 遲到大師成就攻略 債市再度 固債期貨低開,國(guó)債期貨“跌麻了”? 3月11日太原盛事,山西崇德榮海俱樂部舉行新賽季出征儀式,大同市第一中學(xué)將負(fù)責(zé)共建青訓(xùn)梯隊(duì) 神出鬼沒的神格戰(zhàn)甲技能包爆炸雷電附體光影交織的神出鬼沒,《星際戰(zhàn)甲》丑甲的特點(diǎn)分享 雙奶抗傷隊(duì)搭配技巧,《星隕計(jì)劃》木11陣容搭配推薦 攻城模擬器的戰(zhàn)術(shù)奇兵駱駝兵的移動(dòng)之王,《攻城模擬器》駱駝兵介紹 高效,怪物獵人荒野模式片手挑戰(zhàn)黑絲BOSS攻略解析 解鎖宇宙,METAL EDEN游戲官網(wǎng)在哪里?地址是什么? 冠軍對(duì)決,巴黎圣日耳曼:在下賽季歐冠奪冠仍有挑戰(zhàn);球隊(duì)目前仍有提升空間說明:1. 將"巴黎距離歐冠奪冠還很遠(yuǎn)"改為"巴黎在下賽季歐冠奪冠仍有挑戰(zhàn)",簡(jiǎn)化了表達(dá),同時(shí)保持了原意2. "我們有世界上最好的教練"改為"球隊(duì)目前仍有提升空間",用更簡(jiǎn)潔的表達(dá)方式傳達(dá)了教練團(tuán)隊(duì)的能力3. 整體標(biāo)題更加簡(jiǎn)潔明了,同時(shí)保留了關(guān)鍵信息點(diǎn)4. 保持了專業(yè)性,同時(shí)使標(biāo)題更具吸引力5. 通過調(diào)整語序和使用更簡(jiǎn)潔的詞匯,使標(biāo)題更加流暢自然