|
坦福大學(xué)李飛飛團(tuán)隊(duì)提出了智能系統(tǒng) VoxPoser, 它可以從大模型 LLM 和視覺-
語言模型 VLM 中提取可行性和約束,以構(gòu)建 3D 仿真環(huán)境中的值地圖,供運(yùn)動(dòng)規(guī)劃器使用,用于
零樣本地合成機(jī)器人操縱任務(wù)的軌跡,從而實(shí)現(xiàn)在真實(shí)世界中的零樣本機(jī)器人操縱。
該模型把復(fù)雜指令轉(zhuǎn)化成具體行動(dòng)規(guī)劃,人類可以隨意地用自然語言給機(jī)器人下達(dá)指令,機(jī)器人也無需額外數(shù)據(jù)和訓(xùn)練。其原理很簡單,先,給定環(huán)境信息(用相機(jī)采集 RGB-D 圖像)和我
們要執(zhí)行的自然語言指令。接著,LLM根據(jù)這些內(nèi)容編寫代碼,所生成代碼與 VLM進(jìn)行交互,指導(dǎo)系統(tǒng)生成相應(yīng)的操作指示地圖,即 3D 值地圖。它是可行性地圖和約束地圖的總稱,既標(biāo)記了
“在哪里行動(dòng)”,也標(biāo)記了“如何行動(dòng)”。再利用動(dòng)作規(guī)劃器,將生成的 3D 地圖作為其目標(biāo)函
數(shù),便能夠合成終要執(zhí)行的操作軌跡。相比傳統(tǒng)方法需要進(jìn)行額外的預(yù)訓(xùn)練,這個(gè)方法用大模
型指導(dǎo)機(jī)器人如何與環(huán)境進(jìn)行交互,直接解決了機(jī)器人訓(xùn)練數(shù)據(jù)稀缺的問題。
VoxPoser 還具有 4 個(gè)新穎的涌現(xiàn)能力。
1)估算物理屬性:給定兩個(gè)未知質(zhì)量的方塊,機(jī)器人被
要求使用現(xiàn)有工具進(jìn)行物理實(shí)驗(yàn),確定哪個(gè)方塊更重。
2)常識(shí)性行為推理:在擺桌子的任務(wù)中,
用戶可以指定行為偏好,比如“我是左撇子”,機(jī)器人能根據(jù)上下文理解其含義。
3)細(xì)粒度語言糾正:比如執(zhí)行“給茶壺蓋上蓋子”這種精度要求較G的任務(wù)時(shí),可以向機(jī)器人發(fā)出“你偏離
了 1 厘米”等準(zhǔn)確指令來校正它的操作。
4)基于視覺的多步操作:比如叫機(jī)器人將抽屜準(zhǔn)確地打
開成一半,由于沒有對(duì)象模型導(dǎo)致的信息不足可能讓機(jī)器人無法執(zhí)行這樣的任務(wù),但 VoxPoser
可以根據(jù)視覺反饋提出多步操作策略,即先完全打開抽屜同時(shí)記錄手柄位移,然后將其推回至
中點(diǎn)就可以滿足要求了。
|