狠狠操福利视频免费_韩国女主播露出奶头钟淑_日韩精品久久久一二区_亚洲日韩A v妓女不卡一区_国产成人精品亚洲A片8848_最近的2024免费中文字幕_免费观看很黄很色很爽的视频_91精品国产自产在线观看不卡

Language
400-996-7588
搜索

捷勃特的VLA實踐:從“秒懂”到“秒動”的端到端攻略

企業新聞
2026.04.16

從"感知→規劃→控制"的傳統鏈路,到“視覺-語言-動作”一體化的端到端模型,VLA 正在重新定義機器人與物理世界的交互方式。捷勃特機器人以全棧開源能力,為 VLA 開發者提供從仿真數據采集到模型部署的完整鏈路。


image.png

捷勃特多型號機器人在 NVIDIA Isaac Sim 仿真環境中


01 什么是 VLA?


VLA(Vision-Language-Action),即視覺-語言-動作模型,是具身智能領域最具代表性的技術范式。該概念由 Google DeepMind 于2023年在 RT-2 論文(arXiv:2307.15818)中首次提出,成功將視覺-語言模型(VLM)直接擴展至機器人動作領域。


相比傳統工業機器人依賴人工調參、易產生誤差累積的“感知→識別→規劃→控制”四階段流水線,VLA 采用端到端設計,它摒棄了顯式的中間表示,直接將傳感器輸入映射為動作輸出,通過海量數據訓練讓模型學習“看什么→做什么”的映射關系。


其核心差異如下:

維度

傳統AI方案

VLA具身智能

輸入模態

圖像或點云

視覺+語言+狀態

輸出形式

文本/分類

連續動作空間

閉環控制

強閉環

任務語義理解

物理交互

學習驅動

標定依賴

需要相機標定

手眼標定

端到端學習,

大幅降低標定需求

架構復雜度

多模塊拼接,

誤差累積

單一端到端模型



02 VLA的技術內核

1

端到端映射

VLA 采用端到端設計理念:從傳感器輸入到動作輸出直接建模,不依賴人工設計的中間表示。將動作離散化為文本 token,直接利用預訓練視覺-語言模型的生成能力;而 OpenVLA 等后續工作則探索了連續動作空間的建模方式。無論哪種方案,核心都是通過大規模數據訓練,讓模型自己學習從視覺觀察和語言指令到機器人動作的映射。

2

動作空間設計

VLA 的動作輸出通常采用末端位姿(End-Effector Pose)表示,包含位置(x,y,z)、旋轉四元數(w,qx,qy,qz)和夾爪控制(gripper)。OpenVLA 采用 7-DoF 動作空間(6 自由度末端位姿 + 1 夾爪),通過 256-bin 離散化或 FAST action tokenizer 進行編碼。選擇末端位姿而非關節角度的理由在于:機器人無關性——便于異構采集(VR 手柄、陀螺儀設備均可采集);模型部署獨立性——不受特定機器人逆運動學求解器的約束。

3

觀測空間與語言指令

主流 VLA 方案采用雙相機配置:固定相機用于全局場景感知,手腕相機用于精細操作感知。捷勃特在 Isaac Sim 中原生支持這一配置——固定相機捕獲全局場景,手腕相機提供末端執行器的近距離視角,與 ALOHA、OpenVLA 等主流 VLA 方案的觀測配置完全一致。


VLA 的語言理解能力體現在多層級復雜度支持——從簡單的"拿起紅色杯子",到需要物理常識推理的"把能裝水的容器放到左邊"。通過 Chain-of-Thought 推理甚至能完成"哪個物體可以當錘子用"這樣的常識推理任務。

image.png

捷勃特機器人采用手腕相機的抓取動作


03 VLA 開源項目和發展趨勢


截至 2026 年,VLA 領域已有多個開源項目,這些代表性項目分別從不同維度推動了 VLA 的發展。


項目

機構

核心貢獻

ALOHA / Mobile   ALOHA

Stanford / UC   Berkeley

開創性的雙臂遙操作系統,VLA 數據采集的事實標準

RT-2

Google DeepMind

首個 VLA 模型,將 VLM 微調為機器人動作模型(arXiv:2307.15818)

OpenVLA

UC Berkeley

7B 參數開源 VLA,支持   LoRA 微調和 RLDS 數據格式(arXiv:2406.09246)

LeRobot

Hugging Face

統一的機器人學習框架,提供數據集管理、模型訓練和評估工具

Smol VLA

Hugging Face

450M 參數輕量級 VLA,可在消費級硬件上運行



未來,VLA 呈現出五大發展趨勢:

單臂到雙臂——ALOHA 開創雙臂協作成為 VLA 標配

從抓取到操作——從 Pick & Place 向精細操作演進

從仿真到真機——Sim-to-Real 遷移技術日趨成熟

從研究到產業——VLA 正從實驗室走向工廠

從編程到對話——MCP + OpenClaw 等 AI Agent 框架讓自然語言控制機器人成為可能


04 捷勃特 × VLA

仿真到部署的完整鏈路VLA技術



捷勃特為 VLA 開發者提供了從數據采集到模型訓練再到真機部署的完整開源工具鏈。


在 Isaac Sim 仿真環境中,捷勃特提供多型號機器人(GBT-C5A/C7A/C12A/C16A)的完整 USD 數字資產,包含機器人幾何網格、材質貼圖、關節運動學參數和末端執行器模型,開發者無需自行建模即可直接導入使用。


捷勃特在數據采集方面的優勢體現在四個方面:


一、高保真仿真:基于 PhysX 物理引擎的精確碰撞檢測和力反饋,RTX 光線追蹤渲染生成接近真實相機的圖像數據


二、雙相機原生支持:仿真環境中原生支持固定相機 + 手腕相機的雙視角數據采集,與主流 VLA 方案的觀測配置完全一致


三、大規模并行采集:支持多環境并行數據采集,通過隨機化物體位置、光照條件、相機角度等參數確保數據多樣性


四、精確運動學參數:提供完整的 USD 數字資產,包含精確運動學參數,有效縮小 Sim-to-Real Gap


值得一提的是,捷勃特通過 OpenClaw + MCP 協議,讓開發者甚至可以用自然語言直接控制仿真機器人——這本身就是 VLA 理念的一次工程實踐。用戶只需描述任務意圖,AI Agent 即可通過 MCP 協議驅動機器人完成動作,無需編寫傳統控制代碼。


05 為何選擇捷勃特構建VLA應用?


硬件即平臺:從 5kg 到 16kg 負載的完整產品線,覆蓋從桌面級到工業級的 VLA 應用場景

仿真優先:完整的 USD 資產 + Isaac Sim 原生集成,數據采集效率遠超真機方案

開源透明:GitHub 全面開源,開發者可以自由審計、修改和貢獻

生態對齊:與 ROS2、Isaac Sim、LeRobot 等主流開源框架深度集成

AI-Native:支持 MCP + OpenClaw,讓 VLA 模型可以通過自然語言接口直接驅動機器人

低門檻入門:云端仿真 + AI Agent,無需硬件即可開始 VLA 開發

image.png

Isaac Sim 中的抓取放置演示 — VLA 訓練數據的仿真來源



06 VLA 應用新手村指南



Step 1:克隆捷勃特 Isaac Sim 集成倉庫和 USD 數字資產倉庫。

Step 2:安裝 NVIDIA Isaac Sim 和 LeRobot 數據管理框架。

Step 3:在仿真環境中配置雙相機觀測,定義任務和語言指令。

Step 4:執行大規模并行數據采集,導出 LeRobot 格式數據集。

Step 5:使用 LeRobot 或 OpenVLA 訓練 VLA 模型,支持多 GPU 分布式訓練。

Step 6:在仿真環境中評估模型后,通過 ROS2 接口部署到真機。


沒有真機?沒有 GPU 服務器?開發者可以在 Airbot 控制臺申請云端仿真機器人,通過瀏覽器直接體驗機器人運動控制、視覺感知和任務執行。結合 OpenClaw AI Agent 框架,甚至可以用自然語言直接控制仿真機器人。



07 VLA 體驗傳送門



開發者文檔:

dev.sh-agilebot.com


云端仿真:

airbot.sh-agilebot.com/login


GitHub項目:

github.com/sh-agilebot/agilebot_isaac_sim

(Isaac Sim 集成,包括仿真環境、示例 Demo)

github.com/sh-agilebot/agilebot_isaac_usd_assets(USD 數字資產,包括機器人模型、網格、貼圖)

github.com/sh-agilebot/agilebot_isaac_lab

 (Isaac Lab訓練環境配置)