GL Robotics
首页博客教程Motion Planning Simulator

关于我们

按照主题,分享学习心得。

快速链接

  • 博客
  • 教程
  • 关于我们

联系我们

公众号:哎嗨人生

邮箱:ahrs365@outlook.com

© 2026 GL Robotics. 保留所有权利.

沪ICP备2022016268号-1

    返回教程列表

    0-OmniVLA概览

    挑战30天入门多模态大模型导航
    预计阅读时间:9 分钟
    2026年1月12日

    OmniVLA概览

    深度学习vla多模态导航

    OmniVLA概览

    一、是什么(What is it)

    • 一个 全模态视觉-语言-动作(VLA)导航大模型。
    • 基于 OpenVLA-7B(Llama2-7B + SigLIP + DINOv2) 的统一策略模型。
    • 能同时处理 二维姿态、目标图像、自然语言 等多种导航目标模态。

    二、它能干什么

    不需要全局地图,也不做 SLAM,不规划全局路径,通过用语言描述,gps目标位置,目标位置的图像这三者中的任意一个或组合,就能实现机器人的导航。

    1. Language-conditioned navigation 基于语言指令的导航

    没有 goal pose、没有目标图像,通过语言进行描述

    • 前往左侧白色墙后面的深绿色沙发

    您的浏览器不支持视频播放

    2. Multi-modal conditioned navigation (Language & 2D pose)多模态条件导航(语言 + 2D 位姿)

    目标位置(goal pose)是通过 GPS/2D 坐标给机器人的,画面里看不到

    • 沿着棕色小路的中间行进

    您的浏览器不支持视频播放

    3. 2D goal pose-conditioned navigation 基于 2D 目标位姿的导航

    没有语言,没有目标图像,也不需要语义理解,只有目标位置(goal pose)。

    您的浏览器不支持视频播放

    4. Egocentric goal image-conditioned navigation 基于第一视角目标图像的导航

    目标由一张“目标图像”提供,机器人要走到“看起来像目标图像”的地方。

    您的浏览器不支持视频播放

    与传统方法对比:

    传统机器人大模型导航 (VLM/VLA)
    必须定位(SLAM)❌ 不需要
    必须建图❌ 不需要
    必须规划全局路径❌ 不需要
    依赖几何✔ 依赖视觉语义与行为先验
    显式建模✔ 隐式学习世界规律
    规则驱动✔ 数据驱动

    ① 视觉模型(DINOv2 / SigLIP)懂世界语义 和 SLAM 不同,视觉模型能“理解”场景。

    ② 大语言模型(LLM)提供世界知识与推理结构 比如“经过立柱后到入口”,模型能理解“after passing”。

    ③ 大规模跨平台机器人数据(9,500 小时)提供行为分布 机器人在各种真实场景中“看过 / 走过 / 绕过”。

    这让模型具备了:世界理解 + 行为策略 + 常识导航能力

    三、创新点

    • 将三类目标模态及其任意组合统一到一个模型中训练。
    • 在 9500+ 小时、10 平台 的大规模真实导航数据上混训。
    • 引入 模态 Dropout:随机屏蔽不同模态,提升鲁棒性与泛化能力。
    • 输出 多步动作序列。
    • 展现基础模型特性:可快速适应新模态(如卫星图)、可跨机器人迁移。

    四、解决了什么问题(What problems it solves)

    • 打破单模态导航的限制(过去模型无法混合训练不同目标表达)。
    • 统一多数据集训练,让 pose、图像、语言导航数据第一次可整合使用。
    • 显著提升未知环境与 OOD 指令下的泛化能力。
    • 提供一个可跨平台、跨任务的 通用导航策略

    五、还有什么不足(Limitations)

    • 语言导航性能仍有限,需要更大规模、精细整理的语言数据。
    • 轻量版 OmniVLA-edge 的语言能力不足,说明大模型视觉-语言先验不可或缺。
    • 合成标签数据存在噪声,可能成为进一步提升的瓶颈。
    • 仍需改进在“复杂长指令”“多步骤任务”中的理解和决策质量。

    六、完整系统架构总览

    6.1 总览

    6.2 系统组成结构

    模块详细清单:

    分类模块编号模块名称功能说明
    **核心模型 **1Vision BackboneSigLIP + DINOv2 视觉双编码器,提取图像特征
    2Vision ProjectorMLP,将视觉特征投影到 LLM 维度(1152→4096)
    3Proprio ProjectorMLP,将 2D 目标位姿(x,y,θ)投影到 LLM 维度(4→4096)
    4Tokenizer + Embedding文本分词,生成语言 token
    5LLM(Llama-2 7B)70 亿参数语言模型,作为核心推理引擎
    6Action HeadMLP / ResNet,输出 N 步动作序列
    辅助模块7MBRA遮蔽重标注模块,用于训练数据动作修正
    8FiLM语言-视觉调制融合模块(可选,默认关闭)
    数据处理9数据集加载器支持 GNM、LeLaN、FrodoBots、BDD、CAST 等五大数据集
    10图像预处理Resize、归一化、通道调整
    11数据增强图像扰动、裁剪、畸变(训练时)
    12动作归一化BOUNDS_Q99(95) 方法,将动作压缩到 [-1,1]
    训练模块13损失函数L1 动作损失 + 语言模型损失
    14优化器AdamW(lr=1e-4)
    15学习率调度Warmup + 线性衰减(10 万步)
    16LoRARank=32,高效微调
    17分布式训练DDP,多卡并行训练
    推理模块18传感器接口摄像头、GPS、IMU 输入
    19图像预处理(推理)GPU 加速,支持 BF16 / FP16
    20安全模块碰撞检测、速度限制、安全半径
    21机器人控制速度/角速度命令发送、底盘控制

    6.3 数据流

    (1) 训练

    (2) 推理

    机器人的平台概览