8 篇文章带有标签 “VLA”

2026年4月12日星期日

具身智能（Embodied AI）技术综述：从基础理论到工程实践

具身智能（Embodied AI）作为人工智能通往通用人工智能（AGI）的关键路径，近年来取得了突破性进展。本文基于 Every-Embodied 开源项目的丰富实践经验，系统性地综述具身智能领域的技术栈、算法演进、工程实践和前沿复现。全文涵盖：（1）具身智能的基础理论与发展历程；（2）机器人学基础（运动学、动力学、坐标变换）；（3）计算机视觉在具身场景中的应用；（4）强化学习与模仿学习；（5）视觉-语言-动作（VLA）大模型全景；（6）视觉语言导航（VLN）技术；（7）世界模型最新进展；（8）无人机控制与规划专题；（9）仿真环境与真机部署；（10）数据集与评估基准。本文强调"理论-实践-复现"三位一体的学习路径，为工程师和从业者提供从入门到前沿复现的完整技术指南。

关键词：具身智能、机器人学习、视觉-语言-动作模型、VLA、视觉语言导航、VLN、世界模型、强化学习、模仿学习、MuJoCo仿真

引言
具身智能基础理论
机器人学基础
具身场景的计算机视觉
强化学习与模仿学习
视觉-语言-动作（VLA）大模型
视觉语言导航（VLN）
具身世界模型
无人机控制与规划专题
仿真环境与真机部署
数据集与评估基准
工程实践指南
总结与展望

人工智能的发展历程中，我们见证了从"非具身"（Disembodied）到"具身"（Embodied）的

2026年4月12日 45 分钟 12,715 字

2026年2月23日星期一

具身智能大脑：VLA 模型架构解析与训练实战

🦞 太空龙虾：基于 OpenVLA、π0、π0.5、π0.6 等核心论文

VLA 模型概述
架构设计
数据工程
预训练策略
推理与部署
实战指南

Vision-Language-Action (VLA) 是具身智能领域的核心范式，将三大核心能力端到端集成：

Vision：视觉感知（理解机器人看到的环境）
Language：语言理解（理解人类指令）
Action：动作生成（输出机器人执行的控制指令）

传统机器人范式：

视觉感知 → 状态估计 → 任务规划 → 运动控制 → 执行

问题：各模块独立训练，误差累积，泛化能力弱

VLA 范式：

[图像 + 语言] → VLA 模型 → [动作序列]

优势：端到端训练，全局优化，泛化能力强

作用： 将机器人视角的图像转换为特征表示

常用架构：

架构	特点	适用场景
ViT (Vision Transformer)	全局注意力，适合复杂场景	通用机器人操作
CLIP ViT	预训练视觉-语言对齐	开放场景理解
EfficientNet	高效，适合边缘部署	低功耗机器人
DINOv2	自监督预训练	少样本学习

输入维度：

单帧图像：[B, 3, H, W]
多帧历史：[B, T, 3, H, W]
深度图：[B, 1, H, W]（可选）

输出维度：

视觉特征：[B, N, D] 或 [B, D]
空间注意力图：[B, H, W]（可选）

2026年2月23日 7 分钟 1,996 字

VLA Vision-Language-Action 具身智能 OpenClaw

2025年6月25日星期三

Gemini Robotics On-Device

本文档描述了Gemini Robotics On-Device，这是一款先进的视觉-语言-动作 (VLA) 模型，旨在本地设备上高效运行以实现通用机器人操作。该模型能够处理文本、图像和机器人本体感受数据作为输入，并输出机器人动作。训练使用了包含图像、文本以及机器人传感器和动作数据的数据集，并利用Google的Tensor Processing Units (TPUs)进行。评估结果表明，Gemini Robotics On-Device在泛化、指令遵循和快速适应方面表现出色，其性能与旗舰版Gemini Robotics 模型相似，同时超越了之前的最佳设备端VLA模型。该模型主要用于机器人应用的设备端部署，作为核心组件使机器人能够理解并响应视觉和语言指令，并在给定环境中采取行动。

模型描述： “Gemini Robotics On-Device 是我们基于设备端 Gemma 模型的先进视觉-语言-动作 (VLA) 模型。它专为通用机器人操作而设计，可在本地设备上高效运行。该模型支持广泛的任务、场景和多种机器人类型。”
输入：接收文本（例如问题或指令）、图像（例如机器人环境视角）和机器人本体感受数据（数值）。
输出：生成机器人动作的数值。
架构：基于 Gemini Robotics 技术和设备端 Gemma 模型的设备端 VLA 模型。

图表数据：泛化基准测试在视觉、语义和动作泛

2025年6月25日 4 分钟 1,119 字

GeminiRobotics VLA 机器人具身智能

2025年6月8日星期日

机器人智能操作系统研制与应用

幻灯片概述了具识智能（Insight Robotics）公司研发的机器人智能操作系统 InsightOS。内容涵盖了该操作系统的背景意义、产品形态、关键技术及其应用示范。幻灯片着重介绍了 InsightOS 作为具身智能代理（EAP）与集成开发环境（IDE）结合的架构，并将其与安卓系统进行了对比，强调了其在制造业和家庭场景智能化的优势。此外，还展示了 InsightOS 在提高开发效率、处理运行异常和优化现场调度方面的实际效果，并提供了已适配的多种机器人型号清单。

2025第七届北京智源大会 - 具身技术与产业应用

2025年6月8日 1 分钟 171 字

具身智能 VLA ROS InsightOS 具识智能

华为云具身智能技术探索与实践

幻灯片概述了华为在具身智能领域的积极投入与战略。文件详细阐述了具身智能的发展趋势，包括大模型的应用、产业落地以及面临的挑战。华为提出了盘古具身智能大模型作为核心，通过一体化开发平台和工具链，旨在解决复杂任务规划与执行问题。此外，幻灯片还展示了具体的行业应用案例，例如智能制造和物流分拣，并强调了技术创新与产业合作的重要性，以推动具身智能的广泛应用。