embodied-ai - 标签 - 军舰的日志

2026年4月12日星期日

具身智能（Embodied AI）技术综述：从基础理论到工程实践

具身智能（Embodied AI）作为人工智能通往通用人工智能（AGI）的关键路径，近年来取得了突破性进展。本文基于 Every-Embodied 开源项目的丰富实践经验，系统性地综述具身智能领域的技术栈、算法演进、工程实践和前沿复现。全文涵盖：（1）具身智能的基础理论与发展历程；（2）机器人学基础（运动学、动力学、坐标变换）；（3）计算机视觉在具身场景中的应用；（4）强化学习与模仿学习；（5）视觉-语言-动作（VLA）大模型全景；（6）视觉语言导航（VLN）技术；（7）世界模型最新进展；（8）无人机控制与规划专题；（9）仿真环境与真机部署；（10）数据集与评估基准。本文强调"理论-实践-复现"三位一体的学习路径，为工程师和从业者提供从入门到前沿复现的完整技术指南。

关键词：具身智能、机器人学习、视觉-语言-动作模型、VLA、视觉语言导航、VLN、世界模型、强化学习、模仿学习、MuJoCo仿真

引言
具身智能基础理论
机器人学基础
具身场景的计算机视觉
强化学习与模仿学习
视觉-语言-动作（VLA）大模型
视觉语言导航（VLN）
具身世界模型
无人机控制与规划专题
仿真环境与真机部署
数据集与评估基准
工程实践指南
总结与展望

1. 引言

1.1 什么是具身智能？

人工智能的发展历程中，我们见证了从"非具身"（Disembodied）到"

2026-04-12 12:00

2026年2月23日星期一

具身智能大脑：VLA 模型架构解析与训练实战

🦞 太空龙虾：基于 OpenVLA、π0、π0.5、π0.6 等核心论文

📋 目录

VLA 模型概述
架构设计
数据工程
预训练策略
推理与部署
实战指南

1. VLA 模型概述

1.1 什么是 VLA 模型？

Vision-Language-Action (VLA) 是具身智能领域的核心范式，将三大核心能力端到端集成：

Vision：视觉感知（理解机器人看到的环境）
Language：语言理解（理解人类指令）
Action：动作生成（输出机器人执行的控制指令）

1.2 VLA 的革命性意义

传统机器人范式：

视觉感知 → 状态估计 → 任务规划 → 运动控制 → 执行

问题：各模块独立训练，误差累积，泛化能力弱

VLA 范式：

[图像 + 语言] → VLA 模型 → [动作序列]

优势：端到端训练，全局优化，泛化能力强

2. 架构设计

2.1 核心架构组件

2.1.1 视觉编码器（Vision Encoder）

作用： 将机器人视角的图像转换为特征表示

常用架构：

架构	特点	适用场景
ViT (Vision Transformer)	全局注意力，适合复杂场景	通用机器人操作
CLIP ViT	预训练视觉-语言对齐	开放场景理解
EfficientNet	高效，适合边缘部署	低功耗机器人
DINOv2	自监督预训练	少样本学习

输入维度：单帧图像：[B, 3, H, W] 多帧历史：[B, T, 3,

2026-02-23 10:00

vla vision-language-action embodied-ai robot-learning openvla pi0 diffusion-model lora behavior-cloning pytorch

2026年1月19日星期一

硅谷 101：物理 AI

2026-01-19 20:00

physical-ai ces-2026 nvidia geely robotics autonomous-driving embodied-ai ai

2025年7月13日星期日

英伟达全栈方案：LLM开发、推理与具身智能

NVIDIA 提供 TensorRT-LLM、Triton Inference Server 和 NVIDIA Inference Microservice (NIM) 等工具来优化和加速 AI 模型的推理，使模型运行速度提升高达 5 倍。这意味着您可以高效地部署和运行 LLM 以生成内容。同时，NVIDIA 还提供了用于 LLM 开发的工具和框架，如 NeMo，可以帮助开发者更轻松地创建和管理 LLM。

GROOT项目利用合成运动生成将人类演示转化为大量的训练数据，并通过 Isaac Lab 进行仿真训练，从而实现机器人学习。整个系统建立在 Jetson Thor 架构之上，并整合了 NVIDIA Omniverse 等工具，支持机器人数据的处理与生成、仿真与学习，以及简化扩展，最终目标是推进人形机器人技术的发展。

LLM 推理