具身智能 - 标签 - 军舰的日志

2026年4月12日星期日

具身智能（Embodied AI）技术综述：从基础理论到工程实践

具身智能（Embodied AI）作为人工智能通往通用人工智能（AGI）的关键路径，近年来取得了突破性进展。本文基于 Every-Embodied 开源项目的丰富实践经验，系统性地综述具身智能领域的技术栈、算法演进、工程实践和前沿复现。全文涵盖：（1）具身智能的基础理论与发展历程；（2）机器人学基础（运动学、动力学、坐标变换）；（3）计算机视觉在具身场景中的应用；（4）强化学习与模仿学习；（5）视觉-语言-动作（VLA）大模型全景；（6）视觉语言导航（VLN）技术；（7）世界模型最新进展；（8）无人机控制与规划专题；（9）仿真环境与真机部署；（10）数据集与评估基准。本文强调"理论-实践-复现"三位一体的学习路径，为工程师和从业者提供从入门到前沿复现的完整技术指南。

关键词：具身智能、机器人学习、视觉-语言-动作模型、VLA、视觉语言导航、VLN、世界模型、强化学习、模仿学习、MuJoCo仿真

引言
具身智能基础理论
机器人学基础
具身场景的计算机视觉
强化学习与模仿学习
视觉-语言-动作（VLA）大模型
视觉语言导航（VLN）
具身世界模型
无人机控制与规划专题
仿真环境与真机部署
数据集与评估基准
工程实践指南
总结与展望

1. 引言

1.1 什么是具身智能？

人工智能的发展历程中，我们见证了从"非具身"（Disembodied）到"

2026-04-12 12:00

2025年12月31日星期三

2025 年大模型实践总结

具身智能

Scaling Laws

全链路解决方案

1. 动作捕捉

这一阶段负责采集人类的原始动作数据。图中列出了两种主要技术：

PN Studio (惯性动捕)： 利用惯性传感器套件。优点是成本低、易用、环境适应性强。
HybridTrack (光学动捕)： 利用摄像头和标记点。优点是鲁棒性强、精度极高。

2. 数据处理/输出

捕捉到的信号通过 Axis Studio 或 Hybrid Data Server 进行初步处理。

数据类型： 包括高精度动捕数据、6DOF（六自由度）数据、原始加速度（ACC）和陀螺仪（GYRO）数据，以及同步时间戳。
接口类型： 支持 MocapApi、VRPN 以及专门的 Isaac 插件。

3. 本体映射

这是将人类动作转化为机器人动作的关键步骤。

输入格式： 常见的 3D 动画格式，如 .FBX、.MBX、.BVH 和数据格式 .CSV。
重定向 (Retargeting)： 通过算法将人类的骨架运动映射到机器人的 URDF（统一机器人描述格式）模型上，确保动作符合机器人的物理结构约束。

4. 工作平台

展示了开发和仿真所使用的核心软件生态：

编程语言： C++ 和 Python。
中间件： ROS (Robot Operating System)，用于机器人控制。
仿真环境： NVIDIA ISAAC，一个强大的机器人仿真和人工智能训练平台。

5. 本体/产出

2025-12-31 08:00

总结大模型智能体具身智能氛围编程 ai实践模型架构软件栈

2025年7月13日星期日

英伟达全栈方案：LLM开发、推理与具身智能

NVIDIA 提供 TensorRT-LLM、Triton Inference Server 和 NVIDIA Inference Microservice (NIM) 等工具来优化和加速 AI 模型的推理，使模型运行速度提升高达 5 倍。这意味着您可以高效地部署和运行 LLM 以生成内容。同时，NVIDIA 还提供了用于 LLM 开发的工具和框架，如 NeMo，可以帮助开发者更轻松地创建和管理 LLM。

GROOT项目利用合成运动生成将人类演示转化为大量的训练数据，并通过 Isaac Lab 进行仿真训练，从而实现机器人学习。整个系统建立在 Jetson Thor 架构之上，并整合了 NVIDIA Omniverse 等工具，支持机器人数据的处理与生成、仿真与学习，以及简化扩展，最终目标是推进人形机器人技术的发展。

LLM 推理

LLM 开发

具身智能

参考资料

NVIDIA 从NIM到 AI infra 的全栈式解决方案概览

2025-07-13 20:00

nvidia llm tensorrt-llm nim nemo embodied-ai 具身智能 groot isaac-lab

2025年6月25日星期三

Gemini Robotics On-Device

本文档描述了Gemini Robotics On-Device，这是一款先进的视觉-语言-动作 (VLA) 模型，旨在本地设备上高效运行以实现通用机器人操作。该模型能够处理文本、图像和机器人本体感受数据作为输入，并输出机器人动作。训练使用了包含图像、文本以及机器人传感器和动作数据的数据集，并利用Google的Tensor Processing Units (TPUs)进行。评估结果表明，Gemini Robotics On-Device在泛化、指令遵循和快速适应方面表现出色，其性能与旗舰版Gemini Robotics 模型相似，同时超越了之前的最佳设备端VLA模型。该模型主要用于机器人应用的设备端部署，作为核心组件使机器人能够理解并响应视觉和语言指令，并在给定环境中采取行动。

Gemini Robotics On-Device 简介

模型概述与核心功能

Gemini Robotics On-Device 是一款尖端的视觉-语言-动作 (VLA) 模型，其设计宗旨是在本地设备上高效运行，以实现通用机器人操作。该模型能够支持广泛的任务、场景和多种机器人类型。

模型描述： “Gemini Robotics On-Device 是我们基于设备端 Gemma 模型的先进视觉-语言-动作 (VLA) 模型。它专为通用机器人操作而设计，可在本地设备上高效运行。该模型支持广泛的任务、场景和多种机器人类型。”
输入：接收文本（例如问题或指令）、图像（例如机器人环境视角）和机器人本体感受数据（数值）。
输出：生成机器人动作的数值。
架构：基于 Gemini Robotics 技术和设备端 Gemma 模型的设备端 VLA 模型。

2025-06-25 20:00

gemini-robotics vla on-device 机器人具身智能 tpu jax robot-learning

2025年6月23日星期一

盘古大模型关键技术解读

自动驾驶与具身智能的发展依赖于世界模型和虚拟环境的构建，通过数字孪生和4D物理空间模拟真实世界规律以解决训练数据不足和安全性问题。盘古NLP大模型借助外部工具提升行业智能水平，而具身智能需融合3D空间理解、物理推理及行为预测能力，最终实现在高危场景中超越人类的目标。尽管发展曲折，但SFT训练链条和通用机器人愿景已展现潜力，预测大模型则致力于打破数据孤岛，通过原子级表达实现跨场景统一推演，推动AI向善与社会效率提升。

基础模型

世界模型

具身智能

预测大模型

参考资料

2025-06-23 20:00

pangu huawei world-model embodied-intelligence autonomous-driving digital-twin 4d-simulation predictive-model 盘古具身智能

2025年6月15日星期日

跨本体具身大小脑协作框架 RoboOS

本文档介绍了 RoboOS，一个用于跨本体具身大小脑协作的框架。它首先概述了具身智能体的现有技术路线及其局限性，例如：在长程任务规划和跨本体协作方面的不足。该框架通过 “具身大脑”（负责全局感知与决策）和 “具身小脑”（提供即插即用的技能库）实现多本体协作控制。文档还重点说明了共享记忆系统在空间和时间维度上的数据中心化，以及云端协同如何支持多机器人、多任务场景，并展示了自定义微调集以提高任务分解和执行的准确性。

北京智源人工智能研究院发布RoboOS，具备跨本体的大小脑协作和具身感知推理能力

参考资料

2025-06-15 16:00

roboos embodied-intelligence cross-body-collaboration multi-robot shared-memory cloud-edge 具身智能跨本体协作智源

具身大脑 RoboBrain

本文档介绍了RoboBrain，一个由智源人工智能研究院开发的具身多模态大模型。它详细阐述了具身人工智能的发展趋势，并强调了大型模型在复杂长期操作任务中的重要性。文件中解释了任务规划、可操作区域感知和轨迹预测是RoboBrain实现端到端具身智能的关键能力。此外，它还介绍了用于训练RoboBrain的ShareRobot数据集，以及模型训练策略和实验结果，展示了RoboBrain在各项基准测试中超越现有模型的表现。

参考资料

2025-06-15 15:00

robobrain embodied-intelligence multimodal-llm task-planning trajectory-prediction sharerobot 具身智能具身大脑多模态大模型智源

飞行机器人—从物理智能到具身智能

该幻灯片介绍了飞行机器人从物理智能到具身智能的演变。概述了飞行机器人的研究方向，包括在复杂环境下生成全状态轨迹、无人机动态环境感知与建模，以及全自主微型无人机集群。幻灯片还展示了如何通过创新方法克服关键挑战，例如优化在线轨迹生成和开发低延迟动态感知系统。最后，它描绘了飞行机器人技术未来的发展路径，强调了从数学驱动到数据驱动的转变，以实现更强大的具身智能和涌现智能。

参考资料

飞行机器人—从物理智能到具身智能

2025-06-15 08:00

flying-robot embodied-intelligence physical-intelligence uav drone swarm-robotics trajectory-generation dynamic-perception 具身智能飞行机器人

2025年6月14日星期六

具身模型 NVIDIA Isaac GROOT N1 详解

本文档概述了 NVIDIA Isaac GROOT N1，一个专为具身人工智能（Physical AI）设计的人形机器人基础模型。该系统通过三个核心原则运作：泛化能力、双系统架构（结合高层认知与低层控制），以及一个涵盖现实世界数据、合成数据和网络数据的数据金字塔。 Isaac GROOT N1 利用大量训练数据来驱动人形机器人进行通用型操作，并通过 NVIDIA 的生态系统，包括 Omniverse 和 Isaac Lab 进行模拟与部署。推荐的的微调方法是：收集真实数据，也要生成对应比例的模拟数据。

Isaac GROOT Overview

Isaac GROOT N1 - Architecture

Isaac GROOT N1 - Data

Isaac GROOT N1 - Evaluation

Inference Benchmark

参考资料

2025-06-14 20:00

nvidia isaac-groot-n1 groot-n1 humanoid-robot embodied-intelligence physical-ai omniverse isaac-lab sim-to-real 具身智能

具身端侧芯片 NVIDlA Jetson Thor 和 NVIDIA Isaac ROS 介绍

本文档详细介绍了NVIDIA Jetson Thor，这是一款为下一代人形机器人设计的强大计算平台，其特点包括卓越的AI性能、高速传感器处理、行业领先的安全性和强大的安全性。此外，文档还介绍了NVIDIA Isaac ROS，一个利用CUDA加速库和AI模型加速机器人开发的软件框架，并提及了NITROS以优化ROS 2的硬件加速。最后，还展示了Jetson AGX Thor开发套件和未来产品路线图，强调了该技术在复杂机器人应用中的应用，例如自主机械臂和移动机器人。

Physical Al & Robotics

AGX Thor Product Overview

Isaac ROS for Robot Development

参考资料

具身端侧芯片 NVIDlA Jetson Thor 和 NVIDIA Isaac ROS 介绍

2025-06-14 08:00

nvidia jetson-thor isaac-ros ros-2 edge-computing embodied-intelligence physical-ai 具身智能

2025年6月8日星期日

北京智源人工智能研究院（BAAI）

本文档概述了北京智源人工智能研究院 (BAAI)，一个致力于推动人工智能原始创新的新型研发机构。它详细介绍了 BAAI 的发展历程，从2018年成立至今，以及其在大型人工智能模型领域取得的重大进展，包括推出 FlagOpen 开放平台。此外，来源还介绍了 BAAI 在具身智能和生命科学等前沿领域的具体研究成果，例如 RoboOS 2.0 和 OpenComplex2。整体而言，这份资料展现了 BAAI 在构建通用人工智能、推动开放生态以及解决现实世界问题方面的努力和愿景。

2025第七届北京智源大会 - 开幕式

2025-06-08 15:00

baai 智源智源大会人工智能大模型具身智能悟道悟界 roboos flagopen

机器人智能操作系统研制与应用

幻灯片概述了具识智能（Insight Robotics）公司研发的机器人智能操作系统 InsightOS。内容涵盖了该操作系统的背景意义、产品形态、关键技术及其应用示范。幻灯片着重介绍了 InsightOS 作为具身智能代理（EAP）与集成开发环境（IDE）结合的架构，并将其与安卓系统进行了对比，强调了其在制造业和家庭场景智能化的优势。此外，还展示了 InsightOS 在提高开发效率、处理运行异常和优化现场调度方面的实际效果，并提供了已适配的多种机器人型号清单。

2025第七届北京智源大会 - 具身技术与产业应用

2025-06-08 13:00

具身智能 ros insightos 具识智能 eap ide 机器人操作系统智能制造

华为云具身智能技术探索与实践

幻灯片概述了华为在具身智能领域的积极投入与战略。文件详细阐述了具身智能的发展趋势，包括大模型的应用、产业落地以及面临的挑战。华为提出了盘古具身智能大模型作为核心，通过一体化开发平台和工具链，旨在解决复杂任务规划与执行问题。此外，幻灯片还展示了具体的行业应用案例，例如智能制造和物流分拣，并强调了技术创新与产业合作的重要性，以推动具身智能的广泛应用。