17 篇文章带有标签 “具身智能”

具身智能(Embodied AI)技术综述:从基础理论到工程实践

具身智能(Embodied AI)作为人工智能通往通用人工智能(AGI)的关键路径,近年来取得了突破性进展。本文基于 Every-Embodied 开源项目的丰富实践经验,系统性地综述具身智能领域的技术栈、算法演进、工程实践和前沿复现。全文涵盖:(1)具身智能的基础理论与发展历程;(2)机器人学基础(运动学、动力学、坐标变换);(3)计算机视觉在具身场景中的应用;(4)强化学习与模仿学习;(5)视觉-语言-动作(VLA)大模型全景;(6)视觉语言导航(VLN)技术;(7)世界模型最新进展;(8)无人机控制与规划专题;(9)仿真环境与真机部署;(10)数据集与评估基准。本文强调"理论-实践-复现"三位一体的学习路径,为工程师和从业者提供从入门到前沿复现的完整技术指南。

关键词:具身智能、机器人学习、视觉-语言-动作模型、VLA、视觉语言导航、VLN、世界模型、强化学习、模仿学习、MuJoCo仿真

  1. 引言
  2. 具身智能基础理论
  3. 机器人学基础
  4. 具身场景的计算机视觉
  5. 强化学习与模仿学习
  6. 视觉-语言-动作(VLA)大模型
  7. 视觉语言导航(VLN)
  8. 具身世界模型
  9. 无人机控制与规划专题
  10. 仿真环境与真机部署
  11. 数据集与评估基准
  12. 工程实践指南
  13. 总结与展望

人工智能的发展历程中,我们见证了从"非具身"(Disembodied)到"具身"(Embodied)的

具身智能大脑:VLA 模型架构解析与训练实战

🦞 太空龙虾:基于 OpenVLA、π0、π0.5、π0.6 等核心论文

  1. VLA 模型概述
  2. 架构设计
  3. 数据工程
  4. 预训练策略
  5. 推理与部署
  6. 实战指南

Vision-Language-Action (VLA) 是具身智能领域的核心范式,将三大核心能力端到端集成:

  • Vision:视觉感知(理解机器人看到的环境)
  • Language:语言理解(理解人类指令)
  • Action:动作生成(输出机器人执行的控制指令)

传统机器人范式:

视觉感知 → 状态估计 → 任务规划 → 运动控制 → 执行

问题:各模块独立训练,误差累积,泛化能力弱

VLA 范式:

[图像 + 语言] → VLA 模型 → [动作序列]

优势:端到端训练,全局优化,泛化能力强

作用: 将机器人视角的图像转换为特征表示

常用架构:

架构 特点 适用场景
ViT (Vision Transformer) 全局注意力,适合复杂场景 通用机器人操作
CLIP ViT 预训练视觉-语言对齐 开放场景理解
EfficientNet 高效,适合边缘部署 低功耗机器人
DINOv2 自监督预训练 少样本学习

输入维度:

  • 单帧图像:[B, 3, H, W]
  • 多帧历史:[B, T, 3, H, W]
  • 深度图:[B, 1, H, W](可选)

输出维度:

  • 视觉特征:[B, N, D][B, D]
  • 空间注意力图:[B, H, W](可选)

2025 年大模型实践总结

这一阶段负责采集人类的原始动作数据。图中列出了两种主要技术:

  • PN Studio (惯性动捕): 利用惯性传感器套件。优点是成本低、易用、环境适应性强。
  • HybridTrack (光学动捕): 利用摄像头和标记点。优点是鲁棒性强、精度极高。

捕捉到的信号通过 Axis StudioHybrid Data Server 进行初步处理。

  • 数据类型: 包括高精度动捕数据、6DOF(六自由度)数据、原始加速度(ACC)和陀螺仪(GYRO)数据,以及同步时间戳。
  • 接口类型: 支持 MocapApi、VRPN 以及专门的 Isaac 插件。

这是将人类动作转化为机器人动作的关键步骤。

  • 输入格式: 常见的 3D 动画格式,如 .FBX.MBX.BVH 和数据格式 .CSV
  • 重定向 (Retargeting): 通过算法将人类的骨架运动映射到机器人的 URDF(统一机器人描述格式)模型上,确保动作符合机器人的物理结构约束。

展示了开发和仿真所使用的核心软件生态:

  • 编程语言: C++ 和 Python。
  • 中间件: ROS (Robot Operating System),用于机器人控制。
  • 仿真环境: NVIDIA ISAAC,一个强大的机器人仿真和人工智能训练平台。

最终的应用成果,分为两个方向:

硬件执行: 将动作应用到不同形态的机器人上,包括人形机器人、机械臂、灵巧手以及仿生机器人(如四足机器人)。

英伟达全栈方案:LLM开发、推理与具身智能

NVIDIA 提供 TensorRT-LLM、Triton Inference Server 和 NVIDIA Inference Microservice (NIM) 等工具来优化和加速 AI 模型的推理,使模型运行速度提升高达 5 倍。这意味着您可以高效地部署和运行 LLM 以生成内容。 同时,NVIDIA 还提供了用于 LLM 开发的工具和框架,如 NeMo,可以帮助开发者更轻松地创建和管理 LLM。

GROOT项目利用 合成运动生成 将人类演示转化为大量的训练数据,并通过 Isaac Lab 进行仿真训练,从而实现 机器人学习。整个系统建立在 Jetson Thor 架构之上,并整合了 NVIDIA Omniverse 等工具,支持机器人数据的处理与生成、仿真与学习,以及简化扩展,最终目标是推进 人形机器人技术 的发展。

Gemini Robotics On-Device

本文档描述了Gemini Robotics On-Device,这是一款先进的视觉-语言-动作 (VLA) 模型,旨在本地设备上高效运行以实现通用机器人操作。该模型能够处理文本、图像和机器人本体感受数据作为输入,并输出机器人动作。训练使用了包含图像、文本以及机器人传感器和动作数据的数据集,并利用Google的Tensor Processing Units (TPUs)进行。评估结果表明,Gemini Robotics On-Device在泛化、指令遵循和快速适应方面表现出色,其性能与旗舰版Gemini Robotics 模型相似,同时超越了之前的最佳设备端VLA模型。该模型主要用于机器人应用的设备端部署,作为核心组件使机器人能够理解并响应视觉和语言指令,并在给定环境中采取行动。

  • 模型描述: “Gemini Robotics On-Device 是我们基于设备端 Gemma 模型的先进视觉-语言-动作 (VLA) 模型。它专为通用机器人操作而设计,可在本地设备上高效运行。该模型支持广泛的任务、场景和多种机器人类型。”
  • 输入: 接收文本(例如问题或指令)、图像(例如机器人环境视角)和机器人本体感受数据(数值)。
  • 输出: 生成机器人动作的数值。
  • 架构: 基于 Gemini Robotics 技术和设备端 Gemma 模型的设备端 VLA 模型。

图表数据: 泛化基准测试 在视觉、语义和动作泛

盘古大模型关键技术解读

自动驾驶与具身智能的发展依赖于世界模型和虚拟环境的构建,通过数字孪生和4D物理空间模拟真实世界规律以解决训练数据不足和安全性问题。盘古NLP大模型借助外部工具提升行业智能水平,而具身智能需融合3D空间理解、物理推理及行为预测能力,最终实现在高危场景中超越人类的目标。尽管发展曲折,但SFT训练链条和通用机器人愿景已展现潜力,预测大模型则致力于打破数据孤岛,通过原子级表达实现跨场景统一推演,推动AI向善与社会效率提升。

跨本体具身大小脑协作框架 RoboOS

本文档介绍了 RoboOS,一个用于跨本体具身大小脑协作的框架。它首先概述了具身智能体的现有技术路线及其局限性,例如:在长程任务规划和跨本体协作方面的不足。该框架通过 “具身大脑”(负责全局感知与决策)和 “具身小脑”(提供即插即用的技能库)实现多本体协作控制。文档还重点说明了共享记忆系统空间和时间维度上的数据中心化,以及云端协同如何支持多机器人、多任务场景,并展示了自定义微调集以提高任务分解和执行的准确性。

具身大脑 RoboBrain

本文档介绍了RoboBrain,一个由智源人工智能研究院开发的具身多模态大模型。它详细阐述了具身人工智能的发展趋势,并强调了大型模型在复杂长期操作任务中的重要性。文件中解释了任务规划可操作区域感知轨迹预测是RoboBrain实现端到端具身智能的关键能力。此外,它还介绍了用于训练RoboBrain的ShareRobot数据集,以及模型训练策略实验结果,展示了RoboBrain在各项基准测试中超越现有模型的表现。

飞行机器人—从物理智能到具身智能

该幻灯片介绍了飞行机器人从物理智能到具身智能的演变。概述了飞行机器人的研究方向,包括在复杂环境下生成全状态轨迹、无人机动态环境感知与建模,以及全自主微型无人机集群。幻灯片还展示了如何通过创新方法克服关键挑战,例如优化在线轨迹生成和开发低延迟动态感知系统。最后,它描绘了飞行机器人技术未来的发展路径,强调了从数学驱动到数据驱动的转变,以实现更强大的具身智能和涌现智能

具身模型 NVIDIA Isaac GROOT N1 详解

本文档概述了 NVIDIA Isaac GROOT N1,一个专为具身人工智能(Physical AI)设计的人形机器人基础模型。该系统通过三个核心原则运作:泛化能力双系统架构(结合高层认知与低层控制),以及一个涵盖现实世界数据、合成数据和网络数据的数据金字塔。 Isaac GROOT N1 利用大量训练数据来驱动人形机器人进行通用型操作,并通过 NVIDIA 的生态系统,包括 OmniverseIsaac Lab 进行模拟与部署。推荐的的微调方法是:收集真实数据,也要生成对应比例的模拟数据

具身端侧芯片 NVIDlA Jetson Thor 和 NVIDIA Isaac ROS 介绍

本文档详细介绍了NVIDIA Jetson Thor,这是一款为下一代人形机器人设计的强大计算平台,其特点包括卓越的AI性能、高速传感器处理、行业领先的安全性和强大的安全性。此外,文档还介绍了NVIDIA Isaac ROS,一个利用CUDA加速库和AI模型加速机器人开发的软件框架,并提及了NITROS以优化ROS 2的硬件加速。最后,还展示了Jetson AGX Thor开发套件和未来产品路线图,强调了该技术在复杂机器人应用中的应用,例如自主机械臂和移动机器人。

北京智源人工智能研究院(BAAI)

本文档概述了北京智源人工智能研究院 (BAAI),一个致力于推动人工智能原始创新的新型研发机构。它详细介绍了 BAAI 的发展历程,从2018年成立至今,以及其在大型人工智能模型领域取得的重大进展,包括推出 FlagOpen 开放平台。此外,来源还介绍了 BAAI具身智能生命科学等前沿领域的具体研究成果,例如 RoboOS 2.0OpenComplex2。整体而言,这份资料展现了 BAAI构建通用人工智能推动开放生态以及解决现实世界问题方面的努力和愿景。

机器人智能操作系统研制与应用

幻灯片概述了具识智能(Insight Robotics)公司研发的机器人智能操作系统 InsightOS。内容涵盖了该操作系统的背景意义、产品形态、关键技术及其应用示范。幻灯片着重介绍了 InsightOS 作为具身智能代理(EAP)集成开发环境(IDE)结合的架构,并将其与安卓系统进行了对比,强调了其在制造业和家庭场景智能化的优势。此外,还展示了 InsightOS 在提高开发效率、处理运行异常和优化现场调度方面的实际效果,并提供了已适配的多种机器人型号清单。

华为云具身智能技术探索与实践

幻灯片概述了华为在具身智能领域的积极投入与战略。文件详细阐述了具身智能的发展趋势,包括大模型的应用产业落地以及面临的挑战。华为提出了盘古具身智能大模型作为核心,通过一体化开发平台工具链,旨在解决复杂任务规划与执行问题。此外,幻灯片还展示了具体的行业应用案例,例如智能制造物流分拣,并强调了技术创新产业合作的重要性,以推动具身智能的广泛应用。