GeminiRobotics - 标签 - 军舰的日志

Gemini Robotics On-Device

本文档描述了Gemini Robotics On-Device，这是一款先进的视觉-语言-动作 (VLA) 模型，旨在本地设备上高效运行以实现通用机器人操作。该模型能够处理文本、图像和机器人本体感受数据作为输入，并输出机器人动作。训练使用了包含图像、文本以及机器人传感器和动作数据的数据集，并利用Google的Tensor Processing Units (TPUs)进行。评估结果表明，Gemini Robotics On-Device在泛化、指令遵循和快速适应方面表现出色，其性能与旗舰版Gemini Robotics 模型相似，同时超越了之前的最佳设备端VLA模型。该模型主要用于机器人应用的设备端部署，作为核心组件使机器人能够理解并响应视觉和语言指令，并在给定环境中采取行动。

模型描述： “Gemini Robotics On-Device 是我们基于设备端 Gemma 模型的先进视觉-语言-动作 (VLA) 模型。它专为通用机器人操作而设计，可在本地设备上高效运行。该模型支持广泛的任务、场景和多种机器人类型。”
输入：接收文本（例如问题或指令）、图像（例如机器人环境视角）和机器人本体感受数据（数值）。
输出：生成机器人动作的数值。
架构：基于 Gemini Robotics 技术和设备端 Gemma 模型的设备端 VLA 模型。

图表数据：泛化基准测试在视觉、语义和动作泛

2025年6月25日 4 分钟 1,119 字

GeminiRobotics VLA 机器人具身智能

1 篇文章带有标签 “GeminiRobotics”

2025年6月25日星期三

Gemini Robotics On-Device

1 篇文章带有标签 “GeminiRobotics”

2025年6月25日 星期三

Gemini Robotics On-Device

2025年6月25日星期三