文档 - 第 11 页 - 军舰的日志

2025年7月13日星期日

英伟达全栈方案：LLM开发、推理与具身智能

NVIDIA 提供 TensorRT-LLM、Triton Inference Server 和 NVIDIA Inference Microservice (NIM) 等工具来优化和加速 AI 模型的推理，使模型运行速度提升高达 5 倍。这意味着您可以高效地部署和运行 LLM 以生成内容。同时，NVIDIA 还提供了用于 LLM 开发的工具和框架，如 NeMo，可以帮助开发者更轻松地创建和管理 LLM。

GROOT项目利用合成运动生成将人类演示转化为大量的训练数据，并通过 Isaac Lab 进行仿真训练，从而实现机器人学习。整个系统建立在 Jetson Thor 架构之上，并整合了 NVIDIA Omniverse 等工具，支持机器人数据的处理与生成、仿真与学习，以及简化扩展，最终目标是推进人形机器人技术的发展。

LLM 推理

LLM 开发

具身智能

参考资料

NVIDIA 从NIM到 AI infra 的全栈式解决方案概览

2025-07-13 20:00

2025年7月9日星期三

大模型风向标！OpenRouter平台谁最火？热门应用大揭秘！

OpenRouter 是一个创新的统一 API 平台，旨在简化开发者和企业对数百种大型语言模型（LLMs）的访问和使用，提供一个与 OpenAI Chat API 类似的标准化接口，让用户能够通过单一入口轻松切换并调用来自不同提供商（如 OpenAI、Anthropic、Google 等）的模型。它不仅能根据成本、性能等需求智能路由请求，帮助优化开销，还提供统一账单和实时数据洞察，极大地降低了多模型集成的复杂性，提升了 AI 应用开发的效率和灵活性。

OpenRouter

🚀 大模型霸主争夺战：Google、Deepseek、Anthropic三足鼎立！

如果你还在纠结用哪个大模型，不妨看看OpenRouter的数据！截止到2025年7月7日，整个平台上的令牌使用量已经突破了2.4万亿（2.4T）！这说明AI应用场景真的是越来越广啦！

而在这场“AI大混战”中，Google爸爸的Gemini系列模型绝对是遥遥领先，市场份额高达43.2%！几乎占据了半壁江山！其次是黑马Deepseek（19.1%）和我们熟悉的Anthropic（18.7%）。OpenAI虽然也榜上有名，但市场份额相对较小，只有6.2%。看来，大模型的竞争格局正在悄悄发生变化哦！

🤖 热门模型C位出道，实力派选手个个能打！

Google Gemini 2.5 Flash / Pro系列： 妥妥的“劳模”担当！无论是处理复杂的代码，还是做日常的聊天翻译，它都游刃有余。特别是Gemini 2.5 Flash，在编程辅助、智能代理和简化大型语言模型等方面都表现亮眼。很多姐妹用它来写代码、做智能问答，简直不要太方便！

2025-07-09 20:00

openrouter llm ai-apps model-ranking model-routing gemini claude deepseek ai-trends

2025年7月5日星期六

探索多模态大模型 GLM-4.1V-Thinking

本文档介绍了多模态大模型GLM-4.1V-Thinking，这是一个基于 GLM-4-9B-0414 的开源视觉语言模型，通过强化学习显著提升了其性能。文档详细阐述了该模型在设计图转代码（Design2Code）任务上的卓越表现，能将设计图转换为高质量的HTML/CSS代码，并提供了与Qwen-2.5-VL-32B-Instruct的对比示例。此外，资源还展示了如何通过智谱API免费使用GLM-4.1V-Thinking进行图像识别，并给出了一个安全检测系统的代码示例，该系统能够识别图像中的火灾、烟雾以及人员安全帽佩戴情况，并进行坐标标注，强调了模型在实际应用中的潜力。

模型介绍

基于 GLM-4-9B-0414 基座模型，我们推出新版VLM开源模型 GLM-4.1V-9B-Thinking ，引入思考范式，通过课程采样强化学习 RLCS（Reinforcement Learning with Curriculum Sampling）全面提升模型能力，达到 10B 参数级别的视觉语言模型的最强性能，在18个榜单任务中持平甚至超过8倍参数量的 Qwen-2.5-VL-72B。 论文 GLM-4.1V-Thinking：通过可扩展强化学习实现通用多模态推理

模型文件

在线体验

基准性能

2025-07-05 10:00

glm-4.1v-thinking glm-4v multimodal vlm design2code zhipuai python safety-detection 火灾安全帽

2025年7月3日星期四

Jetson AGX Orin大模型部署挑战与系统升级

这些文档主要围绕着在 NVIDIA Jetson AGX Orin 开发者套件上部署 多模态大型语言模型 (LLMs) 所面临的 系统升级挑战。核心问题在于，当前系统的 JetPack、Ubuntu、CUDA 和 GPU 驱动版本 过低，无法满足 vLLM 和 Ollama 等主流推理框架对 更高 CUDA 和驱动版本 的要求。文章详细阐述了 升级至 JetPack 6.0 是解决兼容性问题的关键，但这将强制要求 将 Ubuntu 升级到 22.04，从而导致 需要重装系统 和 可能与 ROS1 产生兼容性问题 等一系列复杂挑战。此外，文档还探讨了 替代推理引擎和云端推理 等备选方案，但最终建议进行 系统全面升级 以实现长期兼容性和性能优化。

系统信息

硬件环境：ARM64 架构，具体为 NVIDIA Jetson AGX Orin 开发者套件。

当前系统配置

软件环境：
- Ubuntu版本：20.04
- GPU驱动版本：515
- JetPack版本：5.1.4
- CUDA版本：11.4
- Python版本：3.8
- 机器人操作系统：ROS1（Robot Operating System 1）

系统升级需求

Ubuntu版本：22.04
GPU驱动版本：535
JetPack版本：>=6.0
CUDA版本：>=12.2
Python版本: 3.9 - 3.12

2025-07-03 16:00

jetson jetson-agx-orin edge-ai multimodal vllm ollama cuda jetpack arm64 人形机器人

2025年7月2日星期三

DXT（桌面扩展）开发指南

本文档主要介绍了 DXT (桌面扩展) 的开发指南，它是一种将 MCP 服务器 转换为可分发扩展的工具。文档详述了如何使用 DXT 工具来 初始化、验证和打包 扩展，并提供了 目录结构示例。此外，还强调了在打包 Python 依赖项时需要注意的 跨平台兼容性问题，特别是在不同架构（如 arm64 macOS 与 x86_64 Linux）之间。最终目标是创建一个 .dxt 文件，其中包含所有必需的服务器文件和元数据，以便于分发和管理。

graph TD
    A[DXT扩展] -->|打包| B(calculator-mcp-server)
    B -->|元数据和配置| C[manifest.json]
    B -->|实现| D[server/*.py]
    B -->|依赖库| E[server/lib/]
    B -->|图标| F[icon.png]
    
    G[MCPHub] -->|运行| H[MCP Servers]
    H -->|包含| B
    H -->|管理| I[其他 MCP Servers]
    
    J[开发者] -->|开发| B
    J -->|使用| K[DXT工具]
    K -->|初始化| C
    K -->|打包| A
// ...

DXT 的核心是包含您的整个 MCP 服务器和 manifest.json 的简单 zip 文件。

2025-07-02 22:00

dxt desktop-extension mcp mcp-server mcphub calculator-mcp-server python docker cross-platform

2025年7月1日星期二

Docker AI 功能详解与应用

本文档详细介绍了 Docker AI 的新功能，旨在通过集成人工智能提升开发者的体验。主要亮点包括 Docker Model Runner，它简化了 AI 模型的管理和部署，支持从各种注册表拉取和运行模型，并通过兼容 OpenAI 的 API 提供服务。此外，MCP Toolkit 实现了容器化 MCP 服务器的无缝设置和管理，而 Ask Gordon 则作为嵌入式 AI 助手，在 Docker Desktop 和 CLI 中提供上下文帮助，包括改进 Dockerfile 和故障排除等。这些功能共同旨在简化 AI 驱动型应用程序的开发和部署。

Docker AI 配置

✅ Enable Docker AI (启用 Docker AI)
- 在 Docker Desktop 和命令行（CLI）中启用 “Ask Gordon” 功能。
✅ Enable Docker Model Runner (启用 Docker 模型运行器)
- 启用 GPU 加速的推理引擎，用于运行 AI 模型。
✅ Enable Docker MCP Toolkit (启用 Docker MCP 工具套件)
- 在 Docker Desktop 中启用 “MCP Toolkit” 功能。

registry-mirrors: https://registry.cn-hangzhou.aliyuncs.com
- 这是 Docker 镜像的镜像地址，国内使用阿里云的镜像加速器可以提高拉取镜像的速度。

2025-07-01 08:00

docker docker-ai docker-model-runner mcp-toolkit ask-gordon mcp mcp-server openai-api llm oci-artifacts

2025年6月30日星期一

Gemini CLI 项目分析与开发指南

本文档围绕着初学者如何分析并开发一个类似 Gemini CLI 的项目提供了详尽的指南。核心思想是将复杂的项目分解为可管理的部分，并提供分步学习路径。指南强调了理解项目架构（如前端CLI和后端Core的职责）、熟悉代码结构、掌握核心功能（如API交互和工具系统）、以及通过实践进行学习的重要性。通过阅读文档、运行和调试代码、并尝试进行小修改，学习者能够逐步掌握此类项目的开发技能。在 VSCode 中，使用 GitHub Copilot 的 Ask 模式分别对大模型（如 GPT-4.1、GPT-4o、Gemini 2.5 Pro 和 Claude Sonnet 系列）进行提问并总结。

问题

#codebase 我作为初学者，如何开始分析这个项目，以达到学习的目的，可以手动开发这种类型的项目。

下面是不同大模型给出的回答：

GPT-4.1

作为初学者，分析并学习 Gemini CLI 这样的大型项目，可以按照以下步骤进行，帮助你理解架构、掌握开发流程，并为将来手动开发类似项目打下基础：

1. 阅读架构文档，理解整体结构

你可以从 architecture.md 开始，重点关注以下内容：

核心组件：项目分为 CLI 前端（cli）、Core 后端（core）和工具模块（tools）。
交互流程：用户输入 → CLI 处理 → Core 构建请求并与 Gemini API 通信 → 工具调用（如有）→ 返回结果 → CLI 展示。
设计原则：模块化、可扩展性、良好的用户体验。

2025-06-30 08:00

gemini-cli github-copilot project-analysis learning-guide typescript monorepo mcp llm 软件开发

2025年6月29日星期日

Desktop Extensions (DXT)

桌面扩展（DXT）是一种 zip 格式的软件包，旨在简化本地 MCP 服务器的安装和分发。它类似于其他应用程序扩展，通过包含一个本地 MCP 服务器及其功能的 manifest.json 文件，允许用户实现一键安装。该项目不仅提供扩展规范和用于创建 DXT 文件的 CLI 工具，还开源了 Claude for macOS and Windows 中用于加载和验证 DXT 扩展的代码，旨在为 MCP 服务器构建一个开放且可移植的生态系统。开发者只需将 MCP 服务器文件、manifest.json 放入文件夹并打包成 .dxt 文件，即可轻松创建扩展，从而方便地在支持 DXT 的应用程序中运行本地 AI 工具。

桌面扩展 (DXT)

桌面扩展 (.dxt) 是一种 zip 压缩包，其中包含一个本地 MCP 服务器和一个 manifest.json 文件，该文件描述了服务器及其功能。其格式在理念上类似于 Chrome 扩展 (.crx) 或 VS Code 扩展 (.vsix)，使用户能够一键安装本地 MCP 服务器。

本仓库提供三个组件：MANIFEST.md 中的扩展规范，一个用于创建扩展的 CLI 工具（参见 CLI.md），以及 Claude for macOS and Windows 用于加载和验证 DXT 扩展的代码 (src/index.ts)。

2025-06-29 12:00

dxt desktop-extension mcp mcp-server anthropic claude extension-packaging nodejs python

DXT Manifest.json 规范

该文档概述了 DXT Manifest.json 规范，这是一个用于定义扩展元数据和配置的JSON文件标准。它详细说明了 manifest.json 文件的结构，包括 必填字段 如版本、名称、作者和服务器配置，以及 可选字段 如显示名称、描述、存储库信息和屏幕截图。此外，规范还涵盖了 兼容性要求（针对客户端、平台和运行时）、服务器配置（支持Python、Node.js和二进制类型，并允许平台特定覆盖和变量替换），以及 用户可配置选项 的定义和传递方式。最后，文档解释了如何声明扩展提供的 工具和提示，并支持动态生成这些功能。

Manifest 结构

manifest.json 文件包含所有扩展的元数据和配置。大多数字段是可选的。

一个只包含必填字段的基本 manifest.json 如下所示：

2025-06-29 08:00

dxt manifest-json mcp mcp-server spec extension-config nodejs python binary

2025年6月28日星期六

Gemini CLI - 开源命令行 AI 智能体

Gemini CLI 是一个专为软件开发者设计的、由AI驱动的交互式命令行工具。作为一个智能助手，它可以直接在您的终端中帮助您完成各种软件工程任务，例如解释代码、编写新功能、修复错误和自动化工作流程。它能够理解您项目的上下文，安全地读写文件、执行命令，并与您协作，从而提高开发效率，是您开发流程中的得力伙伴。

介绍

一个将 Gemini 强大功能直接带入你终端的开源 AI 智能体。

Gemini CLI 提供了强大的 AI 功能，涵盖了从代码理解和文件操作，到命令执行和动态故障排除的方方面面。它对您的命令行体验进行了根本性的升级，让您能够通过自然语言编写代码、调试问题并简化工作流程。

其强大之处源于内置工具，使您能够：

使用 Google 搜索来奠定提示基础，以便您可以抓取网页并为模型提供实时的外部上下文。
通过内置支持模型上下文协议 (MCP) 或捆绑扩展来扩展 Gemini CLI 的功能。
自定义提示和指令，根据您的具体需求和工作流程定制 Gemini。
通过在脚本中非交互式地调用 Gemini CLI，实现任务自动化并与现有工作流程集成。

Gemini CLI 提供业界最高的免费使用限额，每分钟可发送 60 个模型请求，每天最多 1,000 个模型请求。

安装

安装 Node.js

安装最新的 LTS 版本

nvm install --lts

安装最新的稳定版本

nvm install node

2025-06-28 08:00

gemini-cli gemini ai-agent cli nodejs npm mcp llm 软件开发

2025年6月25日星期三

Gemini Robotics On-Device

本文档描述了Gemini Robotics On-Device，这是一款先进的视觉-语言-动作 (VLA) 模型，旨在本地设备上高效运行以实现通用机器人操作。该模型能够处理文本、图像和机器人本体感受数据作为输入，并输出机器人动作。训练使用了包含图像、文本以及机器人传感器和动作数据的数据集，并利用Google的Tensor Processing Units (TPUs)进行。评估结果表明，Gemini Robotics On-Device在泛化、指令遵循和快速适应方面表现出色，其性能与旗舰版Gemini Robotics 模型相似，同时超越了之前的最佳设备端VLA模型。该模型主要用于机器人应用的设备端部署，作为核心组件使机器人能够理解并响应视觉和语言指令，并在给定环境中采取行动。

Gemini Robotics On-Device 简介

模型概述与核心功能

Gemini Robotics On-Device 是一款尖端的视觉-语言-动作 (VLA) 模型，其设计宗旨是在本地设备上高效运行，以实现通用机器人操作。该模型能够支持广泛的任务、场景和多种机器人类型。

模型描述： “Gemini Robotics On-Device 是我们基于设备端 Gemma 模型的先进视觉-语言-动作 (VLA) 模型。它专为通用机器人操作而设计，可在本地设备上高效运行。该模型支持广泛的任务、场景和多种机器人类型。”
输入：接收文本（例如问题或指令）、图像（例如机器人环境视角）和机器人本体感受数据（数值）。
输出：生成机器人动作的数值。
架构：基于 Gemini Robotics 技术和设备端 Gemma 模型的设备端 VLA 模型。

2025-06-25 20:00

gemini-robotics vla on-device 机器人具身智能 tpu jax robot-learning

2025年6月24日星期二

FastMCP 实战：构建计算器 MCP 服务器与客户端

该文档详细介绍了如何使用 FastMCP 框架来构建和集成计算器 MCP 服务器与客户端。它首先指导用户初始化并设置开发环境，包括创建虚拟环境和安装 FastMCP。接着，文档展示了MCP 服务器的开发过程，通过 main.py 文件定义了加、减、乘、除、幂等计算工具，并配置了项目元数据文件 pyproject.toml。此外，文档还提供了构建和发布服务器到 PyPI 的步骤，以及运行 MCP 服务器的方法，包括使用 MCP Inspector 进行调试和通过 FastMCP CLI 运行。最后，文档展示了MCP 客户端的开发，演示了客户端如何调用服务器上的工具，并深入探讨了将 MCP 客户端与 OpenAI 集成，实现通过自然语言与计算器服务器进行交互的能力。

创建 MCP 服务器

初始化

uv init calculator-mcp-server
cd calculator-mcp-server

创建虚拟环境

uv venv

Using CPython 3.10.9 interpreter at: /opt/miniconda/bin/python3.10
Creating virtual environment at: .venv
Activate with: source .venv/bin/activate

激活虚拟环境

source .venv/bin/activate

2025-06-24 20:00

fastmcp mcp mcp-server mcp-client python openai uv mcp-inspector calculator

2025年6月23日星期一

盘古大模型关键技术解读

自动驾驶与具身智能的发展依赖于世界模型和虚拟环境的构建，通过数字孪生和4D物理空间模拟真实世界规律以解决训练数据不足和安全性问题。盘古NLP大模型借助外部工具提升行业智能水平，而具身智能需融合3D空间理解、物理推理及行为预测能力，最终实现在高危场景中超越人类的目标。尽管发展曲折，但SFT训练链条和通用机器人愿景已展现潜力，预测大模型则致力于打破数据孤岛，通过原子级表达实现跨场景统一推演，推动AI向善与社会效率提升。

基础模型

世界模型

具身智能

预测大模型

参考资料

2025-06-23 20:00

pangu huawei world-model embodied-intelligence autonomous-driving digital-twin 4d-simulation predictive-model 盘古具身智能

2025年6月22日星期日

人工智能时代的软件 (Software in the era of AI) - Andrej Karpathy

主要介绍了软件开发领域正在经历的重大变革，将其分为软件1.0（传统手工编码）、软件2.0（基于神经网络权重训练）和软件3.0（通过自然语言提示编程大型语言模型）。演讲者将大型语言模型（LLMs）比作新型操作系统和基础设施，指出它们既具备公用事业的性质（按量付费、集中式），也展现出类似芯片制造厂和操作系统的特征，且目前仍处于早期阶段（类似于1960年代的计算）。进一步探讨了LLMs的认知特性（如广博知识、幻觉、记忆局限），并强调了开发部分自主应用的重要性，这些应用能让人类通过图形用户界面和自主性滑块有效监督AI。最后，演讲者提出，随着自然语言编程的兴起，人人皆可编程，并呼吁开发者为智能体优化数字基础设施和文档，预示着一个由人类与AI协作构建的 “钢铁侠战衣”式未来。

Software is changing. (again)

Map of GitHub

Map of GitHub 是一个创新的数据可视化项目，旨在以交互式地图的形式展示 GitHub 上的开源项目生态。该项目由开发者 Anvaka 创建，通过复杂的算法和可视化技术，将超过 400,000 个 GitHub 仓库以节点和连接的形式呈现，帮助用户探索项目之间的关联、技术趋势以及开源社区的演变。

Software 2.0

Software 3.0

Part 1: 如何思考 LLM

LLM 具有公用事业的特性

2025-06-22 08:00

andrej-karpathy software-3.0 software-2.0 llm agent natural-language-programming vibe-coding autonomous-application 人工智能软件开发

2025年6月19日星期四

vLLM：快速易用的 LLM 推理和服务库

大模型

在下载前，请先通过如下命令安装 ModelScope

pip install modelscope

ModelScope 下载默认存储到 ~/.cache/modelscope/hub（Linux/macOS）或 C:\Users<用户名>.cache\modelscope\hub（Windows）。--local_dir 参数可以指定下载目录。

多模态（Multi-modal）

Qwen2.5-VL-3B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir Qwen2.5-VL-3B-Instruct

Qwen2.5-VL-7B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct

转录（Transcriptions）

Whisper large-v3

modelscope download --model openai-mirror/whisper-large-v3 --local_dir whisper-large-v3

Whisper large-v3-turbo

modelscope download --model openai-mirror/whisper-large-v3-turbo --local_dir whisper-large-v3-turbo

2025-06-19 08:00

vllm llm inference modelscope qwen2.5-vl whisper docker docker-compose

2025年6月17日星期二

探索多模态大模型 Qwen2.5-VL

本文档提供了一篇关于Qwen2.5-VL 多模态大模型的详细指南，涵盖了从模型架构、性能到实际部署和使用的各个方面。它不仅介绍了如何下载不同版本（如 3B 和 7B Instruct）的模型，还提供了安装和启动模型的命令行指令。此外，文档还展示了如何通过 cURL 命令测试模型，并给出了一个使用 OpenAI API 与 Qwen2.5-VL 进行交互的 Python 示例代码，该代码专注于图像中的火灾、烟雾和安全帽佩戴情况检测，支持本地和网络图片。

Qwen2.5-VL

模型架构

Qwen2.5 VL

模型性能

Qwen2.5 VL Paper

魔搭下载

在下载前，请先通过如下命令安装 ModelScope

pip install modelscope

Qwen2.5-VL-3B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir Qwen2.5-VL-3B-Instruct

Qwen2.5-VL-7B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct

默认存储到 ~/.

2025-06-17 08:00

qwen2.5-vl qwen multimodal-llm vlm vllm modelscope openai-api vision-language-model 多模态安全检测

2025年6月16日星期一

Verdaccio：构建与管理内网 npm 仓库的实践指南

本文档提供了一份关于使用 Verdaccio 搭建本地 npm 仓库的指南。它详细介绍了如何通过 Docker 拉取 Verdaccio 镜像，以及配置目录结构和 YAML 配置文件的步骤。此外，文章还展示了通过 Docker 或 Docker Compose 部署 Verdaccio 的方法，并演示了如何使用 npm 命令（如安装、发布和下载包）与本地 Verdaccio 仓库进行交互。最后，内容涵盖了Verdaccio 的自动缓存机制以及用户创建和登录操作。

什么是 Verdaccio

Verdaccio 一个基于 Node.js 的轻量级私有仓库

下载镜像

docker pull verdaccio/verdaccio

配置

创建目录结构

在本地创建一个目录结构来存储 Verdaccio 的配置文件、插件和存储数据。

mkdir -p ./verdaccio/conf
mkdir -p ./verdaccio/plugins
mkdir -p ./verdaccio/storage

创建配置文件

编辑文件 verdaccio/conf/config.yaml。

可以拷贝文件 https://github.com/verdaccio/verdaccio/blob/5.x/conf/docker.yaml 的内容到 config.yaml 中，并根据需要进行修改。

2025-06-16 20:00

verdaccio npm npm-registry private-registry docker docker-compose nodejs 离线内网部署

2025年6月15日星期日

跨本体具身大小脑协作框架 RoboOS

本文档介绍了 RoboOS，一个用于跨本体具身大小脑协作的框架。它首先概述了具身智能体的现有技术路线及其局限性，例如：在长程任务规划和跨本体协作方面的不足。该框架通过 “具身大脑”（负责全局感知与决策）和 “具身小脑”（提供即插即用的技能库）实现多本体协作控制。文档还重点说明了共享记忆系统在空间和时间维度上的数据中心化，以及云端协同如何支持多机器人、多任务场景，并展示了自定义微调集以提高任务分解和执行的准确性。

北京智源人工智能研究院发布RoboOS，具备跨本体的大小脑协作和具身感知推理能力

参考资料

2025-06-15 16:00

roboos embodied-intelligence cross-body-collaboration multi-robot shared-memory cloud-edge 具身智能跨本体协作智源

具身大脑 RoboBrain

本文档介绍了RoboBrain，一个由智源人工智能研究院开发的具身多模态大模型。它详细阐述了具身人工智能的发展趋势，并强调了大型模型在复杂长期操作任务中的重要性。文件中解释了任务规划、可操作区域感知和轨迹预测是RoboBrain实现端到端具身智能的关键能力。此外，它还介绍了用于训练RoboBrain的ShareRobot数据集，以及模型训练策略和实验结果，展示了RoboBrain在各项基准测试中超越现有模型的表现。

参考资料

2025-06-15 15:00

robobrain embodied-intelligence multimodal-llm task-planning trajectory-prediction sharerobot 具身智能具身大脑多模态大模型智源

飞行机器人—从物理智能到具身智能

该幻灯片介绍了飞行机器人从物理智能到具身智能的演变。概述了飞行机器人的研究方向，包括在复杂环境下生成全状态轨迹、无人机动态环境感知与建模，以及全自主微型无人机集群。幻灯片还展示了如何通过创新方法克服关键挑战，例如优化在线轨迹生成和开发低延迟动态感知系统。最后，它描绘了飞行机器人技术未来的发展路径，强调了从数学驱动到数据驱动的转变，以实现更强大的具身智能和涌现智能。