文档 - 第 12 页 - 军舰的日志

2025年6月14日星期六

具身模型 NVIDIA Isaac GROOT N1 详解

本文档概述了 NVIDIA Isaac GROOT N1，一个专为具身人工智能（Physical AI）设计的人形机器人基础模型。该系统通过三个核心原则运作：泛化能力、双系统架构（结合高层认知与低层控制），以及一个涵盖现实世界数据、合成数据和网络数据的数据金字塔。 Isaac GROOT N1 利用大量训练数据来驱动人形机器人进行通用型操作，并通过 NVIDIA 的生态系统，包括 Omniverse 和 Isaac Lab 进行模拟与部署。推荐的的微调方法是：收集真实数据，也要生成对应比例的模拟数据。

Isaac GROOT Overview

Isaac GROOT N1 - Architecture

Isaac GROOT N1 - Data

Isaac GROOT N1 - Evaluation

Inference Benchmark

参考资料

2025-06-14 20:00

具身端侧芯片 NVIDlA Jetson Thor 和 NVIDIA Isaac ROS 介绍

本文档详细介绍了NVIDIA Jetson Thor，这是一款为下一代人形机器人设计的强大计算平台，其特点包括卓越的AI性能、高速传感器处理、行业领先的安全性和强大的安全性。此外，文档还介绍了NVIDIA Isaac ROS，一个利用CUDA加速库和AI模型加速机器人开发的软件框架，并提及了NITROS以优化ROS 2的硬件加速。最后，还展示了Jetson AGX Thor开发套件和未来产品路线图，强调了该技术在复杂机器人应用中的应用，例如自主机械臂和移动机器人。

Physical Al & Robotics

AGX Thor Product Overview

Isaac ROS for Robot Development

参考资料

具身端侧芯片 NVIDlA Jetson Thor 和 NVIDIA Isaac ROS 介绍

2025-06-14 08:00

nvidia jetson-thor isaac-ros ros-2 edge-computing embodied-intelligence physical-ai 具身智能

2025年6月13日星期五

MCPHub 自定义服务器配置及内网部署（二）

本文档指导用户构建一个本地 PyPI 源，以便持久化存储 Python 包并进行离线安装。接着，文档说明了自定义 MCPHub 配置，包括定义 MCP 服务器市场中的服务（例如：mcp-server-time, calculator-mcp-server）以及调整 MCPHub 自身的运行时设置，例如指定本地 PyPI 源和用户认证信息。

架构图

2025-06-13 08:00

mcphub mcp mcp-server pypiserver verdaccio python docker-compose 离线内网部署

2025年6月12日星期四

MCPHub 自定义服务器配置及内网部署（一）

本文档重点介绍了如何在内网（离线）集成和配置一个名为 "mcp-server-time" 的特定 MCP 服务器。首先指导用户如何 获取 MCPHub 容器的 Python 环境信息，包括版本和平台标签，以便下载兼容的 Python 包。接着，文档详细阐述了如何使用 pip download 命令 下载服务器及其依赖包，并解释了各个命令参数的用途。最后，展示了如何通过 编辑 custom/servers.json 和 custom/mcp_settings.json 文件 来自定义 MCP 服务器市场配置和运行时设置，并给出了 Docker Compose 配置示例，以实现自定义配置的替换并部署。

这里使用 mcp-server-time 作为示例。

查看 MCPHub 容器的 Python 环境信息（版本和平台）

进入 MCPHub 容器

docker exec -it mcphub bash

安装 packaging 库

pip install packaging

编辑 get_info.py

2025-06-12 20:00

mcp mcphub mcp-server mcp-server-time docker docker-compose python pip offline-deployment 内网部署

2025年6月11日星期三

Cherry Studio 分支策略指南

该文档概述了 Cherry Studio 的分支策略指南，详述了其软件开发中的主要分支和贡献分支的使用规范。它明确指出，main分支作为主开发线，只接受通过拉取请求（PR）合入的代码，且可能包含不稳定功能；而release/*分支则用于稳定的发布代码，主要用于文档更新和错误修复。此外，文档还详细列举了不同类型的贡献分支（如功能、错误修复、文档和热修复分支）的命名约定和提交PR的目标分支，并强调了PR必须遵循的准则，包括与main同步、包含问题编号以及通过测试。最后，它还提及了版本标签管理的分类，以确保代码库的组织性和可追溯性。

Cherry Studio 采用结构化的分支策略，以维护代码质量并简化开发流程。

工作流图

主要分支

main: 主开发分支

包含最新的开发代码。 * 不允许直接提交——所有更改必须通过拉取请求（PR）合入。 * 代码可能包含正在开发中的功能，因此可能不稳定。

release/*: 发布分支

从 main 分支创建。 * 包含已准备好发布的稳定代码。 * 只接受文档更新和错误修复。 * 在部署到生产环境之前，会进行彻底测试。

贡献分支

向 Cherry Studio 贡献代码时，请遵循以下准则：

功能分支 (Feature Branches):

从 main 分支创建。 * 命名格式: feature/issue-number-brief-description (例如: feature/123-add-user-profile)。 * 提交 PR 到 main 分支。

2025-06-11 08:00

cherry-studio git branching-strategy github pull-request version-control 分支策略代码管理开发流程

2025年6月10日星期二

FunAudioLLM：用于人类与LLM自然交互的语音理解与生成基础模型

本文档介绍 FunAudioLLM，这是一个旨在增强人类与大型语言模型（LLM）之间自然语音交互的框架。其核心是两个创新模型：用于高精度多语种语音识别、情感识别和音频事件检测的 SenseVoice；以及用于多语种、音色和情感控制的自然语音生成的 CosyVoice。SenseVoice 具有极低的延迟并支持超过 50 种语言，而 CosyVoice 在多语种语音生成、零样本语音生成、跨语言语音克隆以及指令遵循能力方面表现出色。与 SenseVoice 和 CosyVoice 相关的模型已在 Modelscope 和 Huggingface 上开源，同时相应的训练、推理和微调代码也已在 GitHub 上发布。通过将这些模型与 LLM 集成，FunAudioLLM 能够实现语音翻译、情感语音聊天、交互式播客和富有表现力的有声读物叙述等应用，从而推动语音交互技术的边界。

SenseVoice

CosyVoice 2

参考资料 FunAudioLLM: Voice Understanding and Generation Foundation Models for Nat

2025-06-10 20:00

funaudiollm sensevoice cosyvoice funasr speech-recognition speech-synthesis voice-cloning multilingual 语音识别语音合成

Dify：开源 LLM 应用开发平台

Dify 是一个开源的 LLM 应用开发平台。其直观的界面结合了 AI 工作流、RAG 管道、Agent、模型管理、可观测性功能等，让您可以快速从原型到生产。

安装

克隆代码仓库

git clone https://github.com/langgenius/dify

Docker 部署

Dify 提供了 Docker 部署方式，您可以通过以下步骤快速部署：

cd dify
cd docker
cp .env.example .env
docker compose up -d

运行后，可以在浏览器上访问 http://localhost/install 进入 Dify 控制台并开始初始化安装操作。

自定义配置

如果您需要自定义配置，请参考 .env.example 文件中的注释，并更新 .env 文件中对应的值。此外，您可能需要根据您的具体部署环境和需求对 docker-compose.yaml 文件本身进行调整，例如更改镜像版本、端口映射或卷挂载。完成任何更改后，请重新运行 docker-compose up -d。您可以在此处找到可用环境变量的完整列表。

服务镜像

核心镜像（必需）

2025-06-10 10:00

dify llmops workflow rag agent docker chatbot siliconflow low-code 语音助手

2025年6月9日星期一

Qwen2.5-Omni：端到端多模态大模型

Qwen2.5-Omni是Qwen系列中全新的旗舰级端到端多模态大模型，专为全面的多模式感知设计，无缝处理包括文本、图像、音频和视频在内的各种输入，同时支持流式的文本生成和自然语音合成输出。

点击下方视频了解更多信息吧 😃

概览

简介

Qwen 2.5-Omni是一个端到端的多模态大语言模型，旨在感知包括文本、图像、音频和视频在内的多种模态，同时以流式的方式生成文本和自然语音响应。

主要特点

全能创新架构：我们提出了一种全新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本/图像/音频/视频的跨模态理解，同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术，称为TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio，并与Qwen2.5-VL-7B保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

2025-06-09 10:00

qwen2.5-omni qwen multimodal llm speech-recognition speech-synthesis transformers hugging-face thinker-talker tmrope

2025年6月8日星期日

腾讯混元多模态生成模型

本文档重点介绍了腾讯混元多模态生成模型，强调其在人工智能大模型技术革命中的作用。还概述了该模型在图像和视频生成方面的能力，并展示了其在游戏、社交媒体等领域的广泛应用。特别是，它详细阐述了文本到图像生成的速度提升，以及在游戏皮肤制作和特效创建中的实际应用。此外，该模型还被用于生成表情包和多媒体内容，展示了腾讯在视觉生成技术方面的雄心。

2025第七届北京智源大会 - 多模态

2025-06-08 18:00

多模态模型混元腾讯生成式ai 图像生成视频生成文生图视觉生成

北京智源人工智能研究院（BAAI）

本文档概述了北京智源人工智能研究院 (BAAI)，一个致力于推动人工智能原始创新的新型研发机构。它详细介绍了 BAAI 的发展历程，从2018年成立至今，以及其在大型人工智能模型领域取得的重大进展，包括推出 FlagOpen 开放平台。此外，来源还介绍了 BAAI 在具身智能和生命科学等前沿领域的具体研究成果，例如 RoboOS 2.0 和 OpenComplex2。整体而言，这份资料展现了 BAAI 在构建通用人工智能、推动开放生态以及解决现实世界问题方面的努力和愿景。

2025第七届北京智源大会 - 开幕式

2025-06-08 15:00

baai 智源智源大会人工智能大模型具身智能悟道悟界 roboos flagopen

机器人智能操作系统研制与应用

幻灯片概述了具识智能（Insight Robotics）公司研发的机器人智能操作系统 InsightOS。内容涵盖了该操作系统的背景意义、产品形态、关键技术及其应用示范。幻灯片着重介绍了 InsightOS 作为具身智能代理（EAP）与集成开发环境（IDE）结合的架构，并将其与安卓系统进行了对比，强调了其在制造业和家庭场景智能化的优势。此外，还展示了 InsightOS 在提高开发效率、处理运行异常和优化现场调度方面的实际效果，并提供了已适配的多种机器人型号清单。

2025第七届北京智源大会 - 具身技术与产业应用

2025-06-08 13:00

具身智能 ros insightos 具识智能 eap ide 机器人操作系统智能制造

华为云具身智能技术探索与实践

幻灯片概述了华为在具身智能领域的积极投入与战略。文件详细阐述了具身智能的发展趋势，包括大模型的应用、产业落地以及面临的挑战。华为提出了盘古具身智能大模型作为核心，通过一体化开发平台和工具链，旨在解决复杂任务规划与执行问题。此外，幻灯片还展示了具体的行业应用案例，例如智能制造和物流分拣，并强调了技术创新与产业合作的重要性，以推动具身智能的广泛应用。

2025第七届北京智源大会 - 具身技术与产业应用

2025-06-08 12:00

具身智能 vla 华为云盘古大模型智能制造物流分拣工具链一体化开发平台

macOS 解压RAR（Automator）

本文档详细介绍了如何在 macOS 上使用 Automator 创建一个快速操作来解压 RAR 文件。它提供了一个Shell 脚本，用于检测 Homebrew 环境并调用 rar 命令进行解压，同时包含错误处理和用户通知。文章还指导用户授予 rar 可执行文件“完全磁盘访问权限”，这是解决“Operation not permitted”错误的关键步骤。此外，文本提供了一个带调试日志功能的 Shell 脚本，帮助用户诊断解压过程中可能出现的问题，并展示了实际的调试输出。

开发 Automator 快速操作（“解压RAR”）

2025-06-08 08:00

automator macos homebrew rar shell-script quick-action 解压rar 完全磁盘访问权限 automation

macOS PNG重命名并转JPG（Automator）

本文档提供了一份关于如何在 macOS 上使用 Automator 创建一个 “快速操作” 的详细指南。这个自动化工具旨在帮助用户 重命名 选定文件夹中的所有 PNG 图像为连续的数字格式，随后将它们转换为 JPG 格式，并在转换完成后删除原始的 PNG 文件。它详细说明了设置 Shell 脚本 的步骤，该脚本依赖于 Homebrew、ImageMagick 和 Perl rename 工具来执行这些图像处理任务，并包含了安装这些必要依赖项的说明。用户可以通过 Finder 的右键菜单方便地运行这个自动化操作。

Automator 开发 “PNG重命名并转JPG” 快速操作

使用 Automator 快速操作（“PNG重命名并转JPG”）

创建文件夹操作的快速操作

这个工具将处理所选文件夹中的所有 PNG 图像。它将：

将文件夹中所有的 PNG 文件重命名为两位数的顺序格式（例如，01.png、02.png）。
将所有 PNG 文件转换为 JPG 格式。
转换后删除原始 PNG 文件。

设置快速操作

打开 Automator： 进入您的“应用程序”文件夹，然后是“实用工具”，并打开 Automator。
创建新文档： 选择“文件”>“新建”。
选择“快速操作”： 在模板选择器中，选择 “快速操作” 并点击“选取”。
配置工作流程输入：
- 在工作流程区域的顶部，将“工作流程接收当前”设置为 “文件夹”。
- 将“位于”设置为 “Finder.app”。
添加“运行 Shell 脚本”操作：
- 在左侧的“动作”库中，搜索 “运行 Shell 脚本”。
- 将此操作拖放到右侧的工作流程区域。
配置 Shell 脚本：
- 在“运行 Shell 脚本”操作中，将“传递输入”设置为 “作为自变量”。
- 将以下 Shell 脚本粘贴到文本框中：

2025-06-08 00:00

automator macos homebrew imagemagick perl-rename shell-script image-conversion batch-rename png-to-jpg 图像处理

2025年6月7日星期六

【生成式AI时代下的机器学习(2025)】第十二讲：概述语音语言模型发展历程

本文档提供了关于语音大型语言模型 (Speech LLM) 的全面概述。内容从语音标记化 (speech tokenization) 的基本概念开始，这是一种将连续语音信号转换为离散单元的方法。文中还讨论了各种语音标记器类型 (types of speech tokenizers)，包括 SSL 和神经编码器，并探讨了不同的解码策略 (decoding strategies) 对生成质量的影响。此外，还深入分析了训练语音 LLM 的方法 (methods for training Speech LLM)，包括如何利用文本 LLM (Text LLM) 作为基础模型，并通过反馈对齐 (alignment with feedback) 优化模型。最后，概述还触及了全双工语音对话 (full-duplex speech conversation) 等前沿应用，并提供了评估语音模型 (evaluating speech models) 的框架。

【生成式AI時代下的機器學習(2025)】第十二講：語言模型如何學會說話 — 概述語音語言模型發展歷程

2025-06-07 10:00

speech-llm 2025生成式AI时代下的机器学习生成式AI 机器学习李宏毅 speech-tokenization speech-recognition neural-codec decoding-strategies full-duplex

【生成式AI时代下的机器学习(2025)】第十一讲：浅谈神奇的 Model Merging 技术

本文档深入探讨了模型合并（Model Merging）的技术，特别是利用任务向量（Task Vector）来增强或改变基础模型（Foundation Model）的功能。它们展示了如何通过对模型参数进行加减运算来实现不同的目标，例如让语言模型减少生成有毒内容，或者构建一个多任务模型。此外，文档还探讨了高级合并方法以及在规模化应用中模型合并的考虑因素，并提出了任务向量可以被小团队专门开发、出售和交换的未来愿景。

【生成式AI時代下的機器學習(2025)】第十一講：今天你想為 Foundation Model 裝備哪些 Task Vector？淺談神奇的 Model Merging 技術

2025-06-07 08:00

模型合并 2025生成式AI时代下的机器学习生成式AI 机器学习李宏毅 llm model-merging task-vector foundation-model

【生成式AI时代下的机器学习(2025)】第十讲：人工智慧的微创手术 — 浅谈 Model Editing

本文档深入探讨了模型编辑，这是一种用于更新人工智能模型知识的技术，而不需进行完全重新训练。它们首先通过对比模型编辑与传统的后训练（Post Training）来解释其概念，其中前者侧重于植入特定事实，而后者旨在学习新技能。接着详细阐述了模型编辑的评估标准，包括可靠性、泛化性和局部性，并介绍了两种主要方法：不改变模型参数和改变模型参数。展示了Rank-One Model Editing (ROME) 方法，它通过直接修改模型内部参数来实现知识更新。最后，还介绍了超网络（Hypernetwork），这是一种让人工智能学习如何进行模型编辑的技术，展示了其训练和测试过程。

【生成式AI時代下的機器學習(2025)】第十講：人工智慧的微創手術 — 淺談 Model Editing

2025-06-07 07:00

模型编辑 2025生成式AI时代下的机器学习生成式AI 机器学习李宏毅 llm knowledge-update post-training rome hypernetwork

【生成式AI时代下的机器学习(2025)】第九讲：谈谈有关大型语言模型评估的几件事

本文档讨论了大型语言模型的评估，重点关注其推理能力和记忆效应。文档展示了不同的基准测试结果，例如DeepSeek和OpenAI模型在推理任务上的表现，以及模型回答可能来自“记忆”而非推理的准确性下降情况。此外，还介绍了人工通用智能（ARC-AGI）的抽象推理语料库作为一种评估框架，并探讨了聊天机器人竞技场（Chatbot Arena）及其Elo评分系统，用于衡量和比较不同模型在实际用户互动中的表现，包括情感和风格控制。

【生成式AI時代下的機器學習(2025)】第九講：你這麽認這個評分系統幹什麽啊？談談有關大型語言模型評估的幾件事

2025-06-07 06:00

模型评估 2025生成式AI时代下的机器学习生成式AI 机器学习李宏毅 llm reasoning memorization arc-agi chatbot-arena

2025年6月6日星期五

快捷键大全

类别	列表
操作系统	【macOS】
Terminal	【Terminal】【Tmux&Screen】
IDE	【VSCode】【Vim】
GitHub Copilot	【GitHub Copilot】

常用命令 +--------------------------------------------------------------------------------------------------------------------------+ | 🔥🔥🔥 COMMON COMMANDS (sudo nvim /etc/motd) 📝 | |==========================================================================================================================| | 🏠 wjj.com(http://127.0.0.1:4000/) | mogrify [-resize 50%] [-path jpg_path] -format jpg png_path/*.png | | ⬛️ ssh.cpu[1234] ssh.gpu1 ssh.

2025-06-06 08:00

快捷键 macos terminal tmux screen vscode vim github-copilot

2025年6月5日星期四

MCPHub：MCP 服务器聚合平台（智能路由）

本文档介绍了 MCPHub 平台的核心功能——智能路由。智能路由通过将 MCP 工具的名称和描述转换为高维语义向量，并对用户任务请求进行向量化处理，从而实现语义相似度匹配，有效识别并返回最相关的工具列表。这种方法显著减少了 AI 模型的认知负荷，降低了 token 消耗达 70-90%，并提升了工具调用的准确率。文中还提供了 MCPHub 的部署指南，包括 Docker Compose 配置和 PostgreSQL 数据库设置，并展示了如何通过 DeepChat 客户端与智能路由功能进行交互，以获取如 GitHub 议题或当前时间等信息。最后，文档通过序列图和日志展示了客户端、MCPHub 和 MCP 服务器之间的工作流程。

什么是智能路由

智能路由是 MCPHub 的核心功能之一。

技术原理

它将每个 MCP 工具的名称和描述嵌入为高维语义向量。当用户发起自然语言任务请求时，系统会将该请求也转换为向量，通过计算相似度，快速返回最相关的工具列表。

这一过程摒弃了传统的关键词匹配，具备更强的语义理解能力，能够处理自然语言的模糊性和多样性。

核心组件

向量嵌入引擎：支持如 text-embedding-3-small、bge-m3 等主流模型，将文本描述转为语义向量。
PostgreSQL + pgvector：使用开源向量数据库方案，支持高效的向量索引和搜索。
两步工作流分离：
- search_tools：负责语义工具发现
- call_tool：执行实际工具调用逻辑

2025-06-05 08:00

mcphub smart-routing semantic-similarity vector-embedding pgvector postgresql docker-compose deepchat mcp

2025年6月14日 星期六

2025年6月13日 星期五

2025年6月12日 星期四

2025年6月11日 星期三

2025年6月10日 星期二

2025年6月9日 星期一

2025年6月8日 星期日

2025年6月7日 星期六

2025年6月6日 星期五

2025年6月5日 星期四