Qwen2.5-Omni:端到端多模态大模型

Qwen2.5-Omni是Qwen系列中全新的旗舰级端到端多模态大模型,专为全面的多模式感知设计,无缝处理包括文本、图像、音频和视频在内的各种输入,同时支持流式的文本生成和自然语音合成输出。

点击下方视频了解更多信息吧 😃

Open Video

  • 全能创新架构:我们提出了一种全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。
  • 实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。
  • 自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。
  • 全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。
  • 卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。
git clone https://huggingface.co/Qwen/Qwen2.5-Omni-3B

腾讯混元多模态生成模型

本文档重点介绍了腾讯混元多模态生成模型,强调其在人工智能大模型技术革命中的作用。还概述了该模型在图像和视频生成方面的能力,并展示了其在游戏、社交媒体等领域的广泛应用。特别是,它详细阐述了文本到图像生成的速度提升,以及在游戏皮肤制作和特效创建中的实际应用。此外,该模型还被用于生成表情包多媒体内容,展示了腾讯在视觉生成技术方面的雄心。

北京智源人工智能研究院(BAAI)

本文档概述了北京智源人工智能研究院 (BAAI),一个致力于推动人工智能原始创新的新型研发机构。它详细介绍了 BAAI 的发展历程,从2018年成立至今,以及其在大型人工智能模型领域取得的重大进展,包括推出 FlagOpen 开放平台。此外,来源还介绍了 BAAI具身智能生命科学等前沿领域的具体研究成果,例如 RoboOS 2.0OpenComplex2。整体而言,这份资料展现了 BAAI构建通用人工智能推动开放生态以及解决现实世界问题方面的努力和愿景。

机器人智能操作系统研制与应用

幻灯片概述了具识智能(Insight Robotics)公司研发的机器人智能操作系统 InsightOS。内容涵盖了该操作系统的背景意义、产品形态、关键技术及其应用示范。幻灯片着重介绍了 InsightOS 作为具身智能代理(EAP)集成开发环境(IDE)结合的架构,并将其与安卓系统进行了对比,强调了其在制造业和家庭场景智能化的优势。此外,还展示了 InsightOS 在提高开发效率、处理运行异常和优化现场调度方面的实际效果,并提供了已适配的多种机器人型号清单。

华为云具身智能技术探索与实践

幻灯片概述了华为在具身智能领域的积极投入与战略。文件详细阐述了具身智能的发展趋势,包括大模型的应用产业落地以及面临的挑战。华为提出了盘古具身智能大模型作为核心,通过一体化开发平台工具链,旨在解决复杂任务规划与执行问题。此外,幻灯片还展示了具体的行业应用案例,例如智能制造物流分拣,并强调了技术创新产业合作的重要性,以推动具身智能的广泛应用。

macOS 解压RAR(Automator)

本文档详细介绍了如何在 macOS 上使用 Automator 创建一个快速操作来解压 RAR 文件。它提供了一个Shell 脚本,用于检测 Homebrew 环境并调用 rar 命令进行解压,同时包含错误处理和用户通知。文章还指导用户授予 rar 可执行文件“完全磁盘访问权限”,这是解决“Operation not permitted”错误的关键步骤。此外,文本提供了一个带调试日志功能的 Shell 脚本,帮助用户诊断解压过程中可能出现的问题,并展示了实际的调试输出。

macOS PNG重命名并转JPG(Automator)

本文档提供了一份关于如何在 macOS 上使用 Automator 创建一个 “快速操作” 的详细指南。这个自动化工具旨在帮助用户 重命名 选定文件夹中的所有 PNG 图像为连续的数字格式,随后将它们 转换 为 JPG 格式,并在转换完成后 删除 原始的 PNG 文件。它详细说明了设置 Shell 脚本 的步骤,该脚本依赖于 HomebrewImageMagickPerl rename 工具来执行这些图像处理任务,并包含了安装这些必要依赖项的说明。用户可以通过 Finder 的右键菜单方便地运行这个自动化操作。

这个工具将处理所选文件夹中的所有 PNG 图像。它将:

  1. 将文件夹中所有的 PNG 文件重命名为两位数的顺序格式(例如,01.png02.png)。
  2. 将所有 PNG 文件转换为 JPG 格式。
  3. 转换后删除原始 PNG 文件。

打开 Automator: 进入您的“应用程序”文件夹,然后是“实用工具”,并打开 Automator。 创建新文档: 选择“文件”>“新建”。 选择“快速操作”: 在模板选择器中,选择 “快速操作” 并点击“选取”。 配置工作流程输入: 在工作流程区域的顶部,将“工作流程接收当前”设置为 “文件夹”。 将“位于”设置为 “Finder.app”。 添加“运行 Shell 脚本”操作: 在左侧的“动作”库中,搜索 “运行 Shell 脚本”。

【生成式AI时代下的机器学习(2025)】第十二讲:概述语音语言模型发展历程

本文档提供了关于语音大型语言模型 (Speech LLM) 的全面概述。内容从语音标记化 (speech tokenization) 的基本概念开始,这是一种将连续语音信号转换为离散单元的方法。文中还讨论了各种语音标记器类型 (types of speech tokenizers),包括 SSL 和神经编码器,并探讨了不同的解码策略 (decoding strategies) 对生成质量的影响。此外,还深入分析了训练语音 LLM 的方法 (methods for training Speech LLM),包括如何利用文本 LLM (Text LLM) 作为基础模型,并通过反馈对齐 (alignment with feedback) 优化模型。最后,概述还触及了全双工语音对话 (full-duplex speech conversation) 等前沿应用,并提供了评估语音模型 (evaluating speech models) 的框架。

【生成式AI时代下的机器学习(2025)】第十一讲:浅谈神奇的 Model Merging 技术

本文档深入探讨了模型合并(Model Merging)的技术,特别是利用任务向量(Task Vector)来增强或改变基础模型(Foundation Model)的功能。它们展示了如何通过对模型参数进行加减运算来实现不同的目标,例如让语言模型减少生成有毒内容,或者构建一个多任务模型。此外,文档还探讨了高级合并方法以及在规模化应用中模型合并的考虑因素,并提出了任务向量可以被小团队专门开发、出售和交换的未来愿景。

【生成式AI时代下的机器学习(2025)】第十讲:人工智慧的微创手术 — 浅谈 Model Editing

本文档深入探讨了模型编辑,这是一种用于更新人工智能模型知识的技术,而不需进行完全重新训练。它们首先通过对比模型编辑与传统的后训练(Post Training)来解释其概念,其中前者侧重于植入特定事实,而后者旨在学习新技能。接着详细阐述了模型编辑的评估标准,包括可靠性、泛化性和局部性,并介绍了两种主要方法:不改变模型参数改变模型参数。展示了Rank-One Model Editing (ROME) 方法,它通过直接修改模型内部参数来实现知识更新。最后,还介绍了超网络(Hypernetwork),这是一种让人工智能学习如何进行模型编辑的技术,展示了其训练和测试过程。

【生成式AI时代下的机器学习(2025)】第九讲:谈谈有关大型语言模型评估的几件事

本文档讨论了大型语言模型的评估,重点关注其推理能力记忆效应。文档展示了不同的基准测试结果,例如DeepSeekOpenAI模型在推理任务上的表现,以及模型回答可能来自“记忆”而非推理的准确性下降情况。此外,还介绍了人工通用智能(ARC-AGI)的抽象推理语料库作为一种评估框架,并探讨了聊天机器人竞技场(Chatbot Arena)及其Elo评分系统,用于衡量和比较不同模型在实际用户互动中的表现,包括情感和风格控制

MCPHub:MCP 服务器聚合平台(智能路由)

本文档介绍了 MCPHub 平台的核心功能——智能路由。智能路由通过将 MCP 工具的名称和描述转换为高维语义向量,并对用户任务请求进行向量化处理,从而实现语义相似度匹配,有效识别并返回最相关的工具列表。这种方法显著减少了 AI 模型的认知负荷降低了 token 消耗达 70-90%,并提升了工具调用的准确率。文中还提供了 MCPHub 的部署指南,包括 Docker Compose 配置和 PostgreSQL 数据库设置,并展示了如何通过 DeepChat 客户端与智能路由功能进行交互,以获取如 GitHub 议题或当前时间等信息。最后,文档通过序列图和日志展示了客户端、MCPHubMCP 服务器之间的工作流程。

智能路由是 MCPHub 的核心功能之一。

它将每个 MCP 工具的名称和描述嵌入为高维语义向量。当用户发起自然语言任务请求时,系统会将该请求也转换为向量,通过计算相似度,快速返回最相关的工具列表。

这一过程摒弃了传统的关键词匹配,具备更强的语义理解能力,能够处理自然语言的模糊性和多样性。

向量嵌入引擎:支持如 text-embedding-3-small、bge-m3 等主流模型,将文本描述转为语义向量。 PostgreSQL + pgvector:使用开源向量数据库方案,支持高效的向量索引和搜索。

SmolAgents 概念指南:Agent 介绍

本文档探讨了人工智能代理(AI Agent)的概念,将其定义为LLM(大型语言模型)输出控制工作流程的程序代理能力是一个连续的谱系,取决于LLM对程序流程的控制程度,从简单的输出处理到控制迭代和启动其他代理。文中强调了在需要灵活工作流程时使用代理的优势,特别是多步代理通过循环推理和行动解决复杂任务的能力。此外,文档详细介绍了smolagents框架的必要性,它提供了管理工具调用、记忆和错误处理的抽象层,并提出代码代理是一种更具可组合性、通用性和在LLM训练数据中表现更好的代理实现方式。

任何使用 AI 的高效系统都需要为大型语言模型(LLM)提供某种与现实世界交互的能力:例如,调用搜索工具以获取外部信息,或对某些程序执行操作以解决任务。换句话说,LLM 应该具有代理能力(agency)。Agent 程序是 LLM 通向外部世界的门户。

AI Agent 是LLM 输出控制工作流程的程序

任何利用 LLM 的系统都会将 LLM 的输出集成到代码中。LLM 的输入对代码工作流程的影响程度就是 LLM 在系统中的代理能力水平。

请注意,根据这个定义,“agent”不是一个离散的、非0即1的定义:相反,“代理能力”在一个连续的谱系上演变,这取决于您赋予 LLM 对工作流程的权力大小。

下表展示了代理能力在不同系统中的变化:

macOS 图像拼接工具(Automator)

本文档介绍了如何利用 macOS 的 Automator 工具创建一个自动化脚本,以实现多张图片的水平或垂直拼接。它通过将 Shell 脚本集成到“快速操作”中,使得用户可以在 Finder 中直接选中图片并进行拼接。整个过程涵盖了从 Automator 设置、Shell 脚本的配置(包括 ImageMagick 依赖和拼接逻辑)到最终的使用方法和效果展示,旨在为 macOS 用户提供一个便捷高效的图像拼接解决方案。

本工具是一个专为 macOS 设计的自动化脚本,它能帮助您将多张图片水平或垂直拼接成一张图片。

该工具设计为通过 macOS 的“快速操作”或 Automator 工作流程来调用,从而实现便捷的图形化操作。

作为“快速操作”使用: 设置“快速操作”: 您需要将提供的脚本保存为 Automator 工作流程的“快速操作”。 打开 Automator 应用(在“应用程序” -> “实用工具”中)。 选择 “文件”>“新建”。 选择 “快速操作” 并点击“选取”。 在左侧的库中,搜索并拖动 “运行 Shell 脚本” 到右侧的工作流程区域。 在“运行 Shell 脚本”模块中,将“传递输入”设置为 “作为自变量”。 将本工具的完整代码粘贴到“运行 Shell 脚本”的文本框中。 选择 “文件”>“存储”,为您的快速操作命名,例如“图像拼接”。

GitHub Copilot for VSCode v1.100

本文档介绍了 Copilot 的三种主要模式——询问 (Ask)编辑 (Edit)代理 (Agent),并列举了 Copilot 可访问的各种工具,例如 搜索用法 (#usages)获取网页信息 (#fetch)搜索 Marketplace 扩展 (#extensions)搜索 GitHub 仓库代码 (#githubRepo),以增强模型上下文。还详细描述了 提示文件 (Prompt files)指令文件 (Instructions files) 的目的和使用,并展示了如何通过这些文件管理和定制 AI 模型的行为。

  • 提问:这与之前的“聊天”视图相同。您可以就您的工作区或一般编码问题向任何模型提问。使用 @ 符号可以调用内置的聊天参与者或已安装的扩展。使用 # 符号可以手动附加任何类型的上下文。
  • 代理:启动一个代理编码流程,其中包含一套工具,使其能够自主收集上下文、运行终端命令或执行其他操作来完成任务。代理模式已为所有 VS Code Insiders 用户启用,并且我们正在向更多 VS Code Stable 用户推出。
  • 编辑:在编辑模式下,模型可以对多个文件进行定向编辑。附加 #codebase 可以让它自动查找要编辑的文件。但它不会运行终端命令或自动执行任何其他操作。

VSCode - April 2025 (version 1.

LeRobot:通过端到端学习让机器人人工智能更易实现

🤗 LeRobot 致力于在 PyTorch 中为真实世界的机器人提供模型、数据集和工具。其目标是降低机器人技术的入门门槛,让每个人都能通过共享数据集和预训练模型来做出贡献并从中受益。

🤗 LeRobot 包含已被证明可应用于真实世界的尖端方法,重点关注模仿学习和强化学习:github.com/huggingface/lerobot

🤗 LeRobot 已提供一系列预训练模型、包含人类收集演示的数据集以及模拟环境,让每个人都能轻松上手。在未来几周,该项目计划为市面上最经济实惠且功能强大的机器人添加越来越多的真实世界机器人支持。

🤗 LeRobot 在 HuggingFace 社区页面上托管预训练模型和数据集:huggingface.co/lerobot

MCPHub:MCP 服务器聚合平台

本文档介绍了 MCPHub,一个用于管理和扩展 Model Context Protocol (MCP) 服务器的聚合平台。它通过将多个 MCP 服务器组织成灵活的流式 HTTP (SSE) 端点来简化操作,并支持按需访问单个或分组服务器。MCPHub 提供了包括广泛服务器兼容性、集中式管理控制台、热插拔配置以及基于 JWTbcrypt 的安全认证机制等核心功能,并且支持 Docker 部署以实现快速启动。用户可以通过其直观的 Web UI 监控服务器状态,管理访问权限,并配置 GitHubGitLab 等特定服务。此外,文档还详细说明了各种可流式传输的 HTTP 和 SSE 端点,以及如何在 MCP 客户端(例如 Cline)中配置和使用 MCPHub。

MCPHub 通过将多个 MCP(Model Context Protocol)服务器组织为灵活的流式 HTTP(SSE)端点,简化了管理与扩展工作。系统支持按需访问全部服务器、单个服务器或按场景分组的服务器集合。

🚀 功能亮点

广泛的 MCP 服务器支持:无缝集成任何 MCP 服务器,配置简单。 集中式管理控制台:在一个简洁的 Web UI 中实时监控所有服务器的状态和性能指标。 灵活的协议兼容:完全支持 stdio 和 SSE 两种 MCP 协议。 热插拔式配置:在运行时动态添加、移除或更新服务器配置,无需停机。