139 篇文章带有标签 “llm”

京东通用智能体:JoyAgent-JDGenie

本文档详细介绍了JoyAgent-JDGenie,一个由京东开发的开源、轻量级通用多智能体产品。它不仅涵盖了系统架构、前后端、框架和核心子智能体,还提供了部署指南,包括如何构建和启动Docker镜像,以及配置大型语言模型(LLM)如DeepSeek和搜索工具如Serper。文档还展示了该智能体在实际应用中的界面示例,并提供了任务规划和执行的详细提示(prompts),阐述了其思考、行动、观察的工作流程,以及如何利用各种工具(如计划工具、代码解释器、报告工具、文件读写工具和深度搜索工具)来解决用户问题或完成复杂任务。

JoyAgent-JDGenie 是业界首个开源高完成度轻量化通用多智能体产品,能端到端直接响应并解决用户 query 或任务,支持新场景功能定制挂载,涵盖前后端、框架、引擎及核心子智能体,在通用能力榜单表现优异且不依赖特定平台。

系统架构

构建镜像

克隆项目

git clone https://github.com/jd-opensource/joyagent-jdgenie.git

配置 LLM

下面的设置是使用 DeepSeek 进行的,只需要把 <您的 API Key> 替换为您的就可以了。注意第二个配置文件有一个是需要搜索时使用的,可以到这里申请:Serper

✨ 我配置 OpenAI API 兼容接口没有成功。

编辑文件:genie-backend/src/mai

华为 Atlas 800I A2 大模型部署实战(七):完整的安装部署流程

这份指南详细阐述了华为Atlas 800I A2推理服务器上大型模型的部署流程,旨在提供一个全面的安装与配置实践,用于扩展部署到其它服务器。随后,文章通过流程图和具体命令脚本,逐步指导用户如何创建和挂载逻辑卷同步并安装驱动固件部署Docker环境以及导入所需的MindIE和vLLM镜像。最后,指南还涵盖了同步大型模型权重文件的关键步骤,并指示用户通过Docker Compose启动模型服务,确保MindIE和vLLM能够顺利运行,以实现AI推理功能。

服务器配置

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

完整安装部署流程

华为 Atlas 800I A2 大模型部署实战(三):MindIE 安装与部署 LLM

本文章提供了在 openEuler 操作系统上安装 Docker 的具体步骤,并指导用户下载、导入 MindIE 镜像,以及准备 LLM 模型文件。最后,文档展示了如何通过 Docker 容器运行和配置 MindIE 服务,并提供了通过 cURL 命令测试服务的示例,还包含了使用 Docker Compose 部署的详细配置

服务器配置

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

MindIE 介绍

MindIE(Mind Inference Engine,昇腾推理引擎)是华为昇腾针对AI全场景业务的推理加速套件。通过分层开放AI能力,支撑用户多样化的AI业务需求,使能百模千态,释放昇腾硬件设备算力。向上支持多种主流AI框架,向下对接不同类型昇腾AI处理器,提供多层次编程接口,帮助用户快速构建基于昇腾平台的推理业务。

MindIE 架构图

华为 Atlas 800I A2 大模型部署实战(二):逻辑卷创建与大模型下载

本指南详细阐述了如何使用 LVM(逻辑卷管理)创建和管理磁盘分区,包括物理卷、卷组和逻辑卷的设置。文档还提供了关于 ext4 和 XFS 文件系统的对比,并指导用户如何挂载文件系统以及实现开机自动挂载。最后,它解释了如何使用 ModelScopeopenmind_hub 工具下载各种大型模型,并利用 rsync 命令在服务器之间同步文件

服务器配置

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

逻辑卷创建

LVM(逻辑卷管理)

LVM (Logical Volume Manager,逻辑卷管理) 是 Linux 环境下对磁盘分区进行管理的一种机制,它提供了比传统分区更灵活和强大的磁盘管理功能。

LVM 主要由以下几个核心概念组成:

  • 物理卷 (Physical Volume, PV):实际的物理磁盘或分区
  • 卷组 (Volume Group, VG):由一个或多个物理卷组成的存储池
  • 逻辑卷 (Logical Volume, LV):从卷组中划分出的逻辑存储单元,可格式化并挂载使用

LVM 的优势 灵活的容量管理:可以动态调整逻辑卷大小

英伟达全栈方案:LLM开发、推理与具身智能

NVIDIA 提供 TensorRT-LLM、Triton Inference Server 和 NVIDIA Inference Microservice (NIM) 等工具来优化和加速 AI 模型的推理,使模型运行速度提升高达 5 倍。这意味着您可以高效地部署和运行 LLM 以生成内容。 同时,NVIDIA 还提供了用于 LLM 开发的工具和框架,如 NeMo,可以帮助开发者更轻松地创建和管理 LLM。

GROOT项目利用 合成运动生成 将人类演示转化为大量的训练数据,并通过 Isaac Lab 进行仿真训练,从而实现 机器人学习。整个系统建立在 Jetson Thor 架构之上,并整合了 NVIDIA Omniverse 等工具,支持机器人数据的处理与生成、仿真与学习,以及简化扩展,最终目标是推进 人形机器人技术 的发展。

LLM 推理

LLM 开发

具身智能

参考资料

大模型风向标!OpenRouter平台谁最火?热门应用大揭秘!

OpenRouter 是一个创新的统一 API 平台,旨在简化开发者和企业对数百种大型语言模型(LLMs)的访问和使用,提供一个与 OpenAI Chat API 类似的标准化接口,让用户能够通过单一入口轻松切换并调用来自不同提供商(如 OpenAI、Anthropic、Google 等)的模型。它不仅能根据成本、性能等需求智能路由请求,帮助优化开销,还提供统一账单和实时数据洞察,极大地降低了多模型集成的复杂性,提升了 AI 应用开发的效率和灵活性。

OpenRouter

🚀 大模型霸主争夺战:Google、Deepseek、Anthropic三足鼎立!

如果你还在纠结用哪个大模型,不妨看看OpenRouter的数据!截止到2025年7月7日,整个平台上的令牌使用量已经突破了2.4万亿(2.4T)!这说明AI应用场景真的是越来越广啦!

而在这场“AI大混战”中,Google爸爸的Gemini系列模型绝对是遥遥领先,市场份额高达43.2%!几乎占据了半壁江山!其次是黑马Deepseek(19.1%)和我们熟悉的Anthropic(18.7%)。OpenAI虽然也榜上有名,但市场份额相对较小,只有6.2%。看来,大模型的竞争格局正在悄悄发生变化哦!

🤖 热门模型C位出道,实力派选手个个能打!

  • Google Gemini 2.5 Flash / Pro系列: 妥妥的“劳模”担当!无论是处理复杂的代码,还是做日常的聊天翻译,它都游刃有余。特别是Gemini 2.5 Flash,在编程辅助、智能代理和简化大型语言模型等方面都表现亮眼。很多姐妹用它来写代码、做智能问答,简直不要太方便!

Docker AI 功能详解与应用

本文档详细介绍了 Docker AI 的新功能,旨在通过集成人工智能提升开发者的体验。主要亮点包括 Docker Model Runner,它简化了 AI 模型的管理和部署,支持从各种注册表拉取和运行模型,并通过兼容 OpenAI 的 API 提供服务。此外,MCP Toolkit 实现了容器化 MCP 服务器的无缝设置和管理,而 Ask Gordon 则作为嵌入式 AI 助手,在 Docker Desktop 和 CLI 中提供上下文帮助,包括改进 Dockerfile 和故障排除等。这些功能共同旨在简化 AI 驱动型应用程序的开发和部署。

Docker AI 配置

  • ✅ Enable Docker AI (启用 Docker AI)
    • Docker Desktop命令行(CLI)中启用 “Ask Gordon” 功能。
  • ✅ Enable Docker Model Runner (启用 Docker 模型运行器)
    • 启用 GPU 加速的推理引擎,用于运行 AI 模型。
  • ✅ Enable Docker MCP Toolkit (启用 Docker MCP 工具套件)
    • 在 Docker Desktop 中启用 “MCP Toolkit” 功能。

Gemini CLI 项目分析与开发指南

本文档围绕着初学者如何分析并开发一个类似 Gemini CLI 的项目提供了详尽的指南。核心思想是将复杂的项目分解为可管理的部分,并提供分步学习路径。指南强调了理解项目架构(如前端CLI和后端Core的职责)、熟悉代码结构掌握核心功能(如API交互和工具系统)、以及通过实践进行学习的重要性。通过阅读文档、运行和调试代码、并尝试进行小修改,学习者能够逐步掌握此类项目的开发技能。在 VSCode 中,使用 GitHub Copilot 的 Ask 模式分别对大模型(如 GPT-4.1、GPT-4o、Gemini 2.5 Pro 和 Claude Sonnet 系列)进行提问并总结。

问题

#codebase 我作为初学者,如何开始分析这个项目,以达到学习的目的,可以手动开发这种类型的项目。

下面是不同大模型给出的回答

GPT-4.1

作为初学者,分析并学习 Gemini CLI 这样的大型项目,可以按照以下步骤进行,帮助你理解架构、掌握开发流程,并为将来手动开发类似项目打下基础:

1. 阅读架构文档,理解整体结构

你可以从 architecture.md 开始,重点关注以下内容:

  • 核心组件:项目分为 CLI 前端(cli)、Core 后端(core)和工具模块(tools)。
  • 交互流程:用户输入 → CLI 处理 → Core 构建请求并与 Gemini API 通信 → 工具调用(如有)→ 返回结果 → CLI 展示。
  • 设计原则:模块化、可扩展性、良好的用户体验。

Gemini CLI - 开源命令行 AI 智能体

Gemini CLI 是一个专为软件开发者设计的、由AI驱动的交互式命令行工具。作为一个智能助手,它可以直接在您的终端中帮助您完成各种软件工程任务,例如解释代码、编写新功能、修复错误和自动化工作流程。它能够理解您项目的上下文,安全地读写文件、执行命令,并与您协作,从而提高开发效率,是您开发流程中的得力伙伴。

介绍

一个将 Gemini 强大功能直接带入你终端的开源 AI 智能体。

Gemini CLI 提供了强大的 AI 功能,涵盖了从代码理解和文件操作,到命令执行和动态故障排除的方方面面。它对您的命令行体验进行了根本性的升级,让您能够通过自然语言编写代码、调试问题并简化工作流程。

其强大之处源于内置工具,使您能够:

  • 使用 Google 搜索来奠定提示基础,以便您可以抓取网页并为模型提供实时的外部上下文。
  • 通过内置支持模型上下文协议 (MCP) 或捆绑扩展来扩展 Gemini CLI 的功能
  • 自定义提示和指令,根据您的具体需求和工作流程定制 Gemini。
  • 通过在脚本中非交互式地调用 Gemini CLI,实现任务自动化并与现有工作流程集成

Gemini CLI 提供业界最高的免费使用限额,每分钟可发送 60 个模型请求,每天最多 1,000 个模型请求。

安装

安装 Node.js

  • 安装最新的 LTS 版本
nvm install --lts
  • 安装最新的稳定版本
nvm install node

人工智能时代的软件 (Software in the era of AI) - Andrej Karpathy

主要介绍了软件开发领域正在经历的重大变革,将其分为软件1.0(传统手工编码)、软件2.0(基于神经网络权重训练)和软件3.0(通过自然语言提示编程大型语言模型)。演讲者将大型语言模型(LLMs)比作新型操作系统基础设施,指出它们既具备公用事业的性质(按量付费、集中式),也展现出类似芯片制造厂和操作系统的特征,且目前仍处于早期阶段(类似于1960年代的计算)。进一步探讨了LLMs的认知特性(如广博知识、幻觉、记忆局限),并强调了开发部分自主应用的重要性,这些应用能让人类通过图形用户界面自主性滑块有效监督AI。最后,演讲者提出,随着自然语言编程的兴起,人人皆可编程,并呼吁开发者为智能体优化数字基础设施和文档,预示着一个由人类与AI协作构建的 “钢铁侠战衣”式未来

Software is changing. (again)

Map of GitHub

Map of GitHub 是一个创新的数据可视化项目,旨在以交互式地图的形式展示 GitHub 上的开源项目生态。该项目由开发者 Anvaka 创建,通过复杂的算法和可视化技术,将超过 400,000 个 GitHub 仓库以节点和连接的形式呈现,帮助用户探索项目之间的关联、技术趋势以及开源社区的演变。

Software 2.0

Software 3.0

Part 1: 如何思考 LLM

LLM 具有公用事业的特性

vLLM:快速易用的 LLM 推理和服务库

大模型

在下载前,请先通过如下命令安装 ModelScope

pip install modelscope

ModelScope 下载默认存储到 ~/.cache/modelscope/hub(Linux/macOS)或 C:\Users<用户名>.cache\modelscope\hub(Windows)。--local_dir 参数可以指定下载目录。

多模态(Multi-modal)

modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir Qwen2.5-VL-3B-Instruct
modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct

转录(Transcriptions)

modelscope download --model openai-mirror/whisper-large-v3 --local_dir whisper-large-v3
modelscope download --model openai-mirror/whisper-large-v3-turbo --local_dir whisper-large-v3-turbo

Qwen2.5-Omni:端到端多模态大模型

Qwen2.5-Omni是Qwen系列中全新的旗舰级端到端多模态大模型,专为全面的多模式感知设计,无缝处理包括文本、图像、音频和视频在内的各种输入,同时支持流式的文本生成和自然语音合成输出。

点击下方视频了解更多信息吧 😃

Open Video

概览

简介

Qwen 2.5-Omni是一个端到端的多模态大语言模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式的方式生成文本和自然语音响应。

主要特点

  • 全能创新架构:我们提出了一种全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。
  • 实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。
  • 自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。
  • 全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。
  • 卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

【生成式AI时代下的机器学习(2025)】第十一讲:浅谈神奇的 Model Merging 技术

本文档深入探讨了模型合并(Model Merging)的技术,特别是利用任务向量(Task Vector)来增强或改变基础模型(Foundation Model)的功能。它们展示了如何通过对模型参数进行加减运算来实现不同的目标,例如让语言模型减少生成有毒内容,或者构建一个多任务模型。此外,文档还探讨了高级合并方法以及在规模化应用中模型合并的考虑因素,并提出了任务向量可以被小团队专门开发、出售和交换的未来愿景。

【生成式AI时代下的机器学习(2025)】第十讲:人工智慧的微创手术 — 浅谈 Model Editing

本文档深入探讨了模型编辑,这是一种用于更新人工智能模型知识的技术,而不需进行完全重新训练。它们首先通过对比模型编辑与传统的后训练(Post Training)来解释其概念,其中前者侧重于植入特定事实,而后者旨在学习新技能。接着详细阐述了模型编辑的评估标准,包括可靠性、泛化性和局部性,并介绍了两种主要方法:不改变模型参数改变模型参数。展示了Rank-One Model Editing (ROME) 方法,它通过直接修改模型内部参数来实现知识更新。最后,还介绍了超网络(Hypernetwork),这是一种让人工智能学习如何进行模型编辑的技术,展示了其训练和测试过程。

【生成式AI时代下的机器学习(2025)】第九讲:谈谈有关大型语言模型评估的几件事

本文档讨论了大型语言模型的评估,重点关注其推理能力记忆效应。文档展示了不同的基准测试结果,例如DeepSeekOpenAI模型在推理任务上的表现,以及模型回答可能来自“记忆”而非推理的准确性下降情况。此外,还介绍了人工通用智能(ARC-AGI)的抽象推理语料库作为一种评估框架,并探讨了聊天机器人竞技场(Chatbot Arena)及其Elo评分系统,用于衡量和比较不同模型在实际用户互动中的表现,包括情感和风格控制

SmolAgents 概念指南:Agent 介绍

本文档探讨了人工智能代理(AI Agent)的概念,将其定义为LLM(大型语言模型)输出控制工作流程的程序代理能力是一个连续的谱系,取决于LLM对程序流程的控制程度,从简单的输出处理到控制迭代和启动其他代理。文中强调了在需要灵活工作流程时使用代理的优势,特别是多步代理通过循环推理和行动解决复杂任务的能力。此外,文档详细介绍了smolagents框架的必要性,它提供了管理工具调用、记忆和错误处理的抽象层,并提出代码代理是一种更具可组合性、通用性和在LLM训练数据中表现更好的代理实现方式。

🤔 什么是 Agent?

任何使用 AI 的高效系统都需要为大型语言模型(LLM)提供某种与现实世界交互的能力:例如,调用搜索工具以获取外部信息,或对某些程序执行操作以解决任务。换句话说,LLM 应该具有代理能力(agency)。Agent 程序是 LLM 通向外部世界的门户。

AI Agent 是LLM 输出控制工作流程的程序

任何利用 LLM 的系统都会将 LLM 的输出集成到代码中。LLM 的输入对代码工作流程的影响程度就是 LLM 在系统中的代理能力水平。

请注意,根据这个定义,“agent”不是一个离散的、非0即1的定义:相反,“代理能力”在一个连续的谱系上演变,这取决于您赋予 LLM 对工作流程的权力大小。

下表展示了代理能力在不同系统中的变化:

构建AI代理:5个常见障碍及解决方案

构建AI代理的新手指南,帮助您克服挑战。

AI代理正变得越来越复杂,能够自动化工作流程、做出决策并与外部工具集成。然而,在现实世界中部署AI代理面临着很多挑战,这些挑战会影响其可靠性、性能和准确性。现在优先建立AI代理设计的强大基础,将为未来可靠、安全的自主系统奠定基础。

👉 本指南探讨了开发人员在创建AI代理时面临的五个最常见障碍,以及克服这些障碍的实用解决方案。 无论您是刚刚入门的新手还是正在改进方法的资深开发人员,这些最佳实践都将帮助您设计出在复杂环境中更可靠、更具扩展性和更有效的AI代理。

让我们开始构建代理式AI吧!

1. 管理工具集成

随着AI代理变得越来越复杂,管理它们对各种工具的访问和使用变得越来越具有挑战性每增加一个工具都会引入新的潜在故障点安全考虑因素性能影响。确保代理适当地使用工具并优雅地处理工具故障对于可靠运行至关重要。

解决这一挑战请为代理工具箱中的每个工具创建精确的定义。包括何时使用该工具的明确示例有效参数范围预期输出构建能够强制执行这些规范的验证逻辑,并从一小组定义明确的工具开始,而不是许多定义松散的工具。定期监控将帮助您识别哪些工具最有效,以及哪些定义需要完善

2. 管理模型推理和决策

构建AI代理的一个基本挑战是确保一致可靠的决策。与遵循明确规则的传统软件系统不同,AI代理必须解释用户意图,对复杂问题进行推理,并最终基于概率分布做出决策。