128 篇文章带有标签 “LLM”

华为 Atlas 800I A2 大模型部署实战(七):完整的安装部署流程

这份指南详细阐述了华为Atlas 800I A2推理服务器上大型模型的部署流程,旨在提供一个全面的安装与配置实践,用于扩展部署到其它服务器。随后,文章通过流程图和具体命令脚本,逐步指导用户如何创建和挂载逻辑卷同步并安装驱动固件部署Docker环境以及导入所需的MindIE和vLLM镜像。最后,指南还涵盖了同步大型模型权重文件的关键步骤,并指示用户通过Docker Compose启动模型服务,确保MindIE和vLLM能够顺利运行,以实现AI推理功能。

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

华为 Atlas 800I A2 大模型部署实战(六):vLLM 部署 LLM

本文档重点介绍了如何使用 vLLM-ascend 容器镜像来部署各种 Qwen 和 DeepSeek-V3 模型,既提供了直接使用 Docker 命令的示例,也展示了通过 Docker Compose 进行多模型部署的方法。此外,文章还包含了模型部署后的测试方法

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS
docker pull quay.io/ascend/vllm-ascend:v0.9.2rc1

设置环境变量

# 从 ModelScope 加载模型以加快下载速度
export VLLM_USE_MODELSCOPE=True

# 设置 max_split_size_mb 以减少内存碎片并避免内存不足
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256

max_split_size_mb 可防止原生分配器分割大于此大小(以MB为单位)的块。这可以减少内存碎片化,并可能使一些临界工作负载在不耗尽内存的情况下完成。

运行容器

华为 Atlas 800I A2 大模型部署实战(二):逻辑卷创建与大模型下载

本指南详细阐述了如何使用 LVM(逻辑卷管理)创建和管理磁盘分区,包括物理卷、卷组和逻辑卷的设置。文档还提供了关于 ext4 和 XFS 文件系统的对比,并指导用户如何挂载文件系统以及实现开机自动挂载。最后,它解释了如何使用 ModelScopeopenmind_hub 工具下载各种大型模型,并利用 rsync 命令在服务器之间同步文件

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

LVM (Logical Volume Manager,逻辑卷管理) 是 Linux 环境下对磁盘分区进行管理的一种机制,它提供了比传统分区更灵活和强大的磁盘管理功能。

LVM 主要由以下几个核心概念组成:

  • 物理卷 (Physical Volume, PV):实际的物理磁盘或分区
  • 卷组 (Volume Group, VG):由一个或多个物理卷组成的存储池
  • 逻辑卷 (Logical Volume, LV):从卷组中划分出的逻辑存储单元,可格式化并挂载使用

LVM 的优势 灵活的容量管理:可以动态调整逻辑卷大小 存储池化:多个物理设备可以组合成一个大

英伟达全栈方案:LLM开发、推理与具身智能

NVIDIA 提供 TensorRT-LLM、Triton Inference Server 和 NVIDIA Inference Microservice (NIM) 等工具来优化和加速 AI 模型的推理,使模型运行速度提升高达 5 倍。这意味着您可以高效地部署和运行 LLM 以生成内容。 同时,NVIDIA 还提供了用于 LLM 开发的工具和框架,如 NeMo,可以帮助开发者更轻松地创建和管理 LLM。

GROOT项目利用 合成运动生成 将人类演示转化为大量的训练数据,并通过 Isaac Lab 进行仿真训练,从而实现 机器人学习。整个系统建立在 Jetson Thor 架构之上,并整合了 NVIDIA Omniverse 等工具,支持机器人数据的处理与生成、仿真与学习,以及简化扩展,最终目标是推进 人形机器人技术 的发展。

大模型风向标!OpenRouter平台谁最火?热门应用大揭秘!

OpenRouter 是一个创新的统一 API 平台,旨在简化开发者和企业对数百种大型语言模型(LLMs)的访问和使用,提供一个与 OpenAI Chat API 类似的标准化接口,让用户能够通过单一入口轻松切换并调用来自不同提供商(如 OpenAI、Anthropic、Google 等)的模型。它不仅能根据成本、性能等需求智能路由请求,帮助优化开销,还提供统一账单和实时数据洞察,极大地降低了多模型集成的复杂性,提升了 AI 应用开发的效率和灵活性。

🚀 大模型霸主争夺战:Google、Deepseek、Anthropic三足鼎立!

如果你还在纠结用哪个大模型,不妨看看OpenRouter的数据!截止到2025年7月7日,整个平台上的令牌使用量已经突破了2.4万亿(2.4T)!这说明AI应用场景真的是越来越广啦!

而在这场“AI大混战”中,Google爸爸的Gemini系列模型绝对是遥遥领先,市场份额高达43.2%!几乎占据了半壁江山!其次是黑马Deepseek(19.1%)和我们熟悉的Anthropic(18.7%)。OpenAI虽然也榜上有名,但市场份额相对较小,只有6.2%。看来,大模型的竞争格局正在悄悄发生变化哦!

🤖 热门模型C位出道,实力派选手个个能打!

Google Gemini 2.5 Flash / Pro系列: 妥妥的“劳模”担当!

DXT(桌面扩展)开发指南

本文档主要介绍了 DXT (桌面扩展) 的开发指南,它是一种将 MCP 服务器 转换为可分发扩展的工具。文档详述了如何使用 DXT 工具初始化、验证和打包 扩展,并提供了 目录结构示例。此外,还强调了在打包 Python 依赖项时需要注意的 跨平台兼容性问题,特别是在不同架构(如 arm64 macOS 与 x86_64 Linux)之间。最终目标是创建一个 .dxt 文件,其中包含所有必需的服务器文件和元数据,以便于分发和管理。

graph TD
    A[DXT扩展] -->|打包| B(calculator-mcp-server)
    B -->|元数据和配置| C[manifest.json]
    B -->|实现| D[server/*.py]
    B -->|依赖库| E[server/lib/]
    B -->|图标| F[icon.png]
    
    G[MCPHub] -->|运行| H[MCP Servers]
    H -->|包含| B
    H -->|管理| I[其他 MCP Servers]
    
    J[开发者] -->|开发| B
    J -->|使用| K[DXT工具]
    K -->|初始化| C
    K -->|打包| A
// ...

DXT 的核心是包含您的整个 MCP 服务器和 manifest.json 的简单 zip 文件。

Docker AI 功能详解与应用

本文档详细介绍了 Docker AI 的新功能,旨在通过集成人工智能提升开发者的体验。主要亮点包括 Docker Model Runner,它简化了 AI 模型的管理和部署,支持从各种注册表拉取和运行模型,并通过兼容 OpenAI 的 API 提供服务。此外,MCP Toolkit 实现了容器化 MCP 服务器的无缝设置和管理,而 Ask Gordon 则作为嵌入式 AI 助手,在 Docker Desktop 和 CLI 中提供上下文帮助,包括改进 Dockerfile 和故障排除等。这些功能共同旨在简化 AI 驱动型应用程序的开发和部署。

  • ✅ Enable Docker AI (启用 Docker AI)
    • Docker Desktop命令行(CLI)中启用 “Ask Gordon” 功能。
  • ✅ Enable Docker Model Runner (启用 Docker 模型运行器)
    • 启用 GPU 加速的推理引擎,用于运行 AI 模型。
  • ✅ Enable Docker MCP Toolkit (启用 Docker MCP 工具套件)
    • 在 Docker Desktop 中启用 “MCP Toolkit” 功能。

registry-mirrors: https://registry.cn-hangzhou.aliyuncs.

Gemini CLI 项目分析与开发指南

本文档围绕着初学者如何分析并开发一个类似 Gemini CLI 的项目提供了详尽的指南。核心思想是将复杂的项目分解为可管理的部分,并提供分步学习路径。指南强调了理解项目架构(如前端CLI和后端Core的职责)、熟悉代码结构掌握核心功能(如API交互和工具系统)、以及通过实践进行学习的重要性。通过阅读文档、运行和调试代码、并尝试进行小修改,学习者能够逐步掌握此类项目的开发技能。在 VSCode 中,使用 GitHub Copilot 的 Ask 模式分别对大模型(如 GPT-4.1、GPT-4o、Gemini 2.5 Pro 和 Claude Sonnet 系列)进行提问并总结。

#codebase 我作为初学者,如何开始分析这个项目,以达到学习的目的,可以手动开发这种类型的项目。

下面是不同大模型给出的回答

作为初学者,分析并学习 Gemini CLI 这样的大型项目,可以按照以下步骤进行,帮助你理解架构、掌握开发流程,并为将来手动开发类似项目打下基础:

你可以从 architecture.md 开始,重点关注以下内容:

核心组件:项目分为 CLI 前端(cli)、Core 后端(core)和工具模块(tools)。 交互流程:用户输入 → CLI 处理 → Core 构建请求并与 Gemini API 通信 → 工具调用(如有)→ 返回结果 → CLI 展示。

Desktop Extensions (DXT)

桌面扩展(DXT)是一种 zip 格式的软件包,旨在简化本地 MCP 服务器的安装和分发。它类似于其他应用程序扩展,通过包含一个本地 MCP 服务器及其功能的 manifest.json 文件,允许用户实现一键安装。该项目不仅提供扩展规范和用于创建 DXT 文件的 CLI 工具,还开源了 Claude for macOS and Windows 中用于加载和验证 DXT 扩展的代码,旨在为 MCP 服务器构建一个开放且可移植的生态系统。开发者只需将 MCP 服务器文件、manifest.json 放入文件夹并打包成 .dxt 文件,即可轻松创建扩展,从而方便地在支持 DXT 的应用程序中运行本地 AI 工具。

桌面扩展 (.dxt) 是一种 zip 压缩包,其中包含一个本地 MCP 服务器和一个 manifest.json 文件,该文件描述了服务器及其功能。其格式在理念上类似于 Chrome 扩展 (.crx) 或 VS Code 扩展 (.vsix),使用户能够一键安装本地 MCP 服务器。

本仓库提供三个组件:MANIFEST.md 中的扩展规范,一个用于创建扩展的 CLI 工具(参见 CLI.md),以及 Claude for macOS and Windows 用于加载和验证 DXT 扩展的代码 (src/index.ts)。

对于本地 MCP 服务器的开发者,我们旨在使其分发和

Gemini CLI - 开源命令行 AI 智能体

Gemini CLI 是一个专为软件开发者设计的、由AI驱动的交互式命令行工具。作为一个智能助手,它可以直接在您的终端中帮助您完成各种软件工程任务,例如解释代码、编写新功能、修复错误和自动化工作流程。它能够理解您项目的上下文,安全地读写文件、执行命令,并与您协作,从而提高开发效率,是您开发流程中的得力伙伴。

一个将 Gemini 强大功能直接带入你终端的开源 AI 智能体。

Gemini CLI 提供了强大的 AI 功能,涵盖了从代码理解和文件操作,到命令执行和动态故障排除的方方面面。它对您的命令行体验进行了根本性的升级,让您能够通过自然语言编写代码、调试问题并简化工作流程。

其强大之处源于内置工具,使您能够:

  • 使用 Google 搜索来奠定提示基础,以便您可以抓取网页并为模型提供实时的外部上下文。
  • 通过内置支持模型上下文协议 (MCP) 或捆绑扩展来扩展 Gemini CLI 的功能
  • 自定义提示和指令,根据您的具体需求和工作流程定制 Gemini。
  • 通过在脚本中非交互式地调用 Gemini CLI,实现任务自动化并与现有工作流程集成

Gemini CLI 提供业界最高的免费使用限额,每分钟可发送 60 个模型请求,每天最多 1,000 个模型请求。

  • 安装最新的 LTS 版本
nvm install --lts
  • 安装最新的稳定版本
nvm install node

人工智能时代的软件 (Software in the era of AI) - Andrej Karpathy

主要介绍了软件开发领域正在经历的重大变革,将其分为软件1.0(传统手工编码)、软件2.0(基于神经网络权重训练)和软件3.0(通过自然语言提示编程大型语言模型)。演讲者将大型语言模型(LLMs)比作新型操作系统基础设施,指出它们既具备公用事业的性质(按量付费、集中式),也展现出类似芯片制造厂和操作系统的特征,且目前仍处于早期阶段(类似于1960年代的计算)。进一步探讨了LLMs的认知特性(如广博知识、幻觉、记忆局限),并强调了开发部分自主应用的重要性,这些应用能让人类通过图形用户界面自主性滑块有效监督AI。最后,演讲者提出,随着自然语言编程的兴起,人人皆可编程,并呼吁开发者为智能体优化数字基础设施和文档,预示着一个由人类与AI协作构建的 “钢铁侠战衣”式未来

Map of GitHub 是一个创新的数据可视化项目,旨在以交互式地图的形式展示 GitHub 上的开源项目生态。该项目由开发者 Anvaka 创建,通过复杂的算法和可视化技术,将超过 400,000 个 GitHub 仓库以节点和连接的形式呈现,帮助用户探索项目之间的关联、技术趋势以及开源社区的演变。

vLLM:快速易用的 LLM 推理和服务库

在下载前,请先通过如下命令安装 ModelScope

pip install modelscope

ModelScope 下载默认存储到 ~/.cache/modelscope/hub(Linux/macOS)或 C:\Users<用户名>.cache\modelscope\hub(Windows)。--local_dir 参数可以指定下载目录。

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct
modelscope download --model openai-mirror/whisper-large-v3-turbo --local_dir whisper-large-v3-turbo

探索多模态大模型 Qwen2.5-VL

本文档提供了一篇关于Qwen2.5-VL 多模态大模型的详细指南,涵盖了从模型架构、性能到实际部署和使用的各个方面。它不仅介绍了如何下载不同版本(如 3B 和 7B Instruct)的模型,还提供了安装和启动模型的命令行指令。此外,文档还展示了如何通过 cURL 命令测试模型,并给出了一个使用 OpenAI API 与 Qwen2.5-VL 进行交互的 Python 示例代码,该代码专注于图像中的火灾、烟雾和安全帽佩戴情况检测,支持本地和网络图片。

在下载前,请先通过如下命令安装 ModelScope

pip install modelscope
modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir Qwen2.5-VL-3B-Instruct
modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct

默认存储到 ~/.cache/modelscope/hub(Linux/macOS)或 C:\Users<用户名>.cache\modelscope\hub(Windows)。--local_dir 参数可以指定下载目录。

Dify:开源 LLM 应用开发平台

Dify 是一个开源的 LLM 应用开发平台。其直观的界面结合了 AI 工作流、RAG 管道、Agent、模型管理、可观测性功能等,让您可以快速从原型到生产。

Dify 提供了 Docker 部署方式,您可以通过以下步骤快速部署:

cd dify
cd docker
cp .env.example .env
docker compose up -d

运行后,可以在浏览器上访问 http://localhost/install 进入 Dify 控制台并开始初始化安装操作。

如果您需要自定义配置,请参考 .env.example 文件中的注释,并更新 .env 文件中对应的值。此外,您可能需要根据您的具体部署环境和需求对 docker-compose.yaml 文件本身进行调整,例如更改镜像版本、端口映射或卷挂载。完成任何更改后,请重新运行 docker-compose up -d。您可以在此处找到可用环境变量的完整列表。

Qwen2.5-Omni:端到端多模态大模型

Qwen2.5-Omni是Qwen系列中全新的旗舰级端到端多模态大模型,专为全面的多模式感知设计,无缝处理包括文本、图像、音频和视频在内的各种输入,同时支持流式的文本生成和自然语音合成输出。

点击下方视频了解更多信息吧 😃

Open Video

  • 全能创新架构:我们提出了一种全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。
  • 实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。
  • 自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。
  • 全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。
  • 卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。
git clone https://huggingface.co/Qwen/Qwen2.5-Omni-3B

SmolAgents 概念指南:Agent 介绍

本文档探讨了人工智能代理(AI Agent)的概念,将其定义为LLM(大型语言模型)输出控制工作流程的程序代理能力是一个连续的谱系,取决于LLM对程序流程的控制程度,从简单的输出处理到控制迭代和启动其他代理。文中强调了在需要灵活工作流程时使用代理的优势,特别是多步代理通过循环推理和行动解决复杂任务的能力。此外,文档详细介绍了smolagents框架的必要性,它提供了管理工具调用、记忆和错误处理的抽象层,并提出代码代理是一种更具可组合性、通用性和在LLM训练数据中表现更好的代理实现方式。

任何使用 AI 的高效系统都需要为大型语言模型(LLM)提供某种与现实世界交互的能力:例如,调用搜索工具以获取外部信息,或对某些程序执行操作以解决任务。换句话说,LLM 应该具有代理能力(agency)。Agent 程序是 LLM 通向外部世界的门户。

AI Agent 是LLM 输出控制工作流程的程序

任何利用 LLM 的系统都会将 LLM 的输出集成到代码中。LLM 的输入对代码工作流程的影响程度就是 LLM 在系统中的代理能力水平。

请注意,根据这个定义,“agent”不是一个离散的、非0即1的定义:相反,“代理能力”在一个连续的谱系上演变,这取决于您赋予 LLM 对工作流程的权力大小。

下表展示了代理能力在不同系统中的变化:

提升 LLM 推理能力:CoT, ReAct, ToT

特性 CoT (Chain-of-Thought) ReAct (Reasoning and Acting) ToT (Tree-of-Thoughts)
中文名称 思维链 推理与行动 思维树
核心思想 引导模型生成中间推理步骤,模仿人类逐步思考。 结合内部推理与外部工具交互,获取并利用额外信息。 允许模型同时探索多个不同的推理路径,形成树状结构,并进行评估和选择。
工作方式 在提示中展示逐步推理的示例,引导模型按步骤思考并输出过程。 模型交替进行:
1. 思考 (Thought): 分析情况,规划行动。
2. 行动 (Action): 调用外部工具(如搜索)。
3. 观察 (Observation): 获取行动结果。
1. 生成多个想法: 每一步产生多个可能的思路。
2. 评估想法: 对各思路进行可行性 / 潜力评估。
3. 搜索策略: 使用如 BFS(广度优先搜索) 或 DFS(深度优先搜索) 探索思路树,可回溯。
主要优点 - 提高复杂推理能力
- 增强可解释性,理解模型思路
- 处理知识密集型任务(获取外部知识)
- 减少信息幻觉
- 动态适应环境反馈
- 解决更复杂、探索性强的问题
- 提高规划和决策能力
- 支持回溯,增强鲁棒性
简单比喻 让模型“多想几步”,把思考过程写出来。 让模型边“想”边“做”(例如上网查资料)。 让模型同时“想”多种可能性,像走迷宫一样尝试不同路径,并选择最优的。

DeepSeek-V3 & DeepSeek-R1

## 构建AI代理:5个常见障碍及解决方案

构建AI代理的新手指南,帮助您克服挑战。

**AI代理**正变得越来越复杂,**能够自动化工作流程、做出决策并与外部工具集成**。然而,在现实世界中部署AI代理面临着很多挑战,这些挑战会影响其可靠性、性能和准确性。现在优先建立AI代理设计的强大基础,将为未来可靠、安全的自主系统奠定基础。

**👉 本指南探讨了开发人员在创建AI代理时面临的五个最常见障碍,以及克服这些障碍的实用解决方案。** 无论您是刚刚入门的新手还是正在改进方法的资深开发人员,这些最佳实践都将帮助您设计出在复杂环境中更可靠、更具扩展性和更有效的AI代理。

让我们开始构建代理式AI吧!

## 1. 管理工具集成

随着AI代理变得越来越复杂,**管理它们对各种工具的访问和使用变得越来越具有挑战性**。**每增加一个工具**都会**引入**新的`潜在故障点`、`安全考虑因素`和`性能影响`。确保代理适当地使用工具并优雅地处理工具故障对于可靠运行至关重要。

要`解决这一挑战`,**请为代理工具箱中的每个工具创建精确的定义**。包括何时使用该工具的`明确示例`、`有效参数范围`和`预期输出`。**构建能够强制执行这些规范的验证逻辑**,并`从一小组定义明确的工具开始`,而不是许多定义松散的工具。**定期监控**将帮助您`识别哪些工具最有效`,以及`哪些定义需要完善`。
// ...

构建AI代理:5个常见障碍及解决方案

构建AI代理的新手指南,帮助您克服挑战。

AI代理正变得越来越复杂,能够自动化工作流程、做出决策并与外部工具集成。然而,在现实世界中部署AI代理面临着很多挑战,这些挑战会影响其可靠性、性能和准确性。现在优先建立AI代理设计的强大基础,将为未来可靠、安全的自主系统奠定基础。

👉 本指南探讨了开发人员在创建AI代理时面临的五个最常见障碍,以及克服这些障碍的实用解决方案。 无论您是刚刚入门的新手还是正在改进方法的资深开发人员,这些最佳实践都将帮助您设计出在复杂环境中更可靠、更具扩展性和更有效的AI代理。

让我们开始构建代理式AI吧!

随着AI代理变得越来越复杂,管理它们对各种工具的访问和使用变得越来越具有挑战性每增加一个工具都会引入新的潜在故障点安全考虑因素性能影响。确保代理适当地使用工具并优雅地处理工具故障对于可靠运行至关重要。

解决这一挑战请为代理工具箱中的每个工具创建精确的定义。包括何时使用该工具的明确示例有效参数范围预期输出构建能够强制执行这些规范的验证逻辑,并从一小组定义明确的工具开始,而不是许多定义松散的工具。定期监控将帮助您识别哪些工具最有效,以及哪些定义需要完善

构建AI代理的一个基本挑战是确保一致可靠的决策。与遵循明确规则的传统软件系统不同,AI代理必须解释用户意图,对复杂问题进行推理,并最终基于概率分布做出决策。