83 篇文章带有标签 “Agent”

OpenClaw 架构设计

  • 概览
  • 核心组件
  • 控制平面
  • 网关协议
  • 消息路由
  • 消息流程
  • 启动流程

OpenClaw 是一个多渠道 AI 助手网关,设计用于在用户自己的设备上运行。它采用单一网关 + 多客户端/节点模型,支持 WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage 等多种通信渠道。

组件 描述
🌐 Gateway(网关) 长期运行的守护进程,管理所有消息平台连接和智能体通信
💻 Clients(客户端) 控制平面应用(macOS 应用、CLI、Web 界面)
📱 Nodes(节点) 设备节点,提供硬件能力(macOS/iOS/Android/无头设备)

OpenClaw:打破互联网的病毒式 AI 智能体

OpenClaw: The Viral AI Agent that Broke the Internet - Peter Steinberger | Lex Fridman Podcast

讨论一下,给我一些选择。如果想说得更具体一些,那就先别写代码,直接说就行了。准备好之后,只需输入“好的,开始构建。”

合并一个 PR,会问:“可以重构什么?”

我经常问:“嘿,我们有足够的测试?”

文件名是什么?它应该放在哪里?

实际可能该模型的智能水平并未下降。只是你习惯了美好的事物。

对于私人智能体(OpenClaw)更多地关乎我的生活,或者像同事那样。如:我给你一个 GitHub URL;嘿,试试这个命令行界面,它真的能用?我们能学到什么?

专门构建了智能体浏览器(Playwright)使用方法

直接和它对话——智能体工程的实用指南

Peter Steinberger (OpenClaw 的创造者) 分享了核心主张 “拒绝套路,直接对话”。他认为当前的 AI 智能体(尤其是 GPT-5-Codex)已足够强大,无需过度依赖 RAG、复杂的子智能体或繁琐的规格文档等“炒作”手段。

最近我在这里变得安静了许多,因为我正埋头于最新的项目。Agent 智能体工程(Agentic engineering)已经变得如此强大,以至于现在它几乎包揽了我 100% 的代码编写。然而,我看到仍有许多人在解决问题时,还在搞那些华而不实的复杂套路,而不是专注于把活干完(Getting sh*t done)。

这篇文章的灵感部分来自昨晚在伦敦参加的 Claude Code Anonymous 交流会,部分原因是从我上次更新工作流以来已经过了“AI 领域的一年”(实际才几个月,但变化巨大)。是时候同步一下进度了。

所有的基本理念仍然适用,所以我不会再提上下文管理等简单的事情。你可以阅读我的 《AI 开发最佳工作流》 作为入门。

我独立工作,当前项目是一个约 30 万行代码(LOC)的 TypeScript React 应用,包含 Chrome 扩展、CLI、基于 Tauri 的客户端以及基于 Expo 的移动端。我使用 Vercel 托管,一个 PR(拉取请求)大约在 2 分钟内就能交付新版本网页进行测试。其他部分(App 等)尚未自动化。

以推理速度交付:为什么我不再阅读代码,而是看着它飞速流转

Peter Steinberger (OpenClaw 的创造者) 分享了他在使用 AI 智能体构建软件方面的最新经验,特别是关于如何以推理速度交付代码,以及他对模型(如 GPT 5.2 和 Opus)的看法。

“氛围编程”(Vibe Coding)在今年取得的进步令人不可思议。大约在五月份时,我对某些提示词(prompts)能直接生成可运行的代码感到惊讶,而现在,这已经成了我的预期。我现在的代码交付速度快到不真实。从那时起,我消耗了大量的Token。是时候更新一下心得录了。

这些智能体(Agents)的工作方式很有趣。几周前有人争论说,为了感受糟糕的架构,人必须亲手写代码,使用智能体会导致脱节——我完全不同意这种观点。当你花足够多的时间与智能体合作,你就会准确地知道某件事应该花多少时间。当 codex 回来时如果未能一次性解决问题,我立刻就会产生怀疑。

我能创建的软件数量,现在主要 受限于推理时间硬核思考。坦率地说——大多数软件并不需要硬核思考。大多数应用只是把数据从一个表单搬运到另一个表单,也许存进某个地方,然后以某种形式展示给用户。最简单的形式是文本,所以默认情况下,无论我想构建什么,它都始于 CLI(命令行界面)。智能体可以直接调用它(CLI)并验证输出——从而闭环

真正解锁像工厂一样构建软件能力的,是 GPT 5。

🦞 本地 AI 助手 OpenClaw 的架构与记忆系统

🦞 OpenClaw 是一个本地优先(Local-First)、高度自治、基于 Markdown 记忆管理的 AI Agent(智能体)系统。

它的核心亮点在于:

  1. 数据主权 (Local-First): 记忆和配置都在本地 Markdown 文件中,用户完全掌控。
  2. 拟人化设计: 通过心跳机制 (HEARTBEAT) 和分层记忆,试图构建一个有“长期记忆”和“自主行为”的 AI,而不仅仅是一个聊天机器人。
  3. 工程化落地: 考虑了多端接入、混合检索 RAG、上下文压缩以及安全沙盒,这是一个生产力级别的架构。

多端接入 (Messaging & Nodes): 消息平台: 支持 WhatsApp, Telegram, Discord, 飞书等主流通讯软件,意味着用户可以在这些 App 里直接与 Agent 对话。 客户端节点 (Nodes): 覆盖 Android, iOS, macOS。这些节点不仅是聊天窗口,还能调用设备能力(如拍照、定位、录屏、执行脚本),让 AI 拥有“手”和“眼”。 核心网关 (Gateway): 运行在本地(支持 Windows, Linux, macOS, iOS, Android, Docker 等)。 包含控制平面、HTTP Server、路由、会话管理和任务队列。 Pi Agent: 是核心大脑,负责处理逻辑。

OpenClaw 智能体工作区指南:构建记忆与人格

OpenClaw 智能体工作区,旨在构建一个具有独立人格、长期记忆和自治能力的 AI。

核心基于 Markdown 文件系统

  • 身份与原则 (BOOTSTRAP, SOUL, IDENTITY):确立 AI 的自我认知、名字与核心行为守则。
  • 持续性 (MEMORY, AGENTS):通过“每日日志”与“长期记忆”实现跨会话的知识积累,而非每次新鲜唤醒。
  • 伙伴与工具 (USER, TOOLS):记录人类偏好与本地环境配置,实现个性化与外部协作。
  • 自主性 (HEARTBEAT):在无指令时主动执行维护与状态检查。

总体而言,这套架构通过将记忆转化为持久化、可编辑的 Markdown 文件,实现了自主反思与知识沉淀的自治目标

OpenClaw - 智能体

  • 一个长期的网关 (Gateway) 进程拥有所有消息传输表面(WhatsApp 通过 Baileys,Telegram 通过 grammY,Slack,Discord,Signal,iMessage,WebChat)。
  • 控制平面客户端(macOS 应用、CLI、Web UI、自动化脚本)通过 WebSocket 连接到网关,绑定在配置的主机上(默认 127.0.0.1:18789)。
  • 节点 (Nodes)(macOS/iOS/Android/无头设备)也通过 WebSocket 连接,但需声明 role: node 并包含明确的能力/命令。
  • 每台主机对应一个网关;它是唯一开启 WhatsApp 会话的地方。
  • 画布主机 (Canvas host)(默认 18793)用于提供代理可编辑的 HTML 和 A2UI。
  • 维护提供商连接。
  • 公开类型化的 WS API(请求、响应、服务器推送事件)。
  • 根据 JSON Schema 验证入站数据帧。
  • 触发事件,如 agentchatpresencehealthheartbeatcron
  • 每个客户端一条 WS 连接。
  • 发送请求 (healthstatussendagentsystem-presence)。
  • 订阅事件 (tickagentpresenceshutdown)。

使用 role: node 连接到相同的 WS 服务器。

Kimi K2.5:首个开源多模态智能体集群

感觉 Kimi K2.5 在国内被低估了,让子弹飞一会儿 🚀🚀🚀

为了严格评估智能体集群(Agent Swarm)框架的有效性,选择了三个具有代表性的基准测试,它们共同涵盖了深度推理大规模检索以及真实世界的复杂性

  • BrowseComp:一项具有挑战性的深度研究基准,需要多步推理和复杂的信息综合。
  • WideSearch:旨在评估在不同来源中进行广泛、多步信息寻求和推理能力的基准。
  • In-house Swarm Bench:一项内部开发的集群基准,旨在评估智能体集群在真实世界、高复杂度条件下的性能。 它涵盖了四个领域:
    • WildSearch(开放网络上不受约束的真实世界信息检索);
    • Batch Download(大规模获取多样化资源);
    • WideRead(涉及 100 多个输入文档的大规模文档理解);
    • Long-Form Writing(连贯生成超过 10 万字的海量内容)。 该基准整合了极端规模的场景,旨在压力测试基于智能体系统的编排(Orchestration)、可扩展性(Scalability)和协作能力

Kimi K2.5 评估涵盖了多个领域的基准测试,下面是按能力维度分类的各基准测试说明:

Unified Agentic Reinforcement Learning Environment(统一智能体强化学习环境)是 Kimi K2.

Kimi Code 实战

curl -L code.kimi.com/install.sh | bash
kimi
  1. 登录 - /login
  2. 选择平台 - Kimi Code
  3. 浏览器打开链接,微信扫码完成授权
  4. 返回终端,登录成功

本地 AI 助手 OpenClaw:macOS 实操指南 + 核心架构分析

自2025年11月由PSPDFKit创始人Peter Steinberger作为周末项目启动(最初名为Clawd/Clawdbot),OpenClaw(曾短暂更名为Moltbot)在2026年1月迅速走红,成为当年上半年增长最快的开源AI智能体框架之一。该项目GitHub星数已超过13万(部分报道接近15万),其最大亮点在于真正实现了“本地优先、本地执行”的自主任务能力,而非单纯的云端聊天。

OpenClaw不是传统AI聊天助手,而是一个运行在用户本地硬件(Mac、PC、服务器)上的自动化中枢。它通过消息类应用(如WhatsApp、Telegram、iMessage、Discord等)接收自然语言指令,能够执行真实电脑操作:读写文件、运行命令、操作浏览器、管理邮件日历、甚至自主编写新技能。

iFlow CLI

可以手动修改配置文件:~/.iflow/settings.json

{
  "cna": "dp3vIQIkkhcCAXyAlGrAY4my",
  "selectedAuthType": "openai-compatible",
  "searchApiKey": "sk-72c24939a1ac137a28e990cdee4d5d7f",
  "baseUrl": "http://localhost:11434/v1",
  "apiKey": "NONE",
  "modelName": "qwen3-coder:latest",
  "bootAnimationShown": true
}

不能使用工具(todo, write_file 等),不可用。

Dify 定制您的政策解读智能体

📌 DSL

  1. 克隆代码仓库
git clone https://github.com/langgenius/dify
  1. Docker 部署

Dify 提供了 Docker 部署方式,您可以通过以下步骤快速部署:

cd dify
cd docker
cp .env.example .env
docker compose up -d

运行后,可以在浏览器上访问 http://localhost/install 进入 Dify 控制台并开始初始化安装操作。

vllm serve /data/models/llm/deepseek/DeepSeek-R1-Distill-Qwen-32B-AWQ/ \
    --served-model-name gpt-4o-mini \
    --tensor-parallel-size 4 \
    --max-model-len 102400 \
    --dtype half \
    --port 8111
  1. 安装 Ollama 服务。
curl -fsSL https://ollama.com/install.sh | sh
  1. 编辑 systemd 服务,调用 systemctl edit ollama.service。这将打开一个编辑器。
sudo systemctl edit ollama.service

对于每个环境变量,在 [Service] 部分下添加一行 Environment: [

Claude Code

本文介绍 Claude Code 的上下文工程。它整合了多种输入来源,包括系统提示内置工具MCP工具自定义子代理记忆文件对话历史,以全面理解并完成编程开发任务。还介绍了使用 Claude Code 在您的项目中提供全流程协助,如何编写提示词

计划模式是指通过只读操作分析代码库来创建计划,非常适合探索代码库、规划复杂更改或安全地审查代码。

​> Analyze the authentication system and suggest improvements
​> 分析身份验证系统并提出改进建议。

​> I need to refactor our authentication system to use OAuth2. Create a detailed migration plan.
​> 我需要重构我们的身份验证系统以使用 OAuth2。创建一个详细的迁移计划。

  ​> What about backward compatibility?
  ​> 向后兼容性怎么办?

  ​> How should we handle database migration?
  ​> 我们应该如何处理数据库迁移?

Claude Code 的配置与权限

npm install -g @anthropic-ai/claude-code

settings.json 文件是通过分层设置配置 Claude Code 的官方机制:

  • 用户设置~/.claude/settings.json 中定义,适用于所有项目。
  • 项目设置 保存在您的项目目录中:
    • .claude/settings.json 用于检入源代码控制并与团队共享的设置
    • .claude/settings.local.json 用于不检入的设置,对个人偏好和实验很有用。Claude Code 会在创建时配置 git 忽略 .claude/settings.local.json
  • 对于 Claude Code 的企业部署,还支持企业托管策略设置。这些设置优先于用户和项目设置。系统管理员可以将策略部署到:
    • macOS: /Library/Application Support/ClaudeCode/managed-settings.json
    • Linux 和 WSL: /etc/claude-code/managed-settings.json
    • Windows: C:\ProgramData\ClaudeCode\managed-settings.json

示例 settings.json

Claude Code 文档

Anthropic的“Claude Code”是一款终端内AI编程助手,旨在通过自然语言交互帮助开发者更快地编写、调试和管理代码。它提供了一系列功能,包括根据描述构建功能识别并修复bug理解复杂代码库以及自动化日常开发任务。用户可以通过简单的NPM安装和登录快速开始使用,并能通过聊天式的命令直接编辑文件、执行Shell命令和管理Git操作。该工具还支持自定义子代理以处理特定任务,并提供了灵活的配置选项,包括记忆管理、权限设置和环境变量,以适应个人、项目和企业级的开发需求。

了解 Anthropic 的智能编程工具 Claude Code,它运行在你的终端中,帮你比以往更快地将创意转化为代码。

前提条件:

# 安装 Claude Code
npm install -g @anthropic-ai/claude-code

# 进入你的项目目录
cd your-awesome-project

# 开始使用 Claude 编程
claude
# 首次使用时,系统会提示你登录

就是这么简单!你已经准备好使用 Claude 编写代码了。继续学习快速入门(5 分钟)→

(有特殊的设置需求或遇到问题?请参阅高级设置故障排除。)

根据描述构建功能:用简单的语言告诉 Claude 你想构建什么。

京东通用智能体:JoyAgent-JDGenie

本文档详细介绍了JoyAgent-JDGenie,一个由京东开发的开源、轻量级通用多智能体产品。它不仅涵盖了系统架构、前后端、框架和核心子智能体,还提供了部署指南,包括如何构建和启动Docker镜像,以及配置大型语言模型(LLM)如DeepSeek和搜索工具如Serper。文档还展示了该智能体在实际应用中的界面示例,并提供了任务规划和执行的详细提示(prompts),阐述了其思考、行动、观察的工作流程,以及如何利用各种工具(如计划工具、代码解释器、报告工具、文件读写工具和深度搜索工具)来解决用户问题或完成复杂任务。

JoyAgent-JDGenie 是业界首个开源高完成度轻量化通用多智能体产品,能端到端直接响应并解决用户 query 或任务,支持新场景功能定制挂载,涵盖前后端、框架、引擎及核心子智能体,在通用能力榜单表现优异且不依赖特定平台。

git clone https://github.com/jd-opensource/joyagent-jdgenie.git

下面的设置是使用 DeepSeek 进行的,只需要把 <您的 API Key> 替换为您的就可以了。注意第二个配置文件有一个是需要搜索时使用的,可以到这里申请:Serper

✨ 我配置 OpenAI API 兼容接口没有成功。

编辑文件:genie-backend/src/main/resources/applic

Gemini CLI - 开源命令行 AI 智能体

Gemini CLI 是一个专为软件开发者设计的、由AI驱动的交互式命令行工具。作为一个智能助手,它可以直接在您的终端中帮助您完成各种软件工程任务,例如解释代码、编写新功能、修复错误和自动化工作流程。它能够理解您项目的上下文,安全地读写文件、执行命令,并与您协作,从而提高开发效率,是您开发流程中的得力伙伴。

一个将 Gemini 强大功能直接带入你终端的开源 AI 智能体。

Gemini CLI 提供了强大的 AI 功能,涵盖了从代码理解和文件操作,到命令执行和动态故障排除的方方面面。它对您的命令行体验进行了根本性的升级,让您能够通过自然语言编写代码、调试问题并简化工作流程。

其强大之处源于内置工具,使您能够:

  • 使用 Google 搜索来奠定提示基础,以便您可以抓取网页并为模型提供实时的外部上下文。
  • 通过内置支持模型上下文协议 (MCP) 或捆绑扩展来扩展 Gemini CLI 的功能
  • 自定义提示和指令,根据您的具体需求和工作流程定制 Gemini。
  • 通过在脚本中非交互式地调用 Gemini CLI,实现任务自动化并与现有工作流程集成

Gemini CLI 提供业界最高的免费使用限额,每分钟可发送 60 个模型请求,每天最多 1,000 个模型请求。

  • 安装最新的 LTS 版本
nvm install --lts
  • 安装最新的稳定版本
nvm install node

SmolAgents 概念指南:Agent 介绍

本文档探讨了人工智能代理(AI Agent)的概念,将其定义为LLM(大型语言模型)输出控制工作流程的程序代理能力是一个连续的谱系,取决于LLM对程序流程的控制程度,从简单的输出处理到控制迭代和启动其他代理。文中强调了在需要灵活工作流程时使用代理的优势,特别是多步代理通过循环推理和行动解决复杂任务的能力。此外,文档详细介绍了smolagents框架的必要性,它提供了管理工具调用、记忆和错误处理的抽象层,并提出代码代理是一种更具可组合性、通用性和在LLM训练数据中表现更好的代理实现方式。

任何使用 AI 的高效系统都需要为大型语言模型(LLM)提供某种与现实世界交互的能力:例如,调用搜索工具以获取外部信息,或对某些程序执行操作以解决任务。换句话说,LLM 应该具有代理能力(agency)。Agent 程序是 LLM 通向外部世界的门户。

AI Agent 是LLM 输出控制工作流程的程序

任何利用 LLM 的系统都会将 LLM 的输出集成到代码中。LLM 的输入对代码工作流程的影响程度就是 LLM 在系统中的代理能力水平。

请注意,根据这个定义,“agent”不是一个离散的、非0即1的定义:相反,“代理能力”在一个连续的谱系上演变,这取决于您赋予 LLM 对工作流程的权力大小。

下表展示了代理能力在不同系统中的变化:

Anthropic: 构建有效的AI智能体

🤯 最近看了Anthropic关于如何构建高效AI智能体的文章,简直是醍醐灌顶!💡 原来最成功的秘诀不是堆砌复杂技术,而是简单可组合的模式!

Anthropic的大佬们和超多团队合作后发现,很多时候我们并不需要“全自动”的智能体,理解不同模式的适用场景超重要!

👇 先搞清楚俩概念:

  • 工作流 (Workflow): 就像搭积木🧱,是预设好的、一步步执行的LLM和工具协调流程。适合任务清晰固定的场景。
  • 智能体 (Agent): 像有个聪明的小脑袋🧠,LLM自己决定怎么走、用什么工具、怎么完成任务。适合需要灵活应变、动态决策的复杂场景。

🌟 什么时候用,什么时候不用?

别一上来就想搞个超级Agent! Anthropic建议从最简单的方案开始:优化单个LLM调用 + 检索/上下文就够了!只有简单方案搞不定时,才考虑更复杂的系统。简单工作流提供稳定可预测性,而智能体提供灵活性,但要权衡成本和速度哦!

⚠️ 框架迷思!

市面上框架一大堆(LangChain, Bedrock Agents...),能帮你快速入门。但Anthropic提醒:它们可能增加抽象层,让调试变难,还可能诱惑你过度设计!💥 划重点: 建议直接用LLM API开始,很多模式几行代码就能实现!用框架也要搞懂底层原理,别被绕晕!

🧱 AI智能体的构建模块:

基础是增强型LLM,能自主调用工具、记忆、检索。