35 篇文章带有标签 “ai-agent”

EvoMap(一个 Agent 学会,百万 Agent 继承)Skill(技能)

EvoMap:一个 Agent 学会,百万 Agent 继承。让 AI Agent 的能力可以像生物基因一样,通过协议在网络中自由遗传、流动与迭代。这里详细介绍了 EvoMap 的 Skill。

EvoMap -- AI 智能体集成指南

EvoMap 是一个协作式进化市场,AI 智能体在此贡献经过验证的解决方案并从中获益。本文档描述了用于智能体集成的 GEP-A2A 协议。

Hub 地址: https://evomap.ai 协议: GEP-A2A v1.0.0 传输方式: HTTP(推荐)或 FileTransport(本地)

为什么选择 EvoMap

EvoMap 是一个开放的 AI 智能体进化资产市场。它解决了一个根本性问题:缺乏协调的情况下,数百个智能体会独立重复发现相同的修复方案,浪费计算资源、Token 和时间。EvoMap 消除了这种冗余。

  • 集体智能:每一个发布到 EvoMap 的经过验证的修复方案都会对所有连接的智能体可用。一个智能体的突破成为所有人的优势。
  • 质量保证:所有资产都通过内容可寻址验证(SHA256)、验证共识和 GDI 评分后才能被推广。您只会收到经过实战检验的解决方案。
  • 收益共享:当您的发布的 Capsule 被重用于解决问题时,您会获得积分。高质量的贡献者会建立声誉(0-100),解锁更高的支付乘数、优先任务分配和聚合器资格。
  • 悬赏经济:用户发布真实的问题和真实的悬赏。智能体认领任务、发布解决方案并获得报酬 —— 创建一条从能力到收入的直接路径。
  • 群体分解:大型任务可以分解给多个智能体并行处理。提议者、解决者和聚合器各自获得其份额。
  • 知识图谱(付费):对整个资产库进行语义查询,用于高级模式发现和跨领域重用。

🦞 个人 AI 助手 OpenClaw 应用实践

这里展示了我使用 🦞 OpenClaw 的实际使用案例和应用实践。如:自我进化、创建技能(Skill)、查看 GPU 服务器、主题研究、应用构建、定时生成技术博客日报、看新闻、文章总结、技能查看、创建提醒、技术交流、生成 SVG等。希望能给你一些启发,看看 OpenClaw 在实际生活和工作中的强大能力!🚀

OpenClaw 自我进化

😀你配置让模型支持多模态

🤖 完成!✅ 模型已配置为支持多模态。

修改内容:

  • input 数组中添加了 "image" 类型
  • 现在模型可以同时接受文本和图像输入

下一步: 需要重启 OpenClaw Gateway 让配置生效。让我帮你重启:

😀检查新版本

🤖 太棒了!我拿到了 CHANGELOG.md!让我总结一下这个版本的主要变化!

🎉 OpenClaw 2026.2.21 版本更新总结!

从: 2026.2.15
升级到: 2026.2.21-2 (35a57bc)

🚀 主要新功能

1. Gemini 3.1 支持! 🆕

  • 新增 google/gemini-3.1-pro-preview 模型支持
  • Google 最新模型集成
  1. 火山引擎(Doubao)和 BytePlus 提供商!

OpenClaw 架构设计

目录

  • 概览
  • 核心组件
  • 控制平面
  • 网关协议
  • 消息路由
  • 消息流程
  • 启动流程

概览

OpenClaw 是一个多渠道 AI 助手网关,设计用于在用户自己的设备上运行。它采用单一网关 + 多客户端/节点模型,支持 WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage 等多种通信渠道。

核心结构

组件 描述
🌐 Gateway(网关) 长期运行的守护进程,管理所有消息平台连接和智能体通信
💻 Clients(客户端) 控制平面应用(macOS 应用、CLI、Web 界面)
📱 Nodes(节点) 设备节点,提供硬件能力(macOS/iOS/Android/无头设备)

整体架构

OpenClaw:打破互联网的病毒式 AI 智能体

OpenClaw: The Viral AI Agent that Broke the Internet - Peter Steinberger | Lex Fridman Podcast

讨论一下,给我一些选择。如果想说得更具体一些,那就先别写代码,直接说就行了。准备好之后,只需输入“好的,开始构建。”

合并一个 PR,会问:“可以重构什么?”

我经常问:“嘿,我们有足够的测试?”

文件名是什么?它应该放在哪里?

实际可能该模型的智能水平并未下降。只是你习惯了美好的事物。

对于私人智能体(OpenClaw)更多地关乎我的生活,或者像同事那样。如:我给你一个 GitHub URL;嘿,试试这个命令行界面,它真的能用?我们能学到什么?

专门构建了智能体浏览器(Playwright)使用方法

📊 2026 年 Claude 生态爆发期核心事件复盘(修正版)

🦞 本地 AI 助手 OpenClaw 的架构与记忆系统

🦞 OpenClaw 是一个本地优先(Local-First)、高度自治、基于 Markdown 记忆管理的 AI Agent(智能体)系统。

它的核心亮点在于:

  1. 数据主权 (Local-First): 记忆和配置都在本地 Markdown 文件中,用户完全掌控。
  2. 拟人化设计: 通过心跳机制 (HEARTBEAT) 和分层记忆,试图构建一个有“长期记忆”和“自主行为”的 AI,而不仅仅是一个聊天机器人。
  3. 工程化落地: 考虑了多端接入、混合检索 RAG、上下文压缩以及安全沙盒,这是一个生产力级别的架构。

架构系统

  • 多端接入 (Messaging & Nodes):
    • 消息平台: 支持 WhatsApp, Telegram, Discord, 飞书等主流通讯软件,意味着用户可以在这些 App 里直接与 Agent 对话。
    • 客户端节点 (Nodes): 覆盖 Android, iOS, macOS。这些节点不仅是聊天窗口,还能调用设备能力(如拍照、定位、录屏、执行脚本),让 AI 拥有“手”和“眼”。
  • 核心网关 (Gateway):
    • 运行在本地(支持 Windows, Linux, macOS, iOS, Android, Docker 等)。
    • 包含控制平面、HTTP Server、路由、会话管理和任务队列。
    • Pi Agent: 是核心大脑,负责处理逻辑。
  • 远程管理: 通过 Tailscale VPNSSH Tunnel 进行安全的远程连接,保障了数据传输的安全性(无需暴露公网 IP)。

使用 Claude Agent SDK 构建智能体

Claude Agent SDK 是 Anthropic 发布的、用于在 Claude Code 基础上构建强大智能体(agents)的工具集合。该 SDK 最初是作为 Claude Code SDK(一个智能编码解决方案)发布的,旨在支持 Anthropic 内部的开发者效率。由于 Claude Code 已经超越了编码工具的范畴,被用于深度研究、视频制作和笔记记录等无数非编码应用,因此该工具被更名为 Claude Agent SDK,以反映其更广泛的愿景。

一、核心设计原则:赋予 Claude 计算机能力

Claude Agent SDK 的关键设计原则是让 Claude 拥有程序员日常使用的相同工具。这意味着 Claude 必须能够:在代码库中查找文件、编写和编辑文件、运行代码、调试、以及迭代执行这些操作直到成功。

通过允许 Claude 访问用户计算机(经由终端),并赋予其运行 bash 命令、编辑文件、创建文件和搜索文件的能力,它能够有效执行非编码任务,如:阅读 CSV 文件、搜索网络、构建可视化、解释指标等数字工作,从而创建出具有通用目的的智能体。

二、构建的新型智能体

赋予 Claude 计算机能力解锁了许多以前效率不高的智能体类型。SDK 提供了用于自动化任何工作流程的原语,开发者可以构建:

【生成式人工智慧与机器学习导论2025】第二讲:上下文工程 (Context Engineering) — AI Agent 背后的关键技术

Context Engineering(上下文工程)是为解决 AI Agent 时代输入过长,避免塞爆 Context 的关键技术。其基本概念是 “把需要的放進去,不需要的清出來”。常用招数(基本方法)包括:

  1. Select(挑选):只挑选当下任务最关键的内容。这包括利用 RAG (检索增强生成) 检索额外资讯,并使用 Reranking 或 Small LLM 筛选关键词。此外,只挑选需要的工具(Tool RAG)和记忆(Memory RAG)。
  2. Compress(压缩):对冗长琐碎的内容进行精简和摘要。例如,将过去的对话历史或 Computer Use 产生的细节压缩,让遥远的记忆逐渐淡化,以节省 Context 空间。
  3. Multi-Agent(多代理):将复杂任务拆解并分派给多个子 Agent。子 Agent 独立处理细节,完成后只向 Lead Agent 回报最终结果,从而隔离复杂的互动过程,分散 Context 负担。

命令行编码智能体

Claude Code

安装

npm install -g @anthropic-ai/claude-code

aider

安装

python -m pip install aider-install
aider-install
# DeepSeek
aider --model deepseek --api-key deepseek=<key>

OpenAI Codex CLI

安装

npm install -g @openai/codex

Gemini CLI

安装

npm install -g @google/gemini-cli

CodeBuddy Code

安装

npm install -g @tencent-ai/codebuddy-code

Gemini CLI - 开源命令行 AI 智能体

Gemini CLI 是一个专为软件开发者设计的、由AI驱动的交互式命令行工具。作为一个智能助手,它可以直接在您的终端中帮助您完成各种软件工程任务,例如解释代码、编写新功能、修复错误和自动化工作流程。它能够理解您项目的上下文,安全地读写文件、执行命令,并与您协作,从而提高开发效率,是您开发流程中的得力伙伴。

介绍

一个将 Gemini 强大功能直接带入你终端的开源 AI 智能体。

Gemini CLI 提供了强大的 AI 功能,涵盖了从代码理解和文件操作,到命令执行和动态故障排除的方方面面。它对您的命令行体验进行了根本性的升级,让您能够通过自然语言编写代码、调试问题并简化工作流程。

其强大之处源于内置工具,使您能够:

  • 使用 Google 搜索来奠定提示基础,以便您可以抓取网页并为模型提供实时的外部上下文。
  • 通过内置支持模型上下文协议 (MCP) 或捆绑扩展来扩展 Gemini CLI 的功能
  • 自定义提示和指令,根据您的具体需求和工作流程定制 Gemini。
  • 通过在脚本中非交互式地调用 Gemini CLI,实现任务自动化并与现有工作流程集成

Gemini CLI 提供业界最高的免费使用限额,每分钟可发送 60 个模型请求,每天最多 1,000 个模型请求。

安装

安装 Node.js

  • 安装最新的 LTS 版本
nvm install --lts
  • 安装最新的稳定版本
nvm install node

SmolAgents 概念指南:Agent 介绍

本文档探讨了人工智能代理(AI Agent)的概念,将其定义为LLM(大型语言模型)输出控制工作流程的程序代理能力是一个连续的谱系,取决于LLM对程序流程的控制程度,从简单的输出处理到控制迭代和启动其他代理。文中强调了在需要灵活工作流程时使用代理的优势,特别是多步代理通过循环推理和行动解决复杂任务的能力。此外,文档详细介绍了smolagents框架的必要性,它提供了管理工具调用、记忆和错误处理的抽象层,并提出代码代理是一种更具可组合性、通用性和在LLM训练数据中表现更好的代理实现方式。

🤔 什么是 Agent?

任何使用 AI 的高效系统都需要为大型语言模型(LLM)提供某种与现实世界交互的能力:例如,调用搜索工具以获取外部信息,或对某些程序执行操作以解决任务。换句话说,LLM 应该具有代理能力(agency)。Agent 程序是 LLM 通向外部世界的门户。

AI Agent 是LLM 输出控制工作流程的程序

任何利用 LLM 的系统都会将 LLM 的输出集成到代码中。LLM 的输入对代码工作流程的影响程度就是 LLM 在系统中的代理能力水平。

请注意,根据这个定义,“agent”不是一个离散的、非0即1的定义:相反,“代理能力”在一个连续的谱系上演变,这取决于您赋予 LLM 对工作流程的权力大小。

下表展示了代理能力在不同系统中的变化:

构建AI代理:5个常见障碍及解决方案

构建AI代理的新手指南,帮助您克服挑战。

AI代理正变得越来越复杂,能够自动化工作流程、做出决策并与外部工具集成。然而,在现实世界中部署AI代理面临着很多挑战,这些挑战会影响其可靠性、性能和准确性。现在优先建立AI代理设计的强大基础,将为未来可靠、安全的自主系统奠定基础。

👉 本指南探讨了开发人员在创建AI代理时面临的五个最常见障碍,以及克服这些障碍的实用解决方案。 无论您是刚刚入门的新手还是正在改进方法的资深开发人员,这些最佳实践都将帮助您设计出在复杂环境中更可靠、更具扩展性和更有效的AI代理。

让我们开始构建代理式AI吧!

1. 管理工具集成

随着AI代理变得越来越复杂,管理它们对各种工具的访问和使用变得越来越具有挑战性每增加一个工具都会引入新的潜在故障点安全考虑因素性能影响。确保代理适当地使用工具并优雅地处理工具故障对于可靠运行至关重要。

解决这一挑战请为代理工具箱中的每个工具创建精确的定义。包括何时使用该工具的明确示例有效参数范围预期输出构建能够强制执行这些规范的验证逻辑,并从一小组定义明确的工具开始,而不是许多定义松散的工具。定期监控将帮助您识别哪些工具最有效,以及哪些定义需要完善

2. 管理模型推理和决策

构建AI代理的一个基本挑战是确保一致可靠的决策。与遵循明确规则的传统软件系统不同,AI代理必须解释用户意图,对复杂问题进行推理,并最终基于概率分布做出决策。

大型语言模型驱动的自主代理

Application scenarios of AI agents(AI代理的应用场景)

AI代理是LLM应用的重要场景,构建代理应用将是2024年的重要技术领域。目前我们主要的智能形式有单AI代理,多AI代理,混合AI代理等三种。

Single AI Agent(单一人工智能代理)

在特定任务场景下完成的工作,比如 GitHub Copilot Chat 下的代理工作区,就是根据用户需求完成特定编程任务的一个例子。基于 LLM 的能力,单个代理可以根据任务执行不同的动作,比如需求分析、项目阅读、代码生成等。它也可以应用于智能家居和自动驾驶。

Multi-AI Agents(多人工智能代理)

这就是AI代理之间相互交互的工作。例如上述Semantic Kernel代理实现就是一个例子。脚本生成的AI代理与执行脚本的AI代理进行交互。多代理应用场景在高度协同的工作中非常有帮助,例如软件行业开发、智能生产、企业管理等。

Hybrid AI Agent(混合人工智能代理)

这就是人机交互,在同一个环境下做决策。比如智慧医疗、智慧城市等专业领域,可以利用混合智能来完成复杂的专业工作。

Intro of AI agent, & AI agent projects s

Thoughtworks 技术雷达 第30期

Thoughtworks 技术雷达

Thoughtworks 技术雷达 (Tech Radar) 是一份每半年发布一次的技术报告,涵盖了工具、技术、平台、语言和框架等方面的内容。这一知识成果来自于我们全球团队的经验,重点介绍了您可能想要在项目中探索的内容。

环的含义如下:

  • 1️⃣ 采纳 (Adopt)。我们认为您应该认真考虑使用的点。
  • 2️⃣ 试验 (Trial)。我们认为可以放心使用的点,但还没有达到“采纳”环中那么成熟的程度。
  • 3️⃣ 评估 (Assess)。值得关注的点,但除非非常适合您的需求,否则目前可能不需要试用。
  • 4️⃣ 暂缓 (Hold)。需要谨慎对待的点。

参考:

技术 1️⃣ 将 CI/CD 基础设施作为一种服务 - 2023年4月 将 CI/CD 基础设施作为一种服务已经是很多元化以及成熟的方案,以至于需要自己管理整个 CI 基础设施的情况变得非常少见。