11 篇文章带有标签 “智能体”

Kilo Code - AI 编码智能体架构设计文档

Kilo Code 是一个功能强大的开源 AI 编码助手,基于 OpenCode 框架开发。项目采用 Monorepo 架构,使用 Turborepo 和 Bun Workspaces 管理多个包。

指标 数值
Monorepo 包数量 23
TypeScript 文件数 5800+
支持的 AI 模型 500+
内置工具数量 50+
UI 组件数(kilo-ui) 65+
国际化语言 19 种
开源协议 MIT
  • 多模型支持:支持 500+ AI 模型,包括 Claude、GPT、Gemini、Grok、Codex、GLM 等
  • 多客户端:CLI、VS Code 扩展、Web UI 和桌面应用,满足不同场景
  • 丰富的工具集:50+ 内置工具,涵盖文件操作、命令执行、代码搜索
  • 插件扩展:支持外部插件和 MCP 服务器,动态加载自定义工具
  • 会话管理:完整的会话系统,支持父子会话、上下文压缩、会话恢复
  • 浏览器自动化:集成 Playwright,AI agent 可操作网页、截图、表单填充

Kilo Code 采用 Turborepo + Bun Workspaces 分层架构,23 个包协同工作。

Pi - AI 编码智能体架构设计文档

Pi 是一个模块化的 AI 编码智能体 Monorepo,使用 TypeScript 构建。它提供统一的 LLM 抽象层、通用的智能体运行时、丰富的终端 UI 框架,以及完全可扩展的编码智能体命令行工具。

Pi(@earendil-works/pi-mono)是由 Mario Zechner 开发的 AI 编码智能体 Monorepo,设计理念是模块化、可扩展、供应商无关。它将多个 LLM 供应商的复杂性抽象为统一 API,提供强大的智能体运行时和工具执行能力,并附带生产就绪的终端 UI。

能力 说明
统一 LLM API 9 种 API 协议和 30+ 供应商品牌的单一接口。只需修改一个字符串即可切换供应商。
智能体运行时 完整的智能体循环,支持并行工具执行、消息注入队列和上下文压缩。
丰富的终端 UI 独立的终端 UI 框架,支持差异化渲染、文本编辑器、图片显示和浮层系统。
扩展系统 80+ 扩展示例、20+ 生命周期钩子。可注册工具、命令、快捷键和供应商。
Web 组件 基于 Lit 的聊天 UI,支持沙箱化 Artifact 渲染(HTML、SVG、PDF、DOCX 等)。
多运行模式 交互式终端、管道友好的打印模式,以及用于 IDE 集成的 JSONL RPC 模式。

研究编码智能体(Kilo Code)开源项目的最佳实践

基于 Kilo Code 的架构特征和当前编码智能体领域的生产实践 ,以下是系统研究此类项目的 方法论框架

研究维度 关键问题 Kilo Code 的启示
Fork 溯源 上游是谁?核心差异点?社区分裂原因? Kilo 从 Roo Code 分叉,差异集中在 Cloud 集成和商业化功能
生态位 是「IDE 插件」「CLI 工具」还是「平台」? Kilo 是「IDE 扩展 + CLI + Cloud」的三位一体
许可策略 是否存在 BSL/SSPL 等限制性条款? MIT 许可证,无商业限制
模型绑定 是否硬编码单一提供商? 模型中立是核心卖点,避免供应商锁定

建议的代码阅读路径(以 Kilo 为例):

  1. 入口层src/extension/activate.ts(VS Code 生命周期)、src/extension/api.ts(IPC 外部 API)
  2. 核心代理循环 — 查找 Cline/Roo/Kilo 主类,理解 Plan → Act → Verify 的循环
  3. 工具调用层McpHub 如何集成外部工具(文件系统、终端、浏览器)
  4. 上下文管理层 — Memory Bank、Context Mentions、自动索引的实现
  5. 模式系统 — Custom Modes 的解析与切换逻辑
  6. 差异标记 — 搜索 // kilocode_change 快速定位增量代码

Kilo Code:基于智能体工程的自动化软件开发平台

# npm
npm install -g @kilocode/cli

# Or run directly with npx
npx @kilocode/cli

基于项目文档和代码结构分析,Kilo是一个开源的AI编码智能体平台,主要用于加速软件开发过程。它是OpenCode项目的fork版本,增强为全面的agentic工程平台。以下是其核心能力的详细分析:

编码智能体的核心组件(Sebastian Raschka)

编码智能体的核心组件——编码智能体如何借助工具、记忆与仓库上下文,让大语言模型在实际应用中更高效

Sebastian Raschka 博士 2026年4月4日

本文将讲解编码智能体与智能体框架的整体设计:它们是什么、如何工作,以及各模块在实际中如何协同。读过我《从零构建大语言模型》《从零构建推理模型》两本书的读者经常问到智能体相关问题,因此我整理了这份可直接参考的说明。

总体而言,智能体之所以成为重要议题,是因为当下大语言模型实用系统的进步,不只在于模型本身更强,更在于我们如何使用模型。在许多真实场景中,模型外围的系统——如工具调用、上下文管理、记忆机制——与模型本身同等重要。这也解释了为何 Claude Code、Codex 这类系统,会比在普通聊天界面中使用同款模型显得能力强得多。

本文将拆解编码智能体的六大核心组件

编码智能体专为软件工程场景设计,其关键不只在于模型选择,更在于外围系统:仓库上下文、工具设计、提示词缓存稳定性、记忆能力、长会话连续性。

这个区分很重要,因为人们谈论大语言模型的编码能力时,常把模型、推理行为、智能体产品混为一谈。在展开编码智能体细节前,我先简要说明几个更宽泛概念的区别:大语言模型、推理模型与智能体。

可以简单类比:

  • 大语言模型是发动机
  • 推理模型是强化版发动机(性能更强,但使用成本更高)
  • 智能体框架则是让发动机高效运转的控制系统

AI 技术研究及开源项目评估

BitNet 是微软开源的 1.58-bit 大模型推理框架,通过三值量化将模型压缩 10 倍,大幅降低推理成本。无法在现有昇腾 910B4 服务器上直接部署。因为 BitNet GPU 内核完全依赖 NVIDIA CUDA,与华为 CANN 架构不兼容,目前无任何官方或社区适配版本。

Page Agent 是阿里开源的纯前端 JavaScript GUI Agent 框架,通过一行脚本将 AI Agent 嵌入网页,用自然语言控制页面操作(点击、填表、导航等)。该项目可立即部署,接入研发网的大模型即可使用。

Next AI Drawio 是一款 AI + draw.io 图表生成工具,通过自然语言生成、修改和增强图表(流程图、架构图、云拓扑图等)。该项目可立即部署,接入研发网的大模型即可使用。

agency-agents 是一套 AI Agent 角色提示词库,为 Claude Code、Cursor 等编程助手提供 140 多个专业角色配置(涵盖工程、设计、营销等 12 个领域)。只需要配置到编程助手中即可以使用了。

GitNexus 是一款零服务器的代码智能引擎,支持 Graph RAG 代码探索。一、索引代码仓库,为智能体提供服务;二、在浏览器中为 GitHub 仓库或代码包生成交互式知识图谱。该项目可立即部署,需要和智能体(Claude Code, Codex等)协作。

2025 年大模型实践总结

这一阶段负责采集人类的原始动作数据。图中列出了两种主要技术:

  • PN Studio (惯性动捕): 利用惯性传感器套件。优点是成本低、易用、环境适应性强。
  • HybridTrack (光学动捕): 利用摄像头和标记点。优点是鲁棒性强、精度极高。

捕捉到的信号通过 Axis StudioHybrid Data Server 进行初步处理。

  • 数据类型: 包括高精度动捕数据、6DOF(六自由度)数据、原始加速度(ACC)和陀螺仪(GYRO)数据,以及同步时间戳。
  • 接口类型: 支持 MocapApi、VRPN 以及专门的 Isaac 插件。

这是将人类动作转化为机器人动作的关键步骤。

  • 输入格式: 常见的 3D 动画格式,如 .FBX.MBX.BVH 和数据格式 .CSV
  • 重定向 (Retargeting): 通过算法将人类的骨架运动映射到机器人的 URDF(统一机器人描述格式)模型上,确保动作符合机器人的物理结构约束。

展示了开发和仿真所使用的核心软件生态:

  • 编程语言: C++ 和 Python。
  • 中间件: ROS (Robot Operating System),用于机器人控制。
  • 仿真环境: NVIDIA ISAAC,一个强大的机器人仿真和人工智能训练平台。

最终的应用成果,分为两个方向:

硬件执行: 将动作应用到不同形态的机器人上,包括人形机器人、机械臂、灵巧手以及仿生机器人(如四足机器人)。

使用 Claude Agent SDK 构建智能体

Claude Agent SDK 是 Anthropic 发布的、用于在 Claude Code 基础上构建强大智能体(agents)的工具集合。该 SDK 最初是作为 Claude Code SDK(一个智能编码解决方案)发布的,旨在支持 Anthropic 内部的开发者效率。由于 Claude Code 已经超越了编码工具的范畴,被用于深度研究、视频制作和笔记记录等无数非编码应用,因此该工具被更名为 Claude Agent SDK,以反映其更广泛的愿景。

一、核心设计原则:赋予 Claude 计算机能力

Claude Agent SDK 的关键设计原则是让 Claude 拥有程序员日常使用的相同工具。这意味着 Claude 必须能够:在代码库中查找文件、编写和编辑文件、运行代码、调试、以及迭代执行这些操作直到成功。

通过允许 Claude 访问用户计算机(经由终端),并赋予其运行 bash 命令、编辑文件、创建文件和搜索文件的能力,它能够有效执行非编码任务,如:阅读 CSV 文件、搜索网络、构建可视化、解释指标等数字工作,从而创建出具有通用目的的智能体。

二、构建的新型智能体

赋予 Claude 计算机能力解锁了许多以前效率不高的智能体类型。SDK 提供了用于自动化任何工作流程的原语,开发者可以构建:

【生成式人工智慧与机器学习导论2025】第二讲:上下文工程 (Context Engineering) — AI Agent 背后的关键技术

Context Engineering(上下文工程)是为解决 AI Agent 时代输入过长,避免塞爆 Context 的关键技术。其基本概念是 “把需要的放進去,不需要的清出來”。常用招数(基本方法)包括:

  1. Select(挑选):只挑选当下任务最关键的内容。这包括利用 RAG (检索增强生成) 检索额外资讯,并使用 Reranking 或 Small LLM 筛选关键词。此外,只挑选需要的工具(Tool RAG)和记忆(Memory RAG)。
  2. Compress(压缩):对冗长琐碎的内容进行精简和摘要。例如,将过去的对话历史或 Computer Use 产生的细节压缩,让遥远的记忆逐渐淡化,以节省 Context 空间。
  3. Multi-Agent(多代理):将复杂任务拆解并分派给多个子 Agent。子 Agent 独立处理细节,完成后只向 Lead Agent 回报最终结果,从而隔离复杂的互动过程,分散 Context 负担。

人工智能时代的软件 (Software in the era of AI) - Andrej Karpathy

主要介绍了软件开发领域正在经历的重大变革,将其分为软件1.0(传统手工编码)、软件2.0(基于神经网络权重训练)和软件3.0(通过自然语言提示编程大型语言模型)。演讲者将大型语言模型(LLMs)比作新型操作系统基础设施,指出它们既具备公用事业的性质(按量付费、集中式),也展现出类似芯片制造厂和操作系统的特征,且目前仍处于早期阶段(类似于1960年代的计算)。进一步探讨了LLMs的认知特性(如广博知识、幻觉、记忆局限),并强调了开发部分自主应用的重要性,这些应用能让人类通过图形用户界面自主性滑块有效监督AI。最后,演讲者提出,随着自然语言编程的兴起,人人皆可编程,并呼吁开发者为智能体优化数字基础设施和文档,预示着一个由人类与AI协作构建的 “钢铁侠战衣”式未来

Map of GitHub 是一个创新的数据可视化项目,旨在以交互式地图的形式展示 GitHub 上的开源项目生态。该项目由开发者 Anvaka 创建,通过复杂的算法和可视化技术,将超过 400,000 个 GitHub 仓库以节点和连接的形式呈现,帮助用户探索项目之间的关联、技术趋势以及开源社区的演变。