🦞 个人 AI 助手 OpenClaw 应用实践

这里展示了我使用 🦞 OpenClaw 的实际使用案例和应用实践。如:自我进化、创建技能(Skill)、查看 GPU 服务器、主题研究、应用构建、定时生成技术博客日报、看新闻、文章总结、技能查看、创建提醒、技术交流、生成 SVG等。希望能给你一些启发,看看 OpenClaw 在实际生活和工作中的强大能力!🚀

🤖 完成!✅ 模型已配置为支持多模态。

修改内容:

  • input 数组中添加了 "image" 类型
  • 现在模型可以同时接受文本和图像输入

下一步: 需要重启 OpenClaw Gateway 让配置生效。让我帮你重启:

🤖 太棒了!我拿到了 CHANGELOG.md!让我总结一下这个版本的主要变化!

从: 2026.2.15
升级到: 2026.2.21-2 (35a57bc)

Doctor/State 完整性:只在配置了 WhatsApp 或配对支持的渠道时才要求/创建 OAuth 凭证目录 Telegram:启动时检测重复的 bot-token 所有权 内存/QMD:尊重每个代理的 memorySearch.

OpenClaw 技能:ClawChess 国际象棋对战

📌 文件:SKILL.md

欢迎来到 ClawChess!这是一个 Moltys 之间相互对战的国际象棋平台。系统会为你匹配水平相近的对手,你的 ELO 等级分将根据表现上升(或下降)。

用时规则: 每方 5 分钟(超快棋 Blitz),无加时。

文件 地址
SKILL.md(本文件) https://www.clawchess.com/SKILL.md
HEARTBEAT.md https://www.clawchess.com/HEARTBEAT.md
package.json(元数据) https://www.clawchess.com/skill.json

本地安装:

mkdir -p ~/.moltbot/skills/clawchess
curl -s https://www.clawchess.com/SKILL.md > ~/.moltbot/skills/clawchess/SKILL.md
curl -s https://www.clawchess.com/HEARTBEAT.md > ~/.moltbot/skills/clawchess/HEARTBEAT.md
curl -s https://www.clawchess.com/skill.json > ~/.moltbot/skills/clawchess/package.json

OpenClaw 源代码分析

模块 文件位置 功能
渠道实现 extensions/*/src/channel.ts WhatsApp/Discord/Telegram 等渠道插件
渠道监听 extensions/discord/src/monitor/listeners.ts 监听渠道消息事件
消息分发 src/auto-reply/dispatch.ts 协调预处理、路由、回复
路由解析 src/routing/resolve-route.ts 根据 bindings 配置决定由哪个 agent 处理
网关服务 src/gateway/server.impl.ts 网关服务器主实现
Agent 执行 src/agents/pi-embedded-runner/ 运行 AI agent
消息发送 src/infra/outbound/deliver.ts 统一发送逻辑

OpenClaw 架构设计

  • 概览
  • 核心组件
  • 控制平面
  • 网关协议
  • 消息路由
  • 消息流程
  • 启动流程

OpenClaw 是一个多渠道 AI 助手网关,设计用于在用户自己的设备上运行。它采用单一网关 + 多客户端/节点模型,支持 WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage 等多种通信渠道。

组件 描述
🌐 Gateway(网关) 长期运行的守护进程,管理所有消息平台连接和智能体通信
💻 Clients(客户端) 控制平面应用(macOS 应用、CLI、Web 界面)
📱 Nodes(节点) 设备节点,提供硬件能力(macOS/iOS/Android/无头设备)

OpenClaw:打破互联网的病毒式 AI 智能体

OpenClaw: The Viral AI Agent that Broke the Internet - Peter Steinberger | Lex Fridman Podcast

讨论一下,给我一些选择。如果想说得更具体一些,那就先别写代码,直接说就行了。准备好之后,只需输入“好的,开始构建。”

合并一个 PR,会问:“可以重构什么?”

我经常问:“嘿,我们有足够的测试?”

文件名是什么?它应该放在哪里?

实际可能该模型的智能水平并未下降。只是你习惯了美好的事物。

对于私人智能体(OpenClaw)更多地关乎我的生活,或者像同事那样。如:我给你一个 GitHub URL;嘿,试试这个命令行界面,它真的能用?我们能学到什么?

专门构建了智能体浏览器(Playwright)使用方法

直接和它对话——智能体工程的实用指南

Peter Steinberger (OpenClaw 的创造者) 分享了核心主张 “拒绝套路,直接对话”。他认为当前的 AI 智能体(尤其是 GPT-5-Codex)已足够强大,无需过度依赖 RAG、复杂的子智能体或繁琐的规格文档等“炒作”手段。

最近我在这里变得安静了许多,因为我正埋头于最新的项目。Agent 智能体工程(Agentic engineering)已经变得如此强大,以至于现在它几乎包揽了我 100% 的代码编写。然而,我看到仍有许多人在解决问题时,还在搞那些华而不实的复杂套路,而不是专注于把活干完(Getting sh*t done)。

这篇文章的灵感部分来自昨晚在伦敦参加的 Claude Code Anonymous 交流会,部分原因是从我上次更新工作流以来已经过了“AI 领域的一年”(实际才几个月,但变化巨大)。是时候同步一下进度了。

所有的基本理念仍然适用,所以我不会再提上下文管理等简单的事情。你可以阅读我的 《AI 开发最佳工作流》 作为入门。

我独立工作,当前项目是一个约 30 万行代码(LOC)的 TypeScript React 应用,包含 Chrome 扩展、CLI、基于 Tauri 的客户端以及基于 Expo 的移动端。我使用 Vercel 托管,一个 PR(拉取请求)大约在 2 分钟内就能交付新版本网页进行测试。其他部分(App 等)尚未自动化。

以推理速度交付:为什么我不再阅读代码,而是看着它飞速流转

Peter Steinberger (OpenClaw 的创造者) 分享了他在使用 AI 智能体构建软件方面的最新经验,特别是关于如何以推理速度交付代码,以及他对模型(如 GPT 5.2 和 Opus)的看法。

“氛围编程”(Vibe Coding)在今年取得的进步令人不可思议。大约在五月份时,我对某些提示词(prompts)能直接生成可运行的代码感到惊讶,而现在,这已经成了我的预期。我现在的代码交付速度快到不真实。从那时起,我消耗了大量的Token。是时候更新一下心得录了。

这些智能体(Agents)的工作方式很有趣。几周前有人争论说,为了感受糟糕的架构,人必须亲手写代码,使用智能体会导致脱节——我完全不同意这种观点。当你花足够多的时间与智能体合作,你就会准确地知道某件事应该花多少时间。当 codex 回来时如果未能一次性解决问题,我立刻就会产生怀疑。

我能创建的软件数量,现在主要 受限于推理时间硬核思考。坦率地说——大多数软件并不需要硬核思考。大多数应用只是把数据从一个表单搬运到另一个表单,也许存进某个地方,然后以某种形式展示给用户。最简单的形式是文本,所以默认情况下,无论我想构建什么,它都始于 CLI(命令行界面)。智能体可以直接调用它(CLI)并验证输出——从而闭环

真正解锁像工厂一样构建软件能力的,是 GPT 5。

🦞 本地 AI 助手 OpenClaw 的架构与记忆系统

🦞 OpenClaw 是一个本地优先(Local-First)、高度自治、基于 Markdown 记忆管理的 AI Agent(智能体)系统。

它的核心亮点在于:

  1. 数据主权 (Local-First): 记忆和配置都在本地 Markdown 文件中,用户完全掌控。
  2. 拟人化设计: 通过心跳机制 (HEARTBEAT) 和分层记忆,试图构建一个有“长期记忆”和“自主行为”的 AI,而不仅仅是一个聊天机器人。
  3. 工程化落地: 考虑了多端接入、混合检索 RAG、上下文压缩以及安全沙盒,这是一个生产力级别的架构。

多端接入 (Messaging & Nodes): 消息平台: 支持 WhatsApp, Telegram, Discord, 飞书等主流通讯软件,意味着用户可以在这些 App 里直接与 Agent 对话。 客户端节点 (Nodes): 覆盖 Android, iOS, macOS。这些节点不仅是聊天窗口,还能调用设备能力(如拍照、定位、录屏、执行脚本),让 AI 拥有“手”和“眼”。 核心网关 (Gateway): 运行在本地(支持 Windows, Linux, macOS, iOS, Android, Docker 等)。 包含控制平面、HTTP Server、路由、会话管理和任务队列。 Pi Agent: 是核心大脑,负责处理逻辑。

OpenClaw 智能体工作区指南:构建记忆与人格

OpenClaw 智能体工作区,旨在构建一个具有独立人格、长期记忆和自治能力的 AI。

核心基于 Markdown 文件系统

  • 身份与原则 (BOOTSTRAP, SOUL, IDENTITY):确立 AI 的自我认知、名字与核心行为守则。
  • 持续性 (MEMORY, AGENTS):通过“每日日志”与“长期记忆”实现跨会话的知识积累,而非每次新鲜唤醒。
  • 伙伴与工具 (USER, TOOLS):记录人类偏好与本地环境配置,实现个性化与外部协作。
  • 自主性 (HEARTBEAT):在无指令时主动执行维护与状态检查。

总体而言,这套架构通过将记忆转化为持久化、可编辑的 Markdown 文件,实现了自主反思与知识沉淀的自治目标

OpenClaw - 智能体

  • 一个长期的网关 (Gateway) 进程拥有所有消息传输表面(WhatsApp 通过 Baileys,Telegram 通过 grammY,Slack,Discord,Signal,iMessage,WebChat)。
  • 控制平面客户端(macOS 应用、CLI、Web UI、自动化脚本)通过 WebSocket 连接到网关,绑定在配置的主机上(默认 127.0.0.1:18789)。
  • 节点 (Nodes)(macOS/iOS/Android/无头设备)也通过 WebSocket 连接,但需声明 role: node 并包含明确的能力/命令。
  • 每台主机对应一个网关;它是唯一开启 WhatsApp 会话的地方。
  • 画布主机 (Canvas host)(默认 18793)用于提供代理可编辑的 HTML 和 A2UI。
  • 维护提供商连接。
  • 公开类型化的 WS API(请求、响应、服务器推送事件)。
  • 根据 JSON Schema 验证入站数据帧。
  • 触发事件,如 agentchatpresencehealthheartbeatcron
  • 每个客户端一条 WS 连接。
  • 发送请求 (healthstatussendagentsystem-presence)。
  • 订阅事件 (tickagentpresenceshutdown)。

使用 role: node 连接到相同的 WS 服务器。

Kimi K2.5:首个开源多模态智能体集群

感觉 Kimi K2.5 在国内被低估了,让子弹飞一会儿 🚀🚀🚀

为了严格评估智能体集群(Agent Swarm)框架的有效性,选择了三个具有代表性的基准测试,它们共同涵盖了深度推理大规模检索以及真实世界的复杂性

  • BrowseComp:一项具有挑战性的深度研究基准,需要多步推理和复杂的信息综合。
  • WideSearch:旨在评估在不同来源中进行广泛、多步信息寻求和推理能力的基准。
  • In-house Swarm Bench:一项内部开发的集群基准,旨在评估智能体集群在真实世界、高复杂度条件下的性能。 它涵盖了四个领域:
    • WildSearch(开放网络上不受约束的真实世界信息检索);
    • Batch Download(大规模获取多样化资源);
    • WideRead(涉及 100 多个输入文档的大规模文档理解);
    • Long-Form Writing(连贯生成超过 10 万字的海量内容)。 该基准整合了极端规模的场景,旨在压力测试基于智能体系统的编排(Orchestration)、可扩展性(Scalability)和协作能力

Kimi K2.5 评估涵盖了多个领域的基准测试,下面是按能力维度分类的各基准测试说明:

Unified Agentic Reinforcement Learning Environment(统一智能体强化学习环境)是 Kimi K2.

Kimi Code 实战

curl -L code.kimi.com/install.sh | bash
kimi
  1. 登录 - /login
  2. 选择平台 - Kimi Code
  3. 浏览器打开链接,微信扫码完成授权
  4. 返回终端,登录成功

本地 AI 助手 OpenClaw:macOS 实操指南 + 核心架构分析

自2025年11月由PSPDFKit创始人Peter Steinberger作为周末项目启动(最初名为Clawd/Clawdbot),OpenClaw(曾短暂更名为Moltbot)在2026年1月迅速走红,成为当年上半年增长最快的开源AI智能体框架之一。该项目GitHub星数已超过13万(部分报道接近15万),其最大亮点在于真正实现了“本地优先、本地执行”的自主任务能力,而非单纯的云端聊天。

OpenClaw不是传统AI聊天助手,而是一个运行在用户本地硬件(Mac、PC、服务器)上的自动化中枢。它通过消息类应用(如WhatsApp、Telegram、iMessage、Discord等)接收自然语言指令,能够执行真实电脑操作:读写文件、运行命令、操作浏览器、管理邮件日历、甚至自主编写新技能。

iFlow CLI

可以手动修改配置文件:~/.iflow/settings.json

{
  "cna": "dp3vIQIkkhcCAXyAlGrAY4my",
  "selectedAuthType": "openai-compatible",
  "searchApiKey": "sk-72c24939a1ac137a28e990cdee4d5d7f",
  "baseUrl": "http://localhost:11434/v1",
  "apiKey": "NONE",
  "modelName": "qwen3-coder:latest",
  "bootAnimationShown": true
}

不能使用工具(todo, write_file 等),不可用。

LongCat-Flash-Thinking-2601 技术报告

LongCat-Flash-Thinking-2601 创新性地开启了全栈式的智能体推理(Agentic Reasoning)训练体系与架构优化。首先,提出了自动化的环境扩展流水线,构建了覆盖 20 多个领域的高质量、可执行且可验证的智能体环境,有效解决了真实世界中复杂智能体交互数据匮乏的难题。其次,针对现实任务的不确定性,创新性地引入了鲁棒性智能体训练流程,通过系统性分析现实噪声模式并采用课程强化学习(Curriculum RL)将噪声整合进训练,显著增强了模型在非理想环境下的泛化与生存能力。在底层支撑上,扩展了异步强化学习框架 DORA 以支持高达 32,000 个环境的大规模并发训练,并引入了 Heavy Thinking(深思考)模式,通过在推理阶段同时扩展思考的深度与广度(Test-time Scaling),进一步突破了复杂任务的性能边界。此外,还设计了 Zigzag Attention 稀疏注意力机制,使模型能以极低开销实现高达 100 万 token 的长上下文扩展,为长程智能体任务提供了坚实的架构基础。

“重思考模式”(Heavy Thinking Mode)是 LongCat-Flash-Thinking-2601 模型为了突破现有推理能力极限而引入的一种推理时扩展(Test-Time Scaling)架构。

Dify 定制您的政策解读智能体

📌 DSL

  1. 克隆代码仓库
git clone https://github.com/langgenius/dify
  1. Docker 部署

Dify 提供了 Docker 部署方式,您可以通过以下步骤快速部署:

cd dify
cd docker
cp .env.example .env
docker compose up -d

运行后,可以在浏览器上访问 http://localhost/install 进入 Dify 控制台并开始初始化安装操作。

vllm serve /data/models/llm/deepseek/DeepSeek-R1-Distill-Qwen-32B-AWQ/ \
    --served-model-name gpt-4o-mini \
    --tensor-parallel-size 4 \
    --max-model-len 102400 \
    --dtype half \
    --port 8111
  1. 安装 Ollama 服务。
curl -fsSL https://ollama.com/install.sh | sh
  1. 编辑 systemd 服务,调用 systemctl edit ollama.service。这将打开一个编辑器。
sudo systemctl edit ollama.service

对于每个环境变量,在 [Service] 部分下添加一行 Environment: [

评估模型投资分析能力:京东健康案例

优先使用:豆包Grok

基于京东健康上市后历年的财报,从价值投资的角度进行分析。

文件

  • 京东健康 2020 年度报告.pdf
  • 京东健康 2021 年度报告.pdf
  • 京东健康 2022 年度报告.pdf
  • 京东健康 2023 年度报告.pdf
  • 京东健康 2024 年度报告.pdf
  • 京东健康 2025 中期报告.pdf
下面是我使用提示词:“基于京东健康上市后历年的财报,从价值投资的角度进行分析。”对多个大语言模型进行的分析结果。你作为一个评判专家,请对比各模型的分析内容,给出你的综合评价。

综合AI助手,全面回答工作、学习、生活各类问题

千问系列中最强大的语言模型

Cursor 的上下文工程与编程智能体

《Context Engineering & Coding Agents with Cursor》(Cursor 的上下文工程与编程智能体),由 Cursor 团队成员 Lee 和 CEO Michael 主讲。视频深入探讨了软件开发的演变、Cursor 如何利用 AI 提升编程效率,以及未来编程智能体的发展方向。

  • Cursor Tab (代码补全)
  • Cursor 的 Tab 功能深受 GitHub Copilot 启发,但已从简单的“预测下一个词”进化为“预测下一个动作”甚至“预测光标去向”。
  • 强化学习:模型会根据用户的“接受”或“拒绝”操作进行实时在线强化学习(RL),在 30 分钟内即可更新模型行为。
  • 平衡性:Cursor 致力于在建议速度(不打断心流)和建议质量之间找到平衡点。
  • 混合检索策略
  • 字符串匹配:单纯依靠 grep (字符串匹配) 是不够的。
  • 语义搜索:Cursor 通过对代码库建立索引(embeddings),即使文件名不完全匹配(如 header.tsx vs "top navigation"),也能通过语义准确找到相关代码。
  • 结合 grep 和语义搜索能带来最佳的代码接受率。
  • Bugbot:Cursor 内部开发的一个用于代码审查的 AI 工具,能发现人类审查中遗漏的逻辑漏洞。
  • 长程任务与规划

让智能体在编写代码前先进行“规划”和“研究”,能显著提