5 篇文章带有标签 “GLM”

集成个人助手(OpenClaw|Hermes)的方式

聊天软件要集成 OpenClaw,主要有这几类方式(可以组合):

  1. 用 OpenClaw 自带的“Channel 插件”直连(推荐,最省事)
    • Telegram、WhatsApp、Discord、Slack、飞书/Lark、钉钉、Teams、Google Chat、Mattermost、Matrix、IRC、LINE、Signal、iMessage 等。
    • 在 OpenClaw 的初始化或 openclaw channels add 里直接选通道、按向导配置即可。
    • 本质上是:各 IM 的 Bot API / Webhook / Socket Mode / QR 扫码 对接到 OpenClaw 的 Gateway。初始化向导里可以看到支持的通道清单。
  2. 通用 HTTP 接口集成(适合任意聊天平台)
    • OpenClaw 的 Gateway 提供了一个 HTTP 端点 /tools/invoke,可以调用单个工具(例如创建会话、发消息、拉取历史等),支持 Bearer 认证和 OpenAI 兼容的 /v1/* 风格接口。
    • 你的聊天软件后端只要能发 HTTP POST,就可以用这个接口和 OpenClaw 交互。
  3. Gateway WS 协议集成(适合需要实时双向通信的场景)
    • OpenClaw 使用 Gateway WS 协议作为控制面+传输,所有客户端(CLI、Web UI、App 等)都走这个协议。
    • 如果你想自己写一个聊天前端或桥接层,可以直接按 Gateway WS 协议接入。
  4. Webhook 入站集成(事件驱动)
    • OpenClaw 内置 Webhook 能力,可以接收外部系统推送的事件;社区教程也演示了如何通过 Webhook 接收任意第三方系统请求。
    • 很多 IM 本身就支持“收到消息 → 发 Webhook”,你把这些 Webhook 转发给 OpenClaw 即可。
  5. 通过自动化/ iPaaS 平台“曲线集成”(n8n、Zapier、腾讯云/阿里云云函数等)
    • 比如用 n8n:邮件 → HTTP Request 调 OpenClaw API → 飞书通知,已经有人实践过。
    • 适合需要把 IM 和内部系统(工单、CRM、邮件等)串起来的复杂场景。

1. 用 OpenClaw 自带 Channel 插件直连(最常用)

原理:
OpenClaw 是“自托管网关+多通道 Agent 平台”,已经把常见聊天软件的接入做成了内置通道或插件,你只要按向导配置 Bot Token / Webhook / QR 码即可。 典型流程:

  1. 部署并启动 OpenClaw(本地或云主机)。
  2. 在初始化或 openclaw configure / openclaw channels add 里选择要接入的通道,例如:
    • Telegram(Bot API)
    • WhatsApp(QR pairing)
    • Discord(Bot API)
    • Slack(Socket Mode 或 HTTP Events API)
    • Feishu/Lark(飞书)
    • Microsoft Teams(Bot Framework)
    • Mattermost、Matrix、IRC、Google Chat、Signal、iMessage、LINE 等。
  3. 按提示在目标聊天平台创建 Bot、填 Token / Webhook URL / App Token 等参数。
  4. 启动 Gateway(openclaw gateway restart)并验证。 适合:
  • 目标聊天平台在 OpenClaw 支持列表内,且你希望快速把 AI 能力接入现成 IM

2. 通用 HTTP 接口集成(任意聊天软件)

原理:
Gateway 提供了一个始终启用的 HTTP 端点 POST /tools/invoke,用于直接调用单个工具,支持 Gateway 级别的认证与权限控制。 关键信息:

  • 端点:http://<host>:<port>/tools/invoke(与 Gateway WS 共用端口)
  • 认证方式:
    • Bearer Token(gateway.auth.token / OPENCLAW_GATEWAY_TOKEN
    • 或 Password(gateway.auth.password
    • 或无认证(仅建议在私有网络/入口使用)
  • 支持通过 HTTP 头传递上下文,例如:
    • x-openclaw-message-channel: slack / telegram
    • x-openclaw-account-id(多账号时)
  • 请求体示例(列出会话):
    {
      "tool": "sessions_list",
      "action": "json",
      "args": {},
      "sessionKey": "main",
      "dryRun": false
    }
    

集成方式:

  • 在你的聊天软件后端:
    1. 维护 OpenClaw 的地址与 Token;
    2. 收到聊天消息时,调用 /tools/invoke 触发 OpenClaw 的对话/任务工具;
    3. 把返回结果格式化后发回聊天通道。 适合:
  • 想把 自研聊天 App/后台 接到 OpenClaw;
  • 使用 OpenClaw 做统一的 AI 能力网关,前端聊天系统只负责展示和收发消息。

3. Gateway WS 协议集成(前端/实时集成)

原理:
OpenClaw 的所有客户端(CLI、Web UI、桌面/移动端 App)都使用统一的 Gateway WS 协议 作为控制面+传输。
集成方式:

  • 按官方 Gateway 协议规范,实现一个 WebSocket 客户端(JS/Flutter/桌面/Electron 等),连接到 Gateway;
  • 使用协议定义的消息类型进行会话管理、消息收发、工具调用等;
  • 再在你的聊天 UI 里只渲染消息和会话状态。 适合:
  • 自建聊天前端,希望与 OpenClaw 有更细粒度的实时交互(比如实时打字、多轮工具调用状态展示)。

4. Webhook 入站集成(事件驱动)

原理:

  • OpenClaw 内置 Webhook 支持,社区教程也有“day10-webhooks”的实战:通过内置的轻量 HTTP 服务端接收任何第三方系统 Webhook。
  • 官方 Webhooks 插件还提供了带认证的 HTTP 路由,把外部事件绑定到 OpenClaw 的 TaskFlow。 集成方式:
  1. 在聊天平台侧配置:
    • 消息事件 → 发送到你的 Webhook(例如 https://your-domain/webhook)。
  2. 在你的服务端(或 OpenClaw 自带的 Webhook 服务端):
    • 接收 Webhook,格式化成 OpenClaw 需要的事件结构;
    • 转发给 OpenClaw(HTTP 或 WS),触发 Agent 回复/执行任务;
    • 再把结果推回聊天平台(通过平台提供的 Bot API)。 适合:
  • IM 平台只提供“事件 Webhook”而不是 Bot API,或者你希望把多个 IM 统一接到同一个 OpenClaw 实例

5. 通过自动化 / iPaaS 平台集成(n8n/Zapier/云函数等)

原理:

  • OpenClaw 提供了 HTTP API,自动化工具可以直接调用。
  • 腾讯云社区有教程演示:n8n 工作流中用“HTTP Request”节点调用 OpenClaw API,再触发飞书通知等。 集成方式:
  • 在 n8n / Zapier / 腾讯云函数 / 阿里云云函数等:
    • 创建一个“聊天消息触发器”(例如飞书机器人收到消息、Slack Event、微信/企微 Webhook);
    • 用 HTTP Request 节点调用 OpenClaw 的 /tools/invoke 或兼容的 /v1/* 接口;
    • 把返回结果发回 IM 或其他业务系统。 适合:
  • 需要快速串联多个系统(IM + 邮件 + 工单 + 数据库)的场景;
  • 不想写太多后端代码,用低代码平台打通即可。

6. 选型建议(怎么选最适合你的方式)

  • 如果你用的 IM 是:Slack / Telegram / Discord / WhatsApp / 飞书 / Teams / Mattermost / Matrix / IRC / LINE / Google Chat 等
    → 优先用 OpenClaw 自带 Channel 插件,按向导配置即可。
  • 如果你用的是自研聊天 App,或者想统一做多 IM AI 网关
    → 用 Gateway HTTP /tools/invoke + Gateway WS 协议,自己写一层薄后端桥接。
  • 如果你的 IM 只提供 Webhook 事件
    → 用 Webhook 入站 + OpenClaw Webhook 插件,做事件到 Agent 的映射。
  • 如果你需要跨系统自动化(IM+邮件+工单+CRM 等)
    → 用 n8n / iPaaS + OpenClaw HTTP API

探索多模态大模型 GLM-4.1V-Thinking

本文档介绍了多模态大模型GLM-4.1V-Thinking,这是一个基于 GLM-4-9B-0414 的开源视觉语言模型,通过强化学习显著提升了其性能。文档详细阐述了该模型在设计图转代码(Design2Code)任务上的卓越表现,能将设计图转换为高质量的HTML/CSS代码,并提供了与Qwen-2.5-VL-32B-Instruct的对比示例。此外,资源还展示了如何通过智谱API免费使用GLM-4.1V-Thinking进行图像识别,并给出了一个安全检测系统的代码示例,该系统能够识别图像中的火灾、烟雾以及人员安全帽佩戴情况,并进行坐标标注,强调了模型在实际应用中的潜力。

基于 GLM-4-9B-0414 基座模型,我们推出新版VLM开源模型 GLM-4.1V-9B-Thinking ,引入思考范式,通过课程采样强化学习 RLCS(Reinforcement Learning with Curriculum Sampling)全面提升模型能力, 达到 10B 参数级别的视觉语言模型的最强性能,在18个榜单任务中持平甚至超过8倍参数量的 Qwen-2.5-VL-72B。 论文 GLM-4.1V-Thinking:通过可扩展强化学习实现通用多模态推理

GLM-4.

GLM-4V-9B

GLM-4V-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源多模态版本。 GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中均表现优异。

相比 CogVLM2 能力还是不如。

  • 识别手写有问题
  • 识别复杂表格有问题
  • 识别化学的答案有问题

识别中文

提示词:输出图像中的文字

贵公司被认为中标人。中标价格为:307.6万元。 请贵公司在收到本中标通知书之日起30天内,携带所有签订合同所需的资料(包括但不限于法定代表人授权书、技术规范、技术图纸等),并按照招标文件和中标人的投标文件与项目单位订立书面合同。合同签订的安排由项目单位另行通知。 请贵公司收到本中标通知书后,签收并速回函确认。

  • ❌ 漏了
  • 👍 括号 () 识别成全角

识别手写英文

提示词:识别图像上的手写英文

I think student have many after-school classes is don't good for they. So I thing the student don't have after-school classes.

在 MacBook Pro M2 Max 上测试 ChatGLM2-6B

  1. 更强大的性能:基于 ChatGLM 初代模型的开发经验,我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。
  2. 更长的上下文:基于 FlashAttention 技术,我们将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练,允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限,我们会在后续迭代升级中着重进行优化。
  3. 更高效的推理:基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。