4 篇文章带有标签 “computer-use”

2026年2月7日星期六

Kimi K2.5：首个开源多模态智能体集群

感觉 Kimi K2.5 在国内被低估了，让子弹飞一会儿 🚀🚀🚀

基准测试（Benchmarks）

Agent Swarm 基准测试

为了严格评估智能体集群（Agent Swarm）框架的有效性，选择了三个具有代表性的基准测试，它们共同涵盖了深度推理、大规模检索以及真实世界的复杂性：

BrowseComp：一项具有挑战性的深度研究基准，需要多步推理和复杂的信息综合。
WideSearch：旨在评估在不同来源中进行广泛、多步信息寻求和推理能力的基准。
In-house Swarm Bench：一项内部开发的集群基准，旨在评估智能体集群在真实世界、高复杂度条件下的性能。它涵盖了四个领域：
- WildSearch（开放网络上不受约束的真实世界信息检索）；
- Batch Download（大规模获取多样化资源）；
- WideRead（涉及 100 多个输入文档的大规模文档理解）；
- Long-Form Writing（连贯生成超过 10 万字的海量内容）。该基准整合了极端规模的场景，旨在压力测试基于智能体系统的编排（Orchestration）、可扩展性（Scalability）和协作能力。

主要基准测试

Kimi K2.5 评估涵盖了多个领域的基准测试，下面是按能力维度分类的各基准测试说明：

推理与通用能力 (Reasoning & General) Humanity’s Last Exam

2026-02-07 01:00

2026年1月18日星期日

Cursor 的上下文工程与编程智能体

《Context Engineering & Coding Agents with Cursor》（Cursor 的上下文工程与编程智能体），由 Cursor 团队成员 Lee 和 CEO Michael 主讲。视频深入探讨了软件开发的演变、Cursor 如何利用 AI 提升编程效率，以及未来编程智能体的发展方向。

1. 编程的演变与 Cursor 的核心功能

编程历史回顾：从打孔卡片到图形界面，再到如今的 AI 辅助编程，AI 正在以前所未有的速度推动软件开发的进步。

Cursor Tab (代码补全)：

Cursor 的 Tab 功能深受 GitHub Copilot 启发，但已从简单的“预测下一个词”进化为“预测下一个动作”甚至“预测光标去向”。

强化学习：模型会根据用户的“接受”或“拒绝”操作进行实时在线强化学习（RL），在 30 分钟内即可更新模型行为。

平衡性：Cursor 致力于在建议速度（不打断心流）和建议质量之间找到平衡点。

2. 上下文工程 (Context Engineering)

超越提示词工程：随着模型变强，获取高质量输出的关键不再是“提示词技巧”，而是提供“正确的上下文”。

混合检索策略：

字符串匹配：单纯依靠 grep (字符串匹配) 是不够的。

语义搜索：Cursor 通过对代码库建立索引（embeddings），即使文件名不完全匹配（如 header.tsx vs "top navigation"），也能通过语义准确找到相关代码。

2026-01-18 08:00

cursor context-engineering coding-agents ai-programming composer bugbot rag code-assistant multi-agent computer-use

2025年2月1日星期六

Claude API: Computer use

Claude API - Computer use

Computer use reference implementation（计算机使用参考实现）

Get started quickly with our computer use reference implementation that includes a web interface, Docker container, example tool implementations, and an agent loop.

快速开始使用我们的计算机使用参考实现，其中包括Web界面、Docker容器、示例工具实现和代理循环。

Here’s an example of how to provide computer use tools to Claude using the Messages API:

以下是如何使用消息API为Claude提供计算机使用工具的示例：

2025-02-01 12:00

claude computer-use agent api anthropic docker tool-use python

Claude: Developing a computer use model

Developing a computer use model（开发计算机使用模型）

Claude can now use computers. The latest version of Claude 3.5 Sonnet can, when run through the appropriate software setup, follow a user’s commands to move a cursor around their computer’s screen, click on relevant locations, and input information via a virtual keyboard, emulating the way people interact with their own computer.

Claude现在可以使用计算机了。最新版本的Claude 3.5 Sonnet可以在通过适当的软件设置后，按照用户的命令在计算机屏幕上移动光标，单击相关位置，并通过虚拟键盘输入信息，模拟人们与自己的计算机交互的方式。

We think this skill—which is currently in public beta—represents a significant breakt

2025-02-01 10:00

claude anthropic computer-use agent llm osworld safety prompt-injection api