4 篇文章带有标签 “computer-use”

Kimi K2.5:首个开源多模态智能体集群

感觉 Kimi K2.5 在国内被低估了,让子弹飞一会儿 🚀🚀🚀

基准测试(Benchmarks)

Agent Swarm 基准测试

为了严格评估智能体集群(Agent Swarm)框架的有效性,选择了三个具有代表性的基准测试,它们共同涵盖了深度推理大规模检索以及真实世界的复杂性

  • BrowseComp:一项具有挑战性的深度研究基准,需要多步推理和复杂的信息综合。
  • WideSearch:旨在评估在不同来源中进行广泛、多步信息寻求和推理能力的基准。
  • In-house Swarm Bench:一项内部开发的集群基准,旨在评估智能体集群在真实世界、高复杂度条件下的性能。 它涵盖了四个领域:
    • WildSearch(开放网络上不受约束的真实世界信息检索);
    • Batch Download(大规模获取多样化资源);
    • WideRead(涉及 100 多个输入文档的大规模文档理解);
    • Long-Form Writing(连贯生成超过 10 万字的海量内容)。 该基准整合了极端规模的场景,旨在压力测试基于智能体系统的编排(Orchestration)、可扩展性(Scalability)和协作能力

主要基准测试

Kimi K2.5 评估涵盖了多个领域的基准测试,下面是按能力维度分类的各基准测试说明:

推理与通用能力 (Reasoning & General) Humanity’s Last Exam

Cursor 的上下文工程与编程智能体

《Context Engineering & Coding Agents with Cursor》(Cursor 的上下文工程与编程智能体),由 Cursor 团队成员 Lee 和 CEO Michael 主讲。视频深入探讨了软件开发的演变、Cursor 如何利用 AI 提升编程效率,以及未来编程智能体的发展方向。

1. 编程的演变与 Cursor 的核心功能

  • 编程历史回顾:从打孔卡片到图形界面,再到如今的 AI 辅助编程,AI 正在以前所未有的速度推动软件开发的进步。
  • Cursor Tab (代码补全)
  • Cursor 的 Tab 功能深受 GitHub Copilot 启发,但已从简单的“预测下一个词”进化为“预测下一个动作”甚至“预测光标去向”。
  • 强化学习:模型会根据用户的“接受”或“拒绝”操作进行实时在线强化学习(RL),在 30 分钟内即可更新模型行为。
  • 平衡性:Cursor 致力于在建议速度(不打断心流)和建议质量之间找到平衡点。

2. 上下文工程 (Context Engineering)

  • 超越提示词工程:随着模型变强,获取高质量输出的关键不再是“提示词技巧”,而是提供“正确的上下文”。
  • 混合检索策略
  • 字符串匹配:单纯依靠 grep (字符串匹配) 是不够的。
  • 语义搜索:Cursor 通过对代码库建立索引(embeddings),即使文件名不完全匹配(如 header.tsx vs "top navigation"),也能通过语义准确找到相关代码。

Claude API: Computer use

Computer use reference implementation(计算机使用参考实现)

Get started quickly with our computer use reference implementation that includes a web interface, Docker container, example tool implementations, and an agent loop.

快速开始使用我们的计算机使用参考实现,其中包括Web界面、Docker容器、示例工具实现和代理循环。

Here’s an example of how to provide computer use tools to Claude using the Messages API:

以下是如何使用消息API为Claude提供计算机使用工具的示例:

Claude: Developing a computer use model

Developing a computer use model(开发计算机使用模型)

Claude can now use computers. The latest version of Claude 3.5 Sonnet can, when run through the appropriate software setup, follow a user’s commands to move a cursor around their computer’s screen, click on relevant locations, and input information via a virtual keyboard, emulating the way people interact with their own computer.

Claude现在可以使用计算机了。最新版本的Claude 3.5 Sonnet可以在通过适当的软件设置后,按照用户的命令在计算机屏幕上移动光标,单击相关位置,并通过虚拟键盘输入信息,模拟人们与自己的计算机交互的方式。

We think this skill—which is currently in public beta—represents a significant breakt