Computer-Using Agent

A universal interface for AI to interact with the digital world. AI 与数字世界交互的通用接口。

Today we introduced a research preview of Operator⁠, an agent that can go to the web to perform tasks for you. Powering Operator is Computer-Using Agent (CUA), a model that combines GPT-4o's vision capabilities with advanced reasoning through reinforcement learning. CUA is trained to interact with graphical user interfaces (GUIs)—the buttons, menus, and text fields people see on a screen—just as humans do.

Operator System Card

Operator is a research preview of our Computer-Using Agent (CUA) model, which combines GPT-4o’s vision capabilities with advanced reasoning through reinforcement learning. It interprets screenshots and interacts with graphical user interfaces (GUIs) — the buttons, menus, and text fields people see on a computer screen — just as people do. Operator’s ability to use a computer enables it to interact with the same tools and interfaces that people rely on daily, unlocking the potential to assist with an unparalleled range of tasks.

Operator 是我们计算机使用代理(CUA)模型的研究预览,它将 GPT-4o 的视觉能力

DeepSeek-V3 Technical Report

We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architec- tures, which were thoroughly validated in DeepSeek-V2. Furthermore, DeepSeek-V3 pioneers an auxiliary-loss-free strategy for load balancing and sets a multi-token prediction training objective for stronger performance. We pre-train DeepSeek-V3 on 14.

DeepSeek R1: 通过强化学习激励 LLM 的推理能力

We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without super- vised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoning capabilities. Through RL, DeepSeek-R1-Zero naturally emerges with numerous powerful and intriguing reasoning behaviors. However, it encounters challenges such as poor readability, and language mixing.

CodeGate - 让 AI 编码助手更安全

CodeGate 是位于 AI 编码助手和 LLM 之间的本地提示网关,用于增强隐私和安全性。

  • 执行代码安全审查
  • 识别包依赖项中的漏洞
  • 防止敏感数据(如机密)与 AI 模型共享

CodeGate 是位于 AI 编码助手和 LLM 之间的本地代理。CodeGate 会审查您的提示是否存在任何潜在的机密泄露 — 在机密离开您的桌面之前对其进行加密,并在响应中对其进行解密。CodeGate 使用 RAG 来更新任何 LLM 的知识库,并提供相关的风险洞察。

ollama pull qwen2.5-coder:7b
ollama pull qwen2.5-coder:1.5b

编辑配置文件:~/.continue/config.json

腾讯会议中云录制的 AI+

腾讯会议中云录制应用的核心:

  • 快速定位(章节、发言人、话题)
  • 转写、纪要、总结
  • 内容问答(AI小助手)

可以使用句子进行视频定位

可以按 章节主题发言人 进行纪要生成。

这个AI小助手价格太贵了,可能对于中大型企业用户有一定吸引力,没有多少录制视频的用户基本不用考虑,上面的功能已经足够了。

这个营销太差了,这么高的价格也不给人试用,上来就收费,打击用户积极性。

下面是AI会议中提供的AI小助手

如何投资个人养老金

2024年12月15日,个人养老金制度正式在全国全面实施。这里记录一下如何投资个人养老金。

排名 公募基金管理人名称 非货币理财公募基金 月均规模(亿元) 排名 公募基金管理人名称 非货币理财公募基金 月均规模(亿元)
1 易方达基金管理有限公司 12307 11 鹏华基金管理有限公司 4225
2 华夏基金管理有限公司 10557 12 景顺长城基金管理有限公司 3881
3 广发基金管理有限公司 7887 13 工银瑞信基金管理有限公司 3695
4 嘉实基金管理有限公司 6598 14 国泰基金管理有限公司 3437
5 富国基金管理有限公司 6105 15 天弘基金管理有限公司 3431
6 南方基金管理股份有限公司 5945 16 华安基金管理有限公司 3419
7 博时基金管理有限公司 5677 17 永赢基金管理有限公司 3202
8 招商基金管理有限公司 5504 18 中银基金管理有限公司 3135
9 华泰柏瑞基金管理有限公司 4878 19 中欧基金管理有限公司 2869
10 汇添富基金管理股份有限公司 4796 20 兴证全球基金管理有限公司 2648

剔除了短期理财债券基金规模和基金中基金持有的自身管理的基金规模。

2023 年基金公司按指数型管理规模排行(单位:亿元,这里进行了四舍五入):

Open WebUI

docker pull ghcr.io/open-webui/open-webui:main

编写配置文件:docker-compose.yml

version: '3'
services:
  openwebui:
    image: ghcr.io/open-webui/open-webui:main
    extra_hosts:
      - host.docker.internal:host-gateway    
    ports:
      - "3000:8080"
    volumes:
      - open-webui:/app/backend/data
volumes:
  open-webui:
docker compose up
docker run -d -p 3000:8080 --name open-webui --restart always \
    -e USE_EMBEDDING_MODEL= \
    -e OPENAI_API_BASE_URL=http://172.16.33.66:9997/v1 \
    -e OPENAI_API_KEY=NONE \
    -v open-webui:/app/backend/data \
    ghcr.io/open-webui/open-webui:main

vscode-extension-samples/chat-sample 源码分析

在 Debug View 中运行 Run Extension

文件:src/extension.ts

export function activate(context: vscode.ExtensionContext) {
    registerSimpleParticipant(context);
    registerToolUserChatParticipant(context);
    registerChatLibChatParticipant(context);

    registerChatTools(context);
}

文件:src/simple.ts

export function registerSimpleParticipant(context: vscode.ExtensionContext) {

}

Language Model API

The Language Model API enables you to use the Language Model and integrate AI-powered features and natural language processing in your Visual Studio Code extension.

语言模型 API 可以让您使用语言模型,并在您的 Visual Studio Code 扩展中集成 AI 功能和自然语言处理。

You can use the Language Model API in different types of extensions. A typical use for this API is in chat extensions, where you use a language model to interpret the user's request and help provide an answer. However, the use of the Language Model API is not limited to this scenario.

Chat Extensions (VS Code)

下面的截图显示了示例扩展中 Visual Studio Code 聊天体验中的不同聊天概念。

  1. 使用 @ 语法调用 @cat 聊天参与者
  2. 使用 / 语法调用 /teach 命令
  3. 用户提供的查询,也称为用户提示
  4. 图标和参与者的 fullName,表示 Copilot 正在使用 @cat 聊天参与者
  5. @cat 提供的 Markdown 响应
  6. 包含在 Markdown 响应中的代码片段
  7. 包含在 @cat 响应中的按钮,按钮调用 VS Code 命令
  8. 聊天参与者提供的建议后续问题
  9. 聊天输入字段,其中的占位文本由聊天参与者的 description 属性提供

聊天扩展是一种扩展,它向 Chat 视图提供了一个聊天参与者。

实现聊天扩展所需的最小功能是:

  • 注册聊天参与者,让用户可以在 VS Code Chat 视图中使用 @ 符号调用它。
  • 定义一个请求处理程序,解释用户的问题,并在 Chat 视图中返回响应。

您可以使用以下可选功能进一步扩展聊天扩展的功能:

  • 注册聊天命令,为用户提供常见问题的简写符号
  • 定义建议的后续问题,帮助用户继续对话

作为开发聊天扩展的起点,您可以参考我们的 chat extension sample。此示例实现了一个简单的猫导师,可以使用猫隐喻解释计算机科学主题。

创建聊天扩展的第一步是在 package.

GitHub Copilot in VS Code

GitHub Copilot 你的 AI 编程伙伴,助你更快、更智能地编写代码。

  • Conversation History

Copilot 会在你输入时建议代码行,并为函数签名提供多行建议。注释中的提示会根据你期望的结果、逻辑和步骤提供具体的建议。

  1. 代码行建议
  2. 函数签名建议
  3. 注释中的提示

您可能不想接受 GitHub Copilot 的整个建议。您可以使用 ⌘→ 键盘快捷键来接受建议的下一个单词或下一行。

Inline Chat 使您能够直接从编辑器与 Copilot 进行聊天对话,而无需离开您的工作上下文。使用 Inline Chat,您可以在代码中就地预览代码建议,这对于快速迭代代码更改非常有用。

Chat 视图使您可以在单独的视图中与 Copilot 进行聊天对话。默认情况下,Chat 视图位于辅助侧边栏中。辅助侧边栏始终位于主侧边栏的对面,因此您可以同时打开 Chat 视图和资源管理器、源代码控制或主侧边栏中的其他视图。

要通过上下文菜单提交提示,请在编辑器中右键单击,然后在出现的菜单中选择 Copilot,然后选择其中一个操作。智能操作也可以通过选择代码行时有时会出现的闪光(sparkle)图标访问。

根据您的提示,Copilot Edits 提出跨工作区多个文件的代码更改。这些编辑直接应用于编辑器中,因此您可以快速在原地审查它们,同时具有周围代码的完整上下文。

Mac 外接显示器 DELL U2723QE

左侧 右侧
左侧 右侧
  • SDXC 卡插槽
  • HDMI 端口
  • 3.5 毫米耳机插孔
  • MagSafe 3 端口
  • 三个雷雳 4 (USB-C) 端口,均可支持:
    • 充电
    • DisplayPort
    • 雷雳 4 (速率最高可达 40Gb/s)
    • USB 4 (速率最高可达 40Gb/s)

  • 端口和插槽
    1. 安全锁插槽(基于 Kensington 安全插槽™)
    2. 电源接口
    3. HDMI 端口
    4. DisplayPort 输入端口
    5. USB-C 端口
    6. DP 端口(输出)
    7. 音频输出端口
    8. USB-C 上行端口
    9. 3 个超高速 USB 10 Gbps 端口(第二代 USB 3.2
    10. 超高速 USB 10 Gbps 端口(第二代 USB 3.2)
    11. RJ45 端口
    12. 超高速 USB 10 Gbps 端口(第二代 USB 3.2)
    13. USB-C 下行端口
  • 随附线缆
    1. 电源线
    2. DisplayPort 1.8 米线缆(DisplayPort 到 DisplayPort)
    3. 第二代 USB-C 1.0 米线缆(A 到 C)
    4. Type-C 1.0 米线缆(C-C 线缆)

Dell Display and Peripheral Manager (DDPM) 是一款可提高 macOS 上戴尔显示器和网络摄像头的工作效率和自定义功能的软件。

Atlas 900 AI 集群

  • 计算节点:由大量高性能服务器组成,搭载华为自研的昇腾处理器,提供强大的算力支持。
  • 高速互联网络:采用高速InfiniBand网络,实现节点之间的低延迟、高带宽通信。
  • 存储系统:配置分布式存储,满足海量数据的高速读写需求。
  • 管理调度系统:提供统一的资源管理和任务调度,提升集群的利用效率。
  • AI 软件平台:支持主流深度学习框架,提供完善的AI开发和部署环境。

384 张卡

  • 恒温恒湿空调:确保机房温度和湿度稳定,适应设备运行要求。
  • 动力环境监控:实时监测空调系统的运行状态,及时预警异常情况。
  • 冗余设计:配置备用空调设备,保障系统的连续运行。
  • 配电柜:为制冷系统提供可靠的电力供应,具备过载和短路保护功能。
  • UPS 系统:配置不间断电源,防止电源中断对设备造成影响。
  • 电源监控:实时监测电力系统状态,确保供电稳定性。
  • 冷却水循环:维持制冷系统的正常运行,保证设备散热需求。
  • 水质处理设备:防止水垢和腐蚀,提高系统效率和寿命。
  • 泄漏检测:配置水 leak 检测传感器,及时发现和处理漏水问题。
  • 核心路由器:连接内外网络,实现数据高速转发。
  • 高速交换机:构建集群内部网络,提供大带宽低延迟的通信环境。
  • 防火墙:实施网络安全策略,防护外部网络攻击和入侵。

Mac 外接显示器选购

XDR (极致动态范围)

  • 1000000:1 对比度
  • XDR 亮度:1000 尼特持续亮度 (全屏),1600 尼特峰值亮度2 (仅限 HDR 内容)
  • SDR 亮度:500 尼特

色彩

  • 10 亿色彩
  • 广色域 (P3)
  • 原彩显示技术

刷新率

  • ProMotion 自适应刷新率技术,最高可达 120Hz
  • 固定刷新率:47.95Hz、48.00Hz、50.00Hz、59.94Hz、60.00Hz

左侧

左侧

右侧

右侧

  • SDXC 卡插槽
  • HDMI 端口
  • 3.5 毫米耳机插孔
  • MagSafe 3 端口
  • 三个雷雳 4 (USB-C) 端口,均可支持:
    • 充电
    • DisplayPort
    • 雷雳 4 (速率最高可达 40Gb/s)
    • USB 4 (速率最高可达 40Gb/s)

雷雳 4 数字视频输出

  • 支持通过 USB‑C 进行原生 DisplayPort 输出

HDMI 数字视频输出

  • 支持一台分辨率最高达 8K (60Hz) 或 4K (240Hz) 的显示器
  • TN
  • VA/HVA
  • OLED
    • QD-OLED
    • Mini LED
  • IPS
    • Nano IPS
    • Fast IPS
    • IPS Black

HDR 是High Dynamic Range的缩写,即高动态范围。它指的是图像中最亮部分和最暗部分之间的亮度差。HDR技术可以让我们看到更接近人眼看到的真实世界,画面更具层次感。

HDR400 技术认证拉宽暗部和高光之间的空间容量,提升高度上限,明暗部

华为 Atlas A2 上使用 LLaMA-Factory 模型微调

  • 云资源
    • ModelArts
      • 开发环境
        • Notebook
  • 自定义镜像:llama2
  • 类型:ASCEND
  • 规格:Ascend: 8*Ascend910 ARM: 192核 768GB
  • 存储配置:云硬盘EVS
    • 磁盘规格:200GB

工作目录:/home/ma-user/work

pip install --upgrade modelscope

编辑 download.py 文件

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen1.5-7B-Chat')
export MODELSCOPE_CACHE=/home/ma-user/work
python download.py
ll /home/ma-user/work/hub/Qwen/Qwen1___5-7B-Chat

修改配置文件:Qwen/Qwen1___5-7B-Chat/config.json

{
  "torch_dtype": "float16",
}

NPU 不支持 bfloat16,模型配置文件需要修改为 float16

git clone https://github.com/hiyouga/LLaMA-Factory

❌ 网络不稳定,多试几次。

LangChain Blog: In the Loop

“什么是代理?”

几乎每天都会有人问我这个问题。在 LangChain,我们构建工具来帮助开发者构建 LLM 应用程序,特别是那些充当推理引擎并与外部数据和计算源交互的应用程序。这包括通常被称为“代理”的系统。

每个人似乎对代理都有稍微不同的定义。我的定义可能比大多数人更技术性:

💡 代理是一个使用 LLM 来决定应用程序控制流的系统。

即使在这里,我也承认我的定义并不完美。人们通常认为代理是高级的、自主的、类人的——但如果是一个简单的系统,LLM 在两个不同路径之间进行路由呢?这符合我的技术定义,但不符合人们对代理应具备能力的普遍看法。很难准确定义什么是代理!

这就是为什么我非常喜欢 Andrew Ng 上周的推文。在推文中,他建议“与其争论哪些工作应被包括或排除为真正的代理,我们可以承认系统可以有不同程度的代理性。”就像自动驾驶汽车有不同的自动化级别一样,我们也可以将代理能力视为一个光谱。我非常同意这个观点,我认为 Andrew 表达得很好。将来,当有人问我什么是代理时,我会转而讨论什么是“代理性”。

去年我在 TED 演讲中谈到了 LLM 系统,并使用下面的幻灯片讨论了 LLM 应用程序中存在的不同自主级别。

一个系统越“代理性”,LLM 决定系统行为的程度就越高。

使用 LLM 将输入路由到特定的下游工作流中具有一些小的“代理性”行为。这将属于上图中的路由器类别。

打包 Python 工程到 PyPI:构建 LLM 压测工具 evalscope-perf

如果需要增加非 Python 代码的文件,可以在 setup.py 中添加 package_data 字段,例如:

    include_package_data=True,
    package_data={
        'evalscope_perf': ['assets/*.*'],
    },

同时生成源代码和二进制 wheel 分发包的优点:提供更灵活的安装选项,满足不同用户的需求。

evalscope-perf http://127.0.0.1:8000/v1/chat/completions lnsoft-chat \
    ./datasets/open_qa.jsonl \
    --read-timeout=120 \
    --parallels 16 \
    --parallels 32 \
    --parallels 64 \
    --parallels 100 \
    --parallels 128 \
    --parallels 150 \
    --parallels 200 \
    --parallels 300 \
    --parallels 400 \
    --parallels 500 \
    --n 1000

华为 Atlas 800I A2 服务器的大模型推理性能压测

--stream 不要加,经常出问题。

  • --read-timeout: 网络读取超时
  • --parallel: 并发数
  • -n: 请求数

压测命令

evalscope perf \
    --api openai \
    --url 'http://127.0.0.1:1025/v1/chat/completions' \
    --model 'qwen' \
    --dataset openqa \
    --dataset-path './datasets/open_qa.jsonl' \
    --max-prompt-length 8000 \
    --stop '<|im_end|>' \
    --read-timeout=120 \
    --parallel 1 \
    -n 1

压测命令 evalscope perf \ --api openai \ --url 'http://127.0.0.1:1025/v1/chat/completions&#39; \ --model 'qwen' \ --dataset openqa \ --dataset-path './datasets/Codefuse-Evol-Instruct-Clean-data.