24 篇文章带有标签 “OpenAI”

Harness Engineering(驾驭工程):2026 AI 软件工程新范式

Harness Engineering 是 AI 时代的全新软件工程学科 —— 设计和实现系统来约束、引导、验证和修正 AI 智能体的行为,让强大但不可预测的 AI 模型能够可靠地完成复杂任务。

Harness Engineering 是设计和实现系统的学科,这些系统能够:

  1. 约束:定义 AI 智能体可以做什么(架构边界、依赖规则)
  2. 告知:告诉智能体应该做什么(上下文工程、文档体系)
  3. 验证:检查智能体是否正确完成任务(测试、 linting、CI 验证)
  4. 修正:当智能体出错时引导其自我修复(反馈循环、自我修正机制)

类比:AI 模型是一匹强大但无方向的骏马,Harness 是缰绳、马鞍和全套马具,人类工程师是骑手。没有 Harness 的 AI 是开阔场地里的纯种马——速度快、令人印象深刻,但完全无法用来完成任何实际工作。

AI 行业正在达成一个共识:底层模型的重要性远低于围绕它的系统。LangChain 的实验最能证明这一点:他们的编码智能体在 Terminal Bench 2.0 上的得分从 52.8% 提升到 66.5%,从排名前 30 跃升至前 5 —— 完全没有改动模型,只是优化了 Harness。

Harness Engineering:AI时代的软件工程新范式

Harness Engineering,是在AI大模型时代,以确定性系统外壳约束概率性AI行为,通过上下文工程、架构约束、熵管理三位一体,构建可长期稳定运行的AI Agent系统,推动软件工程从代码实现转向系统设计,成为下一代AI工程化的核心范式。

在人工智能,特别是大型语言模型(LLM)能力迅速发展的时代,软件开发领域正经历一场深刻的范式转移。传统以代码为中心的工程方法正在被一种以语言为中心的新范式所取代。这一新范式将工程设计的核心原则,如控制、可靠性和可扩展性,应用到了人与AI的交互界面上。本报告将深入探讨这一新兴领域,提出“Harness Engineering”(驾驭工程)这一术语,用以描述其背后的系统性原则、核心实践、行业案例及未来挑战。报告旨在为软件工程师、技术领导者及行业观察家提供一个全面的框架,以理解并应用这一即将定义未来技术格局的关键技术。

在深入探讨Harness Engineering之前,必须首先理解它所处的演化脉络。它并非一个凭空出现的概念,而是对已有AI工程实践的一次系统性整合与升华。它标志着行业的焦点从与AI模型的“单次对话”转向了构建一个让AI能够“持续可靠工作”的完整系统。

Harness Engineering(驾驭工程)被定义为一个新兴的工程学科,其核心目标是设计和实现一套围绕AI Agent(人工智能体)的完整系统,该系统由约束(Constrain

华为 Atlas 800I A2 大模型部署实战(十一):部署 OpenAI 开源模型 GPT-OSS

本文档详细介绍了如何在华为Atlas 800I A2推理服务器上部署OpenAI的GPT-OSS大型模型。下载GPT-OSS模型的GGUF版本,并提供了llama.cpp部署方式的安装与编译步骤。文档还深入阐述了llama-server的命令行参数,展示了如何配置模型参数以优化性能,最后通过实际测试验证了模型的部署效果,并分析了多次调用后性能下降的原因,表明了在NPU上进行LLM推理部署的复杂性及其性能考量

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS
# 魔搭下载 OpenAI gpt-oss-20b-GGUF 模型
modelscope download --model ggml-org/gpt-oss-20b-GGUF --local_dir ggml-org/gpt-oss-20b-GGUF

FastMCP 实战:构建计算器 MCP 服务器与客户端

该文档详细介绍了如何使用 FastMCP 框架来构建和集成计算器 MCP 服务器与客户端。它首先指导用户初始化并设置开发环境,包括创建虚拟环境和安装 FastMCP。接着,文档展示了MCP 服务器的开发过程,通过 main.py 文件定义了加、减、乘、除、幂等计算工具,并配置了项目元数据文件 pyproject.toml。此外,文档还提供了构建和发布服务器到 PyPI 的步骤,以及运行 MCP 服务器的方法,包括使用 MCP Inspector 进行调试和通过 FastMCP CLI 运行。最后,文档展示了MCP 客户端的开发,演示了客户端如何调用服务器上的工具,并深入探讨了将 MCP 客户端与 OpenAI 集成,实现通过自然语言与计算器服务器进行交互的能力。

OpenAI: 构建智能体的实用指南

传统软件帮助用户简化和自动化工作流程,而智能体则能够以高度独立的方式代表用户执行这些工作流程。

智能体是能够独立代表您完成任务的一种系统。

工作流程是指为了实现用户目标而必须执行的一系列步骤,无论是解决客户服务问题、预订餐厅、提交代码变更,还是生成报告。

那些集成了大语言模型(LLM)但并未用其控制工作流程执行的应用程序(例如简单聊天机器人、单轮对话LLM或情感分类器)不属于智能体。

具体来说,智能体具备以下核心特征,使其能够可靠且一致地代表用户行动:

  1. 它利用LLM来管理工作流程的执行并做出决策。它能识别工作流程何时完成,并在需要时主动修正行为。如果执行失败,它可以停止操作并将控制权交还给用户。
  2. 它能够调用多种工具与外部系统交互(既用于获取上下文信息,也用于执行操作),并根据工作流程的当前状态动态选择合适工具,同时始终在明确定义的边界内运行。

构建智能体需要重新思考系统如何决策和处理复杂性。与传统自动化不同,智能体特别适合那些传统确定性和基于规则的方法无法胜任的工作流程。

以支付欺诈分析为例:传统的规则引擎像一份检查清单,根据预设条件标记交易;而基于大语言模型的智能体则更像经验丰富的调查员,它能评估上下文、捕捉细微模式,即使没有明确违反规则也能识别可疑行为。这种精细的推理能力,正是智能体有效处理复杂模糊场景的关键所在。

OpenAI o3 and o4-mini System Card

OpenAI o3OpenAI o4-mini 结合了最先进的推理能力和完整工具功能——包括网页浏览(web browsing)、Python 编程、图像(image)和文件分析(file analysis)、图像生成(image generation)、画布编辑(canvas)、自动化流程(automations)、文件搜索(file search)和记忆功能(memory)。这些模型擅长解决复杂的数学、编码和科学难题,同时展现出强大的视觉感知和分析能力。这些模型在其思考链中使用工具来增强自身能力例如,在思考过程中裁剪或转换图像、搜索网页或使用 Python 分析数据。

OpenAI o 系列模型通过在思维链上进行大规模强化学习进行训练。这些先进的推理能力为提高我们模型的安全性与鲁棒性提供了新的途径。特别地,我们的模型在回应潜在的不安全提示时,能够根据上下文推理我们的安全策略,这得益于审慎对齐。

这是根据我们准备框架(Preparedness Framework)第二版发布的第一个版本和系统卡。OpenAI 的安全顾问小组 (SAG) 审查了我们准备评估的结果,并确定 OpenAI o3 和 o4-mini 在我们的三个跟踪类别(生物和化学能力、网络安全和人工智能自我改进)中均未达到高阈值。

Introducing deep research

An agent that uses reasoning to synthesize large amounts of online information and complete multi-step research tasks for you.

一个代理,使用推理来综合大量在线信息,并为您完成多步研究任务。

Today we’re launching deep research in ChatGPT, a new agentic capability that conducts multi-step research on the internet for complex tasks. It accomplishes in tens of minutes what would take a human many hours.

今天我们在 ChatGPT 中推出了 deep research,这是一种新的代理能力,可以在互联网上进行复杂任务的多步研究。 它可以在几十分钟内完成人类需要花费数小时才能完成的任务。

Deep research is OpenAI's ne

CUA 评估额外信息

This document includes extra information to how we evaluated our Computer Using Agent, including (browser/VM) environments, prompts, sampling parameters, and scoring procedures. For more details, read https://openai.com/index/computer-using-agent/.

本文档包括我们如何评估我们的计算机使用代理的额外信息,包括(浏览器/VM)环境,提示,采样参数和评分程序。有关更多详细信息,请阅读 https://openai.com/index/computer-using-agent/

For WebArena and WebVoyager, we run the evals in operator browser instead of playwright browsers since our model relies on the visual action space for navigation (search bar, backward/forward button).

Computer-Using Agent

A universal interface for AI to interact with the digital world. AI 与数字世界交互的通用接口。

Today we introduced a research preview of Operator⁠, an agent that can go to the web to perform tasks for you. Powering Operator is Computer-Using Agent (CUA), a model that combines GPT-4o's vision capabilities with advanced reasoning through reinforcement learning. CUA is trained to interact with graphical user interfaces (GUIs)—the buttons, menus, and text fields people see on a screen—just as humans do.

Operator System Card

Operator is a research preview of our Computer-Using Agent (CUA) model, which combines GPT-4o’s vision capabilities with advanced reasoning through reinforcement learning. It interprets screenshots and interacts with graphical user interfaces (GUIs) — the buttons, menus, and text fields people see on a computer screen — just as people do. Operator’s ability to use a computer enables it to interact with the same tools and interfaces that people rely on daily, unlocking the potential to assist with an unparalleled range of tasks.

Operator 是我们计算机使用代理(CUA)模型的研究预览,它将 GPT-4o 的视觉能力

SiliconFlow AI Infra

deepseek-ai/deepseek-v2-chat ¥1.33/1M tokens
deepseek-ai/deepseek-llm-67b-chat ¥1/1M tokens
alibaba/Qwen2-7B-Instruct ¥0.35/1M tokens
alibaba/Qwen1.5-110B-Chat ¥4.13/1M tokens
alibaba/Qwen1.5-32B-Chat ¥1.26/1M tokens
alibaba/Qwen1.5-14B-Chat ¥0.7/1M tokens
alibaba/Qwen1.5-7B-Chat ¥0.35/1M tokens
01-ai/Yi-1.5-34B-Chat ¥1.26/1M tokens
01-ai/Yi-1.5-9B-Chat ¥0.42/1M tokens
01-ai/Yi-1.5-6B-Chat ¥0.35/1M tokens
zhipuai/glm4-9B-chat ¥0.6/1M tokens
zhipuai/chatglm3-6B ¥0.35/1M tokens
meta/llama3-70B-chat ¥4.13/1M tokens
meta/llama3-8B-chat ¥0.42/1M tokens
mixtralai/Mixtral-8x22B-Instruct-v0.1 ¥4.13/1M tokens
mixtralai/Mixtral-8x7B-Instruct-v0.1 ¥1.26/1M tokens
mixtralai/Mistral-7B-Instruct-v0.2 ¥0.35/1M tokens
google/gemma-7b-it ¥0.35/1M tokens
google/gemma-2b-it ¥0.14/1M tokens
microsoft/Phi-3-mini-4k-instruct

使用 llama.cpp 构建兼容 OpenAI API 服务

困惑度基于模型对测试集数据的概率,它的值越小,说明模型的性能越好。具体来说,如果一个模型的困惑度为 P,那么当这个模型预测下一个词的时候,它的不确定性(或者说“困惑度”)就相当于在 P 个词中随机选择一个词。

例如,如果一个模型的困惑度为 10,那么这个模型预测下一个词的不确定性就相当于在 10 个词中随机选择一个词。如果另一个模型的困惑度为 5,那么这个模型预测下一个词的不确定性就相当于在 5 个词中随机选择一个词。因此,困惑度越小,模型的性能就越好。

克隆代码

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CUBLAS=1

--n-gpu-layers 设置 -1 没有效果,设置大一点的数字即可,如:15000

可以从 TheBloke 下载更多不同量化的 GGUF 模型。

  1. 转换 GGUF
python convert-hf-to-gguf.py \
    --outtype f32 \
    --outfile ~/HuggingFace/wangjunjian/gguf/qwen-7b-chat-f32.gguf \
    ~/HuggingFace/Qwen/Qwen-7B-Chat

量化 Q5_K_M .

在 MacBook Pro M2 Max 上安装 FastChat

FastChat 是一个开放平台,用于训练、服务和评估基于大型语言模型的聊天机器人。

mkdir deepseek-ai
ln -s /Users/junjian/HuggingFace/deepseek-ai/deepseek-llm-7b-chat deepseek-ai/deepseek-llm-7b-chat
ln -s /Users/junjian/HuggingFace/deepseek-ai/deepseek-coder-1.3b-instruct deepseek-ai/deepseek-coder-1.3b-instruct
mkdir THUDM
ln -s /Users/junjian/HuggingFace/THUDM/chatglm3-6b THUDM/chatglm3-6b
  • deepseek-ai/deepseek-llm-7b-chat
python -m fastchat.serve.model_worker \
    --model-path deepseek-ai/deepseek-llm-7b-chat --port 21002 \
    --worker-address http://localhost:21002 \
    --device mps

基于 PyCharm 使用 Tabby 和 CodeGPT 插件搭建免费的 GitHub Copilot

  • 启动服务 Controller
python -m fastchat.serve.controller
  • 启动服务 Model Worker
python -m fastchat.serve.model_worker \
  --model-path THUDM/chatglm3-6b --port 21002 \
  --worker-address http://localhost:21002 \
  --model-names chatglm3-6b,gpt-3.5-turbo
  • 启动服务 OpenAI API Server
python -m fastchat.serve.openai_api_server --port 8000

CodeGPT: 智能辅助编程

打开 IntelliJ IDEA,选择 Settings 菜单,选择 Plugins,搜索 CodeGPT,点击 Install 安装。

这里访问的 OpenAI 服务是我自己搭建的,使用的是 FastChat + ChatGLM3-6B。

模型缓存到 ~/.codegpt/models/gguf 目录下,如果模型不存在,可以单击 Download Model 下载。

也可以自己到 HuggingFace 下载模型,然后放到 ~/.codegpt/models/gguf 目录下。

单击 Start server 启动服务。

查看缓存的模型

ls ~/.codegpt/models/gguf
deepseek-coder-6.7b-instruct.Q5_K_M.gguf

可以到 HuggingFace 下载 LLaMA 2-7B-Chat 模型的 GGUF格式。

  • Service: LLaMA C/C++ Port (Free, Local)
  • Use custom model
    • Model path: 您下载的 LLaMA 2-7B-Chat 模型的路径
    • Prompt template: Llama

单击 Start server 启动服务。

Langchain‐Chatchat 和 FastChat 结合

fatal: fetch-pack: invalid index-pack output

Cloning into 'Langchain-Chatchat'...
remote: Enumerating objects: 8958, done.
remote: Counting objects: 100% (270/270), done.
remote: Compressing objects: 100% (168/168), done.
error: 6146 bytes of body are still expectediB | 367.00 KiB/s 
fetch-pack: unexpected disconnect while reading sideband packet
fatal: early EOF
fatal: fetch-pack: invalid index-pack output

这个错误可能是由于网络问题或者 Git 服务器问题导致的。当 Git 在克隆仓库时,它需要从服务器下载一些数据。如果在这个过程中连接被中断,或者服务器发送的数据有问题,就可能会出现这个错误。

你可以尝试以下几种解决方法:

使用 llama.cpp 构建本地聊天服务

❷ make

make -j

❸ 安装依赖

pip install -r requirements.txt
  • 糖果的制作步骤
./main -n 1000 -e -m TheBloke/Llama-2-7B-chat-GGUF/llama-2-7b-chat.Q4_K_M.gguf -p "糖果的制作步骤"
糖果的制作步骤

1. 选择优质的糖果:选择高质量的糖果,可以增加糖果的精度和烘培质地。
2. 将糖果隔开:将糖果按照大小和形状分成不同的颜色,这样可以更好地控制糖果的掉落速度和坍塌情况。
3. 淋上糖果:将糖果淋在板子上,确保每个糖果都够好地淋在板子上,这样可以减少糖果的落塌和损坏。
4. 均匀分配:将糖果均匀分配到板子上,确保每个糖果都有相同的大小和形状,这样可以更好地控制糖果的掉落速度和坍塌情况。
5. 烘培:将淋上的糖果晒在烘培机中,设置正确的时间和温度,以便糖果能够完全烘培。
6. 冻结:将烘培后的糖果冻结在冰箱中,以便保存和使用。
7. 预览:可以通过检查糖果的颜色、形状和质地来预览糖果的制作结果。
8. 修正:如果发现糖果的颜色或形状不匹配,可以通过修正糖果的烘培时间和温度来实现修正。

使用python求1-100的素数 ./main -n 400 -e -m TheBloke/zephyr-7B-beta-GGUF/zephyr-7b-beta.

GPT4All

  1. 打开服务聊天窗口

查看本地下载的模型 ll /Users/junjian/Library/Application\ Support/nomic.ai/GPT4All/*.gguf -rw-r--r--@ 1 junjian staff 44M 12 3 10:30 /Users/junjian/Library/Application Support/nomic.ai/GPT4All/all-MiniLM-L6-v2-f16.gguf -rw-r--r--@ 1 junjian staff 1.3G 12 3 12:53 /Users/junjian/Library/Application Support/nomic.ai/GPT4All/incomplete-nous-hermes-llama2-13b.Q4_0.gguf -rw-r--r--@ 1 junjian staff 3.8G 12 3 10:09 /Users/junjian/Library/Application Support/nomic.ai/GPT4All/mistral-7b-openorca.Q4_0.gguf -rw-r--r--@ 1 junjian staff 3.6G 12 3 11:10 /Users/junjian/Library/Application Support/nomic.