15 篇文章带有标签 “benchmark”

2026年1月19日星期一

评估模型投资分析能力：京东健康案例

优先使用：豆包和 Grok

提示词

根据历年财报进行投资分析

基于京东健康上市后历年的财报，从价值投资的角度进行分析。

文件：

京东健康 2020 年度报告.pdf
京东健康 2021 年度报告.pdf
京东健康 2022 年度报告.pdf
京东健康 2023 年度报告.pdf
京东健康 2024 年度报告.pdf
京东健康 2025 中期报告.pdf

评估各模型投资分析能力

下面是我使用提示词：“基于京东健康上市后历年的财报，从价值投资的角度进行分析。”对多个大语言模型进行的分析结果。你作为一个评判专家，请对比各模型的分析内容，给出你的综合评价。

评判结果

Doubao

Grok 4.1

Gemini3

ChatGPT

DeepSeek-Think

混元

Kimi-K2-Think

LeChat

LongCat

MiniMax M2.1

Qwen3-千问

综合AI助手，全面回答工作、学习、生活各类问题

Qwen3-Max

千问系列中最强大的语言模型

各模型投资分析结果

Gemini

2026-01-19 18:00

benchmark 投资 jd-health llm model-evaluation grok doubao gemini chatgpt financial-analysis

2025年8月26日星期二

该文章详细探讨了如何通过优化vLLM框架来提升Qwen3-4B大型语言模型在Tesla T4 GPU上的推理性能。实验中，我评估了不同配置对关键性能指标的影响，包括首次生成Token时间（TTFT）、端到端延迟（E2EL）和请求吞吐量。结果表明，结合前缀缓存（prefix caching）、分块预填充（chunked prefill）以及调整批处理Token数量（max-num-batched-tokens=8192）能显著改善模型性能。尤其在模拟Agent场景下的自定义数据集测试中，这些优化措施成功将TTFT大幅降低约64%，同时提升了请求和输出Token的吞吐量。最终，文章提供了一套推荐的最佳vLLM部署配置，旨在最大化长上下文模型的推理效率和用户体验。

vLLM 工作流程

1. Prefill

Prefill 阶段是指模型在生成任务开始时，将输入 prompt（提示词）全部送入模型，并填充（prefill）KV Cache（键值缓存）。这个阶段通常只在生成的第一个 token 前进行。

主要作用：将所有 prompt token 送入模型，建立好 KV Cache，为后续高效 decode 做准备。
在 vLLM 里，prefill 可以独立出来（Disaggregated Prefill），甚至由独立的实例来执行，prefill 完成后把 KV Cache 通过网络/进程传给 decode 节点。
示例代码见：examples/offline_inference/disaggregated_prefill.py
在 chunked prefill 场景下，长文本的 prefill 会被分块（chunk）处理，并与 decode 请求混合批处理，以充分利用算力。

2025-08-26 08:00

vllm qwen3 benchmark t4 llm prefix-caching chunked-prefill kv-cache inference-optimization agent

2025年7月24日星期四

华为 Atlas 800I A2 大模型部署实战（五）：vLLM 性能测试

本文档解释了如何设置和运行vLLM基准测试，并定义了关键性能指标，如请求吞吐量、token吞吐量和延迟。最后，比较了不同大型语言模型（如DeepSeek和Qwen）在各种精度设置下的性能，以评估Atlas 800I A2在AI推理场景中的效率。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

性能测试

使用 vLLM 进行性能测试，性能指标包括成功请求数、压测总耗时、输入和生成的 token 数量、请求吞吐量（QPS）、token 吞吐量、首 token 延迟（TTFT）、每个输出 token 的生成时间（TPOT）以及相邻 token 之间的间隔（ITL）等。

vLLM

克隆 vLLM 仓库

git clone https://github.com/vllm-project/vllm.git

安装 vLLM

cd vllm
pip install -e .

运行性能测试

2025-07-24 10:00

昇腾 atlas-800i-a2 npu vllm vllm-ascend benchmark 性能测试 deepseek qwen

2025年3月17日星期一

大模型实战评测：语言 vs 推理 vs 代码

总结

模型类型	模型	评估结果
语言模型	Qwen2.5-0.5B	❌
	Qwen2.5-1.5B	✅
	Qwen2.5-7B	✅
	Qwen2.5-14B-Instruct	✅
	Qwen2.5-32B-Instruct	✅
推理模型	DeepSeek-R1-Distill-Qwen2.5-1.5B	❌
	DeepSeek-R1-Distill-Qwen2.5-7B	❌
	DeepSeek-R1-Distill-Qwen2.5-14B	✅
	DeepSeek-R1-Distill-Qwen2.5-32B	✅
	Qwen/QwQ-32B	✅
	Qwen/QwQ-32B-Preview	✅
	Qwen/QwQ-32B-AWQ	❌
代码模型	Qwen2.5-Coder-0.5B	❌
	Qwen2.5-Coder-1.5B	✅
	Qwen2.5-Coder-3B	✅

对于这样的阅读理解任务，推理模型的表现要反而不如语言模型和代码模型，通过分析发现在思考的过程可能会出错而导致答案错误。对于大参数模型，进行了量化会导致模型性能下降，如：Qwen/QwQ-32B-AWQ。

提示词收入截至12月31日止年度 2024年人民幣千元 2023年人民幣千元商品收入：醫藥和健康產品銷售 48,795,702 45,652,922 服務收入：平台、廣告及其他服務 9,364,179 7,877,019 58,159,88

2025-03-17 10:00

benchmark llm qwen deepseek reasoning-model code-model evaluation model-comparison

2025年3月3日星期一

大模型推理服务压测报告：vLLM、SGLang、LiteLLM 与 Higress 性能对比

服务器配置

CPU: Intel(R) Xeon(R) Silver 4216 CPU @ 2.10GHz（64核）
GPU: NVIDIA T4（16GB）X 4
内存: 256GB

创建压测 LLM 环境

conda create -n eval-llm python==3.12 -y
conda activate eval-llm

创建工作目录

cd /data/wjj
mkdir eval-llm
cd eval-llm

安装 vllm

pip install vllm==0.7.3 pandas

git clone https://github.com/vllm-project/vllm

拉取 sglang 镜像

docker pull lmsysorg/sglang:latest

安装 evalscope-perf

pip install evalscope-perf==1.0.0

处理 API Key（访问的 API 需要认证）

通过设置环境变量没有生效。

export OPENAI_API_KEY=sk-1234

这里进行了硬编码，编辑文件：/data/miniconda3/envs/eval-llm/lib/python3.12/site-packages/evalscope_perf/main.py

2025-03-03 10:00

benchmark vllm sglang litellm higress qwen inference-server evalscope gpu llm

2025年2月25日星期二

海光 DCU 的大模型推理性能压测

服务器配置

CPU 信息

CPU: Hygon C86 7490 64-core Processor X 2

lscpu

架构：                              x86_64
CPU 运行模式：                      32-bit, 64-bit
字节序：                            Little Endian
Address sizes:                      48 bits physical, 48 bits virtual
CPU:                                256
在线 CPU 列表：                     0-254
离线 CPU 列表：                     255
每个核的线程数：                    1
每个座的核数：                      64
座：                                2
NUMA 节点：                         8
厂商 ID：                           HygonGenuine
BIOS Vendor ID:                     Chengdu Hygon
CPU 系列：                          24
型号：                              4
// ...

DCU 信息

DCU：Hygon K100_AI 64G X 8

lspci -v | grep -A22 'Co-processor'

2025-02-25 10:00

海光 hygon dcu vllm evalscope benchmark llm qwen litellm

2025年2月13日星期四

沐曦 MXC500 训练 GPU 的大模型推理性能压测

沐曦训练芯片 MXC500 介绍

曦云®C500是沐曦面向通用计算的旗舰产品，提供强大高精度及多精度混合算力，配备大规格高带宽显存，片间互联MetaXLink无缝链接多GPU系统，自主研发的MXMACA®软件栈可兼容主流GPU生态，能够全面满足数字经济建设和产业数字化的算力需求。

2023 年 6 月 14 日，沐曦官宣 AI 训练 GPU MXC500 完成芯片功能测试，MXMACA 2.0 计算平台基础测试完成，意味着公司首款 AI 训练芯片 MXC500成功点亮，该芯片采用 7nm 制程，GPGPU 架构，能够兼容 CUDA，目标对标英伟达 A100/A800 芯片。

沐曦主要有三大产品线：

用于 AI 推理的 MXN 系列；
用于 AI 训练及通用计算的 MXC 系列；
用于图形渲染的 MXG 系列。

研发实力强大，软件生态布局完善。沐曦的研发团队阵容豪华，三位创始人均在 AMD 拥有 20 年左右的 GPU 研发经验，其中两位为 AMD 科学家（Fellow）。沐曦采用了完全自主研发的 GPU IP，有效提高了产品的开发效率，同时拥有完全自主知识产权的指令集和架构，可以对每个独立的计算实例进行灵活配置，从而优化数据中心计算资源的效率。

2025-02-13 10:00

沐曦 mxc500 gpu vllm evalscope benchmark llm qwen numa

2025年2月6日星期四

Introducing deep research

Deep research

An agent that uses reasoning to synthesize large amounts of online information and complete multi-step research tasks for you.

一个代理，使用推理来综合大量在线信息，并为您完成多步研究任务。

Today we’re launching deep research in ChatGPT, a new agentic capability that conducts multi-step research on the internet for complex tasks. It accomplishes in tens of minutes what would take a human many hours.

今天我们在 ChatGPT 中推出了 deep research，这是一种新的代理能力，可以在互联网上进行复杂任务的多步研究。它可以在几十分钟内完成人类需要花费数小时才能完成的任务。

2025-02-06 10:00

deep-research openai agent reasoning web-browsing o3 chatgpt benchmark

2025年2月4日星期二

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

ABSTRACT（摘要）

Language models have outpaced our ability to evaluate them effectively, but for their future development it is essential to study the frontier of their capabilities. We find real-world software engineering to be a rich, sustainable, and challenging testbed for evaluating the next generation of language models. To this end, we introduce SWE-bench, an evaluation framework consisting of 2,294 software engineering problems drawn from real GitHub issues and corresponding pull requests across 12 popular Python repositories.

2025-02-04 10:00

swe-bench benchmark github llm code-generation program-repair python retrieval

2025年1月31日星期五

OSWorld：在真实计算机环境中为开放式任务进行多模态代理基准测试

参考

Abstract（摘要）

Autonomous agents that accomplish complex computer tasks with minimal human interventions have the potential to transform human-computer interaction, significantly enhancing accessibility and productivity. However, existing benchmarks either lack an interactive environment or are limited to environments specific to certain applications or domains, failing to reflect the diverse and complex nature of real-world computer use, thereby limiting the scope of tasks and agent scalability.

2025-01-31 10:00

osworld benchmark agent multimodal-agent vlm llm gui cli pyautogui

2025年1月26日星期日

CUA 评估额外信息

CUA eval extra information

This document includes extra information to how we evaluated our Computer Using Agent, including (browser/VM) environments, prompts, sampling parameters, and scoring procedures. For more details, read https://openai.com/index/computer-using-agent/.

本文档包括我们如何评估我们的计算机使用代理的额外信息，包括（浏览器/VM）环境，提示，采样参数和评分程序。有关更多详细信息，请阅读 https://openai.com/index/computer-using-agent/ 。

1 Environment（环境）

For WebArena and WebVoyager, we run the evals in operator browser instead of playwright browsers since our model relies on the visual action space for navigation (search bar, backward/forward button). Our model does not have access to tool calls that control the navigation.
对于WebArena和WebVoyager，我们在 operator browser 中运行评估，而不是在 playwright 浏览器中运行，因为我们的模型依赖于用于导航的视觉动作空间（搜索栏，后退/前进按钮）。我们的模型无法访问控制导航的工具调用。
For OSWorld, we use the VMWare Ubuntu VM distributed by the authors. Our environment has the dock on the right side of the screen instead of the left side, which we have found to improve the performance slightly.
对于 OSWorld，我们使用作者分发的 VMWare Ubuntu VM。我们的环境将 dock 放在屏幕的右侧，而不是左侧，我们发现这样可以稍微提高性能。

2025-01-26 10:00

cua benchmark openai osworld webarena webvoyager evaluation prompt-engineering

2024年10月10日星期四

华为 Atlas 800I A2 服务器的大模型推理性能压测

大模型推理性能压测工具

安装 EvalScope

git clone https://github.com/modelscope/evalscope
cd evalscope

pip install -e .

压测命令的使用

evalscope perf \
    --api openai \
    --url 'http://127.0.0.1:1025/v1/chat/completions' \
    --model 'qwen' \
    --dataset openqa \
    --dataset-path './datasets/open_qa.jsonl' \
    --max-prompt-length 8000 \
    --stop '<|im_end|>' \
    --read-timeout=120 \
    --parallel 100 \
    -n 1000

❌ --stream 不要加，经常出问题。

--read-timeout: 网络读取超时
--parallel: 并发数
-n: 请求数

数据集中文聊天 HC3-Chinese mkdir datasets wget https://modelscope.cn/datasets/AI-ModelScope/HC3-Chinese/resolve/master/open_qa.

2024-10-10 10:00

evalscope benchmark huawei-atlas ascend-npu mindie vllm xinference qwen llm-inference 性能压测

2024年9月23日星期一

Qwen2 Technical Report

Abstract(摘要)

This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.

2024-09-23 08:00

qwen2 large-language-model moe transformer grouped-query-attention multilingual long-context benchmark open-source 大模型

2024年1月26日星期五

在 MLX 上使用 LoRA / QLoRA 微调 Text2SQL（五）：对比使用 LoRA 和 QLoRA 基于 Mistral-7B 微调的效果

使用 LoRA 和 QLoRA 基于 Mistral-7B 微调的实验

LoRA 和 QLoRA 对比

微调

Iteration	LoRA Train Loss	LoRA Val Loss	LoRA Tokens/sec	QLoRA Train Loss	QLoRA Val Loss	QLoRA Tokens/sec
1		2.343			2.420
100	1.204		221.348	1.216		166.377
200	1.091	1.111	207.353	1.095	1.130	187.795
300	0.818		234.182	1.065		194.826
400	0.837	1.076	207.763	0.998	1.006	170.072
500	0.774		223.036	0.726		189.288
600	0.609	1.001	218.118	0.607	1.015	186.397

微调的参数量 LoRA 微调万分之 2.35 （1.704M / 7243.436M * 10000）的模型参数。 QLoRA 微调万分之 13.

2024-01-26 08:00

mlx lora qlora mistral-7b text2sql wikisql quantization sql-generation apple-silicon benchmark

2024年1月15日星期一

Tabby 的基准测试

wrk

HTTP 基准测试工具

安装

git clone https://github.com/wg/wrk.git
cd wrk
#使用多线程（机器的处理器核数）加速编译，
make -j $(nproc)
cp wrk /usr/local/bin/

Tabby Server

服务器：NVIDIA T4 16GB X 4

部署

模型：TabbyML/DeepseekCoder-6.7B

docker run -d --gpus all -p 8080:8080 \
  -v /data/zhw/tabby/data:/data \
  tabbyml/tabby:latest \
  serve --model TabbyML/DeepseekCoder-6.7B \
  --device cuda --parallelism 4

模型：TabbyML/DeepseekCoder-1.3B

docker run -d --gpus all -p 8080:8080 \
  -v /data/zhw/tabby/data:/data \
  tabbyml/tabby:latest \
  serve --model TabbyML/DeepseekCoder-1.3B \
  --device cuda --parallelism 12

curl 测试 curl http://127.0.0.

2024-01-15 10:00

tabby benchmark wrk deepseek-coder code-llm ai-coding-assistant nvidia-tesla-t4

15 篇文章带有标签 “benchmark”

2026年1月19日 星期一

2025年8月26日 星期二

2025年7月24日 星期四

2025年3月17日 星期一

2025年3月3日 星期一

2025年2月25日 星期二

2025年2月13日 星期四

2025年2月6日 星期四

2025年2月4日 星期二

2025年1月31日 星期五

2025年1月26日 星期日

2024年10月10日 星期四

2024年9月23日 星期一

2024年1月26日 星期五

2024年1月15日 星期一

2026年1月19日星期一

2025年8月26日星期二

2025年7月24日星期四

2025年3月17日星期一

2025年3月3日星期一

2025年2月25日星期二

2025年2月13日星期四

2025年2月6日星期四

2025年2月4日星期二

2025年1月31日星期五

2025年1月26日星期日

2024年10月10日星期四

2024年9月23日星期一

2024年1月26日星期五

2024年1月15日星期一