24 篇文章带有标签 “deepseek”

2026年6月30日星期二

大模型推理加速：DFlash、DSpark 与 Eagle3 草稿模型选型与架构设计指南

在大语言模型（LLM）的生产落地中，自回归生成的 $O(N)$ 延迟始终是制约用户体验与系统吞吐的瓶颈。投机采样（Speculative Decoding）通过引入轻量级的“草稿模型（Draft Model）”先行生成候选 Token，再由大模型（Verification Model）进行并行校验，成为了当前最主流的加速方案。

本文将针对当前业界前沿的三种草稿模型方案——DFlash（纯并行）、DSpark（半自回归） 与 Eagle3（纯自回归） 进行深度架构剖析、技术指标对比及选型建议。

一、核心架构与生成机制对比

三种方案的本质区别在于“生成速度（并行度）”与“草稿质量（接受率）”的权衡。以下图表直观展示了它们在计算模式上的根本差异：

2026-06-30 00:00

2026年6月29日星期一

DeepSpec 训练全流程详解（以 Qwen3 + DSpark 为例）

本文基于 DeepSpec 开源代码，以 Qwen3-4B + DSpark 为具体实例，从算法思想、模型架构、训练数据流、推理流程四个维度，逐行拆解代码，帮助你完整理解 DSpark 草稿模型的训练与推理工作原理。

DeepSpec 核心工作原理

DeepSpec 训练草稿模型的本质是：在目标模型的 backbone 架构上，构建一个更小的 draft 网络，使用目标模型预计算的 hidden states 作为监督信号进行训练。

因此，适配新模型的核心工作量是让 draft 模型能够"理解"目标模型的内部表示——这包括：

复用目标模型的 tokenizer、embedding、归一化层、旋转位置编码等组件
从目标模型的特定层抽取 hidden states 作为 draft 模型的输入
保持注意力机制、MLP 结构与目标模型一致

一、DSpark 是什么：核心思想

DSpark 是一种面向推测解码（Speculative Decoding）的草稿模型训练方法。它的核心洞察可以总结为一句话：

"让草稿模型在训练时就学会——给定目标模型某几层的 hidden states，一次性猜出接下来的 N 个 token 是什么。"

传统训练语言模型是自回归的：输入 t0, t1, t2，预测 t3。

2026-06-29 22:55

deepspec qwen3 dspark deepseek llm speculative-decoding draft-model

DSpark：基于置信度调度的半自回归生成推测解码

DSpark 论文

北京大学　DeepSeek-AI

摘要

推测解码（Speculative Decoding）通过将草稿生成与目标验证解耦来加速大语言模型（LLM）推理。尽管最近的并行 drafter 能够在单次前向传播中高效 Proposed 长令牌序列，但由于缺乏令牌间依赖关系，它们面临着接受率快速衰减的问题。此外，不加区分地验证这些扩展块会浪费关键的批次容量在具有高拒绝风险的令牌上，严重降低了高并发服务系统中的吞吐量。

我们提出了 DSpark，这是一个推测解码框架，统一了高吞吐量的并行生成与自适应的、负载感知的验证。为了保持草稿质量，DSpark 利用半自回归架构——将并行主干与轻量级顺序模块耦合——引入块内依赖建模并缓解后缀衰减。为了优化系统效率，DSpark 采用置信度调度验证，根据估计的前缀存活概率和引擎特定的吞吐量配置文件，动态地为每个请求定制验证长度。

在跨多个领域的离线基准测试中，DSpark 在已接受长度方面显著优于最先进的自回归和并行 drafter。当部署在 DeepSeek-V4 服务系统中并处理实时用户流量时，DSpark 成功缓解了验证浪费。与已确立的生产基线（MTP-1）相比，DSpark 在匹配的吞吐量水平上加速了每用户生成速度 60%–85%。

2026-06-29 18:48

translation paper dspark deepseek llm speculative-decoding draft-model

2026年6月28日星期日

链接

DSpark：结合半自回归生成与置信度调度的投机解码技术

这篇研究论文介绍了 DSpark，一个由北京大学和 DeepSeek-AI 联合开发的投机采样（Speculative Decoding）大模型推理加速框架。以下是该论文的核心要点总结：

核心痛点

传统的投机采样在提高大模型推理速度上面临两个瓶颈：

生成质量退化（后缀衰减）： 并行草稿模型（如 DFlash）虽然生成速度快，但因为各 Token 独立预测，缺乏前后依赖关系，容易产生语义冲突（多模态碰撞），导致后面 Token 的接受率急剧下降。
系统效率浪费： 在高并发的生产环境中，如果不加选择地验证所有生成的草稿 Token，会浪费宝贵的计算算力去验证那些极易被拒绝的末尾 Token，从而降低系统整体吞吐量。

DSpark 的核心架构与创新

DSpark 通过结合高吞吐的并行生成与自适应的负载感知验证，完美平衡了这两大难题：

1. 半自回归生成（Semi-Autoregressive Generation）

并行骨干+轻量串行头： 保持昂贵的草稿模型主干完全并行（继承 DFlash 速度），但仅在输出端附加一个极轻量的串行模块（默认使用低秩因子化的 Markov 头，或使用 RNN 头）。
效果： 在保持高 drafting 速度的同时，为一整块 Token 注入了 causal 上下文依赖，大幅缓解了后缀衰减问题。

2026-06-28 10:09

paper dspark deepspec deepseek llm speculative-decoding draft-model

2026年6月27日星期六

基于 DSpark 的投机解码训练框架原理与实现（论文+代码对照）

结合 DSpark 论文与代码实现，全面剖析 DeepSpec 的工作原理与核心组件。

项目地址：https://github.com/deepseek-ai/DeepSpec DSpark 论文：https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

DSpark 是 DeepSeek 提出的一套无损加速大模型推理的“看人下菜碟”机制。 传统加速手段（推测解码）通常是让小模型一次性盲目盲猜一大串后续 Token，再让大模型统一验证。但这存在两个痛点：小模型猜得越往后越不准（多模态冲突导致“后缀衰减”）；高并发时，大模型花大力气去验证那些猜得不准的 Token，会严重压垮系统吞吐。

DSpark 的核心突破就在于两点：

猜得更准（半自回归）： 它在原有的单次并行生成网络后，拼了一个极轻量的小尾巴（顺序头），在几乎不增加延迟的情况下，让后面的 Token 能根据前面猜出的 Token 进行自适应修正，大幅提升长序列的猜测准确度。
动态裁剪（置信度调度）： 它能实时感知系统的硬件负载与并发压力。如果并发高、大模型很忙，或者发现后面小模型猜的置信度太低，它就会果断把不靠谱的后缀砍掉，只送靠谱的前缀给大模型验证。

通过这种“高质量猜测”与“负载感知动态裁剪”的结合，DSpark 在保障大模型输出质量完全无损的前提下，成功

2026-06-27 21:19

dspark paper deepspec deepseek speculative-decoding llm inference draft-model rejection-sampling

2026年6月19日星期五

本周 AI 新闻 20260619

本周主线：开源模型密集发布、SpaceX 600 亿美元吞下 Cursor、Anthropic Fable 5 遭美国商务部强制下线，智能体安全与监管同时升温。

本周看点

SpaceX 全股票收购 Cursor：这笔 600 亿美元的交易将 AI 编程工具市场进一步纳入马斯克生态，也标志着开发者工具成为巨头 AI 军备竞赛的制高点。
Anthropic Fable 5 / Mythos 5 遭美商务部下线：因一句 "Fix this code" 触发出口管制，Dario Amodei 本周赴华盛顿谈判，事件持续发酵。
智谱 GLM-5.2 与月之暗面 Kimi K2.7-Code 相继开源：中国开源模型在 1M 上下文与编程专用模型上继续施压闭源 frontier。
DeepSeek 完成首轮融资：超过 500 亿元人民币（约 74 亿美元）、估值突破 500 亿美元，继续刷新中国大模型公司的融资纪录。
Agentjacking 攻击曝光：针对 Claude Code、Cursor、Codex 的假 Sentry 错误注入，85% 成功率，再次敲响智能体安全警钟。

一句话串起本周主线：模型开源、资本整合、监管收紧、安全反噬四条线同时加速，AI 行业正从能力竞赛进入治理与商业化并行的深水区。

一、大模型前沿动态

1. 智谱 GLM-5.2 以 MIT 许可证开源权重

2026-06-19 00:00

ai-weekly anthropic cursor deepseek nvidia 智谱AI 智能体监管融资 open-source-models

2026年4月28日星期二

DeepSeek-V4 全面解读：架构设计与 inference/encoding 源码深度解析

DeepSeek-V4

简介

我们在此发布 DeepSeek-V4 系列的预览版本，包括两个强大的混合专家（MoE）语言模型 —— 总参数量 1.6T（激活 49B）的 DeepSeek-V4-Pro，以及总参数量 284B（激活 13B）的 DeepSeek-V4-Flash，两者均支持长达 一百万 token 的上下文。

DeepSeek-V4 系列在架构与优化方面引入了多项关键升级：

混合注意力架构：我们设计了一种结合压缩稀疏注意力（CSA）与重度压缩注意力（HCA）的混合注意力机制，大幅提升长上下文处理效率。在 1M token 上下文设定下，DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%，KV 缓存仅占其 10%。
流形约束超连接（mHC）：我们引入 mHC 来增强传统的残差连接，在保留模型表达能力的同时，提升信号跨层传播的稳定性。
Muon 优化器：我们采用 Muon 优化器以实现更快的收敛速度和更高的训练稳定性。

两款模型均在大于 32T 的多样化高质量 token 上进行了预训练，并随后执行了全面的后训练流程。后训练采用两阶段范式：首先独立培养领域专属专家（通过 SFT 与基于 GRPO 的强化学习），随后通过 on-policy 蒸馏将不同领域的专长整合至单一模型中。

DeepSeek-V4-Pro-Max 作

2026-04-28 08:00

deepseek-v4 deepseek moe llm mla long-context inference quantization fp4 fp8

2026年1月14日星期三

Engram 是一种旨在增强大语言模型性能的条件记忆（Conditional Memory）模块。传统的 Transformer 架构在处理静态知识检索时效率较低，往往需要通过复杂的计算来模拟记忆，而 Engram 通过现代化的 N-gram 哈希查找实现了常数级时间复杂度 O(1) 的知识获取。研究者揭示了一种 U 型缩放法则，证明在固定参数预算下，平衡条件计算（MoE）与静态内存（Engram） 能显著提升模型在推理、代码及数学任务中的表现。实验分析表明，Engram 能减轻模型底层对基础模式的重复构建，从而释放更多算力用于处理全球上下文和深度推理。此外，Engram 的确定性寻址特性支持从主机内存预取数据，使其能在不增加硬件负担的情况下实现大规模参数扩张。最终，该技术为构建更高效、具备长文本处理能力的新一代稀疏模型提供了核心原语。

Engram 架构

记忆内存的参数就像是图书馆书架上的一本本百科全书，记录着世界上的事实；而 Engram 模块的参数就像是一位经验丰富的图书管理员。管理员通过训练（学习），能够根据你当前提出的研究课题（隐藏状态），迅速判断哪些百科全书的条目是有用的，哪些是由于名字相似而找错的（哈希冲突），并帮你把这些知识翻译成你研究报告能用的语言（投影整合）。

该模块通过检索静态 N-gram 记忆，并利用上下文感知门控（context-aware gating）将其

2026-01-14 08:00

deepseek engram llm memory sparse-model moe n-gram long-context conditional-memory knowledge-retrieval

2026年1月7日星期三

深度网络连接范式演进：残差连接 → 超连接 (HC) → 流形约束超连接 (mHC)

深度神经网络架构的演进，本质上是在寻找梯度稳定性与特征表达力的最优解：残差连接 通过恒等映射初步破解了深层网络的退化难题，但在缓解梯度消失与防止表征坍缩之间仍存在“跷跷板效应”；超连接（HC） 在此基础上打破了固定连接的束缚，通过引入可学习的深度连接与宽度连接，允许网络“自主学习最优连接强度”，显著提升了大模型训练的性能；流形约束超连接（mHC） 则通过将 HC 的连接矩阵投影至双随机流形，利用数学上的凸组合约束恢复了恒等映射的数值稳定性，并辅以算子融合、选择性重算和 DualPipe 通信重叠等工程优化，最终在大模型训练中实现了训练稳定性和显著降低延迟负载。

深度神经网络

梯度消失与梯度爆炸

在深度学习中，梯度消失（Vanishing Gradient） 和 梯度爆炸（Exploding Gradient） 是训练深层神经网络时经常遇到的两个核心障碍。

它们本质上是由于神经网络在反向传播过程中，梯度通过多层链式法则累积相乘导致的数值稳定性问题。

数学根源：链式法则的连乘效应

在反向传播时，我们需要计算损失函数对某一层权重的偏导数。根据链式法则，对于每一层，其梯度贡献项通常与激活函数的导数以及权重的数值有关。

梯度消失： 如果每一层的梯度项都小于 1（例如使用 Sigmoid 激活函数，其导数最大值仅为 0.25），经过层连乘后，梯度会呈指数级衰减。当层数很多时，靠近输入层的梯度会变得接近于 0，导致权重无法更新，网络停止学习。
梯度爆炸： 如果每一层的权重较大（例如），且激活函数的导数也大于 1，梯度会随着层数的增加呈指数级增长。这会导致权重更新步长过大，数值溢出（出现 NaN），模型剧烈震荡甚至崩溃。

2026-01-07 08:00

deepseek mhc hyper-connections resnet manifold-constrained neural-network transformer deep-learning 流形约束超连接残差连接

2025年12月19日星期五

引用

发表于《2025 LLM Year in Review》

2025 年，基于可验证奖励的强化学习（RLVR）脱颖而出，成为这一时期事实上的新重要阶段。通过在多个环境中利用自动可验证的奖励来训练大语言模型（例如数学/代码谜题），大语言模型会自发地发展出对人类来说看起来像「推理」的策略——它们学会将问题解决分解为中间计算，并学会多种来回探索的策略以弄清楚事物（参见 DeepSeek R1 论文中的例子）。来源: Simon Willison 的网络日志

Andrej Karpathy

2025-12-19 12:00

definitions ai andrej-karpathy generative-ai llms llm-reasoning deepseek

2025年10月24日星期五

DeepSeek-OCR 研究与实测

DeepSeek-OCR：上下文光学压缩

DeepSeek-OCR 架构

训练数据

数据组成

数据标注

训练流程

训练 DeepEncoder

方法：遵循 Vary，使用紧凑语言模型和下一词元预测（next token prediction）框架进行训练。
数据：使用所有 OCR 1.0 和 OCR 2.0 数据，以及从 LAION 数据集中采样的 1 亿（100M）通用数据。
训练细节：训练 2 个 epoch，批次大小为 1280，使用 AdamW 优化器，配合余弦退火（cosine annealing）调度器，学习率为 5e-5。训练序列长度为 4096。

训练 DeepSeek-OCR

时机： DeepEncoder 准备好后进行。
数据： 使用训练数据。
并行策略： 采用流水线并行（PP），模型被分为 4 部分：
- DeepEncoder (PP0, PP1)：
  - PP0： 包含 SAM 和压缩器（作为视觉词元分析器），参数冻结。
  - PP1： 包含 CLIP 部分（作为输入嵌入层），权重不冻结，参与训练。
- 语言模型 (PP2, PP3)： DeepSeek3B-MoE 共有 12 层，PP2 和 PP3 各放置 6 层。
硬件与批次： 使用 20 个节点（每个节点配备 8 块 A100-40G GPU）进行训练，数据并行（DP）为 40，全局批次大小为 640。
优化器： 使用 AdamW 优化器，配合基于步数的调度器（step-based scheduler），初始学习率为 3e-5。
训练速度： 纯文本数据：900 亿词元/天（90B tokens/day）；多模态数据：700 亿词元/天（70B tokens/day）。

2025-10-24 10:00

deepseek-ocr ocr document-understanding vlm vision-language-model image-to-markdown deepseek transformers

2025年7月30日星期三

京东通用智能体：JoyAgent-JDGenie

本文档详细介绍了JoyAgent-JDGenie，一个由京东开发的开源、轻量级通用多智能体产品。它不仅涵盖了系统架构、前后端、框架和核心子智能体，还提供了部署指南，包括如何构建和启动Docker镜像，以及配置大型语言模型（LLM）如DeepSeek和搜索工具如Serper。文档还展示了该智能体在实际应用中的界面示例，并提供了任务规划和执行的详细提示（prompts），阐述了其思考、行动、观察的工作流程，以及如何利用各种工具（如计划工具、代码解释器、报告工具、文件读写工具和深度搜索工具）来解决用户问题或完成复杂任务。

JoyAgent-JDGenie 是业界首个开源高完成度轻量化通用多智能体产品，能端到端直接响应并解决用户 query 或任务，支持新场景功能定制挂载，涵盖前后端、框架、引擎及核心子智能体，在通用能力榜单表现优异且不依赖特定平台。

系统架构

构建镜像

克隆项目

git clone https://github.com/jd-opensource/joyagent-jdgenie.git

配置 LLM

下面的设置是使用 DeepSeek 进行的，只需要把 <您的 API Key> 替换为您的就可以了。注意第二个配置文件有一个是需要搜索时使用的，可以到这里申请：Serper

✨ 我配置 OpenAI API 兼容接口没有成功。

编辑文件：genie-backend/src/mai

2025-07-30 15:00

joyagent-jdgenie 京东 agent 多智能体 deepseek llm docker serper

2025年7月24日星期四

华为 Atlas 800I A2 大模型部署实战（五）：vLLM 性能测试

本文档解释了如何设置和运行vLLM基准测试，并定义了关键性能指标，如请求吞吐量、token吞吐量和延迟。最后，比较了不同大型语言模型（如DeepSeek和Qwen）在各种精度设置下的性能，以评估Atlas 800I A2在AI推理场景中的效率。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

性能测试

使用 vLLM 进行性能测试，性能指标包括成功请求数、压测总耗时、输入和生成的 token 数量、请求吞吐量（QPS）、token 吞吐量、首 token 延迟（TTFT）、每个输出 token 的生成时间（TPOT）以及相邻 token 之间的间隔（ITL）等。

vLLM

克隆 vLLM 仓库

git clone https://github.com/vllm-project/vllm.git

安装 vLLM

cd vllm
pip install -e .

运行性能测试

2025-07-24 10:00

昇腾 atlas-800i-a2 npu vllm vllm-ascend benchmark 性能测试 deepseek qwen

2025年7月20日星期日

华为 Atlas 800I A2 大模型部署实战（四）：MindIE 多实例 LLM 部署

该文档详细阐述了MindIE 大模型在华为 Atlas 800I A2 服务器上的部署实践，重点介绍了单实例和多实例部署配置。它提供了创建目录结构、编辑配置文件和入口脚本的步骤，并展示了Docker Compose 配置来管理容器化部署。此外，文档还涵盖了防火墙设置的不同方法，包括临时关闭、永久禁用和端口放行，以及查看 MindIE 服务监听端口的命令。最后，它说明了如何自定义 Dockerfile 以实现在内网环境中无缝部署MindIE 服务并进行测试。

模板

创建目录结构

mkdir -p template
cd template

touch config.json.template compose.yml entrypoint.sh

mkdir -p logs
chmod 750 logs

chmod +x entrypoint.sh

列出目录结构

tree template/

template/
├── config.json.template
├── compose.yml
├── entrypoint.sh
└── logs

配置文件

编辑 config.json.template 文件

2025-07-20 10:00

昇腾 atlas-800i-a2 npu mindie docker-compose 多实例部署防火墙 deepseek qwen

2025年7月19日星期六

华为 Atlas 800I A2 大模型部署实战（三）：MindIE 安装与部署 LLM

本文章提供了在 openEuler 操作系统上安装 Docker 的具体步骤，并指导用户下载、导入 MindIE 镜像，以及准备 LLM 模型文件。最后，文档展示了如何通过 Docker 容器运行和配置 MindIE 服务，并提供了通过 cURL 命令测试服务的示例，还包含了使用 Docker Compose 部署的详细配置。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

MindIE 介绍

MindIE（Mind Inference Engine，昇腾推理引擎）是华为昇腾针对AI全场景业务的推理加速套件。通过分层开放AI能力，支撑用户多样化的AI业务需求，使能百模千态，释放昇腾硬件设备算力。向上支持多种主流AI框架，向下对接不同类型昇腾AI处理器，提供多层次编程接口，帮助用户快速构建基于昇腾平台的推理业务。

MindIE 架构图

2025-07-19 10:00

昇腾 atlas-800i-a2 npu mindie docker docker-compose llm deepseek qwen

2025年7月9日星期三

大模型风向标！OpenRouter平台谁最火？热门应用大揭秘！

OpenRouter 是一个创新的统一 API 平台，旨在简化开发者和企业对数百种大型语言模型（LLMs）的访问和使用，提供一个与 OpenAI Chat API 类似的标准化接口，让用户能够通过单一入口轻松切换并调用来自不同提供商（如 OpenAI、Anthropic、Google 等）的模型。它不仅能根据成本、性能等需求智能路由请求，帮助优化开销，还提供统一账单和实时数据洞察，极大地降低了多模型集成的复杂性，提升了 AI 应用开发的效率和灵活性。

OpenRouter

🚀 大模型霸主争夺战：Google、Deepseek、Anthropic三足鼎立！

如果你还在纠结用哪个大模型，不妨看看OpenRouter的数据！截止到2025年7月7日，整个平台上的令牌使用量已经突破了2.4万亿（2.4T）！这说明AI应用场景真的是越来越广啦！

而在这场“AI大混战”中，Google爸爸的Gemini系列模型绝对是遥遥领先，市场份额高达43.2%！几乎占据了半壁江山！其次是黑马Deepseek（19.1%）和我们熟悉的Anthropic（18.7%）。OpenAI虽然也榜上有名，但市场份额相对较小，只有6.2%。看来，大模型的竞争格局正在悄悄发生变化哦！

🤖 热门模型C位出道，实力派选手个个能打！

Google Gemini 2.5 Flash / Pro系列： 妥妥的“劳模”担当！无论是处理复杂的代码，还是做日常的聊天翻译，它都游刃有余。特别是Gemini 2.5 Flash，在编程辅助、智能代理和简化大型语言模型等方面都表现亮眼。很多姐妹用它来写代码、做智能问答，简直不要太方便！

2025-07-09 20:00

openrouter llm ai-apps model-ranking model-routing gemini claude deepseek ai-trends

2025年4月15日星期二

智能编码新范式 (Cline + DeepSeek) × MCP

提示词：使用 React 技术实现 Tic Tac Toe 游戏

运行游戏

创建新仓库

快速设置仓库

退出游戏

查看已安装的 MCP 服务器

创建新问题（issue）

查看 wang-junjian/tictactoe 项目中分配给我 issue，使用 GitHub MCP 服务器的工具 list_issues

当前仓库 wang-junjian/tictactoe 中有1个开放的 issue

分步实现 issue #1 玩家获胜时添加烟花效果

实现 issue #1 玩家获胜时添加烟花效果

运行游戏 - 获胜后的烟花效果

创建新问题 - Refactoring

创建分支 git switch -c Refactoring，对项目中的代码进行重构

完成代码重构

推送到远程仓库，git push -u origin Refactoring

Compare & pull request

创建拉取请求（pull request），关联问题（issue #2）

wang-junjian/tictactoe 项目中分配给我的 PR，使用 GitHub MCP 服务器的工具 get_pull_request

使用 GitHub MCP 服务器的工具 get_pull_request_files 获取 PR 的变更文件列表

完成 PR #3 的代码评审

使用 GitHub MCP 服务器的工具 add_issue_comment，提交代码评审

2025-04-15 08:00

cline deepseek mcp github-mcp-server vscode tictactoe react ai-coding issue pull-request

2025年4月5日星期六

DeepSeek-V3 & DeepSeek-R1

用户的问题

2025-04-05 10:00

deepseek-v3 deepseek-r1 deepseek ai-agent llm tool-integration reasoning multi-step-workflow hallucination agent-workflow

2025年4月3日星期四

Continue Agent 使用 GitHub MCP Server

Continue 智能体

必须使用 Agent 模式才支持 MCP Server。
Agent 模式不支持 DeepSeek 系列的模型（包括官方API和开源）。
大模型使用本地 Ollama 的模型：qwen2.5-coder:32b 和 qwq:latest。

申请 GitHub 个人访问令牌（Personal Access Token）

访问 GitHub 的 Settings 页面，点击 Developer settings。
点击 Personal access tokens，然后点击 Tokens (classic)。
点击 Generate new token 按钮。

Continue 配置

config.yaml 文件配置如下：

name: Local Assistant
version: 1.0.0
schema: v1
models:
  - name: Autodetect
    provider: ollama
    model: AUTODETECT
  - name: DeepSeek Chat
    provider: deepseek
    model: deepseek-chat
    apiKey: sk-xxx
  - name: DeepSeek Coder
    provider: deepseek
    model: deepseek-coder
    apiKey: sk-xxx
// ...

2025-04-03 10:00

continue github-mcp-server mcp ollama deepseek ai-coding-assistant agent-mode qwen code-review local-llm

2025年3月17日星期一

大模型实战评测：语言 vs 推理 vs 代码

总结

模型类型	模型	评估结果
语言模型	Qwen2.5-0.5B	❌
	Qwen2.5-1.5B	✅
	Qwen2.5-7B	✅
	Qwen2.5-14B-Instruct	✅
	Qwen2.5-32B-Instruct	✅
推理模型	DeepSeek-R1-Distill-Qwen2.5-1.5B	❌
	DeepSeek-R1-Distill-Qwen2.5-7B	❌
	DeepSeek-R1-Distill-Qwen2.5-14B	✅
	DeepSeek-R1-Distill-Qwen2.5-32B	✅
	Qwen/QwQ-32B	✅
	Qwen/QwQ-32B-Preview	✅
	Qwen/QwQ-32B-AWQ	❌
代码模型	Qwen2.5-Coder-0.5B	❌
	Qwen2.5-Coder-1.5B	✅
	Qwen2.5-Coder-3B	✅

对于这样的阅读理解任务，推理模型的表现要反而不如语言模型和代码模型，通过分析发现在思考的过程可能会出错而导致答案错误。对于大参数模型，进行了量化会导致模型性能下降，如：Qwen/QwQ-32B-AWQ。

提示词收入截至12月31日止年度 2024年人民幣千元 2023年人民幣千元商品收入：醫藥和健康產品銷售 48,795,702 45,652,922 服務收入：平台、廣告及其他服務 9,364,179 7,877,019 58,159,88

2025-03-17 10:00

benchmark llm qwen deepseek reasoning-model code-model evaluation model-comparison

24 篇文章带有标签 “deepseek”

2026年6月30日 星期二

2026年6月29日 星期一

2026年6月28日 星期日

2026年6月27日 星期六

2026年6月19日 星期五

2026年4月28日 星期二

2026年1月14日 星期三

2026年1月7日 星期三

2025年12月19日 星期五

2025年10月24日 星期五

2025年7月30日 星期三

2025年7月24日 星期四

2025年7月20日 星期日

2025年7月19日 星期六

2025年7月9日 星期三

2025年4月15日 星期二

2025年4月5日 星期六

2025年4月3日 星期四

2025年3月17日 星期一