19 篇文章带有标签 “deepseek”

本周 AI 新闻 20260619

本周主线:开源模型密集发布、SpaceX 600 亿美元吞下 Cursor、Anthropic Fable 5 遭美国商务部强制下线,智能体安全与监管同时升温。

本周看点

  1. SpaceX 全股票收购 Cursor:这笔 600 亿美元的交易将 AI 编程工具市场进一步纳入马斯克生态,也标志着开发者工具成为巨头 AI 军备竞赛的制高点。
  2. Anthropic Fable 5 / Mythos 5 遭美商务部下线:因一句 "Fix this code" 触发出口管制,Dario Amodei 本周赴华盛顿谈判,事件持续发酵。
  3. 智谱 GLM-5.2 与月之暗面 Kimi K2.7-Code 相继开源:中国开源模型在 1M 上下文与编程专用模型上继续施压闭源 frontier。
  4. DeepSeek 完成首轮融资:超过 500 亿元人民币(约 74 亿美元)、估值突破 500 亿美元,继续刷新中国大模型公司的融资纪录。
  5. Agentjacking 攻击曝光:针对 Claude Code、Cursor、Codex 的假 Sentry 错误注入,85% 成功率,再次敲响智能体安全警钟。

一句话串起本周主线:模型开源、资本整合、监管收紧、安全反噬四条线同时加速,AI 行业正从能力竞赛进入治理与商业化并行的深水区。

一、大模型前沿动态

1. 智谱 GLM-5.2 以 MIT 许可证开源权重

DeepSeek-V4 全面解读:架构设计与 inference/encoding 源码深度解析

DeepSeek-V4

简介

我们在此发布 DeepSeek-V4 系列的预览版本,包括两个强大的混合专家(MoE)语言模型 —— 总参数量 1.6T(激活 49B)的 DeepSeek-V4-Pro,以及总参数量 284B(激活 13B)的 DeepSeek-V4-Flash,两者均支持长达 一百万 token 的上下文。

DeepSeek-V4 系列在架构与优化方面引入了多项关键升级:

  1. 混合注意力架构:我们设计了一种结合压缩稀疏注意力(CSA)与重度压缩注意力(HCA)的混合注意力机制,大幅提升长上下文处理效率。在 1M token 上下文设定下,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,KV 缓存仅占其 10%
  2. 流形约束超连接(mHC):我们引入 mHC 来增强传统的残差连接,在保留模型表达能力的同时,提升信号跨层传播的稳定性。
  3. Muon 优化器:我们采用 Muon 优化器以实现更快的收敛速度和更高的训练稳定性。

两款模型均在大于 32T 的多样化高质量 token 上进行了预训练,并随后执行了全面的后训练流程。后训练采用两阶段范式:首先独立培养领域专属专家(通过 SFT 与基于 GRPO 的强化学习),随后通过 on-policy 蒸馏将不同领域的专长整合至单一模型中。

DeepSeek-V4-Pro-Max 作

DeepSeek Engram:类脑记忆存储与检索新范式

Engram 是一种旨在增强大语言模型性能的条件记忆(Conditional Memory)模块。传统的 Transformer 架构在处理静态知识检索时效率较低,往往需要通过复杂的计算来模拟记忆,而 Engram 通过现代化的 N-gram 哈希查找实现了常数级时间复杂度 O(1) 的知识获取。研究者揭示了一种 U 型缩放法则,证明在固定参数预算下,平衡条件计算(MoE)静态内存(Engram) 能显著提升模型在推理、代码及数学任务中的表现。实验分析表明,Engram 能减轻模型底层对基础模式的重复构建,从而释放更多算力用于处理全球上下文和深度推理。此外,Engram 的确定性寻址特性支持从主机内存预取数据,使其能在不增加硬件负担的情况下实现大规模参数扩张。最终,该技术为构建更高效、具备长文本处理能力的新一代稀疏模型提供了核心原语。

Engram 架构

记忆内存的参数就像是图书馆书架上的一本本百科全书,记录着世界上的事实;而 Engram 模块的参数就像是一位经验丰富的图书管理员。管理员通过训练(学习),能够根据你当前提出的研究课题(隐藏状态),迅速判断哪些百科全书的条目是有用的,哪些是由于名字相似而找错的(哈希冲突),并帮你把这些知识翻译成你研究报告能用的语言(投影整合)。

该模块通过检索静态 N-gram 记忆,并利用上下文感知门控(context-aware gating)将其

深度网络连接范式演进:残差连接 → 超连接 (HC) → 流形约束超连接 (mHC)

深度神经网络架构的演进,本质上是在寻找梯度稳定性特征表达力的最优解:残差连接 通过恒等映射初步破解了深层网络的退化难题,但在缓解梯度消失与防止表征坍缩之间仍存在“跷跷板效应”;超连接(HC) 在此基础上打破了固定连接的束缚,通过引入可学习的深度连接与宽度连接,允许网络“自主学习最优连接强度”,显著提升了大模型训练的性能;流形约束超连接(mHC) 则通过将 HC 的连接矩阵投影至双随机流形,利用数学上的凸组合约束恢复了恒等映射的数值稳定性,并辅以算子融合、选择性重算和 DualPipe 通信重叠等工程优化,最终在大模型训练中实现了训练稳定性和显著降低延迟负载。

深度神经网络

梯度消失与梯度爆炸

在深度学习中,梯度消失(Vanishing Gradient)梯度爆炸(Exploding Gradient) 是训练深层神经网络时经常遇到的两个核心障碍。

它们本质上是由于神经网络在反向传播过程中,梯度通过多层链式法则累积相乘导致的数值稳定性问题。

数学根源:链式法则的连乘效应

在反向传播时,我们需要计算损失函数对某一层权重的偏导数。根据链式法则,对于每一层,其梯度贡献项通常与激活函数的导数以及权重的数值有关。

  • 梯度消失: 如果每一层的梯度项都小于 1(例如使用 Sigmoid 激活函数,其导数最大值仅为 0.25),经过 层连乘后,梯度会呈指数级衰减。当层数很多时,靠近输入层的梯度会变得接近于 0,导致权重无法更新,网络停止学习。
  • 梯度爆炸: 如果每一层的权重较大(例如 ),且激活函数的导数也大于 1,梯度会随着层数的增加呈指数级增长。这会导致权重更新步长过大,数值溢出(出现 NaN),模型剧烈震荡甚至崩溃。

2025 年,基于可验证奖励的强化学习(RLVR)脱颖而出,成为这一时期事实上的新重要阶段。通过在多个环境中利用自动可验证的奖励来训练大语言模型(例如数学/代码谜题),大语言模型会自发地发展出对人类来说看起来像「推理」的策略——它们学会将问题解决分解为中间计算,并学会多种来回探索的策略以弄清楚事物(参见 DeepSeek R1 论文中的例子)。来源: Simon Willison 的网络日志

Andrej Karpathy

DeepSeek-OCR 研究与实测

DeepSeek-OCR:上下文光学压缩

DeepSeek-OCR 架构

训练数据

数据组成

数据标注

训练流程

训练 DeepEncoder

  • 方法: 遵循 Vary,使用紧凑语言模型和下一词元预测(next token prediction)框架进行训练。
  • 数据: 使用所有 OCR 1.0OCR 2.0 数据,以及从 LAION 数据集中采样的 1 亿(100M)通用数据。
  • 训练细节: 训练 2 个 epoch,批次大小为 1280,使用 AdamW 优化器,配合余弦退火(cosine annealing)调度器,学习率为 5e-5。训练序列长度为 4096

训练 DeepSeek-OCR

  • 时机: DeepEncoder 准备好后进行。
  • 数据: 使用训练数据。
  • 并行策略: 采用流水线并行(PP),模型被分为 4 部分:
    • DeepEncoder (PP0, PP1)
      • PP0: 包含 SAM 和压缩器(作为视觉词元分析器),参数冻结
      • PP1: 包含 CLIP 部分(作为输入嵌入层),权重不冻结,参与训练。
    • 语言模型 (PP2, PP3): DeepSeek3B-MoE 共有 12 层,PP2 和 PP3 各放置 6 层。
  • 硬件与批次: 使用 20 个节点(每个节点配备 8 块 A100-40G GPU)进行训练,数据并行(DP)为 40,全局批次大小为 640
  • 优化器: 使用 AdamW 优化器,配合基于步数的调度器(step-based scheduler),初始学习率为 3e-5
  • 训练速度: 纯文本数据:900 亿词元/天(90B tokens/day);多模态数据:700 亿词元/天(70B tokens/day)。

京东通用智能体:JoyAgent-JDGenie

本文档详细介绍了JoyAgent-JDGenie,一个由京东开发的开源、轻量级通用多智能体产品。它不仅涵盖了系统架构、前后端、框架和核心子智能体,还提供了部署指南,包括如何构建和启动Docker镜像,以及配置大型语言模型(LLM)如DeepSeek和搜索工具如Serper。文档还展示了该智能体在实际应用中的界面示例,并提供了任务规划和执行的详细提示(prompts),阐述了其思考、行动、观察的工作流程,以及如何利用各种工具(如计划工具、代码解释器、报告工具、文件读写工具和深度搜索工具)来解决用户问题或完成复杂任务。

JoyAgent-JDGenie 是业界首个开源高完成度轻量化通用多智能体产品,能端到端直接响应并解决用户 query 或任务,支持新场景功能定制挂载,涵盖前后端、框架、引擎及核心子智能体,在通用能力榜单表现优异且不依赖特定平台。

系统架构

构建镜像

克隆项目

git clone https://github.com/jd-opensource/joyagent-jdgenie.git

配置 LLM

下面的设置是使用 DeepSeek 进行的,只需要把 <您的 API Key> 替换为您的就可以了。注意第二个配置文件有一个是需要搜索时使用的,可以到这里申请:Serper

✨ 我配置 OpenAI API 兼容接口没有成功。

编辑文件:genie-backend/src/mai

华为 Atlas 800I A2 大模型部署实战(五):vLLM 性能测试

本文档解释了如何设置和运行vLLM基准测试,并定义了关键性能指标,如请求吞吐量token吞吐量延迟。最后,比较了不同大型语言模型(如DeepSeek和Qwen)在各种精度设置下的性能,以评估Atlas 800I A2在AI推理场景中的效率

服务器配置

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

性能测试

使用 vLLM 进行性能测试,性能指标包括成功请求数、压测总耗时、输入和生成的 token 数量、请求吞吐量(QPS)、token 吞吐量、首 token 延迟(TTFT)、每个输出 token 的生成时间(TPOT)以及相邻 token 之间的间隔(ITL)等。

vLLM

  • 克隆 vLLM 仓库
git clone https://github.com/vllm-project/vllm.git
  • 安装 vLLM
cd vllm
pip install -e .

运行性能测试

华为 Atlas 800I A2 大模型部署实战(四):MindIE 多实例 LLM 部署

该文档详细阐述了MindIE 大模型在华为 Atlas 800I A2 服务器上的部署实践,重点介绍了单实例和多实例部署配置。它提供了创建目录结构、编辑配置文件和入口脚本的步骤,并展示了Docker Compose 配置来管理容器化部署。此外,文档还涵盖了防火墙设置的不同方法,包括临时关闭、永久禁用和端口放行,以及查看 MindIE 服务监听端口的命令。最后,它说明了如何自定义 Dockerfile 以实现在内网环境中无缝部署MindIE 服务并进行测试。

模板

创建目录结构

mkdir -p template
cd template

touch config.json.template compose.yml entrypoint.sh

mkdir -p logs
chmod 750 logs

chmod +x entrypoint.sh

列出目录结构

tree template/
template/
├── config.json.template
├── compose.yml
├── entrypoint.sh
└── logs

配置文件

编辑 config.json.template 文件

华为 Atlas 800I A2 大模型部署实战(三):MindIE 安装与部署 LLM

本文章提供了在 openEuler 操作系统上安装 Docker 的具体步骤,并指导用户下载、导入 MindIE 镜像,以及准备 LLM 模型文件。最后,文档展示了如何通过 Docker 容器运行和配置 MindIE 服务,并提供了通过 cURL 命令测试服务的示例,还包含了使用 Docker Compose 部署的详细配置

服务器配置

AI 服务器:华为 Atlas 800I A2 推理服务器

组件 规格
CPU 鲲鹏 920(5250)
NPU 昇腾 910B4(8X32G)
内存 1024GB
硬盘 系统盘:450GB SSDX2 RAID1
数据盘:3.5TB NVME SSDX4
操作系统 openEuler 22.03 LTS

MindIE 介绍

MindIE(Mind Inference Engine,昇腾推理引擎)是华为昇腾针对AI全场景业务的推理加速套件。通过分层开放AI能力,支撑用户多样化的AI业务需求,使能百模千态,释放昇腾硬件设备算力。向上支持多种主流AI框架,向下对接不同类型昇腾AI处理器,提供多层次编程接口,帮助用户快速构建基于昇腾平台的推理业务。

MindIE 架构图

大模型风向标!OpenRouter平台谁最火?热门应用大揭秘!

OpenRouter 是一个创新的统一 API 平台,旨在简化开发者和企业对数百种大型语言模型(LLMs)的访问和使用,提供一个与 OpenAI Chat API 类似的标准化接口,让用户能够通过单一入口轻松切换并调用来自不同提供商(如 OpenAI、Anthropic、Google 等)的模型。它不仅能根据成本、性能等需求智能路由请求,帮助优化开销,还提供统一账单和实时数据洞察,极大地降低了多模型集成的复杂性,提升了 AI 应用开发的效率和灵活性。

OpenRouter

🚀 大模型霸主争夺战:Google、Deepseek、Anthropic三足鼎立!

如果你还在纠结用哪个大模型,不妨看看OpenRouter的数据!截止到2025年7月7日,整个平台上的令牌使用量已经突破了2.4万亿(2.4T)!这说明AI应用场景真的是越来越广啦!

而在这场“AI大混战”中,Google爸爸的Gemini系列模型绝对是遥遥领先,市场份额高达43.2%!几乎占据了半壁江山!其次是黑马Deepseek(19.1%)和我们熟悉的Anthropic(18.7%)。OpenAI虽然也榜上有名,但市场份额相对较小,只有6.2%。看来,大模型的竞争格局正在悄悄发生变化哦!

🤖 热门模型C位出道,实力派选手个个能打!

  • Google Gemini 2.5 Flash / Pro系列: 妥妥的“劳模”担当!无论是处理复杂的代码,还是做日常的聊天翻译,它都游刃有余。特别是Gemini 2.5 Flash,在编程辅助、智能代理和简化大型语言模型等方面都表现亮眼。很多姐妹用它来写代码、做智能问答,简直不要太方便!

智能编码新范式 (Cline + DeepSeek) × MCP

  • 提示词:使用 React 技术实现 Tic Tac Toe 游戏

  • 运行游戏

  • 创建新仓库

  • 快速设置仓库

  • 退出游戏

  • 查看已安装的 MCP 服务器

  • 创建新问题(issue)

  • 查看 wang-junjian/tictactoe 项目中分配给我 issue,使用 GitHub MCP 服务器的工具 list_issues

  • 当前仓库 wang-junjian/tictactoe 中有1个开放的 issue

  • 分步实现 issue #1 玩家获胜时添加烟花效果

  • 实现 issue #1 玩家获胜时添加烟花效果

  • 运行游戏 - 获胜后的烟花效果

  • 创建新问题 - Refactoring

  • 创建分支 git switch -c Refactoring,对项目中的代码进行重构

  • 完成代码重构

  • 推送到远程仓库,git push -u origin Refactoring

  • Compare & pull request

  • 创建拉取请求(pull request),关联问题(issue #2)

  • wang-junjian/tictactoe 项目中分配给我的 PR,使用 GitHub MCP 服务器的工具 get_pull_request

  • 使用 GitHub MCP 服务器的工具 get_pull_request_files 获取 PR 的变更文件列表

  • 完成 PR #3 的代码评审

  • 使用 GitHub MCP 服务器的工具 add_issue_comment,提交代码评审

Continue Agent 使用 GitHub MCP Server

Continue 智能体

  • 必须使用 Agent 模式才支持 MCP Server
  • Agent 模式不支持 DeepSeek 系列的模型(包括官方API开源)。
  • 大模型使用本地 Ollama 的模型:qwen2.5-coder:32bqwq:latest

申请 GitHub 个人访问令牌(Personal Access Token)

  • 访问 GitHubSettings 页面,点击 Developer settings
  • 点击 Personal access tokens,然后点击 Tokens (classic)
  • 点击 Generate new token 按钮。

Continue 配置

config.yaml 文件配置如下:

name: Local Assistant
version: 1.0.0
schema: v1
models:
  - name: Autodetect
    provider: ollama
    model: AUTODETECT
  - name: DeepSeek Chat
    provider: deepseek
    model: deepseek-chat
    apiKey: sk-xxx
  - name: DeepSeek Coder
    provider: deepseek
    model: deepseek-coder
    apiKey: sk-xxx
// ...

大模型实战评测:语言 vs 推理 vs 代码

总结

模型类型 模型 评估结果
语言模型 Qwen2.5-0.5B
Qwen2.5-1.5B
Qwen2.5-7B
Qwen2.5-14B-Instruct
Qwen2.5-32B-Instruct
推理模型 DeepSeek-R1-Distill-Qwen2.5-1.5B
DeepSeek-R1-Distill-Qwen2.5-7B
DeepSeek-R1-Distill-Qwen2.5-14B
DeepSeek-R1-Distill-Qwen2.5-32B
Qwen/QwQ-32B
Qwen/QwQ-32B-Preview
Qwen/QwQ-32B-AWQ
代码模型 Qwen2.5-Coder-0.5B
Qwen2.5-Coder-1.5B
Qwen2.5-Coder-3B

对于这样的阅读理解任务,推理模型的表现要反而不如语言模型和代码模型,通过分析发现在思考的过程可能会出错而导致答案错误。对于大参数模型,进行了量化会导致模型性能下降,如:Qwen/QwQ-32B-AWQ。

提示词 收入 截至12月31日止年度 2024年 人民幣千元 2023年 人民幣千元 商品收入: 醫藥和健康產品銷售 48,795,702 45,652,922 服務收入: 平台、廣告及其他服務 9,364,179 7,877,019 58,159,88

DeepSeek Janus Pro 7B

SiliconFlow 图像生成

从实验来看,需要用英文描述,中文描述生成的效果不好。

实验 1

This year is the Year of the Snake. I want to create a lifelike snake, wearing a fiery red new outfit, holding its head high, floating in the air, and writing "Happy New Year 2025" in snake-like font.

今年是蛇年,我想生成一只栩栩如生的蛇,穿着火红色的新衣,高昂着头,悬浮于空,用蛇体字型写上“2025年新年快乐”。

下面的图是快手可灵生成的。

实验 2

I wanted to create a lifelike snake, with its head held high, suspended in the air.

我想生成一只栩栩如生的蛇,高昂着头,悬浮于空。

实验 3

Modern abstract digital artwork with a split layout, black on the left and beige on the right.

Continue Code LLM Autopilot

Continue

注册 deepseek 的开发平台

OpenAI API

DeepSeek API 使用与 OpenAI 兼容的 API 格式,通过修改配置,您可以使用 OpenAI SDK 来访问 DeepSeek API,或使用与 OpenAI API 兼容的软件。

参数 值 base_url    https://api.deepseek.com/v1 api_key 申请 api_key

参数
base_url https://api.deepseek.com/v1
api_key YOUR_API_KEY

模型

模型 描述 上下文长度
deepseek-coder 擅长处理编程任务 16K
deepseek-chat 擅长通用对话任务 16K

安装 IntelliJ IDEA 插件 Continue

配置 deepseek-coder { "models": [ { "title": "deepseek api", "provider": "openai", "model": &quot

使用 llama.cpp 构建兼容 OpenAI API 服务

[llama.cpp][llama.cpp]

模型量化 量化类型 ./quantize --help Allowed quantization types: 2 or Q4_0 : 3.56G, +0.2166 ppl @ LLaMA-v1-7B 3 or Q4_1 : 3.90G, +0.1585 ppl @ LLaMA-v1-7B 8 or Q5_0 : 4.33G, +0.0683 ppl @ LLaMA-v1-7B 9 or Q5_1 : 4.70G, +0.0349 ppl @ LLaMA-v1-7B 19 or IQ2_XXS : 2.06 bpw quantization 20 or IQ2_XS : 2.31 bpw quantization 10 or Q2_K : 2.63G, +0.6717 ppl @ LLaMA-v1-7B 21 or Q2_K_S : 2.16G, +9.0634 ppl @ LLaMA-v1-7B 12 or Q3_K : alias for Q3_K_M 11 or Q3_K_S : 2.75G, +0.5551 ppl @ LLaMA-v1-7B 12 or Q3_K_M : 3.07G, +0.2496 ppl @ LLaMA-v1-7B 13 or Q3_K_L : 3.35G, +0.

在 MacBook Pro M2 Max 上安装 FastChat

FastChat

FastChat 是一个开放平台,用于训练、服务和评估基于大型语言模型的聊天机器人。

FastChat Server 架构图

安装 FastChat

克隆代码

git clone https://github.com/lm-sys/FastChat
cd FastChat

创建虚拟环境

python -m venv env
source env/bin/activate

安装

pip install --upgrade pip
pip install -e ".[model_worker,webui]"

升级 FastChat

git pull
pip install -e ".[model_worker,webui]"

创建大模型链接 LLM Qwen mkdir Qwen ln -s /Users/junjian/HuggingFace/Qwen/Qwen-14B-Chat Qwen/Qwen-14B-Chat ln -s /Users/junjian/HuggingFace/Qwen/Qwen-1_8B Qwen/Qwen-1_8B ln -s /Users/junjian/HuggingFace/Qwen/Qwen-1_8B-Chat Qwen/Qwen-1_8B-Chat ln