5 篇文章带有标签 “moe”

2026年4月28日星期二

DeepSeek-V4 全面解读：架构设计与 inference/encoding 源码深度解析

DeepSeek-V4

简介

我们在此发布 DeepSeek-V4 系列的预览版本，包括两个强大的混合专家（MoE）语言模型 —— 总参数量 1.6T（激活 49B）的 DeepSeek-V4-Pro，以及总参数量 284B（激活 13B）的 DeepSeek-V4-Flash，两者均支持长达 一百万 token 的上下文。

DeepSeek-V4 系列在架构与优化方面引入了多项关键升级：

混合注意力架构：我们设计了一种结合压缩稀疏注意力（CSA）与重度压缩注意力（HCA）的混合注意力机制，大幅提升长上下文处理效率。在 1M token 上下文设定下，DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%，KV 缓存仅占其 10%。
流形约束超连接（mHC）：我们引入 mHC 来增强传统的残差连接，在保留模型表达能力的同时，提升信号跨层传播的稳定性。
Muon 优化器：我们采用 Muon 优化器以实现更快的收敛速度和更高的训练稳定性。

两款模型均在大于 32T 的多样化高质量 token 上进行了预训练，并随后执行了全面的后训练流程。后训练采用两阶段范式：首先独立培养领域专属专家（通过 SFT 与基于 GRPO 的强化学习），随后通过 on-policy 蒸馏将不同领域的专长整合至单一模型中。

DeepSeek-V4-Pro-Max 作

2026-04-28 08:00

2026年1月24日星期六

LongCat-Flash-Thinking-2601 技术报告

LongCat-Flash-Thinking-2601 创新性地开启了全栈式的智能体推理（Agentic Reasoning）训练体系与架构优化。首先，提出了自动化的环境扩展流水线，构建了覆盖 20 多个领域的高质量、可执行且可验证的智能体环境，有效解决了真实世界中复杂智能体交互数据匮乏的难题。其次，针对现实任务的不确定性，创新性地引入了鲁棒性智能体训练流程，通过系统性分析现实噪声模式并采用课程强化学习（Curriculum RL）将噪声整合进训练，显著增强了模型在非理想环境下的泛化与生存能力。在底层支撑上，扩展了异步强化学习框架 DORA 以支持高达 32,000 个环境的大规模并发训练，并引入了 Heavy Thinking（深思考）模式，通过在推理阶段同时扩展思考的深度与广度（Test-time Scaling），进一步突破了复杂任务的性能边界。此外，还设计了 Zigzag Attention 稀疏注意力机制，使模型能以极低开销实现高达 100 万 token 的长上下文扩展，为长程智能体任务提供了坚实的架构基础。

重思考模式架构

“重思考模式”（Heavy Thinking Mode）是 LongCat-Flash-Thinking-2601 模型为了突破现有推理能力极限而引入的一种推理时扩展（Test-Time Scaling）架构。

2026-01-24 10:00

longcat-flash-thinking-2601 meituan llm agentic-reasoning heavy-thinking zigzag-attention reinforcement-learning sparse-attention long-context moe

2026年1月14日星期三

DeepSeek Engram：类脑记忆存储与检索新范式

Engram 是一种旨在增强大语言模型性能的条件记忆（Conditional Memory）模块。传统的 Transformer 架构在处理静态知识检索时效率较低，往往需要通过复杂的计算来模拟记忆，而 Engram 通过现代化的 N-gram 哈希查找实现了常数级时间复杂度 O(1) 的知识获取。研究者揭示了一种 U 型缩放法则，证明在固定参数预算下，平衡条件计算（MoE）与静态内存（Engram） 能显著提升模型在推理、代码及数学任务中的表现。实验分析表明，Engram 能减轻模型底层对基础模式的重复构建，从而释放更多算力用于处理全球上下文和深度推理。此外，Engram 的确定性寻址特性支持从主机内存预取数据，使其能在不增加硬件负担的情况下实现大规模参数扩张。最终，该技术为构建更高效、具备长文本处理能力的新一代稀疏模型提供了核心原语。

Engram 架构

记忆内存的参数就像是图书馆书架上的一本本百科全书，记录着世界上的事实；而 Engram 模块的参数就像是一位经验丰富的图书管理员。管理员通过训练（学习），能够根据你当前提出的研究课题（隐藏状态），迅速判断哪些百科全书的条目是有用的，哪些是由于名字相似而找错的（哈希冲突），并帮你把这些知识翻译成你研究报告能用的语言（投影整合）。

该模块通过检索静态 N-gram 记忆，并利用上下文感知门控（context-aware gating）将其

2026-01-14 08:00

deepseek engram llm memory sparse-model moe n-gram long-context conditional-memory knowledge-retrieval

2025年1月23日星期四

DeepSeek-V3 Technical Report

DeepSeek-V3 Technical Report

Abstract（摘要）

We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architec- tures, which were thoroughly validated in DeepSeek-V2. Furthermore, DeepSeek-V3 pioneers an auxiliary-loss-free strategy for load balancing and sets a multi-token prediction training objective for stronger performance. We pre-train DeepSeek-V3 on 14.

2025-01-23 10:00

deepseek-v3 moe llm mla deepseekmoe fp8-training multi-token-prediction training-efficiency inference

2024年9月23日星期一

Qwen2 Technical Report

Abstract(摘要)

This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.

2024-09-23 08:00

qwen2 large-language-model moe transformer grouped-query-attention multilingual long-context benchmark open-source 大模型

5 篇文章带有标签 “moe”

2026年4月28日 星期二