6 篇文章带有标签 “long-context”

2026年4月28日星期二

DeepSeek-V4 全面解读：架构设计与 inference/encoding 源码深度解析

DeepSeek-V4

简介

我们在此发布 DeepSeek-V4 系列的预览版本，包括两个强大的混合专家（MoE）语言模型 —— 总参数量 1.6T（激活 49B）的 DeepSeek-V4-Pro，以及总参数量 284B（激活 13B）的 DeepSeek-V4-Flash，两者均支持长达 一百万 token 的上下文。

DeepSeek-V4 系列在架构与优化方面引入了多项关键升级：

混合注意力架构：我们设计了一种结合压缩稀疏注意力（CSA）与重度压缩注意力（HCA）的混合注意力机制，大幅提升长上下文处理效率。在 1M token 上下文设定下，DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%，KV 缓存仅占其 10%。
流形约束超连接（mHC）：我们引入 mHC 来增强传统的残差连接，在保留模型表达能力的同时，提升信号跨层传播的稳定性。
Muon 优化器：我们采用 Muon 优化器以实现更快的收敛速度和更高的训练稳定性。

两款模型均在大于 32T 的多样化高质量 token 上进行了预训练，并随后执行了全面的后训练流程。后训练采用两阶段范式：首先独立培养领域专属专家（通过 SFT 与基于 GRPO 的强化学习），随后通过 on-policy 蒸馏将不同领域的专长整合至单一模型中。

DeepSeek-V4-Pro-Max 作

2026-04-28 08:00

2026年1月24日星期六

LongCat-Flash-Thinking-2601 技术报告

LongCat-Flash-Thinking-2601 创新性地开启了全栈式的智能体推理（Agentic Reasoning）训练体系与架构优化。首先，提出了自动化的环境扩展流水线，构建了覆盖 20 多个领域的高质量、可执行且可验证的智能体环境，有效解决了真实世界中复杂智能体交互数据匮乏的难题。其次，针对现实任务的不确定性，创新性地引入了鲁棒性智能体训练流程，通过系统性分析现实噪声模式并采用课程强化学习（Curriculum RL）将噪声整合进训练，显著增强了模型在非理想环境下的泛化与生存能力。在底层支撑上，扩展了异步强化学习框架 DORA 以支持高达 32,000 个环境的大规模并发训练，并引入了 Heavy Thinking（深思考）模式，通过在推理阶段同时扩展思考的深度与广度（Test-time Scaling），进一步突破了复杂任务的性能边界。此外，还设计了 Zigzag Attention 稀疏注意力机制，使模型能以极低开销实现高达 100 万 token 的长上下文扩展，为长程智能体任务提供了坚实的架构基础。

重思考模式架构

“重思考模式”（Heavy Thinking Mode）是 LongCat-Flash-Thinking-2601 模型为了突破现有推理能力极限而引入的一种推理时扩展（Test-Time Scaling）架构。

2026-01-24 10:00

longcat-flash-thinking-2601 meituan llm agentic-reasoning heavy-thinking zigzag-attention reinforcement-learning sparse-attention long-context moe

2026年1月14日星期三

DeepSeek Engram：类脑记忆存储与检索新范式

Engram 是一种旨在增强大语言模型性能的条件记忆（Conditional Memory）模块。传统的 Transformer 架构在处理静态知识检索时效率较低，往往需要通过复杂的计算来模拟记忆，而 Engram 通过现代化的 N-gram 哈希查找实现了常数级时间复杂度 O(1) 的知识获取。研究者揭示了一种 U 型缩放法则，证明在固定参数预算下，平衡条件计算（MoE）与静态内存（Engram） 能显著提升模型在推理、代码及数学任务中的表现。实验分析表明，Engram 能减轻模型底层对基础模式的重复构建，从而释放更多算力用于处理全球上下文和深度推理。此外，Engram 的确定性寻址特性支持从主机内存预取数据，使其能在不增加硬件负担的情况下实现大规模参数扩张。最终，该技术为构建更高效、具备长文本处理能力的新一代稀疏模型提供了核心原语。

Engram 架构

记忆内存的参数就像是图书馆书架上的一本本百科全书，记录着世界上的事实；而 Engram 模块的参数就像是一位经验丰富的图书管理员。管理员通过训练（学习），能够根据你当前提出的研究课题（隐藏状态），迅速判断哪些百科全书的条目是有用的，哪些是由于名字相似而找错的（哈希冲突），并帮你把这些知识翻译成你研究报告能用的语言（投影整合）。

该模块通过检索静态 N-gram 记忆，并利用上下文感知门控（context-aware gating）将其

2026-01-14 08:00

deepseek engram llm memory sparse-model moe n-gram long-context conditional-memory knowledge-retrieval

2024年9月23日星期一

Qwen2 Technical Report

Abstract(摘要)

This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.

2024-09-23 08:00

qwen2 large-language-model moe transformer grouped-query-attention multilingual long-context benchmark open-source 大模型

2024年3月5日星期二

Kimi（月之暗面）简历的探索

这里使用了 Kimi 月之暗面对简历这个场景进行了探索，Kimi 支持 128k 的长上下文，超过20万个汉字。

通过简历评估一下这位算法工程师的能力。

上传简历

根据李秀宁的简历，我们可以对她的技能和经验进行以下评估：

1. 编程技能：

她掌握多种编程语言，包括MATLAB、C、C++、Python，这些都是算法开发中常用的语言。
熟练使用多个开发平台，如MATLAB、Visual Studio、Eclipse、Qt、CCS、Pycharm，这表明她具备跨平台开发的能力。
熟悉OpenCV、yolov 5等图像处理库，这些是计算机视觉领域的重要工具。

2. 专业知识：

她掌握了多种信号处理方法，如快速傅里叶变换、短时傅里叶变换、数字滤波器设计等，这些都是信号处理和图像处理领域的基础。
熟悉深度学习框架，如tensorflow、keras、Pytorch，这些是当前人工智能和机器学习领域的主流工具。

3. 工作经验：

// ...

我们需要一位NLP工程师，专注能大模型的应用，她能够胜任？根据李秀宁的简历，她在图像处理和信号处理方面有丰富的经验和专业知识，但在自然语言处理（NLP）和大模型应用方面的经验并不明显。简历中没有提到她有直接从事NLP项目或使用大模型（如BERT、GPT等）的经验。 NLP工程师通常需要具备以下技能和经验： 1.

2024-03-05 08:00

kimi moonshot long-context resume-evaluation recruitment llm-application 简历评估大模型应用

2023年12月6日星期三

基于 ChatGLM3 8k 和 32k 的文档问答对比

文档

这里使用的文档是：合作方人员出勤及结算管理信息化支撑规则

一、出勤打卡
出勤打卡包括：正常出勤打卡、出差打卡、外出打卡、加班打卡。

1. 正常出勤打卡：指正常的出勤办公打卡。
（1）全天出勤打卡：上班打卡：8点30分之前打卡。下班打卡：17点30分之后打卡。
（2）半天出勤打卡。上午打卡时间段：8点30分之前、12点之后。下午时间段：13点之前，17点30分之后。
（3）打卡(考勤机或企业微信打卡)形式按部门要求为准，最小半天为统计单位。

2. 出差打卡：指出差地出勤办公或在途期间打卡。
（1）固定出差地打卡：打卡时间参照第1条正常出勤上下班打卡；无法定位有效范围的找部门管理员修改工作打卡位置。(具体按照各部门要求执行)
（2）出差在途打卡(使用手机外出打卡)。到车站坐车前打外出打卡一次，到达目的地后打外出打卡一次(往返同理)。下午出差的，上午需打正常出勤卡(上午正常出勤须闭环打卡)；上午到达出差地的，下午需打一次外出打卡或上下班打卡。

3. 外出打卡：指外出办事打卡。提外出申请后，可以打外出卡，打外出卡时间需在申请时间内：
（1）半天外出：如外出时间在上午(12点前) 或者下午(12点后)，则另外半天需正常出勤打卡。
（2）跨12点外出：如外出跨度期间包含12点，则12点前、12点后分别打外出卡即可记为合格出勤。
// ...

提示词模板 """ {

2023-12-06 08:00

chatglm3 chatglm3-6b-32k bge-base-zh rag document-qa long-context embeddings quantization llm-performance llm

6 篇文章带有标签 “long-context”

2026年4月28日 星期二