8 篇文章带有标签 “reinforcement-learning”

2026年4月12日星期日

具身智能（Embodied AI）技术综述：从基础理论到工程实践

具身智能（Embodied AI）作为人工智能通往通用人工智能（AGI）的关键路径，近年来取得了突破性进展。本文基于 Every-Embodied 开源项目的丰富实践经验，系统性地综述具身智能领域的技术栈、算法演进、工程实践和前沿复现。全文涵盖：（1）具身智能的基础理论与发展历程；（2）机器人学基础（运动学、动力学、坐标变换）；（3）计算机视觉在具身场景中的应用；（4）强化学习与模仿学习；（5）视觉-语言-动作（VLA）大模型全景；（6）视觉语言导航（VLN）技术；（7）世界模型最新进展；（8）无人机控制与规划专题；（9）仿真环境与真机部署；（10）数据集与评估基准。本文强调"理论-实践-复现"三位一体的学习路径，为工程师和从业者提供从入门到前沿复现的完整技术指南。

关键词：具身智能、机器人学习、视觉-语言-动作模型、VLA、视觉语言导航、VLN、世界模型、强化学习、模仿学习、MuJoCo仿真

引言
具身智能基础理论
机器人学基础
具身场景的计算机视觉
强化学习与模仿学习
视觉-语言-动作（VLA）大模型
视觉语言导航（VLN）
具身世界模型
无人机控制与规划专题
仿真环境与真机部署
数据集与评估基准
工程实践指南
总结与展望

1. 引言

1.1 什么是具身智能？

人工智能的发展历程中，我们见证了从"非具身"（Disembodied）到"

2026-04-12 12:00

2026年2月7日星期六

Kimi K2.5：首个开源多模态智能体集群

感觉 Kimi K2.5 在国内被低估了，让子弹飞一会儿 🚀🚀🚀

基准测试（Benchmarks）

Agent Swarm 基准测试

为了严格评估智能体集群（Agent Swarm）框架的有效性，选择了三个具有代表性的基准测试，它们共同涵盖了深度推理、大规模检索以及真实世界的复杂性：

BrowseComp：一项具有挑战性的深度研究基准，需要多步推理和复杂的信息综合。
WideSearch：旨在评估在不同来源中进行广泛、多步信息寻求和推理能力的基准。
In-house Swarm Bench：一项内部开发的集群基准，旨在评估智能体集群在真实世界、高复杂度条件下的性能。它涵盖了四个领域：
- WildSearch（开放网络上不受约束的真实世界信息检索）；
- Batch Download（大规模获取多样化资源）；
- WideRead（涉及 100 多个输入文档的大规模文档理解）；
- Long-Form Writing（连贯生成超过 10 万字的海量内容）。该基准整合了极端规模的场景，旨在压力测试基于智能体系统的编排（Orchestration）、可扩展性（Scalability）和协作能力。

主要基准测试

Kimi K2.5 评估涵盖了多个领域的基准测试，下面是按能力维度分类的各基准测试说明：

推理与通用能力 (Reasoning & General) Humanity’s Last Exam

2026-02-07 01:00

kimi-k2.5 agent-swarm llm multimodal reinforcement-learning computer-use moonshot-ai openrouter agent benchmarks

2026年1月24日星期六

LongCat-Flash-Thinking-2601 技术报告

LongCat-Flash-Thinking-2601 创新性地开启了全栈式的智能体推理（Agentic Reasoning）训练体系与架构优化。首先，提出了自动化的环境扩展流水线，构建了覆盖 20 多个领域的高质量、可执行且可验证的智能体环境，有效解决了真实世界中复杂智能体交互数据匮乏的难题。其次，针对现实任务的不确定性，创新性地引入了鲁棒性智能体训练流程，通过系统性分析现实噪声模式并采用课程强化学习（Curriculum RL）将噪声整合进训练，显著增强了模型在非理想环境下的泛化与生存能力。在底层支撑上，扩展了异步强化学习框架 DORA 以支持高达 32,000 个环境的大规模并发训练，并引入了 Heavy Thinking（深思考）模式，通过在推理阶段同时扩展思考的深度与广度（Test-time Scaling），进一步突破了复杂任务的性能边界。此外，还设计了 Zigzag Attention 稀疏注意力机制，使模型能以极低开销实现高达 100 万 token 的长上下文扩展，为长程智能体任务提供了坚实的架构基础。

重思考模式架构

“重思考模式”（Heavy Thinking Mode）是 LongCat-Flash-Thinking-2601 模型为了突破现有推理能力极限而引入的一种推理时扩展（Test-Time Scaling）架构。

2026-01-24 10:00

longcat-flash-thinking-2601 meituan llm agentic-reasoning heavy-thinking zigzag-attention reinforcement-learning sparse-attention long-context moe

2025年5月29日星期四

LeRobot：通过端到端学习让机器人人工智能更易实现

LeRobot

尖端机器学习，赋能真实世界机器人

🤗 LeRobot 致力于在 PyTorch 中为真实世界的机器人提供模型、数据集和工具。其目标是降低机器人技术的入门门槛，让每个人都能通过共享数据集和预训练模型来做出贡献并从中受益。

🤗 LeRobot 包含已被证明可应用于真实世界的尖端方法，重点关注模仿学习和强化学习：github.com/huggingface/lerobot

🤗 LeRobot 已提供一系列预训练模型、包含人类收集演示的数据集以及模拟环境，让每个人都能轻松上手。在未来几周，该项目计划为市面上最经济实惠且功能强大的机器人添加越来越多的真实世界机器人支持。

🤗 LeRobot 在 HuggingFace 社区页面上托管预训练模型和数据集：huggingface.co/lerobot

2025-05-29 10:00

lerobot huggingface pytorch robotics imitation-learning reinforcement-learning so-101 机器人

2025年4月21日星期一

Sky-T1-7B：通过强化学习提升推理模型的潜力

Unlocking the Potential of Reinforcement Learning in Improving Reasoning Models

摘要

我们很高兴发布 Sky-T1-7B，这是一个在数学推理任务上达到 SOTA 水平的开源 7B 模型，它通过对 Qwen2.5-Math-7B 基础模型进行 SFT->RL->SFT->RL 四步训练而成。我们同时还发布了 Sky-T1-mini，这个模型是在 DeepSeek-R1-Distill-Qwen-7B 模型基础上使用简单的强化学习(RL)训练得到的，在流行的数学基准测试上接近 OpenAI o1-mini 的性能水平。我们进行了一系列消融实验，研究了 SFT 数据规模、RL 规模以及模型在 SFT 和 RL 后的 pass@k 性能。我们观察到，长链条 CoT SFT 通常可以提升模型的 pass@k 性能，而 RL 则提高了模型在较低生成预算下(即 pass@1)的性能，但有时会以牺牲解决方案的熵为代价。

图 1: 不同模型在四个流行数学推理任务(AIME24, AMC23, MATH500 和 OlympiadBench)上的平均准确率。

2025-04-21 10:00

sky-t1 sky-t1-7b sky-t1-mini reinforcement-learning sft rloo prime qwen2.5-math math-reasoning 数学推理

2025年3月8日星期六

推理 LLM 技术内幕 - DeepSeek-R1/o1

2025-03-08 10:00

deepseek-r1 openai-o1 reasoning-model chain-of-thought test-time-compute reinforcement-learning llm 推理模型

2025年1月21日星期二

DeepSeek R1: 通过强化学习激励 LLM 的推理能力

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Abstract（摘要）

We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without super- vised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoning capabilities. Through RL, DeepSeek-R1-Zero naturally emerges with numerous powerful and intriguing reasoning behaviors. However, it encounters challenges such as poor readability, and language mixing.

2025-01-21 10:00

deepseek-r1 deepseek-r1-zero llm reinforcement-learning reasoning chain-of-thought distillation grpo cold-start

2024年3月10日星期日

生成式AI

机器学习的方法

监督学习（Supervised Learning）

监督学习使用带有标签的训练数据来训练模型。这些标签是预先定义的输出，模型通过学习输入数据与这些输出之间的关系来进行预测。监督学习的任务通常分为两类：分类（预测离散的标签）和回归（预测连续的数值）。常见的监督学习算法包括决策树、逻辑回归、支持向量机（SVM）、神经网络等。监督学习广泛应用于图像识别、语音识别、医疗诊断等领域。

无监督学习（Unsupervised Learning）

无监督学习不依赖于标签数据，而是试图在没有明确指导的情况下发现数据中的结构和模式。它的主要任务包括聚类（将数据分组到不同的簇中）和降维（减少数据的复杂性，同时保留其主要特征）。无监督学习常用于市场细分、社交网络分析、异常检测等场景。算法示例包括K-means聚类、主成分分析（PCA）等。

自监督学习（Self-Supervised Learning）

自监督学习是一种无监督学习的形式，它通过从数据本身生成伪标签来创建监督信号。这种方法通常涉及到设计任务，使得模型能够从数据中学习有用的特征表示，而不需要人工标注。自监督学习在计算机视觉和自然语言处理中尤其流行，例如，通过预测图像的旋转角度或文本的下一个字来训练模型。这种方法有助于减少对大量标注数据的依赖，同时为下游任务提供预训练的模型。

生成式AI（Generative AI）生成式AI的目标是

2024-03-10 08:00

generative-ai llm fine-tuning pre-training reinforcement-learning agent machine-learning 生成式人工智能大语言模型

8 篇文章带有标签 “reinforcement-learning”

2026年4月12日 星期日

2026年2月7日 星期六

2026年1月24日 星期六

2025年5月29日 星期四

2025年4月21日 星期一

2025年3月8日 星期六

2025年1月21日 星期二

2024年3月10日 星期日