8 篇文章带有标签 “reasoning”

2025年6月7日星期六

【生成式AI时代下的机器学习(2025)】第九讲：谈谈有关大型语言模型评估的几件事

本文档讨论了大型语言模型的评估，重点关注其推理能力和记忆效应。文档展示了不同的基准测试结果，例如DeepSeek和OpenAI模型在推理任务上的表现，以及模型回答可能来自“记忆”而非推理的准确性下降情况。此外，还介绍了人工通用智能（ARC-AGI）的抽象推理语料库作为一种评估框架，并探讨了聊天机器人竞技场（Chatbot Arena）及其Elo评分系统，用于衡量和比较不同模型在实际用户互动中的表现，包括情感和风格控制。

【生成式AI時代下的機器學習(2025)】第九講：你這麽認這個評分系統幹什麽啊？談談有關大型語言模型評估的幾件事

2025-06-07 06:00

模型评估 2025生成式AI时代下的机器学习生成式AI 机器学习李宏毅 llm reasoning memorization arc-agi chatbot-arena

2025年5月6日星期二

提升 LLM 推理能力：CoT, ReAct, ToT

总结

2025-05-06 10:00

llm chain-of-thought react tree-of-thoughts reasoning prompt-engineering tool-use 思维链思维树推理

2025年4月21日星期一

Sky-T1-32B-Flash：在不牺牲准确性的情况下将推理成本削减50%

思考更少，成就更多：在不牺牲准确性的情况下将推理成本削减50%

我们推出 Sky-T1-32B-Flash，这是一个可以将生成长度减少高达 50% 但保持准确性的推理模型。

我们很高兴推出 Sky-T1-32B-Flash，这是我们更新的推理语言模型，它显著减少了过度思考，在具有挑战性的问题上将推理成本降低了高达57%。

根据 Lambda Cloud 的定价，使用 8xH100 只需 $275 即可完成整个训练方案，同时在数学、编程、科学和通用知识等领域保持了准确性。

为了促进透明度和协作，我们已开源了完整的流程—从数据生成和预处理到偏好优化和评估脚本，并公开提供模型权重和数据。

Github: 数据生成、响应重写、偏好优化和评估的代码
Dataset: 10K 偏好对数据集
HuggingFace: Sky-T1-32B-Flash 模型权重

图 1: 我们的新模型显著减少了生成的token长度，同时在具有挑战性的基准测试中保持强劲的性能。

什么是过度思考？过度思考指的是推理模型倾向于产生不必要的长响应，通常包含冗余或过度的推理步骤。

2025-04-21 08:00

sky-t1 sky-t1-32b-flash post-training reasoning overthinking efficient-reasoning preference-optimization response-rewriting skythought 推理模型

Sky-T1-32B-Preview: 在450美元内训练你自己的O1预览模型

Sky-T1: 在450美元内训练你自己的O1预览模型

我们推出了Sky-T1-32B-Preview，这是一个在流行的推理和编码基准测试上表现与o1-preview相当的推理模型。值得注意的是，Sky-T1-32B-Preview的训练成本不到450美元，这证明了以经济高效的方式复制高级推理能力是可能的。所有代码都是开源的。

概述

像o1和Gemini 2.0这样擅长推理的模型已经证明可以通过产生长链的思维过程等进步来解决复杂任务。然而，技术细节和模型权重无法获取，这对学术界和开源社区的参与造成了障碍。

为此，一些值得注意的努力已经出现，旨在训练开放权重的数学领域推理模型，如Still-2和Journey。同时，我们UC Berkeley的NovaSky团队一直在探索各种技术来发展基础模型和指令微调模型的推理能力。在这项工作中，我们在同一个模型中不仅在数学方面，而且在编码方面都取得了具有竞争力的推理表现。

完全开源：共同推动进步

为确保我们的工作能够惠及更广泛的社区，我们完全致力于开源协作。我们开源所有细节（即数据、代码、模型权重），使社区能够轻松地复制和改进我们的成果：

基础设施：在单个代码库中构建数据、训练和评估模型。
数据：用于训练Sky-T1-32B-Preview的17K数据。
技术细节：我们的技术报告和wandb日志。
模型权重：我们的32B模型权重。

2025-04-21 07:00

sky-t1 sky-t1-32b-preview post-training reasoning qwen2.5 llama-factory deepspeed distillation open-source 推理模型

2025年4月5日星期六

DeepSeek-V3 & DeepSeek-R1

用户的问题

2025-04-05 10:00

deepseek-v3 deepseek-r1 deepseek ai-agent llm tool-integration reasoning multi-step-workflow hallucination agent-workflow

2025年2月14日星期五

部署 DeepSeek-R1 蒸馏模型

GPU 服务器

T4 GPU 服务器，4卡16G。

安装 vLLM

conda create -n deepseek-r1 python=3.12 -y
conda activate deepseek-r1

pip install vllm

Installation GPU

错误处理

ImportError: undefined symbol: __nvJitLinkComplete_12_4, version libnvJitLink.so.12

2025-02-14 10:00

deepseek-r1 vllm qwen jan ollama model-deployment llm reasoning gpu

2025年2月6日星期四

Introducing deep research

Deep research

An agent that uses reasoning to synthesize large amounts of online information and complete multi-step research tasks for you.

一个代理，使用推理来综合大量在线信息，并为您完成多步研究任务。

Today we’re launching deep research in ChatGPT, a new agentic capability that conducts multi-step research on the internet for complex tasks. It accomplishes in tens of minutes what would take a human many hours.

今天我们在 ChatGPT 中推出了 deep research，这是一种新的代理能力，可以在互联网上进行复杂任务的多步研究。它可以在几十分钟内完成人类需要花费数小时才能完成的任务。

2025-02-06 10:00

deep-research openai agent reasoning web-browsing o3 chatgpt benchmark

2025年1月21日星期二

DeepSeek R1: 通过强化学习激励 LLM 的推理能力

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Abstract（摘要）

We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without super- vised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoning capabilities. Through RL, DeepSeek-R1-Zero naturally emerges with numerous powerful and intriguing reasoning behaviors. However, it encounters challenges such as poor readability, and language mixing.

2025-01-21 10:00

deepseek-r1 deepseek-r1-zero llm reinforcement-learning reasoning chain-of-thought distillation grpo cold-start

8 篇文章带有标签 “reasoning”

2025年6月7日 星期六

2025年5月6日 星期二

2025年4月21日 星期一

2025年4月5日 星期六

2025年2月14日 星期五

2025年2月6日 星期四

2025年1月21日 星期二