4 篇文章带有标签 “deepseek-r1”

2025年4月5日星期六

DeepSeek-V3 & DeepSeek-R1

用户的问题

2025-04-05 10:00

deepseek-v3 deepseek-r1 deepseek ai-agent llm tool-integration reasoning multi-step-workflow hallucination agent-workflow

2025年3月8日星期六

推理 LLM 技术内幕 - DeepSeek-R1/o1

2025-03-08 10:00

deepseek-r1 openai-o1 reasoning-model chain-of-thought test-time-compute reinforcement-learning llm 推理模型

2025年2月14日星期五

部署 DeepSeek-R1 蒸馏模型

GPU 服务器

T4 GPU 服务器，4卡16G。

安装 vLLM

conda create -n deepseek-r1 python=3.12 -y
conda activate deepseek-r1

pip install vllm

Installation GPU

错误处理

ImportError: undefined symbol: __nvJitLinkComplete_12_4, version libnvJitLink.so.12

2025-02-14 10:00

deepseek-r1 vllm qwen jan ollama model-deployment llm reasoning gpu

2025年1月21日星期二

DeepSeek R1: 通过强化学习激励 LLM 的推理能力

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Abstract（摘要）

We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without super- vised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoning capabilities. Through RL, DeepSeek-R1-Zero naturally emerges with numerous powerful and intriguing reasoning behaviors. However, it encounters challenges such as poor readability, and language mixing.

2025-01-21 10:00

deepseek-r1 deepseek-r1-zero llm reinforcement-learning reasoning chain-of-thought distillation grpo cold-start