在人工智能技术迅猛发展的当下,高性能AI推理模型的研发与应用备受关注。近期,杭州深度求索人工智能公司DeepSeek发布的DeepSeek-R1模型,凭借其卓越的性能和开源免费商用的优势,成为AI领域的一大亮点。本文将从技术优势、本地部署实践、模型资源及性能评估等方面,对DeepSeek-R1模型进行深入解析,为开发者提供全面的参考。
DeepSeek-R1模型在数学、代码和自然语言推理等任务上展现出优异性能,与OpenAI的o1正式版性能相当。该模型采用强化学习技术,仅需少量标注数据即可实现高效训练,显著降低了训练成本。同时,其长链推理技术能够逐步分解复杂问题,通过多步骤逻辑推理解决问题,支持模型蒸馏,可将推理能力迁移到更小型模型中。此外,DeepSeek-R1遵循MIT License开源协议,允许用户自由使用、修改和商用,进一步推动了AI技术的普及与创新。
开发者可访问Ollama官方网站下载并安装与系统对应的客户端。安装完成后,即可通过命令行接口进行模型的部署和管理。
ollama run deepseek-r1:1.5b
ollama run deepseek-r1:7b
ollama run deepseek-r1:8b
ollama run deepseek-r1:14b
ollama run deepseek-r1:32b
ollama run deepseek-r1:70b
模型 | 总参数量 | 激活参数量 | 上下文长度 | 下载链接 |
---|---|---|---|---|
DeepSeek-R1-Zero | 671B | 37B | 128千 | Hugging Face |
DeepSeek-R1 | 671B | 37B | 128千 | Hugging Face |
开发者可根据需求选择合适的模型进行下载和使用。 |
模型 | 基础模型 | 下载链接 |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | Hugging Face |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | Hugging Face |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | Hugging Face |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | Hugging Face |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | Hugging Face |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | Hugging Face |
开发者可根据需求选择合适的蒸馏模型进行下载和使用。 |
类别 | 基准(公制) | 克劳德-3.5-十四行诗-1022 | GPT-4o 0513 | DeepSeek V3 | OpenAI o1-mini | OpenAI o1-1217 | DeepSeek R1 |
---|---|---|---|---|---|---|---|
英语 | MMLU(通过@1) | 88.3 | 87.2 | 88.5 | 85.2 | 91.8 | 90.8 |
MMLU-Redux(EM) | 88.9 | 88.0 | 89.1 | 86.7 | – | 92.9 | |
MMLU-Pro(EM) | 78.0 | 72.6 | 75.9 | 80.3 | – | 84.0 | |
掉落 (3 发 F1) | 88.3 | 83.7 | 91.6 | 83.9 | 90.2 | 92.2 | |
IF-Eval(提示严格) | 86.5 | 84.3 | 86.1 | 84.8 | – | 83.3 | |
GPQA-钻石级 (Pass@1) | 65.0 | 49.9 | 59.1 | 60.0 | 75.7 | 71.5 | |
SimpleQA(正确) | 28.4 | 38.2 | 24.9 | 7.0 | 47.0 | 30.1 | |
框架(配件) | 72.5 | 80.5 | 73.3 | 76.9 | – | 82.5 | |
AlpacaEval2.0 (LC-胜率) | 52.0 | 51.1 | 70.0 | 57.8 | – | 87.6 | |
ArenaHard(GPT-4-1106) | 85.2 | 80.4 | 85.5 | 92.0 | – | 92.3 | |
代码 | LiveCodeBench (Pass@1-COT) | 33.8 | 34.2 | – | 53.8 | 63.4 | 65.9 |
Codeforces(百分位数) | 20.3 | 23.6 | 58.7 | 93.4 | 96.6 | 96.3 | |
Codeforces(评级) | 717 | 759 | 1134 | 1820 | 2061 | 2029 | |
SWE 已验证(已解决) | 50.8 | 38.8 | 42.0 | 41.6 | 48.9 | 49.2 | |
Aider-Polyglot (Acc.) | 45.3 | 16.0 | 49.6 | 32.9 | 61.7 | 53.3 | |
数学 | AIME 2024(通行证@1) | 16.0 | 9.3 | 39.2 | 63.6 | 79.2 | 79.8 |
数学-500 (通过@1) | 78.3 | 74.6 | 90.2 | 90.0 | 96.4 | 97.3 | |
CNMO 2024 (通行证@1) | 13.1 | 10.8 | 43.2 | 67.6 | – | 78.8 | |
中文 | CLUEWSC(EM) | 85.4 | 87.9 | 90.9 | 89.9 | – | 92.8 |
C-评估(EM) | 76.7 | 76.0 | 86.5 | 68.9 | – | 91.8 | |
C-SimpleQA(正确) | 55.4 | 58.7 | 68.0 | 40.3 | – | 63.7 | |
从评估结果来看,DeepSeek-R1在多个基准测试中表现出色,与OpenAI的o1模型不相上下,甚至在某些指标上实现了超越。 |
模型 | AIME 2024 通行证@1 | AIME 2024 缺点@64 | MATH-500 通过@1 | GPQA 钻石通行证@1 | LiveCodeBench 通行证@1 | CodeForces 评级 |
---|---|---|---|---|---|---|
GPT-4o-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759 |
克劳德-3.5-十四行诗-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717 |
o1-迷你 | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820 |
QwQ-32B-预览 | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954 |
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189 |
DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481 |
DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691 |
DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205 |
DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 57.5 | 1633 |
从评估结果来看,DeepSeek-R1-Distill模型在多个基准测试中也表现出色,具有较高的性能和应用价值。 |
服务热线: 010-62128818
Email: deepelement.ai@outlook.com
注册会员开通