回答

收藏

DeepSeek-V3技术报告解读 [翻译中]

应用科普 应用科普 292 人阅读 | 0 人回复 | 2025-04-08

关于V3的论文,https://github.com/deepseek-ai/DeepSeek-V3
实际上大家基本都了解过,V3在之前V2.5的基础上,将Deepseek-R1的验证和反思机制整合进V3,进一步提高其通用模型的综合能力。
之前的论文翻译全文可以查看:https://zhuanlan.zhihu.com/p/14890557782

也可以在微信公众号上查看

为了提高训练效率,V3采用了 FP8 混合精度训练技术并对训练框架进行了全面优化。低精度训练作为一种高效的训练方案,其发展与硬件性能的提升密切相关。本研究首次在超大规模模型上成功验证了 FP8 混合精度训练框架的有效性。通过采用 FP8 计算和存储技术,显著提升了训练速度并降低了 GPU 内存占用。

在算法、框架和硬件层面优化后,V3的训练成本显著下降,只有5百万美金。

v2-61e1cc1e43427d2e77f2489a8067446b_1440w.png

DeepSeek-V3 的训练成本,假设 H800 的租赁价格为$2/GPU小时

通过预训练+结合R1的后训练,V3的在教育类基准测试中,DeepSeek-V3 的表现超越了所有开源模型,在 MMLU、MMLU-Pro 和 GPQA 测试中分别获得了 88.5、75.9 和 59.1 的优异成绩。这一性能水平已与领先闭源模型 GPT-4o 和 Claude-Sonnet-3.5 相当,显著缩小了开源与闭源模型的性能差距。

DeepSeek-V3 的基本架构具有两个核心特征:
  • 采用 MLA 实现高效推理
  • 使用 DeepSeekMoE 实现经济高效的训练。

个人认为,用V3和R1交叉比对推理是最优的,因为V3的性价比低,可以用便宜的电脑运行,再通用API接口网上询问671b-Q8以上版本的R1进行审查,会达到更好的效果。

V3的技术文章会更细致翻译检查一下,尽量把图片里的小标题也翻出来。附件为原文和早期的中文版,全译文会稍后上传。


DeepSeek_V3.pdf

1.59 MB, 阅读权限: 1, 下载次数: 0

DeepSeek-V3技术报告(旧中文版).pdf

1.54 MB, 阅读权限: 10, 下载次数: 0

分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

161 积分
11 主题