[Deepseek]关于CPU推理模式的速度测试与分析[R1/V3 Q4/Q8]
软件部署
169 人阅读
|
0 人回复
|
2025-04-29
|
本帖最后由 Ref 于 2025-4-29 13:45 编辑
这段时间下载了4个版本,简单测试了一下,得出速度如下:
配置:
双路768G电脑
系统:
Ubuntu 22.04 LTS
软件:
Llama.cpp
测试类目:逻辑、物理、数学、诗歌创作、小语种翻译(200中文字)
Q4:
R1 普通6 难题4.4-4.7
V3 普通6+ 难题4.7
Q8:
R1 综合 4.3
V3 综合 4.5,英语翻译6
从速度上和实际表现上,Q4的启动时间约为25分钟,Q8启动时间约为40分钟。
主要瓶颈有两个,硬盘写入内存的速度,内存本身运行的速度,这两个是硬条件,除了更换更高速的,通过优化来大幅提高不太。综合网上的优化提升,大致可以提升10~20%。也就是可以提升到5。
如果是用2000-3200的内存DDR4,内存频率下降约一半,速度大概就是2-3,这与其他网友的测试结果一致。
硬盘的速度反而影响不大,只是写入的速度慢一些,但是差几分钟区别并不大。
从回复语言和内容上,R1的Q8是明显比Q4要高一级的,无论是诗歌、物理、哲学、宇宙,多领域多行业的思考,Q8都要强一些。但是V3的不是特别明显,可能是因为我不会小语种。
V3的Q8版本翻译英语速度依然很快,但是由于两个Q8都要占用超过700G内存,所以普通单路512是没办法用的,这点要注意。
如果要作为生产工具或者高级助手,我的建议是Q8,Q4版本可以用但是略差一些。再往下1.5或者70B那些完全不建议,差距太大,与其这样还不如直接用元宝之类的。
|
|
|
|
|
|