[测试][R1][V3][完结]双路768G配置-两种硬盘的Q4/Q8测速

Ref · 发表于 2025-5-15 09:47:19

本帖最后由 Ref 于 2025-5-20 20:46 编辑

V3-Q8
机械硬盘
Linux
内存占用：720G
启动时间：45-50分钟（重新启动10-15分钟）
平均速度：3.87~4.41

1～20题+2诗词：
llama_perf_sampler_print: sampling time =    41.60 ms / 499 runs ( 0.08 ms per token, 11996.35 tokens per second)
llama_perf_context_print:       load time = 2912421.51 ms
llama_perf_context_print: prompt eval time = 70248.22 ms / 655 tokens (  107.25 ms per token,    9.32 tokens per second)
llama_perf_context_print:       eval time = 3809371.74 ms / 14730 runs (  258.61 ms per token,    3.87 tokens per second)
llama_perf_context_print:    total time = 7746053.77 ms / 15385 tokens

9道判断题：
llama_perf_sampler_print: sampling time =    5.24 ms / 210 runs ( 0.02 ms per token, 40083.99 tokens per second)
llama_perf_context_print:       load time = 44506.14 ms
llama_perf_context_print: prompt eval time = 50721.24 ms / 722 tokens ( 70.25 ms per token, 14.23 tokens per second)
llama_perf_context_print:       eval time =  396500.99 ms /  1750 runs (  226.57 ms per token,    4.41 tokens per second)
llama_perf_context_print:    total time = 6731673.16 ms /  2472 tokens

中英：
llama_perf_sampler_print: sampling time =    24.12 ms / 400 runs ( 0.06 ms per token, 16586.50 tokens per second)
llama_perf_context_print:       load time = 43646.36 ms
llama_perf_context_print: prompt eval time = 78849.39 ms / 918 tokens ( 85.89 ms per token, 11.64 tokens per second)
llama_perf_context_print:       eval time =  253366.30 ms /  1116 runs (  227.03 ms per token,    4.40 tokens per second)
llama_perf_context_print:    total time =  563508.12 ms /  2034 tokens

小语种：
llama_perf_sampler_print: sampling time =    46.20 ms / 640 runs ( 0.07 ms per token, 13852.21 tokens per second)
llama_perf_context_print:       load time = 43470.93 ms
llama_perf_context_print: prompt eval time = 83682.20 ms /  1446 tokens ( 57.87 ms per token, 17.28 tokens per second)
llama_perf_context_print:       eval time =  998139.48 ms /  3993 runs (  249.97 ms per token,    4.00 tokens per second)
llama_perf_context_print:    total time = 6398519.58 ms /  5439 tokens

总结，与M2硬盘的速度差距非常小，问题和优点都基本一致。Q8版本比Q4的联想和幻觉要更严重。另外这次问判断题机械硬盘的回答错了。同时这次测试出现了自问自答的情况。

Ref · 发表于 2025-5-18 17:49:56

本帖最后由 Ref 于 2025-5-19 15:53 编辑

V3-Q8

Q8:Ollama官网（注意是原版不是0324更新后的V3）
M2硬盘
Windows
Ollama
默认设置（与R1时设置一致，因多次报错所以减少测试内容）
内存占用：699G
启动时间：12-15分钟
平均速度：1.85

1-5题+选择题+诗词：
eval count:          总575 token(s)
eval duration:       总206s
eval rate:          平均2.8tokens/s

中英：

eval count:          总1601 token(s)
eval duration:       总947s
eval rate:          平均1.69tokens/s

法语：

total duration: 4m49.8410931s

load duration: 23.5847ms

prompt eval count: 225 token(s)

prompt eval duration: 17.4612615s

prompt eval rate: 12.89 tokens/s

eval count: 444 token(s)

eval duration: 4m32.355706s

eval rate: 1.63 tokens/s

阿拉伯语：

total duration: 1m58.1501852s

load duration: 24.8146ms

prompt eval count: 166 token(s)

prompt eval duration: 14.4389507s

prompt eval rate: 11.50 tokens/s

eval count: 202 token(s)

eval duration: 1m43.6853376s

eval rate: 1.95 tokens/s

总结：都按照要求执行，但是选择题选错了。

Ref · 发表于 2025-5-20 14:38:08

从30道题上看，所有AI都可以完成，但是都会出现随机的无关联想，其中R1更严重些，而V3虽然联想少但是写的也少。
在最重要的一道判断题上，由于两个选项都有问题，旧版V3都选错，新版V3和R1都选对。
翻译上，V3执行快但是质量一般，R1慢一些但是可以看到有思考过程。

[测试][R1][V3][完结]双路768G配置-两种硬盘的Q4/Q8测速

Ref LV