12回答

0收藏

[测试][R1][V3][完结]双路768G配置-两种硬盘的Q4/Q8测速

回答|共 12 个

Ref

发表于 2025-5-15 09:47:19 | 显示全部楼层

本帖最后由 Ref 于 2025-5-20 20:46 编辑

V3-Q8
机械硬盘
Linux

内存占用:720G
启动时间:45-50分钟(重新启动10-15分钟)

平均速度:3.87~4.41

1~20题+2诗词:
llama_perf_sampler_print:    sampling time =      41.60 ms /   499 runs   (    0.08 ms per token, 11996.35 tokens per second)
llama_perf_context_print:        load time = 2912421.51 ms
llama_perf_context_print: prompt eval time =   70248.22 ms /   655 tokens (  107.25 ms per token,     9.32 tokens per second)
llama_perf_context_print:        eval time = 3809371.74 ms / 14730 runs   (  258.61 ms per token,     3.87 tokens per second)
llama_perf_context_print:       total time = 7746053.77 ms / 15385 tokens

9道判断题:
llama_perf_sampler_print:    sampling time =       5.24 ms /   210 runs   (    0.02 ms per token, 40083.99 tokens per second)
llama_perf_context_print:        load time =   44506.14 ms
llama_perf_context_print: prompt eval time =   50721.24 ms /   722 tokens (   70.25 ms per token,    14.23 tokens per second)
llama_perf_context_print:        eval time =  396500.99 ms /  1750 runs   (  226.57 ms per token,     4.41 tokens per second)
llama_perf_context_print:       total time = 6731673.16 ms /  2472 tokens

中英:
llama_perf_sampler_print:    sampling time =      24.12 ms /   400 runs   (    0.06 ms per token, 16586.50 tokens per second)
llama_perf_context_print:        load time =   43646.36 ms
llama_perf_context_print: prompt eval time =   78849.39 ms /   918 tokens (   85.89 ms per token,    11.64 tokens per second)
llama_perf_context_print:        eval time =  253366.30 ms /  1116 runs   (  227.03 ms per token,     4.40 tokens per second)
llama_perf_context_print:       total time =  563508.12 ms /  2034 tokens


小语种:
llama_perf_sampler_print:    sampling time =      46.20 ms /   640 runs   (    0.07 ms per token, 13852.21 tokens per second)
llama_perf_context_print:        load time =   43470.93 ms
llama_perf_context_print: prompt eval time =   83682.20 ms /  1446 tokens (   57.87 ms per token,    17.28 tokens per second)
llama_perf_context_print:        eval time =  998139.48 ms /  3993 runs   (  249.97 ms per token,     4.00 tokens per second)
llama_perf_context_print:       total time = 6398519.58 ms /  5439 tokens



总结,与M2硬盘的速度差距非常小,问题和优点都基本一致。Q8版本比Q4的联想和幻觉要更严重。另外这次问判断题机械硬盘的回答错了。同时这次测试出现了自问自答的情况。

本地-CPP-V3-Q8-机械硬盘-测试.zip

132.59 KB, 阅读权限: 10, 下载次数: 0

Ref

发表于 2025-5-18 17:49:56 | 显示全部楼层

本帖最后由 Ref 于 2025-5-19 15:53 编辑

V3-Q8

Q8:Ollama官网(注意是原版不是0324更新后的V3)
M2硬盘
Windows
Ollama
默认设置(与R1时设置一致,因多次报错所以减少测试内容)
内存占用:699G
启动时间:12-15分钟

平均速度:1.85

1-5题+选择题+诗词:
eval count:           总575 token(s)
eval duration:        总206s
eval rate:            平均2.8tokens/s

中英:
eval count:           总1601 token(s)
eval duration:        总947s
eval rate:            平均1.69tokens/s

法语:
total duration:       4m49.8410931s
load duration:        23.5847ms
prompt eval count:    225 token(s)
prompt eval duration: 17.4612615s
prompt eval rate:     12.89 tokens/s
eval count:           444 token(s)
eval duration:        4m32.355706s
eval rate:            1.63 tokens/s

阿拉伯语:
total duration:       1m58.1501852s
load duration:        24.8146ms
prompt eval count:    166 token(s)
prompt eval duration: 14.4389507s
prompt eval rate:     11.50 tokens/s
eval count:           202 token(s)
eval duration:        1m43.6853376s
eval rate:            1.95 tokens/s

总结:都按照要求执行,但是选择题选错了。

本地-OLLAMA-V3-Q8-测试.zip

72.75 KB, 阅读权限: 10, 下载次数: 0

Ref

发表于 2025-5-20 14:38:08 | 显示全部楼层

从30道题上看,所有AI都可以完成,但是都会出现随机的无关联想,其中R1更严重些,而V3虽然联想少但是写的也少。
在最重要的一道判断题上,由于两个选项都有问题,旧版V3都选错,新版V3和R1都选对。
翻译上,V3执行快但是质量一般,R1慢一些但是可以看到有思考过程。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分
主题