[测试][R1][V3][完结]双路768G配置-两种硬盘的Q4/Q8测速

Ref

本帖最后由 Ref 于 2025-5-20 19:18 编辑

现在测一下双路CPU下768G对于Q4和Q8两种硬盘的不同速度，验证下硬盘对于这种CPU推理的配置是否会有很大的影响。

之前比较笼统的测试，在Q4大概是5-6，在Q8大概是4-4.7，为了更加精准，我们需要列清楚条件和记录结果。

测试工具：Llama.cpp (Linux) 和Ollama(Windows)
测试模型：Deepseek R1-Q4/R8, V3-Q4/Q8 V3(0324版)-Q4/Q8

测试硬盘：
两种硬盘分别是机械盘和M.2固态硬盘。

品牌分别是

西部数据
16T HC550
相关介绍：
https://post.smzdm.com/p/a90zd7g0/

https://post.smzdm.com/p/az6p6nxo/

和梵想
S770M
为了综合测试性能，我让官网的Deepseek自己出20道题，然后加上之前考GPT的9道选择题，和一道单独的诗+词创作，总共30题。
https://zhuanlan.zhihu.com/p/628884068

模型下载地址：
llama.cpp：
R1：https://www.modelscope.cn/models/unsloth/DeepSeek-R1-GGUF/files
V3：https://www.modelscope.cn/models ... -V3-0324-GGUF/files

Ollama：
R1：https://ollama.com/library/deepseek-r1/tags
V3：https://ollama.com/library/deepseek-v3/tags

最后看测试速度如何。
为了方便分辨，蓝色字为提问，橙色字为思考，黑色字为回答：

我现在要准备测试Deepseek的表现，请为我准备二十个问题。问题需要包含以下领域：数学、物理、逻辑、社交、创业、情感、诗词、历史。问题字数长度在二十到二百之间。问题要用中文提问，并且需要能够考察对方的知识库、逻辑思考以及表达能力。

好的，用户让我准备二十个问题，涵盖数学、物理、逻辑、社交、创业、情感、诗词、历史这些领域，每个问题要能考察知识库、逻辑思考和表达能力。首先，我需要确定每个领域的问题数量分配，尽量均衡。不过八个领域，二十个问题，所以大概每个领域2-3个问题。

接下来，数学方面，可能需要一些需要计算或理论的问题，比如概率或者几何。物理的话，经典问题如相对论、量子力学的基础，或者日常现象的解释。逻辑题可以设计一些悖论或者推理题。社交方面可能涉及沟通技巧或情景分析。创业问题需要考察商业思维和问题解决能力。情感类的问题可能涉及人际关系处理或情绪识别。诗词需要记忆和理解，比如名句出处或赏析。历史则要具体事件或人物的影响分析。

要注意问题不能太简单，要能测试深度思考。比如数学题不只是计算，还要解释背后的原理。物理题可能需要联系实际应用。逻辑题要避免常见题目，但也不能太冷门。社交情景题要真实，让回答者展示应对策略。创业问题要结合实际挑战，比如市场定位或团队管理。情感问题可能需要处理矛盾或提供建议。诗词和历史题要准确，同时要求分析能力。

还要考虑问题的多样性，避免重复。比如数学和逻辑可能有交叉，但需区分侧重点。每个问题字数控制在20到200字之间，确保清晰明了。同时，问题要用中文，符合用户要求。需要检查每个问题是否确实能考察知识、逻辑和表达，比如是否开放性问题，是否有多种解答可能。

可能需要先列出每个领域的可能问题，再筛选和调整数量。例如，数学：解释贝叶斯定理，证明根号2无理数。物理：相对论时间膨胀，量子叠加态。逻辑：理发师悖论，三段论例子。社交：同事意见冲突，拒绝请求。创业：新产品市场验证，股权分配。情感：朋友失业安慰，平衡工作家庭。诗词：李白杜甫风格对比，名句赏析。历史：明朝灭亡主因，丝绸之路影响。

然后检查是否覆盖所有领域，问题是否具有挑战性，是否鼓励深入回答。可能需要调整问题顺序，确保各领域分布均匀。最后，确保问题表述准确，没有歧义，并且符合字数限制。

数学

1.请解释贝叶斯定理的核心思想，并举例说明它在现实决策中的应用场景（如医疗诊断）。

2.如何用反证法证明√2是无理数？请完整推演并说明该方法在数学证明中的普遍价值。

物理
3. 假设你乘坐接近光速的飞船离开地球，如何向初中生解释“你的时间流逝会比地球慢”这个现象？
4. 量子力学中的“观测者效应”是否意味着意识影响物理系统？请从哥本哈根诠释角度分析。

逻辑
5. 罗素理发师悖论宣称“只给不自己刮脸的人刮脸”，这个悖论如何动摇集合论基础？请用编程中的循环逻辑类比说明。
6. 请构造一个包含大前提/小前提/结论的三段论案例，并指出其是否违反充足理由律。

社交
7. 团队讨论时两位同事激烈争执且都引用你的观点佐证，此时如何回应既保持中立又推动进程？
8. 需要拒绝上级的不合理请求时，怎样运用“三明治沟通法”结构化表达？请举例说明。

创业
9. 新产品验证阶段，如何设计最小可行性实验（MVP）来区分真实需求与用户礼貌性好评？
10. 初创公司三个创始人股权应如何分配？请用数学模型量化技术、资金、资源投入的不同权重。

情感
11. 朋友因失业陷入自我否定，如何用“认知行为疗法”框架帮助他重建信心？分步骤说明。
12. 长期异地恋中，除了日常沟通外有哪些心理学方法可维持情感联结？请列举3个具体策略。

诗词
13. 对比李白《将进酒》与杜甫《登高》，分析两者在意象选择与情感表达上的核心差异。
14. “昨夜西风凋碧树，独上高楼，望尽天涯路”这三重境界说，如何体现王国维的人生哲学？

历史
15. 从财政税收角度分析明朝灭亡的必然性，对比张居正改革与雍正摊丁入亩的长期效果。
16. 丝绸之路如何促成佛教中国化？请结合鸠摩罗什译经与敦煌壁画演变具体说明。

综合挑战题
17. 用数学归纳法解释“温水煮青蛙”理论的逻辑缺陷，并延伸到现代人的认知盲区分析。
18. 设计物理实验验证“薛定谔的猫”思想实验，需包含对照组和可观测指标。
19. 王阳明“知行合一”理念对当代创业者有何启示？结合心学理论与精益创业方法论论述。
20. 如果苏轼穿越到现代遭遇职场PUA，根据他的诗词性格推断其应对方式，需引用作品佐证。

而在翻译方面，我们测试一下三种语言，英文、法语、阿拉伯语。

【嗯，用户之前已经询问过如何在Ubuntu下运行GGUF模型，现在他们提到自己装的是双系统，有一个A盘是exFAT格式，用来存储模型和软件。现在用户想知道在Ubuntu下如何用-m参数指定这个A盘的位置。

首先，我需要确认用户的需求。他们可能已经将模型文件存放在这个exFAT格式的硬盘上，不想复制到Ubuntu系统的内部存储，而是直接挂载后访问。关键点在于如何在Ubuntu中正确挂载exFAT格式的硬盘，并获取正确的路径来使用-m参数。

接下来，我需要回忆exFAT在Ubuntu下的支持情况。Ubuntu默认可能不安装exFAT的支持，需要安装exfat-fuse和exfat-utils包。用户可能需要先安装这些软件包才能挂载exFAT硬盘。

然后，用户需要知道如何挂载硬盘。通常，exFAT硬盘在插入后会被自动挂载到/media/用户名/磁盘标签的路径下。但如果是双系统的情况，可能需要手动挂载，特别是如果硬盘没有自动挂载的话。用户可能需要使用mount命令，或者修改/etc/fstab文件实现自动挂载。

另外，用户可能需要确认硬盘的设备标识符，比如/dev/sda1这样的路径，使用lsblk或者sudo fdisk -l来查看。挂载时需要指定正确的设备路径和挂载点。

挂载完成后，用户需要确定模型的路径，例如/mnt/A_disk/models/xxx.gguf，然后在运行llama.cpp时使用-m参数指定这个路径。】

【《顶果钦哲饶色达瓦之自传》中记载：”堪钦托嘎如意宝身语意一切所行皆如理如法，严守戒律，膳时不语，诵经止语，稍有闲时则阅览群书、著书立说、讲经说法，不积微财，袈裟褴褛，处居简陋。”法王如意宝也说：”自我初见上师老人家之始，上师老人家戒律极其清净，凡所行事皆以持戒为准，（我）依照行菩提心二地的特性，故认为上师老人家定是二地菩萨。”佐钦堪钦阿沃拉贡仁波切亦如是赞叹：”释教律藏戒学极清净。”但凡正士，无论教派，不分老幼，皆称大德高僧应如巴特尔堪钦托嘎如意宝般持戒清净、道德高尚。】

【The Assignee acknowledges COOK’s exclusiveownership on the assigned intellectual and industrial property rightsand therefore undertakes the obligation toadopt the appropriate measuresto this end. Within said measures, the Assignee shallrefrain from acting in anymanner which could adversely affect the Company's interests and in thisregard expressly accepts that it will not, file or register, directly and/or indirectly,any industrial and intellectual property right that might be considered identical orsimilar to the ones contained in Annex I. Additionally, the Assignee will be obliged toinform the Company as soon as possible of any evidence of infringement over saidindustrial and intellectual property rights that it may, at any time, appreciate.】

Ref · 发表于 2025-5-6 14:35:34

本帖最后由 Ref 于 2025-5-11 22:43 编辑

官网由于网络问题，每次5个5个问

因为篇幅太长影响后面几个，所以全部放到WORD里。

Ref · 发表于 2025-5-6 17:39:36

本帖最后由 Ref 于 2025-5-20 11:40 编辑

R1 llama.cpp测试
模型设置：默认
模型出处：
Q4
M2硬盘
Linux
启动时间：7分钟（再次启动速度接近）
内存占用：408G
平均速度：5
思考：4.71～5.43
1-4题：
llama_perf_sampler_print: sampling time =    42.84 ms / 474 runs ( 0.09 ms per token, 11064.17 tokens per second)
llama_perf_context_print:       load time =  352492.78 ms
llama_perf_context_print: prompt eval time = 9275.29 ms / 116 tokens ( 79.96 ms per token, 12.51 tokens per second)
llama_perf_context_print:       eval time =  465296.26 ms /  2528 runs (  184.06 ms per token,    5.43 tokens per second)
llama_perf_context_print:    total time = 1600088.56 ms /  2644 tokens
Interrupted by user

4-20 +诗词两首
llama_perf_sampler_print: sampling time =    54.66 ms / 524 runs ( 0.10 ms per token,  9586.71 tokens per second)
llama_perf_context_print:       load time =  292761.28 ms
llama_perf_context_print: prompt eval time = 66522.47 ms / 808 tokens ( 82.33 ms per token, 12.15 tokens per second)
llama_perf_context_print:       eval time = 3141268.04 ms / 14781 runs (  212.52 ms per token,    4.71 tokens per second)
llama_perf_context_print:    total time = 5309707.49 ms / 15589 tokens
Interrupted by user

9道选择题：5.19～5.74
1-5题：
llama_perf_sampler_print: sampling time =    1.34 ms / 31 runs ( 0.04 ms per token, 23117.08 tokens per second)
llama_perf_context_print:       load time =  423321.39 ms
llama_perf_context_print: prompt eval time = 56598.63 ms / 675 tokens ( 83.85 ms per token, 11.93 tokens per second)
llama_perf_context_print:       eval time = 1192807.47 ms /  6186 runs (  192.82 ms per token,    5.19 tokens per second)
llama_perf_context_print:    total time = 1931853.62 ms /  6861 tokens

6-9题：
llama_perf_sampler_print: sampling time =    36.75 ms / 551 runs ( 0.07 ms per token, 14994.42 tokens per second)
llama_perf_context_print:       load time =  249497.86 ms
llama_perf_context_print: prompt eval time = 55151.17 ms / 403 tokens (  136.85 ms per token,    7.31 tokens per second)
llama_perf_context_print:       eval time =  460945.07 ms /  2644 runs (  174.34 ms per token,    5.74 tokens per second)
llama_perf_context_print:    total time =  747848.24 ms /  3047 tokens

翻译：4.69～5.18
中英互译：
llama_perf_sampler_print: sampling time =    72.75 ms / 907 runs ( 0.08 ms per token, 12467.87 tokens per second)
llama_perf_context_print:       load time =  297001.68 ms
llama_perf_context_print: prompt eval time = 34029.24 ms / 725 tokens ( 46.94 ms per token, 21.31 tokens per second)
llama_perf_context_print:       eval time =  451957.04 ms /  2342 runs (  192.98 ms per token,    5.18 tokens per second)
llama_perf_context_print:    total time = 1209805.02 ms /  3067 tokens

小语种：
llama_perf_sampler_print: sampling time =    104.61 ms /  1238 runs ( 0.08 ms per token, 11834.21 tokens per second)
llama_perf_context_print:       load time =  298177.58 ms
llama_perf_context_print: prompt eval time = 85875.67 ms /  1456 tokens ( 58.98 ms per token, 16.95 tokens per second)
llama_perf_context_print:       eval time = 1401508.64 ms /  6572 runs (  213.25 ms per token,    4.69 tokens per second)
llama_perf_context_print:    total time = 3822146.64 ms /  8028 tokens

总结，速度正常可用。

Q4
机械硬盘
Linux
启动时间：30分钟（再次启动约7分钟）
内存占用：408G
平均速度：4.68～4.90（最高5.7），平均速度4.8

1-18题：
llama_perf_sampler_print: sampling time =    116.37 ms /  1257 runs ( 0.09 ms per token, 10801.66 tokens per second)
llama_perf_context_print:       load time = 1815204.27 ms
llama_perf_context_print: prompt eval time =  250398.94 ms / 636 tokens (  393.71 ms per token,    2.54 tokens per second)
llama_perf_context_print:       eval time = 2147095.64 ms / 10049 runs (  213.66 ms per token,    4.68 tokens per second)
llama_perf_context_print:    total time = 3469425.54 ms / 10685 tokens

19-20题+诗词两首+9道选择题：
llama_perf_sampler_print: sampling time =    19.74 ms / 363 runs ( 0.05 ms per token, 18387.19 tokens per second)
llama_perf_context_print:       load time =  244774.61 ms
llama_perf_context_print: prompt eval time = 63628.53 ms / 958 tokens ( 66.42 ms per token, 15.06 tokens per second)
llama_perf_context_print:       eval time =  916522.58 ms /  4495 runs (  203.90 ms per token,    4.90 tokens per second)
llama_perf_context_print:    total time = 2231814.65 ms /  5453 tokens

翻译：4.90～5.09

中英互译：
llama_perf_sampler_print: sampling time =    77.05 ms / 951 runs ( 0.08 ms per token, 12342.96 tokens per second)
llama_perf_context_print:       load time =  248549.78 ms
llama_perf_context_print: prompt eval time = 34104.71 ms / 724 tokens ( 47.11 ms per token, 21.23 tokens per second)
llama_perf_context_print:       eval time =  500879.10 ms /  2548 runs (  196.58 ms per token,    5.09 tokens per second)
llama_perf_context_print:    total time =  683281.43 ms /  3272 tokens

小语种：
llama_perf_sampler_print: sampling time =    36.69 ms / 539 runs ( 0.07 ms per token, 14689.45 tokens per second)
llama_perf_context_print:       load time =  246629.02 ms
llama_perf_context_print: prompt eval time = 76682.09 ms /  1452 tokens ( 52.81 ms per token, 18.94 tokens per second)
llama_perf_context_print:       eval time =  764088.57 ms /  3747 runs (  203.92 ms per token,    4.90 tokens per second)
llama_perf_context_print:    total time = 1180299.07 ms /  5199 tokens

总结：与M2硬盘的速度差距非常小，约4-5%。但是运行过程中出现幻觉和无关联想。并且有一些回答没有思考过程。

Ref · 发表于 2025-5-6 17:55:28

本帖最后由 Ref 于 2025-5-19 15:54 编辑

R1测试

Q4：Ollama官网
M2硬盘
Windows
Ollama
启用48核
上下文设置为1024
动态上下文
高性能模式
关闭超线程

前9题没限制输出token
之后限制输出在300字左右。

启动时间：7-8分钟
平均速度：2.7
19题（有一题没保留速度）+诗词：
eval count:          总11506 token(s)
eval duration:       总4237s
eval rate:          平均2.71 tokens/s

中英：
eval count:          总1952 token(s)
eval duration:       总752s
eval rate:          平均2.59 tokens/s

小语种：
eval count:          总6266 token(s)
eval duration:       总2567s
eval rate:          平均2.44 tokens/s

总结：会有无关联想和联系前文，翻译没有严格按照要求。在翻译小语种时速度明显下降。

Ref · 发表于 2025-5-9 10:56:42

本帖最后由 Ref 于 2025-5-20 16:56 编辑

R1-Q8
M2硬盘
Linux
启动时间：7-8分钟
内存占用：720G

平均速度：3.8～4.6

第1题：
llama_perf_sampler_print: sampling time =    135.61 ms /  1461 runs ( 0.09 ms per token, 10773.70 tokens per second)
llama_perf_context_print:       load time =  377622.58 ms
llama_perf_context_print: prompt eval time = 3262.33 ms / 37 tokens ( 88.17 ms per token, 11.34 tokens per second)
llama_perf_context_print:       eval time =  305518.75 ms /  1424 runs (  214.55 ms per token,    4.66 tokens per second)
llama_perf_context_print:    total time = 1020828.43 ms /  1461 tokens

第2-10题：
llama_perf_sampler_print: sampling time =    203.56 ms /  2232 runs ( 0.09 ms per token, 10964.88 tokens per second)
llama_perf_context_print:       load time = 44270.98 ms
llama_perf_context_print: prompt eval time = 33512.89 ms / 337 tokens ( 99.44 ms per token, 10.06 tokens per second)
llama_perf_context_print:       eval time = 3455427.98 ms / 13402 runs (  257.83 ms per token,    3.88 tokens per second)
llama_perf_context_print:    total time = 10967631.62 ms / 13739 tokens

第11-20题+诗词两首：
llama_perf_sampler_print: sampling time =    53.38 ms / 627 runs ( 0.09 ms per token, 11745.97 tokens per second)
llama_perf_context_print:       load time = 43570.87 ms
llama_perf_context_print: prompt eval time =  117737.52 ms / 545 tokens (  216.03 ms per token,    4.63 tokens per second)
llama_perf_context_print:       eval time = 3872778.81 ms / 15046 runs (  257.40 ms per token,    3.89 tokens per second)
llama_perf_context_print:    total time = 5346915.95 ms / 15591 tokens

9道判断题：
llama_perf_sampler_print: sampling time =    19.10 ms / 360 runs ( 0.05 ms per token, 18849.15 tokens per second)
llama_perf_context_print:       load time = 43617.84 ms
llama_perf_context_print: prompt eval time = 72869.24 ms / 729 tokens ( 99.96 ms per token, 10.00 tokens per second)
llama_perf_context_print:       eval time = 1064502.48 ms /  4260 runs (  249.88 ms per token,    4.00 tokens per second)
llama_perf_context_print:    total time = 1627169.86 ms /  4989 tokens

中英：

llama_perf_sampler_print: sampling time =    84.30 ms /  1053 runs ( 0.08 ms per token, 12490.51 tokens per second)
llama_perf_context_print:       load time = 45094.40 ms
llama_perf_context_print: prompt eval time = 97619.43 ms /  1369 tokens ( 71.31 ms per token, 14.02 tokens per second)
llama_perf_context_print:       eval time = 1287605.02 ms /  5093 runs (  252.82 ms per token,    3.96 tokens per second)
llama_perf_context_print:    total time = 1567649.47 ms /  6462 tokens

小语种：

llama_perf_sampler_print: sampling time =    101.02 ms /  1227 runs ( 0.08 ms per token, 12146.23 tokens per second)
llama_perf_context_print:       load time = 43962.88 ms
llama_perf_context_print: prompt eval time = 20829.65 ms / 391 tokens ( 53.27 ms per token, 18.77 tokens per second)
llama_perf_context_print:       eval time =  473968.07 ms /  2085 runs (  227.32 ms per token,    4.40 tokens per second)
llama_perf_context_print:    total time =  639928.61 ms /  2476 tokens

R1-Q8
机械硬盘
Linux
启动时间：30-40分钟（再次启动约5-10分钟）
内存占用：720G
平均速度：3.84～4.4

20题+诗词：
llama_perf_sampler_print: sampling time =    86.42 ms / 952 runs ( 0.09 ms per token, 11015.59 tokens per second)
llama_perf_context_print:       load time = 2840729.22 ms
llama_perf_context_print: prompt eval time = 89732.99 ms / 737 tokens (  121.75 ms per token,    8.21 tokens per second)
llama_perf_context_print:       eval time = 7083268.58 ms / 27205 runs (  260.37 ms per token,    3.84 tokens per second)
llama_perf_context_print:    total time = 41132968.64 ms / 27942 tokens

9道题：
llama_perf_sampler_print: sampling time =    5.65 ms / 219 runs ( 0.03 ms per token, 38795.39 tokens per second)
llama_perf_context_print:       load time = 2841246.69 ms
llama_perf_context_print: prompt eval time = 98016.24 ms / 882 tokens (  111.13 ms per token,    9.00 tokens per second)
llama_perf_context_print:       eval time = 1482749.41 ms /  5999 runs (  247.17 ms per token,    4.05 tokens per second)
llama_perf_context_print:    total time = 4164448.13 ms /  6881 tokens

中英：
llama_perf_sampler_print: sampling time =    93.28 ms /  1177 runs ( 0.08 ms per token, 12618.33 tokens per second)
llama_perf_context_print:       load time = 43456.58 ms
llama_perf_context_print: prompt eval time = 79371.49 ms /  1332 tokens ( 59.59 ms per token, 16.78 tokens per second)
llama_perf_context_print:       eval time = 1403424.69 ms /  5658 runs (  248.04 ms per token,    4.03 tokens per second)
llama_perf_context_print:    total time = 1693508.46 ms /  6990 tokens

小语种：
llama_perf_sampler_print: sampling time =    91.58 ms /  1131 runs ( 0.08 ms per token, 12349.45 tokens per second)
llama_perf_context_print:       load time = 43583.10 ms
llama_perf_context_print: prompt eval time = 20640.80 ms / 391 tokens ( 52.79 ms per token, 18.94 tokens per second)
llama_perf_context_print:       eval time =  445619.46 ms /  1962 runs (  227.13 ms per token,    4.40 tokens per second)
llama_perf_context_print:    total time =  614297.96 ms /  2353 tokens

总结：机械硬盘和M2硬盘的差距很小几乎可以忽略不计，但是都出现了同样的幻觉和联系无关前文，以及翻译不按照要求。在不加限制和特殊符号的情况下，AI会自己发散。词的创作都不合格。某种程度上，Q8的过度发挥和思考反而让有些回答不如Q4。但Q4的问题就是会陷入循环和自问自答（Q8也有但很少）。

Q4和Q8都有思考过程，但是翻译出来的结果还是有问题，最明显的是排版问题。原文是整段但是翻译出来擅自加了破折号等各种符号。

Ref · 发表于 2025-5-11 12:33:56

本帖最后由 Ref 于 2025-5-20 11:07 编辑

R1测试

Q8：Ollama官网
M2硬盘
Windows
Ollama
默认设置（Ollama设置与Q4一致，因此出现了经常报错的情况，经分析可能是上下文超出限制）
内存占用：730G
启动时间：10-13分钟
平均速度：1.9
由于经常报错因此测试内容减少。

1-5题+诗词：
eval count:          总6529 token(s)
eval duration:       总2973s
eval rate:          平均2.2 tokens/s

中英：

total duration: 8m24.134264s

load duration: 19.7559ms

prompt eval count: 361 token(s)

prompt eval duration: 39.5668746s

prompt eval rate: 9.12 tokens/s

eval count: 858 token(s)

eval duration: 7m44.5464896s

eval rate: 1.85 tokens/s

阿拉伯语：

total duration: 8m47.6866188s

load duration: 19.8606ms

prompt eval count: 237 token(s)

prompt eval duration: 31.5028408s

prompt eval rate: 7.52 tokens/s

eval count: 913 token(s)

eval duration: 8m16.1628236s

eval rate: 1.84 tokens/s

总结：速度明显下降，诗词没有按照要求。

Ref · 发表于 2025-5-14 18:42:07

本帖最后由 Ref 于 2025-5-20 17:17 编辑

V3测试

Q4
M2硬盘
Linux
Llama.cpp
默认设置
内存占用：459G
启动时间：7-10分钟
平均速度：4.79～5.6

1-20题+2诗词：
llama_perf_sampler_print: sampling time =    38.50 ms / 465 runs ( 0.08 ms per token, 12078.24 tokens per second)
llama_perf_context_print:       load time =  368181.07 ms
llama_perf_context_print: prompt eval time = 47980.50 ms / 683 tokens ( 70.25 ms per token, 14.23 tokens per second)
llama_perf_context_print:       eval time = 2937606.35 ms / 15075 runs (  194.87 ms per token,    5.13 tokens per second)
llama_perf_context_print:    total time = 22847088.27 ms / 15758 tokens

9道判断题：
llama_perf_sampler_print: sampling time =    9.14 ms / 256 runs ( 0.04 ms per token, 28005.69 tokens per second)
llama_perf_context_print:       load time =  315485.19 ms
llama_perf_context_print: prompt eval time = 44328.77 ms / 725 tokens ( 61.14 ms per token, 16.36 tokens per second)
llama_perf_context_print:       eval time =  406323.39 ms /  2179 runs (  186.47 ms per token,    5.36 tokens per second)
llama_perf_context_print:    total time =  987382.34 ms /  2904 tokens

中英：
llama_perf_sampler_print: sampling time =    23.72 ms / 399 runs ( 0.06 ms per token, 16822.67 tokens per second)
llama_perf_context_print:       load time =  298557.84 ms
llama_perf_context_print: prompt eval time = 32726.01 ms / 723 tokens ( 45.26 ms per token, 22.09 tokens per second)
llama_perf_context_print:       eval time =  169239.87 ms / 948 runs (  178.52 ms per token,    5.60 tokens per second)
llama_perf_context_print:    total time =  420943.24 ms /  1671 tokens

小语种：
llama_perf_sampler_print: sampling time =    61.93 ms / 814 runs ( 0.08 ms per token, 13143.24 tokens per second)
llama_perf_context_print:       load time =  290892.08 ms
llama_perf_context_print: prompt eval time = 75806.53 ms /  1451 tokens ( 52.24 ms per token, 19.14 tokens per second)
llama_perf_context_print:       eval time =  911633.60 ms /  4371 runs (  208.56 ms per token,    4.79 tokens per second)
llama_perf_context_print:    total time = 1432269.93 ms /  5822 tokens

V3的启动和回复速度都很快，但是有些部分过于简略。如果从难题的回答情况来看，可能又适中。但是缺乏思考过程是一个比较不方便的，可以用来做直接启动的辅助工作比如预翻译。

Ref · 发表于 2025-5-14 21:23:50

本帖最后由 Ref 于 2025-5-20 17:18 编辑

V3测试

Q4
机械硬盘
Linux
Llama.cpp
默认设置
内存占用：407G
启动时间：30分钟（再次启动约7-10分钟）
平均速度：4.62～5.46

1～20题+2诗词：
llama_perf_sampler_print: sampling time =    32.58 ms / 405 runs ( 0.08 ms per token, 12432.47 tokens per second)
llama_perf_context_print:       load time = 1857258.71 ms
llama_perf_context_print: prompt eval time = 58873.55 ms / 686 tokens ( 85.82 ms per token, 11.65 tokens per second)
llama_perf_context_print:       eval time = 3310035.21 ms / 15290 runs (  216.48 ms per token,    4.62 tokens per second)
llama_perf_context_print:    total time = 4327468.02 ms / 15976 tokens

9道判断题：
llama_perf_sampler_print: sampling time =    5.33 ms / 211 runs ( 0.03 ms per token, 39572.39 tokens per second)
llama_perf_context_print:       load time =  249280.50 ms
llama_perf_context_print: prompt eval time = 43399.23 ms / 722 tokens ( 60.11 ms per token, 16.64 tokens per second)
llama_perf_context_print:       eval time =  377406.42 ms /  2020 runs (  186.83 ms per token,    5.35 tokens per second)
llama_perf_context_print:    total time =  898592.61 ms /  2742 tokens

中英：
llama_perf_sampler_print: sampling time =    37.75 ms / 551 runs ( 0.07 ms per token, 14597.57 tokens per second)
llama_perf_context_print:       load time =  248067.46 ms
llama_perf_context_print: prompt eval time = 32841.13 ms / 722 tokens ( 45.49 ms per token, 21.98 tokens per second)
llama_perf_context_print:       eval time =  257720.00 ms /  1407 runs (  183.17 ms per token,    5.46 tokens per second)
llama_perf_context_print:    total time =  421470.33 ms /  2129 tokens

小语种：
llama_perf_sampler_print: sampling time =    46.23 ms / 639 runs ( 0.07 ms per token, 13823.39 tokens per second)
llama_perf_context_print:       load time =  248722.91 ms
llama_perf_context_print: prompt eval time = 74841.19 ms /  1455 tokens ( 51.44 ms per token, 19.44 tokens per second)
llama_perf_context_print:       eval time =  752638.42 ms /  3659 runs (  205.70 ms per token,    4.86 tokens per second)
llama_perf_context_print:    total time = 1099581.45 ms /  5114 tokens

速度与M2硬盘基本一致，没有卡顿。问题和M2硬盘的Q4一样。

Ref · 发表于 2025-5-15 09:46:11

本帖最后由 Ref 于 2025-5-20 14:22 编辑

V3测试

Q4：Ollama官网（注意是原版不是0324更新后的V3）
M2硬盘
Windows
Ollama
默认设置（与R1时设置一致，因多次报错所以减少测试内容）
内存占用：440G
启动时间：5-7分钟
平均速度：2.28

1~5题：
eval count:          总3239 token(s)
eval duration:       总1582s
eval rate:          平均2.04 tokens/s

中英：
eval count:          总1732 token(s)
eval duration:       总637s
eval rate:          平均2.72tokens/s

小语种：
eval count:          总575 token(s)
eval duration:       总206s
eval rate:          平均2.8tokens/s

总结：速度比R1的Q4要稍微慢一些，但同样属于不可用的速度，因为这是在短的上下文情况下测试的，长文会明显降速。在每秒输出低于2的情况下如果报错将浪费大量时间。V3的优点是执行更快，但是并不代表输出的速度会更快。中间经常出现卡顿的情况。

翻译出现了明显的理解错误（修改译文理解成修改原文）。

Ref · 发表于 2025-5-15 09:46:27

本帖最后由 Ref 于 2025-5-20 20:08 编辑

V3-Q8

M2硬盘
Linux
llama.cpp
默认设置
内存占用：719G
启动时间：10-15分钟
平均速度：3.9~4.3

20题+诗词：
llama_perf_sampler_print: sampling time =    32.26 ms / 401 runs ( 0.08 ms per token, 12430.25 tokens per second)
llama_perf_context_print:       load time =  341914.25 ms
llama_perf_context_print: prompt eval time =  141455.13 ms / 697 tokens (  202.95 ms per token,    4.93 tokens per second)
llama_perf_context_print:       eval time = 4389685.45 ms / 17109 runs (  256.57 ms per token,    3.90 tokens per second)
llama_perf_context_print:    total time = 7872414.02 ms / 17806 tokens

9道判断题：
llama_perf_sampler_print: sampling time =    12.66 ms / 293 runs ( 0.04 ms per token, 23136.45 tokens per second)
llama_perf_context_print:       load time = 44325.06 ms
llama_perf_context_print: prompt eval time = 51062.22 ms / 725 tokens ( 70.43 ms per token, 14.20 tokens per second)
llama_perf_context_print:       eval time =  581404.13 ms /  2498 runs (  232.75 ms per token,    4.30 tokens per second)
llama_perf_context_print:    total time = 1163563.38 ms /  3223 tokens

中英：
llama_perf_sampler_print: sampling time =    46.88 ms / 691 runs ( 0.07 ms per token, 14740.08 tokens per second)
llama_perf_context_print:       load time = 43335.68 ms
llama_perf_context_print: prompt eval time = 83787.11 ms /  1338 tokens ( 62.62 ms per token, 15.97 tokens per second)
llama_perf_context_print:       eval time =  775578.34 ms /  3168 runs (  244.82 ms per token,    4.08 tokens per second)
llama_perf_context_print:    total time = 1025415.76 ms /  4506 tokens

小语种：
llama_perf_sampler_print: sampling time =    53.91 ms / 719 runs ( 0.07 ms per token, 13335.81 tokens per second)
llama_perf_context_print:       load time = 43651.43 ms
llama_perf_context_print: prompt eval time =  179193.75 ms /  1815 tokens ( 98.73 ms per token, 10.13 tokens per second)
llama_perf_context_print:       eval time =  998199.22 ms /  3921 runs (  254.58 ms per token,    3.93 tokens per second)
llama_perf_context_print:    total time = 1559981.86 ms /  5736 tokens

总结：速度对比Q4没有明显下降，质量有一定提升但不是特别明显。诗词方面诗还不错，但是词抄的太明显。但是！判断题中旧的Q8和所有V3都错的地方，新版Q8回答正确。翻译方面，有时候Q8会按照要求正常翻译，有时候会自己加格式分段，目前不清楚原因。

[测试][R1][V3][完结]双路768G配置-两种硬盘的Q4/Q8测速

Ref LV16